End of training

Browse files

Files changed (6) hide show

.gitattributes +1 -0
all_results.json +11 -11
eval_results.json +7 -7
logs/events.out.tfevents.1686401208.serv-3318.135844.1 +3 -0
train_results.json +5 -5
trainer_state.json +3 -1831

.gitattributes CHANGED Viewed

@@ -32,3 +32,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+trainer_state.json filter=lfs diff=lfs merge=lfs -text

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 1.53,
-    "eval_accuracy": 2.9114457332740555e-05,
-    "eval_loss": NaN,
-    "eval_runtime": 1244.2688,
     "eval_samples": 308356,
-    "eval_samples_per_second": 247.821,
-    "eval_steps_per_second": 3.873,
-    "perplexity": NaN,
-    "train_loss": 0.3459514281929236,
-    "train_runtime": 108836.6872,
     "train_samples": 5858758,
-    "train_samples_per_second": 269.154,
-    "train_steps_per_second": 4.206
 }

 {
+    "epoch": 0.85,
+    "eval_accuracy": 0.15112417542322987,
+    "eval_loss": 6.060698509216309,
+    "eval_runtime": 1562.4042,
     "eval_samples": 308356,
+    "eval_samples_per_second": 197.36,
+    "eval_steps_per_second": 4.112,
+    "perplexity": 428.6747655797377,
+    "train_loss": 6.324463086895448,
+    "train_runtime": 89974.5083,
     "train_samples": 5858758,
+    "train_samples_per_second": 325.579,
+    "train_steps_per_second": 6.783
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 1.53,
-    "eval_accuracy": 2.9114457332740555e-05,
-    "eval_loss": NaN,
-    "eval_runtime": 1244.2688,
     "eval_samples": 308356,
-    "eval_samples_per_second": 247.821,
-    "eval_steps_per_second": 3.873,
-    "perplexity": NaN
 }

 {
+    "epoch": 0.85,
+    "eval_accuracy": 0.15112417542322987,
+    "eval_loss": 6.060698509216309,
+    "eval_runtime": 1562.4042,
     "eval_samples": 308356,
+    "eval_samples_per_second": 197.36,
+    "eval_steps_per_second": 4.112,
+    "perplexity": 428.6747655797377
 }

logs/events.out.tfevents.1686401208.serv-3318.135844.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5283c3252ebe3cbb3f187742a92785b0b3f6283eda8db2d6cc29049cf9c4bfc3
+size 369

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.53,
-    "train_loss": 0.3459514281929236,
-    "train_runtime": 108836.6872,
     "train_samples": 5858758,
-    "train_samples_per_second": 269.154,
-    "train_steps_per_second": 4.206
 }

 {
+    "epoch": 0.85,
+    "train_loss": 6.324463086895448,
+    "train_runtime": 89974.5083,
     "train_samples": 5858758,
+    "train_samples_per_second": 325.579,
+    "train_steps_per_second": 6.783
 }

trainer_state.json CHANGED Viewed

@@ -1,1831 +1,3 @@
-{
-  "best_metric": NaN,
-  "best_model_checkpoint": "add_bert_12_layer_model_complete_training_new/checkpoint-10000",
-  "epoch": 1.5293301581753038,
-  "global_step": 140001,
-  "is_hyper_param_search": false,
-  "is_local_process_zero": true,
-  "is_world_process_zero": true,
-  "log_history": [
-    {
-      "epoch": 0.01,
-      "learning_rate": 2.5e-05,
-      "loss": 8.2896,
-      "step": 500
-    },
-    {
-      "epoch": 0.01,
-      "learning_rate": 5e-05,
-      "loss": 6.8372,
-      "step": 1000
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 7.5e-05,
-      "loss": 6.683,
-      "step": 1500
-    },
-    {
-      "epoch": 0.02,
-      "learning_rate": 0.0001,
-      "loss": 6.5955,
-      "step": 2000
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.000125,
-      "loss": 6.5373,
-      "step": 2500
-    },
-    {
-      "epoch": 0.03,
-      "learning_rate": 0.00015,
-      "loss": 6.4804,
-      "step": 3000
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.000175,
-      "loss": 6.4463,
-      "step": 3500
-    },
-    {
-      "epoch": 0.04,
-      "learning_rate": 0.0002,
-      "loss": 6.408,
-      "step": 4000
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.00022500000000000002,
-      "loss": 6.3827,
-      "step": 4500
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 0.00025,
-      "loss": 6.3731,
-      "step": 5000
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 0.000275,
-      "loss": 6.3479,
-      "step": 5500
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.0003,
-      "loss": 6.3401,
-      "step": 6000
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 0.0003239,
-      "loss": 7.0795,
-      "step": 6500
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.00034155000000000003,
-      "loss": 10.0665,
-      "step": 7000
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 0.00036655,
-      "loss": 0.0,
-      "step": 7500
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.00039155,
-      "loss": 0.0,
-      "step": 8000
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 0.00041654999999999996,
-      "loss": 0.0,
-      "step": 8500
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.00044155,
-      "loss": 0.0,
-      "step": 9000
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 0.00046655000000000004,
-      "loss": 0.0,
-      "step": 9500
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.00049155,
-      "loss": 0.0,
-      "step": 10000
-    },
-    {
-      "epoch": 0.11,
-      "eval_accuracy": 3.0592783198016594e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1245.7969,
-      "eval_samples_per_second": 247.517,
-      "eval_steps_per_second": 3.868,
-      "step": 10000
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 0.0004996303493254713,
-      "loss": 0.0,
-      "step": 10500
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 0.0004990719646207451,
-      "loss": 0.0,
-      "step": 11000
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.000498513579916019,
-      "loss": 0.0,
-      "step": 11500
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 0.0004979551952112928,
-      "loss": 0.0,
-      "step": 12000
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.0004973968105065666,
-      "loss": 0.0,
-      "step": 12500
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 0.0004968384258018405,
-      "loss": 0.0,
-      "step": 13000
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.0004962800410971143,
-      "loss": 0.0,
-      "step": 13500
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 0.0004957216563923881,
-      "loss": 0.0,
-      "step": 14000
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.0004951632716876619,
-      "loss": 0.0,
-      "step": 14500
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 0.0004946048869829357,
-      "loss": 0.0,
-      "step": 15000
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0004940465022782096,
-      "loss": 0.0,
-      "step": 15500
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 0.0004934881175734834,
-      "loss": 0.0,
-      "step": 16000
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 0.0004929297328687572,
-      "loss": 0.0,
-      "step": 16500
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.0004923713481640312,
-      "loss": 0.0,
-      "step": 17000
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 0.000491812963459305,
-      "loss": 0.0,
-      "step": 17500
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.0004912545787545788,
-      "loss": 0.0,
-      "step": 18000
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 0.0004906961940498526,
-      "loss": 0.0,
-      "step": 18500
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.0004901378093451264,
-      "loss": 0.0,
-      "step": 19000
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 0.0004895794246404003,
-      "loss": 0.0,
-      "step": 19500
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.0004890210399356741,
-      "loss": 0.0,
-      "step": 20000
-    },
-    {
-      "epoch": 0.22,
-      "eval_accuracy": 3.5159707526351004e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1244.1268,
-      "eval_samples_per_second": 247.849,
-      "eval_steps_per_second": 3.873,
-      "step": 20000
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 0.0004884626552309479,
-      "loss": 0.0,
-      "step": 20500
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00048790427052622175,
-      "loss": 0.0,
-      "step": 21000
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 0.00048734588582149556,
-      "loss": 0.0,
-      "step": 21500
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 0.0004867875011167694,
-      "loss": 0.0,
-      "step": 22000
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.0004862291164120433,
-      "loss": 0.0,
-      "step": 22500
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 0.0004856707317073171,
-      "loss": 0.0,
-      "step": 23000
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.00048511234700259094,
-      "loss": 0.0,
-      "step": 23500
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 0.00048455396229786475,
-      "loss": 0.0,
-      "step": 24000
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.00048399557759313855,
-      "loss": 0.0,
-      "step": 24500
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 0.0004834371928884124,
-      "loss": 0.0,
-      "step": 25000
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.0004828788081836862,
-      "loss": 0.0,
-      "step": 25500
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 0.0004823204234789601,
-      "loss": 0.0,
-      "step": 26000
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00048176203877423393,
-      "loss": 0.0,
-      "step": 26500
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 0.00048120365406950774,
-      "loss": 0.0,
-      "step": 27000
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 0.0004806452693647816,
-      "loss": 0.0,
-      "step": 27500
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.0004800868846600554,
-      "loss": 0.0,
-      "step": 28000
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 0.0004795284999553292,
-      "loss": 0.0,
-      "step": 28500
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00047897011525060306,
-      "loss": 0.0,
-      "step": 29000
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 0.00047841173054587687,
-      "loss": 0.0,
-      "step": 29500
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.0004778533458411508,
-      "loss": 0.0,
-      "step": 30000
-    },
-    {
-      "epoch": 0.33,
-      "eval_accuracy": 3.357992413338889e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1245.2057,
-      "eval_samples_per_second": 247.635,
-      "eval_steps_per_second": 3.87,
-      "step": 30000
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 0.0004772949611364246,
-      "loss": 0.0,
-      "step": 30500
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.0004767365764316984,
-      "loss": 0.0,
-      "step": 31000
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 0.00047617819172697225,
-      "loss": 0.0,
-      "step": 31500
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 0.00047561980702224606,
-      "loss": 0.0,
-      "step": 32000
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.00047506142231751986,
-      "loss": 0.0,
-      "step": 32500
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 0.0004745030376127937,
-      "loss": 0.0,
-      "step": 33000
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 0.0004739446529080675,
-      "loss": 0.0,
-      "step": 33500
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 0.0004733862682033414,
-      "loss": 0.0,
-      "step": 34000
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.00047282788349861524,
-      "loss": 0.0,
-      "step": 34500
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 0.00047226949879388905,
-      "loss": 0.0,
-      "step": 35000
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.0004717111140891629,
-      "loss": 0.0,
-      "step": 35500
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 0.0004711527293844367,
-      "loss": 0.0,
-      "step": 36000
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0004705943446797105,
-      "loss": 0.0,
-      "step": 36500
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 0.0004700359599749844,
-      "loss": 0.0,
-      "step": 37000
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 0.0004694775752702582,
-      "loss": 0.0,
-      "step": 37500
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.00046891919056553204,
-      "loss": 0.0,
-      "step": 38000
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 0.0004683608058608059,
-      "loss": 0.0,
-      "step": 38500
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.0004678024211560797,
-      "loss": 0.0,
-      "step": 39000
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 0.00046724403645135356,
-      "loss": 0.0,
-      "step": 39500
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00046668565174662736,
-      "loss": 0.0,
-      "step": 40000
-    },
-    {
-      "epoch": 0.44,
-      "eval_accuracy": 3.1386399970587474e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1244.2525,
-      "eval_samples_per_second": 247.824,
-      "eval_steps_per_second": 3.873,
-      "step": 40000
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 0.00046612726704190117,
-      "loss": 0.0,
-      "step": 40500
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.00046556888233717503,
-      "loss": 0.0,
-      "step": 41000
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 0.00046501049763244883,
-      "loss": 0.0,
-      "step": 41500
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.0004644521129277227,
-      "loss": 0.0,
-      "step": 42000
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 0.00046389372822299655,
-      "loss": 0.0,
-      "step": 42500
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 0.00046333534351827036,
-      "loss": 0.0,
-      "step": 43000
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.0004627769588135442,
-      "loss": 0.0,
-      "step": 43500
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 0.000462218574108818,
-      "loss": 0.0,
-      "step": 44000
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.0004616601894040919,
-      "loss": 0.0,
-      "step": 44500
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 0.0004611018046993657,
-      "loss": 0.0,
-      "step": 45000
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.0004605434199946395,
-      "loss": 0.0,
-      "step": 45500
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 0.00045998503528991335,
-      "loss": 0.0,
-      "step": 46000
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.00045942665058518715,
-      "loss": 0.0,
-      "step": 46500
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 0.000458868265880461,
-      "loss": 0.0,
-      "step": 47000
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.00045830988117573487,
-      "loss": 0.0,
-      "step": 47500
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 0.0004577514964710087,
-      "loss": 0.0,
-      "step": 48000
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 0.00045719311176628253,
-      "loss": 0.0,
-      "step": 48500
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.00045663472706155634,
-      "loss": 0.0,
-      "step": 49000
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 0.00045607634235683014,
-      "loss": 0.0,
-      "step": 49500
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 0.000455517957652104,
-      "loss": 0.0,
-      "step": 50000
-    },
-    {
-      "epoch": 0.55,
-      "eval_accuracy": 2.9965971727327976e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1242.0864,
-      "eval_samples_per_second": 248.256,
-      "eval_steps_per_second": 3.88,
-      "step": 50000
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 0.0004549595729473778,
-      "loss": 0.0,
-      "step": 50500
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.00045440118824265167,
-      "loss": 0.0,
-      "step": 51000
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 0.0004538428035379255,
-      "loss": 0.0,
-      "step": 51500
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.00045328441883319933,
-      "loss": 0.0,
-      "step": 52000
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 0.0004527260341284732,
-      "loss": 0.0,
-      "step": 52500
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.000452167649423747,
-      "loss": 0.0,
-      "step": 53000
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 0.0004516092647190208,
-      "loss": 0.0,
-      "step": 53500
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 0.00045105088001429466,
-      "loss": 0.0,
-      "step": 54000
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.00045049249530956846,
-      "loss": 0.0,
-      "step": 54500
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 0.0004499341106048423,
-      "loss": 0.0,
-      "step": 55000
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 0.0004493757259001162,
-      "loss": 0.0,
-      "step": 55500
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 0.00044881734119539,
-      "loss": 0.0,
-      "step": 56000
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.00044825895649066384,
-      "loss": 0.0,
-      "step": 56500
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 0.00044770057178593765,
-      "loss": 0.0,
-      "step": 57000
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 0.00044714218708121145,
-      "loss": 0.0,
-      "step": 57500
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 0.0004465838023764853,
-      "loss": 0.0,
-      "step": 58000
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.0004460254176717591,
-      "loss": 0.0,
-      "step": 58500
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 0.00044546703296703303,
-      "loss": 0.0,
-      "step": 59000
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 0.00044490864826230683,
-      "loss": 0.0,
-      "step": 59500
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.00044435026355758064,
-      "loss": 0.0,
-      "step": 60000
-    },
-    {
-      "epoch": 0.66,
-      "eval_accuracy": 3.177880317382685e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1238.4379,
-      "eval_samples_per_second": 248.988,
-      "eval_steps_per_second": 3.891,
-      "step": 60000
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 0.0004437918788528545,
-      "loss": 0.0,
-      "step": 60500
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.0004432334941481283,
-      "loss": 0.0,
-      "step": 61000
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 0.0004426751094434021,
-      "loss": 0.0,
-      "step": 61500
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 0.00044211672473867597,
-      "loss": 0.0,
-      "step": 62000
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 0.00044155834003394977,
-      "loss": 0.0,
-      "step": 62500
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.00044099995532922363,
-      "loss": 0.0,
-      "step": 63000
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 0.0004404415706244975,
-      "loss": 0.0,
-      "step": 63500
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.0004398831859197713,
-      "loss": 0.0,
-      "step": 64000
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 0.00043932480121504515,
-      "loss": 0.0,
-      "step": 64500
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 0.00043876641651031896,
-      "loss": 0.0,
-      "step": 65000
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.00043820803180559276,
-      "loss": 0.0,
-      "step": 65500
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0004376496471008666,
-      "loss": 0.0,
-      "step": 66000
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.0004370912623961404,
-      "loss": 0.0,
-      "step": 66500
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 0.0004365328776914143,
-      "loss": 0.0,
-      "step": 67000
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.00043597449298668814,
-      "loss": 0.0,
-      "step": 67500
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 0.00043541610828196195,
-      "loss": 0.0,
-      "step": 68000
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0004348577235772358,
-      "loss": 0.0,
-      "step": 68500
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0004342993388725096,
-      "loss": 0.0,
-      "step": 69000
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.0004337409541677834,
-      "loss": 0.0,
-      "step": 69500
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 0.0004331825694630573,
-      "loss": 0.0,
-      "step": 70000
-    },
-    {
-      "epoch": 0.76,
-      "eval_accuracy": 3.253472148144988e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1240.7983,
-      "eval_samples_per_second": 248.514,
-      "eval_steps_per_second": 3.884,
-      "step": 70000
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 0.0004326241847583311,
-      "loss": 0.0,
-      "step": 70500
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.00043206580005360494,
-      "loss": 0.0,
-      "step": 71000
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.0004315074153488788,
-      "loss": 0.0,
-      "step": 71500
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.0004309490306441526,
-      "loss": 0.0,
-      "step": 72000
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 0.00043039064593942646,
-      "loss": 0.0,
-      "step": 72500
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.00042983226123470027,
-      "loss": 0.0,
-      "step": 73000
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 0.00042927387652997407,
-      "loss": 0.0,
-      "step": 73500
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.00042871549182524793,
-      "loss": 0.0,
-      "step": 74000
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.00042815710712052174,
-      "loss": 0.0,
-      "step": 74500
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0004275987224157956,
-      "loss": 0.0,
-      "step": 75000
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 0.0004270403377110694,
-      "loss": 0.0,
-      "step": 75500
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 0.00042648195300634326,
-      "loss": 0.0,
-      "step": 76000
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.0004259235683016171,
-      "loss": 0.0,
-      "step": 76500
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.0004253651835968909,
-      "loss": 0.0,
-      "step": 77000
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.0004248067988921648,
-      "loss": 0.0,
-      "step": 77500
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 0.0004242484141874386,
-      "loss": 0.0,
-      "step": 78000
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.0004236900294827124,
-      "loss": 0.0,
-      "step": 78500
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.00042313164477798625,
-      "loss": 0.0,
-      "step": 79000
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.00042257326007326005,
-      "loss": 0.0,
-      "step": 79500
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 0.0004220148753685339,
-      "loss": 0.0,
-      "step": 80000
-    },
-    {
-      "epoch": 0.87,
-      "eval_accuracy": 2.7615362733125802e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1242.4281,
-      "eval_samples_per_second": 248.188,
-      "eval_steps_per_second": 3.879,
-      "step": 80000
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.00042145649066380777,
-      "loss": 0.0,
-      "step": 80500
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 0.0004208981059590816,
-      "loss": 0.0,
-      "step": 81000
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 0.00042033972125435544,
-      "loss": 0.0,
-      "step": 81500
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.00041978133654962924,
-      "loss": 0.0,
-      "step": 82000
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 0.00041922295184490305,
-      "loss": 0.0,
-      "step": 82500
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 0.0004186645671401769,
-      "loss": 0.0,
-      "step": 83000
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 0.0004181061824354507,
-      "loss": 0.0,
-      "step": 83500
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.00041754779773072457,
-      "loss": 0.0,
-      "step": 84000
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.00041698941302599843,
-      "loss": 0.0,
-      "step": 84500
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.00041643102832127223,
-      "loss": 0.0,
-      "step": 85000
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 0.0004158726436165461,
-      "loss": 0.0,
-      "step": 85500
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.0004153142589118199,
-      "loss": 0.0,
-      "step": 86000
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 0.0004147558742070937,
-      "loss": 0.0,
-      "step": 86500
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.00041419748950236756,
-      "loss": 0.0,
-      "step": 87000
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 0.00041363910479764136,
-      "loss": 0.0,
-      "step": 87500
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 0.0004130807200929152,
-      "loss": 0.0,
-      "step": 88000
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.0004125223353881891,
-      "loss": 0.0,
-      "step": 88500
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 0.0004119639506834629,
-      "loss": 0.0,
-      "step": 89000
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.00041140556597873675,
-      "loss": 0.0,
-      "step": 89500
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 0.00041084718127401055,
-      "loss": 0.0,
-      "step": 90000
-    },
-    {
-      "epoch": 0.98,
-      "eval_accuracy": 2.9214303322906894e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1238.8828,
-      "eval_samples_per_second": 248.898,
-      "eval_steps_per_second": 3.89,
-      "step": 90000
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 0.00041028879656928436,
-      "loss": 0.0,
-      "step": 90500
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 0.0004097304118645582,
-      "loss": 0.0,
-      "step": 91000
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.000409172027159832,
-      "loss": 0.0,
-      "step": 91500
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 0.0004086136424551059,
-      "loss": 0.0,
-      "step": 92000
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 0.00040805525775037974,
-      "loss": 0.0,
-      "step": 92500
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 0.00040749687304565354,
-      "loss": 0.0,
-      "step": 93000
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 0.0004069384883409274,
-      "loss": 0.0,
-      "step": 93500
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.0004063801036362012,
-      "loss": 0.0,
-      "step": 94000
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 0.000405821718931475,
-      "loss": 0.0,
-      "step": 94500
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 0.00040526333422674887,
-      "loss": 0.0,
-      "step": 95000
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 0.0004047049495220227,
-      "loss": 0.0,
-      "step": 95500
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.00040414656481729653,
-      "loss": 0.0,
-      "step": 96000
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 0.0004035881801125704,
-      "loss": 0.0,
-      "step": 96500
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 0.0004030297954078442,
-      "loss": 0.0,
-      "step": 97000
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.00040247141070311806,
-      "loss": 0.0,
-      "step": 97500
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.00040191302599839186,
-      "loss": 0.0,
-      "step": 98000
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 0.00040135464129366567,
-      "loss": 0.0,
-      "step": 98500
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 0.0004007962565889395,
-      "loss": 0.0,
-      "step": 99000
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.00040023787188421333,
-      "loss": 0.0,
-      "step": 99500
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 0.0003996794871794872,
-      "loss": 0.0,
-      "step": 100000
-    },
-    {
-      "epoch": 1.09,
-      "eval_accuracy": 3.071726548590269e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1240.4665,
-      "eval_samples_per_second": 248.581,
-      "eval_steps_per_second": 3.885,
-      "step": 100000
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.00039912110247476105,
-      "loss": 0.0,
-      "step": 100500
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.00039856271777003485,
-      "loss": 0.0,
-      "step": 101000
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.0003980043330653087,
-      "loss": 0.0,
-      "step": 101500
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 0.0003974459483605825,
-      "loss": 0.0,
-      "step": 102000
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 0.0003968875636558563,
-      "loss": 0.0,
-      "step": 102500
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.0003963291789511302,
-      "loss": 0.0,
-      "step": 103000
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.000395770794246404,
-      "loss": 0.0,
-      "step": 103500
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 0.00039521240954167784,
-      "loss": 0.0,
-      "step": 104000
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 0.0003946540248369517,
-      "loss": 0.0,
-      "step": 104500
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.0003940956401322255,
-      "loss": 0.0,
-      "step": 105000
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 0.00039353725542749937,
-      "loss": 0.0,
-      "step": 105500
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.00039297887072277317,
-      "loss": 0.0,
-      "step": 106000
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.00039242048601804703,
-      "loss": 0.0,
-      "step": 106500
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.00039186210131332083,
-      "loss": 0.0,
-      "step": 107000
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 0.00039130371660859464,
-      "loss": 0.0,
-      "step": 107500
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 0.0003907453319038685,
-      "loss": 0.0,
-      "step": 108000
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0003901869471991423,
-      "loss": 0.0,
-      "step": 108500
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.00038962856249441616,
-      "loss": 0.0,
-      "step": 109000
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.00038907017778969,
-      "loss": 0.0,
-      "step": 109500
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 0.0003885117930849638,
-      "loss": 0.0,
-      "step": 110000
-    },
-    {
-      "epoch": 1.2,
-      "eval_accuracy": 3.188648588911819e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1241.2976,
-      "eval_samples_per_second": 248.414,
-      "eval_steps_per_second": 3.882,
-      "step": 110000
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.0003879534083802377,
-      "loss": 0.0,
-      "step": 110500
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 0.0003873950236755115,
-      "loss": 0.0,
-      "step": 111000
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0003868366389707853,
-      "loss": 0.0,
-      "step": 111500
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.00038627825426605915,
-      "loss": 0.0,
-      "step": 112000
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.00038571986956133296,
-      "loss": 0.0,
-      "step": 112500
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 0.0003851614848566068,
-      "loss": 0.0,
-      "step": 113000
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 0.0003846031001518807,
-      "loss": 0.0,
-      "step": 113500
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0003840447154471545,
-      "loss": 0.0,
-      "step": 114000
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.00038348633074242834,
-      "loss": 0.0,
-      "step": 114500
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.00038292794603770214,
-      "loss": 0.0,
-      "step": 115000
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 0.00038236956133297595,
-      "loss": 0.0,
-      "step": 115500
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0003818111766282498,
-      "loss": 0.0,
-      "step": 116000
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 0.0003812527919235236,
-      "loss": 0.0,
-      "step": 116500
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.00038069440721879747,
-      "loss": 0.0,
-      "step": 117000
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.00038013602251407133,
-      "loss": 0.0,
-      "step": 117500
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.00037957763780934514,
-      "loss": 0.0,
-      "step": 118000
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 0.000379019253104619,
-      "loss": 0.0,
-      "step": 118500
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 0.0003784608683998928,
-      "loss": 0.0,
-      "step": 119000
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0003779024836951666,
-      "loss": 0.0,
-      "step": 119500
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.00037734409899044046,
-      "loss": 0.0,
-      "step": 120000
-    },
-    {
-      "epoch": 1.31,
-      "eval_accuracy": 2.9570698381633475e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1238.6519,
-      "eval_samples_per_second": 248.945,
-      "eval_steps_per_second": 3.891,
-      "step": 120000
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 0.00037678571428571427,
-      "loss": 0.0,
-      "step": 120500
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 0.00037622732958098807,
-      "loss": 0.0,
-      "step": 121000
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.000375668944876262,
-      "loss": 0.0,
-      "step": 121500
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 0.0003751105601715358,
-      "loss": 0.0,
-      "step": 122000
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.00037455217546680965,
-      "loss": 0.0,
-      "step": 122500
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.00037399379076208345,
-      "loss": 0.0,
-      "step": 123000
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.00037343540605735726,
-      "loss": 0.0,
-      "step": 123500
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 0.0003728770213526311,
-      "loss": 0.0,
-      "step": 124000
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 0.0003723186366479049,
-      "loss": 0.0,
-      "step": 124500
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0003717602519431788,
-      "loss": 0.0,
-      "step": 125000
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.00037120186723845264,
-      "loss": 0.0,
-      "step": 125500
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.00037064348253372644,
-      "loss": 0.0,
-      "step": 126000
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 0.0003700850978290003,
-      "loss": 0.0,
-      "step": 126500
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0003695267131242741,
-      "loss": 0.0,
-      "step": 127000
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 0.0003689683284195479,
-      "loss": 0.0,
-      "step": 127500
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.00036840994371482177,
-      "loss": 0.0,
-      "step": 128000
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.0003678515590100956,
-      "loss": 0.0,
-      "step": 128500
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.00036729317430536944,
-      "loss": 0.0,
-      "step": 129000
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 0.0003667347896006433,
-      "loss": 0.0,
-      "step": 129500
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 0.0003661764048959171,
-      "loss": 0.0,
-      "step": 130000
-    },
-    {
-      "epoch": 1.42,
-      "eval_accuracy": 3.2269763129715425e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1246.6351,
-      "eval_samples_per_second": 247.351,
-      "eval_steps_per_second": 3.866,
-      "step": 130000
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.00036561802019119096,
-      "loss": 0.0,
-      "step": 130500
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.00036505963548646476,
-      "loss": 0.0,
-      "step": 131000
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.00036450125078173857,
-      "loss": 0.0,
-      "step": 131500
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 0.0003639428660770124,
-      "loss": 0.0,
-      "step": 132000
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.00036338448137228623,
-      "loss": 0.0,
-      "step": 132500
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 0.0003628260966675601,
-      "loss": 0.0,
-      "step": 133000
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.00036226771196283395,
-      "loss": 0.0,
-      "step": 133500
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.00036170932725810775,
-      "loss": 0.0,
-      "step": 134000
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0003611509425533816,
-      "loss": 0.0,
-      "step": 134500
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 0.0003605925578486554,
-      "loss": 0.0,
-      "step": 135000
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 0.0003600341731439292,
-      "loss": 0.0,
-      "step": 135500
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0003594757884392031,
-      "loss": 0.0,
-      "step": 136000
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0003589174037344769,
-      "loss": 0.0,
-      "step": 136500
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.00035835901902975075,
-      "loss": 0.0,
-      "step": 137000
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 0.00035780063432502455,
-      "loss": 0.0,
-      "step": 137500
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.0003572422496202984,
-      "loss": 0.0,
-      "step": 138000
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 0.00035668386491557227,
-      "loss": 0.0,
-      "step": 138500
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0003561254802108461,
-      "loss": 0.0,
-      "step": 139000
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.00035556709550611993,
-      "loss": 0.0,
-      "step": 139500
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 0.00035500871080139374,
-      "loss": 0.0,
-      "step": 140000
-    },
-    {
-      "epoch": 1.53,
-      "eval_accuracy": 3.290421786718595e-05,
-      "eval_loss": NaN,
-      "eval_runtime": 1247.689,
-      "eval_samples_per_second": 247.142,
-      "eval_steps_per_second": 3.862,
-      "step": 140000
-    },
-    {
-      "epoch": 1.53,
-      "step": 140001,
-      "total_flos": 2.560247267189588e+18,
-      "train_loss": 0.3459514281929236,
-      "train_runtime": 108836.6872,
-      "train_samples_per_second": 269.154,
-      "train_steps_per_second": 4.206
-    }
-  ],
-  "max_steps": 457720,
-  "num_train_epochs": 5,
-  "total_flos": 2.560247267189588e+18,
-  "trial_name": null,
-  "trial_params": null
-}

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf488b89e0da577c50b385814b810962da42a93bacc6011e5e0c6b3664d5c0da
+size 12524111