End of training

Browse files

Files changed (5) hide show

all_results.json +11 -11
eval_results.json +7 -7
logs/events.out.tfevents.1685516790.serv-9220.3164122.2 +3 -0
train_results.json +5 -5
trainer_state.json +2184 -12

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 0.0,
-    "eval_accuracy": 2.228276571731114e-05,
-    "eval_loss": 10.515625,
-    "eval_runtime": 1062.2138,
     "eval_samples": 308356,
-    "eval_samples_per_second": 290.296,
-    "eval_steps_per_second": 4.537,
-    "perplexity": 36887.38862753968,
-    "train_loss": 10.515625,
-    "train_runtime": 1.0122,
     "train_samples": 5858758,
-    "train_samples_per_second": 28940457.729,
-    "train_steps_per_second": 452199.129
 }

 {
+    "epoch": 1.85,
+    "eval_accuracy": 0.04297391005057371,
+    "eval_loss": 7.266438961029053,
+    "eval_runtime": 986.7506,
     "eval_samples": 308356,
+    "eval_samples_per_second": 312.496,
+    "eval_steps_per_second": 4.884,
+    "perplexity": 1431.443938534488,
+    "train_loss": 7.273256063168102,
+    "train_runtime": 107974.2539,
     "train_samples": 5858758,
+    "train_samples_per_second": 271.303,
+    "train_steps_per_second": 4.239
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 0.0,
-    "eval_accuracy": 2.228276571731114e-05,
-    "eval_loss": 10.515625,
-    "eval_runtime": 1062.2138,
     "eval_samples": 308356,
-    "eval_samples_per_second": 290.296,
-    "eval_steps_per_second": 4.537,
-    "perplexity": 36887.38862753968
 }

 {
+    "epoch": 1.85,
+    "eval_accuracy": 0.04297391005057371,
+    "eval_loss": 7.266438961029053,
+    "eval_runtime": 986.7506,
     "eval_samples": 308356,
+    "eval_samples_per_second": 312.496,
+    "eval_steps_per_second": 4.884,
+    "perplexity": 1431.443938534488
 }

logs/events.out.tfevents.1685516790.serv-9220.3164122.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09f7a944e41051c98df89bf52550ddd36bb26b9d47524ea80ef8ab0f0d321ad9
+size 369

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.0,
-    "train_loss": 10.515625,
-    "train_runtime": 1.0122,
     "train_samples": 5858758,
-    "train_samples_per_second": 28940457.729,
-    "train_steps_per_second": 452199.129
 }

 {
+    "epoch": 1.85,
+    "train_loss": 7.273256063168102,
+    "train_runtime": 107974.2539,
     "train_samples": 5858758,
+    "train_samples_per_second": 271.303,
+    "train_steps_per_second": 4.239
 }

trainer_state.json CHANGED Viewed

@@ -1,25 +1,2197 @@
 {
-  "best_metric": null,
-  "best_model_checkpoint": null,
-  "epoch": 1.0923708817617758e-05,
-  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "step": 1,
-      "total_flos": 18737413488640.0,
-      "train_loss": 10.515625,
-      "train_runtime": 1.0122,
-      "train_samples_per_second": 28940457.729,
-      "train_steps_per_second": 452199.129
     }
   ],
   "max_steps": 457720,
   "num_train_epochs": 5,
-  "total_flos": 18737413488640.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 7.266932487487793,
+  "best_model_checkpoint": "bert_12_layer_model_v2_complete_training_new/checkpoint-30000",
+  "epoch": 1.8475924145765972,
+  "global_step": 169136,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.01,
+      "learning_rate": 0.0006747425010840046,
+      "loss": 7.3929,
+      "step": 500
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0007499999999999999,
+      "loss": 7.2987,
+      "step": 1000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007940228147639202,
+      "loss": 7.2939,
+      "step": 1500
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0008252574989159952,
+      "loss": 7.2875,
+      "step": 2000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0008494850021680092,
+      "loss": 7.287,
+      "step": 2500
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0008692803136799154,
+      "loss": 7.2802,
+      "step": 3000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0008860170110875688,
+      "loss": 7.2847,
+      "step": 3500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0009005149978319905,
+      "loss": 7.2797,
+      "step": 4000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0009133031284438358,
+      "loss": 7.2796,
+      "step": 4500
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0009247425010840047,
+      "loss": 7.2861,
+      "step": 5000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0009350906723735609,
+      "loss": 7.276,
+      "step": 5500
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0009445378125959107,
+      "loss": 7.2843,
+      "step": 6000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0009532283391607137,
+      "loss": 7.2736,
+      "step": 6500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000961274510003564,
+      "loss": 7.2744,
+      "step": 7000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000968765315847925,
+      "loss": 7.2792,
+      "step": 7500
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0009757724967479857,
+      "loss": 7.2781,
+      "step": 8000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.000982354731428573,
+      "loss": 7.2828,
+      "step": 8500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.000988560627359831,
+      "loss": 7.2828,
+      "step": 9000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0009944309013222117,
+      "loss": 7.2761,
+      "step": 9500
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0009999999999999998,
+      "loss": 7.2752,
+      "step": 10000
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.046582492639500865,
+      "eval_loss": 7.277245998382568,
+      "eval_runtime": 989.9846,
+      "eval_samples_per_second": 311.476,
+      "eval_steps_per_second": 4.868,
+      "step": 10000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0009988854641293666,
+      "loss": 7.6758,
+      "step": 10500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0009977686947199142,
+      "loss": 7.3739,
+      "step": 11000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0009966519253104618,
+      "loss": 7.3249,
+      "step": 11500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0009955351559010096,
+      "loss": 7.3018,
+      "step": 12000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0009944183864915572,
+      "loss": 7.2977,
+      "step": 12500
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0009933016170821049,
+      "loss": 7.2901,
+      "step": 13000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0009921848476726527,
+      "loss": 7.2877,
+      "step": 13500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0009910680782632003,
+      "loss": 7.2851,
+      "step": 14000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.000989951308853748,
+      "loss": 7.2809,
+      "step": 14500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0009888345394442955,
+      "loss": 7.2812,
+      "step": 15000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0009877177700348431,
+      "loss": 7.2785,
+      "step": 15500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.000986601000625391,
+      "loss": 7.2757,
+      "step": 16000
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0009854842312159386,
+      "loss": 7.2718,
+      "step": 16500
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0009843674618064862,
+      "loss": 7.2774,
+      "step": 17000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.000983250692397034,
+      "loss": 7.2725,
+      "step": 17500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0009821339229875816,
+      "loss": 7.2699,
+      "step": 18000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0009810171535781292,
+      "loss": 7.2708,
+      "step": 18500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0009799003841686768,
+      "loss": 7.2673,
+      "step": 19000
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0009787836147592244,
+      "loss": 7.2731,
+      "step": 19500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0009776668453497723,
+      "loss": 7.2774,
+      "step": 20000
+    },
+    {
+      "epoch": 0.22,
+      "eval_accuracy": 0.042795053620331966,
+      "eval_loss": 7.277062892913818,
+      "eval_runtime": 988.361,
+      "eval_samples_per_second": 311.987,
+      "eval_steps_per_second": 4.876,
+      "step": 20000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0009765500759403199,
+      "loss": 7.2699,
+      "step": 20500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0009754333065308675,
+      "loss": 7.2739,
+      "step": 21000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0009743165371214152,
+      "loss": 7.2693,
+      "step": 21500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0009731997677119628,
+      "loss": 7.2696,
+      "step": 22000
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0009720829983025105,
+      "loss": 7.2728,
+      "step": 22500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0009709662288930582,
+      "loss": 7.2706,
+      "step": 23000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0009698494594836058,
+      "loss": 7.2725,
+      "step": 23500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0009687326900741536,
+      "loss": 7.2719,
+      "step": 24000
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0009676159206647012,
+      "loss": 7.2691,
+      "step": 24500
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0009664991512552488,
+      "loss": 7.2709,
+      "step": 25000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0009653823818457965,
+      "loss": 7.2683,
+      "step": 25500
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0009642656124363441,
+      "loss": 7.2694,
+      "step": 26000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0009631488430268918,
+      "loss": 7.2734,
+      "step": 26500
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0009620320736174395,
+      "loss": 7.275,
+      "step": 27000
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0009609153042079872,
+      "loss": 7.2742,
+      "step": 27500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0009597985347985349,
+      "loss": 7.2684,
+      "step": 28000
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0009586817653890825,
+      "loss": 7.2733,
+      "step": 28500
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0009575649959796301,
+      "loss": 7.2661,
+      "step": 29000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0009564482265701778,
+      "loss": 7.2709,
+      "step": 29500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0009553314571607254,
+      "loss": 7.2722,
+      "step": 30000
+    },
+    {
+      "epoch": 0.33,
+      "eval_accuracy": 0.04286128173369546,
+      "eval_loss": 7.266932487487793,
+      "eval_runtime": 986.3612,
+      "eval_samples_per_second": 312.62,
+      "eval_steps_per_second": 4.886,
+      "step": 30000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0009542146877512731,
+      "loss": 7.2704,
+      "step": 30500
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0009530979183418209,
+      "loss": 7.2717,
+      "step": 31000
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0009519811489323685,
+      "loss": 7.2686,
+      "step": 31500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0009508643795229162,
+      "loss": 7.2683,
+      "step": 32000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0009497476101134638,
+      "loss": 7.2707,
+      "step": 32500
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0009486308407040115,
+      "loss": 7.2702,
+      "step": 33000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0009475140712945591,
+      "loss": 7.2709,
+      "step": 33500
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0009463973018851067,
+      "loss": 7.2695,
+      "step": 34000
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0009452805324756544,
+      "loss": 7.2683,
+      "step": 34500
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0009441637630662021,
+      "loss": 7.2669,
+      "step": 35000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0009430469936567498,
+      "loss": 7.2652,
+      "step": 35500
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0009419302242472975,
+      "loss": 7.271,
+      "step": 36000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0009408134548378451,
+      "loss": 7.2651,
+      "step": 36500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0009396966854283928,
+      "loss": 7.2716,
+      "step": 37000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0009385799160189404,
+      "loss": 7.2654,
+      "step": 37500
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.000937463146609488,
+      "loss": 7.2616,
+      "step": 38000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0009363463772000358,
+      "loss": 7.2743,
+      "step": 38500
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0009352296077905834,
+      "loss": 7.2899,
+      "step": 39000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0009341128383811311,
+      "loss": 7.2732,
+      "step": 39500
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0009329960689716788,
+      "loss": 7.27,
+      "step": 40000
+    },
+    {
+      "epoch": 0.44,
+      "eval_accuracy": 0.04655514477110356,
+      "eval_loss": 7.268455982208252,
+      "eval_runtime": 985.521,
+      "eval_samples_per_second": 312.886,
+      "eval_steps_per_second": 4.89,
+      "step": 40000
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0009318792995622264,
+      "loss": 7.2683,
+      "step": 40500
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0009307625301527741,
+      "loss": 7.2701,
+      "step": 41000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0009296457607433217,
+      "loss": 7.2758,
+      "step": 41500
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0009285289913338693,
+      "loss": 7.2712,
+      "step": 42000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0009274122219244171,
+      "loss": 7.2724,
+      "step": 42500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0009262954525149647,
+      "loss": 7.2624,
+      "step": 43000
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0009251786831055124,
+      "loss": 7.2748,
+      "step": 43500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0009240619136960601,
+      "loss": 7.2741,
+      "step": 44000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0009229451442866077,
+      "loss": 7.2716,
+      "step": 44500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0009218283748771554,
+      "loss": 7.2678,
+      "step": 45000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.000920711605467703,
+      "loss": 7.2704,
+      "step": 45500
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0009195948360582507,
+      "loss": 7.2672,
+      "step": 46000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.0009184780666487984,
+      "loss": 7.2695,
+      "step": 46500
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.000917361297239346,
+      "loss": 7.2679,
+      "step": 47000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0009162445278298936,
+      "loss": 7.2732,
+      "step": 47500
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0009151277584204414,
+      "loss": 7.2711,
+      "step": 48000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.000914010989010989,
+      "loss": 7.2692,
+      "step": 48500
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0009128942196015367,
+      "loss": 7.2694,
+      "step": 49000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0009117774501920844,
+      "loss": 7.2745,
+      "step": 49500
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.000910660680782632,
+      "loss": 7.2687,
+      "step": 50000
+    },
+    {
+      "epoch": 0.55,
+      "eval_accuracy": 0.046565208288623344,
+      "eval_loss": 7.272406101226807,
+      "eval_runtime": 992.178,
+      "eval_samples_per_second": 310.787,
+      "eval_steps_per_second": 4.857,
+      "step": 50000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.0009095439113731797,
+      "loss": 7.268,
+      "step": 50500
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0009084271419637273,
+      "loss": 7.274,
+      "step": 51000
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.000907310372554275,
+      "loss": 7.2718,
+      "step": 51500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0009061936031448227,
+      "loss": 7.2724,
+      "step": 52000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0009050768337353703,
+      "loss": 7.273,
+      "step": 52500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0009039600643259181,
+      "loss": 7.2675,
+      "step": 53000
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0009028432949164657,
+      "loss": 7.2691,
+      "step": 53500
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.0009017265255070133,
+      "loss": 7.2652,
+      "step": 54000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.000900609756097561,
+      "loss": 7.2744,
+      "step": 54500
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0008994929866881086,
+      "loss": 7.2669,
+      "step": 55000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0008983762172786563,
+      "loss": 7.2715,
+      "step": 55500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.000897259447869204,
+      "loss": 7.2717,
+      "step": 56000
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0008961426784597516,
+      "loss": 7.2678,
+      "step": 56500
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0008950259090502994,
+      "loss": 7.2688,
+      "step": 57000
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.000893909139640847,
+      "loss": 7.2719,
+      "step": 57500
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.0008927923702313946,
+      "loss": 7.2616,
+      "step": 58000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0008916756008219423,
+      "loss": 7.2691,
+      "step": 58500
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0008905588314124899,
+      "loss": 7.2723,
+      "step": 59000
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0008894420620030376,
+      "loss": 7.2684,
+      "step": 59500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0008883252925935854,
+      "loss": 7.2724,
+      "step": 60000
+    },
+    {
+      "epoch": 0.66,
+      "eval_accuracy": 0.046516656493005064,
+      "eval_loss": 7.2715935707092285,
+      "eval_runtime": 991.3468,
+      "eval_samples_per_second": 311.048,
+      "eval_steps_per_second": 4.861,
+      "step": 60000
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.000887208523184133,
+      "loss": 7.271,
+      "step": 60500
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0008860917537746807,
+      "loss": 7.2656,
+      "step": 61000
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.0008849749843652283,
+      "loss": 7.2751,
+      "step": 61500
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0008838582149557759,
+      "loss": 7.2697,
+      "step": 62000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0008827414455463236,
+      "loss": 7.2703,
+      "step": 62500
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0008816246761368712,
+      "loss": 7.2659,
+      "step": 63000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0008805079067274189,
+      "loss": 7.2614,
+      "step": 63500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0008793911373179666,
+      "loss": 7.2706,
+      "step": 64000
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0008782743679085143,
+      "loss": 7.2721,
+      "step": 64500
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.000877157598499062,
+      "loss": 7.2711,
+      "step": 65000
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0008760408290896096,
+      "loss": 7.2657,
+      "step": 65500
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0008749240596801573,
+      "loss": 7.2723,
+      "step": 66000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0008738072902707049,
+      "loss": 7.2681,
+      "step": 66500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0008726905208612525,
+      "loss": 7.2671,
+      "step": 67000
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0008715737514518003,
+      "loss": 7.2678,
+      "step": 67500
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0008704569820423479,
+      "loss": 7.272,
+      "step": 68000
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0008693402126328956,
+      "loss": 7.2669,
+      "step": 68500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0008682234432234433,
+      "loss": 7.2658,
+      "step": 69000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0008671066738139909,
+      "loss": 7.2678,
+      "step": 69500
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0008659899044045386,
+      "loss": 7.2689,
+      "step": 70000
+    },
+    {
+      "epoch": 0.76,
+      "eval_accuracy": 0.04650451752608111,
+      "eval_loss": 7.268852233886719,
+      "eval_runtime": 993.0576,
+      "eval_samples_per_second": 310.512,
+      "eval_steps_per_second": 4.853,
+      "step": 70000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0008648731349950862,
+      "loss": 7.2695,
+      "step": 70500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0008637563655856338,
+      "loss": 7.2686,
+      "step": 71000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0008626395961761816,
+      "loss": 7.2716,
+      "step": 71500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0008615228267667292,
+      "loss": 7.2724,
+      "step": 72000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0008604060573572769,
+      "loss": 7.2753,
+      "step": 72500
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0008592892879478246,
+      "loss": 7.2667,
+      "step": 73000
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0008581725185383722,
+      "loss": 7.2694,
+      "step": 73500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0008570557491289199,
+      "loss": 7.2706,
+      "step": 74000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0008559389797194675,
+      "loss": 7.2721,
+      "step": 74500
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0008548222103100152,
+      "loss": 7.2719,
+      "step": 75000
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0008537054409005629,
+      "loss": 7.277,
+      "step": 75500
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0008525886714911105,
+      "loss": 7.2801,
+      "step": 76000
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0008514719020816582,
+      "loss": 7.2742,
+      "step": 76500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0008503551326722059,
+      "loss": 7.281,
+      "step": 77000
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0008492383632627535,
+      "loss": 7.2747,
+      "step": 77500
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0008481215938533012,
+      "loss": 7.2713,
+      "step": 78000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0008470048244438489,
+      "loss": 7.2747,
+      "step": 78500
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0008458880550343965,
+      "loss": 7.2748,
+      "step": 79000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0008447712856249442,
+      "loss": 7.2721,
+      "step": 79500
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0008436545162154918,
+      "loss": 7.268,
+      "step": 80000
+    },
+    {
+      "epoch": 0.87,
+      "eval_accuracy": 0.04651641092958247,
+      "eval_loss": 7.2707648277282715,
+      "eval_runtime": 991.4441,
+      "eval_samples_per_second": 311.017,
+      "eval_steps_per_second": 4.861,
+      "step": 80000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0008425377468060394,
+      "loss": 7.2701,
+      "step": 80500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0008414209773965872,
+      "loss": 7.2704,
+      "step": 81000
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0008403042079871348,
+      "loss": 7.2713,
+      "step": 81500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0008391874385776826,
+      "loss": 7.2677,
+      "step": 82000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0008380706691682302,
+      "loss": 7.2716,
+      "step": 82500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0008369538997587778,
+      "loss": 7.2706,
+      "step": 83000
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0008358371303493255,
+      "loss": 7.2722,
+      "step": 83500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0008347203609398731,
+      "loss": 7.2674,
+      "step": 84000
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0008336035915304208,
+      "loss": 7.2693,
+      "step": 84500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0008324868221209685,
+      "loss": 7.2695,
+      "step": 85000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0008313700527115161,
+      "loss": 7.2722,
+      "step": 85500
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0008302532833020639,
+      "loss": 7.2781,
+      "step": 86000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0008291365138926115,
+      "loss": 7.2645,
+      "step": 86500
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.0008280197444831591,
+      "loss": 7.2717,
+      "step": 87000
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0008269029750737068,
+      "loss": 7.2686,
+      "step": 87500
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0008257862056642544,
+      "loss": 7.2691,
+      "step": 88000
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0008246694362548021,
+      "loss": 7.2677,
+      "step": 88500
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0008235526668453498,
+      "loss": 7.2691,
+      "step": 89000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0008224358974358975,
+      "loss": 7.2678,
+      "step": 89500
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0008213191280264452,
+      "loss": 7.2723,
+      "step": 90000
+    },
+    {
+      "epoch": 0.98,
+      "eval_accuracy": 0.04652993661252105,
+      "eval_loss": 7.271114349365234,
+      "eval_runtime": 991.9947,
+      "eval_samples_per_second": 310.844,
+      "eval_steps_per_second": 4.858,
+      "step": 90000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0008202023586169928,
+      "loss": 7.2688,
+      "step": 90500
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.0008190855892075404,
+      "loss": 7.2687,
+      "step": 91000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0008179688197980881,
+      "loss": 7.271,
+      "step": 91500
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0008168520503886357,
+      "loss": 7.2669,
+      "step": 92000
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0008157352809791834,
+      "loss": 7.2686,
+      "step": 92500
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0008146185115697312,
+      "loss": 7.2629,
+      "step": 93000
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0008135017421602788,
+      "loss": 7.2704,
+      "step": 93500
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0008123849727508265,
+      "loss": 7.2709,
+      "step": 94000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0008112682033413741,
+      "loss": 7.2705,
+      "step": 94500
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0008101514339319217,
+      "loss": 7.2736,
+      "step": 95000
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0008090346645224694,
+      "loss": 7.2728,
+      "step": 95500
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.000807917895113017,
+      "loss": 7.2721,
+      "step": 96000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0008068011257035647,
+      "loss": 7.2712,
+      "step": 96500
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0008056843562941124,
+      "loss": 7.2714,
+      "step": 97000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0008045675868846601,
+      "loss": 7.2678,
+      "step": 97500
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.0008034508174752078,
+      "loss": 7.2737,
+      "step": 98000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0008023340480657554,
+      "loss": 7.2713,
+      "step": 98500
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0008012172786563031,
+      "loss": 7.2655,
+      "step": 99000
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0008001005092468507,
+      "loss": 7.2703,
+      "step": 99500
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0007989837398373983,
+      "loss": 7.2724,
+      "step": 100000
+    },
+    {
+      "epoch": 1.09,
+      "eval_accuracy": 0.0428689001334134,
+      "eval_loss": 7.271392345428467,
+      "eval_runtime": 990.7575,
+      "eval_samples_per_second": 311.233,
+      "eval_steps_per_second": 4.864,
+      "step": 100000
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0007978669704279461,
+      "loss": 7.2732,
+      "step": 100500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0007967502010184937,
+      "loss": 7.2711,
+      "step": 101000
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0007956334316090414,
+      "loss": 7.2687,
+      "step": 101500
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.0007945166621995891,
+      "loss": 7.2714,
+      "step": 102000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0007933998927901367,
+      "loss": 7.2657,
+      "step": 102500
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0007922831233806844,
+      "loss": 7.2675,
+      "step": 103000
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.000791166353971232,
+      "loss": 7.2639,
+      "step": 103500
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0007900495845617796,
+      "loss": 7.2741,
+      "step": 104000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0007889328151523274,
+      "loss": 7.2683,
+      "step": 104500
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.000787816045742875,
+      "loss": 7.2681,
+      "step": 105000
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.0007866992763334227,
+      "loss": 7.2737,
+      "step": 105500
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0007855825069239704,
+      "loss": 7.2732,
+      "step": 106000
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.000784465737514518,
+      "loss": 7.2683,
+      "step": 106500
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0007833489681050657,
+      "loss": 7.2726,
+      "step": 107000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0007822321986956133,
+      "loss": 7.2707,
+      "step": 107500
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.000781115429286161,
+      "loss": 7.2739,
+      "step": 108000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0007799986598767087,
+      "loss": 7.2704,
+      "step": 108500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0007788818904672563,
+      "loss": 7.2661,
+      "step": 109000
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0007777651210578039,
+      "loss": 7.2707,
+      "step": 109500
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0007766483516483517,
+      "loss": 7.2761,
+      "step": 110000
+    },
+    {
+      "epoch": 1.2,
+      "eval_accuracy": 0.046532255715385766,
+      "eval_loss": 7.2722978591918945,
+      "eval_runtime": 989.2994,
+      "eval_samples_per_second": 311.691,
+      "eval_steps_per_second": 4.871,
+      "step": 110000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0007755315822388993,
+      "loss": 7.2708,
+      "step": 110500
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.000774414812829447,
+      "loss": 7.2677,
+      "step": 111000
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0007732980434199947,
+      "loss": 7.275,
+      "step": 111500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.0007721812740105423,
+      "loss": 7.2739,
+      "step": 112000
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00077106450460109,
+      "loss": 7.2744,
+      "step": 112500
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0007699477351916376,
+      "loss": 7.2794,
+      "step": 113000
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0007688309657821853,
+      "loss": 7.2673,
+      "step": 113500
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.000767714196372733,
+      "loss": 7.2725,
+      "step": 114000
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.0007665974269632806,
+      "loss": 7.2741,
+      "step": 114500
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0007654806575538284,
+      "loss": 7.2688,
+      "step": 115000
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.000764363888144376,
+      "loss": 7.2746,
+      "step": 115500
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0007632471187349236,
+      "loss": 7.2713,
+      "step": 116000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.0007621303493254713,
+      "loss": 7.2662,
+      "step": 116500
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0007610135799160189,
+      "loss": 7.2707,
+      "step": 117000
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0007598968105065666,
+      "loss": 7.2679,
+      "step": 117500
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0007587800410971143,
+      "loss": 7.2716,
+      "step": 118000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.000757663271687662,
+      "loss": 7.2707,
+      "step": 118500
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0007565465022782097,
+      "loss": 7.2641,
+      "step": 119000
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0007554297328687573,
+      "loss": 7.2714,
+      "step": 119500
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 0.0007543129634593049,
+      "loss": 7.2694,
+      "step": 120000
+    },
+    {
+      "epoch": 1.31,
+      "eval_accuracy": 0.0465121739230196,
+      "eval_loss": 7.268530368804932,
+      "eval_runtime": 988.7443,
+      "eval_samples_per_second": 311.866,
+      "eval_steps_per_second": 4.874,
+      "step": 120000
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0007531961940498526,
+      "loss": 7.2689,
+      "step": 120500
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0007520794246404002,
+      "loss": 7.2674,
+      "step": 121000
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0007509626552309479,
+      "loss": 7.2714,
+      "step": 121500
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0007498458858214957,
+      "loss": 7.2685,
+      "step": 122000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0007487291164120433,
+      "loss": 7.2678,
+      "step": 122500
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.000747612347002591,
+      "loss": 7.2721,
+      "step": 123000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0007464955775931386,
+      "loss": 7.2701,
+      "step": 123500
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.0007453788081836862,
+      "loss": 7.2776,
+      "step": 124000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0007442620387742339,
+      "loss": 7.2668,
+      "step": 124500
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0007431452693647815,
+      "loss": 7.2711,
+      "step": 125000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0007420284999553292,
+      "loss": 7.2632,
+      "step": 125500
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0007409117305458769,
+      "loss": 7.2672,
+      "step": 126000
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0007397949611364246,
+      "loss": 7.2721,
+      "step": 126500
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0007386781917269723,
+      "loss": 7.2731,
+      "step": 127000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0007375614223175199,
+      "loss": 7.2695,
+      "step": 127500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0007364446529080675,
+      "loss": 7.2679,
+      "step": 128000
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.0007353278834986152,
+      "loss": 7.2727,
+      "step": 128500
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0007342111140891628,
+      "loss": 7.2695,
+      "step": 129000
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0007330943446797106,
+      "loss": 7.2704,
+      "step": 129500
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0007319775752702582,
+      "loss": 7.2671,
+      "step": 130000
+    },
+    {
+      "epoch": 1.42,
+      "eval_accuracy": 0.04657166881035385,
+      "eval_loss": 7.272782325744629,
+      "eval_runtime": 985.7841,
+      "eval_samples_per_second": 312.803,
+      "eval_steps_per_second": 4.888,
+      "step": 130000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0007308608058608059,
+      "loss": 7.2722,
+      "step": 130500
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0007297440364513536,
+      "loss": 7.2669,
+      "step": 131000
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0007286272670419012,
+      "loss": 7.2683,
+      "step": 131500
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.0007275104976324489,
+      "loss": 7.2686,
+      "step": 132000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0007263937282229965,
+      "loss": 7.2708,
+      "step": 132500
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0007252769588135441,
+      "loss": 7.2689,
+      "step": 133000
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0007241601894040919,
+      "loss": 7.2721,
+      "step": 133500
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0007230434199946395,
+      "loss": 7.2798,
+      "step": 134000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0007219266505851872,
+      "loss": 7.2693,
+      "step": 134500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0007208098811757349,
+      "loss": 7.278,
+      "step": 135000
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0007196931117662825,
+      "loss": 7.2759,
+      "step": 135500
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0007185763423568302,
+      "loss": 7.2683,
+      "step": 136000
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0007174595729473778,
+      "loss": 7.2707,
+      "step": 136500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0007163428035379255,
+      "loss": 7.2637,
+      "step": 137000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0007152260341284732,
+      "loss": 7.2661,
+      "step": 137500
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0007141092647190208,
+      "loss": 7.2709,
+      "step": 138000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0007129924953095684,
+      "loss": 7.2666,
+      "step": 138500
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0007118757259001162,
+      "loss": 7.2686,
+      "step": 139000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 0.0007107589564906638,
+      "loss": 7.2699,
+      "step": 139500
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0007096421870812115,
+      "loss": 7.2664,
+      "step": 140000
+    },
+    {
+      "epoch": 1.53,
+      "eval_accuracy": 0.04652100591929093,
+      "eval_loss": 7.271435260772705,
+      "eval_runtime": 989.631,
+      "eval_samples_per_second": 311.587,
+      "eval_steps_per_second": 4.869,
+      "step": 140000
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0007085254176717592,
+      "loss": 7.2693,
+      "step": 140500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0007074086482623068,
+      "loss": 7.2711,
+      "step": 141000
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0007062918788528545,
+      "loss": 7.263,
+      "step": 141500
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.0007051751094434021,
+      "loss": 7.2718,
+      "step": 142000
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0007040583400339497,
+      "loss": 7.2684,
+      "step": 142500
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.0007029415706244975,
+      "loss": 7.2697,
+      "step": 143000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0007018248012150451,
+      "loss": 7.2702,
+      "step": 143500
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0007007080318055929,
+      "loss": 7.2689,
+      "step": 144000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0006995912623961405,
+      "loss": 7.2659,
+      "step": 144500
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0006984744929866881,
+      "loss": 7.267,
+      "step": 145000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0006973577235772358,
+      "loss": 7.2731,
+      "step": 145500
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0006962409541677834,
+      "loss": 7.2691,
+      "step": 146000
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0006951241847583311,
+      "loss": 7.2676,
+      "step": 146500
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0006940074153488788,
+      "loss": 7.2709,
+      "step": 147000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0006928906459394264,
+      "loss": 7.2692,
+      "step": 147500
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0006917738765299742,
+      "loss": 7.2699,
+      "step": 148000
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0006906571071205218,
+      "loss": 7.2725,
+      "step": 148500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0006895403377110694,
+      "loss": 7.2629,
+      "step": 149000
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.0006884235683016171,
+      "loss": 7.2661,
+      "step": 149500
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0006873067988921647,
+      "loss": 7.2671,
+      "step": 150000
+    },
+    {
+      "epoch": 1.64,
+      "eval_accuracy": 0.04653411066611076,
+      "eval_loss": 7.2707414627075195,
+      "eval_runtime": 986.5443,
+      "eval_samples_per_second": 312.562,
+      "eval_steps_per_second": 4.885,
+      "step": 150000
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0006861900294827124,
+      "loss": 7.2674,
+      "step": 150500
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0006850732600732601,
+      "loss": 7.2674,
+      "step": 151000
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0006839564906638078,
+      "loss": 7.2639,
+      "step": 151500
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0006828397212543555,
+      "loss": 7.2691,
+      "step": 152000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0006817229518449031,
+      "loss": 7.2676,
+      "step": 152500
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0006806061824354507,
+      "loss": 7.2686,
+      "step": 153000
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0006794894130259984,
+      "loss": 7.2704,
+      "step": 153500
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.000678372643616546,
+      "loss": 7.2732,
+      "step": 154000
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0006772558742070937,
+      "loss": 7.2691,
+      "step": 154500
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0006761391047976413,
+      "loss": 7.2721,
+      "step": 155000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0006750223353881891,
+      "loss": 7.2699,
+      "step": 155500
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0006739055659787368,
+      "loss": 7.2705,
+      "step": 156000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0006727887965692844,
+      "loss": 7.2686,
+      "step": 156500
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.000671672027159832,
+      "loss": 7.2661,
+      "step": 157000
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0006705552577503797,
+      "loss": 7.2759,
+      "step": 157500
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0006694384883409273,
+      "loss": 7.2702,
+      "step": 158000
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.000668321718931475,
+      "loss": 7.2657,
+      "step": 158500
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0006672049495220227,
+      "loss": 7.2698,
+      "step": 159000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0006660881801125704,
+      "loss": 7.2665,
+      "step": 159500
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0006649714107031181,
+      "loss": 7.2663,
+      "step": 160000
+    },
+    {
+      "epoch": 1.75,
+      "eval_accuracy": 0.04653063667672438,
+      "eval_loss": 7.274196147918701,
+      "eval_runtime": 986.618,
+      "eval_samples_per_second": 312.538,
+      "eval_steps_per_second": 4.884,
+      "step": 160000
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0006638546412936657,
+      "loss": 7.2691,
+      "step": 160500
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.0006627378718842134,
+      "loss": 7.2644,
+      "step": 161000
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.000661621102474761,
+      "loss": 7.2686,
+      "step": 161500
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0006605043330653086,
+      "loss": 7.2654,
+      "step": 162000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0006593875636558564,
+      "loss": 7.2704,
+      "step": 162500
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.000658270794246404,
+      "loss": 7.2666,
+      "step": 163000
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0006571540248369517,
+      "loss": 7.2741,
+      "step": 163500
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0006560372554274994,
+      "loss": 7.2727,
+      "step": 164000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.000654920486018047,
+      "loss": 7.2623,
+      "step": 164500
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.0006538037166085947,
+      "loss": 7.2654,
+      "step": 165000
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0006526869471991423,
+      "loss": 7.2659,
+      "step": 165500
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0006515724113285089,
+      "loss": 7.2705,
+      "step": 166000
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0006504556419190566,
+      "loss": 7.2702,
+      "step": 166500
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0006493388725096042,
+      "loss": 7.2598,
+      "step": 167000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0006482221031001518,
+      "loss": 7.2735,
+      "step": 167500
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0006471075672295185,
+      "loss": 7.2693,
+      "step": 168000
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.0006459907978200661,
+      "loss": 7.2746,
+      "step": 168500
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0006448740284106138,
+      "loss": 7.2716,
+      "step": 169000
+    },
+    {
+      "epoch": 1.85,
+      "step": 169136,
+      "total_flos": 3.1691545184745554e+18,
+      "train_loss": 7.273256063168102,
+      "train_runtime": 107974.2539,
+      "train_samples_per_second": 271.303,
+      "train_steps_per_second": 4.239
     }
   ],
   "max_steps": 457720,
   "num_train_epochs": 5,
+  "total_flos": 3.1691545184745554e+18,
   "trial_name": null,
   "trial_params": null
 }