End of training

Browse files

Files changed (7) hide show

all_results.json +18 -18
eval_results.json +7 -7
generated_predictions.txt +0 -0
predict_results.json +6 -6
runs/May25_21-59-23_1733356bae24/events.out.tfevents.1685073147.1733356bae24.77485.2 +3 -0
train_results.json +6 -6
trainer_state.json +1402 -76

all_results.json CHANGED Viewed

@@ -1,23 +1,23 @@
 {
-    "epoch": 10.0,
-    "eval_bleu": 6.8783,
-    "eval_gen_len": 99.7771,
-    "eval_loss": 0.7417959570884705,
-    "eval_runtime": 138.6812,
     "eval_samples": 785,
-    "eval_samples_per_second": 5.66,
-    "eval_steps_per_second": 0.361,
-    "predict_bleu": 6.9486,
-    "predict_gen_len": 99.0917,
-    "predict_loss": 0.7483241558074951,
-    "predict_runtime": 139.0659,
     "predict_samples": 785,
-    "predict_samples_per_second": 5.645,
-    "predict_steps_per_second": 0.36,
-    "total_flos": 2.232877359218688e+16,
-    "train_loss": 0.9653779240964934,
-    "train_runtime": 2075.6207,
     "train_samples": 6279,
-    "train_samples_per_second": 30.251,
-    "train_steps_per_second": 1.893
 }

 {
+    "epoch": 100.0,
+    "eval_bleu": 14.8412,
+    "eval_gen_len": 98.6675,
+    "eval_loss": 1.0916588306427002,
+    "eval_runtime": 134.8299,
     "eval_samples": 785,
+    "eval_samples_per_second": 5.822,
+    "eval_steps_per_second": 0.371,
+    "predict_bleu": 14.3233,
+    "predict_gen_len": 98.2013,
+    "predict_loss": 1.0994350910186768,
+    "predict_runtime": 133.0351,
     "predict_samples": 785,
+    "predict_samples_per_second": 5.901,
+    "predict_steps_per_second": 0.376,
+    "total_flos": 2.232877359218688e+17,
+    "train_loss": 0.3279189860123108,
+    "train_runtime": 20714.0027,
     "train_samples": 6279,
+    "train_samples_per_second": 30.313,
+    "train_steps_per_second": 1.897
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 10.0,
-    "eval_bleu": 6.8783,
-    "eval_gen_len": 99.7771,
-    "eval_loss": 0.7417959570884705,
-    "eval_runtime": 138.6812,
     "eval_samples": 785,
-    "eval_samples_per_second": 5.66,
-    "eval_steps_per_second": 0.361
 }

 {
+    "epoch": 100.0,
+    "eval_bleu": 14.8412,
+    "eval_gen_len": 98.6675,
+    "eval_loss": 1.0916588306427002,
+    "eval_runtime": 134.8299,
     "eval_samples": 785,
+    "eval_samples_per_second": 5.822,
+    "eval_steps_per_second": 0.371
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "predict_bleu": 6.9486,
-    "predict_gen_len": 99.0917,
-    "predict_loss": 0.7483241558074951,
-    "predict_runtime": 139.0659,
     "predict_samples": 785,
-    "predict_samples_per_second": 5.645,
-    "predict_steps_per_second": 0.36
 }

 {
+    "predict_bleu": 14.3233,
+    "predict_gen_len": 98.2013,
+    "predict_loss": 1.0994350910186768,
+    "predict_runtime": 133.0351,
     "predict_samples": 785,
+    "predict_samples_per_second": 5.901,
+    "predict_steps_per_second": 0.376
 }

runs/May25_21-59-23_1733356bae24/events.out.tfevents.1685073147.1733356bae24.77485.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9422907d6a6a69cf94501692003b1ee320edf55be0778d9e8ae39fc2bee0c4f9
+size 465

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 10.0,
-    "total_flos": 2.232877359218688e+16,
-    "train_loss": 0.9653779240964934,
-    "train_runtime": 2075.6207,
     "train_samples": 6279,
-    "train_samples_per_second": 30.251,
-    "train_steps_per_second": 1.893
 }

 {
+    "epoch": 100.0,
+    "total_flos": 2.232877359218688e+17,
+    "train_loss": 0.3279189860123108,
+    "train_runtime": 20714.0027,
     "train_samples": 6279,
+    "train_samples_per_second": 30.313,
+    "train_steps_per_second": 1.897
 }

trainer_state.json CHANGED Viewed

@@ -1,167 +1,1493 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
-  "global_step": 3930,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_bleu": 0.0452,
       "eval_gen_len": 19.0,
-      "eval_loss": 1.0331772565841675,
-      "eval_runtime": 41.1909,
-      "eval_samples_per_second": 19.058,
-      "eval_steps_per_second": 1.214,
       "step": 393
     },
     {
       "epoch": 1.27,
-      "learning_rate": 4.3638676844783716e-05,
-      "loss": 1.5229,
       "step": 500
     },
     {
       "epoch": 2.0,
-      "eval_bleu": 0.1159,
       "eval_gen_len": 19.0,
-      "eval_loss": 0.912860095500946,
-      "eval_runtime": 38.6643,
-      "eval_samples_per_second": 20.303,
-      "eval_steps_per_second": 1.293,
       "step": 786
     },
     {
       "epoch": 2.54,
-      "learning_rate": 3.727735368956743e-05,
-      "loss": 1.0464,
       "step": 1000
     },
     {
       "epoch": 3.0,
-      "eval_bleu": 0.1479,
       "eval_gen_len": 19.0,
-      "eval_loss": 0.8561409115791321,
-      "eval_runtime": 38.5663,
-      "eval_samples_per_second": 20.355,
-      "eval_steps_per_second": 1.296,
       "step": 1179
     },
     {
       "epoch": 3.82,
-      "learning_rate": 3.091603053435115e-05,
-      "loss": 0.9477,
       "step": 1500
     },
     {
       "epoch": 4.0,
-      "eval_bleu": 0.1678,
       "eval_gen_len": 19.0,
-      "eval_loss": 0.8148155808448792,
-      "eval_runtime": 38.0933,
-      "eval_samples_per_second": 20.607,
-      "eval_steps_per_second": 1.313,
       "step": 1572
     },
     {
       "epoch": 5.0,
-      "eval_bleu": 0.1791,
       "eval_gen_len": 19.0,
-      "eval_loss": 0.7879176735877991,
-      "eval_runtime": 38.3603,
-      "eval_samples_per_second": 20.464,
-      "eval_steps_per_second": 1.303,
       "step": 1965
     },
     {
       "epoch": 5.09,
-      "learning_rate": 2.455470737913486e-05,
-      "loss": 0.8888,
       "step": 2000
     },
     {
       "epoch": 6.0,
-      "eval_bleu": 0.1628,
       "eval_gen_len": 19.0,
-      "eval_loss": 0.7707892656326294,
-      "eval_runtime": 38.214,
-      "eval_samples_per_second": 20.542,
-      "eval_steps_per_second": 1.308,
       "step": 2358
     },
     {
       "epoch": 6.36,
-      "learning_rate": 1.8193384223918574e-05,
-      "loss": 0.8517,
       "step": 2500
     },
     {
       "epoch": 7.0,
-      "eval_bleu": 0.1582,
       "eval_gen_len": 19.0,
-      "eval_loss": 0.7597165107727051,
-      "eval_runtime": 38.4006,
-      "eval_samples_per_second": 20.442,
-      "eval_steps_per_second": 1.302,
       "step": 2751
     },
     {
       "epoch": 7.63,
-      "learning_rate": 1.1832061068702292e-05,
-      "loss": 0.8279,
       "step": 3000
     },
     {
       "epoch": 8.0,
-      "eval_bleu": 0.1683,
       "eval_gen_len": 19.0,
-      "eval_loss": 0.7492462992668152,
-      "eval_runtime": 38.3938,
-      "eval_samples_per_second": 20.446,
-      "eval_steps_per_second": 1.302,
       "step": 3144
     },
     {
       "epoch": 8.91,
-      "learning_rate": 5.470737913486006e-06,
-      "loss": 0.8107,
       "step": 3500
     },
     {
       "epoch": 9.0,
-      "eval_bleu": 0.1704,
       "eval_gen_len": 19.0,
-      "eval_loss": 0.7442331314086914,
-      "eval_runtime": 38.261,
-      "eval_samples_per_second": 20.517,
-      "eval_steps_per_second": 1.307,
       "step": 3537
     },
     {
       "epoch": 10.0,
-      "eval_bleu": 0.1683,
       "eval_gen_len": 19.0,
-      "eval_loss": 0.7417959570884705,
-      "eval_runtime": 38.3788,
-      "eval_samples_per_second": 20.454,
-      "eval_steps_per_second": 1.303,
       "step": 3930
     },
     {
-      "epoch": 10.0,
-      "step": 3930,
-      "total_flos": 2.232877359218688e+16,
-      "train_loss": 0.9653779240964934,
-      "train_runtime": 2075.6207,
-      "train_samples_per_second": 30.251,
-      "train_steps_per_second": 1.893
     }
   ],
-  "max_steps": 3930,
-  "num_train_epochs": 10,
-  "total_flos": 2.232877359218688e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 100.0,
+  "global_step": 39300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_bleu": 0.0473,
       "eval_gen_len": 19.0,
+      "eval_loss": 1.034566044807434,
+      "eval_runtime": 35.414,
+      "eval_samples_per_second": 22.166,
+      "eval_steps_per_second": 1.412,
       "step": 393
     },
     {
       "epoch": 1.27,
+      "learning_rate": 4.936386768447838e-05,
+      "loss": 1.5209,
       "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_bleu": 0.1413,
       "eval_gen_len": 19.0,
+      "eval_loss": 0.8939195275306702,
+      "eval_runtime": 35.4148,
+      "eval_samples_per_second": 22.166,
+      "eval_steps_per_second": 1.412,
       "step": 786
     },
     {
       "epoch": 2.54,
+      "learning_rate": 4.8727735368956744e-05,
+      "loss": 1.0258,
       "step": 1000
     },
     {
       "epoch": 3.0,
+      "eval_bleu": 0.1641,
       "eval_gen_len": 19.0,
+      "eval_loss": 0.8333808779716492,
+      "eval_runtime": 35.2354,
+      "eval_samples_per_second": 22.279,
+      "eval_steps_per_second": 1.419,
       "step": 1179
     },
     {
       "epoch": 3.82,
+      "learning_rate": 4.809160305343512e-05,
+      "loss": 0.9177,
       "step": 1500
     },
     {
       "epoch": 4.0,
+      "eval_bleu": 0.1729,
       "eval_gen_len": 19.0,
+      "eval_loss": 0.7867220044136047,
+      "eval_runtime": 35.207,
+      "eval_samples_per_second": 22.297,
+      "eval_steps_per_second": 1.42,
       "step": 1572
     },
     {
       "epoch": 5.0,
+      "eval_bleu": 0.1742,
       "eval_gen_len": 19.0,
+      "eval_loss": 0.7542837858200073,
+      "eval_runtime": 35.3809,
+      "eval_samples_per_second": 22.187,
+      "eval_steps_per_second": 1.413,
       "step": 1965
     },
     {
       "epoch": 5.09,
+      "learning_rate": 4.7455470737913485e-05,
+      "loss": 0.8482,
       "step": 2000
     },
     {
       "epoch": 6.0,
+      "eval_bleu": 0.1692,
       "eval_gen_len": 19.0,
+      "eval_loss": 0.7316721677780151,
+      "eval_runtime": 35.4956,
+      "eval_samples_per_second": 22.115,
+      "eval_steps_per_second": 1.409,
       "step": 2358
     },
     {
       "epoch": 6.36,
+      "learning_rate": 4.681933842239186e-05,
+      "loss": 0.7957,
       "step": 2500
     },
     {
       "epoch": 7.0,
+      "eval_bleu": 0.1742,
       "eval_gen_len": 19.0,
+      "eval_loss": 0.7106090188026428,
+      "eval_runtime": 35.1034,
+      "eval_samples_per_second": 22.362,
+      "eval_steps_per_second": 1.424,
       "step": 2751
     },
     {
       "epoch": 7.63,
+      "learning_rate": 4.618320610687023e-05,
+      "loss": 0.7557,
       "step": 3000
     },
     {
       "epoch": 8.0,
+      "eval_bleu": 0.216,
       "eval_gen_len": 19.0,
+      "eval_loss": 0.6849327087402344,
+      "eval_runtime": 35.4066,
+      "eval_samples_per_second": 22.171,
+      "eval_steps_per_second": 1.412,
       "step": 3144
     },
     {
       "epoch": 8.91,
+      "learning_rate": 4.5547073791348604e-05,
+      "loss": 0.7204,
       "step": 3500
     },
     {
       "epoch": 9.0,
+      "eval_bleu": 0.189,
       "eval_gen_len": 19.0,
+      "eval_loss": 0.6731250882148743,
+      "eval_runtime": 35.3153,
+      "eval_samples_per_second": 22.228,
+      "eval_steps_per_second": 1.416,
       "step": 3537
     },
     {
       "epoch": 10.0,
+      "eval_bleu": 0.2063,
       "eval_gen_len": 19.0,
+      "eval_loss": 0.6562144160270691,
+      "eval_runtime": 35.358,
+      "eval_samples_per_second": 22.201,
+      "eval_steps_per_second": 1.414,
       "step": 3930
     },
     {
+      "epoch": 10.18,
+      "learning_rate": 4.4910941475826975e-05,
+      "loss": 0.6901,
+      "step": 4000
+    },
+    {
+      "epoch": 11.0,
+      "eval_bleu": 0.2025,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6510306596755981,
+      "eval_runtime": 35.1746,
+      "eval_samples_per_second": 22.317,
+      "eval_steps_per_second": 1.421,
+      "step": 4323
+    },
+    {
+      "epoch": 11.45,
+      "learning_rate": 4.4274809160305345e-05,
+      "loss": 0.6635,
+      "step": 4500
+    },
+    {
+      "epoch": 12.0,
+      "eval_bleu": 0.2266,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6423279047012329,
+      "eval_runtime": 34.9781,
+      "eval_samples_per_second": 22.443,
+      "eval_steps_per_second": 1.429,
+      "step": 4716
+    },
+    {
+      "epoch": 12.72,
+      "learning_rate": 4.3638676844783716e-05,
+      "loss": 0.6346,
+      "step": 5000
+    },
+    {
+      "epoch": 13.0,
+      "eval_bleu": 0.2229,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6330356597900391,
+      "eval_runtime": 35.0795,
+      "eval_samples_per_second": 22.378,
+      "eval_steps_per_second": 1.425,
+      "step": 5109
+    },
+    {
+      "epoch": 13.99,
+      "learning_rate": 4.300254452926209e-05,
+      "loss": 0.6132,
+      "step": 5500
+    },
+    {
+      "epoch": 14.0,
+      "eval_bleu": 0.2195,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6257367134094238,
+      "eval_runtime": 34.9799,
+      "eval_samples_per_second": 22.441,
+      "eval_steps_per_second": 1.429,
+      "step": 5502
+    },
+    {
+      "epoch": 15.0,
+      "eval_bleu": 0.2344,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6191786527633667,
+      "eval_runtime": 35.2808,
+      "eval_samples_per_second": 22.25,
+      "eval_steps_per_second": 1.417,
+      "step": 5895
+    },
+    {
+      "epoch": 15.27,
+      "learning_rate": 4.236641221374046e-05,
+      "loss": 0.5885,
+      "step": 6000
+    },
+    {
+      "epoch": 16.0,
+      "eval_bleu": 0.2424,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6103959083557129,
+      "eval_runtime": 35.1057,
+      "eval_samples_per_second": 22.361,
+      "eval_steps_per_second": 1.424,
+      "step": 6288
+    },
+    {
+      "epoch": 16.54,
+      "learning_rate": 4.1730279898218835e-05,
+      "loss": 0.5682,
+      "step": 6500
+    },
+    {
+      "epoch": 17.0,
+      "eval_bleu": 0.2536,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6047710180282593,
+      "eval_runtime": 35.079,
+      "eval_samples_per_second": 22.378,
+      "eval_steps_per_second": 1.425,
+      "step": 6681
+    },
+    {
+      "epoch": 17.81,
+      "learning_rate": 4.10941475826972e-05,
+      "loss": 0.5452,
+      "step": 7000
+    },
+    {
+      "epoch": 18.0,
+      "eval_bleu": 0.2541,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6057348847389221,
+      "eval_runtime": 35.3873,
+      "eval_samples_per_second": 22.183,
+      "eval_steps_per_second": 1.413,
+      "step": 7074
+    },
+    {
+      "epoch": 19.0,
+      "eval_bleu": 0.2526,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6047215461730957,
+      "eval_runtime": 35.004,
+      "eval_samples_per_second": 22.426,
+      "eval_steps_per_second": 1.428,
+      "step": 7467
+    },
+    {
+      "epoch": 19.08,
+      "learning_rate": 4.0458015267175576e-05,
+      "loss": 0.5294,
+      "step": 7500
+    },
+    {
+      "epoch": 20.0,
+      "eval_bleu": 0.2644,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6065888404846191,
+      "eval_runtime": 35.2375,
+      "eval_samples_per_second": 22.277,
+      "eval_steps_per_second": 1.419,
+      "step": 7860
+    },
+    {
+      "epoch": 20.36,
+      "learning_rate": 3.982188295165395e-05,
+      "loss": 0.5072,
+      "step": 8000
+    },
+    {
+      "epoch": 21.0,
+      "eval_bleu": 0.2666,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6080436706542969,
+      "eval_runtime": 35.085,
+      "eval_samples_per_second": 22.374,
+      "eval_steps_per_second": 1.425,
+      "step": 8253
+    },
+    {
+      "epoch": 21.63,
+      "learning_rate": 3.918575063613232e-05,
+      "loss": 0.4921,
+      "step": 8500
+    },
+    {
+      "epoch": 22.0,
+      "eval_bleu": 0.2499,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6091626882553101,
+      "eval_runtime": 35.0913,
+      "eval_samples_per_second": 22.37,
+      "eval_steps_per_second": 1.425,
+      "step": 8646
+    },
+    {
+      "epoch": 22.9,
+      "learning_rate": 3.854961832061069e-05,
+      "loss": 0.4753,
+      "step": 9000
+    },
+    {
+      "epoch": 23.0,
+      "eval_bleu": 0.2719,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6132063269615173,
+      "eval_runtime": 35.0981,
+      "eval_samples_per_second": 22.366,
+      "eval_steps_per_second": 1.425,
+      "step": 9039
+    },
+    {
+      "epoch": 24.0,
+      "eval_bleu": 0.2724,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6088494658470154,
+      "eval_runtime": 35.1025,
+      "eval_samples_per_second": 22.363,
+      "eval_steps_per_second": 1.424,
+      "step": 9432
+    },
+    {
+      "epoch": 24.17,
+      "learning_rate": 3.791348600508906e-05,
+      "loss": 0.4597,
+      "step": 9500
+    },
+    {
+      "epoch": 25.0,
+      "eval_bleu": 0.2683,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6127578020095825,
+      "eval_runtime": 35.0847,
+      "eval_samples_per_second": 22.374,
+      "eval_steps_per_second": 1.425,
+      "step": 9825
+    },
+    {
+      "epoch": 25.45,
+      "learning_rate": 3.727735368956743e-05,
+      "loss": 0.4443,
+      "step": 10000
+    },
+    {
+      "epoch": 26.0,
+      "eval_bleu": 0.2856,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6183450818061829,
+      "eval_runtime": 35.0496,
+      "eval_samples_per_second": 22.397,
+      "eval_steps_per_second": 1.427,
+      "step": 10218
+    },
+    {
+      "epoch": 26.72,
+      "learning_rate": 3.66412213740458e-05,
+      "loss": 0.4301,
+      "step": 10500
+    },
+    {
+      "epoch": 27.0,
+      "eval_bleu": 0.3006,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6246443390846252,
+      "eval_runtime": 35.1774,
+      "eval_samples_per_second": 22.315,
+      "eval_steps_per_second": 1.421,
+      "step": 10611
+    },
+    {
+      "epoch": 27.99,
+      "learning_rate": 3.600508905852418e-05,
+      "loss": 0.418,
+      "step": 11000
+    },
+    {
+      "epoch": 28.0,
+      "eval_bleu": 0.2788,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6312348246574402,
+      "eval_runtime": 35.3395,
+      "eval_samples_per_second": 22.213,
+      "eval_steps_per_second": 1.415,
+      "step": 11004
+    },
+    {
+      "epoch": 29.0,
+      "eval_bleu": 0.2843,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6295350790023804,
+      "eval_runtime": 35.2861,
+      "eval_samples_per_second": 22.247,
+      "eval_steps_per_second": 1.417,
+      "step": 11397
+    },
+    {
+      "epoch": 29.26,
+      "learning_rate": 3.536895674300255e-05,
+      "loss": 0.4002,
+      "step": 11500
+    },
+    {
+      "epoch": 30.0,
+      "eval_bleu": 0.2982,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6349673271179199,
+      "eval_runtime": 35.0212,
+      "eval_samples_per_second": 22.415,
+      "eval_steps_per_second": 1.428,
+      "step": 11790
+    },
+    {
+      "epoch": 30.53,
+      "learning_rate": 3.473282442748092e-05,
+      "loss": 0.3913,
+      "step": 12000
+    },
+    {
+      "epoch": 31.0,
+      "eval_bleu": 0.2822,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6441249847412109,
+      "eval_runtime": 35.0154,
+      "eval_samples_per_second": 22.419,
+      "eval_steps_per_second": 1.428,
+      "step": 12183
+    },
+    {
+      "epoch": 31.81,
+      "learning_rate": 3.409669211195929e-05,
+      "loss": 0.3755,
+      "step": 12500
+    },
+    {
+      "epoch": 32.0,
+      "eval_bleu": 0.3215,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6430069804191589,
+      "eval_runtime": 35.1225,
+      "eval_samples_per_second": 22.35,
+      "eval_steps_per_second": 1.424,
+      "step": 12576
+    },
+    {
+      "epoch": 33.0,
+      "eval_bleu": 0.3024,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6485504508018494,
+      "eval_runtime": 35.0519,
+      "eval_samples_per_second": 22.395,
+      "eval_steps_per_second": 1.426,
+      "step": 12969
+    },
+    {
+      "epoch": 33.08,
+      "learning_rate": 3.346055979643766e-05,
+      "loss": 0.3673,
+      "step": 13000
+    },
+    {
+      "epoch": 34.0,
+      "eval_bleu": 0.2985,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6527048945426941,
+      "eval_runtime": 34.9946,
+      "eval_samples_per_second": 22.432,
+      "eval_steps_per_second": 1.429,
+      "step": 13362
+    },
+    {
+      "epoch": 34.35,
+      "learning_rate": 3.282442748091603e-05,
+      "loss": 0.352,
+      "step": 13500
+    },
+    {
+      "epoch": 35.0,
+      "eval_bleu": 0.31,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6660041213035583,
+      "eval_runtime": 34.9679,
+      "eval_samples_per_second": 22.449,
+      "eval_steps_per_second": 1.43,
+      "step": 13755
+    },
+    {
+      "epoch": 35.62,
+      "learning_rate": 3.21882951653944e-05,
+      "loss": 0.3408,
+      "step": 14000
+    },
+    {
+      "epoch": 36.0,
+      "eval_bleu": 0.288,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6737257838249207,
+      "eval_runtime": 35.0785,
+      "eval_samples_per_second": 22.378,
+      "eval_steps_per_second": 1.425,
+      "step": 14148
+    },
+    {
+      "epoch": 36.9,
+      "learning_rate": 3.155216284987277e-05,
+      "loss": 0.3307,
+      "step": 14500
+    },
+    {
+      "epoch": 37.0,
+      "eval_bleu": 0.2995,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6772977113723755,
+      "eval_runtime": 35.0227,
+      "eval_samples_per_second": 22.414,
+      "eval_steps_per_second": 1.428,
+      "step": 14541
+    },
+    {
+      "epoch": 38.0,
+      "eval_bleu": 0.29,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6903324723243713,
+      "eval_runtime": 35.1225,
+      "eval_samples_per_second": 22.35,
+      "eval_steps_per_second": 1.424,
+      "step": 14934
+    },
+    {
+      "epoch": 38.17,
+      "learning_rate": 3.091603053435115e-05,
+      "loss": 0.3182,
+      "step": 15000
+    },
+    {
+      "epoch": 39.0,
+      "eval_bleu": 0.2848,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7059388160705566,
+      "eval_runtime": 34.9533,
+      "eval_samples_per_second": 22.459,
+      "eval_steps_per_second": 1.43,
+      "step": 15327
+    },
+    {
+      "epoch": 39.44,
+      "learning_rate": 3.0279898218829518e-05,
+      "loss": 0.3077,
+      "step": 15500
+    },
+    {
+      "epoch": 40.0,
+      "eval_bleu": 0.2878,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.6985650658607483,
+      "eval_runtime": 35.0758,
+      "eval_samples_per_second": 22.38,
+      "eval_steps_per_second": 1.425,
+      "step": 15720
+    },
+    {
+      "epoch": 40.71,
+      "learning_rate": 2.9643765903307892e-05,
+      "loss": 0.298,
+      "step": 16000
+    },
+    {
+      "epoch": 41.0,
+      "eval_bleu": 0.2859,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7053300142288208,
+      "eval_runtime": 35.1562,
+      "eval_samples_per_second": 22.329,
+      "eval_steps_per_second": 1.422,
+      "step": 16113
+    },
+    {
+      "epoch": 41.98,
+      "learning_rate": 2.900763358778626e-05,
+      "loss": 0.29,
+      "step": 16500
+    },
+    {
+      "epoch": 42.0,
+      "eval_bleu": 0.2871,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.719767689704895,
+      "eval_runtime": 35.1382,
+      "eval_samples_per_second": 22.34,
+      "eval_steps_per_second": 1.423,
+      "step": 16506
+    },
+    {
+      "epoch": 43.0,
+      "eval_bleu": 0.2813,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7274527549743652,
+      "eval_runtime": 35.0854,
+      "eval_samples_per_second": 22.374,
+      "eval_steps_per_second": 1.425,
+      "step": 16899
+    },
+    {
+      "epoch": 43.26,
+      "learning_rate": 2.8371501272264633e-05,
+      "loss": 0.2787,
+      "step": 17000
+    },
+    {
+      "epoch": 44.0,
+      "eval_bleu": 0.2972,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7369562983512878,
+      "eval_runtime": 35.1464,
+      "eval_samples_per_second": 22.335,
+      "eval_steps_per_second": 1.423,
+      "step": 17292
+    },
+    {
+      "epoch": 44.53,
+      "learning_rate": 2.7735368956743e-05,
+      "loss": 0.268,
+      "step": 17500
+    },
+    {
+      "epoch": 45.0,
+      "eval_bleu": 0.26,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7426473498344421,
+      "eval_runtime": 35.1116,
+      "eval_samples_per_second": 22.357,
+      "eval_steps_per_second": 1.424,
+      "step": 17685
+    },
+    {
+      "epoch": 45.8,
+      "learning_rate": 2.7099236641221375e-05,
+      "loss": 0.2638,
+      "step": 18000
+    },
+    {
+      "epoch": 46.0,
+      "eval_bleu": 0.2846,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7529018521308899,
+      "eval_runtime": 35.1433,
+      "eval_samples_per_second": 22.337,
+      "eval_steps_per_second": 1.423,
+      "step": 18078
+    },
+    {
+      "epoch": 47.0,
+      "eval_bleu": 0.2898,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7602871060371399,
+      "eval_runtime": 35.1079,
+      "eval_samples_per_second": 22.36,
+      "eval_steps_per_second": 1.424,
+      "step": 18471
+    },
+    {
+      "epoch": 47.07,
+      "learning_rate": 2.6463104325699745e-05,
+      "loss": 0.253,
+      "step": 18500
+    },
+    {
+      "epoch": 48.0,
+      "eval_bleu": 0.277,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7711123824119568,
+      "eval_runtime": 35.1881,
+      "eval_samples_per_second": 22.309,
+      "eval_steps_per_second": 1.421,
+      "step": 18864
+    },
+    {
+      "epoch": 48.35,
+      "learning_rate": 2.582697201017812e-05,
+      "loss": 0.244,
+      "step": 19000
+    },
+    {
+      "epoch": 49.0,
+      "eval_bleu": 0.3005,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7778590321540833,
+      "eval_runtime": 35.1873,
+      "eval_samples_per_second": 22.309,
+      "eval_steps_per_second": 1.421,
+      "step": 19257
+    },
+    {
+      "epoch": 49.62,
+      "learning_rate": 2.5190839694656487e-05,
+      "loss": 0.2368,
+      "step": 19500
+    },
+    {
+      "epoch": 50.0,
+      "eval_bleu": 0.2931,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.7815132737159729,
+      "eval_runtime": 35.108,
+      "eval_samples_per_second": 22.36,
+      "eval_steps_per_second": 1.424,
+      "step": 19650
+    },
+    {
+      "epoch": 50.89,
+      "learning_rate": 2.455470737913486e-05,
+      "loss": 0.2301,
+      "step": 20000
+    },
+    {
+      "epoch": 51.0,
+      "eval_bleu": 0.2998,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8020169734954834,
+      "eval_runtime": 35.1735,
+      "eval_samples_per_second": 22.318,
+      "eval_steps_per_second": 1.422,
+      "step": 20043
+    },
+    {
+      "epoch": 52.0,
+      "eval_bleu": 0.2806,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8051058053970337,
+      "eval_runtime": 35.0481,
+      "eval_samples_per_second": 22.398,
+      "eval_steps_per_second": 1.427,
+      "step": 20436
+    },
+    {
+      "epoch": 52.16,
+      "learning_rate": 2.391857506361323e-05,
+      "loss": 0.2217,
+      "step": 20500
+    },
+    {
+      "epoch": 53.0,
+      "eval_bleu": 0.294,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.811935544013977,
+      "eval_runtime": 35.104,
+      "eval_samples_per_second": 22.362,
+      "eval_steps_per_second": 1.424,
+      "step": 20829
+    },
+    {
+      "epoch": 53.44,
+      "learning_rate": 2.3282442748091605e-05,
+      "loss": 0.2158,
+      "step": 21000
+    },
+    {
+      "epoch": 54.0,
+      "eval_bleu": 0.2921,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8288211226463318,
+      "eval_runtime": 35.1084,
+      "eval_samples_per_second": 22.359,
+      "eval_steps_per_second": 1.424,
+      "step": 21222
+    },
+    {
+      "epoch": 54.71,
+      "learning_rate": 2.2646310432569976e-05,
+      "loss": 0.2079,
+      "step": 21500
+    },
+    {
+      "epoch": 55.0,
+      "eval_bleu": 0.2954,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8340888619422913,
+      "eval_runtime": 35.1775,
+      "eval_samples_per_second": 22.315,
+      "eval_steps_per_second": 1.421,
+      "step": 21615
+    },
+    {
+      "epoch": 55.98,
+      "learning_rate": 2.2010178117048347e-05,
+      "loss": 0.2027,
+      "step": 22000
+    },
+    {
+      "epoch": 56.0,
+      "eval_bleu": 0.2884,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8364927768707275,
+      "eval_runtime": 35.072,
+      "eval_samples_per_second": 22.383,
+      "eval_steps_per_second": 1.426,
+      "step": 22008
+    },
+    {
+      "epoch": 57.0,
+      "eval_bleu": 0.2995,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8441442251205444,
+      "eval_runtime": 35.1154,
+      "eval_samples_per_second": 22.355,
+      "eval_steps_per_second": 1.424,
+      "step": 22401
+    },
+    {
+      "epoch": 57.25,
+      "learning_rate": 2.1374045801526718e-05,
+      "loss": 0.1954,
+      "step": 22500
+    },
+    {
+      "epoch": 58.0,
+      "eval_bleu": 0.3115,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8488335609436035,
+      "eval_runtime": 34.9312,
+      "eval_samples_per_second": 22.473,
+      "eval_steps_per_second": 1.431,
+      "step": 22794
+    },
+    {
+      "epoch": 58.52,
+      "learning_rate": 2.0737913486005088e-05,
+      "loss": 0.1918,
+      "step": 23000
+    },
+    {
+      "epoch": 59.0,
+      "eval_bleu": 0.3085,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8709967732429504,
+      "eval_runtime": 35.0738,
+      "eval_samples_per_second": 22.381,
+      "eval_steps_per_second": 1.426,
+      "step": 23187
+    },
+    {
+      "epoch": 59.8,
+      "learning_rate": 2.0101781170483462e-05,
+      "loss": 0.1857,
+      "step": 23500
+    },
+    {
+      "epoch": 60.0,
+      "eval_bleu": 0.2932,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8718471527099609,
+      "eval_runtime": 35.1809,
+      "eval_samples_per_second": 22.313,
+      "eval_steps_per_second": 1.421,
+      "step": 23580
+    },
+    {
+      "epoch": 61.0,
+      "eval_bleu": 0.2923,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8777070045471191,
+      "eval_runtime": 35.0923,
+      "eval_samples_per_second": 22.37,
+      "eval_steps_per_second": 1.425,
+      "step": 23973
+    },
+    {
+      "epoch": 61.07,
+      "learning_rate": 1.9465648854961833e-05,
+      "loss": 0.1796,
+      "step": 24000
+    },
+    {
+      "epoch": 62.0,
+      "eval_bleu": 0.3038,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8831952214241028,
+      "eval_runtime": 35.1476,
+      "eval_samples_per_second": 22.334,
+      "eval_steps_per_second": 1.423,
+      "step": 24366
+    },
+    {
+      "epoch": 62.34,
+      "learning_rate": 1.8829516539440204e-05,
+      "loss": 0.1753,
+      "step": 24500
+    },
+    {
+      "epoch": 63.0,
+      "eval_bleu": 0.3063,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.8996883630752563,
+      "eval_runtime": 35.1466,
+      "eval_samples_per_second": 22.335,
+      "eval_steps_per_second": 1.423,
+      "step": 24759
+    },
+    {
+      "epoch": 63.61,
+      "learning_rate": 1.8193384223918574e-05,
+      "loss": 0.1703,
+      "step": 25000
+    },
+    {
+      "epoch": 64.0,
+      "eval_bleu": 0.3047,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9198061227798462,
+      "eval_runtime": 35.8655,
+      "eval_samples_per_second": 21.887,
+      "eval_steps_per_second": 1.394,
+      "step": 25152
+    },
+    {
+      "epoch": 64.89,
+      "learning_rate": 1.7557251908396945e-05,
+      "loss": 0.1661,
+      "step": 25500
+    },
+    {
+      "epoch": 65.0,
+      "eval_bleu": 0.3159,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9193503856658936,
+      "eval_runtime": 35.1603,
+      "eval_samples_per_second": 22.326,
+      "eval_steps_per_second": 1.422,
+      "step": 25545
+    },
+    {
+      "epoch": 66.0,
+      "eval_bleu": 0.2962,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9242938756942749,
+      "eval_runtime": 35.073,
+      "eval_samples_per_second": 22.382,
+      "eval_steps_per_second": 1.426,
+      "step": 25938
+    },
+    {
+      "epoch": 66.16,
+      "learning_rate": 1.692111959287532e-05,
+      "loss": 0.1606,
+      "step": 26000
+    },
+    {
+      "epoch": 67.0,
+      "eval_bleu": 0.3065,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9375536441802979,
+      "eval_runtime": 34.9169,
+      "eval_samples_per_second": 22.482,
+      "eval_steps_per_second": 1.432,
+      "step": 26331
+    },
+    {
+      "epoch": 67.43,
+      "learning_rate": 1.628498727735369e-05,
+      "loss": 0.1582,
+      "step": 26500
+    },
+    {
+      "epoch": 68.0,
+      "eval_bleu": 0.3002,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9338624477386475,
+      "eval_runtime": 35.1084,
+      "eval_samples_per_second": 22.359,
+      "eval_steps_per_second": 1.424,
+      "step": 26724
+    },
+    {
+      "epoch": 68.7,
+      "learning_rate": 1.5648854961832064e-05,
+      "loss": 0.1533,
+      "step": 27000
+    },
+    {
+      "epoch": 69.0,
+      "eval_bleu": 0.3096,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9420493841171265,
+      "eval_runtime": 35.122,
+      "eval_samples_per_second": 22.351,
+      "eval_steps_per_second": 1.424,
+      "step": 27117
+    },
+    {
+      "epoch": 69.97,
+      "learning_rate": 1.5012722646310435e-05,
+      "loss": 0.1503,
+      "step": 27500
+    },
+    {
+      "epoch": 70.0,
+      "eval_bleu": 0.2919,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9522092342376709,
+      "eval_runtime": 35.4031,
+      "eval_samples_per_second": 22.173,
+      "eval_steps_per_second": 1.412,
+      "step": 27510
+    },
+    {
+      "epoch": 71.0,
+      "eval_bleu": 0.3085,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9620120525360107,
+      "eval_runtime": 35.926,
+      "eval_samples_per_second": 21.85,
+      "eval_steps_per_second": 1.392,
+      "step": 27903
+    },
+    {
+      "epoch": 71.25,
+      "learning_rate": 1.4376590330788805e-05,
+      "loss": 0.1469,
+      "step": 28000
+    },
+    {
+      "epoch": 72.0,
+      "eval_bleu": 0.2946,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9673256874084473,
+      "eval_runtime": 35.209,
+      "eval_samples_per_second": 22.295,
+      "eval_steps_per_second": 1.42,
+      "step": 28296
+    },
+    {
+      "epoch": 72.52,
+      "learning_rate": 1.3740458015267178e-05,
+      "loss": 0.1416,
+      "step": 28500
+    },
+    {
+      "epoch": 73.0,
+      "eval_bleu": 0.3019,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9706256985664368,
+      "eval_runtime": 35.1594,
+      "eval_samples_per_second": 22.327,
+      "eval_steps_per_second": 1.422,
+      "step": 28689
+    },
+    {
+      "epoch": 73.79,
+      "learning_rate": 1.3104325699745548e-05,
+      "loss": 0.1401,
+      "step": 29000
+    },
+    {
+      "epoch": 74.0,
+      "eval_bleu": 0.3103,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9876586198806763,
+      "eval_runtime": 35.0824,
+      "eval_samples_per_second": 22.376,
+      "eval_steps_per_second": 1.425,
+      "step": 29082
+    },
+    {
+      "epoch": 75.0,
+      "eval_bleu": 0.2903,
+      "eval_gen_len": 19.0,
+      "eval_loss": 0.9860377311706543,
+      "eval_runtime": 35.2841,
+      "eval_samples_per_second": 22.248,
+      "eval_steps_per_second": 1.417,
+      "step": 29475
+    },
+    {
+      "epoch": 75.06,
+      "learning_rate": 1.2468193384223919e-05,
+      "loss": 0.1376,
+      "step": 29500
+    },
+    {
+      "epoch": 76.0,
+      "eval_bleu": 0.2855,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0073317289352417,
+      "eval_runtime": 35.1549,
+      "eval_samples_per_second": 22.33,
+      "eval_steps_per_second": 1.422,
+      "step": 29868
+    },
+    {
+      "epoch": 76.34,
+      "learning_rate": 1.1832061068702292e-05,
+      "loss": 0.1341,
+      "step": 30000
+    },
+    {
+      "epoch": 77.0,
+      "eval_bleu": 0.2927,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0067394971847534,
+      "eval_runtime": 35.7641,
+      "eval_samples_per_second": 21.949,
+      "eval_steps_per_second": 1.398,
+      "step": 30261
+    },
+    {
+      "epoch": 77.61,
+      "learning_rate": 1.1195928753180662e-05,
+      "loss": 0.1307,
+      "step": 30500
+    },
+    {
+      "epoch": 78.0,
+      "eval_bleu": 0.3,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.006367564201355,
+      "eval_runtime": 35.3184,
+      "eval_samples_per_second": 22.226,
+      "eval_steps_per_second": 1.416,
+      "step": 30654
+    },
+    {
+      "epoch": 78.88,
+      "learning_rate": 1.0559796437659033e-05,
+      "loss": 0.1296,
+      "step": 31000
+    },
+    {
+      "epoch": 79.0,
+      "eval_bleu": 0.2886,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.022121787071228,
+      "eval_runtime": 35.3415,
+      "eval_samples_per_second": 22.212,
+      "eval_steps_per_second": 1.415,
+      "step": 31047
+    },
+    {
+      "epoch": 80.0,
+      "eval_bleu": 0.297,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.021680235862732,
+      "eval_runtime": 35.3179,
+      "eval_samples_per_second": 22.227,
+      "eval_steps_per_second": 1.416,
+      "step": 31440
+    },
+    {
+      "epoch": 80.15,
+      "learning_rate": 9.923664122137405e-06,
+      "loss": 0.126,
+      "step": 31500
+    },
+    {
+      "epoch": 81.0,
+      "eval_bleu": 0.2919,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.027828335762024,
+      "eval_runtime": 35.4035,
+      "eval_samples_per_second": 22.173,
+      "eval_steps_per_second": 1.412,
+      "step": 31833
+    },
+    {
+      "epoch": 81.42,
+      "learning_rate": 9.287531806615776e-06,
+      "loss": 0.1238,
+      "step": 32000
+    },
+    {
+      "epoch": 82.0,
+      "eval_bleu": 0.2951,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.03290855884552,
+      "eval_runtime": 35.2364,
+      "eval_samples_per_second": 22.278,
+      "eval_steps_per_second": 1.419,
+      "step": 32226
+    },
+    {
+      "epoch": 82.7,
+      "learning_rate": 8.651399491094148e-06,
+      "loss": 0.1214,
+      "step": 32500
+    },
+    {
+      "epoch": 83.0,
+      "eval_bleu": 0.3043,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0350806713104248,
+      "eval_runtime": 35.1544,
+      "eval_samples_per_second": 22.33,
+      "eval_steps_per_second": 1.422,
+      "step": 32619
+    },
+    {
+      "epoch": 83.97,
+      "learning_rate": 8.015267175572519e-06,
+      "loss": 0.1206,
+      "step": 33000
+    },
+    {
+      "epoch": 84.0,
+      "eval_bleu": 0.2964,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.04984450340271,
+      "eval_runtime": 35.3457,
+      "eval_samples_per_second": 22.209,
+      "eval_steps_per_second": 1.415,
+      "step": 33012
+    },
+    {
+      "epoch": 85.0,
+      "eval_bleu": 0.2971,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0432653427124023,
+      "eval_runtime": 35.2727,
+      "eval_samples_per_second": 22.255,
+      "eval_steps_per_second": 1.418,
+      "step": 33405
+    },
+    {
+      "epoch": 85.24,
+      "learning_rate": 7.379134860050891e-06,
+      "loss": 0.1186,
+      "step": 33500
+    },
+    {
+      "epoch": 86.0,
+      "eval_bleu": 0.2964,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.05250883102417,
+      "eval_runtime": 35.1615,
+      "eval_samples_per_second": 22.326,
+      "eval_steps_per_second": 1.422,
+      "step": 33798
+    },
+    {
+      "epoch": 86.51,
+      "learning_rate": 6.743002544529263e-06,
+      "loss": 0.116,
+      "step": 34000
+    },
+    {
+      "epoch": 87.0,
+      "eval_bleu": 0.2943,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0547308921813965,
+      "eval_runtime": 35.1782,
+      "eval_samples_per_second": 22.315,
+      "eval_steps_per_second": 1.421,
+      "step": 34191
+    },
+    {
+      "epoch": 87.79,
+      "learning_rate": 6.106870229007634e-06,
+      "loss": 0.116,
+      "step": 34500
+    },
+    {
+      "epoch": 88.0,
+      "eval_bleu": 0.2876,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0584968328475952,
+      "eval_runtime": 35.1038,
+      "eval_samples_per_second": 22.362,
+      "eval_steps_per_second": 1.424,
+      "step": 34584
+    },
+    {
+      "epoch": 89.0,
+      "eval_bleu": 0.2904,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0630890130996704,
+      "eval_runtime": 35.1555,
+      "eval_samples_per_second": 22.329,
+      "eval_steps_per_second": 1.422,
+      "step": 34977
+    },
+    {
+      "epoch": 89.06,
+      "learning_rate": 5.470737913486006e-06,
+      "loss": 0.1131,
+      "step": 35000
+    },
+    {
+      "epoch": 90.0,
+      "eval_bleu": 0.2859,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0678483247756958,
+      "eval_runtime": 35.1133,
+      "eval_samples_per_second": 22.356,
+      "eval_steps_per_second": 1.424,
+      "step": 35370
+    },
+    {
+      "epoch": 90.33,
+      "learning_rate": 4.834605597964377e-06,
+      "loss": 0.1124,
+      "step": 35500
+    },
+    {
+      "epoch": 91.0,
+      "eval_bleu": 0.3027,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0763660669326782,
+      "eval_runtime": 35.192,
+      "eval_samples_per_second": 22.306,
+      "eval_steps_per_second": 1.421,
+      "step": 35763
+    },
+    {
+      "epoch": 91.6,
+      "learning_rate": 4.198473282442748e-06,
+      "loss": 0.1109,
+      "step": 36000
+    },
+    {
+      "epoch": 92.0,
+      "eval_bleu": 0.3037,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0759409666061401,
+      "eval_runtime": 35.1267,
+      "eval_samples_per_second": 22.348,
+      "eval_steps_per_second": 1.423,
+      "step": 36156
+    },
+    {
+      "epoch": 92.88,
+      "learning_rate": 3.56234096692112e-06,
+      "loss": 0.1097,
+      "step": 36500
+    },
+    {
+      "epoch": 93.0,
+      "eval_bleu": 0.2962,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.073776364326477,
+      "eval_runtime": 35.2856,
+      "eval_samples_per_second": 22.247,
+      "eval_steps_per_second": 1.417,
+      "step": 36549
+    },
+    {
+      "epoch": 94.0,
+      "eval_bleu": 0.2966,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0854607820510864,
+      "eval_runtime": 35.1676,
+      "eval_samples_per_second": 22.322,
+      "eval_steps_per_second": 1.422,
+      "step": 36942
+    },
+    {
+      "epoch": 94.15,
+      "learning_rate": 2.9262086513994914e-06,
+      "loss": 0.1093,
+      "step": 37000
+    },
+    {
+      "epoch": 95.0,
+      "eval_bleu": 0.2968,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.090211033821106,
+      "eval_runtime": 35.1673,
+      "eval_samples_per_second": 22.322,
+      "eval_steps_per_second": 1.422,
+      "step": 37335
+    },
+    {
+      "epoch": 95.42,
+      "learning_rate": 2.2900763358778625e-06,
+      "loss": 0.1082,
+      "step": 37500
+    },
+    {
+      "epoch": 96.0,
+      "eval_bleu": 0.2958,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0858522653579712,
+      "eval_runtime": 35.1286,
+      "eval_samples_per_second": 22.346,
+      "eval_steps_per_second": 1.423,
+      "step": 37728
+    },
+    {
+      "epoch": 96.69,
+      "learning_rate": 1.653944020356234e-06,
+      "loss": 0.1073,
+      "step": 38000
+    },
+    {
+      "epoch": 97.0,
+      "eval_bleu": 0.3023,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0867019891738892,
+      "eval_runtime": 35.1622,
+      "eval_samples_per_second": 22.325,
+      "eval_steps_per_second": 1.422,
+      "step": 38121
+    },
+    {
+      "epoch": 97.96,
+      "learning_rate": 1.0178117048346056e-06,
+      "loss": 0.1063,
+      "step": 38500
+    },
+    {
+      "epoch": 98.0,
+      "eval_bleu": 0.3004,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.090205430984497,
+      "eval_runtime": 35.3454,
+      "eval_samples_per_second": 22.209,
+      "eval_steps_per_second": 1.415,
+      "step": 38514
+    },
+    {
+      "epoch": 99.0,
+      "eval_bleu": 0.3018,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0909733772277832,
+      "eval_runtime": 35.2503,
+      "eval_samples_per_second": 22.269,
+      "eval_steps_per_second": 1.418,
+      "step": 38907
+    },
+    {
+      "epoch": 99.24,
+      "learning_rate": 3.816793893129771e-07,
+      "loss": 0.1065,
+      "step": 39000
+    },
+    {
+      "epoch": 100.0,
+      "eval_bleu": 0.3021,
+      "eval_gen_len": 19.0,
+      "eval_loss": 1.0916588306427002,
+      "eval_runtime": 35.2577,
+      "eval_samples_per_second": 22.265,
+      "eval_steps_per_second": 1.418,
+      "step": 39300
+    },
+    {
+      "epoch": 100.0,
+      "step": 39300,
+      "total_flos": 2.232877359218688e+17,
+      "train_loss": 0.3279189860123108,
+      "train_runtime": 20714.0027,
+      "train_samples_per_second": 30.313,
+      "train_steps_per_second": 1.897
     }
   ],
+  "max_steps": 39300,
+  "num_train_epochs": 100,
+  "total_flos": 2.232877359218688e+17,
   "trial_name": null,
   "trial_params": null
 }