charsiu
/

g2p_multilingual_byT5_tiny_12_layers

+{
+  "best_metric": 0.2115170197415885,
+  "best_model_checkpoint": "/scratch/lingjzhu_root/lingjzhu1/lingjzhu/g2p/byt5_12_layers_baseline/checkpoint-5000",
+  "epoch": 9.646302250803858,
+  "global_step": 135000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0003,
+      "loss": 2.113,
+      "step": 1000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0002999616623572683,
+      "loss": 0.5915,
+      "step": 2000
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00029984666902607135,
+      "loss": 0.3074,
+      "step": 3000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0002996550787873857,
+      "loss": 0.2407,
+      "step": 4000
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0002993869895761197,
+      "loss": 0.2091,
+      "step": 5000
+    },
+    {
+      "epoch": 0.36,
+      "eval_cer": 0.2115170197415885,
+      "eval_loss": 0.2637424170970917,
+      "eval_runtime": 81.6578,
+      "eval_samples_per_second": 60.619,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.5187878787878788,
+      "step": 5000
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.000299042538431052,
+      "loss": 0.1885,
+      "step": 6000
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00029862190142478177,
+      "loss": 0.1748,
+      "step": 7000
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00029812529357372587,
+      "loss": 0.1637,
+      "step": 8000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00029755296872820933,
+      "loss": 0.1547,
+      "step": 9000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0002969052194427048,
+      "loss": 0.1471,
+      "step": 10000
+    },
+    {
+      "epoch": 0.71,
+      "eval_cer": 0.16525655320172275,
+      "eval_loss": 0.1778797060251236,
+      "eval_runtime": 81.5727,
+      "eval_samples_per_second": 60.682,
+      "eval_steps_per_second": 0.123,
+      "eval_wer": 0.4212121212121212,
+      "step": 10000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0002961823768262882,
+      "loss": 0.1408,
+      "step": 11000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0002953848103733858,
+      "loss": 0.1341,
+      "step": 12000
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00029451292777490066,
+      "loss": 0.1294,
+      "step": 13000
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0002935671747098137,
+      "loss": 0.1233,
+      "step": 14000
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00029254803461736643,
+      "loss": 0.1179,
+      "step": 15000
+    },
+    {
+      "epoch": 1.07,
+      "eval_cer": 0.1474607026518878,
+      "eval_loss": 0.14176948368549347,
+      "eval_runtime": 81.7933,
+      "eval_samples_per_second": 60.518,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.3838383838383838,
+      "step": 15000
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00029145602844994243,
+      "loss": 0.1143,
+      "step": 16000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0002902917144067724,
+      "loss": 0.1107,
+      "step": 17000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00028905568764860047,
+      "loss": 0.107,
+      "step": 18000
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00028774857999345685,
+      "loss": 0.1051,
+      "step": 19000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0002863710595936922,
+      "loss": 0.1016,
+      "step": 20000
+    },
+    {
+      "epoch": 1.43,
+      "eval_cer": 0.1344308169913207,
+      "eval_loss": 0.1187734305858612,
+      "eval_runtime": 81.9499,
+      "eval_samples_per_second": 60.403,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.36404040404040405,
+      "step": 20000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0002849238305944389,
+      "loss": 0.0988,
+      "step": 21000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00028340763277367477,
+      "loss": 0.0972,
+      "step": 22000
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 0.0002818232411640713,
+      "loss": 0.0953,
+      "step": 23000
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00028017146565682144,
+      "loss": 0.0933,
+      "step": 24000
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00027845315058764886,
+      "loss": 0.0904,
+      "step": 25000
+    },
+    {
+      "epoch": 1.79,
+      "eval_cer": 0.12669158960232615,
+      "eval_loss": 0.10707778483629227,
+      "eval_runtime": 81.9487,
+      "eval_samples_per_second": 60.404,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.3466666666666667,
+      "step": 25000
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00027666917430520975,
+      "loss": 0.089,
+      "step": 26000
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00027482044872210895,
+      "loss": 0.0869,
+      "step": 27000
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.0002729079188487587,
+      "loss": 0.0856,
+      "step": 28000
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.00027093256231031885,
+      "loss": 0.0827,
+      "step": 29000
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.00026889538884696597,
+      "loss": 0.082,
+      "step": 30000
+    },
+    {
+      "epoch": 2.14,
+      "eval_cer": 0.1201110600992545,
+      "eval_loss": 0.09880149364471436,
+      "eval_runtime": 81.9937,
+      "eval_samples_per_second": 60.371,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.3375757575757576,
+      "step": 30000
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.0002667974397977457,
+      "loss": 0.0803,
+      "step": 31000
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0002646397875682729,
+      "loss": 0.0794,
+      "step": 32000
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.00026242353508255185,
+      "loss": 0.0783,
+      "step": 33000
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0002601498152191957,
+      "loss": 0.078,
+      "step": 34000
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.0002578197902323352,
+      "loss": 0.0765,
+      "step": 35000
+    },
+    {
+      "epoch": 2.5,
+      "eval_cer": 0.11654751754443497,
+      "eval_loss": 0.09110759943723679,
+      "eval_runtime": 82.1822,
+      "eval_samples_per_second": 60.232,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.32545454545454544,
+      "step": 35000
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 0.00025543465115751026,
+      "loss": 0.0749,
+      "step": 36000
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.0002529956172028505,
+      "loss": 0.0743,
+      "step": 37000
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.0002505039351258541,
+      "loss": 0.0732,
+      "step": 38000
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 0.0002479608785960846,
+      "loss": 0.0722,
+      "step": 39000
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 0.0002453677475441111,
+      "loss": 0.0716,
+      "step": 40000
+    },
+    {
+      "epoch": 2.86,
+      "eval_cer": 0.11418639732406376,
+      "eval_loss": 0.0829671323299408,
+      "eval_runtime": 81.5052,
+      "eval_samples_per_second": 60.732,
+      "eval_steps_per_second": 0.123,
+      "eval_wer": 0.3208080808080808,
+      "step": 40000
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.00024272586749702474,
+      "loss": 0.0704,
+      "step": 41000
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 0.0002400365889008706,
+      "loss": 0.0702,
+      "step": 42000
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 0.00023730128643034235,
+      "loss": 0.0673,
+      "step": 43000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 0.00023452135828609167,
+      "loss": 0.0676,
+      "step": 44000
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.0002316982254800121,
+      "loss": 0.0671,
+      "step": 45000
+    },
+    {
+      "epoch": 3.22,
+      "eval_cer": 0.11213134824337027,
+      "eval_loss": 0.08274847269058228,
+      "eval_runtime": 81.7806,
+      "eval_samples_per_second": 60.528,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.317979797979798,
+      "step": 45000
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 0.00022883333110886237,
+      "loss": 0.066,
+      "step": 46000
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 0.00022592813961660067,
+      "loss": 0.0656,
+      "step": 47000
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 0.00022298413604580696,
+      "loss": 0.0646,
+      "step": 48000
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 0.00022000282527857588,
+      "loss": 0.0643,
+      "step": 49000
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 0.0002169857312672683,
+      "loss": 0.0638,
+      "step": 50000
+    },
+    {
+      "epoch": 3.57,
+      "eval_cer": 0.11206576157058219,
+      "eval_loss": 0.07710296660661697,
+      "eval_runtime": 81.5659,
+      "eval_samples_per_second": 60.687,
+      "eval_steps_per_second": 0.123,
+      "eval_wer": 0.3113131313131313,
+      "step": 50000
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 0.00021393439625551483,
+      "loss": 0.0633,
+      "step": 51000
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 0.00021085037998986924,
+      "loss": 0.0627,
+      "step": 52000
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 0.00020773525892251514,
+      "loss": 0.0624,
+      "step": 53000
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 0.00020459062540543316,
+      "loss": 0.0618,
+      "step": 54000
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 0.00020141808687644067,
+      "loss": 0.0613,
+      "step": 55000
+    },
+    {
+      "epoch": 3.93,
+      "eval_cer": 0.10915808574364355,
+      "eval_loss": 0.07446856051683426,
+      "eval_runtime": 81.6128,
+      "eval_samples_per_second": 60.652,
+      "eval_steps_per_second": 0.123,
+      "eval_wer": 0.30626262626262624,
+      "step": 55000
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 0.00019821926503751995,
+      "loss": 0.0604,
+      "step": 56000
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 0.00019499579502585537,
+      "loss": 0.059,
+      "step": 57000
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 0.00019174932457800242,
+      "loss": 0.0584,
+      "step": 58000
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 0.0001884815131876167,
+      "loss": 0.0581,
+      "step": 59000
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 0.00018519403125717278,
+      "loss": 0.0574,
+      "step": 60000
+    },
+    {
+      "epoch": 4.29,
+      "eval_cer": 0.1064034454865438,
+      "eval_loss": 0.07090297341346741,
+      "eval_runtime": 81.8166,
+      "eval_samples_per_second": 60.501,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2991919191919192,
+      "step": 60000
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 0.00018188855924410722,
+      "loss": 0.0576,
+      "step": 61000
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 0.00017856678680182127,
+      "loss": 0.0569,
+      "step": 62000
+    },
+    {
+      "epoch": 4.5,
+      "learning_rate": 0.0001752304119159834,
+      "loss": 0.0568,
+      "step": 63000
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 0.00017188114003657205,
+      "loss": 0.0566,
+      "step": 64000
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 0.00016852068320610358,
+      "loss": 0.0561,
+      "step": 65000
+    },
+    {
+      "epoch": 4.64,
+      "eval_cer": 0.10653461883211998,
+      "eval_loss": 0.06934704631567001,
+      "eval_runtime": 81.8952,
+      "eval_samples_per_second": 60.443,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.298989898989899,
+      "step": 65000
+    },
+    {
+      "epoch": 4.72,
+      "learning_rate": 0.00016515075918448972,
+      "loss": 0.0555,
+      "step": 66000
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 0.00016177309057097285,
+      "loss": 0.0548,
+      "step": 67000
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 0.00015838940392358722,
+      "loss": 0.0548,
+      "step": 68000
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 0.00015500142887659688,
+      "loss": 0.0543,
+      "step": 69000
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.00015161089725636095,
+      "loss": 0.0542,
+      "step": 70000
+    },
+    {
+      "epoch": 5.0,
+      "eval_cer": 0.1039767385933845,
+      "eval_loss": 0.0671503096818924,
+      "eval_runtime": 81.8677,
+      "eval_samples_per_second": 60.463,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2913131313131313,
+      "step": 70000
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 0.00014821954219607845,
+      "loss": 0.0521,
+      "step": 71000
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 0.0001448290972498651,
+      "loss": 0.0522,
+      "step": 72000
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 0.00014144129550661485,
+      "loss": 0.0519,
+      "step": 73000
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 0.0001380578687040995,
+      "loss": 0.0516,
+      "step": 74000
+    },
+    {
+      "epoch": 5.36,
+      "learning_rate": 0.00013468054634375843,
+      "loss": 0.0518,
+      "step": 75000
+    },
+    {
+      "epoch": 5.36,
+      "eval_cer": 0.1052228853763582,
+      "eval_loss": 0.06576833128929138,
+      "eval_runtime": 81.8774,
+      "eval_samples_per_second": 60.456,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.29555555555555557,
+      "step": 75000
+    },
+    {
+      "epoch": 5.43,
+      "learning_rate": 0.00013131105480663235,
+      "loss": 0.0511,
+      "step": 76000
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 0.000127951116470891,
+      "loss": 0.0512,
+      "step": 77000
+    },
+    {
+      "epoch": 5.57,
+      "learning_rate": 0.00012460244883140783,
+      "loss": 0.0506,
+      "step": 78000
+    },
+    {
+      "epoch": 5.64,
+      "learning_rate": 0.0001212667636218309,
+      "loss": 0.0502,
+      "step": 79000
+    },
+    {
+      "epoch": 5.72,
+      "learning_rate": 0.00011794576593959775,
+      "loss": 0.05,
+      "step": 80000
+    },
+    {
+      "epoch": 5.72,
+      "eval_cer": 0.1032990096412409,
+      "eval_loss": 0.06467730551958084,
+      "eval_runtime": 81.823,
+      "eval_samples_per_second": 60.496,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2901010101010101,
+      "step": 80000
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 0.00011464115337434394,
+      "loss": 0.0501,
+      "step": 81000
+    },
+    {
+      "epoch": 5.86,
+      "learning_rate": 0.00011135461514014796,
+      "loss": 0.0492,
+      "step": 82000
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 0.00010808783121205837,
+      "loss": 0.0494,
+      "step": 83000
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 0.00010484247146734352,
+      "loss": 0.0491,
+      "step": 84000
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 0.00010162019483190237,
+      "loss": 0.0472,
+      "step": 85000
+    },
+    {
+      "epoch": 6.07,
+      "eval_cer": 0.10340832076255438,
+      "eval_loss": 0.06243439018726349,
+      "eval_runtime": 82.0022,
+      "eval_samples_per_second": 60.364,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2898989898989899,
+      "step": 85000
+    },
+    {
+      "epoch": 6.15,
+      "learning_rate": 9.842264843227404e-05,
+      "loss": 0.0476,
+      "step": 86000
+    },
+    {
+      "epoch": 6.22,
+      "learning_rate": 9.52514667536784e-05,
+      "loss": 0.0469,
+      "step": 87000
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 9.210827080451842e-05,
+      "loss": 0.047,
+      "step": 88000
+    },
+    {
+      "epoch": 6.36,
+      "learning_rate": 8.899466728777203e-05,
+      "loss": 0.0474,
+      "step": 89000
+    },
+    {
+      "epoch": 6.43,
+      "learning_rate": 8.591224777969557e-05,
+      "loss": 0.0467,
+      "step": 90000
+    },
+    {
+      "epoch": 6.43,
+      "eval_cer": 0.10150630725169979,
+      "eval_loss": 0.061206888407468796,
+      "eval_runtime": 81.7254,
+      "eval_samples_per_second": 60.569,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.28929292929292927,
+      "step": 90000
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 8.286258791626041e-05,
+      "loss": 0.0465,
+      "step": 91000
+    },
+    {
+      "epoch": 6.57,
+      "learning_rate": 7.984724658773716e-05,
+      "loss": 0.0464,
+      "step": 92000
+    },
+    {
+      "epoch": 6.65,
+      "learning_rate": 7.686776514184009e-05,
+      "loss": 0.0462,
+      "step": 93000
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 7.392566659583846e-05,
+      "loss": 0.046,
+      "step": 94000
+    },
+    {
+      "epoch": 6.79,
+      "learning_rate": 7.102245485803813e-05,
+      "loss": 0.0461,
+      "step": 95000
+    },
+    {
+      "epoch": 6.79,
+      "eval_cer": 0.10109092499070856,
+      "eval_loss": 0.06065311282873154,
+      "eval_runtime": 82.0331,
+      "eval_samples_per_second": 60.342,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.28383838383838383,
+      "step": 95000
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 6.81596139590308e-05,
+      "loss": 0.0457,
+      "step": 96000
+    },
+    {
+      "epoch": 6.93,
+      "learning_rate": 6.533860729310434e-05,
+      "loss": 0.0455,
+      "step": 97000
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 6.256087687020127e-05,
+      "loss": 0.0454,
+      "step": 98000
+    },
+    {
+      "epoch": 7.07,
+      "learning_rate": 5.98278425788092e-05,
+      "loss": 0.044,
+      "step": 99000
+    },
+    {
+      "epoch": 7.15,
+      "learning_rate": 5.71409014601578e-05,
+      "loss": 0.0439,
+      "step": 100000
+    },
+    {
+      "epoch": 7.15,
+      "eval_cer": 0.10098161386939507,
+      "eval_loss": 0.05971471220254898,
+      "eval_runtime": 82.6482,
+      "eval_samples_per_second": 59.892,
+      "eval_steps_per_second": 0.121,
+      "eval_wer": 0.2804040404040404,
+      "step": 100000
+    },
+    {
+      "epoch": 7.22,
+      "learning_rate": 5.4501426994095876e-05,
+      "loss": 0.0436,
+      "step": 101000
+    },
+    {
+      "epoch": 7.29,
+      "learning_rate": 5.191076839701103e-05,
+      "loss": 0.0436,
+      "step": 102000
+    },
+    {
+      "epoch": 7.36,
+      "learning_rate": 4.9370249932153075e-05,
+      "loss": 0.0438,
+      "step": 103000
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 4.6881170232712164e-05,
+      "loss": 0.0437,
+      "step": 104000
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 4.444480163799822e-05,
+      "loss": 0.0435,
+      "step": 105000
+    },
+    {
+      "epoch": 7.5,
+      "eval_cer": 0.10120023611202204,
+      "eval_loss": 0.058374855667352676,
+      "eval_runtime": 81.7698,
+      "eval_samples_per_second": 60.536,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.28383838383838383,
+      "step": 105000
+    },
+    {
+      "epoch": 7.57,
+      "learning_rate": 4.2062389543061265e-05,
+      "loss": 0.0433,
+      "step": 106000
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 3.9735151762084384e-05,
+      "loss": 0.0434,
+      "step": 107000
+    },
+    {
+      "epoch": 7.72,
+      "learning_rate": 3.746427790587557e-05,
+      "loss": 0.0428,
+      "step": 108000
+    },
+    {
+      "epoch": 7.79,
+      "learning_rate": 3.525092877377602e-05,
+      "loss": 0.0432,
+      "step": 109000
+    },
+    {
+      "epoch": 7.86,
+      "learning_rate": 3.309623576029597e-05,
+      "loss": 0.0427,
+      "step": 110000
+    },
+    {
+      "epoch": 7.86,
+      "eval_cer": 0.10012898712314991,
+      "eval_loss": 0.05760599672794342,
+      "eval_runtime": 81.886,
+      "eval_samples_per_second": 60.45,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2804040404040404,
+      "step": 110000
+    },
+    {
+      "epoch": 7.93,
+      "learning_rate": 3.1001300276781274e-05,
+      "loss": 0.043,
+      "step": 111000
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 2.8967193188406938e-05,
+      "loss": 0.0424,
+      "step": 112000
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 2.699495426678389e-05,
+      "loss": 0.042,
+      "step": 113000
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 2.5085591658461056e-05,
+      "loss": 0.0416,
+      "step": 114000
+    },
+    {
+      "epoch": 8.22,
+      "learning_rate": 2.3240081369591984e-05,
+      "loss": 0.0415,
+      "step": 115000
+    },
+    {
+      "epoch": 8.22,
+      "eval_cer": 0.10036947159003957,
+      "eval_loss": 0.05732354149222374,
+      "eval_runtime": 81.9536,
+      "eval_samples_per_second": 60.4,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2797979797979798,
+      "step": 115000
+    },
+    {
+      "epoch": 8.29,
+      "learning_rate": 2.1459366767031522e-05,
+      "loss": 0.0417,
+      "step": 116000
+    },
+    {
+      "epoch": 8.36,
+      "learning_rate": 1.9744358096116225e-05,
+      "loss": 0.0414,
+      "step": 117000
+    },
+    {
+      "epoch": 8.43,
+      "learning_rate": 1.8095932015375496e-05,
+      "loss": 0.0412,
+      "step": 118000
+    },
+    {
+      "epoch": 8.5,
+      "learning_rate": 1.65149311484114e-05,
+      "loss": 0.0412,
+      "step": 119000
+    },
+    {
+      "epoch": 8.57,
+      "learning_rate": 1.500216365317587e-05,
+      "loss": 0.0412,
+      "step": 120000
+    },
+    {
+      "epoch": 8.57,
+      "eval_cer": 0.09988850265626024,
+      "eval_loss": 0.05689243599772453,
+      "eval_runtime": 81.8151,
+      "eval_samples_per_second": 60.502,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2783838383838384,
+      "step": 120000
+    },
+    {
+      "epoch": 8.65,
+      "learning_rate": 1.355840280886582e-05,
+      "loss": 0.0414,
+      "step": 121000
+    },
+    {
+      "epoch": 8.72,
+      "learning_rate": 1.2184386620647097e-05,
+      "loss": 0.0416,
+      "step": 122000
+    },
+    {
+      "epoch": 8.79,
+      "learning_rate": 1.0880817442409478e-05,
+      "loss": 0.0413,
+      "step": 123000
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 9.648361617745371e-06,
+      "loss": 0.0409,
+      "step": 124000
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 8.487649139335962e-06,
+      "loss": 0.0412,
+      "step": 125000
+    },
+    {
+      "epoch": 8.93,
+      "eval_cer": 0.09986664043199756,
+      "eval_loss": 0.05683436617255211,
+      "eval_runtime": 82.2238,
+      "eval_samples_per_second": 60.202,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2781818181818182,
+      "step": 125000
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 7.399273326918692e-06,
+      "loss": 0.0411,
+      "step": 126000
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 6.383790524001009e-06,
+      "loss": 0.0407,
+      "step": 127000
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 5.441719813474849e-06,
+      "loss": 0.0406,
+      "step": 128000
+    },
+    {
+      "epoch": 9.22,
+      "learning_rate": 4.57354275227797e-06,
+      "loss": 0.0407,
+      "step": 129000
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 3.7797031252369767e-06,
+      "loss": 0.0401,
+      "step": 130000
+    },
+    {
+      "epoch": 9.29,
+      "eval_cer": 0.09988850265626024,
+      "eval_loss": 0.05650737136602402,
+      "eval_runtime": 81.8641,
+      "eval_samples_per_second": 60.466,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2777777777777778,
+      "step": 130000
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 3.0606067182186776e-06,
+      "loss": 0.0403,
+      "step": 131000
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 2.4166211107049584e-06,
+      "loss": 0.0406,
+      "step": 132000
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 1.8480754878977489e-06,
+      "loss": 0.0406,
+      "step": 133000
+    },
+    {
+      "epoch": 9.57,
+      "learning_rate": 1.3552604724498928e-06,
+      "loss": 0.0406,
+      "step": 134000
+    },
+    {
+      "epoch": 9.65,
+      "learning_rate": 9.384279759080127e-07,
+      "loss": 0.0405,
+      "step": 135000
+    },
+    {
+      "epoch": 9.65,
+      "eval_cer": 0.09984477820773485,
+      "eval_loss": 0.056535448879003525,
+      "eval_runtime": 81.6573,
+      "eval_samples_per_second": 60.619,
+      "eval_steps_per_second": 0.122,
+      "eval_wer": 0.2781818181818182,
+      "step": 135000
+    }
+  ],
+  "max_steps": 139950,
+  "num_train_epochs": 10,
+  "total_flos": 2.638176399703204e+17,
+  "trial_name": null,
+  "trial_params": null
+}