{ "best_metric": 0.05436472678809418, "best_model_checkpoint": "./24_09_17_EssoinsMiddleLatin_TrOCR_Train_Finetune_tridis_20ep/checkpoint-6800", "epoch": 14.166666666666666, "eval_steps": 200, "global_step": 6800, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.004166666666666667, "grad_norm": 5.112361907958984, "learning_rate": 4.9989583333333337e-05, "loss": 3.1071, "step": 2 }, { "epoch": 0.008333333333333333, "grad_norm": 4.407574653625488, "learning_rate": 4.997916666666667e-05, "loss": 2.8131, "step": 4 }, { "epoch": 0.0125, "grad_norm": 4.818628787994385, "learning_rate": 4.9968750000000005e-05, "loss": 2.3596, "step": 6 }, { "epoch": 0.016666666666666666, "grad_norm": 4.321988582611084, "learning_rate": 4.995833333333333e-05, "loss": 2.4813, "step": 8 }, { "epoch": 0.020833333333333332, "grad_norm": NaN, "learning_rate": 4.9953125e-05, "loss": 2.0627, "step": 10 }, { "epoch": 0.025, "grad_norm": 3.938622236251831, "learning_rate": 4.994270833333334e-05, "loss": 2.0377, "step": 12 }, { "epoch": 0.029166666666666667, "grad_norm": 4.561797142028809, "learning_rate": 4.993229166666667e-05, "loss": 1.9861, "step": 14 }, { "epoch": 0.03333333333333333, "grad_norm": 4.408071041107178, "learning_rate": 4.9921875e-05, "loss": 1.7539, "step": 16 }, { "epoch": 0.0375, "grad_norm": 3.5562212467193604, "learning_rate": 4.991145833333333e-05, "loss": 1.7244, "step": 18 }, { "epoch": 0.041666666666666664, "grad_norm": 3.789137363433838, "learning_rate": 4.990104166666667e-05, "loss": 1.7632, "step": 20 }, { "epoch": 0.04583333333333333, "grad_norm": 3.2391557693481445, "learning_rate": 4.9890625e-05, "loss": 1.4738, "step": 22 }, { "epoch": 0.05, "grad_norm": 3.938535451889038, "learning_rate": 4.9880208333333336e-05, "loss": 1.4248, "step": 24 }, { "epoch": 0.05416666666666667, "grad_norm": 4.805032730102539, "learning_rate": 4.986979166666667e-05, "loss": 1.4837, "step": 26 }, { "epoch": 0.058333333333333334, "grad_norm": 4.043247222900391, "learning_rate": 4.9859375000000004e-05, "loss": 1.4663, "step": 28 }, { "epoch": 0.0625, "grad_norm": 11.264861106872559, "learning_rate": 4.984895833333333e-05, "loss": 1.3355, "step": 30 }, { "epoch": 0.06666666666666667, "grad_norm": 5.918957710266113, "learning_rate": 4.983854166666667e-05, "loss": 1.2613, "step": 32 }, { "epoch": 0.07083333333333333, "grad_norm": 4.673120021820068, "learning_rate": 4.9828125e-05, "loss": 1.5644, "step": 34 }, { "epoch": 0.075, "grad_norm": 3.533724784851074, "learning_rate": 4.9817708333333334e-05, "loss": 1.4822, "step": 36 }, { "epoch": 0.07916666666666666, "grad_norm": 4.447568893432617, "learning_rate": 4.980729166666667e-05, "loss": 1.2299, "step": 38 }, { "epoch": 0.08333333333333333, "grad_norm": 3.6791043281555176, "learning_rate": 4.9796875e-05, "loss": 1.2663, "step": 40 }, { "epoch": 0.0875, "grad_norm": 3.7868714332580566, "learning_rate": 4.978645833333334e-05, "loss": 1.4544, "step": 42 }, { "epoch": 0.09166666666666666, "grad_norm": 3.649379014968872, "learning_rate": 4.9776041666666664e-05, "loss": 1.2708, "step": 44 }, { "epoch": 0.09583333333333334, "grad_norm": 2.885256767272949, "learning_rate": 4.9765625000000005e-05, "loss": 1.2198, "step": 46 }, { "epoch": 0.1, "grad_norm": 3.3596487045288086, "learning_rate": 4.975520833333334e-05, "loss": 1.2368, "step": 48 }, { "epoch": 0.10416666666666667, "grad_norm": 5.011239528656006, "learning_rate": 4.974479166666667e-05, "loss": 1.2945, "step": 50 }, { "epoch": 0.10833333333333334, "grad_norm": 3.252258777618408, "learning_rate": 4.9734375e-05, "loss": 1.2538, "step": 52 }, { "epoch": 0.1125, "grad_norm": 2.80674147605896, "learning_rate": 4.9723958333333335e-05, "loss": 1.045, "step": 54 }, { "epoch": 0.11666666666666667, "grad_norm": 3.1947240829467773, "learning_rate": 4.971354166666667e-05, "loss": 1.3513, "step": 56 }, { "epoch": 0.12083333333333333, "grad_norm": 3.147346019744873, "learning_rate": 4.9703125000000004e-05, "loss": 1.0044, "step": 58 }, { "epoch": 0.125, "grad_norm": 3.3250699043273926, "learning_rate": 4.969270833333334e-05, "loss": 1.1739, "step": 60 }, { "epoch": 0.12916666666666668, "grad_norm": 3.7369728088378906, "learning_rate": 4.968229166666667e-05, "loss": 1.2579, "step": 62 }, { "epoch": 0.13333333333333333, "grad_norm": 7.632898807525635, "learning_rate": 4.9671875e-05, "loss": 1.2123, "step": 64 }, { "epoch": 0.1375, "grad_norm": 3.5719902515411377, "learning_rate": 4.966145833333334e-05, "loss": 1.2028, "step": 66 }, { "epoch": 0.14166666666666666, "grad_norm": 3.2859408855438232, "learning_rate": 4.965104166666667e-05, "loss": 1.2534, "step": 68 }, { "epoch": 0.14583333333333334, "grad_norm": 3.4118475914001465, "learning_rate": 4.9640625e-05, "loss": 1.2649, "step": 70 }, { "epoch": 0.15, "grad_norm": 3.30642032623291, "learning_rate": 4.9630208333333336e-05, "loss": 1.1452, "step": 72 }, { "epoch": 0.15416666666666667, "grad_norm": 4.308955192565918, "learning_rate": 4.961979166666667e-05, "loss": 1.1277, "step": 74 }, { "epoch": 0.15833333333333333, "grad_norm": 3.0900819301605225, "learning_rate": 4.9609375000000005e-05, "loss": 0.9993, "step": 76 }, { "epoch": 0.1625, "grad_norm": 3.44604229927063, "learning_rate": 4.959895833333333e-05, "loss": 1.0386, "step": 78 }, { "epoch": 0.16666666666666666, "grad_norm": 3.483630895614624, "learning_rate": 4.958854166666667e-05, "loss": 0.9016, "step": 80 }, { "epoch": 0.17083333333333334, "grad_norm": 3.600273847579956, "learning_rate": 4.9578125e-05, "loss": 1.1374, "step": 82 }, { "epoch": 0.175, "grad_norm": 3.3964877128601074, "learning_rate": 4.9567708333333335e-05, "loss": 1.0936, "step": 84 }, { "epoch": 0.17916666666666667, "grad_norm": 3.1552116870880127, "learning_rate": 4.955729166666667e-05, "loss": 0.971, "step": 86 }, { "epoch": 0.18333333333333332, "grad_norm": 3.035581588745117, "learning_rate": 4.9546875e-05, "loss": 1.0123, "step": 88 }, { "epoch": 0.1875, "grad_norm": 3.044188976287842, "learning_rate": 4.953645833333334e-05, "loss": 1.0817, "step": 90 }, { "epoch": 0.19166666666666668, "grad_norm": 3.6317687034606934, "learning_rate": 4.9526041666666665e-05, "loss": 0.9335, "step": 92 }, { "epoch": 0.19583333333333333, "grad_norm": 3.492680072784424, "learning_rate": 4.9515625000000006e-05, "loss": 0.9836, "step": 94 }, { "epoch": 0.2, "grad_norm": 3.0570051670074463, "learning_rate": 4.950520833333333e-05, "loss": 1.0114, "step": 96 }, { "epoch": 0.20416666666666666, "grad_norm": 3.0146679878234863, "learning_rate": 4.949479166666667e-05, "loss": 0.9607, "step": 98 }, { "epoch": 0.20833333333333334, "grad_norm": 3.170430898666382, "learning_rate": 4.9484375e-05, "loss": 1.0559, "step": 100 }, { "epoch": 0.2125, "grad_norm": 3.1467041969299316, "learning_rate": 4.9473958333333336e-05, "loss": 0.8964, "step": 102 }, { "epoch": 0.21666666666666667, "grad_norm": 2.5623059272766113, "learning_rate": 4.946354166666667e-05, "loss": 0.9, "step": 104 }, { "epoch": 0.22083333333333333, "grad_norm": 2.9126880168914795, "learning_rate": 4.9453125e-05, "loss": 0.9411, "step": 106 }, { "epoch": 0.225, "grad_norm": 7.136896133422852, "learning_rate": 4.944270833333334e-05, "loss": 0.9259, "step": 108 }, { "epoch": 0.22916666666666666, "grad_norm": 3.6453118324279785, "learning_rate": 4.9432291666666666e-05, "loss": 1.0458, "step": 110 }, { "epoch": 0.23333333333333334, "grad_norm": 6.460753917694092, "learning_rate": 4.9421875e-05, "loss": 0.915, "step": 112 }, { "epoch": 0.2375, "grad_norm": 3.1668453216552734, "learning_rate": 4.941145833333334e-05, "loss": 0.779, "step": 114 }, { "epoch": 0.24166666666666667, "grad_norm": 4.2421555519104, "learning_rate": 4.940104166666667e-05, "loss": 0.9467, "step": 116 }, { "epoch": 0.24583333333333332, "grad_norm": 3.679363250732422, "learning_rate": 4.9390625e-05, "loss": 0.9196, "step": 118 }, { "epoch": 0.25, "grad_norm": 2.527803659439087, "learning_rate": 4.9385416666666667e-05, "loss": 0.7454, "step": 120 }, { "epoch": 0.25416666666666665, "grad_norm": 3.2346925735473633, "learning_rate": 4.937500000000001e-05, "loss": 1.0042, "step": 122 }, { "epoch": 0.25833333333333336, "grad_norm": 8.207110404968262, "learning_rate": 4.9364583333333335e-05, "loss": 0.8863, "step": 124 }, { "epoch": 0.2625, "grad_norm": 3.4820799827575684, "learning_rate": 4.935416666666667e-05, "loss": 0.8367, "step": 126 }, { "epoch": 0.26666666666666666, "grad_norm": 3.702939510345459, "learning_rate": 4.9343749999999997e-05, "loss": 0.8963, "step": 128 }, { "epoch": 0.2708333333333333, "grad_norm": 2.524177074432373, "learning_rate": 4.933333333333334e-05, "loss": 0.8787, "step": 130 }, { "epoch": 0.275, "grad_norm": 2.7944350242614746, "learning_rate": 4.932291666666667e-05, "loss": 0.8967, "step": 132 }, { "epoch": 0.2791666666666667, "grad_norm": 2.6907758712768555, "learning_rate": 4.93125e-05, "loss": 0.8143, "step": 134 }, { "epoch": 0.2833333333333333, "grad_norm": 3.945380210876465, "learning_rate": 4.930208333333334e-05, "loss": 0.8831, "step": 136 }, { "epoch": 0.2875, "grad_norm": 3.2358367443084717, "learning_rate": 4.929166666666667e-05, "loss": 0.9435, "step": 138 }, { "epoch": 0.2916666666666667, "grad_norm": 2.374941825866699, "learning_rate": 4.928125e-05, "loss": 0.7478, "step": 140 }, { "epoch": 0.29583333333333334, "grad_norm": 2.7203528881073, "learning_rate": 4.9270833333333336e-05, "loss": 0.8879, "step": 142 }, { "epoch": 0.3, "grad_norm": 3.3004331588745117, "learning_rate": 4.926041666666667e-05, "loss": 0.9876, "step": 144 }, { "epoch": 0.30416666666666664, "grad_norm": 3.2646729946136475, "learning_rate": 4.9250000000000004e-05, "loss": 1.043, "step": 146 }, { "epoch": 0.30833333333333335, "grad_norm": 3.160405397415161, "learning_rate": 4.923958333333333e-05, "loss": 1.0144, "step": 148 }, { "epoch": 0.3125, "grad_norm": 2.896063804626465, "learning_rate": 4.922916666666667e-05, "loss": 0.8286, "step": 150 }, { "epoch": 0.31666666666666665, "grad_norm": 2.768953800201416, "learning_rate": 4.921875e-05, "loss": 0.8223, "step": 152 }, { "epoch": 0.32083333333333336, "grad_norm": 3.6491446495056152, "learning_rate": 4.9208333333333335e-05, "loss": 0.8548, "step": 154 }, { "epoch": 0.325, "grad_norm": 3.9649956226348877, "learning_rate": 4.919791666666667e-05, "loss": 0.7698, "step": 156 }, { "epoch": 0.32916666666666666, "grad_norm": 3.8073322772979736, "learning_rate": 4.91875e-05, "loss": 0.8996, "step": 158 }, { "epoch": 0.3333333333333333, "grad_norm": 3.047462224960327, "learning_rate": 4.917708333333334e-05, "loss": 0.9273, "step": 160 }, { "epoch": 0.3375, "grad_norm": 3.739633560180664, "learning_rate": 4.9166666666666665e-05, "loss": 0.7764, "step": 162 }, { "epoch": 0.3416666666666667, "grad_norm": 3.313039779663086, "learning_rate": 4.9156250000000006e-05, "loss": 0.9243, "step": 164 }, { "epoch": 0.3458333333333333, "grad_norm": 3.1215579509735107, "learning_rate": 4.914583333333333e-05, "loss": 0.9713, "step": 166 }, { "epoch": 0.35, "grad_norm": 3.802015781402588, "learning_rate": 4.913541666666667e-05, "loss": 0.9388, "step": 168 }, { "epoch": 0.3541666666666667, "grad_norm": 3.1684367656707764, "learning_rate": 4.9125e-05, "loss": 0.8389, "step": 170 }, { "epoch": 0.35833333333333334, "grad_norm": 2.5037014484405518, "learning_rate": 4.9114583333333336e-05, "loss": 0.8185, "step": 172 }, { "epoch": 0.3625, "grad_norm": 2.822728157043457, "learning_rate": 4.910416666666667e-05, "loss": 0.742, "step": 174 }, { "epoch": 0.36666666666666664, "grad_norm": 2.92507004737854, "learning_rate": 4.9093750000000004e-05, "loss": 0.7207, "step": 176 }, { "epoch": 0.37083333333333335, "grad_norm": 3.336268424987793, "learning_rate": 4.908333333333334e-05, "loss": 0.8428, "step": 178 }, { "epoch": 0.375, "grad_norm": 2.877465009689331, "learning_rate": 4.9072916666666666e-05, "loss": 0.7879, "step": 180 }, { "epoch": 0.37916666666666665, "grad_norm": 2.5704216957092285, "learning_rate": 4.90625e-05, "loss": 0.7791, "step": 182 }, { "epoch": 0.38333333333333336, "grad_norm": 2.906529426574707, "learning_rate": 4.9052083333333334e-05, "loss": 0.842, "step": 184 }, { "epoch": 0.3875, "grad_norm": 3.226080894470215, "learning_rate": 4.904166666666667e-05, "loss": 0.8281, "step": 186 }, { "epoch": 0.39166666666666666, "grad_norm": 5.942956447601318, "learning_rate": 4.903125e-05, "loss": 0.8732, "step": 188 }, { "epoch": 0.3958333333333333, "grad_norm": 3.108654737472534, "learning_rate": 4.902083333333334e-05, "loss": 0.754, "step": 190 }, { "epoch": 0.4, "grad_norm": 2.738445520401001, "learning_rate": 4.901041666666667e-05, "loss": 0.7242, "step": 192 }, { "epoch": 0.4041666666666667, "grad_norm": 2.307344913482666, "learning_rate": 4.9e-05, "loss": 0.7075, "step": 194 }, { "epoch": 0.4083333333333333, "grad_norm": 3.3373115062713623, "learning_rate": 4.898958333333333e-05, "loss": 0.679, "step": 196 }, { "epoch": 0.4125, "grad_norm": 2.6032283306121826, "learning_rate": 4.8979166666666674e-05, "loss": 0.7141, "step": 198 }, { "epoch": 0.4166666666666667, "grad_norm": 3.114651918411255, "learning_rate": 4.897395833333334e-05, "loss": 0.736, "step": 200 }, { "epoch": 0.4166666666666667, "eval_cer": 0.11464349178143048, "eval_loss": 0.6773141622543335, "eval_runtime": 76.484, "eval_samples_per_second": 5.151, "eval_steps_per_second": 0.654, "step": 200 }, { "epoch": 0.42083333333333334, "grad_norm": 2.6965818405151367, "learning_rate": 4.8963541666666665e-05, "loss": 0.7735, "step": 202 }, { "epoch": 0.425, "grad_norm": 5.383996963500977, "learning_rate": 4.8953125e-05, "loss": 0.8513, "step": 204 }, { "epoch": 0.42916666666666664, "grad_norm": 2.2922441959381104, "learning_rate": 4.894270833333334e-05, "loss": 0.7071, "step": 206 }, { "epoch": 0.43333333333333335, "grad_norm": 2.4022023677825928, "learning_rate": 4.893229166666667e-05, "loss": 0.704, "step": 208 }, { "epoch": 0.4375, "grad_norm": 4.224945068359375, "learning_rate": 4.8921875e-05, "loss": 0.8169, "step": 210 }, { "epoch": 0.44166666666666665, "grad_norm": 2.8267786502838135, "learning_rate": 4.8911458333333336e-05, "loss": 0.7349, "step": 212 }, { "epoch": 0.44583333333333336, "grad_norm": 3.093989372253418, "learning_rate": 4.890104166666667e-05, "loss": 0.7291, "step": 214 }, { "epoch": 0.45, "grad_norm": 3.0179879665374756, "learning_rate": 4.8890625000000004e-05, "loss": 0.7535, "step": 216 }, { "epoch": 0.45416666666666666, "grad_norm": 2.626603364944458, "learning_rate": 4.888020833333334e-05, "loss": 0.7958, "step": 218 }, { "epoch": 0.4583333333333333, "grad_norm": 4.175904750823975, "learning_rate": 4.886979166666667e-05, "loss": 0.7136, "step": 220 }, { "epoch": 0.4625, "grad_norm": 4.473461627960205, "learning_rate": 4.8859375e-05, "loss": 0.7997, "step": 222 }, { "epoch": 0.4666666666666667, "grad_norm": 4.888570308685303, "learning_rate": 4.8848958333333334e-05, "loss": 0.7408, "step": 224 }, { "epoch": 0.4708333333333333, "grad_norm": 4.093039035797119, "learning_rate": 4.883854166666667e-05, "loss": 0.7771, "step": 226 }, { "epoch": 0.475, "grad_norm": 4.385845184326172, "learning_rate": 4.8828125e-05, "loss": 0.6492, "step": 228 }, { "epoch": 0.4791666666666667, "grad_norm": 4.987430095672607, "learning_rate": 4.881770833333334e-05, "loss": 0.6919, "step": 230 }, { "epoch": 0.48333333333333334, "grad_norm": 4.257561683654785, "learning_rate": 4.880729166666667e-05, "loss": 0.8171, "step": 232 }, { "epoch": 0.4875, "grad_norm": 3.5636675357818604, "learning_rate": 4.8796875000000005e-05, "loss": 0.744, "step": 234 }, { "epoch": 0.49166666666666664, "grad_norm": 3.1031410694122314, "learning_rate": 4.878645833333333e-05, "loss": 0.6529, "step": 236 }, { "epoch": 0.49583333333333335, "grad_norm": 3.8696632385253906, "learning_rate": 4.877604166666667e-05, "loss": 0.8489, "step": 238 }, { "epoch": 0.5, "grad_norm": 3.0343689918518066, "learning_rate": 4.8765625e-05, "loss": 0.6892, "step": 240 }, { "epoch": 0.5041666666666667, "grad_norm": 3.79654598236084, "learning_rate": 4.8755208333333335e-05, "loss": 0.6512, "step": 242 }, { "epoch": 0.5083333333333333, "grad_norm": 21.42628288269043, "learning_rate": 4.874479166666667e-05, "loss": 0.6444, "step": 244 }, { "epoch": 0.5125, "grad_norm": 5.5014238357543945, "learning_rate": 4.8734375000000004e-05, "loss": 0.7238, "step": 246 }, { "epoch": 0.5166666666666667, "grad_norm": 2.971254348754883, "learning_rate": 4.872395833333334e-05, "loss": 0.7318, "step": 248 }, { "epoch": 0.5208333333333334, "grad_norm": 6.096756458282471, "learning_rate": 4.8713541666666665e-05, "loss": 0.6852, "step": 250 }, { "epoch": 0.525, "grad_norm": 4.7269744873046875, "learning_rate": 4.8703125000000006e-05, "loss": 0.6783, "step": 252 }, { "epoch": 0.5291666666666667, "grad_norm": 2.5058603286743164, "learning_rate": 4.8692708333333334e-05, "loss": 0.7257, "step": 254 }, { "epoch": 0.5333333333333333, "grad_norm": 4.296134948730469, "learning_rate": 4.868229166666667e-05, "loss": 0.7538, "step": 256 }, { "epoch": 0.5375, "grad_norm": 2.5677266120910645, "learning_rate": 4.8671875e-05, "loss": 0.6458, "step": 258 }, { "epoch": 0.5416666666666666, "grad_norm": 2.5237128734588623, "learning_rate": 4.8661458333333337e-05, "loss": 0.6232, "step": 260 }, { "epoch": 0.5458333333333333, "grad_norm": 3.195829153060913, "learning_rate": 4.865104166666667e-05, "loss": 0.8124, "step": 262 }, { "epoch": 0.55, "grad_norm": 7.50528621673584, "learning_rate": 4.8640625e-05, "loss": 0.5874, "step": 264 }, { "epoch": 0.5541666666666667, "grad_norm": 5.110229015350342, "learning_rate": 4.863020833333334e-05, "loss": 0.5614, "step": 266 }, { "epoch": 0.5583333333333333, "grad_norm": 3.3996708393096924, "learning_rate": 4.8619791666666667e-05, "loss": 0.6543, "step": 268 }, { "epoch": 0.5625, "grad_norm": 3.2448389530181885, "learning_rate": 4.8609375e-05, "loss": 0.7292, "step": 270 }, { "epoch": 0.5666666666666667, "grad_norm": 2.2041819095611572, "learning_rate": 4.8598958333333335e-05, "loss": 0.6697, "step": 272 }, { "epoch": 0.5708333333333333, "grad_norm": 3.5907139778137207, "learning_rate": 4.858854166666667e-05, "loss": 0.6809, "step": 274 }, { "epoch": 0.575, "grad_norm": 4.802801609039307, "learning_rate": 4.8578125000000003e-05, "loss": 0.7459, "step": 276 }, { "epoch": 0.5791666666666667, "grad_norm": 2.749701738357544, "learning_rate": 4.856770833333333e-05, "loss": 0.6805, "step": 278 }, { "epoch": 0.5833333333333334, "grad_norm": 4.940402030944824, "learning_rate": 4.855729166666667e-05, "loss": 0.7406, "step": 280 }, { "epoch": 0.5875, "grad_norm": 5.679503917694092, "learning_rate": 4.8546875000000006e-05, "loss": 0.6684, "step": 282 }, { "epoch": 0.5916666666666667, "grad_norm": 2.823293924331665, "learning_rate": 4.8536458333333333e-05, "loss": 0.629, "step": 284 }, { "epoch": 0.5958333333333333, "grad_norm": 2.693312168121338, "learning_rate": 4.8526041666666674e-05, "loss": 0.7329, "step": 286 }, { "epoch": 0.6, "grad_norm": 5.283657073974609, "learning_rate": 4.8515625e-05, "loss": 0.6853, "step": 288 }, { "epoch": 0.6041666666666666, "grad_norm": 2.5866312980651855, "learning_rate": 4.8505208333333336e-05, "loss": 0.7752, "step": 290 }, { "epoch": 0.6083333333333333, "grad_norm": 2.1295642852783203, "learning_rate": 4.8494791666666664e-05, "loss": 0.6413, "step": 292 }, { "epoch": 0.6125, "grad_norm": 2.439286708831787, "learning_rate": 4.8484375000000005e-05, "loss": 0.6285, "step": 294 }, { "epoch": 0.6166666666666667, "grad_norm": 3.045799970626831, "learning_rate": 4.847395833333334e-05, "loss": 0.705, "step": 296 }, { "epoch": 0.6208333333333333, "grad_norm": 2.4165821075439453, "learning_rate": 4.8463541666666666e-05, "loss": 0.6848, "step": 298 }, { "epoch": 0.625, "grad_norm": 3.3265442848205566, "learning_rate": 4.845312500000001e-05, "loss": 0.6707, "step": 300 }, { "epoch": 0.6291666666666667, "grad_norm": 8.924571990966797, "learning_rate": 4.8442708333333335e-05, "loss": 0.6566, "step": 302 }, { "epoch": 0.6333333333333333, "grad_norm": 2.821265459060669, "learning_rate": 4.843229166666667e-05, "loss": 0.5713, "step": 304 }, { "epoch": 0.6375, "grad_norm": 2.288290500640869, "learning_rate": 4.8421875e-05, "loss": 0.6933, "step": 306 }, { "epoch": 0.6416666666666667, "grad_norm": 3.1010234355926514, "learning_rate": 4.841145833333334e-05, "loss": 0.7488, "step": 308 }, { "epoch": 0.6458333333333334, "grad_norm": 4.694073677062988, "learning_rate": 4.840104166666667e-05, "loss": 0.7272, "step": 310 }, { "epoch": 0.65, "grad_norm": 2.572277545928955, "learning_rate": 4.8390625e-05, "loss": 0.5334, "step": 312 }, { "epoch": 0.6541666666666667, "grad_norm": 4.964011192321777, "learning_rate": 4.838020833333334e-05, "loss": 0.7159, "step": 314 }, { "epoch": 0.6583333333333333, "grad_norm": 3.211191415786743, "learning_rate": 4.836979166666667e-05, "loss": 0.8156, "step": 316 }, { "epoch": 0.6625, "grad_norm": 2.606780767440796, "learning_rate": 4.8359375e-05, "loss": 0.7053, "step": 318 }, { "epoch": 0.6666666666666666, "grad_norm": 3.849229335784912, "learning_rate": 4.8348958333333336e-05, "loss": 0.7042, "step": 320 }, { "epoch": 0.6708333333333333, "grad_norm": 3.1699249744415283, "learning_rate": 4.833854166666667e-05, "loss": 0.6504, "step": 322 }, { "epoch": 0.675, "grad_norm": 2.8658313751220703, "learning_rate": 4.8328125000000004e-05, "loss": 0.6752, "step": 324 }, { "epoch": 0.6791666666666667, "grad_norm": 2.223454713821411, "learning_rate": 4.831770833333333e-05, "loss": 0.5755, "step": 326 }, { "epoch": 0.6833333333333333, "grad_norm": 3.236706256866455, "learning_rate": 4.830729166666667e-05, "loss": 0.6714, "step": 328 }, { "epoch": 0.6875, "grad_norm": 3.0918474197387695, "learning_rate": 4.8296875e-05, "loss": 0.7784, "step": 330 }, { "epoch": 0.6916666666666667, "grad_norm": 2.4676313400268555, "learning_rate": 4.8286458333333334e-05, "loss": 0.5921, "step": 332 }, { "epoch": 0.6958333333333333, "grad_norm": 3.0821173191070557, "learning_rate": 4.827604166666667e-05, "loss": 0.7174, "step": 334 }, { "epoch": 0.7, "grad_norm": 2.807302951812744, "learning_rate": 4.8265625e-05, "loss": 0.6115, "step": 336 }, { "epoch": 0.7041666666666667, "grad_norm": 3.294158697128296, "learning_rate": 4.825520833333334e-05, "loss": 0.6164, "step": 338 }, { "epoch": 0.7083333333333334, "grad_norm": 3.214353561401367, "learning_rate": 4.8244791666666664e-05, "loss": 0.6719, "step": 340 }, { "epoch": 0.7125, "grad_norm": 4.182924270629883, "learning_rate": 4.8234375000000005e-05, "loss": 0.7695, "step": 342 }, { "epoch": 0.7166666666666667, "grad_norm": 3.515329122543335, "learning_rate": 4.822395833333333e-05, "loss": 0.61, "step": 344 }, { "epoch": 0.7208333333333333, "grad_norm": 5.328710079193115, "learning_rate": 4.821354166666667e-05, "loss": 0.5758, "step": 346 }, { "epoch": 0.725, "grad_norm": 5.189579963684082, "learning_rate": 4.820312500000001e-05, "loss": 0.6859, "step": 348 }, { "epoch": 0.7291666666666666, "grad_norm": 3.540848731994629, "learning_rate": 4.8192708333333335e-05, "loss": 0.625, "step": 350 }, { "epoch": 0.7333333333333333, "grad_norm": 2.3288440704345703, "learning_rate": 4.818229166666667e-05, "loss": 0.6857, "step": 352 }, { "epoch": 0.7375, "grad_norm": 4.974381446838379, "learning_rate": 4.8171875e-05, "loss": 0.4848, "step": 354 }, { "epoch": 0.7416666666666667, "grad_norm": 2.493722677230835, "learning_rate": 4.816145833333334e-05, "loss": 0.6065, "step": 356 }, { "epoch": 0.7458333333333333, "grad_norm": 3.1318628787994385, "learning_rate": 4.8151041666666665e-05, "loss": 0.6927, "step": 358 }, { "epoch": 0.75, "grad_norm": 2.678463935852051, "learning_rate": 4.8140625e-05, "loss": 0.5349, "step": 360 }, { "epoch": 0.7541666666666667, "grad_norm": 4.967501163482666, "learning_rate": 4.813020833333334e-05, "loss": 0.6022, "step": 362 }, { "epoch": 0.7583333333333333, "grad_norm": 3.840024709701538, "learning_rate": 4.811979166666667e-05, "loss": 0.6728, "step": 364 }, { "epoch": 0.7625, "grad_norm": 3.2149782180786133, "learning_rate": 4.8109375e-05, "loss": 0.629, "step": 366 }, { "epoch": 0.7666666666666667, "grad_norm": 3.114593505859375, "learning_rate": 4.8098958333333336e-05, "loss": 0.6509, "step": 368 }, { "epoch": 0.7708333333333334, "grad_norm": 3.394982099533081, "learning_rate": 4.808854166666667e-05, "loss": 0.6898, "step": 370 }, { "epoch": 0.775, "grad_norm": 5.001162528991699, "learning_rate": 4.8078125000000005e-05, "loss": 0.6916, "step": 372 }, { "epoch": 0.7791666666666667, "grad_norm": 2.801837682723999, "learning_rate": 4.806770833333333e-05, "loss": 0.6983, "step": 374 }, { "epoch": 0.7833333333333333, "grad_norm": 3.337214231491089, "learning_rate": 4.805729166666667e-05, "loss": 0.6284, "step": 376 }, { "epoch": 0.7875, "grad_norm": 2.6527676582336426, "learning_rate": 4.8046875e-05, "loss": 0.6022, "step": 378 }, { "epoch": 0.7916666666666666, "grad_norm": 2.219878911972046, "learning_rate": 4.8036458333333335e-05, "loss": 0.6336, "step": 380 }, { "epoch": 0.7958333333333333, "grad_norm": 2.2160532474517822, "learning_rate": 4.802604166666667e-05, "loss": 0.5672, "step": 382 }, { "epoch": 0.8, "grad_norm": 3.1678032875061035, "learning_rate": 4.8015625e-05, "loss": 0.5196, "step": 384 }, { "epoch": 0.8041666666666667, "grad_norm": 2.608726978302002, "learning_rate": 4.800520833333334e-05, "loss": 0.6075, "step": 386 }, { "epoch": 0.8083333333333333, "grad_norm": 2.946007490158081, "learning_rate": 4.7994791666666665e-05, "loss": 0.6549, "step": 388 }, { "epoch": 0.8125, "grad_norm": 2.1688454151153564, "learning_rate": 4.7984375000000006e-05, "loss": 0.603, "step": 390 }, { "epoch": 0.8166666666666667, "grad_norm": 6.059370040893555, "learning_rate": 4.797395833333333e-05, "loss": 0.6464, "step": 392 }, { "epoch": 0.8208333333333333, "grad_norm": 3.732147216796875, "learning_rate": 4.796354166666667e-05, "loss": 0.6233, "step": 394 }, { "epoch": 0.825, "grad_norm": 2.2253966331481934, "learning_rate": 4.7953125e-05, "loss": 0.5973, "step": 396 }, { "epoch": 0.8291666666666667, "grad_norm": 2.8659045696258545, "learning_rate": 4.7942708333333336e-05, "loss": 0.6618, "step": 398 }, { "epoch": 0.8333333333333334, "grad_norm": 2.26781964302063, "learning_rate": 4.793229166666667e-05, "loss": 0.6749, "step": 400 }, { "epoch": 0.8333333333333334, "eval_cer": 0.09437472234562416, "eval_loss": 0.5288404226303101, "eval_runtime": 75.3388, "eval_samples_per_second": 5.23, "eval_steps_per_second": 0.664, "step": 400 }, { "epoch": 0.8375, "grad_norm": 3.8407750129699707, "learning_rate": 4.7921875000000004e-05, "loss": 0.5595, "step": 402 }, { "epoch": 0.8416666666666667, "grad_norm": 7.40029239654541, "learning_rate": 4.791145833333334e-05, "loss": 0.6697, "step": 404 }, { "epoch": 0.8458333333333333, "grad_norm": 3.3032219409942627, "learning_rate": 4.7901041666666666e-05, "loss": 0.6703, "step": 406 }, { "epoch": 0.85, "grad_norm": 3.450255870819092, "learning_rate": 4.7890625e-05, "loss": 0.6012, "step": 408 }, { "epoch": 0.8541666666666666, "grad_norm": 9.749808311462402, "learning_rate": 4.7880208333333334e-05, "loss": 0.5759, "step": 410 }, { "epoch": 0.8583333333333333, "grad_norm": 2.3248515129089355, "learning_rate": 4.786979166666667e-05, "loss": 0.5884, "step": 412 }, { "epoch": 0.8625, "grad_norm": 2.4550211429595947, "learning_rate": 4.7859375e-05, "loss": 0.5445, "step": 414 }, { "epoch": 0.8666666666666667, "grad_norm": 3.118741989135742, "learning_rate": 4.784895833333334e-05, "loss": 0.6415, "step": 416 }, { "epoch": 0.8708333333333333, "grad_norm": 3.229210376739502, "learning_rate": 4.783854166666667e-05, "loss": 0.6163, "step": 418 }, { "epoch": 0.875, "grad_norm": 1.9319297075271606, "learning_rate": 4.7828125e-05, "loss": 0.5302, "step": 420 }, { "epoch": 0.8791666666666667, "grad_norm": 2.8331642150878906, "learning_rate": 4.781770833333333e-05, "loss": 0.5403, "step": 422 }, { "epoch": 0.8833333333333333, "grad_norm": 2.130479335784912, "learning_rate": 4.780729166666667e-05, "loss": 0.5509, "step": 424 }, { "epoch": 0.8875, "grad_norm": 3.784559488296509, "learning_rate": 4.7796875e-05, "loss": 0.6122, "step": 426 }, { "epoch": 0.8916666666666667, "grad_norm": 3.164377212524414, "learning_rate": 4.7786458333333336e-05, "loss": 0.6065, "step": 428 }, { "epoch": 0.8958333333333334, "grad_norm": 2.6093013286590576, "learning_rate": 4.777604166666667e-05, "loss": 0.5431, "step": 430 }, { "epoch": 0.9, "grad_norm": 3.7088863849639893, "learning_rate": 4.7765625000000004e-05, "loss": 0.5485, "step": 432 }, { "epoch": 0.9041666666666667, "grad_norm": 2.829235076904297, "learning_rate": 4.775520833333333e-05, "loss": 0.5532, "step": 434 }, { "epoch": 0.9083333333333333, "grad_norm": 3.985959529876709, "learning_rate": 4.774479166666667e-05, "loss": 0.5565, "step": 436 }, { "epoch": 0.9125, "grad_norm": 4.357743263244629, "learning_rate": 4.773437500000001e-05, "loss": 0.5819, "step": 438 }, { "epoch": 0.9166666666666666, "grad_norm": 2.7579171657562256, "learning_rate": 4.7723958333333334e-05, "loss": 0.543, "step": 440 }, { "epoch": 0.9208333333333333, "grad_norm": 2.8343441486358643, "learning_rate": 4.771354166666667e-05, "loss": 0.5803, "step": 442 }, { "epoch": 0.925, "grad_norm": 2.341815710067749, "learning_rate": 4.7703125e-05, "loss": 0.5653, "step": 444 }, { "epoch": 0.9291666666666667, "grad_norm": 3.035484790802002, "learning_rate": 4.769270833333334e-05, "loss": 0.5392, "step": 446 }, { "epoch": 0.9333333333333333, "grad_norm": 2.2655560970306396, "learning_rate": 4.7682291666666664e-05, "loss": 0.5428, "step": 448 }, { "epoch": 0.9375, "grad_norm": 2.481808662414551, "learning_rate": 4.7671875000000005e-05, "loss": 0.6434, "step": 450 }, { "epoch": 0.9416666666666667, "grad_norm": 4.014449596405029, "learning_rate": 4.766145833333334e-05, "loss": 0.6325, "step": 452 }, { "epoch": 0.9458333333333333, "grad_norm": 3.728942632675171, "learning_rate": 4.765104166666667e-05, "loss": 0.6712, "step": 454 }, { "epoch": 0.95, "grad_norm": 2.895840883255005, "learning_rate": 4.7640625e-05, "loss": 0.5845, "step": 456 }, { "epoch": 0.9541666666666667, "grad_norm": 2.680987596511841, "learning_rate": 4.7630208333333335e-05, "loss": 0.5407, "step": 458 }, { "epoch": 0.9583333333333334, "grad_norm": 4.975336074829102, "learning_rate": 4.761979166666667e-05, "loss": 0.5976, "step": 460 }, { "epoch": 0.9625, "grad_norm": 8.485946655273438, "learning_rate": 4.7609375000000004e-05, "loss": 0.5157, "step": 462 }, { "epoch": 0.9666666666666667, "grad_norm": 3.504152297973633, "learning_rate": 4.759895833333334e-05, "loss": 0.5616, "step": 464 }, { "epoch": 0.9708333333333333, "grad_norm": 2.589276075363159, "learning_rate": 4.758854166666667e-05, "loss": 0.7109, "step": 466 }, { "epoch": 0.975, "grad_norm": 3.5683672428131104, "learning_rate": 4.7578125e-05, "loss": 0.6224, "step": 468 }, { "epoch": 0.9791666666666666, "grad_norm": 3.319976806640625, "learning_rate": 4.7567708333333334e-05, "loss": 0.454, "step": 470 }, { "epoch": 0.9833333333333333, "grad_norm": 10.062982559204102, "learning_rate": 4.755729166666667e-05, "loss": 0.5807, "step": 472 }, { "epoch": 0.9875, "grad_norm": 4.252432823181152, "learning_rate": 4.7546875e-05, "loss": 0.5311, "step": 474 }, { "epoch": 0.9916666666666667, "grad_norm": 2.8918192386627197, "learning_rate": 4.7536458333333336e-05, "loss": 0.6167, "step": 476 }, { "epoch": 0.9958333333333333, "grad_norm": 7.638920783996582, "learning_rate": 4.752604166666667e-05, "loss": 0.5527, "step": 478 }, { "epoch": 1.0, "grad_norm": 3.5749053955078125, "learning_rate": 4.7515625000000005e-05, "loss": 0.6057, "step": 480 }, { "epoch": 1.0041666666666667, "grad_norm": 2.290039300918579, "learning_rate": 4.750520833333333e-05, "loss": 0.4165, "step": 482 }, { "epoch": 1.0083333333333333, "grad_norm": 3.2367255687713623, "learning_rate": 4.749479166666667e-05, "loss": 0.4069, "step": 484 }, { "epoch": 1.0125, "grad_norm": 3.5936930179595947, "learning_rate": 4.7484375e-05, "loss": 0.457, "step": 486 }, { "epoch": 1.0166666666666666, "grad_norm": 2.1726415157318115, "learning_rate": 4.7473958333333335e-05, "loss": 0.4312, "step": 488 }, { "epoch": 1.0208333333333333, "grad_norm": 1.5543261766433716, "learning_rate": 4.746354166666667e-05, "loss": 0.3948, "step": 490 }, { "epoch": 1.025, "grad_norm": 1.9411005973815918, "learning_rate": 4.7453125e-05, "loss": 0.3985, "step": 492 }, { "epoch": 1.0291666666666666, "grad_norm": 1.9239277839660645, "learning_rate": 4.744270833333334e-05, "loss": 0.4034, "step": 494 }, { "epoch": 1.0333333333333334, "grad_norm": 2.5936107635498047, "learning_rate": 4.7432291666666665e-05, "loss": 0.3741, "step": 496 }, { "epoch": 1.0375, "grad_norm": 3.663874387741089, "learning_rate": 4.7421875000000006e-05, "loss": 0.4191, "step": 498 }, { "epoch": 1.0416666666666667, "grad_norm": 2.4142072200775146, "learning_rate": 4.741145833333333e-05, "loss": 0.4035, "step": 500 }, { "epoch": 1.0458333333333334, "grad_norm": 3.075683832168579, "learning_rate": 4.740104166666667e-05, "loss": 0.3694, "step": 502 }, { "epoch": 1.05, "grad_norm": 2.207871198654175, "learning_rate": 4.7390625e-05, "loss": 0.4636, "step": 504 }, { "epoch": 1.0541666666666667, "grad_norm": 2.84586763381958, "learning_rate": 4.7380208333333336e-05, "loss": 0.4067, "step": 506 }, { "epoch": 1.0583333333333333, "grad_norm": 3.0893442630767822, "learning_rate": 4.736979166666667e-05, "loss": 0.3298, "step": 508 }, { "epoch": 1.0625, "grad_norm": 2.166533946990967, "learning_rate": 4.7359375e-05, "loss": 0.4116, "step": 510 }, { "epoch": 1.0666666666666667, "grad_norm": 1.9301198720932007, "learning_rate": 4.734895833333334e-05, "loss": 0.3765, "step": 512 }, { "epoch": 1.0708333333333333, "grad_norm": 1.9673384428024292, "learning_rate": 4.7338541666666666e-05, "loss": 0.4224, "step": 514 }, { "epoch": 1.075, "grad_norm": 2.267043352127075, "learning_rate": 4.7328125e-05, "loss": 0.3157, "step": 516 }, { "epoch": 1.0791666666666666, "grad_norm": 2.2695579528808594, "learning_rate": 4.731770833333334e-05, "loss": 0.3943, "step": 518 }, { "epoch": 1.0833333333333333, "grad_norm": 2.0709850788116455, "learning_rate": 4.730729166666667e-05, "loss": 0.3908, "step": 520 }, { "epoch": 1.0875, "grad_norm": 2.7416481971740723, "learning_rate": 4.7296875e-05, "loss": 0.4257, "step": 522 }, { "epoch": 1.0916666666666666, "grad_norm": 2.2451162338256836, "learning_rate": 4.728645833333333e-05, "loss": 0.3855, "step": 524 }, { "epoch": 1.0958333333333334, "grad_norm": 2.0784411430358887, "learning_rate": 4.727604166666667e-05, "loss": 0.3843, "step": 526 }, { "epoch": 1.1, "grad_norm": 2.261808395385742, "learning_rate": 4.7265625000000005e-05, "loss": 0.3897, "step": 528 }, { "epoch": 1.1041666666666667, "grad_norm": 1.7851799726486206, "learning_rate": 4.725520833333333e-05, "loss": 0.3025, "step": 530 }, { "epoch": 1.1083333333333334, "grad_norm": 2.0723624229431152, "learning_rate": 4.7244791666666674e-05, "loss": 0.3863, "step": 532 }, { "epoch": 1.1125, "grad_norm": 2.2496345043182373, "learning_rate": 4.7234375e-05, "loss": 0.3916, "step": 534 }, { "epoch": 1.1166666666666667, "grad_norm": 2.2499849796295166, "learning_rate": 4.7223958333333335e-05, "loss": 0.3805, "step": 536 }, { "epoch": 1.1208333333333333, "grad_norm": 2.0148541927337646, "learning_rate": 4.721354166666667e-05, "loss": 0.3523, "step": 538 }, { "epoch": 1.125, "grad_norm": NaN, "learning_rate": 4.720833333333334e-05, "loss": 0.4272, "step": 540 }, { "epoch": 1.1291666666666667, "grad_norm": 1.818580985069275, "learning_rate": 4.719791666666667e-05, "loss": 0.4315, "step": 542 }, { "epoch": 1.1333333333333333, "grad_norm": 1.9033260345458984, "learning_rate": 4.71875e-05, "loss": 0.4389, "step": 544 }, { "epoch": 1.1375, "grad_norm": 2.112426996231079, "learning_rate": 4.7177083333333336e-05, "loss": 0.3609, "step": 546 }, { "epoch": 1.1416666666666666, "grad_norm": 2.473832607269287, "learning_rate": 4.716666666666667e-05, "loss": 0.3498, "step": 548 }, { "epoch": 1.1458333333333333, "grad_norm": 2.4780259132385254, "learning_rate": 4.7156250000000004e-05, "loss": 0.363, "step": 550 }, { "epoch": 1.15, "grad_norm": 2.4832866191864014, "learning_rate": 4.714583333333333e-05, "loss": 0.4187, "step": 552 }, { "epoch": 1.1541666666666668, "grad_norm": 2.0865137577056885, "learning_rate": 4.713541666666667e-05, "loss": 0.4066, "step": 554 }, { "epoch": 1.1583333333333332, "grad_norm": 2.2443153858184814, "learning_rate": 4.7125e-05, "loss": 0.4618, "step": 556 }, { "epoch": 1.1625, "grad_norm": 1.7275798320770264, "learning_rate": 4.7114583333333334e-05, "loss": 0.4442, "step": 558 }, { "epoch": 1.1666666666666667, "grad_norm": 3.480638265609741, "learning_rate": 4.710416666666667e-05, "loss": 0.4171, "step": 560 }, { "epoch": 1.1708333333333334, "grad_norm": 2.402559995651245, "learning_rate": 4.709375e-05, "loss": 0.3541, "step": 562 }, { "epoch": 1.175, "grad_norm": 2.266561508178711, "learning_rate": 4.708333333333334e-05, "loss": 0.4112, "step": 564 }, { "epoch": 1.1791666666666667, "grad_norm": 1.9658203125, "learning_rate": 4.7072916666666665e-05, "loss": 0.391, "step": 566 }, { "epoch": 1.1833333333333333, "grad_norm": 1.799079179763794, "learning_rate": 4.7062500000000006e-05, "loss": 0.3574, "step": 568 }, { "epoch": 1.1875, "grad_norm": 2.373586416244507, "learning_rate": 4.705208333333333e-05, "loss": 0.4078, "step": 570 }, { "epoch": 1.1916666666666667, "grad_norm": 2.2254137992858887, "learning_rate": 4.704166666666667e-05, "loss": 0.2781, "step": 572 }, { "epoch": 1.1958333333333333, "grad_norm": 1.6554490327835083, "learning_rate": 4.703125e-05, "loss": 0.3884, "step": 574 }, { "epoch": 1.2, "grad_norm": 1.8344429731369019, "learning_rate": 4.7020833333333336e-05, "loss": 0.4209, "step": 576 }, { "epoch": 1.2041666666666666, "grad_norm": 1.988049864768982, "learning_rate": 4.701041666666667e-05, "loss": 0.4059, "step": 578 }, { "epoch": 1.2083333333333333, "grad_norm": 1.4477262496948242, "learning_rate": 4.7e-05, "loss": 0.3176, "step": 580 }, { "epoch": 1.2125, "grad_norm": 1.9679880142211914, "learning_rate": 4.698958333333334e-05, "loss": 0.4039, "step": 582 }, { "epoch": 1.2166666666666668, "grad_norm": 1.7134015560150146, "learning_rate": 4.6979166666666666e-05, "loss": 0.4628, "step": 584 }, { "epoch": 1.2208333333333332, "grad_norm": 7.197211265563965, "learning_rate": 4.696875e-05, "loss": 0.3856, "step": 586 }, { "epoch": 1.225, "grad_norm": 2.2321548461914062, "learning_rate": 4.695833333333334e-05, "loss": 0.4228, "step": 588 }, { "epoch": 1.2291666666666667, "grad_norm": 4.248619079589844, "learning_rate": 4.694791666666667e-05, "loss": 0.3539, "step": 590 }, { "epoch": 1.2333333333333334, "grad_norm": 4.029890537261963, "learning_rate": 4.69375e-05, "loss": 0.435, "step": 592 }, { "epoch": 1.2375, "grad_norm": 3.6013121604919434, "learning_rate": 4.692708333333334e-05, "loss": 0.3835, "step": 594 }, { "epoch": 1.2416666666666667, "grad_norm": 2.3047897815704346, "learning_rate": 4.691666666666667e-05, "loss": 0.408, "step": 596 }, { "epoch": 1.2458333333333333, "grad_norm": 6.740744590759277, "learning_rate": 4.690625e-05, "loss": 0.3568, "step": 598 }, { "epoch": 1.25, "grad_norm": 1.65971040725708, "learning_rate": 4.689583333333333e-05, "loss": 0.3252, "step": 600 }, { "epoch": 1.25, "eval_cer": 0.08882163482896491, "eval_loss": 0.4825364649295807, "eval_runtime": 75.3757, "eval_samples_per_second": 5.227, "eval_steps_per_second": 0.663, "step": 600 }, { "epoch": 1.2541666666666667, "grad_norm": 1.4903420209884644, "learning_rate": 4.6885416666666674e-05, "loss": 0.3491, "step": 602 }, { "epoch": 1.2583333333333333, "grad_norm": 2.0410640239715576, "learning_rate": 4.6875e-05, "loss": 0.4579, "step": 604 }, { "epoch": 1.2625, "grad_norm": 2.2305901050567627, "learning_rate": 4.6864583333333335e-05, "loss": 0.3636, "step": 606 }, { "epoch": 1.2666666666666666, "grad_norm": 1.9142282009124756, "learning_rate": 4.685416666666667e-05, "loss": 0.3406, "step": 608 }, { "epoch": 1.2708333333333333, "grad_norm": 1.7000856399536133, "learning_rate": 4.6843750000000004e-05, "loss": 0.339, "step": 610 }, { "epoch": 1.275, "grad_norm": 2.362736463546753, "learning_rate": 4.683333333333334e-05, "loss": 0.3651, "step": 612 }, { "epoch": 1.2791666666666668, "grad_norm": 1.9029231071472168, "learning_rate": 4.6822916666666665e-05, "loss": 0.3922, "step": 614 }, { "epoch": 1.2833333333333332, "grad_norm": 2.19234037399292, "learning_rate": 4.6812500000000006e-05, "loss": 0.3799, "step": 616 }, { "epoch": 1.2875, "grad_norm": 2.8311691284179688, "learning_rate": 4.6802083333333334e-05, "loss": 0.4615, "step": 618 }, { "epoch": 1.2916666666666667, "grad_norm": 2.2515299320220947, "learning_rate": 4.679166666666667e-05, "loss": 0.3988, "step": 620 }, { "epoch": 1.2958333333333334, "grad_norm": 1.7555921077728271, "learning_rate": 4.678125e-05, "loss": 0.4424, "step": 622 }, { "epoch": 1.3, "grad_norm": 2.2430357933044434, "learning_rate": 4.6770833333333336e-05, "loss": 0.4541, "step": 624 }, { "epoch": 1.3041666666666667, "grad_norm": 2.0745716094970703, "learning_rate": 4.676041666666667e-05, "loss": 0.4175, "step": 626 }, { "epoch": 1.3083333333333333, "grad_norm": 1.9447697401046753, "learning_rate": 4.6750000000000005e-05, "loss": 0.3876, "step": 628 }, { "epoch": 1.3125, "grad_norm": 6.12916898727417, "learning_rate": 4.673958333333334e-05, "loss": 0.3489, "step": 630 }, { "epoch": 1.3166666666666667, "grad_norm": 1.8577853441238403, "learning_rate": 4.6729166666666666e-05, "loss": 0.4049, "step": 632 }, { "epoch": 1.3208333333333333, "grad_norm": 1.735574722290039, "learning_rate": 4.671875e-05, "loss": 0.401, "step": 634 }, { "epoch": 1.325, "grad_norm": 2.200798749923706, "learning_rate": 4.6708333333333335e-05, "loss": 0.4668, "step": 636 }, { "epoch": 1.3291666666666666, "grad_norm": 1.9722037315368652, "learning_rate": 4.669791666666667e-05, "loss": 0.4148, "step": 638 }, { "epoch": 1.3333333333333333, "grad_norm": 2.1958506107330322, "learning_rate": 4.66875e-05, "loss": 0.3909, "step": 640 }, { "epoch": 1.3375, "grad_norm": 1.7348836660385132, "learning_rate": 4.667708333333334e-05, "loss": 0.3851, "step": 642 }, { "epoch": 1.3416666666666668, "grad_norm": 2.355278968811035, "learning_rate": 4.666666666666667e-05, "loss": 0.3438, "step": 644 }, { "epoch": 1.3458333333333332, "grad_norm": 1.7661689519882202, "learning_rate": 4.665625e-05, "loss": 0.3446, "step": 646 }, { "epoch": 1.35, "grad_norm": 2.178809881210327, "learning_rate": 4.664583333333333e-05, "loss": 0.3848, "step": 648 }, { "epoch": 1.3541666666666667, "grad_norm": 2.6587748527526855, "learning_rate": 4.663541666666667e-05, "loss": 0.3862, "step": 650 }, { "epoch": 1.3583333333333334, "grad_norm": 1.8318101167678833, "learning_rate": 4.6625e-05, "loss": 0.36, "step": 652 }, { "epoch": 1.3625, "grad_norm": 1.8120778799057007, "learning_rate": 4.6614583333333336e-05, "loss": 0.3746, "step": 654 }, { "epoch": 1.3666666666666667, "grad_norm": 2.4158990383148193, "learning_rate": 4.660416666666667e-05, "loss": 0.4314, "step": 656 }, { "epoch": 1.3708333333333333, "grad_norm": 2.2189536094665527, "learning_rate": 4.6593750000000004e-05, "loss": 0.359, "step": 658 }, { "epoch": 1.375, "grad_norm": 1.7004679441452026, "learning_rate": 4.658333333333333e-05, "loss": 0.3935, "step": 660 }, { "epoch": 1.3791666666666667, "grad_norm": 2.911466360092163, "learning_rate": 4.657291666666667e-05, "loss": 0.413, "step": 662 }, { "epoch": 1.3833333333333333, "grad_norm": 2.279244899749756, "learning_rate": 4.65625e-05, "loss": 0.4654, "step": 664 }, { "epoch": 1.3875, "grad_norm": 1.3229647874832153, "learning_rate": 4.6552083333333334e-05, "loss": 0.4057, "step": 666 }, { "epoch": 1.3916666666666666, "grad_norm": 2.899092197418213, "learning_rate": 4.654166666666667e-05, "loss": 0.3465, "step": 668 }, { "epoch": 1.3958333333333333, "grad_norm": 2.0069782733917236, "learning_rate": 4.653125e-05, "loss": 0.4382, "step": 670 }, { "epoch": 1.4, "grad_norm": 5.486810684204102, "learning_rate": 4.652083333333334e-05, "loss": 0.4789, "step": 672 }, { "epoch": 1.4041666666666668, "grad_norm": 2.1208415031433105, "learning_rate": 4.6510416666666664e-05, "loss": 0.3558, "step": 674 }, { "epoch": 1.4083333333333332, "grad_norm": 2.164301872253418, "learning_rate": 4.6500000000000005e-05, "loss": 0.4271, "step": 676 }, { "epoch": 1.4125, "grad_norm": 5.592773914337158, "learning_rate": 4.648958333333334e-05, "loss": 0.4781, "step": 678 }, { "epoch": 1.4166666666666667, "grad_norm": 2.398861885070801, "learning_rate": 4.647916666666667e-05, "loss": 0.4724, "step": 680 }, { "epoch": 1.4208333333333334, "grad_norm": 1.5108911991119385, "learning_rate": 4.646875e-05, "loss": 0.3287, "step": 682 }, { "epoch": 1.425, "grad_norm": 1.4579650163650513, "learning_rate": 4.6458333333333335e-05, "loss": 0.3397, "step": 684 }, { "epoch": 1.4291666666666667, "grad_norm": 2.2521185874938965, "learning_rate": 4.644791666666667e-05, "loss": 0.3633, "step": 686 }, { "epoch": 1.4333333333333333, "grad_norm": 2.21071720123291, "learning_rate": 4.64375e-05, "loss": 0.3994, "step": 688 }, { "epoch": 1.4375, "grad_norm": 2.129945993423462, "learning_rate": 4.642708333333334e-05, "loss": 0.4054, "step": 690 }, { "epoch": 1.4416666666666667, "grad_norm": 2.3053324222564697, "learning_rate": 4.641666666666667e-05, "loss": 0.3642, "step": 692 }, { "epoch": 1.4458333333333333, "grad_norm": 5.03537130355835, "learning_rate": 4.640625e-05, "loss": 0.327, "step": 694 }, { "epoch": 1.45, "grad_norm": 2.0899338722229004, "learning_rate": 4.6395833333333334e-05, "loss": 0.385, "step": 696 }, { "epoch": 1.4541666666666666, "grad_norm": 1.8142104148864746, "learning_rate": 4.638541666666667e-05, "loss": 0.3214, "step": 698 }, { "epoch": 1.4583333333333333, "grad_norm": 1.753135323524475, "learning_rate": 4.6375e-05, "loss": 0.3515, "step": 700 }, { "epoch": 1.4625, "grad_norm": 1.822525978088379, "learning_rate": 4.6364583333333337e-05, "loss": 0.3358, "step": 702 }, { "epoch": 1.4666666666666668, "grad_norm": 2.467871904373169, "learning_rate": 4.635416666666667e-05, "loss": 0.4131, "step": 704 }, { "epoch": 1.4708333333333332, "grad_norm": 1.8084889650344849, "learning_rate": 4.6343750000000005e-05, "loss": 0.3138, "step": 706 }, { "epoch": 1.475, "grad_norm": 1.9521251916885376, "learning_rate": 4.633333333333333e-05, "loss": 0.3647, "step": 708 }, { "epoch": 1.4791666666666667, "grad_norm": 3.7741165161132812, "learning_rate": 4.6322916666666673e-05, "loss": 0.3256, "step": 710 }, { "epoch": 1.4833333333333334, "grad_norm": 1.6917216777801514, "learning_rate": 4.63125e-05, "loss": 0.3559, "step": 712 }, { "epoch": 1.4875, "grad_norm": 2.276641368865967, "learning_rate": 4.6302083333333335e-05, "loss": 0.4045, "step": 714 }, { "epoch": 1.4916666666666667, "grad_norm": 2.1159298419952393, "learning_rate": 4.629166666666667e-05, "loss": 0.4038, "step": 716 }, { "epoch": 1.4958333333333333, "grad_norm": 2.2482399940490723, "learning_rate": 4.6281250000000003e-05, "loss": 0.2938, "step": 718 }, { "epoch": 1.5, "grad_norm": 1.721245527267456, "learning_rate": 4.627083333333334e-05, "loss": 0.3871, "step": 720 }, { "epoch": 1.5041666666666667, "grad_norm": 2.042407512664795, "learning_rate": 4.6260416666666665e-05, "loss": 0.412, "step": 722 }, { "epoch": 1.5083333333333333, "grad_norm": 1.7616004943847656, "learning_rate": 4.6250000000000006e-05, "loss": 0.3453, "step": 724 }, { "epoch": 1.5125, "grad_norm": 1.7401106357574463, "learning_rate": 4.6239583333333334e-05, "loss": 0.3221, "step": 726 }, { "epoch": 1.5166666666666666, "grad_norm": 3.5153968334198, "learning_rate": 4.622916666666667e-05, "loss": 0.3904, "step": 728 }, { "epoch": 1.5208333333333335, "grad_norm": 1.8634997606277466, "learning_rate": 4.621875e-05, "loss": 0.416, "step": 730 }, { "epoch": 1.525, "grad_norm": 2.9734556674957275, "learning_rate": 4.6208333333333336e-05, "loss": 0.3103, "step": 732 }, { "epoch": 1.5291666666666668, "grad_norm": 2.3127708435058594, "learning_rate": 4.619791666666667e-05, "loss": 0.4923, "step": 734 }, { "epoch": 1.5333333333333332, "grad_norm": 1.84650456905365, "learning_rate": 4.61875e-05, "loss": 0.3377, "step": 736 }, { "epoch": 1.5375, "grad_norm": 1.957462191581726, "learning_rate": 4.617708333333334e-05, "loss": 0.429, "step": 738 }, { "epoch": 1.5416666666666665, "grad_norm": 2.1158249378204346, "learning_rate": 4.6166666666666666e-05, "loss": 0.428, "step": 740 }, { "epoch": 1.5458333333333334, "grad_norm": 1.6036176681518555, "learning_rate": 4.615625e-05, "loss": 0.393, "step": 742 }, { "epoch": 1.55, "grad_norm": 1.8704732656478882, "learning_rate": 4.614583333333334e-05, "loss": 0.3329, "step": 744 }, { "epoch": 1.5541666666666667, "grad_norm": 2.478874683380127, "learning_rate": 4.613541666666667e-05, "loss": 0.3694, "step": 746 }, { "epoch": 1.5583333333333333, "grad_norm": 2.423173427581787, "learning_rate": 4.6125e-05, "loss": 0.4267, "step": 748 }, { "epoch": 1.5625, "grad_norm": 2.3176136016845703, "learning_rate": 4.611458333333333e-05, "loss": 0.355, "step": 750 }, { "epoch": 1.5666666666666667, "grad_norm": 2.192453145980835, "learning_rate": 4.610416666666667e-05, "loss": 0.4507, "step": 752 }, { "epoch": 1.5708333333333333, "grad_norm": 1.9239985942840576, "learning_rate": 4.609375e-05, "loss": 0.4149, "step": 754 }, { "epoch": 1.575, "grad_norm": 2.1934406757354736, "learning_rate": 4.608333333333333e-05, "loss": 0.3896, "step": 756 }, { "epoch": 1.5791666666666666, "grad_norm": 2.231092691421509, "learning_rate": 4.6072916666666674e-05, "loss": 0.3413, "step": 758 }, { "epoch": 1.5833333333333335, "grad_norm": 1.9258970022201538, "learning_rate": 4.60625e-05, "loss": 0.3679, "step": 760 }, { "epoch": 1.5875, "grad_norm": 2.0683157444000244, "learning_rate": 4.6052083333333336e-05, "loss": 0.3828, "step": 762 }, { "epoch": 1.5916666666666668, "grad_norm": 2.2727551460266113, "learning_rate": 4.604166666666666e-05, "loss": 0.4003, "step": 764 }, { "epoch": 1.5958333333333332, "grad_norm": 1.728041648864746, "learning_rate": 4.6031250000000004e-05, "loss": 0.3845, "step": 766 }, { "epoch": 1.6, "grad_norm": 1.6846458911895752, "learning_rate": 4.602083333333334e-05, "loss": 0.3289, "step": 768 }, { "epoch": 1.6041666666666665, "grad_norm": 1.9795798063278198, "learning_rate": 4.6010416666666666e-05, "loss": 0.3844, "step": 770 }, { "epoch": 1.6083333333333334, "grad_norm": 3.210663318634033, "learning_rate": 4.600000000000001e-05, "loss": 0.4261, "step": 772 }, { "epoch": 1.6125, "grad_norm": 1.7903053760528564, "learning_rate": 4.5989583333333334e-05, "loss": 0.3755, "step": 774 }, { "epoch": 1.6166666666666667, "grad_norm": 2.041489839553833, "learning_rate": 4.597916666666667e-05, "loss": 0.3075, "step": 776 }, { "epoch": 1.6208333333333333, "grad_norm": 1.7643860578536987, "learning_rate": 4.596875e-05, "loss": 0.3508, "step": 778 }, { "epoch": 1.625, "grad_norm": 1.784397006034851, "learning_rate": 4.595833333333334e-05, "loss": 0.3612, "step": 780 }, { "epoch": 1.6291666666666667, "grad_norm": 2.280071973800659, "learning_rate": 4.594791666666667e-05, "loss": 0.3599, "step": 782 }, { "epoch": 1.6333333333333333, "grad_norm": 1.841770887374878, "learning_rate": 4.59375e-05, "loss": 0.3575, "step": 784 }, { "epoch": 1.6375, "grad_norm": 1.853091835975647, "learning_rate": 4.592708333333334e-05, "loss": 0.3198, "step": 786 }, { "epoch": 1.6416666666666666, "grad_norm": 2.078869581222534, "learning_rate": 4.591666666666667e-05, "loss": 0.3618, "step": 788 }, { "epoch": 1.6458333333333335, "grad_norm": 1.9955053329467773, "learning_rate": 4.590625e-05, "loss": 0.3523, "step": 790 }, { "epoch": 1.65, "grad_norm": 2.8303120136260986, "learning_rate": 4.5895833333333335e-05, "loss": 0.3062, "step": 792 }, { "epoch": 1.6541666666666668, "grad_norm": 1.8177721500396729, "learning_rate": 4.588541666666667e-05, "loss": 0.3369, "step": 794 }, { "epoch": 1.6583333333333332, "grad_norm": 1.786309003829956, "learning_rate": 4.5875000000000004e-05, "loss": 0.39, "step": 796 }, { "epoch": 1.6625, "grad_norm": 1.9230891466140747, "learning_rate": 4.586458333333333e-05, "loss": 0.3569, "step": 798 }, { "epoch": 1.6666666666666665, "grad_norm": 1.6116489171981812, "learning_rate": 4.585416666666667e-05, "loss": 0.3727, "step": 800 }, { "epoch": 1.6666666666666665, "eval_cer": 0.07893713904931142, "eval_loss": 0.43024373054504395, "eval_runtime": 75.8386, "eval_samples_per_second": 5.195, "eval_steps_per_second": 0.659, "step": 800 }, { "epoch": 1.6708333333333334, "grad_norm": 1.9448270797729492, "learning_rate": 4.584375e-05, "loss": 0.3461, "step": 802 }, { "epoch": 1.675, "grad_norm": 1.6249109506607056, "learning_rate": 4.5833333333333334e-05, "loss": 0.3292, "step": 804 }, { "epoch": 1.6791666666666667, "grad_norm": 2.1389646530151367, "learning_rate": 4.582291666666667e-05, "loss": 0.3968, "step": 806 }, { "epoch": 1.6833333333333333, "grad_norm": 4.8461198806762695, "learning_rate": 4.58125e-05, "loss": 0.396, "step": 808 }, { "epoch": 1.6875, "grad_norm": 2.2985286712646484, "learning_rate": 4.5802083333333336e-05, "loss": 0.4008, "step": 810 }, { "epoch": 1.6916666666666667, "grad_norm": 1.4862853288650513, "learning_rate": 4.579166666666667e-05, "loss": 0.3084, "step": 812 }, { "epoch": 1.6958333333333333, "grad_norm": 2.44669508934021, "learning_rate": 4.5781250000000005e-05, "loss": 0.4115, "step": 814 }, { "epoch": 1.7, "grad_norm": 1.9502893686294556, "learning_rate": 4.577083333333333e-05, "loss": 0.3273, "step": 816 }, { "epoch": 1.7041666666666666, "grad_norm": 3.879110336303711, "learning_rate": 4.5760416666666667e-05, "loss": 0.3812, "step": 818 }, { "epoch": 1.7083333333333335, "grad_norm": 1.8997844457626343, "learning_rate": 4.575e-05, "loss": 0.364, "step": 820 }, { "epoch": 1.7125, "grad_norm": 2.092203140258789, "learning_rate": 4.5739583333333335e-05, "loss": 0.3526, "step": 822 }, { "epoch": 1.7166666666666668, "grad_norm": 1.5881396532058716, "learning_rate": 4.572916666666667e-05, "loss": 0.3047, "step": 824 }, { "epoch": 1.7208333333333332, "grad_norm": 1.6307923793792725, "learning_rate": 4.571875e-05, "loss": 0.3838, "step": 826 }, { "epoch": 1.725, "grad_norm": 2.609233856201172, "learning_rate": 4.570833333333334e-05, "loss": 0.3617, "step": 828 }, { "epoch": 1.7291666666666665, "grad_norm": 2.407240390777588, "learning_rate": 4.5697916666666665e-05, "loss": 0.3125, "step": 830 }, { "epoch": 1.7333333333333334, "grad_norm": 2.2141809463500977, "learning_rate": 4.56875e-05, "loss": 0.3069, "step": 832 }, { "epoch": 1.7375, "grad_norm": 1.6763370037078857, "learning_rate": 4.567708333333334e-05, "loss": 0.3111, "step": 834 }, { "epoch": 1.7416666666666667, "grad_norm": 1.8490235805511475, "learning_rate": 4.566666666666667e-05, "loss": 0.4269, "step": 836 }, { "epoch": 1.7458333333333333, "grad_norm": 2.0838608741760254, "learning_rate": 4.565625e-05, "loss": 0.431, "step": 838 }, { "epoch": 1.75, "grad_norm": 1.5423170328140259, "learning_rate": 4.5645833333333336e-05, "loss": 0.3349, "step": 840 }, { "epoch": 1.7541666666666667, "grad_norm": 1.8230059146881104, "learning_rate": 4.563541666666667e-05, "loss": 0.3335, "step": 842 }, { "epoch": 1.7583333333333333, "grad_norm": 1.7889446020126343, "learning_rate": 4.5625e-05, "loss": 0.354, "step": 844 }, { "epoch": 1.7625, "grad_norm": 1.8651210069656372, "learning_rate": 4.561458333333333e-05, "loss": 0.3803, "step": 846 }, { "epoch": 1.7666666666666666, "grad_norm": 1.83902907371521, "learning_rate": 4.560416666666667e-05, "loss": 0.3454, "step": 848 }, { "epoch": 1.7708333333333335, "grad_norm": 1.8341405391693115, "learning_rate": 4.559375e-05, "loss": 0.3329, "step": 850 }, { "epoch": 1.775, "grad_norm": 3.5276427268981934, "learning_rate": 4.5583333333333335e-05, "loss": 0.3422, "step": 852 }, { "epoch": 1.7791666666666668, "grad_norm": 1.4246060848236084, "learning_rate": 4.557291666666667e-05, "loss": 0.3261, "step": 854 }, { "epoch": 1.7833333333333332, "grad_norm": 1.6903702020645142, "learning_rate": 4.55625e-05, "loss": 0.3614, "step": 856 }, { "epoch": 1.7875, "grad_norm": 2.2812328338623047, "learning_rate": 4.555208333333334e-05, "loss": 0.4045, "step": 858 }, { "epoch": 1.7916666666666665, "grad_norm": 4.596236228942871, "learning_rate": 4.554166666666667e-05, "loss": 0.3649, "step": 860 }, { "epoch": 1.7958333333333334, "grad_norm": 1.6088448762893677, "learning_rate": 4.5531250000000006e-05, "loss": 0.3607, "step": 862 }, { "epoch": 1.8, "grad_norm": 1.98819899559021, "learning_rate": 4.552083333333333e-05, "loss": 0.3265, "step": 864 }, { "epoch": 1.8041666666666667, "grad_norm": 1.758620262145996, "learning_rate": 4.551041666666667e-05, "loss": 0.3263, "step": 866 }, { "epoch": 1.8083333333333333, "grad_norm": 1.732568383216858, "learning_rate": 4.55e-05, "loss": 0.4118, "step": 868 }, { "epoch": 1.8125, "grad_norm": 1.772420883178711, "learning_rate": 4.5489583333333336e-05, "loss": 0.3121, "step": 870 }, { "epoch": 1.8166666666666667, "grad_norm": 2.083021879196167, "learning_rate": 4.547916666666667e-05, "loss": 0.4024, "step": 872 }, { "epoch": 1.8208333333333333, "grad_norm": 2.0465996265411377, "learning_rate": 4.5468750000000004e-05, "loss": 0.3712, "step": 874 }, { "epoch": 1.825, "grad_norm": 1.8383214473724365, "learning_rate": 4.545833333333334e-05, "loss": 0.2823, "step": 876 }, { "epoch": 1.8291666666666666, "grad_norm": 7.297061920166016, "learning_rate": 4.5447916666666666e-05, "loss": 0.3494, "step": 878 }, { "epoch": 1.8333333333333335, "grad_norm": 1.972896695137024, "learning_rate": 4.54375e-05, "loss": 0.3851, "step": 880 }, { "epoch": 1.8375, "grad_norm": 1.8125194311141968, "learning_rate": 4.5427083333333334e-05, "loss": 0.3639, "step": 882 }, { "epoch": 1.8416666666666668, "grad_norm": 1.854549765586853, "learning_rate": 4.541666666666667e-05, "loss": 0.3811, "step": 884 }, { "epoch": 1.8458333333333332, "grad_norm": 1.553104043006897, "learning_rate": 4.540625e-05, "loss": 0.3265, "step": 886 }, { "epoch": 1.85, "grad_norm": 1.6706278324127197, "learning_rate": 4.539583333333334e-05, "loss": 0.3485, "step": 888 }, { "epoch": 1.8541666666666665, "grad_norm": 1.4994755983352661, "learning_rate": 4.538541666666667e-05, "loss": 0.2514, "step": 890 }, { "epoch": 1.8583333333333334, "grad_norm": 2.6186606884002686, "learning_rate": 4.5375e-05, "loss": 0.3754, "step": 892 }, { "epoch": 1.8625, "grad_norm": 1.6118546724319458, "learning_rate": 4.536458333333334e-05, "loss": 0.3705, "step": 894 }, { "epoch": 1.8666666666666667, "grad_norm": 1.9339962005615234, "learning_rate": 4.535416666666667e-05, "loss": 0.3958, "step": 896 }, { "epoch": 1.8708333333333333, "grad_norm": 2.864405870437622, "learning_rate": 4.534375e-05, "loss": 0.3081, "step": 898 }, { "epoch": 1.875, "grad_norm": 1.5049372911453247, "learning_rate": 4.5333333333333335e-05, "loss": 0.3369, "step": 900 }, { "epoch": 1.8791666666666667, "grad_norm": 3.149038314819336, "learning_rate": 4.532291666666667e-05, "loss": 0.3078, "step": 902 }, { "epoch": 1.8833333333333333, "grad_norm": 1.6239999532699585, "learning_rate": 4.5312500000000004e-05, "loss": 0.3103, "step": 904 }, { "epoch": 1.8875, "grad_norm": 1.7185122966766357, "learning_rate": 4.530208333333333e-05, "loss": 0.3592, "step": 906 }, { "epoch": 1.8916666666666666, "grad_norm": 2.079543113708496, "learning_rate": 4.529166666666667e-05, "loss": 0.3015, "step": 908 }, { "epoch": 1.8958333333333335, "grad_norm": 1.9189707040786743, "learning_rate": 4.528125e-05, "loss": 0.3155, "step": 910 }, { "epoch": 1.9, "grad_norm": 1.9934887886047363, "learning_rate": 4.5270833333333334e-05, "loss": 0.3452, "step": 912 }, { "epoch": 1.9041666666666668, "grad_norm": 4.342540740966797, "learning_rate": 4.526041666666667e-05, "loss": 0.3865, "step": 914 }, { "epoch": 1.9083333333333332, "grad_norm": 1.581148386001587, "learning_rate": 4.525e-05, "loss": 0.3093, "step": 916 }, { "epoch": 1.9125, "grad_norm": 3.0370168685913086, "learning_rate": 4.5239583333333336e-05, "loss": 0.4171, "step": 918 }, { "epoch": 1.9166666666666665, "grad_norm": 2.375061511993408, "learning_rate": 4.5229166666666664e-05, "loss": 0.3854, "step": 920 }, { "epoch": 1.9208333333333334, "grad_norm": 2.5547473430633545, "learning_rate": 4.5218750000000005e-05, "loss": 0.3496, "step": 922 }, { "epoch": 1.925, "grad_norm": 2.105210542678833, "learning_rate": 4.520833333333334e-05, "loss": 0.4485, "step": 924 }, { "epoch": 1.9291666666666667, "grad_norm": 2.123960018157959, "learning_rate": 4.5197916666666666e-05, "loss": 0.3119, "step": 926 }, { "epoch": 1.9333333333333333, "grad_norm": 2.7789721488952637, "learning_rate": 4.518750000000001e-05, "loss": 0.3186, "step": 928 }, { "epoch": 1.9375, "grad_norm": 1.7009673118591309, "learning_rate": 4.5177083333333335e-05, "loss": 0.3259, "step": 930 }, { "epoch": 1.9416666666666667, "grad_norm": 1.669516921043396, "learning_rate": 4.516666666666667e-05, "loss": 0.398, "step": 932 }, { "epoch": 1.9458333333333333, "grad_norm": 3.120511770248413, "learning_rate": 4.515625e-05, "loss": 0.3487, "step": 934 }, { "epoch": 1.95, "grad_norm": 1.6313802003860474, "learning_rate": 4.514583333333334e-05, "loss": 0.3327, "step": 936 }, { "epoch": 1.9541666666666666, "grad_norm": 1.6756224632263184, "learning_rate": 4.513541666666667e-05, "loss": 0.3099, "step": 938 }, { "epoch": 1.9583333333333335, "grad_norm": 1.8250938653945923, "learning_rate": 4.5125e-05, "loss": 0.3029, "step": 940 }, { "epoch": 1.9625, "grad_norm": 2.040630578994751, "learning_rate": 4.511458333333334e-05, "loss": 0.3688, "step": 942 }, { "epoch": 1.9666666666666668, "grad_norm": 2.011784553527832, "learning_rate": 4.510416666666667e-05, "loss": 0.2936, "step": 944 }, { "epoch": 1.9708333333333332, "grad_norm": 1.8017204999923706, "learning_rate": 4.509375e-05, "loss": 0.3293, "step": 946 }, { "epoch": 1.975, "grad_norm": 1.5585441589355469, "learning_rate": 4.5083333333333336e-05, "loss": 0.2695, "step": 948 }, { "epoch": 1.9791666666666665, "grad_norm": 1.4110723733901978, "learning_rate": 4.507291666666667e-05, "loss": 0.3156, "step": 950 }, { "epoch": 1.9833333333333334, "grad_norm": 2.2032582759857178, "learning_rate": 4.5062500000000004e-05, "loss": 0.3925, "step": 952 }, { "epoch": 1.9875, "grad_norm": 1.8421915769577026, "learning_rate": 4.505208333333333e-05, "loss": 0.3671, "step": 954 }, { "epoch": 1.9916666666666667, "grad_norm": 2.0284647941589355, "learning_rate": 4.504166666666667e-05, "loss": 0.343, "step": 956 }, { "epoch": 1.9958333333333333, "grad_norm": 2.3705220222473145, "learning_rate": 4.503125e-05, "loss": 0.2818, "step": 958 }, { "epoch": 2.0, "grad_norm": 2.5011842250823975, "learning_rate": 4.5020833333333334e-05, "loss": 0.3621, "step": 960 }, { "epoch": 2.004166666666667, "grad_norm": 1.4258018732070923, "learning_rate": 4.501041666666667e-05, "loss": 0.2274, "step": 962 }, { "epoch": 2.0083333333333333, "grad_norm": 1.7529966831207275, "learning_rate": 4.5e-05, "loss": 0.2079, "step": 964 }, { "epoch": 2.0125, "grad_norm": 1.445325493812561, "learning_rate": 4.498958333333334e-05, "loss": 0.1939, "step": 966 }, { "epoch": 2.0166666666666666, "grad_norm": 2.4436230659484863, "learning_rate": 4.4979166666666664e-05, "loss": 0.2456, "step": 968 }, { "epoch": 2.0208333333333335, "grad_norm": 1.8944891691207886, "learning_rate": 4.4968750000000005e-05, "loss": 0.1923, "step": 970 }, { "epoch": 2.025, "grad_norm": 1.7764302492141724, "learning_rate": 4.495833333333333e-05, "loss": 0.2714, "step": 972 }, { "epoch": 2.029166666666667, "grad_norm": 1.5412577390670776, "learning_rate": 4.494791666666667e-05, "loss": 0.2437, "step": 974 }, { "epoch": 2.033333333333333, "grad_norm": 1.7342849969863892, "learning_rate": 4.49375e-05, "loss": 0.2159, "step": 976 }, { "epoch": 2.0375, "grad_norm": 2.347188949584961, "learning_rate": 4.4927083333333336e-05, "loss": 0.1714, "step": 978 }, { "epoch": 2.0416666666666665, "grad_norm": 1.8869119882583618, "learning_rate": 4.491666666666667e-05, "loss": 0.2613, "step": 980 }, { "epoch": 2.0458333333333334, "grad_norm": 2.2892587184906006, "learning_rate": 4.490625e-05, "loss": 0.2464, "step": 982 }, { "epoch": 2.05, "grad_norm": 1.583411693572998, "learning_rate": 4.489583333333334e-05, "loss": 0.1923, "step": 984 }, { "epoch": 2.0541666666666667, "grad_norm": 1.2638604640960693, "learning_rate": 4.4885416666666666e-05, "loss": 0.2277, "step": 986 }, { "epoch": 2.058333333333333, "grad_norm": 1.4003708362579346, "learning_rate": 4.4875e-05, "loss": 0.2236, "step": 988 }, { "epoch": 2.0625, "grad_norm": 1.815432071685791, "learning_rate": 4.486458333333334e-05, "loss": 0.2113, "step": 990 }, { "epoch": 2.066666666666667, "grad_norm": 1.6789857149124146, "learning_rate": 4.485416666666667e-05, "loss": 0.2106, "step": 992 }, { "epoch": 2.0708333333333333, "grad_norm": 1.257757544517517, "learning_rate": 4.484375e-05, "loss": 0.1622, "step": 994 }, { "epoch": 2.075, "grad_norm": 1.7531771659851074, "learning_rate": 4.483333333333333e-05, "loss": 0.2363, "step": 996 }, { "epoch": 2.0791666666666666, "grad_norm": 1.4191877841949463, "learning_rate": 4.482291666666667e-05, "loss": 0.2342, "step": 998 }, { "epoch": 2.0833333333333335, "grad_norm": 1.2240248918533325, "learning_rate": 4.4812500000000005e-05, "loss": 0.1946, "step": 1000 }, { "epoch": 2.0833333333333335, "eval_cer": 0.07668813860506442, "eval_loss": 0.41726163029670715, "eval_runtime": 76.5154, "eval_samples_per_second": 5.149, "eval_steps_per_second": 0.653, "step": 1000 }, { "epoch": 2.0875, "grad_norm": 1.6411991119384766, "learning_rate": 4.480208333333333e-05, "loss": 0.2603, "step": 1002 }, { "epoch": 2.091666666666667, "grad_norm": 1.6796841621398926, "learning_rate": 4.4791666666666673e-05, "loss": 0.2501, "step": 1004 }, { "epoch": 2.095833333333333, "grad_norm": 1.629292607307434, "learning_rate": 4.478125e-05, "loss": 0.2792, "step": 1006 }, { "epoch": 2.1, "grad_norm": 1.4749597311019897, "learning_rate": 4.4770833333333335e-05, "loss": 0.2133, "step": 1008 }, { "epoch": 2.1041666666666665, "grad_norm": 1.3495488166809082, "learning_rate": 4.476041666666667e-05, "loss": 0.1716, "step": 1010 }, { "epoch": 2.1083333333333334, "grad_norm": 1.3881659507751465, "learning_rate": 4.4750000000000004e-05, "loss": 0.2029, "step": 1012 }, { "epoch": 2.1125, "grad_norm": 2.2414746284484863, "learning_rate": 4.473958333333334e-05, "loss": 0.2245, "step": 1014 }, { "epoch": 2.1166666666666667, "grad_norm": 3.4886486530303955, "learning_rate": 4.4729166666666665e-05, "loss": 0.163, "step": 1016 }, { "epoch": 2.120833333333333, "grad_norm": 117.04214477539062, "learning_rate": 4.4718750000000006e-05, "loss": 0.21, "step": 1018 }, { "epoch": 2.125, "grad_norm": 1.560338020324707, "learning_rate": 4.4708333333333334e-05, "loss": 0.218, "step": 1020 }, { "epoch": 2.129166666666667, "grad_norm": 1.5929349660873413, "learning_rate": 4.469791666666667e-05, "loss": 0.2248, "step": 1022 }, { "epoch": 2.1333333333333333, "grad_norm": 2.717198610305786, "learning_rate": 4.46875e-05, "loss": 0.3064, "step": 1024 }, { "epoch": 2.1375, "grad_norm": 1.7076499462127686, "learning_rate": 4.4677083333333336e-05, "loss": 0.207, "step": 1026 }, { "epoch": 2.1416666666666666, "grad_norm": 1.512692928314209, "learning_rate": 4.466666666666667e-05, "loss": 0.2442, "step": 1028 }, { "epoch": 2.1458333333333335, "grad_norm": 1.5551611185073853, "learning_rate": 4.465625e-05, "loss": 0.2907, "step": 1030 }, { "epoch": 2.15, "grad_norm": 1.4122192859649658, "learning_rate": 4.464583333333334e-05, "loss": 0.2546, "step": 1032 }, { "epoch": 2.154166666666667, "grad_norm": 1.5477193593978882, "learning_rate": 4.4635416666666666e-05, "loss": 0.2068, "step": 1034 }, { "epoch": 2.158333333333333, "grad_norm": 1.5528905391693115, "learning_rate": 4.4625e-05, "loss": 0.2153, "step": 1036 }, { "epoch": 2.1625, "grad_norm": 1.429687738418579, "learning_rate": 4.4614583333333335e-05, "loss": 0.1669, "step": 1038 }, { "epoch": 2.1666666666666665, "grad_norm": 1.4656075239181519, "learning_rate": 4.460416666666667e-05, "loss": 0.2126, "step": 1040 }, { "epoch": 2.1708333333333334, "grad_norm": 1.4880051612854004, "learning_rate": 4.459375e-05, "loss": 0.2225, "step": 1042 }, { "epoch": 2.175, "grad_norm": 1.784731149673462, "learning_rate": 4.458333333333334e-05, "loss": 0.288, "step": 1044 }, { "epoch": 2.1791666666666667, "grad_norm": 1.3107794523239136, "learning_rate": 4.457291666666667e-05, "loss": 0.223, "step": 1046 }, { "epoch": 2.183333333333333, "grad_norm": 1.4180349111557007, "learning_rate": 4.45625e-05, "loss": 0.2464, "step": 1048 }, { "epoch": 2.1875, "grad_norm": 3.89192795753479, "learning_rate": 4.455208333333333e-05, "loss": 0.2182, "step": 1050 }, { "epoch": 2.191666666666667, "grad_norm": 2.2488677501678467, "learning_rate": 4.454166666666667e-05, "loss": 0.2427, "step": 1052 }, { "epoch": 2.1958333333333333, "grad_norm": 2.5775749683380127, "learning_rate": 4.453125e-05, "loss": 0.3145, "step": 1054 }, { "epoch": 2.2, "grad_norm": 1.6068010330200195, "learning_rate": 4.4520833333333336e-05, "loss": 0.2236, "step": 1056 }, { "epoch": 2.2041666666666666, "grad_norm": 1.3819581270217896, "learning_rate": 4.451041666666667e-05, "loss": 0.1942, "step": 1058 }, { "epoch": 2.2083333333333335, "grad_norm": 1.630497932434082, "learning_rate": 4.4500000000000004e-05, "loss": 0.1967, "step": 1060 }, { "epoch": 2.2125, "grad_norm": 1.4361547231674194, "learning_rate": 4.448958333333333e-05, "loss": 0.2381, "step": 1062 }, { "epoch": 2.216666666666667, "grad_norm": 1.5555428266525269, "learning_rate": 4.4479166666666666e-05, "loss": 0.1983, "step": 1064 }, { "epoch": 2.220833333333333, "grad_norm": 2.6175687313079834, "learning_rate": 4.446875e-05, "loss": 0.2515, "step": 1066 }, { "epoch": 2.225, "grad_norm": 1.4150820970535278, "learning_rate": 4.4458333333333334e-05, "loss": 0.1932, "step": 1068 }, { "epoch": 2.2291666666666665, "grad_norm": 1.5729448795318604, "learning_rate": 4.444791666666667e-05, "loss": 0.1885, "step": 1070 }, { "epoch": 2.2333333333333334, "grad_norm": 2.19437575340271, "learning_rate": 4.44375e-05, "loss": 0.2767, "step": 1072 }, { "epoch": 2.2375, "grad_norm": 1.619309663772583, "learning_rate": 4.442708333333334e-05, "loss": 0.191, "step": 1074 }, { "epoch": 2.2416666666666667, "grad_norm": 1.4207983016967773, "learning_rate": 4.4416666666666664e-05, "loss": 0.243, "step": 1076 }, { "epoch": 2.245833333333333, "grad_norm": 1.4436935186386108, "learning_rate": 4.4406250000000005e-05, "loss": 0.2106, "step": 1078 }, { "epoch": 2.25, "grad_norm": 1.6113402843475342, "learning_rate": 4.439583333333334e-05, "loss": 0.2132, "step": 1080 }, { "epoch": 2.2541666666666664, "grad_norm": 1.2071722745895386, "learning_rate": 4.438541666666667e-05, "loss": 0.1757, "step": 1082 }, { "epoch": 2.2583333333333333, "grad_norm": 1.8498178720474243, "learning_rate": 4.4375e-05, "loss": 0.241, "step": 1084 }, { "epoch": 2.2625, "grad_norm": 2.6313865184783936, "learning_rate": 4.4364583333333335e-05, "loss": 0.2533, "step": 1086 }, { "epoch": 2.2666666666666666, "grad_norm": 1.3647879362106323, "learning_rate": 4.435416666666667e-05, "loss": 0.2208, "step": 1088 }, { "epoch": 2.2708333333333335, "grad_norm": 1.5787577629089355, "learning_rate": 4.4343750000000004e-05, "loss": 0.2178, "step": 1090 }, { "epoch": 2.275, "grad_norm": 1.1976170539855957, "learning_rate": 4.433333333333334e-05, "loss": 0.19, "step": 1092 }, { "epoch": 2.279166666666667, "grad_norm": 1.249566912651062, "learning_rate": 4.432291666666667e-05, "loss": 0.1835, "step": 1094 }, { "epoch": 2.283333333333333, "grad_norm": 1.9672811031341553, "learning_rate": 4.43125e-05, "loss": 0.2593, "step": 1096 }, { "epoch": 2.2875, "grad_norm": 1.3868604898452759, "learning_rate": 4.4302083333333334e-05, "loss": 0.2042, "step": 1098 }, { "epoch": 2.2916666666666665, "grad_norm": 1.5349676609039307, "learning_rate": 4.429166666666667e-05, "loss": 0.2065, "step": 1100 }, { "epoch": 2.2958333333333334, "grad_norm": 1.4631175994873047, "learning_rate": 4.428125e-05, "loss": 0.2021, "step": 1102 }, { "epoch": 2.3, "grad_norm": 1.743544340133667, "learning_rate": 4.4270833333333337e-05, "loss": 0.24, "step": 1104 }, { "epoch": 2.3041666666666667, "grad_norm": 1.6280205249786377, "learning_rate": 4.426041666666667e-05, "loss": 0.2134, "step": 1106 }, { "epoch": 2.3083333333333336, "grad_norm": 1.5398736000061035, "learning_rate": 4.4250000000000005e-05, "loss": 0.2119, "step": 1108 }, { "epoch": 2.3125, "grad_norm": 2.32210373878479, "learning_rate": 4.423958333333333e-05, "loss": 0.2119, "step": 1110 }, { "epoch": 2.3166666666666664, "grad_norm": 1.2367448806762695, "learning_rate": 4.422916666666667e-05, "loss": 0.1787, "step": 1112 }, { "epoch": 2.3208333333333333, "grad_norm": 1.536994457244873, "learning_rate": 4.421875e-05, "loss": 0.2044, "step": 1114 }, { "epoch": 2.325, "grad_norm": 1.4863816499710083, "learning_rate": 4.4208333333333335e-05, "loss": 0.2273, "step": 1116 }, { "epoch": 2.3291666666666666, "grad_norm": 1.2842937707901, "learning_rate": 4.419791666666667e-05, "loss": 0.2228, "step": 1118 }, { "epoch": 2.3333333333333335, "grad_norm": 1.3169602155685425, "learning_rate": 4.4187500000000003e-05, "loss": 0.261, "step": 1120 }, { "epoch": 2.3375, "grad_norm": 2.066208600997925, "learning_rate": 4.417708333333334e-05, "loss": 0.2885, "step": 1122 }, { "epoch": 2.341666666666667, "grad_norm": 2.1755900382995605, "learning_rate": 4.4166666666666665e-05, "loss": 0.2063, "step": 1124 }, { "epoch": 2.345833333333333, "grad_norm": 1.7808187007904053, "learning_rate": 4.4156250000000006e-05, "loss": 0.2031, "step": 1126 }, { "epoch": 2.35, "grad_norm": 1.3624298572540283, "learning_rate": 4.4145833333333333e-05, "loss": 0.1869, "step": 1128 }, { "epoch": 2.3541666666666665, "grad_norm": 1.996181607246399, "learning_rate": 4.413541666666667e-05, "loss": 0.1612, "step": 1130 }, { "epoch": 2.3583333333333334, "grad_norm": 1.6140658855438232, "learning_rate": 4.4125e-05, "loss": 0.2062, "step": 1132 }, { "epoch": 2.3625, "grad_norm": 1.6817190647125244, "learning_rate": 4.4114583333333336e-05, "loss": 0.2172, "step": 1134 }, { "epoch": 2.3666666666666667, "grad_norm": 1.873024821281433, "learning_rate": 4.410416666666667e-05, "loss": 0.1793, "step": 1136 }, { "epoch": 2.3708333333333336, "grad_norm": 1.6981642246246338, "learning_rate": 4.409375e-05, "loss": 0.2276, "step": 1138 }, { "epoch": 2.375, "grad_norm": 1.8225051164627075, "learning_rate": 4.408333333333334e-05, "loss": 0.2282, "step": 1140 }, { "epoch": 2.3791666666666664, "grad_norm": 2.0691158771514893, "learning_rate": 4.4072916666666666e-05, "loss": 0.2328, "step": 1142 }, { "epoch": 2.3833333333333333, "grad_norm": 1.1261072158813477, "learning_rate": 4.40625e-05, "loss": 0.1742, "step": 1144 }, { "epoch": 2.3875, "grad_norm": 1.629065990447998, "learning_rate": 4.4052083333333335e-05, "loss": 0.205, "step": 1146 }, { "epoch": 2.3916666666666666, "grad_norm": 1.5920209884643555, "learning_rate": 4.404166666666667e-05, "loss": 0.2251, "step": 1148 }, { "epoch": 2.3958333333333335, "grad_norm": 1.3698257207870483, "learning_rate": 4.403125e-05, "loss": 0.2174, "step": 1150 }, { "epoch": 2.4, "grad_norm": 1.610114336013794, "learning_rate": 4.402083333333333e-05, "loss": 0.2178, "step": 1152 }, { "epoch": 2.404166666666667, "grad_norm": 2.5303592681884766, "learning_rate": 4.401041666666667e-05, "loss": 0.2366, "step": 1154 }, { "epoch": 2.408333333333333, "grad_norm": 1.3749243021011353, "learning_rate": 4.4000000000000006e-05, "loss": 0.2154, "step": 1156 }, { "epoch": 2.4125, "grad_norm": 1.7410308122634888, "learning_rate": 4.398958333333333e-05, "loss": 0.2087, "step": 1158 }, { "epoch": 2.4166666666666665, "grad_norm": 1.5914058685302734, "learning_rate": 4.3979166666666674e-05, "loss": 0.2137, "step": 1160 }, { "epoch": 2.4208333333333334, "grad_norm": 1.70547354221344, "learning_rate": 4.396875e-05, "loss": 0.2357, "step": 1162 }, { "epoch": 2.425, "grad_norm": 1.4179880619049072, "learning_rate": 4.3958333333333336e-05, "loss": 0.2051, "step": 1164 }, { "epoch": 2.4291666666666667, "grad_norm": 1.844075322151184, "learning_rate": 4.394791666666666e-05, "loss": 0.2321, "step": 1166 }, { "epoch": 2.4333333333333336, "grad_norm": 1.2861030101776123, "learning_rate": 4.3937500000000004e-05, "loss": 0.2123, "step": 1168 }, { "epoch": 2.4375, "grad_norm": 1.4433348178863525, "learning_rate": 4.392708333333334e-05, "loss": 0.1838, "step": 1170 }, { "epoch": 2.4416666666666664, "grad_norm": 2.17301607131958, "learning_rate": 4.3916666666666666e-05, "loss": 0.2966, "step": 1172 }, { "epoch": 2.4458333333333333, "grad_norm": 1.440492868423462, "learning_rate": 4.390625000000001e-05, "loss": 0.2282, "step": 1174 }, { "epoch": 2.45, "grad_norm": 1.7817730903625488, "learning_rate": 4.3895833333333334e-05, "loss": 0.2252, "step": 1176 }, { "epoch": 2.4541666666666666, "grad_norm": 1.8132784366607666, "learning_rate": 4.388541666666667e-05, "loss": 0.268, "step": 1178 }, { "epoch": 2.4583333333333335, "grad_norm": 2.3781466484069824, "learning_rate": 4.3875e-05, "loss": 0.2391, "step": 1180 }, { "epoch": 2.4625, "grad_norm": 1.5800995826721191, "learning_rate": 4.386458333333334e-05, "loss": 0.1991, "step": 1182 }, { "epoch": 2.466666666666667, "grad_norm": 1.4914699792861938, "learning_rate": 4.385416666666667e-05, "loss": 0.1995, "step": 1184 }, { "epoch": 2.470833333333333, "grad_norm": 1.999101996421814, "learning_rate": 4.384375e-05, "loss": 0.1968, "step": 1186 }, { "epoch": 2.475, "grad_norm": 1.4252607822418213, "learning_rate": 4.383333333333334e-05, "loss": 0.2352, "step": 1188 }, { "epoch": 2.4791666666666665, "grad_norm": 1.3994899988174438, "learning_rate": 4.382291666666667e-05, "loss": 0.2076, "step": 1190 }, { "epoch": 2.4833333333333334, "grad_norm": 1.3077203035354614, "learning_rate": 4.38125e-05, "loss": 0.1849, "step": 1192 }, { "epoch": 2.4875, "grad_norm": 1.6573472023010254, "learning_rate": 4.3802083333333335e-05, "loss": 0.2409, "step": 1194 }, { "epoch": 2.4916666666666667, "grad_norm": 1.4254812002182007, "learning_rate": 4.379166666666667e-05, "loss": 0.1827, "step": 1196 }, { "epoch": 2.4958333333333336, "grad_norm": 1.1585209369659424, "learning_rate": 4.3781250000000004e-05, "loss": 0.1722, "step": 1198 }, { "epoch": 2.5, "grad_norm": 1.3435677289962769, "learning_rate": 4.377083333333333e-05, "loss": 0.2039, "step": 1200 }, { "epoch": 2.5, "eval_cer": 0.070746334962239, "eval_loss": 0.3939196467399597, "eval_runtime": 75.6001, "eval_samples_per_second": 5.212, "eval_steps_per_second": 0.661, "step": 1200 }, { "epoch": 2.5041666666666664, "grad_norm": 7.489694595336914, "learning_rate": 4.376041666666667e-05, "loss": 0.1805, "step": 1202 }, { "epoch": 2.5083333333333333, "grad_norm": 1.5512391328811646, "learning_rate": 4.375e-05, "loss": 0.2459, "step": 1204 }, { "epoch": 2.5125, "grad_norm": 1.6151902675628662, "learning_rate": 4.3739583333333334e-05, "loss": 0.2727, "step": 1206 }, { "epoch": 2.5166666666666666, "grad_norm": 1.5879002809524536, "learning_rate": 4.372916666666667e-05, "loss": 0.2213, "step": 1208 }, { "epoch": 2.5208333333333335, "grad_norm": 1.3812625408172607, "learning_rate": 4.371875e-05, "loss": 0.2021, "step": 1210 }, { "epoch": 2.525, "grad_norm": 1.653738260269165, "learning_rate": 4.3708333333333336e-05, "loss": 0.1843, "step": 1212 }, { "epoch": 2.529166666666667, "grad_norm": 1.7354179620742798, "learning_rate": 4.3697916666666664e-05, "loss": 0.2887, "step": 1214 }, { "epoch": 2.533333333333333, "grad_norm": 1.7219070196151733, "learning_rate": 4.3687500000000005e-05, "loss": 0.1845, "step": 1216 }, { "epoch": 2.5375, "grad_norm": 1.379468560218811, "learning_rate": 4.367708333333333e-05, "loss": 0.2191, "step": 1218 }, { "epoch": 2.5416666666666665, "grad_norm": 1.3539037704467773, "learning_rate": 4.3666666666666666e-05, "loss": 0.1902, "step": 1220 }, { "epoch": 2.5458333333333334, "grad_norm": 1.265698790550232, "learning_rate": 4.365625000000001e-05, "loss": 0.2032, "step": 1222 }, { "epoch": 2.55, "grad_norm": 1.227260708808899, "learning_rate": 4.3645833333333335e-05, "loss": 0.2169, "step": 1224 }, { "epoch": 2.5541666666666667, "grad_norm": 1.7307389974594116, "learning_rate": 4.363541666666667e-05, "loss": 0.1992, "step": 1226 }, { "epoch": 2.5583333333333336, "grad_norm": 1.3850663900375366, "learning_rate": 4.3625e-05, "loss": 0.2437, "step": 1228 }, { "epoch": 2.5625, "grad_norm": 1.1028953790664673, "learning_rate": 4.361458333333334e-05, "loss": 0.1808, "step": 1230 }, { "epoch": 2.5666666666666664, "grad_norm": 1.5589038133621216, "learning_rate": 4.3604166666666665e-05, "loss": 0.1852, "step": 1232 }, { "epoch": 2.5708333333333333, "grad_norm": 1.4984408617019653, "learning_rate": 4.359375e-05, "loss": 0.2037, "step": 1234 }, { "epoch": 2.575, "grad_norm": 2.5568342208862305, "learning_rate": 4.358333333333334e-05, "loss": 0.2564, "step": 1236 }, { "epoch": 2.5791666666666666, "grad_norm": 3.2925679683685303, "learning_rate": 4.357291666666667e-05, "loss": 0.2231, "step": 1238 }, { "epoch": 2.5833333333333335, "grad_norm": 2.9577090740203857, "learning_rate": 4.35625e-05, "loss": 0.2261, "step": 1240 }, { "epoch": 2.5875, "grad_norm": 1.5136194229125977, "learning_rate": 4.3552083333333336e-05, "loss": 0.2611, "step": 1242 }, { "epoch": 2.591666666666667, "grad_norm": 1.5570526123046875, "learning_rate": 4.354166666666667e-05, "loss": 0.1974, "step": 1244 }, { "epoch": 2.595833333333333, "grad_norm": 1.37061607837677, "learning_rate": 4.3531250000000004e-05, "loss": 0.1837, "step": 1246 }, { "epoch": 2.6, "grad_norm": 1.357106328010559, "learning_rate": 4.352083333333333e-05, "loss": 0.2445, "step": 1248 }, { "epoch": 2.6041666666666665, "grad_norm": 1.1884310245513916, "learning_rate": 4.351041666666667e-05, "loss": 0.1753, "step": 1250 }, { "epoch": 2.6083333333333334, "grad_norm": 2.5349087715148926, "learning_rate": 4.35e-05, "loss": 0.2231, "step": 1252 }, { "epoch": 2.6125, "grad_norm": 2.6109471321105957, "learning_rate": 4.3489583333333334e-05, "loss": 0.2256, "step": 1254 }, { "epoch": 2.6166666666666667, "grad_norm": 1.200254201889038, "learning_rate": 4.347916666666667e-05, "loss": 0.1598, "step": 1256 }, { "epoch": 2.6208333333333336, "grad_norm": 1.2124104499816895, "learning_rate": 4.346875e-05, "loss": 0.2074, "step": 1258 }, { "epoch": 2.625, "grad_norm": 1.4751291275024414, "learning_rate": 4.345833333333334e-05, "loss": 0.2214, "step": 1260 }, { "epoch": 2.6291666666666664, "grad_norm": 2.792368173599243, "learning_rate": 4.344791666666667e-05, "loss": 0.2034, "step": 1262 }, { "epoch": 2.6333333333333333, "grad_norm": 1.664236307144165, "learning_rate": 4.3437500000000006e-05, "loss": 0.2675, "step": 1264 }, { "epoch": 2.6375, "grad_norm": 1.7122992277145386, "learning_rate": 4.342708333333333e-05, "loss": 0.261, "step": 1266 }, { "epoch": 2.6416666666666666, "grad_norm": 1.1819210052490234, "learning_rate": 4.341666666666667e-05, "loss": 0.1824, "step": 1268 }, { "epoch": 2.6458333333333335, "grad_norm": 1.6627497673034668, "learning_rate": 4.340625e-05, "loss": 0.3118, "step": 1270 }, { "epoch": 2.65, "grad_norm": 1.452576756477356, "learning_rate": 4.3395833333333336e-05, "loss": 0.2474, "step": 1272 }, { "epoch": 2.654166666666667, "grad_norm": 1.515818476676941, "learning_rate": 4.338541666666667e-05, "loss": 0.2421, "step": 1274 }, { "epoch": 2.658333333333333, "grad_norm": 1.9031646251678467, "learning_rate": 4.3375000000000004e-05, "loss": 0.2089, "step": 1276 }, { "epoch": 2.6625, "grad_norm": 1.881917119026184, "learning_rate": 4.336458333333334e-05, "loss": 0.2591, "step": 1278 }, { "epoch": 2.6666666666666665, "grad_norm": 2.4403209686279297, "learning_rate": 4.3354166666666666e-05, "loss": 0.2581, "step": 1280 }, { "epoch": 2.6708333333333334, "grad_norm": 1.4121644496917725, "learning_rate": 4.334375e-05, "loss": 0.2152, "step": 1282 }, { "epoch": 2.675, "grad_norm": 1.6262600421905518, "learning_rate": 4.3333333333333334e-05, "loss": 0.2188, "step": 1284 }, { "epoch": 2.6791666666666667, "grad_norm": 1.5022155046463013, "learning_rate": 4.332291666666667e-05, "loss": 0.2097, "step": 1286 }, { "epoch": 2.6833333333333336, "grad_norm": 1.8110175132751465, "learning_rate": 4.33125e-05, "loss": 0.2866, "step": 1288 }, { "epoch": 2.6875, "grad_norm": 1.3604505062103271, "learning_rate": 4.330208333333334e-05, "loss": 0.2124, "step": 1290 }, { "epoch": 2.6916666666666664, "grad_norm": 1.4620341062545776, "learning_rate": 4.329166666666667e-05, "loss": 0.1727, "step": 1292 }, { "epoch": 2.6958333333333333, "grad_norm": 1.5851439237594604, "learning_rate": 4.328125e-05, "loss": 0.2072, "step": 1294 }, { "epoch": 2.7, "grad_norm": 1.6393001079559326, "learning_rate": 4.327083333333333e-05, "loss": 0.1973, "step": 1296 }, { "epoch": 2.7041666666666666, "grad_norm": 1.8356029987335205, "learning_rate": 4.326041666666667e-05, "loss": 0.2317, "step": 1298 }, { "epoch": 2.7083333333333335, "grad_norm": 1.1322109699249268, "learning_rate": 4.325e-05, "loss": 0.1377, "step": 1300 }, { "epoch": 2.7125, "grad_norm": 2.190966844558716, "learning_rate": 4.3239583333333335e-05, "loss": 0.2268, "step": 1302 }, { "epoch": 2.716666666666667, "grad_norm": 1.643975019454956, "learning_rate": 4.322916666666667e-05, "loss": 0.2133, "step": 1304 }, { "epoch": 2.720833333333333, "grad_norm": 1.4952512979507446, "learning_rate": 4.3218750000000004e-05, "loss": 0.1778, "step": 1306 }, { "epoch": 2.725, "grad_norm": 1.2918403148651123, "learning_rate": 4.320833333333333e-05, "loss": 0.1574, "step": 1308 }, { "epoch": 2.7291666666666665, "grad_norm": 1.5186455249786377, "learning_rate": 4.319791666666667e-05, "loss": 0.2711, "step": 1310 }, { "epoch": 2.7333333333333334, "grad_norm": 1.895302653312683, "learning_rate": 4.3187500000000006e-05, "loss": 0.2216, "step": 1312 }, { "epoch": 2.7375, "grad_norm": 1.357857584953308, "learning_rate": 4.3177083333333334e-05, "loss": 0.2537, "step": 1314 }, { "epoch": 2.7416666666666667, "grad_norm": 2.65755033493042, "learning_rate": 4.316666666666667e-05, "loss": 0.1867, "step": 1316 }, { "epoch": 2.7458333333333336, "grad_norm": 1.9775125980377197, "learning_rate": 4.315625e-05, "loss": 0.244, "step": 1318 }, { "epoch": 2.75, "grad_norm": 1.416808009147644, "learning_rate": 4.3145833333333336e-05, "loss": 0.1938, "step": 1320 }, { "epoch": 2.7541666666666664, "grad_norm": 1.86478590965271, "learning_rate": 4.3135416666666664e-05, "loss": 0.2239, "step": 1322 }, { "epoch": 2.7583333333333333, "grad_norm": 1.306985855102539, "learning_rate": 4.3125000000000005e-05, "loss": 0.25, "step": 1324 }, { "epoch": 2.7625, "grad_norm": 1.3003884553909302, "learning_rate": 4.311458333333334e-05, "loss": 0.2357, "step": 1326 }, { "epoch": 2.7666666666666666, "grad_norm": 1.6702914237976074, "learning_rate": 4.3104166666666666e-05, "loss": 0.2242, "step": 1328 }, { "epoch": 2.7708333333333335, "grad_norm": 1.4400745630264282, "learning_rate": 4.309375e-05, "loss": 0.2205, "step": 1330 }, { "epoch": 2.775, "grad_norm": 2.1861398220062256, "learning_rate": 4.3083333333333335e-05, "loss": 0.2528, "step": 1332 }, { "epoch": 2.779166666666667, "grad_norm": 1.647605538368225, "learning_rate": 4.307291666666667e-05, "loss": 0.2109, "step": 1334 }, { "epoch": 2.783333333333333, "grad_norm": 1.4835306406021118, "learning_rate": 4.30625e-05, "loss": 0.1859, "step": 1336 }, { "epoch": 2.7875, "grad_norm": 1.217759609222412, "learning_rate": 4.305208333333334e-05, "loss": 0.1899, "step": 1338 }, { "epoch": 2.7916666666666665, "grad_norm": 1.4864473342895508, "learning_rate": 4.304166666666667e-05, "loss": 0.2379, "step": 1340 }, { "epoch": 2.7958333333333334, "grad_norm": 2.197226047515869, "learning_rate": 4.303125e-05, "loss": 0.2429, "step": 1342 }, { "epoch": 2.8, "grad_norm": 6.797986030578613, "learning_rate": 4.302083333333334e-05, "loss": 0.2785, "step": 1344 }, { "epoch": 2.8041666666666667, "grad_norm": 1.3896214962005615, "learning_rate": 4.301041666666667e-05, "loss": 0.2173, "step": 1346 }, { "epoch": 2.8083333333333336, "grad_norm": 1.5414702892303467, "learning_rate": 4.3e-05, "loss": 0.2022, "step": 1348 }, { "epoch": 2.8125, "grad_norm": 3.0971367359161377, "learning_rate": 4.2989583333333336e-05, "loss": 0.1911, "step": 1350 }, { "epoch": 2.8166666666666664, "grad_norm": 1.7237024307250977, "learning_rate": 4.297916666666667e-05, "loss": 0.185, "step": 1352 }, { "epoch": 2.8208333333333333, "grad_norm": 1.887829303741455, "learning_rate": 4.2968750000000004e-05, "loss": 0.2584, "step": 1354 }, { "epoch": 2.825, "grad_norm": 1.3321946859359741, "learning_rate": 4.295833333333333e-05, "loss": 0.2065, "step": 1356 }, { "epoch": 2.8291666666666666, "grad_norm": 2.0359106063842773, "learning_rate": 4.294791666666667e-05, "loss": 0.2317, "step": 1358 }, { "epoch": 2.8333333333333335, "grad_norm": 3.5705251693725586, "learning_rate": 4.29375e-05, "loss": 0.2023, "step": 1360 }, { "epoch": 2.8375, "grad_norm": 2.0574769973754883, "learning_rate": 4.2927083333333334e-05, "loss": 0.3059, "step": 1362 }, { "epoch": 2.841666666666667, "grad_norm": 1.4982130527496338, "learning_rate": 4.291666666666667e-05, "loss": 0.2071, "step": 1364 }, { "epoch": 2.845833333333333, "grad_norm": 2.7562787532806396, "learning_rate": 4.290625e-05, "loss": 0.2305, "step": 1366 }, { "epoch": 2.85, "grad_norm": 2.043410301208496, "learning_rate": 4.289583333333334e-05, "loss": 0.2489, "step": 1368 }, { "epoch": 2.8541666666666665, "grad_norm": 1.290349006652832, "learning_rate": 4.2885416666666664e-05, "loss": 0.2165, "step": 1370 }, { "epoch": 2.8583333333333334, "grad_norm": 1.6330872774124146, "learning_rate": 4.2875000000000005e-05, "loss": 0.2438, "step": 1372 }, { "epoch": 2.8625, "grad_norm": 1.2713474035263062, "learning_rate": 4.286458333333333e-05, "loss": 0.2111, "step": 1374 }, { "epoch": 2.8666666666666667, "grad_norm": 1.5104541778564453, "learning_rate": 4.285416666666667e-05, "loss": 0.2292, "step": 1376 }, { "epoch": 2.8708333333333336, "grad_norm": 1.7579480409622192, "learning_rate": 4.284375000000001e-05, "loss": 0.226, "step": 1378 }, { "epoch": 2.875, "grad_norm": 1.832525610923767, "learning_rate": 4.2833333333333335e-05, "loss": 0.2012, "step": 1380 }, { "epoch": 2.8791666666666664, "grad_norm": 1.4593583345413208, "learning_rate": 4.282291666666667e-05, "loss": 0.206, "step": 1382 }, { "epoch": 2.8833333333333333, "grad_norm": 2.2228939533233643, "learning_rate": 4.28125e-05, "loss": 0.2485, "step": 1384 }, { "epoch": 2.8875, "grad_norm": 1.515779972076416, "learning_rate": 4.280208333333334e-05, "loss": 0.2297, "step": 1386 }, { "epoch": 2.8916666666666666, "grad_norm": 2.7737841606140137, "learning_rate": 4.2791666666666666e-05, "loss": 0.2419, "step": 1388 }, { "epoch": 2.8958333333333335, "grad_norm": 1.3283833265304565, "learning_rate": 4.278125e-05, "loss": 0.2009, "step": 1390 }, { "epoch": 2.9, "grad_norm": 1.7612797021865845, "learning_rate": 4.277083333333334e-05, "loss": 0.2349, "step": 1392 }, { "epoch": 2.904166666666667, "grad_norm": 1.6947081089019775, "learning_rate": 4.276041666666667e-05, "loss": 0.2496, "step": 1394 }, { "epoch": 2.908333333333333, "grad_norm": 1.94141685962677, "learning_rate": 4.275e-05, "loss": 0.1962, "step": 1396 }, { "epoch": 2.9125, "grad_norm": 2.429130792617798, "learning_rate": 4.273958333333333e-05, "loss": 0.188, "step": 1398 }, { "epoch": 2.9166666666666665, "grad_norm": 1.576021671295166, "learning_rate": 4.272916666666667e-05, "loss": 0.269, "step": 1400 }, { "epoch": 2.9166666666666665, "eval_cer": 0.07127387827632163, "eval_loss": 0.38219964504241943, "eval_runtime": 75.3909, "eval_samples_per_second": 5.226, "eval_steps_per_second": 0.663, "step": 1400 }, { "epoch": 2.9208333333333334, "grad_norm": 1.5535674095153809, "learning_rate": 4.2718750000000005e-05, "loss": 0.2122, "step": 1402 }, { "epoch": 2.925, "grad_norm": 1.5989277362823486, "learning_rate": 4.270833333333333e-05, "loss": 0.2112, "step": 1404 }, { "epoch": 2.9291666666666667, "grad_norm": 2.9372928142547607, "learning_rate": 4.2697916666666673e-05, "loss": 0.1948, "step": 1406 }, { "epoch": 2.9333333333333336, "grad_norm": 3.926989793777466, "learning_rate": 4.26875e-05, "loss": 0.2046, "step": 1408 }, { "epoch": 2.9375, "grad_norm": 3.5219833850860596, "learning_rate": 4.2677083333333335e-05, "loss": 0.2155, "step": 1410 }, { "epoch": 2.9416666666666664, "grad_norm": 1.4303228855133057, "learning_rate": 4.266666666666667e-05, "loss": 0.2206, "step": 1412 }, { "epoch": 2.9458333333333333, "grad_norm": 1.6323908567428589, "learning_rate": 4.2656250000000003e-05, "loss": 0.2115, "step": 1414 }, { "epoch": 2.95, "grad_norm": 2.1126458644866943, "learning_rate": 4.264583333333334e-05, "loss": 0.2623, "step": 1416 }, { "epoch": 2.9541666666666666, "grad_norm": 1.75184166431427, "learning_rate": 4.2635416666666665e-05, "loss": 0.238, "step": 1418 }, { "epoch": 2.9583333333333335, "grad_norm": 1.4419358968734741, "learning_rate": 4.2625000000000006e-05, "loss": 0.2116, "step": 1420 }, { "epoch": 2.9625, "grad_norm": 1.431279182434082, "learning_rate": 4.2614583333333334e-05, "loss": 0.2143, "step": 1422 }, { "epoch": 2.966666666666667, "grad_norm": 2.0129618644714355, "learning_rate": 4.260416666666667e-05, "loss": 0.1977, "step": 1424 }, { "epoch": 2.970833333333333, "grad_norm": 1.8251585960388184, "learning_rate": 4.259375e-05, "loss": 0.2154, "step": 1426 }, { "epoch": 2.975, "grad_norm": 1.744811773300171, "learning_rate": 4.2583333333333336e-05, "loss": 0.2091, "step": 1428 }, { "epoch": 2.9791666666666665, "grad_norm": 1.777603268623352, "learning_rate": 4.257291666666667e-05, "loss": 0.21, "step": 1430 }, { "epoch": 2.9833333333333334, "grad_norm": 1.6050989627838135, "learning_rate": 4.25625e-05, "loss": 0.1813, "step": 1432 }, { "epoch": 2.9875, "grad_norm": 2.037828207015991, "learning_rate": 4.255208333333334e-05, "loss": 0.2484, "step": 1434 }, { "epoch": 2.9916666666666667, "grad_norm": 1.5201936960220337, "learning_rate": 4.2541666666666666e-05, "loss": 0.254, "step": 1436 }, { "epoch": 2.9958333333333336, "grad_norm": 1.208296537399292, "learning_rate": 4.253125e-05, "loss": 0.1939, "step": 1438 }, { "epoch": 3.0, "grad_norm": 7.683149337768555, "learning_rate": 4.2520833333333335e-05, "loss": 0.2676, "step": 1440 }, { "epoch": 3.004166666666667, "grad_norm": 1.0585312843322754, "learning_rate": 4.251041666666667e-05, "loss": 0.1132, "step": 1442 }, { "epoch": 3.0083333333333333, "grad_norm": 1.9001704454421997, "learning_rate": 4.25e-05, "loss": 0.1603, "step": 1444 }, { "epoch": 3.0125, "grad_norm": 1.3398246765136719, "learning_rate": 4.248958333333333e-05, "loss": 0.1242, "step": 1446 }, { "epoch": 3.0166666666666666, "grad_norm": 1.183228850364685, "learning_rate": 4.247916666666667e-05, "loss": 0.1109, "step": 1448 }, { "epoch": 3.0208333333333335, "grad_norm": 0.9420936703681946, "learning_rate": 4.246875e-05, "loss": 0.1324, "step": 1450 }, { "epoch": 3.025, "grad_norm": 1.2667937278747559, "learning_rate": 4.245833333333333e-05, "loss": 0.1299, "step": 1452 }, { "epoch": 3.029166666666667, "grad_norm": 2.158015012741089, "learning_rate": 4.244791666666667e-05, "loss": 0.1397, "step": 1454 }, { "epoch": 3.033333333333333, "grad_norm": 1.5036756992340088, "learning_rate": 4.24375e-05, "loss": 0.1277, "step": 1456 }, { "epoch": 3.0375, "grad_norm": 4.635229110717773, "learning_rate": 4.2427083333333336e-05, "loss": 0.1628, "step": 1458 }, { "epoch": 3.0416666666666665, "grad_norm": 1.5134133100509644, "learning_rate": 4.241666666666667e-05, "loss": 0.1121, "step": 1460 }, { "epoch": 3.0458333333333334, "grad_norm": 1.1656543016433716, "learning_rate": 4.2406250000000004e-05, "loss": 0.1408, "step": 1462 }, { "epoch": 3.05, "grad_norm": 1.0877996683120728, "learning_rate": 4.239583333333333e-05, "loss": 0.1386, "step": 1464 }, { "epoch": 3.0541666666666667, "grad_norm": 2.6555473804473877, "learning_rate": 4.2385416666666666e-05, "loss": 0.152, "step": 1466 }, { "epoch": 3.058333333333333, "grad_norm": 1.830384612083435, "learning_rate": 4.237500000000001e-05, "loss": 0.121, "step": 1468 }, { "epoch": 3.0625, "grad_norm": 1.5983179807662964, "learning_rate": 4.2364583333333334e-05, "loss": 0.0995, "step": 1470 }, { "epoch": 3.066666666666667, "grad_norm": 0.946374773979187, "learning_rate": 4.235416666666667e-05, "loss": 0.083, "step": 1472 }, { "epoch": 3.0708333333333333, "grad_norm": 1.1335362195968628, "learning_rate": 4.234375e-05, "loss": 0.1055, "step": 1474 }, { "epoch": 3.075, "grad_norm": 1.1014026403427124, "learning_rate": 4.233333333333334e-05, "loss": 0.139, "step": 1476 }, { "epoch": 3.0791666666666666, "grad_norm": 1.1663084030151367, "learning_rate": 4.2322916666666664e-05, "loss": 0.1217, "step": 1478 }, { "epoch": 3.0833333333333335, "grad_norm": 1.5154469013214111, "learning_rate": 4.23125e-05, "loss": 0.1031, "step": 1480 }, { "epoch": 3.0875, "grad_norm": 1.2349669933319092, "learning_rate": 4.230208333333334e-05, "loss": 0.1178, "step": 1482 }, { "epoch": 3.091666666666667, "grad_norm": 1.6843750476837158, "learning_rate": 4.229166666666667e-05, "loss": 0.1236, "step": 1484 }, { "epoch": 3.095833333333333, "grad_norm": 1.6554228067398071, "learning_rate": 4.228125e-05, "loss": 0.1531, "step": 1486 }, { "epoch": 3.1, "grad_norm": 1.2070661783218384, "learning_rate": 4.2270833333333335e-05, "loss": 0.1148, "step": 1488 }, { "epoch": 3.1041666666666665, "grad_norm": 1.622701644897461, "learning_rate": 4.226041666666667e-05, "loss": 0.1227, "step": 1490 }, { "epoch": 3.1083333333333334, "grad_norm": 1.1217010021209717, "learning_rate": 4.2250000000000004e-05, "loss": 0.0999, "step": 1492 }, { "epoch": 3.1125, "grad_norm": 1.2221012115478516, "learning_rate": 4.223958333333334e-05, "loss": 0.1405, "step": 1494 }, { "epoch": 3.1166666666666667, "grad_norm": 0.9627748727798462, "learning_rate": 4.222916666666667e-05, "loss": 0.112, "step": 1496 }, { "epoch": 3.120833333333333, "grad_norm": 1.4720484018325806, "learning_rate": 4.221875e-05, "loss": 0.147, "step": 1498 }, { "epoch": 3.125, "grad_norm": 1.0047627687454224, "learning_rate": 4.2208333333333334e-05, "loss": 0.1108, "step": 1500 }, { "epoch": 3.129166666666667, "grad_norm": 1.0739425420761108, "learning_rate": 4.219791666666667e-05, "loss": 0.1102, "step": 1502 }, { "epoch": 3.1333333333333333, "grad_norm": 1.1110256910324097, "learning_rate": 4.21875e-05, "loss": 0.1436, "step": 1504 }, { "epoch": 3.1375, "grad_norm": 1.7615087032318115, "learning_rate": 4.2177083333333336e-05, "loss": 0.1327, "step": 1506 }, { "epoch": 3.1416666666666666, "grad_norm": 1.0992487668991089, "learning_rate": 4.216666666666667e-05, "loss": 0.1133, "step": 1508 }, { "epoch": 3.1458333333333335, "grad_norm": 1.4103868007659912, "learning_rate": 4.2156250000000005e-05, "loss": 0.1265, "step": 1510 }, { "epoch": 3.15, "grad_norm": 2.6387603282928467, "learning_rate": 4.214583333333333e-05, "loss": 0.1417, "step": 1512 }, { "epoch": 3.154166666666667, "grad_norm": 1.7786818742752075, "learning_rate": 4.2135416666666667e-05, "loss": 0.1224, "step": 1514 }, { "epoch": 3.158333333333333, "grad_norm": 1.0935674905776978, "learning_rate": 4.2125e-05, "loss": 0.1772, "step": 1516 }, { "epoch": 3.1625, "grad_norm": 1.3374816179275513, "learning_rate": 4.2114583333333335e-05, "loss": 0.1714, "step": 1518 }, { "epoch": 3.1666666666666665, "grad_norm": 1.6728715896606445, "learning_rate": 4.210416666666667e-05, "loss": 0.1292, "step": 1520 }, { "epoch": 3.1708333333333334, "grad_norm": 1.42146635055542, "learning_rate": 4.209375e-05, "loss": 0.1399, "step": 1522 }, { "epoch": 3.175, "grad_norm": 1.9606537818908691, "learning_rate": 4.208333333333334e-05, "loss": 0.1816, "step": 1524 }, { "epoch": 3.1791666666666667, "grad_norm": 1.4105467796325684, "learning_rate": 4.2072916666666665e-05, "loss": 0.1084, "step": 1526 }, { "epoch": 3.183333333333333, "grad_norm": 1.243796706199646, "learning_rate": 4.2062500000000006e-05, "loss": 0.129, "step": 1528 }, { "epoch": 3.1875, "grad_norm": 0.9492446184158325, "learning_rate": 4.2052083333333333e-05, "loss": 0.1078, "step": 1530 }, { "epoch": 3.191666666666667, "grad_norm": 1.2490218877792358, "learning_rate": 4.204166666666667e-05, "loss": 0.1239, "step": 1532 }, { "epoch": 3.1958333333333333, "grad_norm": 1.5585674047470093, "learning_rate": 4.203125e-05, "loss": 0.1048, "step": 1534 }, { "epoch": 3.2, "grad_norm": 0.9250554442405701, "learning_rate": 4.2020833333333336e-05, "loss": 0.139, "step": 1536 }, { "epoch": 3.2041666666666666, "grad_norm": 1.3945847749710083, "learning_rate": 4.201041666666667e-05, "loss": 0.123, "step": 1538 }, { "epoch": 3.2083333333333335, "grad_norm": 1.6749660968780518, "learning_rate": 4.2e-05, "loss": 0.1344, "step": 1540 }, { "epoch": 3.2125, "grad_norm": 1.0330158472061157, "learning_rate": 4.198958333333334e-05, "loss": 0.1383, "step": 1542 }, { "epoch": 3.216666666666667, "grad_norm": 1.1079312562942505, "learning_rate": 4.1979166666666666e-05, "loss": 0.1154, "step": 1544 }, { "epoch": 3.220833333333333, "grad_norm": 1.6674998998641968, "learning_rate": 4.196875e-05, "loss": 0.1204, "step": 1546 }, { "epoch": 3.225, "grad_norm": 5.66860294342041, "learning_rate": 4.1958333333333335e-05, "loss": 0.1206, "step": 1548 }, { "epoch": 3.2291666666666665, "grad_norm": 2.300869941711426, "learning_rate": 4.194791666666667e-05, "loss": 0.1592, "step": 1550 }, { "epoch": 3.2333333333333334, "grad_norm": 2.8536901473999023, "learning_rate": 4.19375e-05, "loss": 0.1313, "step": 1552 }, { "epoch": 3.2375, "grad_norm": 1.1660664081573486, "learning_rate": 4.192708333333333e-05, "loss": 0.123, "step": 1554 }, { "epoch": 3.2416666666666667, "grad_norm": 0.8291750550270081, "learning_rate": 4.191666666666667e-05, "loss": 0.1099, "step": 1556 }, { "epoch": 3.245833333333333, "grad_norm": 1.5767617225646973, "learning_rate": 4.1906250000000006e-05, "loss": 0.1502, "step": 1558 }, { "epoch": 3.25, "grad_norm": 2.3557372093200684, "learning_rate": 4.189583333333333e-05, "loss": 0.1508, "step": 1560 }, { "epoch": 3.2541666666666664, "grad_norm": 3.4443061351776123, "learning_rate": 4.1885416666666674e-05, "loss": 0.1598, "step": 1562 }, { "epoch": 3.2583333333333333, "grad_norm": 1.5881638526916504, "learning_rate": 4.1875e-05, "loss": 0.1463, "step": 1564 }, { "epoch": 3.2625, "grad_norm": 1.1889843940734863, "learning_rate": 4.1864583333333336e-05, "loss": 0.1263, "step": 1566 }, { "epoch": 3.2666666666666666, "grad_norm": 0.9803023338317871, "learning_rate": 4.185416666666667e-05, "loss": 0.1067, "step": 1568 }, { "epoch": 3.2708333333333335, "grad_norm": 1.1488244533538818, "learning_rate": 4.1843750000000004e-05, "loss": 0.1342, "step": 1570 }, { "epoch": 3.275, "grad_norm": 1.20540452003479, "learning_rate": 4.183333333333334e-05, "loss": 0.1154, "step": 1572 }, { "epoch": 3.279166666666667, "grad_norm": 3.5498504638671875, "learning_rate": 4.1822916666666666e-05, "loss": 0.1501, "step": 1574 }, { "epoch": 3.283333333333333, "grad_norm": 1.1130403280258179, "learning_rate": 4.181250000000001e-05, "loss": 0.1471, "step": 1576 }, { "epoch": 3.2875, "grad_norm": 1.1990911960601807, "learning_rate": 4.1802083333333334e-05, "loss": 0.1156, "step": 1578 }, { "epoch": 3.2916666666666665, "grad_norm": 1.5744044780731201, "learning_rate": 4.179166666666667e-05, "loss": 0.1664, "step": 1580 }, { "epoch": 3.2958333333333334, "grad_norm": 1.6349917650222778, "learning_rate": 4.178125e-05, "loss": 0.1401, "step": 1582 }, { "epoch": 3.3, "grad_norm": 1.4289801120758057, "learning_rate": 4.177083333333334e-05, "loss": 0.1339, "step": 1584 }, { "epoch": 3.3041666666666667, "grad_norm": 4.1881327629089355, "learning_rate": 4.176041666666667e-05, "loss": 0.119, "step": 1586 }, { "epoch": 3.3083333333333336, "grad_norm": 1.5428208112716675, "learning_rate": 4.175e-05, "loss": 0.1453, "step": 1588 }, { "epoch": 3.3125, "grad_norm": 1.1360819339752197, "learning_rate": 4.173958333333334e-05, "loss": 0.1165, "step": 1590 }, { "epoch": 3.3166666666666664, "grad_norm": 1.577723503112793, "learning_rate": 4.172916666666667e-05, "loss": 0.093, "step": 1592 }, { "epoch": 3.3208333333333333, "grad_norm": 2.032590866088867, "learning_rate": 4.171875e-05, "loss": 0.1561, "step": 1594 }, { "epoch": 3.325, "grad_norm": 1.0551749467849731, "learning_rate": 4.1708333333333335e-05, "loss": 0.1516, "step": 1596 }, { "epoch": 3.3291666666666666, "grad_norm": 2.18514347076416, "learning_rate": 4.169791666666667e-05, "loss": 0.131, "step": 1598 }, { "epoch": 3.3333333333333335, "grad_norm": 2.168219804763794, "learning_rate": 4.1687500000000004e-05, "loss": 0.08, "step": 1600 }, { "epoch": 3.3333333333333335, "eval_cer": 0.06919147045757441, "eval_loss": 0.38674163818359375, "eval_runtime": 75.933, "eval_samples_per_second": 5.189, "eval_steps_per_second": 0.658, "step": 1600 }, { "epoch": 3.3375, "grad_norm": 0.9789871573448181, "learning_rate": 4.167708333333333e-05, "loss": 0.1244, "step": 1602 }, { "epoch": 3.341666666666667, "grad_norm": 1.2124202251434326, "learning_rate": 4.166666666666667e-05, "loss": 0.138, "step": 1604 }, { "epoch": 3.345833333333333, "grad_norm": 1.1078590154647827, "learning_rate": 4.165625e-05, "loss": 0.1336, "step": 1606 }, { "epoch": 3.35, "grad_norm": 1.4254099130630493, "learning_rate": 4.1645833333333334e-05, "loss": 0.1217, "step": 1608 }, { "epoch": 3.3541666666666665, "grad_norm": 1.1431655883789062, "learning_rate": 4.163541666666667e-05, "loss": 0.1129, "step": 1610 }, { "epoch": 3.3583333333333334, "grad_norm": 6.114867210388184, "learning_rate": 4.1625e-05, "loss": 0.1744, "step": 1612 }, { "epoch": 3.3625, "grad_norm": 1.122510552406311, "learning_rate": 4.1614583333333336e-05, "loss": 0.1332, "step": 1614 }, { "epoch": 3.3666666666666667, "grad_norm": 1.384939193725586, "learning_rate": 4.1604166666666664e-05, "loss": 0.1601, "step": 1616 }, { "epoch": 3.3708333333333336, "grad_norm": 1.4601702690124512, "learning_rate": 4.1593750000000005e-05, "loss": 0.1664, "step": 1618 }, { "epoch": 3.375, "grad_norm": 1.294093370437622, "learning_rate": 4.158333333333333e-05, "loss": 0.1324, "step": 1620 }, { "epoch": 3.3791666666666664, "grad_norm": 1.260665774345398, "learning_rate": 4.1572916666666666e-05, "loss": 0.112, "step": 1622 }, { "epoch": 3.3833333333333333, "grad_norm": 1.8950210809707642, "learning_rate": 4.156250000000001e-05, "loss": 0.1338, "step": 1624 }, { "epoch": 3.3875, "grad_norm": 1.338769555091858, "learning_rate": 4.1552083333333335e-05, "loss": 0.1122, "step": 1626 }, { "epoch": 3.3916666666666666, "grad_norm": 1.688138723373413, "learning_rate": 4.154166666666667e-05, "loss": 0.1527, "step": 1628 }, { "epoch": 3.3958333333333335, "grad_norm": 0.9535319209098816, "learning_rate": 4.1531249999999996e-05, "loss": 0.1062, "step": 1630 }, { "epoch": 3.4, "grad_norm": 0.9876632690429688, "learning_rate": 4.152083333333334e-05, "loss": 0.1062, "step": 1632 }, { "epoch": 3.404166666666667, "grad_norm": 1.5900918245315552, "learning_rate": 4.151041666666667e-05, "loss": 0.1393, "step": 1634 }, { "epoch": 3.408333333333333, "grad_norm": 1.1279194355010986, "learning_rate": 4.15e-05, "loss": 0.1309, "step": 1636 }, { "epoch": 3.4125, "grad_norm": 1.1501954793930054, "learning_rate": 4.148958333333334e-05, "loss": 0.1175, "step": 1638 }, { "epoch": 3.4166666666666665, "grad_norm": 1.200241208076477, "learning_rate": 4.147916666666667e-05, "loss": 0.1169, "step": 1640 }, { "epoch": 3.4208333333333334, "grad_norm": 1.5723122358322144, "learning_rate": 4.146875e-05, "loss": 0.1425, "step": 1642 }, { "epoch": 3.425, "grad_norm": 2.600003957748413, "learning_rate": 4.1458333333333336e-05, "loss": 0.1409, "step": 1644 }, { "epoch": 3.4291666666666667, "grad_norm": 1.0685324668884277, "learning_rate": 4.144791666666667e-05, "loss": 0.1233, "step": 1646 }, { "epoch": 3.4333333333333336, "grad_norm": 1.4161605834960938, "learning_rate": 4.1437500000000004e-05, "loss": 0.122, "step": 1648 }, { "epoch": 3.4375, "grad_norm": 1.3723641633987427, "learning_rate": 4.142708333333333e-05, "loss": 0.1265, "step": 1650 }, { "epoch": 3.4416666666666664, "grad_norm": 1.191463828086853, "learning_rate": 4.141666666666667e-05, "loss": 0.1521, "step": 1652 }, { "epoch": 3.4458333333333333, "grad_norm": 1.0381888151168823, "learning_rate": 4.140625e-05, "loss": 0.1807, "step": 1654 }, { "epoch": 3.45, "grad_norm": 1.4666184186935425, "learning_rate": 4.1395833333333334e-05, "loss": 0.1427, "step": 1656 }, { "epoch": 3.4541666666666666, "grad_norm": 1.1494156122207642, "learning_rate": 4.138541666666667e-05, "loss": 0.1313, "step": 1658 }, { "epoch": 3.4583333333333335, "grad_norm": 1.5117828845977783, "learning_rate": 4.1375e-05, "loss": 0.1779, "step": 1660 }, { "epoch": 3.4625, "grad_norm": 1.1415683031082153, "learning_rate": 4.136458333333334e-05, "loss": 0.118, "step": 1662 }, { "epoch": 3.466666666666667, "grad_norm": 0.9682338237762451, "learning_rate": 4.1354166666666664e-05, "loss": 0.1134, "step": 1664 }, { "epoch": 3.470833333333333, "grad_norm": 1.5752220153808594, "learning_rate": 4.1343750000000005e-05, "loss": 0.1274, "step": 1666 }, { "epoch": 3.475, "grad_norm": 1.3070414066314697, "learning_rate": 4.133333333333333e-05, "loss": 0.0885, "step": 1668 }, { "epoch": 3.4791666666666665, "grad_norm": 3.335270881652832, "learning_rate": 4.132291666666667e-05, "loss": 0.1216, "step": 1670 }, { "epoch": 3.4833333333333334, "grad_norm": 1.2464452981948853, "learning_rate": 4.13125e-05, "loss": 0.1621, "step": 1672 }, { "epoch": 3.4875, "grad_norm": 1.1977710723876953, "learning_rate": 4.1302083333333336e-05, "loss": 0.1182, "step": 1674 }, { "epoch": 3.4916666666666667, "grad_norm": 1.1550865173339844, "learning_rate": 4.129166666666667e-05, "loss": 0.1344, "step": 1676 }, { "epoch": 3.4958333333333336, "grad_norm": 1.385967493057251, "learning_rate": 4.1281250000000004e-05, "loss": 0.1128, "step": 1678 }, { "epoch": 3.5, "grad_norm": 1.210734486579895, "learning_rate": 4.127083333333334e-05, "loss": 0.1092, "step": 1680 }, { "epoch": 3.5041666666666664, "grad_norm": 1.8904080390930176, "learning_rate": 4.1260416666666666e-05, "loss": 0.1584, "step": 1682 }, { "epoch": 3.5083333333333333, "grad_norm": 1.1278917789459229, "learning_rate": 4.125e-05, "loss": 0.124, "step": 1684 }, { "epoch": 3.5125, "grad_norm": 1.808807611465454, "learning_rate": 4.1239583333333334e-05, "loss": 0.1322, "step": 1686 }, { "epoch": 3.5166666666666666, "grad_norm": 1.52069091796875, "learning_rate": 4.122916666666667e-05, "loss": 0.1459, "step": 1688 }, { "epoch": 3.5208333333333335, "grad_norm": 1.5166401863098145, "learning_rate": 4.121875e-05, "loss": 0.1602, "step": 1690 }, { "epoch": 3.525, "grad_norm": 1.150036334991455, "learning_rate": 4.120833333333334e-05, "loss": 0.1153, "step": 1692 }, { "epoch": 3.529166666666667, "grad_norm": 1.9748836755752563, "learning_rate": 4.119791666666667e-05, "loss": 0.1402, "step": 1694 }, { "epoch": 3.533333333333333, "grad_norm": 1.2127116918563843, "learning_rate": 4.11875e-05, "loss": 0.1732, "step": 1696 }, { "epoch": 3.5375, "grad_norm": 1.0590150356292725, "learning_rate": 4.117708333333333e-05, "loss": 0.1147, "step": 1698 }, { "epoch": 3.5416666666666665, "grad_norm": 1.3049321174621582, "learning_rate": 4.116666666666667e-05, "loss": 0.1382, "step": 1700 }, { "epoch": 3.5458333333333334, "grad_norm": 1.5483051538467407, "learning_rate": 4.115625e-05, "loss": 0.1279, "step": 1702 }, { "epoch": 3.55, "grad_norm": 1.4059401750564575, "learning_rate": 4.1145833333333335e-05, "loss": 0.1825, "step": 1704 }, { "epoch": 3.5541666666666667, "grad_norm": 1.1847103834152222, "learning_rate": 4.113541666666667e-05, "loss": 0.1531, "step": 1706 }, { "epoch": 3.5583333333333336, "grad_norm": 1.1752618551254272, "learning_rate": 4.1125000000000004e-05, "loss": 0.1243, "step": 1708 }, { "epoch": 3.5625, "grad_norm": 1.8893529176712036, "learning_rate": 4.111458333333333e-05, "loss": 0.1375, "step": 1710 }, { "epoch": 3.5666666666666664, "grad_norm": 1.4344626665115356, "learning_rate": 4.110416666666667e-05, "loss": 0.1313, "step": 1712 }, { "epoch": 3.5708333333333333, "grad_norm": 1.1641391515731812, "learning_rate": 4.1093750000000006e-05, "loss": 0.1246, "step": 1714 }, { "epoch": 3.575, "grad_norm": 1.12962007522583, "learning_rate": 4.1083333333333334e-05, "loss": 0.127, "step": 1716 }, { "epoch": 3.5791666666666666, "grad_norm": 2.968893527984619, "learning_rate": 4.107291666666667e-05, "loss": 0.1578, "step": 1718 }, { "epoch": 3.5833333333333335, "grad_norm": 1.2375411987304688, "learning_rate": 4.10625e-05, "loss": 0.1459, "step": 1720 }, { "epoch": 3.5875, "grad_norm": 1.246436595916748, "learning_rate": 4.1052083333333336e-05, "loss": 0.1429, "step": 1722 }, { "epoch": 3.591666666666667, "grad_norm": 5.518904209136963, "learning_rate": 4.104166666666667e-05, "loss": 0.1393, "step": 1724 }, { "epoch": 3.595833333333333, "grad_norm": 1.5995979309082031, "learning_rate": 4.1031250000000005e-05, "loss": 0.1101, "step": 1726 }, { "epoch": 3.6, "grad_norm": 1.438202142715454, "learning_rate": 4.102083333333334e-05, "loss": 0.157, "step": 1728 }, { "epoch": 3.6041666666666665, "grad_norm": 1.1027727127075195, "learning_rate": 4.1010416666666666e-05, "loss": 0.1349, "step": 1730 }, { "epoch": 3.6083333333333334, "grad_norm": 1.259873867034912, "learning_rate": 4.1e-05, "loss": 0.1203, "step": 1732 }, { "epoch": 3.6125, "grad_norm": 1.684228777885437, "learning_rate": 4.0989583333333335e-05, "loss": 0.1714, "step": 1734 }, { "epoch": 3.6166666666666667, "grad_norm": 2.9070115089416504, "learning_rate": 4.097916666666667e-05, "loss": 0.1384, "step": 1736 }, { "epoch": 3.6208333333333336, "grad_norm": 1.363110065460205, "learning_rate": 4.096875e-05, "loss": 0.1512, "step": 1738 }, { "epoch": 3.625, "grad_norm": 1.5575871467590332, "learning_rate": 4.095833333333334e-05, "loss": 0.1407, "step": 1740 }, { "epoch": 3.6291666666666664, "grad_norm": 1.4002841711044312, "learning_rate": 4.094791666666667e-05, "loss": 0.1449, "step": 1742 }, { "epoch": 3.6333333333333333, "grad_norm": 1.2986576557159424, "learning_rate": 4.09375e-05, "loss": 0.1873, "step": 1744 }, { "epoch": 3.6375, "grad_norm": 1.5185562372207642, "learning_rate": 4.092708333333333e-05, "loss": 0.1336, "step": 1746 }, { "epoch": 3.6416666666666666, "grad_norm": 1.4269071817398071, "learning_rate": 4.091666666666667e-05, "loss": 0.1196, "step": 1748 }, { "epoch": 3.6458333333333335, "grad_norm": 1.3879940509796143, "learning_rate": 4.090625e-05, "loss": 0.1687, "step": 1750 }, { "epoch": 3.65, "grad_norm": 1.0033409595489502, "learning_rate": 4.0895833333333336e-05, "loss": 0.1106, "step": 1752 }, { "epoch": 3.654166666666667, "grad_norm": 4.765145301818848, "learning_rate": 4.088541666666667e-05, "loss": 0.0924, "step": 1754 }, { "epoch": 3.658333333333333, "grad_norm": 1.0530190467834473, "learning_rate": 4.0875000000000004e-05, "loss": 0.155, "step": 1756 }, { "epoch": 3.6625, "grad_norm": 1.283671498298645, "learning_rate": 4.086458333333333e-05, "loss": 0.1514, "step": 1758 }, { "epoch": 3.6666666666666665, "grad_norm": 1.1967607736587524, "learning_rate": 4.085416666666667e-05, "loss": 0.1393, "step": 1760 }, { "epoch": 3.6708333333333334, "grad_norm": 1.580196738243103, "learning_rate": 4.084375e-05, "loss": 0.1876, "step": 1762 }, { "epoch": 3.675, "grad_norm": 1.5157240629196167, "learning_rate": 4.0833333333333334e-05, "loss": 0.1744, "step": 1764 }, { "epoch": 3.6791666666666667, "grad_norm": 1.332767128944397, "learning_rate": 4.082291666666667e-05, "loss": 0.1396, "step": 1766 }, { "epoch": 3.6833333333333336, "grad_norm": 1.1680107116699219, "learning_rate": 4.08125e-05, "loss": 0.1434, "step": 1768 }, { "epoch": 3.6875, "grad_norm": 1.31798255443573, "learning_rate": 4.080208333333334e-05, "loss": 0.1505, "step": 1770 }, { "epoch": 3.6916666666666664, "grad_norm": 1.3701727390289307, "learning_rate": 4.0791666666666664e-05, "loss": 0.1401, "step": 1772 }, { "epoch": 3.6958333333333333, "grad_norm": 2.095747947692871, "learning_rate": 4.0781250000000005e-05, "loss": 0.1328, "step": 1774 }, { "epoch": 3.7, "grad_norm": 1.1528501510620117, "learning_rate": 4.077083333333333e-05, "loss": 0.1168, "step": 1776 }, { "epoch": 3.7041666666666666, "grad_norm": 1.1583607196807861, "learning_rate": 4.076041666666667e-05, "loss": 0.1199, "step": 1778 }, { "epoch": 3.7083333333333335, "grad_norm": 1.0259267091751099, "learning_rate": 4.075e-05, "loss": 0.101, "step": 1780 }, { "epoch": 3.7125, "grad_norm": 1.9465296268463135, "learning_rate": 4.0739583333333335e-05, "loss": 0.1819, "step": 1782 }, { "epoch": 3.716666666666667, "grad_norm": 1.2833755016326904, "learning_rate": 4.072916666666667e-05, "loss": 0.1341, "step": 1784 }, { "epoch": 3.720833333333333, "grad_norm": 3.5942740440368652, "learning_rate": 4.071875e-05, "loss": 0.1346, "step": 1786 }, { "epoch": 3.725, "grad_norm": 1.1232284307479858, "learning_rate": 4.070833333333334e-05, "loss": 0.1157, "step": 1788 }, { "epoch": 3.7291666666666665, "grad_norm": 1.1604728698730469, "learning_rate": 4.069791666666667e-05, "loss": 0.1379, "step": 1790 }, { "epoch": 3.7333333333333334, "grad_norm": 1.093166708946228, "learning_rate": 4.06875e-05, "loss": 0.1497, "step": 1792 }, { "epoch": 3.7375, "grad_norm": 1.0520869493484497, "learning_rate": 4.067708333333334e-05, "loss": 0.1153, "step": 1794 }, { "epoch": 3.7416666666666667, "grad_norm": 1.5261812210083008, "learning_rate": 4.066666666666667e-05, "loss": 0.1437, "step": 1796 }, { "epoch": 3.7458333333333336, "grad_norm": 1.892781138420105, "learning_rate": 4.065625e-05, "loss": 0.124, "step": 1798 }, { "epoch": 3.75, "grad_norm": 2.225970506668091, "learning_rate": 4.064583333333333e-05, "loss": 0.1543, "step": 1800 }, { "epoch": 3.75, "eval_cer": 0.07021879164815638, "eval_loss": 0.384634405374527, "eval_runtime": 76.1174, "eval_samples_per_second": 5.176, "eval_steps_per_second": 0.657, "step": 1800 }, { "epoch": 3.7541666666666664, "grad_norm": 1.9637219905853271, "learning_rate": 4.063541666666667e-05, "loss": 0.148, "step": 1802 }, { "epoch": 3.7583333333333333, "grad_norm": 1.4442535638809204, "learning_rate": 4.0625000000000005e-05, "loss": 0.1338, "step": 1804 }, { "epoch": 3.7625, "grad_norm": 2.3460333347320557, "learning_rate": 4.061458333333333e-05, "loss": 0.1534, "step": 1806 }, { "epoch": 3.7666666666666666, "grad_norm": 2.7628657817840576, "learning_rate": 4.060416666666667e-05, "loss": 0.1547, "step": 1808 }, { "epoch": 3.7708333333333335, "grad_norm": 1.800148844718933, "learning_rate": 4.059375e-05, "loss": 0.1103, "step": 1810 }, { "epoch": 3.775, "grad_norm": 1.2902947664260864, "learning_rate": 4.0583333333333335e-05, "loss": 0.1479, "step": 1812 }, { "epoch": 3.779166666666667, "grad_norm": 3.0630853176116943, "learning_rate": 4.057291666666667e-05, "loss": 0.1546, "step": 1814 }, { "epoch": 3.783333333333333, "grad_norm": 1.1641541719436646, "learning_rate": 4.0562500000000003e-05, "loss": 0.1366, "step": 1816 }, { "epoch": 3.7875, "grad_norm": 2.293379068374634, "learning_rate": 4.055208333333334e-05, "loss": 0.1471, "step": 1818 }, { "epoch": 3.7916666666666665, "grad_norm": 1.014696478843689, "learning_rate": 4.0541666666666665e-05, "loss": 0.1015, "step": 1820 }, { "epoch": 3.7958333333333334, "grad_norm": 1.265565037727356, "learning_rate": 4.0531250000000006e-05, "loss": 0.1293, "step": 1822 }, { "epoch": 3.8, "grad_norm": 1.1991163492202759, "learning_rate": 4.0520833333333333e-05, "loss": 0.1667, "step": 1824 }, { "epoch": 3.8041666666666667, "grad_norm": 1.2333718538284302, "learning_rate": 4.051041666666667e-05, "loss": 0.1144, "step": 1826 }, { "epoch": 3.8083333333333336, "grad_norm": 1.3116658926010132, "learning_rate": 4.05e-05, "loss": 0.149, "step": 1828 }, { "epoch": 3.8125, "grad_norm": 1.5107983350753784, "learning_rate": 4.0489583333333336e-05, "loss": 0.1849, "step": 1830 }, { "epoch": 3.8166666666666664, "grad_norm": 1.2618845701217651, "learning_rate": 4.047916666666667e-05, "loss": 0.1306, "step": 1832 }, { "epoch": 3.8208333333333333, "grad_norm": 1.052011251449585, "learning_rate": 4.046875e-05, "loss": 0.1137, "step": 1834 }, { "epoch": 3.825, "grad_norm": 1.6001657247543335, "learning_rate": 4.045833333333334e-05, "loss": 0.1163, "step": 1836 }, { "epoch": 3.8291666666666666, "grad_norm": 1.0150254964828491, "learning_rate": 4.0447916666666666e-05, "loss": 0.1084, "step": 1838 }, { "epoch": 3.8333333333333335, "grad_norm": 2.3694796562194824, "learning_rate": 4.04375e-05, "loss": 0.1357, "step": 1840 }, { "epoch": 3.8375, "grad_norm": 1.5784646272659302, "learning_rate": 4.0427083333333335e-05, "loss": 0.1204, "step": 1842 }, { "epoch": 3.841666666666667, "grad_norm": 1.2698683738708496, "learning_rate": 4.041666666666667e-05, "loss": 0.143, "step": 1844 }, { "epoch": 3.845833333333333, "grad_norm": 1.8060942888259888, "learning_rate": 4.040625e-05, "loss": 0.1668, "step": 1846 }, { "epoch": 3.85, "grad_norm": 1.1228978633880615, "learning_rate": 4.039583333333333e-05, "loss": 0.1811, "step": 1848 }, { "epoch": 3.8541666666666665, "grad_norm": 2.2050445079803467, "learning_rate": 4.038541666666667e-05, "loss": 0.1046, "step": 1850 }, { "epoch": 3.8583333333333334, "grad_norm": 1.2433528900146484, "learning_rate": 4.0375e-05, "loss": 0.1496, "step": 1852 }, { "epoch": 3.8625, "grad_norm": 1.0039947032928467, "learning_rate": 4.036458333333333e-05, "loss": 0.1497, "step": 1854 }, { "epoch": 3.8666666666666667, "grad_norm": 1.8083391189575195, "learning_rate": 4.0354166666666674e-05, "loss": 0.1519, "step": 1856 }, { "epoch": 3.8708333333333336, "grad_norm": 1.5105745792388916, "learning_rate": 4.034375e-05, "loss": 0.1253, "step": 1858 }, { "epoch": 3.875, "grad_norm": 1.11159086227417, "learning_rate": 4.0333333333333336e-05, "loss": 0.1109, "step": 1860 }, { "epoch": 3.8791666666666664, "grad_norm": 1.5225943326950073, "learning_rate": 4.032291666666667e-05, "loss": 0.117, "step": 1862 }, { "epoch": 3.8833333333333333, "grad_norm": 1.773657202720642, "learning_rate": 4.0312500000000004e-05, "loss": 0.1487, "step": 1864 }, { "epoch": 3.8875, "grad_norm": 3.959315299987793, "learning_rate": 4.030208333333333e-05, "loss": 0.1531, "step": 1866 }, { "epoch": 3.8916666666666666, "grad_norm": 1.7123486995697021, "learning_rate": 4.0291666666666666e-05, "loss": 0.1815, "step": 1868 }, { "epoch": 3.8958333333333335, "grad_norm": 1.0707253217697144, "learning_rate": 4.028125000000001e-05, "loss": 0.1349, "step": 1870 }, { "epoch": 3.9, "grad_norm": 1.0288825035095215, "learning_rate": 4.0270833333333334e-05, "loss": 0.1507, "step": 1872 }, { "epoch": 3.904166666666667, "grad_norm": 1.0308953523635864, "learning_rate": 4.026041666666667e-05, "loss": 0.1017, "step": 1874 }, { "epoch": 3.908333333333333, "grad_norm": 1.2107789516448975, "learning_rate": 4.025e-05, "loss": 0.1249, "step": 1876 }, { "epoch": 3.9125, "grad_norm": 1.0995678901672363, "learning_rate": 4.023958333333334e-05, "loss": 0.1211, "step": 1878 }, { "epoch": 3.9166666666666665, "grad_norm": 1.7540019750595093, "learning_rate": 4.022916666666667e-05, "loss": 0.1409, "step": 1880 }, { "epoch": 3.9208333333333334, "grad_norm": 1.4660998582839966, "learning_rate": 4.021875e-05, "loss": 0.1475, "step": 1882 }, { "epoch": 3.925, "grad_norm": 1.1226695775985718, "learning_rate": 4.020833333333334e-05, "loss": 0.1307, "step": 1884 }, { "epoch": 3.9291666666666667, "grad_norm": 0.9815404415130615, "learning_rate": 4.019791666666667e-05, "loss": 0.1056, "step": 1886 }, { "epoch": 3.9333333333333336, "grad_norm": 1.2384169101715088, "learning_rate": 4.01875e-05, "loss": 0.1238, "step": 1888 }, { "epoch": 3.9375, "grad_norm": 1.4087421894073486, "learning_rate": 4.0177083333333335e-05, "loss": 0.1455, "step": 1890 }, { "epoch": 3.9416666666666664, "grad_norm": 1.200124979019165, "learning_rate": 4.016666666666667e-05, "loss": 0.1346, "step": 1892 }, { "epoch": 3.9458333333333333, "grad_norm": 1.1654003858566284, "learning_rate": 4.0156250000000004e-05, "loss": 0.1207, "step": 1894 }, { "epoch": 3.95, "grad_norm": 1.5687291622161865, "learning_rate": 4.014583333333333e-05, "loss": 0.1335, "step": 1896 }, { "epoch": 3.9541666666666666, "grad_norm": 1.268929123878479, "learning_rate": 4.013541666666667e-05, "loss": 0.1011, "step": 1898 }, { "epoch": 3.9583333333333335, "grad_norm": 1.1316790580749512, "learning_rate": 4.0125e-05, "loss": 0.1321, "step": 1900 }, { "epoch": 3.9625, "grad_norm": 1.3542239665985107, "learning_rate": 4.0114583333333334e-05, "loss": 0.1332, "step": 1902 }, { "epoch": 3.966666666666667, "grad_norm": 1.0992043018341064, "learning_rate": 4.010416666666667e-05, "loss": 0.1202, "step": 1904 }, { "epoch": 3.970833333333333, "grad_norm": 19.659015655517578, "learning_rate": 4.009375e-05, "loss": 0.1459, "step": 1906 }, { "epoch": 3.975, "grad_norm": 1.2871601581573486, "learning_rate": 4.0083333333333336e-05, "loss": 0.1297, "step": 1908 }, { "epoch": 3.9791666666666665, "grad_norm": 1.2872648239135742, "learning_rate": 4.007291666666667e-05, "loss": 0.1138, "step": 1910 }, { "epoch": 3.9833333333333334, "grad_norm": 1.3838647603988647, "learning_rate": 4.0062500000000005e-05, "loss": 0.1245, "step": 1912 }, { "epoch": 3.9875, "grad_norm": 1.504300594329834, "learning_rate": 4.005208333333333e-05, "loss": 0.1664, "step": 1914 }, { "epoch": 3.9916666666666667, "grad_norm": 1.3784209489822388, "learning_rate": 4.0041666666666666e-05, "loss": 0.1366, "step": 1916 }, { "epoch": 3.9958333333333336, "grad_norm": 1.1469552516937256, "learning_rate": 4.003125e-05, "loss": 0.1622, "step": 1918 }, { "epoch": 4.0, "grad_norm": 2.386150598526001, "learning_rate": 4.0020833333333335e-05, "loss": 0.1417, "step": 1920 }, { "epoch": 4.004166666666666, "grad_norm": 0.7731186151504517, "learning_rate": 4.001041666666667e-05, "loss": 0.0781, "step": 1922 }, { "epoch": 4.008333333333334, "grad_norm": 0.9499878287315369, "learning_rate": 4e-05, "loss": 0.077, "step": 1924 }, { "epoch": 4.0125, "grad_norm": 0.9190614223480225, "learning_rate": 3.998958333333334e-05, "loss": 0.0708, "step": 1926 }, { "epoch": 4.016666666666667, "grad_norm": 0.9048583507537842, "learning_rate": 3.9979166666666665e-05, "loss": 0.0767, "step": 1928 }, { "epoch": 4.020833333333333, "grad_norm": 0.8957040309906006, "learning_rate": 3.996875e-05, "loss": 0.0697, "step": 1930 }, { "epoch": 4.025, "grad_norm": 0.9710066318511963, "learning_rate": 3.995833333333333e-05, "loss": 0.0761, "step": 1932 }, { "epoch": 4.029166666666667, "grad_norm": 1.0602785348892212, "learning_rate": 3.994791666666667e-05, "loss": 0.0635, "step": 1934 }, { "epoch": 4.033333333333333, "grad_norm": 0.9364144206047058, "learning_rate": 3.99375e-05, "loss": 0.0929, "step": 1936 }, { "epoch": 4.0375, "grad_norm": 0.7421970963478088, "learning_rate": 3.9927083333333336e-05, "loss": 0.0608, "step": 1938 }, { "epoch": 4.041666666666667, "grad_norm": 1.1286324262619019, "learning_rate": 3.991666666666667e-05, "loss": 0.0852, "step": 1940 }, { "epoch": 4.045833333333333, "grad_norm": 1.3301427364349365, "learning_rate": 3.990625e-05, "loss": 0.0691, "step": 1942 }, { "epoch": 4.05, "grad_norm": 1.4469293355941772, "learning_rate": 3.989583333333334e-05, "loss": 0.0999, "step": 1944 }, { "epoch": 4.054166666666666, "grad_norm": 0.854388952255249, "learning_rate": 3.988541666666667e-05, "loss": 0.0929, "step": 1946 }, { "epoch": 4.058333333333334, "grad_norm": 1.4373434782028198, "learning_rate": 3.9875e-05, "loss": 0.0898, "step": 1948 }, { "epoch": 4.0625, "grad_norm": 0.908781111240387, "learning_rate": 3.9864583333333334e-05, "loss": 0.0818, "step": 1950 }, { "epoch": 4.066666666666666, "grad_norm": 1.0299098491668701, "learning_rate": 3.985416666666667e-05, "loss": 0.0861, "step": 1952 }, { "epoch": 4.070833333333334, "grad_norm": 13.22767448425293, "learning_rate": 3.984375e-05, "loss": 0.0742, "step": 1954 }, { "epoch": 4.075, "grad_norm": 1.3367167711257935, "learning_rate": 3.983333333333333e-05, "loss": 0.081, "step": 1956 }, { "epoch": 4.079166666666667, "grad_norm": 1.8937867879867554, "learning_rate": 3.982291666666667e-05, "loss": 0.0655, "step": 1958 }, { "epoch": 4.083333333333333, "grad_norm": 0.94222491979599, "learning_rate": 3.9812500000000005e-05, "loss": 0.0752, "step": 1960 }, { "epoch": 4.0875, "grad_norm": 0.878278911113739, "learning_rate": 3.980208333333333e-05, "loss": 0.0856, "step": 1962 }, { "epoch": 4.091666666666667, "grad_norm": 0.7615220546722412, "learning_rate": 3.979166666666667e-05, "loss": 0.0695, "step": 1964 }, { "epoch": 4.095833333333333, "grad_norm": 1.0152522325515747, "learning_rate": 3.978125e-05, "loss": 0.087, "step": 1966 }, { "epoch": 4.1, "grad_norm": 1.233525037765503, "learning_rate": 3.9770833333333336e-05, "loss": 0.0908, "step": 1968 }, { "epoch": 4.104166666666667, "grad_norm": 2.0484278202056885, "learning_rate": 3.976041666666667e-05, "loss": 0.071, "step": 1970 }, { "epoch": 4.108333333333333, "grad_norm": 1.1818151473999023, "learning_rate": 3.9750000000000004e-05, "loss": 0.095, "step": 1972 }, { "epoch": 4.1125, "grad_norm": 1.0526548624038696, "learning_rate": 3.973958333333334e-05, "loss": 0.0832, "step": 1974 }, { "epoch": 4.116666666666666, "grad_norm": 0.7555032968521118, "learning_rate": 3.9729166666666666e-05, "loss": 0.0774, "step": 1976 }, { "epoch": 4.120833333333334, "grad_norm": 0.8847272992134094, "learning_rate": 3.9718750000000007e-05, "loss": 0.064, "step": 1978 }, { "epoch": 4.125, "grad_norm": 0.957616925239563, "learning_rate": 3.9708333333333334e-05, "loss": 0.077, "step": 1980 }, { "epoch": 4.129166666666666, "grad_norm": 0.9935302734375, "learning_rate": 3.969791666666667e-05, "loss": 0.0538, "step": 1982 }, { "epoch": 4.133333333333334, "grad_norm": 0.7396360039710999, "learning_rate": 3.96875e-05, "loss": 0.0778, "step": 1984 }, { "epoch": 4.1375, "grad_norm": 1.2308465242385864, "learning_rate": 3.967708333333334e-05, "loss": 0.0902, "step": 1986 }, { "epoch": 4.141666666666667, "grad_norm": 1.8244073390960693, "learning_rate": 3.966666666666667e-05, "loss": 0.0772, "step": 1988 }, { "epoch": 4.145833333333333, "grad_norm": 2.7897918224334717, "learning_rate": 3.965625e-05, "loss": 0.0779, "step": 1990 }, { "epoch": 4.15, "grad_norm": 1.2332361936569214, "learning_rate": 3.964583333333334e-05, "loss": 0.0893, "step": 1992 }, { "epoch": 4.154166666666667, "grad_norm": 1.3327239751815796, "learning_rate": 3.963541666666667e-05, "loss": 0.0883, "step": 1994 }, { "epoch": 4.158333333333333, "grad_norm": 0.8723564147949219, "learning_rate": 3.9625e-05, "loss": 0.064, "step": 1996 }, { "epoch": 4.1625, "grad_norm": 0.8252778053283691, "learning_rate": 3.9614583333333335e-05, "loss": 0.0755, "step": 1998 }, { "epoch": 4.166666666666667, "grad_norm": 1.1302416324615479, "learning_rate": 3.960416666666667e-05, "loss": 0.0817, "step": 2000 }, { "epoch": 4.166666666666667, "eval_cer": 0.06305530875166593, "eval_loss": 0.38172322511672974, "eval_runtime": 75.3618, "eval_samples_per_second": 5.228, "eval_steps_per_second": 0.663, "step": 2000 }, { "epoch": 4.170833333333333, "grad_norm": 0.8874170184135437, "learning_rate": 3.9593750000000004e-05, "loss": 0.0723, "step": 2002 }, { "epoch": 4.175, "grad_norm": 2.8731439113616943, "learning_rate": 3.958333333333333e-05, "loss": 0.0924, "step": 2004 }, { "epoch": 4.179166666666666, "grad_norm": 1.0340896844863892, "learning_rate": 3.957291666666667e-05, "loss": 0.0675, "step": 2006 }, { "epoch": 4.183333333333334, "grad_norm": 0.9016083478927612, "learning_rate": 3.95625e-05, "loss": 0.0812, "step": 2008 }, { "epoch": 4.1875, "grad_norm": 1.2806493043899536, "learning_rate": 3.9552083333333334e-05, "loss": 0.0728, "step": 2010 }, { "epoch": 4.191666666666666, "grad_norm": 1.1335567235946655, "learning_rate": 3.9541666666666675e-05, "loss": 0.0816, "step": 2012 }, { "epoch": 4.195833333333334, "grad_norm": 0.8477205634117126, "learning_rate": 3.953125e-05, "loss": 0.0726, "step": 2014 }, { "epoch": 4.2, "grad_norm": 3.1504201889038086, "learning_rate": 3.9520833333333336e-05, "loss": 0.0787, "step": 2016 }, { "epoch": 4.204166666666667, "grad_norm": 0.8272049427032471, "learning_rate": 3.9510416666666664e-05, "loss": 0.0748, "step": 2018 }, { "epoch": 4.208333333333333, "grad_norm": 0.8478326797485352, "learning_rate": 3.9500000000000005e-05, "loss": 0.0837, "step": 2020 }, { "epoch": 4.2125, "grad_norm": 1.377537488937378, "learning_rate": 3.948958333333333e-05, "loss": 0.1057, "step": 2022 }, { "epoch": 4.216666666666667, "grad_norm": 0.856211245059967, "learning_rate": 3.9479166666666666e-05, "loss": 0.0847, "step": 2024 }, { "epoch": 4.220833333333333, "grad_norm": 1.2970973253250122, "learning_rate": 3.946875000000001e-05, "loss": 0.0762, "step": 2026 }, { "epoch": 4.225, "grad_norm": 1.0719327926635742, "learning_rate": 3.9458333333333335e-05, "loss": 0.0781, "step": 2028 }, { "epoch": 4.229166666666667, "grad_norm": 1.338165283203125, "learning_rate": 3.944791666666667e-05, "loss": 0.0748, "step": 2030 }, { "epoch": 4.233333333333333, "grad_norm": 0.92940354347229, "learning_rate": 3.9437499999999996e-05, "loss": 0.0955, "step": 2032 }, { "epoch": 4.2375, "grad_norm": 0.7973021864891052, "learning_rate": 3.942708333333334e-05, "loss": 0.0691, "step": 2034 }, { "epoch": 4.241666666666666, "grad_norm": 0.8417878746986389, "learning_rate": 3.941666666666667e-05, "loss": 0.0772, "step": 2036 }, { "epoch": 4.245833333333334, "grad_norm": 4.841963291168213, "learning_rate": 3.940625e-05, "loss": 0.1139, "step": 2038 }, { "epoch": 4.25, "grad_norm": 1.5512462854385376, "learning_rate": 3.939583333333334e-05, "loss": 0.0566, "step": 2040 }, { "epoch": 4.254166666666666, "grad_norm": 1.3727595806121826, "learning_rate": 3.938541666666667e-05, "loss": 0.0758, "step": 2042 }, { "epoch": 4.258333333333334, "grad_norm": 1.0911918878555298, "learning_rate": 3.9375e-05, "loss": 0.0985, "step": 2044 }, { "epoch": 4.2625, "grad_norm": 1.3523303270339966, "learning_rate": 3.9364583333333336e-05, "loss": 0.0765, "step": 2046 }, { "epoch": 4.266666666666667, "grad_norm": 1.1552706956863403, "learning_rate": 3.935416666666667e-05, "loss": 0.0765, "step": 2048 }, { "epoch": 4.270833333333333, "grad_norm": 1.035401701927185, "learning_rate": 3.9343750000000004e-05, "loss": 0.1008, "step": 2050 }, { "epoch": 4.275, "grad_norm": 1.2007702589035034, "learning_rate": 3.933333333333333e-05, "loss": 0.0966, "step": 2052 }, { "epoch": 4.279166666666667, "grad_norm": 1.3211265802383423, "learning_rate": 3.932291666666667e-05, "loss": 0.0834, "step": 2054 }, { "epoch": 4.283333333333333, "grad_norm": 0.8277605175971985, "learning_rate": 3.93125e-05, "loss": 0.063, "step": 2056 }, { "epoch": 4.2875, "grad_norm": 1.0523920059204102, "learning_rate": 3.9302083333333334e-05, "loss": 0.0785, "step": 2058 }, { "epoch": 4.291666666666667, "grad_norm": 1.0161151885986328, "learning_rate": 3.929166666666667e-05, "loss": 0.0854, "step": 2060 }, { "epoch": 4.295833333333333, "grad_norm": 1.1441653966903687, "learning_rate": 3.928125e-05, "loss": 0.1154, "step": 2062 }, { "epoch": 4.3, "grad_norm": 0.8558223247528076, "learning_rate": 3.927083333333334e-05, "loss": 0.0702, "step": 2064 }, { "epoch": 4.304166666666666, "grad_norm": 0.7756438851356506, "learning_rate": 3.9260416666666664e-05, "loss": 0.0567, "step": 2066 }, { "epoch": 4.308333333333334, "grad_norm": 1.1096618175506592, "learning_rate": 3.9250000000000005e-05, "loss": 0.0734, "step": 2068 }, { "epoch": 4.3125, "grad_norm": 1.2193652391433716, "learning_rate": 3.923958333333333e-05, "loss": 0.0957, "step": 2070 }, { "epoch": 4.316666666666666, "grad_norm": 1.19412362575531, "learning_rate": 3.922916666666667e-05, "loss": 0.0747, "step": 2072 }, { "epoch": 4.320833333333334, "grad_norm": 1.9660487174987793, "learning_rate": 3.921875e-05, "loss": 0.1012, "step": 2074 }, { "epoch": 4.325, "grad_norm": 0.8672239184379578, "learning_rate": 3.9208333333333335e-05, "loss": 0.0655, "step": 2076 }, { "epoch": 4.329166666666667, "grad_norm": 1.1189242601394653, "learning_rate": 3.919791666666667e-05, "loss": 0.1124, "step": 2078 }, { "epoch": 4.333333333333333, "grad_norm": 3.0956525802612305, "learning_rate": 3.91875e-05, "loss": 0.0837, "step": 2080 }, { "epoch": 4.3375, "grad_norm": 0.9444073438644409, "learning_rate": 3.917708333333334e-05, "loss": 0.0861, "step": 2082 }, { "epoch": 4.341666666666667, "grad_norm": 1.1264666318893433, "learning_rate": 3.9166666666666665e-05, "loss": 0.0898, "step": 2084 }, { "epoch": 4.345833333333333, "grad_norm": 1.0793639421463013, "learning_rate": 3.915625e-05, "loss": 0.0879, "step": 2086 }, { "epoch": 4.35, "grad_norm": 1.1374964714050293, "learning_rate": 3.9145833333333334e-05, "loss": 0.1222, "step": 2088 }, { "epoch": 4.354166666666667, "grad_norm": 2.1719019412994385, "learning_rate": 3.913541666666667e-05, "loss": 0.097, "step": 2090 }, { "epoch": 4.358333333333333, "grad_norm": 1.2288453578948975, "learning_rate": 3.9125e-05, "loss": 0.0943, "step": 2092 }, { "epoch": 4.3625, "grad_norm": 1.1955199241638184, "learning_rate": 3.9114583333333337e-05, "loss": 0.0778, "step": 2094 }, { "epoch": 4.366666666666666, "grad_norm": 0.9268791079521179, "learning_rate": 3.910416666666667e-05, "loss": 0.0845, "step": 2096 }, { "epoch": 4.370833333333334, "grad_norm": 0.9357446432113647, "learning_rate": 3.909375e-05, "loss": 0.074, "step": 2098 }, { "epoch": 4.375, "grad_norm": 0.9440491199493408, "learning_rate": 3.908333333333333e-05, "loss": 0.0673, "step": 2100 }, { "epoch": 4.379166666666666, "grad_norm": 0.8666753768920898, "learning_rate": 3.907291666666667e-05, "loss": 0.0695, "step": 2102 }, { "epoch": 4.383333333333334, "grad_norm": 1.0785791873931885, "learning_rate": 3.90625e-05, "loss": 0.0925, "step": 2104 }, { "epoch": 4.3875, "grad_norm": 1.0569093227386475, "learning_rate": 3.9052083333333335e-05, "loss": 0.0938, "step": 2106 }, { "epoch": 4.391666666666667, "grad_norm": 0.8859038949012756, "learning_rate": 3.904166666666667e-05, "loss": 0.079, "step": 2108 }, { "epoch": 4.395833333333333, "grad_norm": 0.8467822670936584, "learning_rate": 3.9031250000000003e-05, "loss": 0.0741, "step": 2110 }, { "epoch": 4.4, "grad_norm": 1.2233210802078247, "learning_rate": 3.902083333333333e-05, "loss": 0.0751, "step": 2112 }, { "epoch": 4.404166666666667, "grad_norm": 1.1684272289276123, "learning_rate": 3.9010416666666665e-05, "loss": 0.0844, "step": 2114 }, { "epoch": 4.408333333333333, "grad_norm": 1.8633463382720947, "learning_rate": 3.9000000000000006e-05, "loss": 0.1069, "step": 2116 }, { "epoch": 4.4125, "grad_norm": 1.0140049457550049, "learning_rate": 3.8989583333333334e-05, "loss": 0.1034, "step": 2118 }, { "epoch": 4.416666666666667, "grad_norm": 0.8137444257736206, "learning_rate": 3.897916666666667e-05, "loss": 0.0706, "step": 2120 }, { "epoch": 4.420833333333333, "grad_norm": 1.3231297731399536, "learning_rate": 3.896875e-05, "loss": 0.0914, "step": 2122 }, { "epoch": 4.425, "grad_norm": 1.3303730487823486, "learning_rate": 3.8958333333333336e-05, "loss": 0.0995, "step": 2124 }, { "epoch": 4.429166666666666, "grad_norm": 1.1961333751678467, "learning_rate": 3.894791666666667e-05, "loss": 0.0827, "step": 2126 }, { "epoch": 4.433333333333334, "grad_norm": 0.9565536975860596, "learning_rate": 3.8937500000000005e-05, "loss": 0.0875, "step": 2128 }, { "epoch": 4.4375, "grad_norm": 1.2660243511199951, "learning_rate": 3.892708333333334e-05, "loss": 0.1178, "step": 2130 }, { "epoch": 4.441666666666666, "grad_norm": 1.255230188369751, "learning_rate": 3.8916666666666666e-05, "loss": 0.1019, "step": 2132 }, { "epoch": 4.445833333333334, "grad_norm": 0.8511635065078735, "learning_rate": 3.890625e-05, "loss": 0.0703, "step": 2134 }, { "epoch": 4.45, "grad_norm": 0.9714882373809814, "learning_rate": 3.8895833333333335e-05, "loss": 0.0824, "step": 2136 }, { "epoch": 4.454166666666667, "grad_norm": 1.4550576210021973, "learning_rate": 3.888541666666667e-05, "loss": 0.069, "step": 2138 }, { "epoch": 4.458333333333333, "grad_norm": 1.221817135810852, "learning_rate": 3.8875e-05, "loss": 0.0813, "step": 2140 }, { "epoch": 4.4625, "grad_norm": 1.336941123008728, "learning_rate": 3.886458333333334e-05, "loss": 0.0659, "step": 2142 }, { "epoch": 4.466666666666667, "grad_norm": 1.3952819108963013, "learning_rate": 3.885416666666667e-05, "loss": 0.0945, "step": 2144 }, { "epoch": 4.470833333333333, "grad_norm": 1.4957295656204224, "learning_rate": 3.884375e-05, "loss": 0.0872, "step": 2146 }, { "epoch": 4.475, "grad_norm": 1.0998305082321167, "learning_rate": 3.883333333333333e-05, "loss": 0.0727, "step": 2148 }, { "epoch": 4.479166666666667, "grad_norm": 0.9731649160385132, "learning_rate": 3.882291666666667e-05, "loss": 0.0886, "step": 2150 }, { "epoch": 4.483333333333333, "grad_norm": 0.9222704172134399, "learning_rate": 3.88125e-05, "loss": 0.0816, "step": 2152 }, { "epoch": 4.4875, "grad_norm": 0.959698498249054, "learning_rate": 3.8802083333333336e-05, "loss": 0.0777, "step": 2154 }, { "epoch": 4.491666666666666, "grad_norm": 1.4323769807815552, "learning_rate": 3.879166666666667e-05, "loss": 0.0979, "step": 2156 }, { "epoch": 4.495833333333334, "grad_norm": 1.2036925554275513, "learning_rate": 3.8781250000000004e-05, "loss": 0.0813, "step": 2158 }, { "epoch": 4.5, "grad_norm": 1.1772453784942627, "learning_rate": 3.877083333333333e-05, "loss": 0.1031, "step": 2160 }, { "epoch": 4.504166666666666, "grad_norm": 2.4995555877685547, "learning_rate": 3.876041666666667e-05, "loss": 0.052, "step": 2162 }, { "epoch": 4.508333333333333, "grad_norm": 2.091679334640503, "learning_rate": 3.875e-05, "loss": 0.0789, "step": 2164 }, { "epoch": 4.5125, "grad_norm": 1.6899508237838745, "learning_rate": 3.8739583333333334e-05, "loss": 0.09, "step": 2166 }, { "epoch": 4.516666666666667, "grad_norm": 0.9263827204704285, "learning_rate": 3.872916666666667e-05, "loss": 0.0908, "step": 2168 }, { "epoch": 4.520833333333333, "grad_norm": 1.9031181335449219, "learning_rate": 3.871875e-05, "loss": 0.088, "step": 2170 }, { "epoch": 4.525, "grad_norm": 1.0645902156829834, "learning_rate": 3.870833333333334e-05, "loss": 0.085, "step": 2172 }, { "epoch": 4.529166666666667, "grad_norm": 0.9145504832267761, "learning_rate": 3.8697916666666664e-05, "loss": 0.0724, "step": 2174 }, { "epoch": 4.533333333333333, "grad_norm": 1.911892294883728, "learning_rate": 3.8687500000000005e-05, "loss": 0.1112, "step": 2176 }, { "epoch": 4.5375, "grad_norm": 0.9205930829048157, "learning_rate": 3.867708333333333e-05, "loss": 0.061, "step": 2178 }, { "epoch": 4.541666666666667, "grad_norm": 3.2194669246673584, "learning_rate": 3.866666666666667e-05, "loss": 0.1077, "step": 2180 }, { "epoch": 4.545833333333333, "grad_norm": 0.775286853313446, "learning_rate": 3.865625e-05, "loss": 0.0738, "step": 2182 }, { "epoch": 4.55, "grad_norm": 0.98478102684021, "learning_rate": 3.8645833333333335e-05, "loss": 0.0795, "step": 2184 }, { "epoch": 4.554166666666667, "grad_norm": 0.9600168466567993, "learning_rate": 3.863541666666667e-05, "loss": 0.0926, "step": 2186 }, { "epoch": 4.558333333333334, "grad_norm": 0.8675752282142639, "learning_rate": 3.8625e-05, "loss": 0.0681, "step": 2188 }, { "epoch": 4.5625, "grad_norm": 0.9766802191734314, "learning_rate": 3.861458333333334e-05, "loss": 0.0998, "step": 2190 }, { "epoch": 4.566666666666666, "grad_norm": 1.3504384756088257, "learning_rate": 3.860416666666667e-05, "loss": 0.0777, "step": 2192 }, { "epoch": 4.570833333333333, "grad_norm": 1.462335467338562, "learning_rate": 3.859375e-05, "loss": 0.0815, "step": 2194 }, { "epoch": 4.575, "grad_norm": 0.8245469331741333, "learning_rate": 3.8583333333333334e-05, "loss": 0.0974, "step": 2196 }, { "epoch": 4.579166666666667, "grad_norm": 1.166513442993164, "learning_rate": 3.857291666666667e-05, "loss": 0.0961, "step": 2198 }, { "epoch": 4.583333333333333, "grad_norm": 1.3380464315414429, "learning_rate": 3.85625e-05, "loss": 0.0797, "step": 2200 }, { "epoch": 4.583333333333333, "eval_cer": 0.06799755664149267, "eval_loss": 0.3816696107387543, "eval_runtime": 75.8364, "eval_samples_per_second": 5.195, "eval_steps_per_second": 0.659, "step": 2200 }, { "epoch": 4.5875, "grad_norm": 0.6920982003211975, "learning_rate": 3.8552083333333336e-05, "loss": 0.0799, "step": 2202 }, { "epoch": 4.591666666666667, "grad_norm": 1.1736680269241333, "learning_rate": 3.854166666666667e-05, "loss": 0.0855, "step": 2204 }, { "epoch": 4.595833333333333, "grad_norm": 1.0098215341567993, "learning_rate": 3.8531250000000005e-05, "loss": 0.07, "step": 2206 }, { "epoch": 4.6, "grad_norm": 1.3299909830093384, "learning_rate": 3.852083333333333e-05, "loss": 0.0853, "step": 2208 }, { "epoch": 4.604166666666667, "grad_norm": 0.9078407287597656, "learning_rate": 3.851041666666667e-05, "loss": 0.0825, "step": 2210 }, { "epoch": 4.608333333333333, "grad_norm": 1.820887804031372, "learning_rate": 3.85e-05, "loss": 0.0797, "step": 2212 }, { "epoch": 4.6125, "grad_norm": 0.9650698900222778, "learning_rate": 3.8489583333333335e-05, "loss": 0.0815, "step": 2214 }, { "epoch": 4.616666666666667, "grad_norm": 1.0486668348312378, "learning_rate": 3.847916666666667e-05, "loss": 0.1019, "step": 2216 }, { "epoch": 4.620833333333334, "grad_norm": 1.1475257873535156, "learning_rate": 3.846875e-05, "loss": 0.0921, "step": 2218 }, { "epoch": 4.625, "grad_norm": 1.273078203201294, "learning_rate": 3.845833333333334e-05, "loss": 0.0832, "step": 2220 }, { "epoch": 4.629166666666666, "grad_norm": 1.0565463304519653, "learning_rate": 3.8447916666666665e-05, "loss": 0.0666, "step": 2222 }, { "epoch": 4.633333333333333, "grad_norm": 1.8795273303985596, "learning_rate": 3.8437500000000006e-05, "loss": 0.0836, "step": 2224 }, { "epoch": 4.6375, "grad_norm": 1.141516923904419, "learning_rate": 3.842708333333333e-05, "loss": 0.0838, "step": 2226 }, { "epoch": 4.641666666666667, "grad_norm": 0.9567936062812805, "learning_rate": 3.841666666666667e-05, "loss": 0.0808, "step": 2228 }, { "epoch": 4.645833333333333, "grad_norm": 1.7979847192764282, "learning_rate": 3.840625e-05, "loss": 0.0911, "step": 2230 }, { "epoch": 4.65, "grad_norm": 4.779476642608643, "learning_rate": 3.8395833333333336e-05, "loss": 0.1462, "step": 2232 }, { "epoch": 4.654166666666667, "grad_norm": 1.0974100828170776, "learning_rate": 3.838541666666667e-05, "loss": 0.0839, "step": 2234 }, { "epoch": 4.658333333333333, "grad_norm": 0.9958802461624146, "learning_rate": 3.8375e-05, "loss": 0.0817, "step": 2236 }, { "epoch": 4.6625, "grad_norm": 1.5925546884536743, "learning_rate": 3.836458333333334e-05, "loss": 0.0886, "step": 2238 }, { "epoch": 4.666666666666667, "grad_norm": 1.0111373662948608, "learning_rate": 3.8354166666666666e-05, "loss": 0.1076, "step": 2240 }, { "epoch": 4.670833333333333, "grad_norm": 1.7365713119506836, "learning_rate": 3.834375e-05, "loss": 0.0983, "step": 2242 }, { "epoch": 4.675, "grad_norm": 0.7553696632385254, "learning_rate": 3.8333333333333334e-05, "loss": 0.0765, "step": 2244 }, { "epoch": 4.679166666666667, "grad_norm": 1.016152024269104, "learning_rate": 3.832291666666667e-05, "loss": 0.082, "step": 2246 }, { "epoch": 4.683333333333334, "grad_norm": 0.6705100536346436, "learning_rate": 3.83125e-05, "loss": 0.0504, "step": 2248 }, { "epoch": 4.6875, "grad_norm": 1.0376876592636108, "learning_rate": 3.830208333333333e-05, "loss": 0.0721, "step": 2250 }, { "epoch": 4.691666666666666, "grad_norm": 1.0154895782470703, "learning_rate": 3.829166666666667e-05, "loss": 0.0785, "step": 2252 }, { "epoch": 4.695833333333333, "grad_norm": 1.7325713634490967, "learning_rate": 3.828125e-05, "loss": 0.1273, "step": 2254 }, { "epoch": 4.7, "grad_norm": 0.8066458106040955, "learning_rate": 3.827083333333333e-05, "loss": 0.0747, "step": 2256 }, { "epoch": 4.704166666666667, "grad_norm": 1.0406361818313599, "learning_rate": 3.8260416666666674e-05, "loss": 0.0779, "step": 2258 }, { "epoch": 4.708333333333333, "grad_norm": 0.6613720655441284, "learning_rate": 3.825e-05, "loss": 0.0569, "step": 2260 }, { "epoch": 4.7125, "grad_norm": 1.2741122245788574, "learning_rate": 3.8239583333333336e-05, "loss": 0.1244, "step": 2262 }, { "epoch": 4.716666666666667, "grad_norm": 1.5210806131362915, "learning_rate": 3.822916666666666e-05, "loss": 0.0843, "step": 2264 }, { "epoch": 4.720833333333333, "grad_norm": 1.0528076887130737, "learning_rate": 3.8218750000000004e-05, "loss": 0.0846, "step": 2266 }, { "epoch": 4.725, "grad_norm": 1.1751590967178345, "learning_rate": 3.820833333333334e-05, "loss": 0.0801, "step": 2268 }, { "epoch": 4.729166666666667, "grad_norm": 1.0881016254425049, "learning_rate": 3.8197916666666666e-05, "loss": 0.0762, "step": 2270 }, { "epoch": 4.733333333333333, "grad_norm": 0.8760167956352234, "learning_rate": 3.818750000000001e-05, "loss": 0.0777, "step": 2272 }, { "epoch": 4.7375, "grad_norm": 0.8740704655647278, "learning_rate": 3.8177083333333334e-05, "loss": 0.0593, "step": 2274 }, { "epoch": 4.741666666666667, "grad_norm": 1.185070514678955, "learning_rate": 3.816666666666667e-05, "loss": 0.1018, "step": 2276 }, { "epoch": 4.745833333333334, "grad_norm": 1.2468626499176025, "learning_rate": 3.815625e-05, "loss": 0.075, "step": 2278 }, { "epoch": 4.75, "grad_norm": 1.3077911138534546, "learning_rate": 3.814583333333334e-05, "loss": 0.0845, "step": 2280 }, { "epoch": 4.754166666666666, "grad_norm": 1.002562403678894, "learning_rate": 3.813541666666667e-05, "loss": 0.0821, "step": 2282 }, { "epoch": 4.758333333333333, "grad_norm": 0.8201732039451599, "learning_rate": 3.8125e-05, "loss": 0.0762, "step": 2284 }, { "epoch": 4.7625, "grad_norm": 1.1464170217514038, "learning_rate": 3.811458333333334e-05, "loss": 0.0864, "step": 2286 }, { "epoch": 4.766666666666667, "grad_norm": 1.3176045417785645, "learning_rate": 3.810416666666667e-05, "loss": 0.1124, "step": 2288 }, { "epoch": 4.770833333333333, "grad_norm": 0.8828669786453247, "learning_rate": 3.809375e-05, "loss": 0.0915, "step": 2290 }, { "epoch": 4.775, "grad_norm": 1.0585644245147705, "learning_rate": 3.8083333333333335e-05, "loss": 0.0784, "step": 2292 }, { "epoch": 4.779166666666667, "grad_norm": 2.331343173980713, "learning_rate": 3.807291666666667e-05, "loss": 0.081, "step": 2294 }, { "epoch": 4.783333333333333, "grad_norm": 1.0704395771026611, "learning_rate": 3.8062500000000004e-05, "loss": 0.0884, "step": 2296 }, { "epoch": 4.7875, "grad_norm": 1.4003760814666748, "learning_rate": 3.805208333333333e-05, "loss": 0.1007, "step": 2298 }, { "epoch": 4.791666666666667, "grad_norm": 0.9532901048660278, "learning_rate": 3.804166666666667e-05, "loss": 0.0737, "step": 2300 }, { "epoch": 4.795833333333333, "grad_norm": 0.9354472160339355, "learning_rate": 3.803125e-05, "loss": 0.0916, "step": 2302 }, { "epoch": 4.8, "grad_norm": 1.877306580543518, "learning_rate": 3.8020833333333334e-05, "loss": 0.1125, "step": 2304 }, { "epoch": 4.804166666666667, "grad_norm": 1.2922745943069458, "learning_rate": 3.801041666666667e-05, "loss": 0.0872, "step": 2306 }, { "epoch": 4.808333333333334, "grad_norm": 1.5043976306915283, "learning_rate": 3.8e-05, "loss": 0.066, "step": 2308 }, { "epoch": 4.8125, "grad_norm": 1.1234674453735352, "learning_rate": 3.7989583333333336e-05, "loss": 0.089, "step": 2310 }, { "epoch": 4.816666666666666, "grad_norm": 1.4035699367523193, "learning_rate": 3.797916666666667e-05, "loss": 0.1105, "step": 2312 }, { "epoch": 4.820833333333333, "grad_norm": 1.0244585275650024, "learning_rate": 3.7968750000000005e-05, "loss": 0.0764, "step": 2314 }, { "epoch": 4.825, "grad_norm": 1.5508698225021362, "learning_rate": 3.795833333333333e-05, "loss": 0.0791, "step": 2316 }, { "epoch": 4.829166666666667, "grad_norm": 1.1792707443237305, "learning_rate": 3.7947916666666666e-05, "loss": 0.0814, "step": 2318 }, { "epoch": 4.833333333333333, "grad_norm": 0.8196383714675903, "learning_rate": 3.79375e-05, "loss": 0.0716, "step": 2320 }, { "epoch": 4.8375, "grad_norm": 1.7613425254821777, "learning_rate": 3.7927083333333335e-05, "loss": 0.0888, "step": 2322 }, { "epoch": 4.841666666666667, "grad_norm": 1.1477744579315186, "learning_rate": 3.791666666666667e-05, "loss": 0.0986, "step": 2324 }, { "epoch": 4.845833333333333, "grad_norm": 0.7669283151626587, "learning_rate": 3.790625e-05, "loss": 0.0798, "step": 2326 }, { "epoch": 4.85, "grad_norm": 0.9891388416290283, "learning_rate": 3.789583333333334e-05, "loss": 0.092, "step": 2328 }, { "epoch": 4.854166666666667, "grad_norm": 0.9785768985748291, "learning_rate": 3.7885416666666665e-05, "loss": 0.0642, "step": 2330 }, { "epoch": 4.858333333333333, "grad_norm": 3.060744047164917, "learning_rate": 3.7875e-05, "loss": 0.1094, "step": 2332 }, { "epoch": 4.8625, "grad_norm": 1.1269328594207764, "learning_rate": 3.786458333333333e-05, "loss": 0.0969, "step": 2334 }, { "epoch": 4.866666666666667, "grad_norm": 0.8667688965797424, "learning_rate": 3.785416666666667e-05, "loss": 0.1004, "step": 2336 }, { "epoch": 4.870833333333334, "grad_norm": 0.7991180419921875, "learning_rate": 3.784375e-05, "loss": 0.0622, "step": 2338 }, { "epoch": 4.875, "grad_norm": 1.089832067489624, "learning_rate": 3.7833333333333336e-05, "loss": 0.1036, "step": 2340 }, { "epoch": 4.879166666666666, "grad_norm": 1.0433458089828491, "learning_rate": 3.782291666666667e-05, "loss": 0.0876, "step": 2342 }, { "epoch": 4.883333333333333, "grad_norm": 1.0509146451950073, "learning_rate": 3.78125e-05, "loss": 0.0745, "step": 2344 }, { "epoch": 4.8875, "grad_norm": 0.902082622051239, "learning_rate": 3.780208333333333e-05, "loss": 0.0779, "step": 2346 }, { "epoch": 4.891666666666667, "grad_norm": 1.2545340061187744, "learning_rate": 3.779166666666667e-05, "loss": 0.0916, "step": 2348 }, { "epoch": 4.895833333333333, "grad_norm": 1.3136417865753174, "learning_rate": 3.778125e-05, "loss": 0.0754, "step": 2350 }, { "epoch": 4.9, "grad_norm": 1.093558669090271, "learning_rate": 3.7770833333333334e-05, "loss": 0.0813, "step": 2352 }, { "epoch": 4.904166666666667, "grad_norm": 1.2004882097244263, "learning_rate": 3.776041666666667e-05, "loss": 0.0666, "step": 2354 }, { "epoch": 4.908333333333333, "grad_norm": 1.3209693431854248, "learning_rate": 3.775e-05, "loss": 0.1221, "step": 2356 }, { "epoch": 4.9125, "grad_norm": 1.3533098697662354, "learning_rate": 3.773958333333334e-05, "loss": 0.077, "step": 2358 }, { "epoch": 4.916666666666667, "grad_norm": 1.976776361465454, "learning_rate": 3.772916666666667e-05, "loss": 0.0885, "step": 2360 }, { "epoch": 4.920833333333333, "grad_norm": 1.5046648979187012, "learning_rate": 3.7718750000000005e-05, "loss": 0.0814, "step": 2362 }, { "epoch": 4.925, "grad_norm": 1.2079516649246216, "learning_rate": 3.770833333333333e-05, "loss": 0.0918, "step": 2364 }, { "epoch": 4.929166666666667, "grad_norm": 0.9019784331321716, "learning_rate": 3.769791666666667e-05, "loss": 0.0771, "step": 2366 }, { "epoch": 4.933333333333334, "grad_norm": 1.0322924852371216, "learning_rate": 3.76875e-05, "loss": 0.0706, "step": 2368 }, { "epoch": 4.9375, "grad_norm": 1.3481738567352295, "learning_rate": 3.7677083333333335e-05, "loss": 0.1036, "step": 2370 }, { "epoch": 4.941666666666666, "grad_norm": 1.8663184642791748, "learning_rate": 3.766666666666667e-05, "loss": 0.0834, "step": 2372 }, { "epoch": 4.945833333333333, "grad_norm": 0.9973840117454529, "learning_rate": 3.7656250000000004e-05, "loss": 0.0809, "step": 2374 }, { "epoch": 4.95, "grad_norm": 1.7793174982070923, "learning_rate": 3.764583333333334e-05, "loss": 0.1054, "step": 2376 }, { "epoch": 4.954166666666667, "grad_norm": 1.119338035583496, "learning_rate": 3.7635416666666666e-05, "loss": 0.0903, "step": 2378 }, { "epoch": 4.958333333333333, "grad_norm": 2.032561779022217, "learning_rate": 3.7625e-05, "loss": 0.0996, "step": 2380 }, { "epoch": 4.9625, "grad_norm": 1.0437366962432861, "learning_rate": 3.7614583333333334e-05, "loss": 0.0703, "step": 2382 }, { "epoch": 4.966666666666667, "grad_norm": 2.9778685569763184, "learning_rate": 3.760416666666667e-05, "loss": 0.0669, "step": 2384 }, { "epoch": 4.970833333333333, "grad_norm": 1.4184067249298096, "learning_rate": 3.759375e-05, "loss": 0.088, "step": 2386 }, { "epoch": 4.975, "grad_norm": 0.9101529717445374, "learning_rate": 3.7583333333333337e-05, "loss": 0.0576, "step": 2388 }, { "epoch": 4.979166666666667, "grad_norm": 0.803147554397583, "learning_rate": 3.757291666666667e-05, "loss": 0.0978, "step": 2390 }, { "epoch": 4.983333333333333, "grad_norm": 1.2611807584762573, "learning_rate": 3.75625e-05, "loss": 0.0773, "step": 2392 }, { "epoch": 4.9875, "grad_norm": 1.0854650735855103, "learning_rate": 3.755208333333334e-05, "loss": 0.0733, "step": 2394 }, { "epoch": 4.991666666666667, "grad_norm": 0.9001777172088623, "learning_rate": 3.754166666666667e-05, "loss": 0.0769, "step": 2396 }, { "epoch": 4.995833333333334, "grad_norm": 1.1789345741271973, "learning_rate": 3.753125e-05, "loss": 0.0718, "step": 2398 }, { "epoch": 5.0, "grad_norm": 1.1462388038635254, "learning_rate": 3.7520833333333335e-05, "loss": 0.0763, "step": 2400 }, { "epoch": 5.0, "eval_cer": 0.06610950688582852, "eval_loss": 0.3830394744873047, "eval_runtime": 75.7997, "eval_samples_per_second": 5.198, "eval_steps_per_second": 0.66, "step": 2400 }, { "epoch": 5.004166666666666, "grad_norm": 1.132398247718811, "learning_rate": 3.751041666666667e-05, "loss": 0.0608, "step": 2402 }, { "epoch": 5.008333333333334, "grad_norm": 0.9063559770584106, "learning_rate": 3.7500000000000003e-05, "loss": 0.0687, "step": 2404 }, { "epoch": 5.0125, "grad_norm": 0.7586837410926819, "learning_rate": 3.748958333333333e-05, "loss": 0.0497, "step": 2406 }, { "epoch": 5.016666666666667, "grad_norm": 0.7744643688201904, "learning_rate": 3.747916666666667e-05, "loss": 0.0385, "step": 2408 }, { "epoch": 5.020833333333333, "grad_norm": 0.6757922768592834, "learning_rate": 3.746875e-05, "loss": 0.0485, "step": 2410 }, { "epoch": 5.025, "grad_norm": 0.8567860722541809, "learning_rate": 3.7458333333333334e-05, "loss": 0.0501, "step": 2412 }, { "epoch": 5.029166666666667, "grad_norm": 1.0616141557693481, "learning_rate": 3.744791666666667e-05, "loss": 0.0809, "step": 2414 }, { "epoch": 5.033333333333333, "grad_norm": 2.053734540939331, "learning_rate": 3.74375e-05, "loss": 0.0524, "step": 2416 }, { "epoch": 5.0375, "grad_norm": 0.835599422454834, "learning_rate": 3.7427083333333336e-05, "loss": 0.0523, "step": 2418 }, { "epoch": 5.041666666666667, "grad_norm": 0.8837836384773254, "learning_rate": 3.7416666666666664e-05, "loss": 0.0493, "step": 2420 }, { "epoch": 5.045833333333333, "grad_norm": 0.5855209231376648, "learning_rate": 3.7406250000000005e-05, "loss": 0.0441, "step": 2422 }, { "epoch": 5.05, "grad_norm": 0.9204576015472412, "learning_rate": 3.739583333333334e-05, "loss": 0.0566, "step": 2424 }, { "epoch": 5.054166666666666, "grad_norm": 1.0872373580932617, "learning_rate": 3.7385416666666666e-05, "loss": 0.0392, "step": 2426 }, { "epoch": 5.058333333333334, "grad_norm": 0.8311589360237122, "learning_rate": 3.737500000000001e-05, "loss": 0.0805, "step": 2428 }, { "epoch": 5.0625, "grad_norm": 1.9081709384918213, "learning_rate": 3.7364583333333335e-05, "loss": 0.0497, "step": 2430 }, { "epoch": 5.066666666666666, "grad_norm": 1.1015366315841675, "learning_rate": 3.735416666666667e-05, "loss": 0.0602, "step": 2432 }, { "epoch": 5.070833333333334, "grad_norm": 0.9234455227851868, "learning_rate": 3.7343749999999996e-05, "loss": 0.0399, "step": 2434 }, { "epoch": 5.075, "grad_norm": 0.5000536441802979, "learning_rate": 3.733333333333334e-05, "loss": 0.0387, "step": 2436 }, { "epoch": 5.079166666666667, "grad_norm": 1.5928066968917847, "learning_rate": 3.732291666666667e-05, "loss": 0.0656, "step": 2438 }, { "epoch": 5.083333333333333, "grad_norm": 0.6684358716011047, "learning_rate": 3.73125e-05, "loss": 0.0385, "step": 2440 }, { "epoch": 5.0875, "grad_norm": 1.8007737398147583, "learning_rate": 3.730208333333334e-05, "loss": 0.059, "step": 2442 }, { "epoch": 5.091666666666667, "grad_norm": 0.994261622428894, "learning_rate": 3.729166666666667e-05, "loss": 0.0481, "step": 2444 }, { "epoch": 5.095833333333333, "grad_norm": 0.69858717918396, "learning_rate": 3.728125e-05, "loss": 0.0379, "step": 2446 }, { "epoch": 5.1, "grad_norm": 0.8273757100105286, "learning_rate": 3.7270833333333336e-05, "loss": 0.0446, "step": 2448 }, { "epoch": 5.104166666666667, "grad_norm": 0.8043885231018066, "learning_rate": 3.726041666666667e-05, "loss": 0.0439, "step": 2450 }, { "epoch": 5.108333333333333, "grad_norm": 1.1051154136657715, "learning_rate": 3.7250000000000004e-05, "loss": 0.0721, "step": 2452 }, { "epoch": 5.1125, "grad_norm": 1.1423553228378296, "learning_rate": 3.723958333333333e-05, "loss": 0.0618, "step": 2454 }, { "epoch": 5.116666666666666, "grad_norm": 0.7707287669181824, "learning_rate": 3.722916666666667e-05, "loss": 0.0544, "step": 2456 }, { "epoch": 5.120833333333334, "grad_norm": 0.9261204600334167, "learning_rate": 3.721875e-05, "loss": 0.0717, "step": 2458 }, { "epoch": 5.125, "grad_norm": 0.922983705997467, "learning_rate": 3.7208333333333334e-05, "loss": 0.0657, "step": 2460 }, { "epoch": 5.129166666666666, "grad_norm": 1.178296685218811, "learning_rate": 3.719791666666667e-05, "loss": 0.054, "step": 2462 }, { "epoch": 5.133333333333334, "grad_norm": 0.6314437389373779, "learning_rate": 3.71875e-05, "loss": 0.0479, "step": 2464 }, { "epoch": 5.1375, "grad_norm": 0.8759678602218628, "learning_rate": 3.717708333333334e-05, "loss": 0.0654, "step": 2466 }, { "epoch": 5.141666666666667, "grad_norm": 1.0581141710281372, "learning_rate": 3.7166666666666664e-05, "loss": 0.0489, "step": 2468 }, { "epoch": 5.145833333333333, "grad_norm": 0.7064672708511353, "learning_rate": 3.7156250000000005e-05, "loss": 0.0372, "step": 2470 }, { "epoch": 5.15, "grad_norm": 0.8282302021980286, "learning_rate": 3.714583333333333e-05, "loss": 0.0434, "step": 2472 }, { "epoch": 5.154166666666667, "grad_norm": 0.905379056930542, "learning_rate": 3.713541666666667e-05, "loss": 0.0487, "step": 2474 }, { "epoch": 5.158333333333333, "grad_norm": 2.773913621902466, "learning_rate": 3.7125e-05, "loss": 0.0642, "step": 2476 }, { "epoch": 5.1625, "grad_norm": 1.2170192003250122, "learning_rate": 3.7114583333333335e-05, "loss": 0.052, "step": 2478 }, { "epoch": 5.166666666666667, "grad_norm": 0.7914606928825378, "learning_rate": 3.710416666666667e-05, "loss": 0.0438, "step": 2480 }, { "epoch": 5.170833333333333, "grad_norm": 1.155677318572998, "learning_rate": 3.709375e-05, "loss": 0.0477, "step": 2482 }, { "epoch": 5.175, "grad_norm": 0.8174052238464355, "learning_rate": 3.708333333333334e-05, "loss": 0.0561, "step": 2484 }, { "epoch": 5.179166666666666, "grad_norm": 0.8234705924987793, "learning_rate": 3.7072916666666665e-05, "loss": 0.0458, "step": 2486 }, { "epoch": 5.183333333333334, "grad_norm": 1.870845079421997, "learning_rate": 3.70625e-05, "loss": 0.0613, "step": 2488 }, { "epoch": 5.1875, "grad_norm": 0.8638026714324951, "learning_rate": 3.705208333333334e-05, "loss": 0.0461, "step": 2490 }, { "epoch": 5.191666666666666, "grad_norm": 0.9506574273109436, "learning_rate": 3.704166666666667e-05, "loss": 0.0496, "step": 2492 }, { "epoch": 5.195833333333334, "grad_norm": 0.7496784925460815, "learning_rate": 3.703125e-05, "loss": 0.0713, "step": 2494 }, { "epoch": 5.2, "grad_norm": 0.6133871674537659, "learning_rate": 3.702083333333333e-05, "loss": 0.0405, "step": 2496 }, { "epoch": 5.204166666666667, "grad_norm": 0.6000816226005554, "learning_rate": 3.701041666666667e-05, "loss": 0.049, "step": 2498 }, { "epoch": 5.208333333333333, "grad_norm": 0.768527090549469, "learning_rate": 3.7e-05, "loss": 0.0414, "step": 2500 }, { "epoch": 5.2125, "grad_norm": 0.5150195956230164, "learning_rate": 3.698958333333333e-05, "loss": 0.0382, "step": 2502 }, { "epoch": 5.216666666666667, "grad_norm": 0.8453391790390015, "learning_rate": 3.697916666666667e-05, "loss": 0.0573, "step": 2504 }, { "epoch": 5.220833333333333, "grad_norm": 0.764140784740448, "learning_rate": 3.696875e-05, "loss": 0.0424, "step": 2506 }, { "epoch": 5.225, "grad_norm": 1.0673561096191406, "learning_rate": 3.6958333333333335e-05, "loss": 0.0456, "step": 2508 }, { "epoch": 5.229166666666667, "grad_norm": 0.7286517024040222, "learning_rate": 3.694791666666667e-05, "loss": 0.0499, "step": 2510 }, { "epoch": 5.233333333333333, "grad_norm": 2.018610715866089, "learning_rate": 3.69375e-05, "loss": 0.0601, "step": 2512 }, { "epoch": 5.2375, "grad_norm": 0.6812163591384888, "learning_rate": 3.692708333333334e-05, "loss": 0.0382, "step": 2514 }, { "epoch": 5.241666666666666, "grad_norm": 1.1947760581970215, "learning_rate": 3.6916666666666665e-05, "loss": 0.0534, "step": 2516 }, { "epoch": 5.245833333333334, "grad_norm": 1.140089988708496, "learning_rate": 3.6906250000000006e-05, "loss": 0.044, "step": 2518 }, { "epoch": 5.25, "grad_norm": 0.6578356027603149, "learning_rate": 3.6895833333333333e-05, "loss": 0.0509, "step": 2520 }, { "epoch": 5.254166666666666, "grad_norm": 0.8344497084617615, "learning_rate": 3.688541666666667e-05, "loss": 0.0663, "step": 2522 }, { "epoch": 5.258333333333334, "grad_norm": 0.7982586026191711, "learning_rate": 3.6875e-05, "loss": 0.0504, "step": 2524 }, { "epoch": 5.2625, "grad_norm": 0.7293350696563721, "learning_rate": 3.6864583333333336e-05, "loss": 0.0436, "step": 2526 }, { "epoch": 5.266666666666667, "grad_norm": 0.5722155570983887, "learning_rate": 3.685416666666667e-05, "loss": 0.0455, "step": 2528 }, { "epoch": 5.270833333333333, "grad_norm": 0.7721129059791565, "learning_rate": 3.684375e-05, "loss": 0.0443, "step": 2530 }, { "epoch": 5.275, "grad_norm": 0.5428027510643005, "learning_rate": 3.683333333333334e-05, "loss": 0.0322, "step": 2532 }, { "epoch": 5.279166666666667, "grad_norm": 0.9426686763763428, "learning_rate": 3.6822916666666666e-05, "loss": 0.0522, "step": 2534 }, { "epoch": 5.283333333333333, "grad_norm": 1.6883223056793213, "learning_rate": 3.68125e-05, "loss": 0.0565, "step": 2536 }, { "epoch": 5.2875, "grad_norm": 0.5891979336738586, "learning_rate": 3.6802083333333335e-05, "loss": 0.041, "step": 2538 }, { "epoch": 5.291666666666667, "grad_norm": 0.6974090337753296, "learning_rate": 3.679166666666667e-05, "loss": 0.0443, "step": 2540 }, { "epoch": 5.295833333333333, "grad_norm": 0.7828706502914429, "learning_rate": 3.678125e-05, "loss": 0.0437, "step": 2542 }, { "epoch": 5.3, "grad_norm": 0.6532854437828064, "learning_rate": 3.677083333333334e-05, "loss": 0.05, "step": 2544 }, { "epoch": 5.304166666666666, "grad_norm": 0.7239634990692139, "learning_rate": 3.676041666666667e-05, "loss": 0.0433, "step": 2546 }, { "epoch": 5.308333333333334, "grad_norm": 0.6610756516456604, "learning_rate": 3.675e-05, "loss": 0.0462, "step": 2548 }, { "epoch": 5.3125, "grad_norm": 1.6127554178237915, "learning_rate": 3.673958333333333e-05, "loss": 0.0571, "step": 2550 }, { "epoch": 5.316666666666666, "grad_norm": 0.8935465812683105, "learning_rate": 3.672916666666667e-05, "loss": 0.0411, "step": 2552 }, { "epoch": 5.320833333333334, "grad_norm": 0.7832165956497192, "learning_rate": 3.671875e-05, "loss": 0.0441, "step": 2554 }, { "epoch": 5.325, "grad_norm": 0.9644132852554321, "learning_rate": 3.6708333333333336e-05, "loss": 0.0471, "step": 2556 }, { "epoch": 5.329166666666667, "grad_norm": 2.0431313514709473, "learning_rate": 3.669791666666667e-05, "loss": 0.0429, "step": 2558 }, { "epoch": 5.333333333333333, "grad_norm": 1.507076621055603, "learning_rate": 3.6687500000000004e-05, "loss": 0.0489, "step": 2560 }, { "epoch": 5.3375, "grad_norm": 0.8241515159606934, "learning_rate": 3.667708333333333e-05, "loss": 0.0515, "step": 2562 }, { "epoch": 5.341666666666667, "grad_norm": 0.7502815127372742, "learning_rate": 3.6666666666666666e-05, "loss": 0.0585, "step": 2564 }, { "epoch": 5.345833333333333, "grad_norm": 0.7602462768554688, "learning_rate": 3.665625e-05, "loss": 0.0579, "step": 2566 }, { "epoch": 5.35, "grad_norm": 0.919722318649292, "learning_rate": 3.6645833333333334e-05, "loss": 0.0513, "step": 2568 }, { "epoch": 5.354166666666667, "grad_norm": 0.5642776489257812, "learning_rate": 3.663541666666667e-05, "loss": 0.0554, "step": 2570 }, { "epoch": 5.358333333333333, "grad_norm": 0.8725467324256897, "learning_rate": 3.6625e-05, "loss": 0.057, "step": 2572 }, { "epoch": 5.3625, "grad_norm": 1.9989781379699707, "learning_rate": 3.661458333333334e-05, "loss": 0.0597, "step": 2574 }, { "epoch": 5.366666666666666, "grad_norm": 1.4933115243911743, "learning_rate": 3.6604166666666664e-05, "loss": 0.0454, "step": 2576 }, { "epoch": 5.370833333333334, "grad_norm": 1.1558510065078735, "learning_rate": 3.6593750000000005e-05, "loss": 0.0559, "step": 2578 }, { "epoch": 5.375, "grad_norm": 0.5884489417076111, "learning_rate": 3.658333333333334e-05, "loss": 0.0384, "step": 2580 }, { "epoch": 5.379166666666666, "grad_norm": 0.6591824889183044, "learning_rate": 3.657291666666667e-05, "loss": 0.058, "step": 2582 }, { "epoch": 5.383333333333334, "grad_norm": 0.6797054409980774, "learning_rate": 3.65625e-05, "loss": 0.0439, "step": 2584 }, { "epoch": 5.3875, "grad_norm": 0.6785730123519897, "learning_rate": 3.6552083333333335e-05, "loss": 0.0524, "step": 2586 }, { "epoch": 5.391666666666667, "grad_norm": 0.9170335531234741, "learning_rate": 3.654166666666667e-05, "loss": 0.0588, "step": 2588 }, { "epoch": 5.395833333333333, "grad_norm": 0.9308131337165833, "learning_rate": 3.653125e-05, "loss": 0.055, "step": 2590 }, { "epoch": 5.4, "grad_norm": 0.9203269481658936, "learning_rate": 3.652083333333334e-05, "loss": 0.0651, "step": 2592 }, { "epoch": 5.404166666666667, "grad_norm": 0.8218544125556946, "learning_rate": 3.651041666666667e-05, "loss": 0.0527, "step": 2594 }, { "epoch": 5.408333333333333, "grad_norm": 0.7530044317245483, "learning_rate": 3.65e-05, "loss": 0.0414, "step": 2596 }, { "epoch": 5.4125, "grad_norm": 0.8052092790603638, "learning_rate": 3.6489583333333334e-05, "loss": 0.0412, "step": 2598 }, { "epoch": 5.416666666666667, "grad_norm": 2.6148431301116943, "learning_rate": 3.647916666666667e-05, "loss": 0.0632, "step": 2600 }, { "epoch": 5.416666666666667, "eval_cer": 0.06488782763216348, "eval_loss": 0.3851553201675415, "eval_runtime": 75.3963, "eval_samples_per_second": 5.226, "eval_steps_per_second": 0.663, "step": 2600 }, { "epoch": 5.420833333333333, "grad_norm": 0.5943480134010315, "learning_rate": 3.646875e-05, "loss": 0.048, "step": 2602 }, { "epoch": 5.425, "grad_norm": 0.9031876921653748, "learning_rate": 3.6458333333333336e-05, "loss": 0.0506, "step": 2604 }, { "epoch": 5.429166666666666, "grad_norm": 1.2426021099090576, "learning_rate": 3.644791666666667e-05, "loss": 0.0647, "step": 2606 }, { "epoch": 5.433333333333334, "grad_norm": 0.8665406107902527, "learning_rate": 3.6437500000000005e-05, "loss": 0.0457, "step": 2608 }, { "epoch": 5.4375, "grad_norm": 0.5680015683174133, "learning_rate": 3.642708333333333e-05, "loss": 0.0474, "step": 2610 }, { "epoch": 5.441666666666666, "grad_norm": 0.6127637028694153, "learning_rate": 3.641666666666667e-05, "loss": 0.0451, "step": 2612 }, { "epoch": 5.445833333333334, "grad_norm": 0.8502368330955505, "learning_rate": 3.640625e-05, "loss": 0.0592, "step": 2614 }, { "epoch": 5.45, "grad_norm": 1.0151304006576538, "learning_rate": 3.6395833333333335e-05, "loss": 0.0498, "step": 2616 }, { "epoch": 5.454166666666667, "grad_norm": 1.0276535749435425, "learning_rate": 3.638541666666667e-05, "loss": 0.0627, "step": 2618 }, { "epoch": 5.458333333333333, "grad_norm": 12.334195137023926, "learning_rate": 3.6375e-05, "loss": 0.0524, "step": 2620 }, { "epoch": 5.4625, "grad_norm": 0.9506769776344299, "learning_rate": 3.636458333333334e-05, "loss": 0.0456, "step": 2622 }, { "epoch": 5.466666666666667, "grad_norm": 0.8470591306686401, "learning_rate": 3.6354166666666665e-05, "loss": 0.0578, "step": 2624 }, { "epoch": 5.470833333333333, "grad_norm": 0.7448152899742126, "learning_rate": 3.6343750000000006e-05, "loss": 0.0451, "step": 2626 }, { "epoch": 5.475, "grad_norm": 1.0958327054977417, "learning_rate": 3.633333333333333e-05, "loss": 0.0429, "step": 2628 }, { "epoch": 5.479166666666667, "grad_norm": 0.7991223335266113, "learning_rate": 3.632291666666667e-05, "loss": 0.0447, "step": 2630 }, { "epoch": 5.483333333333333, "grad_norm": 0.9046729207038879, "learning_rate": 3.63125e-05, "loss": 0.061, "step": 2632 }, { "epoch": 5.4875, "grad_norm": 0.7310634255409241, "learning_rate": 3.6302083333333336e-05, "loss": 0.0361, "step": 2634 }, { "epoch": 5.491666666666666, "grad_norm": 1.1607428789138794, "learning_rate": 3.629166666666667e-05, "loss": 0.052, "step": 2636 }, { "epoch": 5.495833333333334, "grad_norm": 0.8772426247596741, "learning_rate": 3.628125e-05, "loss": 0.0471, "step": 2638 }, { "epoch": 5.5, "grad_norm": 1.5210353136062622, "learning_rate": 3.627083333333334e-05, "loss": 0.0661, "step": 2640 }, { "epoch": 5.504166666666666, "grad_norm": 0.799414336681366, "learning_rate": 3.6260416666666666e-05, "loss": 0.0556, "step": 2642 }, { "epoch": 5.508333333333333, "grad_norm": 0.673536479473114, "learning_rate": 3.625e-05, "loss": 0.0326, "step": 2644 }, { "epoch": 5.5125, "grad_norm": 0.8308578133583069, "learning_rate": 3.6239583333333334e-05, "loss": 0.047, "step": 2646 }, { "epoch": 5.516666666666667, "grad_norm": 0.7136927843093872, "learning_rate": 3.622916666666667e-05, "loss": 0.0421, "step": 2648 }, { "epoch": 5.520833333333333, "grad_norm": 0.9264256954193115, "learning_rate": 3.621875e-05, "loss": 0.0408, "step": 2650 }, { "epoch": 5.525, "grad_norm": 0.6983962059020996, "learning_rate": 3.620833333333333e-05, "loss": 0.0533, "step": 2652 }, { "epoch": 5.529166666666667, "grad_norm": 1.5968928337097168, "learning_rate": 3.619791666666667e-05, "loss": 0.0684, "step": 2654 }, { "epoch": 5.533333333333333, "grad_norm": 0.7796410918235779, "learning_rate": 3.61875e-05, "loss": 0.05, "step": 2656 }, { "epoch": 5.5375, "grad_norm": 0.7401041388511658, "learning_rate": 3.617708333333333e-05, "loss": 0.0627, "step": 2658 }, { "epoch": 5.541666666666667, "grad_norm": 0.7048825025558472, "learning_rate": 3.6166666666666674e-05, "loss": 0.0571, "step": 2660 }, { "epoch": 5.545833333333333, "grad_norm": 0.7255353927612305, "learning_rate": 3.615625e-05, "loss": 0.0551, "step": 2662 }, { "epoch": 5.55, "grad_norm": 0.768399178981781, "learning_rate": 3.6145833333333336e-05, "loss": 0.0546, "step": 2664 }, { "epoch": 5.554166666666667, "grad_norm": 2.703899383544922, "learning_rate": 3.613541666666666e-05, "loss": 0.0612, "step": 2666 }, { "epoch": 5.558333333333334, "grad_norm": 0.585629940032959, "learning_rate": 3.6125000000000004e-05, "loss": 0.0321, "step": 2668 }, { "epoch": 5.5625, "grad_norm": 0.7603168487548828, "learning_rate": 3.611458333333334e-05, "loss": 0.0457, "step": 2670 }, { "epoch": 5.566666666666666, "grad_norm": 1.1885192394256592, "learning_rate": 3.6104166666666666e-05, "loss": 0.0636, "step": 2672 }, { "epoch": 5.570833333333333, "grad_norm": 1.060399055480957, "learning_rate": 3.6093750000000007e-05, "loss": 0.0332, "step": 2674 }, { "epoch": 5.575, "grad_norm": 2.802557945251465, "learning_rate": 3.6083333333333334e-05, "loss": 0.0511, "step": 2676 }, { "epoch": 5.579166666666667, "grad_norm": 1.0535961389541626, "learning_rate": 3.607291666666667e-05, "loss": 0.0646, "step": 2678 }, { "epoch": 5.583333333333333, "grad_norm": 0.868808388710022, "learning_rate": 3.60625e-05, "loss": 0.0535, "step": 2680 }, { "epoch": 5.5875, "grad_norm": 1.0458916425704956, "learning_rate": 3.605208333333334e-05, "loss": 0.0422, "step": 2682 }, { "epoch": 5.591666666666667, "grad_norm": 1.4351284503936768, "learning_rate": 3.604166666666667e-05, "loss": 0.0556, "step": 2684 }, { "epoch": 5.595833333333333, "grad_norm": 0.838235080242157, "learning_rate": 3.603125e-05, "loss": 0.058, "step": 2686 }, { "epoch": 5.6, "grad_norm": 0.719954788684845, "learning_rate": 3.602083333333334e-05, "loss": 0.0477, "step": 2688 }, { "epoch": 5.604166666666667, "grad_norm": 1.1777448654174805, "learning_rate": 3.601041666666667e-05, "loss": 0.037, "step": 2690 }, { "epoch": 5.608333333333333, "grad_norm": 1.1050045490264893, "learning_rate": 3.6e-05, "loss": 0.0473, "step": 2692 }, { "epoch": 5.6125, "grad_norm": 1.0152617692947388, "learning_rate": 3.5989583333333335e-05, "loss": 0.0606, "step": 2694 }, { "epoch": 5.616666666666667, "grad_norm": 0.836534857749939, "learning_rate": 3.597916666666667e-05, "loss": 0.0454, "step": 2696 }, { "epoch": 5.620833333333334, "grad_norm": 0.8727936148643494, "learning_rate": 3.5968750000000004e-05, "loss": 0.057, "step": 2698 }, { "epoch": 5.625, "grad_norm": 1.0693390369415283, "learning_rate": 3.595833333333333e-05, "loss": 0.045, "step": 2700 }, { "epoch": 5.629166666666666, "grad_norm": 1.005640983581543, "learning_rate": 3.594791666666667e-05, "loss": 0.0707, "step": 2702 }, { "epoch": 5.633333333333333, "grad_norm": 0.7619301676750183, "learning_rate": 3.59375e-05, "loss": 0.0508, "step": 2704 }, { "epoch": 5.6375, "grad_norm": 0.700691282749176, "learning_rate": 3.5927083333333334e-05, "loss": 0.0414, "step": 2706 }, { "epoch": 5.641666666666667, "grad_norm": 0.7920345664024353, "learning_rate": 3.591666666666667e-05, "loss": 0.0464, "step": 2708 }, { "epoch": 5.645833333333333, "grad_norm": 1.9108598232269287, "learning_rate": 3.590625e-05, "loss": 0.0457, "step": 2710 }, { "epoch": 5.65, "grad_norm": 0.8695981502532959, "learning_rate": 3.5895833333333336e-05, "loss": 0.0527, "step": 2712 }, { "epoch": 5.654166666666667, "grad_norm": 0.6881731748580933, "learning_rate": 3.5885416666666664e-05, "loss": 0.0528, "step": 2714 }, { "epoch": 5.658333333333333, "grad_norm": 1.3906652927398682, "learning_rate": 3.5875000000000005e-05, "loss": 0.0434, "step": 2716 }, { "epoch": 5.6625, "grad_norm": 0.6082821488380432, "learning_rate": 3.586458333333333e-05, "loss": 0.0349, "step": 2718 }, { "epoch": 5.666666666666667, "grad_norm": 0.7210107445716858, "learning_rate": 3.5854166666666666e-05, "loss": 0.0408, "step": 2720 }, { "epoch": 5.670833333333333, "grad_norm": 1.1649150848388672, "learning_rate": 3.584375e-05, "loss": 0.0617, "step": 2722 }, { "epoch": 5.675, "grad_norm": 1.1003937721252441, "learning_rate": 3.5833333333333335e-05, "loss": 0.0628, "step": 2724 }, { "epoch": 5.679166666666667, "grad_norm": 1.0551587343215942, "learning_rate": 3.582291666666667e-05, "loss": 0.0566, "step": 2726 }, { "epoch": 5.683333333333334, "grad_norm": 0.6256464719772339, "learning_rate": 3.58125e-05, "loss": 0.0441, "step": 2728 }, { "epoch": 5.6875, "grad_norm": 0.5516342520713806, "learning_rate": 3.580208333333334e-05, "loss": 0.0615, "step": 2730 }, { "epoch": 5.691666666666666, "grad_norm": 0.7774267196655273, "learning_rate": 3.5791666666666665e-05, "loss": 0.0446, "step": 2732 }, { "epoch": 5.695833333333333, "grad_norm": 0.9003419876098633, "learning_rate": 3.578125e-05, "loss": 0.0486, "step": 2734 }, { "epoch": 5.7, "grad_norm": 0.7800949811935425, "learning_rate": 3.577083333333334e-05, "loss": 0.0559, "step": 2736 }, { "epoch": 5.704166666666667, "grad_norm": 1.0478402376174927, "learning_rate": 3.576041666666667e-05, "loss": 0.0715, "step": 2738 }, { "epoch": 5.708333333333333, "grad_norm": 0.6734422445297241, "learning_rate": 3.575e-05, "loss": 0.048, "step": 2740 }, { "epoch": 5.7125, "grad_norm": 0.6664404273033142, "learning_rate": 3.5739583333333336e-05, "loss": 0.0504, "step": 2742 }, { "epoch": 5.716666666666667, "grad_norm": 0.9647298455238342, "learning_rate": 3.572916666666667e-05, "loss": 0.0477, "step": 2744 }, { "epoch": 5.720833333333333, "grad_norm": 0.7399818897247314, "learning_rate": 3.571875e-05, "loss": 0.052, "step": 2746 }, { "epoch": 5.725, "grad_norm": 1.0071414709091187, "learning_rate": 3.570833333333333e-05, "loss": 0.0415, "step": 2748 }, { "epoch": 5.729166666666667, "grad_norm": 1.6890517473220825, "learning_rate": 3.569791666666667e-05, "loss": 0.0587, "step": 2750 }, { "epoch": 5.733333333333333, "grad_norm": 1.3964580297470093, "learning_rate": 3.56875e-05, "loss": 0.0483, "step": 2752 }, { "epoch": 5.7375, "grad_norm": 0.8350498676300049, "learning_rate": 3.5677083333333334e-05, "loss": 0.0528, "step": 2754 }, { "epoch": 5.741666666666667, "grad_norm": 0.808256208896637, "learning_rate": 3.566666666666667e-05, "loss": 0.0443, "step": 2756 }, { "epoch": 5.745833333333334, "grad_norm": 1.09520423412323, "learning_rate": 3.565625e-05, "loss": 0.0464, "step": 2758 }, { "epoch": 5.75, "grad_norm": 1.0167288780212402, "learning_rate": 3.564583333333334e-05, "loss": 0.0604, "step": 2760 }, { "epoch": 5.754166666666666, "grad_norm": 0.9754977226257324, "learning_rate": 3.563541666666667e-05, "loss": 0.0605, "step": 2762 }, { "epoch": 5.758333333333333, "grad_norm": 1.5287244319915771, "learning_rate": 3.5625000000000005e-05, "loss": 0.0549, "step": 2764 }, { "epoch": 5.7625, "grad_norm": 0.7669677734375, "learning_rate": 3.561458333333333e-05, "loss": 0.0408, "step": 2766 }, { "epoch": 5.766666666666667, "grad_norm": 2.0436058044433594, "learning_rate": 3.560416666666667e-05, "loss": 0.0809, "step": 2768 }, { "epoch": 5.770833333333333, "grad_norm": 0.7597618699073792, "learning_rate": 3.559375e-05, "loss": 0.0457, "step": 2770 }, { "epoch": 5.775, "grad_norm": 0.8737605810165405, "learning_rate": 3.5583333333333335e-05, "loss": 0.0462, "step": 2772 }, { "epoch": 5.779166666666667, "grad_norm": 0.7941930294036865, "learning_rate": 3.557291666666667e-05, "loss": 0.0601, "step": 2774 }, { "epoch": 5.783333333333333, "grad_norm": 0.7812413573265076, "learning_rate": 3.5562500000000004e-05, "loss": 0.037, "step": 2776 }, { "epoch": 5.7875, "grad_norm": 1.0341219902038574, "learning_rate": 3.555208333333334e-05, "loss": 0.0556, "step": 2778 }, { "epoch": 5.791666666666667, "grad_norm": 3.813833713531494, "learning_rate": 3.5541666666666665e-05, "loss": 0.0707, "step": 2780 }, { "epoch": 5.795833333333333, "grad_norm": 0.7832286953926086, "learning_rate": 3.553125e-05, "loss": 0.05, "step": 2782 }, { "epoch": 5.8, "grad_norm": 1.8136810064315796, "learning_rate": 3.5520833333333334e-05, "loss": 0.061, "step": 2784 }, { "epoch": 5.804166666666667, "grad_norm": 0.7565733790397644, "learning_rate": 3.551041666666667e-05, "loss": 0.0529, "step": 2786 }, { "epoch": 5.808333333333334, "grad_norm": 0.5913260579109192, "learning_rate": 3.55e-05, "loss": 0.0517, "step": 2788 }, { "epoch": 5.8125, "grad_norm": 0.9104582071304321, "learning_rate": 3.5489583333333337e-05, "loss": 0.0477, "step": 2790 }, { "epoch": 5.816666666666666, "grad_norm": 0.7715944647789001, "learning_rate": 3.547916666666667e-05, "loss": 0.0724, "step": 2792 }, { "epoch": 5.820833333333333, "grad_norm": 0.9155409932136536, "learning_rate": 3.546875e-05, "loss": 0.0543, "step": 2794 }, { "epoch": 5.825, "grad_norm": 1.382066011428833, "learning_rate": 3.545833333333333e-05, "loss": 0.062, "step": 2796 }, { "epoch": 5.829166666666667, "grad_norm": 1.0368305444717407, "learning_rate": 3.5447916666666667e-05, "loss": 0.0815, "step": 2798 }, { "epoch": 5.833333333333333, "grad_norm": 1.6131657361984253, "learning_rate": 3.54375e-05, "loss": 0.0449, "step": 2800 }, { "epoch": 5.833333333333333, "eval_cer": 0.06316637050199911, "eval_loss": 0.3901619017124176, "eval_runtime": 75.9502, "eval_samples_per_second": 5.188, "eval_steps_per_second": 0.658, "step": 2800 }, { "epoch": 5.8375, "grad_norm": 2.6503212451934814, "learning_rate": 3.5427083333333335e-05, "loss": 0.0679, "step": 2802 }, { "epoch": 5.841666666666667, "grad_norm": 0.8777520656585693, "learning_rate": 3.541666666666667e-05, "loss": 0.0704, "step": 2804 }, { "epoch": 5.845833333333333, "grad_norm": 2.032722234725952, "learning_rate": 3.5406250000000003e-05, "loss": 0.0659, "step": 2806 }, { "epoch": 5.85, "grad_norm": 0.8586663007736206, "learning_rate": 3.539583333333333e-05, "loss": 0.0489, "step": 2808 }, { "epoch": 5.854166666666667, "grad_norm": 0.7829291224479675, "learning_rate": 3.538541666666667e-05, "loss": 0.0372, "step": 2810 }, { "epoch": 5.858333333333333, "grad_norm": 2.8571383953094482, "learning_rate": 3.5375e-05, "loss": 0.0793, "step": 2812 }, { "epoch": 5.8625, "grad_norm": 0.7953184247016907, "learning_rate": 3.5364583333333333e-05, "loss": 0.0515, "step": 2814 }, { "epoch": 5.866666666666667, "grad_norm": 0.8535019159317017, "learning_rate": 3.535416666666667e-05, "loss": 0.0567, "step": 2816 }, { "epoch": 5.870833333333334, "grad_norm": 1.0713527202606201, "learning_rate": 3.534375e-05, "loss": 0.0622, "step": 2818 }, { "epoch": 5.875, "grad_norm": 0.9551832675933838, "learning_rate": 3.5333333333333336e-05, "loss": 0.0685, "step": 2820 }, { "epoch": 5.879166666666666, "grad_norm": 0.6873246431350708, "learning_rate": 3.5322916666666664e-05, "loss": 0.0535, "step": 2822 }, { "epoch": 5.883333333333333, "grad_norm": 0.9993751645088196, "learning_rate": 3.5312500000000005e-05, "loss": 0.0628, "step": 2824 }, { "epoch": 5.8875, "grad_norm": 0.7553026676177979, "learning_rate": 3.530208333333334e-05, "loss": 0.0559, "step": 2826 }, { "epoch": 5.891666666666667, "grad_norm": 1.1723288297653198, "learning_rate": 3.5291666666666666e-05, "loss": 0.0559, "step": 2828 }, { "epoch": 5.895833333333333, "grad_norm": 1.0020556449890137, "learning_rate": 3.528125e-05, "loss": 0.0402, "step": 2830 }, { "epoch": 5.9, "grad_norm": 0.8610193133354187, "learning_rate": 3.5270833333333335e-05, "loss": 0.0672, "step": 2832 }, { "epoch": 5.904166666666667, "grad_norm": 0.9014437198638916, "learning_rate": 3.526041666666667e-05, "loss": 0.0561, "step": 2834 }, { "epoch": 5.908333333333333, "grad_norm": 1.2835534811019897, "learning_rate": 3.525e-05, "loss": 0.0563, "step": 2836 }, { "epoch": 5.9125, "grad_norm": 0.8136109113693237, "learning_rate": 3.523958333333334e-05, "loss": 0.046, "step": 2838 }, { "epoch": 5.916666666666667, "grad_norm": 0.9141510725021362, "learning_rate": 3.522916666666667e-05, "loss": 0.0438, "step": 2840 }, { "epoch": 5.920833333333333, "grad_norm": 0.8437463045120239, "learning_rate": 3.521875e-05, "loss": 0.0454, "step": 2842 }, { "epoch": 5.925, "grad_norm": 0.8013039827346802, "learning_rate": 3.520833333333334e-05, "loss": 0.0598, "step": 2844 }, { "epoch": 5.929166666666667, "grad_norm": 3.360915184020996, "learning_rate": 3.519791666666667e-05, "loss": 0.052, "step": 2846 }, { "epoch": 5.933333333333334, "grad_norm": 0.9238967895507812, "learning_rate": 3.51875e-05, "loss": 0.0474, "step": 2848 }, { "epoch": 5.9375, "grad_norm": 0.7635247111320496, "learning_rate": 3.5177083333333336e-05, "loss": 0.0574, "step": 2850 }, { "epoch": 5.941666666666666, "grad_norm": 0.6067724823951721, "learning_rate": 3.516666666666667e-05, "loss": 0.0447, "step": 2852 }, { "epoch": 5.945833333333333, "grad_norm": 1.4084893465042114, "learning_rate": 3.5156250000000004e-05, "loss": 0.0717, "step": 2854 }, { "epoch": 5.95, "grad_norm": 0.6527026891708374, "learning_rate": 3.514583333333333e-05, "loss": 0.0475, "step": 2856 }, { "epoch": 5.954166666666667, "grad_norm": 0.8050301671028137, "learning_rate": 3.513541666666667e-05, "loss": 0.0476, "step": 2858 }, { "epoch": 5.958333333333333, "grad_norm": 1.026193380355835, "learning_rate": 3.5125e-05, "loss": 0.059, "step": 2860 }, { "epoch": 5.9625, "grad_norm": 2.237765073776245, "learning_rate": 3.5114583333333334e-05, "loss": 0.0646, "step": 2862 }, { "epoch": 5.966666666666667, "grad_norm": 0.7925946116447449, "learning_rate": 3.510416666666667e-05, "loss": 0.0534, "step": 2864 }, { "epoch": 5.970833333333333, "grad_norm": 0.8243115544319153, "learning_rate": 3.509375e-05, "loss": 0.0421, "step": 2866 }, { "epoch": 5.975, "grad_norm": 1.1646242141723633, "learning_rate": 3.508333333333334e-05, "loss": 0.0431, "step": 2868 }, { "epoch": 5.979166666666667, "grad_norm": 0.7582091689109802, "learning_rate": 3.5072916666666664e-05, "loss": 0.0504, "step": 2870 }, { "epoch": 5.983333333333333, "grad_norm": 1.6565274000167847, "learning_rate": 3.5062500000000005e-05, "loss": 0.0639, "step": 2872 }, { "epoch": 5.9875, "grad_norm": 0.9797215461730957, "learning_rate": 3.505208333333333e-05, "loss": 0.0476, "step": 2874 }, { "epoch": 5.991666666666667, "grad_norm": 1.0296556949615479, "learning_rate": 3.504166666666667e-05, "loss": 0.0679, "step": 2876 }, { "epoch": 5.995833333333334, "grad_norm": 6.919270992279053, "learning_rate": 3.503125e-05, "loss": 0.058, "step": 2878 }, { "epoch": 6.0, "grad_norm": 0.6147159934043884, "learning_rate": 3.5020833333333335e-05, "loss": 0.0354, "step": 2880 }, { "epoch": 6.004166666666666, "grad_norm": 0.7298905849456787, "learning_rate": 3.501041666666667e-05, "loss": 0.0403, "step": 2882 }, { "epoch": 6.008333333333334, "grad_norm": 0.6034187078475952, "learning_rate": 3.5e-05, "loss": 0.0361, "step": 2884 }, { "epoch": 6.0125, "grad_norm": 0.544328510761261, "learning_rate": 3.498958333333334e-05, "loss": 0.0204, "step": 2886 }, { "epoch": 6.016666666666667, "grad_norm": 1.228520393371582, "learning_rate": 3.4979166666666665e-05, "loss": 0.0263, "step": 2888 }, { "epoch": 6.020833333333333, "grad_norm": 9.27348804473877, "learning_rate": 3.496875e-05, "loss": 0.0269, "step": 2890 }, { "epoch": 6.025, "grad_norm": 0.3944419026374817, "learning_rate": 3.495833333333334e-05, "loss": 0.0217, "step": 2892 }, { "epoch": 6.029166666666667, "grad_norm": 0.5108866691589355, "learning_rate": 3.494791666666667e-05, "loss": 0.035, "step": 2894 }, { "epoch": 6.033333333333333, "grad_norm": 0.8187614679336548, "learning_rate": 3.49375e-05, "loss": 0.0341, "step": 2896 }, { "epoch": 6.0375, "grad_norm": 1.661848545074463, "learning_rate": 3.492708333333333e-05, "loss": 0.0581, "step": 2898 }, { "epoch": 6.041666666666667, "grad_norm": 0.5319425463676453, "learning_rate": 3.491666666666667e-05, "loss": 0.0391, "step": 2900 }, { "epoch": 6.045833333333333, "grad_norm": 0.6203740835189819, "learning_rate": 3.4906250000000005e-05, "loss": 0.0314, "step": 2902 }, { "epoch": 6.05, "grad_norm": 0.7410362362861633, "learning_rate": 3.489583333333333e-05, "loss": 0.0392, "step": 2904 }, { "epoch": 6.054166666666666, "grad_norm": 0.5723545551300049, "learning_rate": 3.488541666666667e-05, "loss": 0.0226, "step": 2906 }, { "epoch": 6.058333333333334, "grad_norm": 0.6515635848045349, "learning_rate": 3.4875e-05, "loss": 0.0356, "step": 2908 }, { "epoch": 6.0625, "grad_norm": 0.5679872035980225, "learning_rate": 3.4864583333333335e-05, "loss": 0.0355, "step": 2910 }, { "epoch": 6.066666666666666, "grad_norm": 0.321390837430954, "learning_rate": 3.485416666666667e-05, "loss": 0.0302, "step": 2912 }, { "epoch": 6.070833333333334, "grad_norm": 0.4850442707538605, "learning_rate": 3.484375e-05, "loss": 0.0265, "step": 2914 }, { "epoch": 6.075, "grad_norm": 1.3495615720748901, "learning_rate": 3.483333333333334e-05, "loss": 0.0409, "step": 2916 }, { "epoch": 6.079166666666667, "grad_norm": 0.3608439862728119, "learning_rate": 3.4822916666666665e-05, "loss": 0.0196, "step": 2918 }, { "epoch": 6.083333333333333, "grad_norm": 0.5455142259597778, "learning_rate": 3.4812500000000006e-05, "loss": 0.0284, "step": 2920 }, { "epoch": 6.0875, "grad_norm": 0.68426114320755, "learning_rate": 3.480208333333333e-05, "loss": 0.0408, "step": 2922 }, { "epoch": 6.091666666666667, "grad_norm": 0.7200291156768799, "learning_rate": 3.479166666666667e-05, "loss": 0.0343, "step": 2924 }, { "epoch": 6.095833333333333, "grad_norm": 2.543065071105957, "learning_rate": 3.478125e-05, "loss": 0.0328, "step": 2926 }, { "epoch": 6.1, "grad_norm": 0.9447631239891052, "learning_rate": 3.4770833333333336e-05, "loss": 0.0373, "step": 2928 }, { "epoch": 6.104166666666667, "grad_norm": 1.3515363931655884, "learning_rate": 3.476041666666667e-05, "loss": 0.0431, "step": 2930 }, { "epoch": 6.108333333333333, "grad_norm": 0.5173853635787964, "learning_rate": 3.475e-05, "loss": 0.0225, "step": 2932 }, { "epoch": 6.1125, "grad_norm": 0.5761849284172058, "learning_rate": 3.473958333333334e-05, "loss": 0.0292, "step": 2934 }, { "epoch": 6.116666666666666, "grad_norm": 0.479602575302124, "learning_rate": 3.4729166666666666e-05, "loss": 0.0413, "step": 2936 }, { "epoch": 6.120833333333334, "grad_norm": 0.580207109451294, "learning_rate": 3.471875e-05, "loss": 0.0329, "step": 2938 }, { "epoch": 6.125, "grad_norm": 0.505294144153595, "learning_rate": 3.4708333333333334e-05, "loss": 0.0292, "step": 2940 }, { "epoch": 6.129166666666666, "grad_norm": 0.8375163674354553, "learning_rate": 3.469791666666667e-05, "loss": 0.0385, "step": 2942 }, { "epoch": 6.133333333333334, "grad_norm": 1.639440894126892, "learning_rate": 3.46875e-05, "loss": 0.0331, "step": 2944 }, { "epoch": 6.1375, "grad_norm": 0.48460081219673157, "learning_rate": 3.467708333333333e-05, "loss": 0.0237, "step": 2946 }, { "epoch": 6.141666666666667, "grad_norm": 1.6285066604614258, "learning_rate": 3.466666666666667e-05, "loss": 0.0368, "step": 2948 }, { "epoch": 6.145833333333333, "grad_norm": 0.6059957146644592, "learning_rate": 3.465625e-05, "loss": 0.0247, "step": 2950 }, { "epoch": 6.15, "grad_norm": 0.653791069984436, "learning_rate": 3.464583333333333e-05, "loss": 0.0244, "step": 2952 }, { "epoch": 6.154166666666667, "grad_norm": 1.7742559909820557, "learning_rate": 3.463541666666667e-05, "loss": 0.0382, "step": 2954 }, { "epoch": 6.158333333333333, "grad_norm": 0.47144046425819397, "learning_rate": 3.4625e-05, "loss": 0.0315, "step": 2956 }, { "epoch": 6.1625, "grad_norm": 0.5175449848175049, "learning_rate": 3.4614583333333336e-05, "loss": 0.0275, "step": 2958 }, { "epoch": 6.166666666666667, "grad_norm": 0.6871429085731506, "learning_rate": 3.460416666666667e-05, "loss": 0.0438, "step": 2960 }, { "epoch": 6.170833333333333, "grad_norm": 0.5127938389778137, "learning_rate": 3.4593750000000004e-05, "loss": 0.0273, "step": 2962 }, { "epoch": 6.175, "grad_norm": 0.8594480156898499, "learning_rate": 3.458333333333333e-05, "loss": 0.0237, "step": 2964 }, { "epoch": 6.179166666666666, "grad_norm": 1.2954217195510864, "learning_rate": 3.4572916666666666e-05, "loss": 0.027, "step": 2966 }, { "epoch": 6.183333333333334, "grad_norm": 0.9650796055793762, "learning_rate": 3.45625e-05, "loss": 0.0419, "step": 2968 }, { "epoch": 6.1875, "grad_norm": 1.510520577430725, "learning_rate": 3.4552083333333334e-05, "loss": 0.0376, "step": 2970 }, { "epoch": 6.191666666666666, "grad_norm": 0.8258828520774841, "learning_rate": 3.454166666666667e-05, "loss": 0.0477, "step": 2972 }, { "epoch": 6.195833333333334, "grad_norm": 0.6377150416374207, "learning_rate": 3.453125e-05, "loss": 0.0337, "step": 2974 }, { "epoch": 6.2, "grad_norm": 0.6492462158203125, "learning_rate": 3.452083333333334e-05, "loss": 0.0379, "step": 2976 }, { "epoch": 6.204166666666667, "grad_norm": 0.5571150183677673, "learning_rate": 3.4510416666666664e-05, "loss": 0.028, "step": 2978 }, { "epoch": 6.208333333333333, "grad_norm": 0.6077101826667786, "learning_rate": 3.45e-05, "loss": 0.0367, "step": 2980 }, { "epoch": 6.2125, "grad_norm": 0.6769101619720459, "learning_rate": 3.448958333333334e-05, "loss": 0.0347, "step": 2982 }, { "epoch": 6.216666666666667, "grad_norm": 0.485025554895401, "learning_rate": 3.447916666666667e-05, "loss": 0.0281, "step": 2984 }, { "epoch": 6.220833333333333, "grad_norm": 0.4775853455066681, "learning_rate": 3.446875e-05, "loss": 0.0318, "step": 2986 }, { "epoch": 6.225, "grad_norm": 0.5016751289367676, "learning_rate": 3.4458333333333335e-05, "loss": 0.0297, "step": 2988 }, { "epoch": 6.229166666666667, "grad_norm": 0.3551563024520874, "learning_rate": 3.444791666666667e-05, "loss": 0.025, "step": 2990 }, { "epoch": 6.233333333333333, "grad_norm": 0.5952440500259399, "learning_rate": 3.4437500000000004e-05, "loss": 0.0316, "step": 2992 }, { "epoch": 6.2375, "grad_norm": 0.9779202342033386, "learning_rate": 3.442708333333334e-05, "loss": 0.0324, "step": 2994 }, { "epoch": 6.241666666666666, "grad_norm": 0.8517048358917236, "learning_rate": 3.441666666666667e-05, "loss": 0.0396, "step": 2996 }, { "epoch": 6.245833333333334, "grad_norm": 1.3025754690170288, "learning_rate": 3.440625e-05, "loss": 0.0188, "step": 2998 }, { "epoch": 6.25, "grad_norm": 0.6911479830741882, "learning_rate": 3.4395833333333334e-05, "loss": 0.0369, "step": 3000 }, { "epoch": 6.25, "eval_cer": 0.06297201243891604, "eval_loss": 0.3909538686275482, "eval_runtime": 75.2566, "eval_samples_per_second": 5.235, "eval_steps_per_second": 0.664, "step": 3000 }, { "epoch": 6.254166666666666, "grad_norm": 0.7582861185073853, "learning_rate": 3.438541666666667e-05, "loss": 0.0396, "step": 3002 }, { "epoch": 6.258333333333334, "grad_norm": 0.6507039070129395, "learning_rate": 3.4375e-05, "loss": 0.0307, "step": 3004 }, { "epoch": 6.2625, "grad_norm": 0.5392362475395203, "learning_rate": 3.4364583333333336e-05, "loss": 0.0273, "step": 3006 }, { "epoch": 6.266666666666667, "grad_norm": 1.3425451517105103, "learning_rate": 3.435416666666667e-05, "loss": 0.039, "step": 3008 }, { "epoch": 6.270833333333333, "grad_norm": 0.8967355489730835, "learning_rate": 3.4343750000000005e-05, "loss": 0.0276, "step": 3010 }, { "epoch": 6.275, "grad_norm": 0.5520058870315552, "learning_rate": 3.433333333333333e-05, "loss": 0.0345, "step": 3012 }, { "epoch": 6.279166666666667, "grad_norm": 0.878490686416626, "learning_rate": 3.4322916666666666e-05, "loss": 0.026, "step": 3014 }, { "epoch": 6.283333333333333, "grad_norm": 0.5508630871772766, "learning_rate": 3.43125e-05, "loss": 0.0207, "step": 3016 }, { "epoch": 6.2875, "grad_norm": 1.836173415184021, "learning_rate": 3.4302083333333335e-05, "loss": 0.0287, "step": 3018 }, { "epoch": 6.291666666666667, "grad_norm": 0.5117208361625671, "learning_rate": 3.429166666666667e-05, "loss": 0.0303, "step": 3020 }, { "epoch": 6.295833333333333, "grad_norm": 0.752200186252594, "learning_rate": 3.428125e-05, "loss": 0.0331, "step": 3022 }, { "epoch": 6.3, "grad_norm": 0.4742030203342438, "learning_rate": 3.427083333333334e-05, "loss": 0.0312, "step": 3024 }, { "epoch": 6.304166666666666, "grad_norm": 0.41652071475982666, "learning_rate": 3.4260416666666665e-05, "loss": 0.0211, "step": 3026 }, { "epoch": 6.308333333333334, "grad_norm": 0.41146236658096313, "learning_rate": 3.4250000000000006e-05, "loss": 0.0244, "step": 3028 }, { "epoch": 6.3125, "grad_norm": 0.6488532423973083, "learning_rate": 3.423958333333333e-05, "loss": 0.0369, "step": 3030 }, { "epoch": 6.316666666666666, "grad_norm": 0.6464362740516663, "learning_rate": 3.422916666666667e-05, "loss": 0.0297, "step": 3032 }, { "epoch": 6.320833333333334, "grad_norm": 0.44016900658607483, "learning_rate": 3.421875e-05, "loss": 0.0233, "step": 3034 }, { "epoch": 6.325, "grad_norm": 0.49641963839530945, "learning_rate": 3.4208333333333336e-05, "loss": 0.0261, "step": 3036 }, { "epoch": 6.329166666666667, "grad_norm": 0.8724527955055237, "learning_rate": 3.419791666666667e-05, "loss": 0.0351, "step": 3038 }, { "epoch": 6.333333333333333, "grad_norm": 0.6044591069221497, "learning_rate": 3.41875e-05, "loss": 0.0319, "step": 3040 }, { "epoch": 6.3375, "grad_norm": 0.478023499250412, "learning_rate": 3.417708333333334e-05, "loss": 0.0293, "step": 3042 }, { "epoch": 6.341666666666667, "grad_norm": 0.7124316096305847, "learning_rate": 3.4166666666666666e-05, "loss": 0.0226, "step": 3044 }, { "epoch": 6.345833333333333, "grad_norm": 0.7376870512962341, "learning_rate": 3.415625e-05, "loss": 0.0249, "step": 3046 }, { "epoch": 6.35, "grad_norm": 0.709838330745697, "learning_rate": 3.4145833333333334e-05, "loss": 0.0443, "step": 3048 }, { "epoch": 6.354166666666667, "grad_norm": 0.7127888798713684, "learning_rate": 3.413541666666667e-05, "loss": 0.0314, "step": 3050 }, { "epoch": 6.358333333333333, "grad_norm": 0.49731460213661194, "learning_rate": 3.4125e-05, "loss": 0.0315, "step": 3052 }, { "epoch": 6.3625, "grad_norm": 0.6336708664894104, "learning_rate": 3.411458333333333e-05, "loss": 0.0228, "step": 3054 }, { "epoch": 6.366666666666666, "grad_norm": 0.6873764991760254, "learning_rate": 3.410416666666667e-05, "loss": 0.0281, "step": 3056 }, { "epoch": 6.370833333333334, "grad_norm": 0.387981116771698, "learning_rate": 3.4093750000000005e-05, "loss": 0.0291, "step": 3058 }, { "epoch": 6.375, "grad_norm": 0.5530269742012024, "learning_rate": 3.408333333333333e-05, "loss": 0.027, "step": 3060 }, { "epoch": 6.379166666666666, "grad_norm": 0.7220897078514099, "learning_rate": 3.4072916666666674e-05, "loss": 0.0239, "step": 3062 }, { "epoch": 6.383333333333334, "grad_norm": 0.7195436954498291, "learning_rate": 3.40625e-05, "loss": 0.0364, "step": 3064 }, { "epoch": 6.3875, "grad_norm": 0.7238262891769409, "learning_rate": 3.4052083333333335e-05, "loss": 0.0329, "step": 3066 }, { "epoch": 6.391666666666667, "grad_norm": 1.2956379652023315, "learning_rate": 3.404166666666666e-05, "loss": 0.0406, "step": 3068 }, { "epoch": 6.395833333333333, "grad_norm": 0.6531081795692444, "learning_rate": 3.4031250000000004e-05, "loss": 0.0285, "step": 3070 }, { "epoch": 6.4, "grad_norm": 1.4365787506103516, "learning_rate": 3.402083333333334e-05, "loss": 0.0307, "step": 3072 }, { "epoch": 6.404166666666667, "grad_norm": 0.7244048118591309, "learning_rate": 3.4010416666666666e-05, "loss": 0.0345, "step": 3074 }, { "epoch": 6.408333333333333, "grad_norm": 0.7018679976463318, "learning_rate": 3.4000000000000007e-05, "loss": 0.0325, "step": 3076 }, { "epoch": 6.4125, "grad_norm": 0.7363236546516418, "learning_rate": 3.3989583333333334e-05, "loss": 0.0315, "step": 3078 }, { "epoch": 6.416666666666667, "grad_norm": 0.43744418025016785, "learning_rate": 3.397916666666667e-05, "loss": 0.0254, "step": 3080 }, { "epoch": 6.420833333333333, "grad_norm": 0.4785197973251343, "learning_rate": 3.396875e-05, "loss": 0.0306, "step": 3082 }, { "epoch": 6.425, "grad_norm": 0.6204140186309814, "learning_rate": 3.3958333333333337e-05, "loss": 0.0488, "step": 3084 }, { "epoch": 6.429166666666666, "grad_norm": 3.4118149280548096, "learning_rate": 3.394791666666667e-05, "loss": 0.0253, "step": 3086 }, { "epoch": 6.433333333333334, "grad_norm": 0.9113151431083679, "learning_rate": 3.39375e-05, "loss": 0.0351, "step": 3088 }, { "epoch": 6.4375, "grad_norm": 0.830354630947113, "learning_rate": 3.392708333333334e-05, "loss": 0.0413, "step": 3090 }, { "epoch": 6.441666666666666, "grad_norm": 2.275388240814209, "learning_rate": 3.391666666666667e-05, "loss": 0.0456, "step": 3092 }, { "epoch": 6.445833333333334, "grad_norm": 0.4662785232067108, "learning_rate": 3.390625e-05, "loss": 0.0261, "step": 3094 }, { "epoch": 6.45, "grad_norm": 0.49573153257369995, "learning_rate": 3.3895833333333335e-05, "loss": 0.029, "step": 3096 }, { "epoch": 6.454166666666667, "grad_norm": 5.6618218421936035, "learning_rate": 3.388541666666667e-05, "loss": 0.0275, "step": 3098 }, { "epoch": 6.458333333333333, "grad_norm": 0.7346952557563782, "learning_rate": 3.3875000000000003e-05, "loss": 0.032, "step": 3100 }, { "epoch": 6.4625, "grad_norm": 0.47897863388061523, "learning_rate": 3.386458333333333e-05, "loss": 0.026, "step": 3102 }, { "epoch": 6.466666666666667, "grad_norm": 0.779254674911499, "learning_rate": 3.385416666666667e-05, "loss": 0.0326, "step": 3104 }, { "epoch": 6.470833333333333, "grad_norm": 0.43197232484817505, "learning_rate": 3.384375e-05, "loss": 0.022, "step": 3106 }, { "epoch": 6.475, "grad_norm": 0.5092484354972839, "learning_rate": 3.3833333333333334e-05, "loss": 0.0285, "step": 3108 }, { "epoch": 6.479166666666667, "grad_norm": 0.6108835339546204, "learning_rate": 3.382291666666667e-05, "loss": 0.0251, "step": 3110 }, { "epoch": 6.483333333333333, "grad_norm": 0.5402851700782776, "learning_rate": 3.38125e-05, "loss": 0.0279, "step": 3112 }, { "epoch": 6.4875, "grad_norm": 0.599489152431488, "learning_rate": 3.3802083333333336e-05, "loss": 0.0281, "step": 3114 }, { "epoch": 6.491666666666666, "grad_norm": 0.44268912076950073, "learning_rate": 3.3791666666666664e-05, "loss": 0.0196, "step": 3116 }, { "epoch": 6.495833333333334, "grad_norm": 0.5792502164840698, "learning_rate": 3.3781250000000005e-05, "loss": 0.0328, "step": 3118 }, { "epoch": 6.5, "grad_norm": 0.6374675631523132, "learning_rate": 3.377083333333333e-05, "loss": 0.0358, "step": 3120 }, { "epoch": 6.504166666666666, "grad_norm": 1.2317230701446533, "learning_rate": 3.3760416666666666e-05, "loss": 0.0308, "step": 3122 }, { "epoch": 6.508333333333333, "grad_norm": 0.8341777920722961, "learning_rate": 3.375000000000001e-05, "loss": 0.0381, "step": 3124 }, { "epoch": 6.5125, "grad_norm": 0.7562510967254639, "learning_rate": 3.3739583333333335e-05, "loss": 0.0397, "step": 3126 }, { "epoch": 6.516666666666667, "grad_norm": 1.6265844106674194, "learning_rate": 3.372916666666667e-05, "loss": 0.0506, "step": 3128 }, { "epoch": 6.520833333333333, "grad_norm": 0.5191314816474915, "learning_rate": 3.3718749999999996e-05, "loss": 0.0329, "step": 3130 }, { "epoch": 6.525, "grad_norm": 1.4456863403320312, "learning_rate": 3.370833333333334e-05, "loss": 0.0337, "step": 3132 }, { "epoch": 6.529166666666667, "grad_norm": 1.2725311517715454, "learning_rate": 3.3697916666666665e-05, "loss": 0.0423, "step": 3134 }, { "epoch": 6.533333333333333, "grad_norm": 0.5088794827461243, "learning_rate": 3.36875e-05, "loss": 0.0301, "step": 3136 }, { "epoch": 6.5375, "grad_norm": 0.6501970887184143, "learning_rate": 3.367708333333334e-05, "loss": 0.0296, "step": 3138 }, { "epoch": 6.541666666666667, "grad_norm": 1.0332266092300415, "learning_rate": 3.366666666666667e-05, "loss": 0.035, "step": 3140 }, { "epoch": 6.545833333333333, "grad_norm": 0.6048175692558289, "learning_rate": 3.365625e-05, "loss": 0.0262, "step": 3142 }, { "epoch": 6.55, "grad_norm": 0.5654419660568237, "learning_rate": 3.3645833333333336e-05, "loss": 0.0373, "step": 3144 }, { "epoch": 6.554166666666667, "grad_norm": 0.7714486122131348, "learning_rate": 3.363541666666667e-05, "loss": 0.0339, "step": 3146 }, { "epoch": 6.558333333333334, "grad_norm": 0.9702731370925903, "learning_rate": 3.3625000000000004e-05, "loss": 0.0438, "step": 3148 }, { "epoch": 6.5625, "grad_norm": 0.358047217130661, "learning_rate": 3.361458333333333e-05, "loss": 0.024, "step": 3150 }, { "epoch": 6.566666666666666, "grad_norm": 1.1804133653640747, "learning_rate": 3.360416666666667e-05, "loss": 0.0262, "step": 3152 }, { "epoch": 6.570833333333333, "grad_norm": 0.6147211194038391, "learning_rate": 3.359375e-05, "loss": 0.0329, "step": 3154 }, { "epoch": 6.575, "grad_norm": 0.3473086357116699, "learning_rate": 3.3583333333333334e-05, "loss": 0.0279, "step": 3156 }, { "epoch": 6.579166666666667, "grad_norm": 0.826691210269928, "learning_rate": 3.357291666666667e-05, "loss": 0.0277, "step": 3158 }, { "epoch": 6.583333333333333, "grad_norm": 0.6469663381576538, "learning_rate": 3.35625e-05, "loss": 0.0368, "step": 3160 }, { "epoch": 6.5875, "grad_norm": 0.703325629234314, "learning_rate": 3.355208333333334e-05, "loss": 0.0322, "step": 3162 }, { "epoch": 6.591666666666667, "grad_norm": 1.0485385656356812, "learning_rate": 3.3541666666666664e-05, "loss": 0.0361, "step": 3164 }, { "epoch": 6.595833333333333, "grad_norm": 0.7397326231002808, "learning_rate": 3.3531250000000005e-05, "loss": 0.0427, "step": 3166 }, { "epoch": 6.6, "grad_norm": 2.4053525924682617, "learning_rate": 3.352083333333333e-05, "loss": 0.0432, "step": 3168 }, { "epoch": 6.604166666666667, "grad_norm": 0.6645846962928772, "learning_rate": 3.351041666666667e-05, "loss": 0.0346, "step": 3170 }, { "epoch": 6.608333333333333, "grad_norm": 0.8721262812614441, "learning_rate": 3.35e-05, "loss": 0.0453, "step": 3172 }, { "epoch": 6.6125, "grad_norm": 0.6937993764877319, "learning_rate": 3.3489583333333335e-05, "loss": 0.0362, "step": 3174 }, { "epoch": 6.616666666666667, "grad_norm": 0.6358807682991028, "learning_rate": 3.347916666666667e-05, "loss": 0.0352, "step": 3176 }, { "epoch": 6.620833333333334, "grad_norm": 0.6880691647529602, "learning_rate": 3.3468750000000004e-05, "loss": 0.028, "step": 3178 }, { "epoch": 6.625, "grad_norm": 0.6786434650421143, "learning_rate": 3.345833333333334e-05, "loss": 0.0322, "step": 3180 }, { "epoch": 6.629166666666666, "grad_norm": 0.6410287022590637, "learning_rate": 3.3447916666666665e-05, "loss": 0.0308, "step": 3182 }, { "epoch": 6.633333333333333, "grad_norm": 0.7150858640670776, "learning_rate": 3.34375e-05, "loss": 0.0259, "step": 3184 }, { "epoch": 6.6375, "grad_norm": 0.6019711494445801, "learning_rate": 3.3427083333333334e-05, "loss": 0.0371, "step": 3186 }, { "epoch": 6.641666666666667, "grad_norm": 1.3895682096481323, "learning_rate": 3.341666666666667e-05, "loss": 0.0452, "step": 3188 }, { "epoch": 6.645833333333333, "grad_norm": 0.6968752145767212, "learning_rate": 3.340625e-05, "loss": 0.044, "step": 3190 }, { "epoch": 6.65, "grad_norm": 0.5081146955490112, "learning_rate": 3.3395833333333336e-05, "loss": 0.0288, "step": 3192 }, { "epoch": 6.654166666666667, "grad_norm": 0.606156051158905, "learning_rate": 3.338541666666667e-05, "loss": 0.0333, "step": 3194 }, { "epoch": 6.658333333333333, "grad_norm": 0.37863782048225403, "learning_rate": 3.3375e-05, "loss": 0.0282, "step": 3196 }, { "epoch": 6.6625, "grad_norm": 0.5240867733955383, "learning_rate": 3.336458333333333e-05, "loss": 0.0306, "step": 3198 }, { "epoch": 6.666666666666667, "grad_norm": 0.7131398320198059, "learning_rate": 3.3354166666666667e-05, "loss": 0.0273, "step": 3200 }, { "epoch": 6.666666666666667, "eval_cer": 0.06280541981341627, "eval_loss": 0.3941609263420105, "eval_runtime": 76.2997, "eval_samples_per_second": 5.164, "eval_steps_per_second": 0.655, "step": 3200 }, { "epoch": 6.670833333333333, "grad_norm": 0.6716505885124207, "learning_rate": 3.334375e-05, "loss": 0.026, "step": 3202 }, { "epoch": 6.675, "grad_norm": 0.8399994373321533, "learning_rate": 3.3333333333333335e-05, "loss": 0.036, "step": 3204 }, { "epoch": 6.679166666666667, "grad_norm": 0.6481472849845886, "learning_rate": 3.332291666666667e-05, "loss": 0.0474, "step": 3206 }, { "epoch": 6.683333333333334, "grad_norm": 0.9400812387466431, "learning_rate": 3.33125e-05, "loss": 0.0299, "step": 3208 }, { "epoch": 6.6875, "grad_norm": 0.9311043620109558, "learning_rate": 3.330208333333333e-05, "loss": 0.0347, "step": 3210 }, { "epoch": 6.691666666666666, "grad_norm": 0.7127534747123718, "learning_rate": 3.329166666666667e-05, "loss": 0.0303, "step": 3212 }, { "epoch": 6.695833333333333, "grad_norm": 0.7896678447723389, "learning_rate": 3.3281250000000006e-05, "loss": 0.0252, "step": 3214 }, { "epoch": 6.7, "grad_norm": 0.7032292485237122, "learning_rate": 3.3270833333333333e-05, "loss": 0.0311, "step": 3216 }, { "epoch": 6.704166666666667, "grad_norm": 0.7043334245681763, "learning_rate": 3.326041666666667e-05, "loss": 0.0386, "step": 3218 }, { "epoch": 6.708333333333333, "grad_norm": 1.5758060216903687, "learning_rate": 3.325e-05, "loss": 0.0295, "step": 3220 }, { "epoch": 6.7125, "grad_norm": 0.6213443875312805, "learning_rate": 3.3239583333333336e-05, "loss": 0.0359, "step": 3222 }, { "epoch": 6.716666666666667, "grad_norm": 0.5409916043281555, "learning_rate": 3.3229166666666663e-05, "loss": 0.0311, "step": 3224 }, { "epoch": 6.720833333333333, "grad_norm": 0.6825934052467346, "learning_rate": 3.3218750000000004e-05, "loss": 0.0349, "step": 3226 }, { "epoch": 6.725, "grad_norm": 0.6779513955116272, "learning_rate": 3.320833333333334e-05, "loss": 0.0291, "step": 3228 }, { "epoch": 6.729166666666667, "grad_norm": 0.9906224608421326, "learning_rate": 3.3197916666666666e-05, "loss": 0.0375, "step": 3230 }, { "epoch": 6.733333333333333, "grad_norm": 0.6356861591339111, "learning_rate": 3.31875e-05, "loss": 0.0388, "step": 3232 }, { "epoch": 6.7375, "grad_norm": 2.1181859970092773, "learning_rate": 3.3177083333333335e-05, "loss": 0.0371, "step": 3234 }, { "epoch": 6.741666666666667, "grad_norm": 0.8405472636222839, "learning_rate": 3.316666666666667e-05, "loss": 0.0456, "step": 3236 }, { "epoch": 6.745833333333334, "grad_norm": 0.8695589900016785, "learning_rate": 3.315625e-05, "loss": 0.0305, "step": 3238 }, { "epoch": 6.75, "grad_norm": 0.6459285616874695, "learning_rate": 3.314583333333334e-05, "loss": 0.034, "step": 3240 }, { "epoch": 6.754166666666666, "grad_norm": 0.6879531741142273, "learning_rate": 3.313541666666667e-05, "loss": 0.0347, "step": 3242 }, { "epoch": 6.758333333333333, "grad_norm": 3.22031307220459, "learning_rate": 3.3125e-05, "loss": 0.0417, "step": 3244 }, { "epoch": 6.7625, "grad_norm": 2.5440614223480225, "learning_rate": 3.311458333333333e-05, "loss": 0.0376, "step": 3246 }, { "epoch": 6.766666666666667, "grad_norm": 0.8551148772239685, "learning_rate": 3.310416666666667e-05, "loss": 0.0376, "step": 3248 }, { "epoch": 6.770833333333333, "grad_norm": 0.8288602828979492, "learning_rate": 3.309375e-05, "loss": 0.036, "step": 3250 }, { "epoch": 6.775, "grad_norm": 0.7341170907020569, "learning_rate": 3.3083333333333336e-05, "loss": 0.0418, "step": 3252 }, { "epoch": 6.779166666666667, "grad_norm": 0.73750901222229, "learning_rate": 3.307291666666667e-05, "loss": 0.0382, "step": 3254 }, { "epoch": 6.783333333333333, "grad_norm": 1.046412706375122, "learning_rate": 3.3062500000000004e-05, "loss": 0.0487, "step": 3256 }, { "epoch": 6.7875, "grad_norm": 0.5309283137321472, "learning_rate": 3.305208333333333e-05, "loss": 0.032, "step": 3258 }, { "epoch": 6.791666666666667, "grad_norm": 0.898169219493866, "learning_rate": 3.304166666666667e-05, "loss": 0.0454, "step": 3260 }, { "epoch": 6.795833333333333, "grad_norm": 1.1341915130615234, "learning_rate": 3.303125e-05, "loss": 0.0361, "step": 3262 }, { "epoch": 6.8, "grad_norm": 0.8781701326370239, "learning_rate": 3.3020833333333334e-05, "loss": 0.0315, "step": 3264 }, { "epoch": 6.804166666666667, "grad_norm": 0.5930675864219666, "learning_rate": 3.301041666666667e-05, "loss": 0.0376, "step": 3266 }, { "epoch": 6.808333333333334, "grad_norm": 0.4526837170124054, "learning_rate": 3.3e-05, "loss": 0.0258, "step": 3268 }, { "epoch": 6.8125, "grad_norm": 0.46016010642051697, "learning_rate": 3.298958333333334e-05, "loss": 0.0263, "step": 3270 }, { "epoch": 6.816666666666666, "grad_norm": 0.5913488864898682, "learning_rate": 3.2979166666666664e-05, "loss": 0.0311, "step": 3272 }, { "epoch": 6.820833333333333, "grad_norm": 0.7881727814674377, "learning_rate": 3.2968750000000005e-05, "loss": 0.0317, "step": 3274 }, { "epoch": 6.825, "grad_norm": 1.2662835121154785, "learning_rate": 3.295833333333333e-05, "loss": 0.0342, "step": 3276 }, { "epoch": 6.829166666666667, "grad_norm": 1.2260240316390991, "learning_rate": 3.294791666666667e-05, "loss": 0.0582, "step": 3278 }, { "epoch": 6.833333333333333, "grad_norm": 0.8349485993385315, "learning_rate": 3.29375e-05, "loss": 0.0381, "step": 3280 }, { "epoch": 6.8375, "grad_norm": 0.9878295063972473, "learning_rate": 3.2927083333333335e-05, "loss": 0.0353, "step": 3282 }, { "epoch": 6.841666666666667, "grad_norm": 0.5731156468391418, "learning_rate": 3.291666666666667e-05, "loss": 0.0277, "step": 3284 }, { "epoch": 6.845833333333333, "grad_norm": 2.107004404067993, "learning_rate": 3.290625e-05, "loss": 0.0285, "step": 3286 }, { "epoch": 6.85, "grad_norm": 0.5905184745788574, "learning_rate": 3.289583333333334e-05, "loss": 0.0354, "step": 3288 }, { "epoch": 6.854166666666667, "grad_norm": 0.6867441534996033, "learning_rate": 3.2885416666666665e-05, "loss": 0.0423, "step": 3290 }, { "epoch": 6.858333333333333, "grad_norm": 0.7170169353485107, "learning_rate": 3.2875e-05, "loss": 0.0418, "step": 3292 }, { "epoch": 6.8625, "grad_norm": 0.5790224075317383, "learning_rate": 3.286458333333334e-05, "loss": 0.03, "step": 3294 }, { "epoch": 6.866666666666667, "grad_norm": 0.7604163289070129, "learning_rate": 3.285416666666667e-05, "loss": 0.0258, "step": 3296 }, { "epoch": 6.870833333333334, "grad_norm": 0.5278188586235046, "learning_rate": 3.284375e-05, "loss": 0.0245, "step": 3298 }, { "epoch": 6.875, "grad_norm": 0.6556494832038879, "learning_rate": 3.283333333333333e-05, "loss": 0.0344, "step": 3300 }, { "epoch": 6.879166666666666, "grad_norm": 0.7215029001235962, "learning_rate": 3.282291666666667e-05, "loss": 0.0351, "step": 3302 }, { "epoch": 6.883333333333333, "grad_norm": 1.1157901287078857, "learning_rate": 3.2812500000000005e-05, "loss": 0.0288, "step": 3304 }, { "epoch": 6.8875, "grad_norm": 0.8599701523780823, "learning_rate": 3.280208333333333e-05, "loss": 0.0403, "step": 3306 }, { "epoch": 6.891666666666667, "grad_norm": 0.47130146622657776, "learning_rate": 3.279166666666667e-05, "loss": 0.0311, "step": 3308 }, { "epoch": 6.895833333333333, "grad_norm": 0.6128982305526733, "learning_rate": 3.278125e-05, "loss": 0.032, "step": 3310 }, { "epoch": 6.9, "grad_norm": 2.7891690731048584, "learning_rate": 3.2770833333333335e-05, "loss": 0.0397, "step": 3312 }, { "epoch": 6.904166666666667, "grad_norm": 0.5660941004753113, "learning_rate": 3.276041666666667e-05, "loss": 0.0281, "step": 3314 }, { "epoch": 6.908333333333333, "grad_norm": 0.7363885641098022, "learning_rate": 3.275e-05, "loss": 0.0301, "step": 3316 }, { "epoch": 6.9125, "grad_norm": 0.6529609560966492, "learning_rate": 3.273958333333334e-05, "loss": 0.0267, "step": 3318 }, { "epoch": 6.916666666666667, "grad_norm": 0.7405498027801514, "learning_rate": 3.2729166666666665e-05, "loss": 0.0305, "step": 3320 }, { "epoch": 6.920833333333333, "grad_norm": 0.6641069054603577, "learning_rate": 3.2718750000000006e-05, "loss": 0.0321, "step": 3322 }, { "epoch": 6.925, "grad_norm": 0.5746211409568787, "learning_rate": 3.270833333333333e-05, "loss": 0.0236, "step": 3324 }, { "epoch": 6.929166666666667, "grad_norm": 0.7287853360176086, "learning_rate": 3.269791666666667e-05, "loss": 0.04, "step": 3326 }, { "epoch": 6.933333333333334, "grad_norm": 0.6779524683952332, "learning_rate": 3.26875e-05, "loss": 0.0423, "step": 3328 }, { "epoch": 6.9375, "grad_norm": 0.79429030418396, "learning_rate": 3.2677083333333336e-05, "loss": 0.0372, "step": 3330 }, { "epoch": 6.941666666666666, "grad_norm": 0.8061491847038269, "learning_rate": 3.266666666666667e-05, "loss": 0.0379, "step": 3332 }, { "epoch": 6.945833333333333, "grad_norm": 0.7037977576255798, "learning_rate": 3.265625e-05, "loss": 0.0321, "step": 3334 }, { "epoch": 6.95, "grad_norm": 0.6139309406280518, "learning_rate": 3.264583333333334e-05, "loss": 0.0334, "step": 3336 }, { "epoch": 6.954166666666667, "grad_norm": 0.6526440382003784, "learning_rate": 3.2635416666666666e-05, "loss": 0.0306, "step": 3338 }, { "epoch": 6.958333333333333, "grad_norm": 0.6832694411277771, "learning_rate": 3.2625e-05, "loss": 0.0384, "step": 3340 }, { "epoch": 6.9625, "grad_norm": 0.7101979851722717, "learning_rate": 3.2614583333333334e-05, "loss": 0.036, "step": 3342 }, { "epoch": 6.966666666666667, "grad_norm": 0.7090132832527161, "learning_rate": 3.260416666666667e-05, "loss": 0.0326, "step": 3344 }, { "epoch": 6.970833333333333, "grad_norm": 0.7095754742622375, "learning_rate": 3.259375e-05, "loss": 0.0336, "step": 3346 }, { "epoch": 6.975, "grad_norm": 0.7197883129119873, "learning_rate": 3.258333333333333e-05, "loss": 0.0344, "step": 3348 }, { "epoch": 6.979166666666667, "grad_norm": 1.0238137245178223, "learning_rate": 3.257291666666667e-05, "loss": 0.0213, "step": 3350 }, { "epoch": 6.983333333333333, "grad_norm": 0.7870166897773743, "learning_rate": 3.25625e-05, "loss": 0.0307, "step": 3352 }, { "epoch": 6.9875, "grad_norm": 0.5469135642051697, "learning_rate": 3.255208333333333e-05, "loss": 0.028, "step": 3354 }, { "epoch": 6.991666666666667, "grad_norm": 1.369585633277893, "learning_rate": 3.254166666666667e-05, "loss": 0.0446, "step": 3356 }, { "epoch": 6.995833333333334, "grad_norm": 1.0831689834594727, "learning_rate": 3.253125e-05, "loss": 0.0433, "step": 3358 }, { "epoch": 7.0, "grad_norm": 2.3699982166290283, "learning_rate": 3.2520833333333336e-05, "loss": 0.0435, "step": 3360 }, { "epoch": 7.004166666666666, "grad_norm": 0.4274090528488159, "learning_rate": 3.251041666666667e-05, "loss": 0.021, "step": 3362 }, { "epoch": 7.008333333333334, "grad_norm": 0.5499812364578247, "learning_rate": 3.2500000000000004e-05, "loss": 0.0241, "step": 3364 }, { "epoch": 7.0125, "grad_norm": 0.35755395889282227, "learning_rate": 3.248958333333333e-05, "loss": 0.0229, "step": 3366 }, { "epoch": 7.016666666666667, "grad_norm": 0.45020154118537903, "learning_rate": 3.2479166666666666e-05, "loss": 0.0183, "step": 3368 }, { "epoch": 7.020833333333333, "grad_norm": 0.26370343565940857, "learning_rate": 3.2468750000000007e-05, "loss": 0.0158, "step": 3370 }, { "epoch": 7.025, "grad_norm": 0.41873520612716675, "learning_rate": 3.2458333333333334e-05, "loss": 0.0191, "step": 3372 }, { "epoch": 7.029166666666667, "grad_norm": 0.45511680841445923, "learning_rate": 3.244791666666667e-05, "loss": 0.0271, "step": 3374 }, { "epoch": 7.033333333333333, "grad_norm": 0.549749493598938, "learning_rate": 3.24375e-05, "loss": 0.0184, "step": 3376 }, { "epoch": 7.0375, "grad_norm": 0.3045884966850281, "learning_rate": 3.242708333333334e-05, "loss": 0.0142, "step": 3378 }, { "epoch": 7.041666666666667, "grad_norm": 0.5562430620193481, "learning_rate": 3.2416666666666664e-05, "loss": 0.0226, "step": 3380 }, { "epoch": 7.045833333333333, "grad_norm": 0.8002377152442932, "learning_rate": 3.240625e-05, "loss": 0.0321, "step": 3382 }, { "epoch": 7.05, "grad_norm": 0.8161070942878723, "learning_rate": 3.239583333333334e-05, "loss": 0.0217, "step": 3384 }, { "epoch": 7.054166666666666, "grad_norm": 0.2486860156059265, "learning_rate": 3.238541666666667e-05, "loss": 0.0202, "step": 3386 }, { "epoch": 7.058333333333334, "grad_norm": 0.69896399974823, "learning_rate": 3.2375e-05, "loss": 0.0192, "step": 3388 }, { "epoch": 7.0625, "grad_norm": 0.6816157698631287, "learning_rate": 3.2364583333333335e-05, "loss": 0.0181, "step": 3390 }, { "epoch": 7.066666666666666, "grad_norm": 0.6551303267478943, "learning_rate": 3.235416666666667e-05, "loss": 0.0231, "step": 3392 }, { "epoch": 7.070833333333334, "grad_norm": 2.846156120300293, "learning_rate": 3.2343750000000004e-05, "loss": 0.0319, "step": 3394 }, { "epoch": 7.075, "grad_norm": 0.8246458768844604, "learning_rate": 3.233333333333333e-05, "loss": 0.018, "step": 3396 }, { "epoch": 7.079166666666667, "grad_norm": 0.4701642096042633, "learning_rate": 3.232291666666667e-05, "loss": 0.0184, "step": 3398 }, { "epoch": 7.083333333333333, "grad_norm": 0.6276523470878601, "learning_rate": 3.23125e-05, "loss": 0.0194, "step": 3400 }, { "epoch": 7.083333333333333, "eval_cer": 0.06258329631274989, "eval_loss": 0.3855547606945038, "eval_runtime": 75.2918, "eval_samples_per_second": 5.233, "eval_steps_per_second": 0.664, "step": 3400 }, { "epoch": 7.0875, "grad_norm": 0.307001531124115, "learning_rate": 3.2302083333333334e-05, "loss": 0.027, "step": 3402 }, { "epoch": 7.091666666666667, "grad_norm": 0.822418212890625, "learning_rate": 3.229166666666667e-05, "loss": 0.0246, "step": 3404 }, { "epoch": 7.095833333333333, "grad_norm": 0.47105422616004944, "learning_rate": 3.228125e-05, "loss": 0.0245, "step": 3406 }, { "epoch": 7.1, "grad_norm": 1.8960964679718018, "learning_rate": 3.2270833333333336e-05, "loss": 0.0248, "step": 3408 }, { "epoch": 7.104166666666667, "grad_norm": 0.5978708267211914, "learning_rate": 3.226041666666667e-05, "loss": 0.0182, "step": 3410 }, { "epoch": 7.108333333333333, "grad_norm": 1.029282808303833, "learning_rate": 3.2250000000000005e-05, "loss": 0.0235, "step": 3412 }, { "epoch": 7.1125, "grad_norm": 0.722744882106781, "learning_rate": 3.223958333333333e-05, "loss": 0.0287, "step": 3414 }, { "epoch": 7.116666666666666, "grad_norm": 0.7128288149833679, "learning_rate": 3.2229166666666666e-05, "loss": 0.0227, "step": 3416 }, { "epoch": 7.120833333333334, "grad_norm": 0.5464977025985718, "learning_rate": 3.221875e-05, "loss": 0.0191, "step": 3418 }, { "epoch": 7.125, "grad_norm": 0.3880902826786041, "learning_rate": 3.2208333333333335e-05, "loss": 0.0177, "step": 3420 }, { "epoch": 7.129166666666666, "grad_norm": 0.3178390860557556, "learning_rate": 3.219791666666667e-05, "loss": 0.0148, "step": 3422 }, { "epoch": 7.133333333333334, "grad_norm": 0.7174381017684937, "learning_rate": 3.21875e-05, "loss": 0.0206, "step": 3424 }, { "epoch": 7.1375, "grad_norm": 0.5260277986526489, "learning_rate": 3.217708333333334e-05, "loss": 0.0237, "step": 3426 }, { "epoch": 7.141666666666667, "grad_norm": 0.9860668182373047, "learning_rate": 3.2166666666666665e-05, "loss": 0.0251, "step": 3428 }, { "epoch": 7.145833333333333, "grad_norm": 1.7034530639648438, "learning_rate": 3.215625e-05, "loss": 0.0262, "step": 3430 }, { "epoch": 7.15, "grad_norm": 4.263737201690674, "learning_rate": 3.214583333333333e-05, "loss": 0.023, "step": 3432 }, { "epoch": 7.154166666666667, "grad_norm": 0.36424899101257324, "learning_rate": 3.213541666666667e-05, "loss": 0.0173, "step": 3434 }, { "epoch": 7.158333333333333, "grad_norm": 0.5365851521492004, "learning_rate": 3.2125e-05, "loss": 0.0175, "step": 3436 }, { "epoch": 7.1625, "grad_norm": 0.37304747104644775, "learning_rate": 3.2114583333333336e-05, "loss": 0.0157, "step": 3438 }, { "epoch": 7.166666666666667, "grad_norm": 0.5846309065818787, "learning_rate": 3.210416666666667e-05, "loss": 0.0228, "step": 3440 }, { "epoch": 7.170833333333333, "grad_norm": 0.5238157510757446, "learning_rate": 3.209375e-05, "loss": 0.0236, "step": 3442 }, { "epoch": 7.175, "grad_norm": 0.3813927173614502, "learning_rate": 3.208333333333334e-05, "loss": 0.0142, "step": 3444 }, { "epoch": 7.179166666666666, "grad_norm": 0.47229066491127014, "learning_rate": 3.2072916666666666e-05, "loss": 0.0216, "step": 3446 }, { "epoch": 7.183333333333334, "grad_norm": 0.4083625376224518, "learning_rate": 3.20625e-05, "loss": 0.0197, "step": 3448 }, { "epoch": 7.1875, "grad_norm": 0.4907923936843872, "learning_rate": 3.2052083333333334e-05, "loss": 0.0197, "step": 3450 }, { "epoch": 7.191666666666666, "grad_norm": 0.38825687766075134, "learning_rate": 3.204166666666667e-05, "loss": 0.0155, "step": 3452 }, { "epoch": 7.195833333333334, "grad_norm": 0.4237629473209381, "learning_rate": 3.203125e-05, "loss": 0.0186, "step": 3454 }, { "epoch": 7.2, "grad_norm": 0.436151385307312, "learning_rate": 3.202083333333333e-05, "loss": 0.0202, "step": 3456 }, { "epoch": 7.204166666666667, "grad_norm": 0.3821088969707489, "learning_rate": 3.201041666666667e-05, "loss": 0.0144, "step": 3458 }, { "epoch": 7.208333333333333, "grad_norm": 0.32921668887138367, "learning_rate": 3.2000000000000005e-05, "loss": 0.0179, "step": 3460 }, { "epoch": 7.2125, "grad_norm": 0.43904179334640503, "learning_rate": 3.198958333333333e-05, "loss": 0.0212, "step": 3462 }, { "epoch": 7.216666666666667, "grad_norm": 0.628400444984436, "learning_rate": 3.197916666666667e-05, "loss": 0.0242, "step": 3464 }, { "epoch": 7.220833333333333, "grad_norm": 0.24508942663669586, "learning_rate": 3.196875e-05, "loss": 0.0169, "step": 3466 }, { "epoch": 7.225, "grad_norm": 0.4806443154811859, "learning_rate": 3.1958333333333335e-05, "loss": 0.0164, "step": 3468 }, { "epoch": 7.229166666666667, "grad_norm": 0.49218830466270447, "learning_rate": 3.194791666666667e-05, "loss": 0.0193, "step": 3470 }, { "epoch": 7.233333333333333, "grad_norm": 0.64179527759552, "learning_rate": 3.1937500000000004e-05, "loss": 0.0222, "step": 3472 }, { "epoch": 7.2375, "grad_norm": 0.6576039791107178, "learning_rate": 3.192708333333334e-05, "loss": 0.0167, "step": 3474 }, { "epoch": 7.241666666666666, "grad_norm": 0.3393803536891937, "learning_rate": 3.1916666666666665e-05, "loss": 0.0167, "step": 3476 }, { "epoch": 7.245833333333334, "grad_norm": 0.38207387924194336, "learning_rate": 3.1906250000000006e-05, "loss": 0.0209, "step": 3478 }, { "epoch": 7.25, "grad_norm": 0.47185811400413513, "learning_rate": 3.1895833333333334e-05, "loss": 0.0214, "step": 3480 }, { "epoch": 7.254166666666666, "grad_norm": 0.6285066604614258, "learning_rate": 3.188541666666667e-05, "loss": 0.0306, "step": 3482 }, { "epoch": 7.258333333333334, "grad_norm": 0.3064229190349579, "learning_rate": 3.1875e-05, "loss": 0.0178, "step": 3484 }, { "epoch": 7.2625, "grad_norm": 0.3870290517807007, "learning_rate": 3.1864583333333336e-05, "loss": 0.0132, "step": 3486 }, { "epoch": 7.266666666666667, "grad_norm": 0.5718018412590027, "learning_rate": 3.185416666666667e-05, "loss": 0.019, "step": 3488 }, { "epoch": 7.270833333333333, "grad_norm": 0.35345038771629333, "learning_rate": 3.184375e-05, "loss": 0.0199, "step": 3490 }, { "epoch": 7.275, "grad_norm": 0.47227638959884644, "learning_rate": 3.183333333333334e-05, "loss": 0.0145, "step": 3492 }, { "epoch": 7.279166666666667, "grad_norm": 0.4984376132488251, "learning_rate": 3.1822916666666667e-05, "loss": 0.0169, "step": 3494 }, { "epoch": 7.283333333333333, "grad_norm": 0.7349913716316223, "learning_rate": 3.18125e-05, "loss": 0.0194, "step": 3496 }, { "epoch": 7.2875, "grad_norm": 0.6034618020057678, "learning_rate": 3.1802083333333335e-05, "loss": 0.0181, "step": 3498 }, { "epoch": 7.291666666666667, "grad_norm": 0.21368248760700226, "learning_rate": 3.179166666666667e-05, "loss": 0.0127, "step": 3500 }, { "epoch": 7.295833333333333, "grad_norm": 0.4573417901992798, "learning_rate": 3.1781250000000003e-05, "loss": 0.015, "step": 3502 }, { "epoch": 7.3, "grad_norm": 0.25753000378608704, "learning_rate": 3.177083333333333e-05, "loss": 0.0225, "step": 3504 }, { "epoch": 7.304166666666666, "grad_norm": 0.5254179835319519, "learning_rate": 3.176041666666667e-05, "loss": 0.0263, "step": 3506 }, { "epoch": 7.308333333333334, "grad_norm": 2.3535850048065186, "learning_rate": 3.175e-05, "loss": 0.0251, "step": 3508 }, { "epoch": 7.3125, "grad_norm": 0.8495380282402039, "learning_rate": 3.1739583333333333e-05, "loss": 0.0182, "step": 3510 }, { "epoch": 7.316666666666666, "grad_norm": 0.6336838006973267, "learning_rate": 3.172916666666667e-05, "loss": 0.0258, "step": 3512 }, { "epoch": 7.320833333333334, "grad_norm": 0.44513750076293945, "learning_rate": 3.171875e-05, "loss": 0.0216, "step": 3514 }, { "epoch": 7.325, "grad_norm": 0.4201766848564148, "learning_rate": 3.1708333333333336e-05, "loss": 0.0187, "step": 3516 }, { "epoch": 7.329166666666667, "grad_norm": 0.6108961701393127, "learning_rate": 3.1697916666666664e-05, "loss": 0.0242, "step": 3518 }, { "epoch": 7.333333333333333, "grad_norm": 1.2705001831054688, "learning_rate": 3.1687500000000005e-05, "loss": 0.0273, "step": 3520 }, { "epoch": 7.3375, "grad_norm": 0.8130192160606384, "learning_rate": 3.167708333333333e-05, "loss": 0.0239, "step": 3522 }, { "epoch": 7.341666666666667, "grad_norm": 2.085631847381592, "learning_rate": 3.1666666666666666e-05, "loss": 0.0163, "step": 3524 }, { "epoch": 7.345833333333333, "grad_norm": 0.48936957120895386, "learning_rate": 3.165625000000001e-05, "loss": 0.0225, "step": 3526 }, { "epoch": 7.35, "grad_norm": 0.5029128193855286, "learning_rate": 3.1645833333333335e-05, "loss": 0.0194, "step": 3528 }, { "epoch": 7.354166666666667, "grad_norm": 0.5380133390426636, "learning_rate": 3.163541666666667e-05, "loss": 0.0215, "step": 3530 }, { "epoch": 7.358333333333333, "grad_norm": 0.45025092363357544, "learning_rate": 3.1624999999999996e-05, "loss": 0.0214, "step": 3532 }, { "epoch": 7.3625, "grad_norm": 0.5399795770645142, "learning_rate": 3.161458333333334e-05, "loss": 0.0197, "step": 3534 }, { "epoch": 7.366666666666666, "grad_norm": 0.8290844559669495, "learning_rate": 3.160416666666667e-05, "loss": 0.0261, "step": 3536 }, { "epoch": 7.370833333333334, "grad_norm": 0.496940016746521, "learning_rate": 3.159375e-05, "loss": 0.0196, "step": 3538 }, { "epoch": 7.375, "grad_norm": 0.3779090344905853, "learning_rate": 3.158333333333334e-05, "loss": 0.0142, "step": 3540 }, { "epoch": 7.379166666666666, "grad_norm": 4.264917373657227, "learning_rate": 3.157291666666667e-05, "loss": 0.0236, "step": 3542 }, { "epoch": 7.383333333333334, "grad_norm": 0.8548162579536438, "learning_rate": 3.15625e-05, "loss": 0.0177, "step": 3544 }, { "epoch": 7.3875, "grad_norm": 0.9838163256645203, "learning_rate": 3.155208333333333e-05, "loss": 0.0238, "step": 3546 }, { "epoch": 7.391666666666667, "grad_norm": 0.37985342741012573, "learning_rate": 3.154166666666667e-05, "loss": 0.0155, "step": 3548 }, { "epoch": 7.395833333333333, "grad_norm": 0.47424763441085815, "learning_rate": 3.1531250000000004e-05, "loss": 0.0205, "step": 3550 }, { "epoch": 7.4, "grad_norm": 0.7156406044960022, "learning_rate": 3.152083333333333e-05, "loss": 0.0247, "step": 3552 }, { "epoch": 7.404166666666667, "grad_norm": 1.6407506465911865, "learning_rate": 3.151041666666667e-05, "loss": 0.0205, "step": 3554 }, { "epoch": 7.408333333333333, "grad_norm": 0.3928532600402832, "learning_rate": 3.15e-05, "loss": 0.0172, "step": 3556 }, { "epoch": 7.4125, "grad_norm": 0.3435899019241333, "learning_rate": 3.1489583333333334e-05, "loss": 0.0205, "step": 3558 }, { "epoch": 7.416666666666667, "grad_norm": 0.6592299342155457, "learning_rate": 3.147916666666667e-05, "loss": 0.0186, "step": 3560 }, { "epoch": 7.420833333333333, "grad_norm": 0.3462288975715637, "learning_rate": 3.146875e-05, "loss": 0.0165, "step": 3562 }, { "epoch": 7.425, "grad_norm": 0.4557316303253174, "learning_rate": 3.145833333333334e-05, "loss": 0.0148, "step": 3564 }, { "epoch": 7.429166666666666, "grad_norm": 0.31668418645858765, "learning_rate": 3.1447916666666664e-05, "loss": 0.0248, "step": 3566 }, { "epoch": 7.433333333333334, "grad_norm": 0.33234837651252747, "learning_rate": 3.1437500000000005e-05, "loss": 0.0128, "step": 3568 }, { "epoch": 7.4375, "grad_norm": 0.5921427607536316, "learning_rate": 3.142708333333333e-05, "loss": 0.0265, "step": 3570 }, { "epoch": 7.441666666666666, "grad_norm": 1.2885957956314087, "learning_rate": 3.141666666666667e-05, "loss": 0.0229, "step": 3572 }, { "epoch": 7.445833333333334, "grad_norm": 0.6952353119850159, "learning_rate": 3.140625e-05, "loss": 0.0262, "step": 3574 }, { "epoch": 7.45, "grad_norm": 0.6355441212654114, "learning_rate": 3.1395833333333335e-05, "loss": 0.0223, "step": 3576 }, { "epoch": 7.454166666666667, "grad_norm": 0.5008481740951538, "learning_rate": 3.138541666666667e-05, "loss": 0.0218, "step": 3578 }, { "epoch": 7.458333333333333, "grad_norm": 0.2917126715183258, "learning_rate": 3.1375e-05, "loss": 0.0141, "step": 3580 }, { "epoch": 7.4625, "grad_norm": 0.6598893404006958, "learning_rate": 3.136458333333334e-05, "loss": 0.023, "step": 3582 }, { "epoch": 7.466666666666667, "grad_norm": 0.47271376848220825, "learning_rate": 3.1354166666666665e-05, "loss": 0.0167, "step": 3584 }, { "epoch": 7.470833333333333, "grad_norm": 0.46772390604019165, "learning_rate": 3.134375e-05, "loss": 0.0176, "step": 3586 }, { "epoch": 7.475, "grad_norm": 0.5987578630447388, "learning_rate": 3.1333333333333334e-05, "loss": 0.0204, "step": 3588 }, { "epoch": 7.479166666666667, "grad_norm": 0.7543653249740601, "learning_rate": 3.132291666666667e-05, "loss": 0.0163, "step": 3590 }, { "epoch": 7.483333333333333, "grad_norm": 0.4745219349861145, "learning_rate": 3.13125e-05, "loss": 0.0156, "step": 3592 }, { "epoch": 7.4875, "grad_norm": 0.8255953788757324, "learning_rate": 3.1302083333333336e-05, "loss": 0.0191, "step": 3594 }, { "epoch": 7.491666666666666, "grad_norm": 0.537767767906189, "learning_rate": 3.129166666666667e-05, "loss": 0.0166, "step": 3596 }, { "epoch": 7.495833333333334, "grad_norm": 0.5822561979293823, "learning_rate": 3.128125e-05, "loss": 0.0262, "step": 3598 }, { "epoch": 7.5, "grad_norm": 1.1822253465652466, "learning_rate": 3.127083333333333e-05, "loss": 0.0214, "step": 3600 }, { "epoch": 7.5, "eval_cer": 0.06319413593958241, "eval_loss": 0.3966054618358612, "eval_runtime": 75.2644, "eval_samples_per_second": 5.235, "eval_steps_per_second": 0.664, "step": 3600 }, { "epoch": 7.504166666666666, "grad_norm": 0.5766857862472534, "learning_rate": 3.1260416666666666e-05, "loss": 0.0248, "step": 3602 }, { "epoch": 7.508333333333333, "grad_norm": 0.30924364924430847, "learning_rate": 3.125e-05, "loss": 0.022, "step": 3604 }, { "epoch": 7.5125, "grad_norm": 0.4592503607273102, "learning_rate": 3.1239583333333335e-05, "loss": 0.0177, "step": 3606 }, { "epoch": 7.516666666666667, "grad_norm": 0.6602668762207031, "learning_rate": 3.122916666666667e-05, "loss": 0.0235, "step": 3608 }, { "epoch": 7.520833333333333, "grad_norm": 0.47268640995025635, "learning_rate": 3.121875e-05, "loss": 0.0191, "step": 3610 }, { "epoch": 7.525, "grad_norm": 0.3682672679424286, "learning_rate": 3.120833333333333e-05, "loss": 0.0175, "step": 3612 }, { "epoch": 7.529166666666667, "grad_norm": 2.23442006111145, "learning_rate": 3.1197916666666665e-05, "loss": 0.0274, "step": 3614 }, { "epoch": 7.533333333333333, "grad_norm": 0.9078742861747742, "learning_rate": 3.1187500000000006e-05, "loss": 0.0173, "step": 3616 }, { "epoch": 7.5375, "grad_norm": 0.827095627784729, "learning_rate": 3.117708333333333e-05, "loss": 0.0209, "step": 3618 }, { "epoch": 7.541666666666667, "grad_norm": 0.8383491039276123, "learning_rate": 3.116666666666667e-05, "loss": 0.0318, "step": 3620 }, { "epoch": 7.545833333333333, "grad_norm": 0.5556458234786987, "learning_rate": 3.115625e-05, "loss": 0.0249, "step": 3622 }, { "epoch": 7.55, "grad_norm": 0.669191837310791, "learning_rate": 3.1145833333333336e-05, "loss": 0.0165, "step": 3624 }, { "epoch": 7.554166666666667, "grad_norm": 0.6048550605773926, "learning_rate": 3.113541666666667e-05, "loss": 0.0175, "step": 3626 }, { "epoch": 7.558333333333334, "grad_norm": 0.3455893397331238, "learning_rate": 3.1125000000000004e-05, "loss": 0.0211, "step": 3628 }, { "epoch": 7.5625, "grad_norm": 0.4015806317329407, "learning_rate": 3.111458333333334e-05, "loss": 0.0162, "step": 3630 }, { "epoch": 7.566666666666666, "grad_norm": 0.6035079956054688, "learning_rate": 3.1104166666666666e-05, "loss": 0.0208, "step": 3632 }, { "epoch": 7.570833333333333, "grad_norm": 1.3296873569488525, "learning_rate": 3.109375e-05, "loss": 0.0436, "step": 3634 }, { "epoch": 7.575, "grad_norm": 0.6667279005050659, "learning_rate": 3.1083333333333334e-05, "loss": 0.0288, "step": 3636 }, { "epoch": 7.579166666666667, "grad_norm": 1.0167970657348633, "learning_rate": 3.107291666666667e-05, "loss": 0.0262, "step": 3638 }, { "epoch": 7.583333333333333, "grad_norm": 0.3428986370563507, "learning_rate": 3.10625e-05, "loss": 0.0158, "step": 3640 }, { "epoch": 7.5875, "grad_norm": 0.606680154800415, "learning_rate": 3.105208333333334e-05, "loss": 0.0192, "step": 3642 }, { "epoch": 7.591666666666667, "grad_norm": 0.6908947825431824, "learning_rate": 3.104166666666667e-05, "loss": 0.0251, "step": 3644 }, { "epoch": 7.595833333333333, "grad_norm": 0.4594678580760956, "learning_rate": 3.103125e-05, "loss": 0.0183, "step": 3646 }, { "epoch": 7.6, "grad_norm": 0.46653518080711365, "learning_rate": 3.102083333333333e-05, "loss": 0.0181, "step": 3648 }, { "epoch": 7.604166666666667, "grad_norm": 1.4803800582885742, "learning_rate": 3.101041666666667e-05, "loss": 0.0294, "step": 3650 }, { "epoch": 7.608333333333333, "grad_norm": 2.9200823307037354, "learning_rate": 3.1e-05, "loss": 0.036, "step": 3652 }, { "epoch": 7.6125, "grad_norm": 0.49771648645401, "learning_rate": 3.0989583333333336e-05, "loss": 0.0183, "step": 3654 }, { "epoch": 7.616666666666667, "grad_norm": 0.48510560393333435, "learning_rate": 3.097916666666667e-05, "loss": 0.0193, "step": 3656 }, { "epoch": 7.620833333333334, "grad_norm": 0.5835555195808411, "learning_rate": 3.0968750000000004e-05, "loss": 0.028, "step": 3658 }, { "epoch": 7.625, "grad_norm": 1.418738842010498, "learning_rate": 3.095833333333333e-05, "loss": 0.0248, "step": 3660 }, { "epoch": 7.629166666666666, "grad_norm": 0.7478122711181641, "learning_rate": 3.094791666666667e-05, "loss": 0.024, "step": 3662 }, { "epoch": 7.633333333333333, "grad_norm": 0.48507148027420044, "learning_rate": 3.09375e-05, "loss": 0.0205, "step": 3664 }, { "epoch": 7.6375, "grad_norm": 0.3896194398403168, "learning_rate": 3.0927083333333334e-05, "loss": 0.0178, "step": 3666 }, { "epoch": 7.641666666666667, "grad_norm": 0.6303302049636841, "learning_rate": 3.091666666666667e-05, "loss": 0.0294, "step": 3668 }, { "epoch": 7.645833333333333, "grad_norm": 0.5422300696372986, "learning_rate": 3.090625e-05, "loss": 0.0216, "step": 3670 }, { "epoch": 7.65, "grad_norm": 0.6529776453971863, "learning_rate": 3.089583333333334e-05, "loss": 0.0195, "step": 3672 }, { "epoch": 7.654166666666667, "grad_norm": 0.4288695752620697, "learning_rate": 3.0885416666666664e-05, "loss": 0.016, "step": 3674 }, { "epoch": 7.658333333333333, "grad_norm": 0.6106112003326416, "learning_rate": 3.0875000000000005e-05, "loss": 0.0261, "step": 3676 }, { "epoch": 7.6625, "grad_norm": 0.38628074526786804, "learning_rate": 3.086458333333333e-05, "loss": 0.0234, "step": 3678 }, { "epoch": 7.666666666666667, "grad_norm": 2.5267720222473145, "learning_rate": 3.085416666666667e-05, "loss": 0.0359, "step": 3680 }, { "epoch": 7.670833333333333, "grad_norm": 1.1921278238296509, "learning_rate": 3.084375e-05, "loss": 0.035, "step": 3682 }, { "epoch": 7.675, "grad_norm": 0.4726331830024719, "learning_rate": 3.0833333333333335e-05, "loss": 0.0201, "step": 3684 }, { "epoch": 7.679166666666667, "grad_norm": 0.47684478759765625, "learning_rate": 3.082291666666667e-05, "loss": 0.02, "step": 3686 }, { "epoch": 7.683333333333334, "grad_norm": 0.5189896821975708, "learning_rate": 3.08125e-05, "loss": 0.0207, "step": 3688 }, { "epoch": 7.6875, "grad_norm": 0.42278385162353516, "learning_rate": 3.080208333333334e-05, "loss": 0.0147, "step": 3690 }, { "epoch": 7.691666666666666, "grad_norm": 0.6598737835884094, "learning_rate": 3.079166666666667e-05, "loss": 0.0221, "step": 3692 }, { "epoch": 7.695833333333333, "grad_norm": 0.5158832669258118, "learning_rate": 3.078125e-05, "loss": 0.018, "step": 3694 }, { "epoch": 7.7, "grad_norm": 0.438465416431427, "learning_rate": 3.0770833333333334e-05, "loss": 0.0145, "step": 3696 }, { "epoch": 7.704166666666667, "grad_norm": 0.3222663402557373, "learning_rate": 3.076041666666667e-05, "loss": 0.0162, "step": 3698 }, { "epoch": 7.708333333333333, "grad_norm": 0.37563133239746094, "learning_rate": 3.075e-05, "loss": 0.0162, "step": 3700 }, { "epoch": 7.7125, "grad_norm": 0.8476555943489075, "learning_rate": 3.073958333333333e-05, "loss": 0.0283, "step": 3702 }, { "epoch": 7.716666666666667, "grad_norm": 0.6180766820907593, "learning_rate": 3.072916666666667e-05, "loss": 0.029, "step": 3704 }, { "epoch": 7.720833333333333, "grad_norm": 0.9961662888526917, "learning_rate": 3.0718750000000005e-05, "loss": 0.0204, "step": 3706 }, { "epoch": 7.725, "grad_norm": 0.47607356309890747, "learning_rate": 3.070833333333333e-05, "loss": 0.0187, "step": 3708 }, { "epoch": 7.729166666666667, "grad_norm": 1.5697436332702637, "learning_rate": 3.069791666666667e-05, "loss": 0.0224, "step": 3710 }, { "epoch": 7.733333333333333, "grad_norm": 0.752020001411438, "learning_rate": 3.06875e-05, "loss": 0.0305, "step": 3712 }, { "epoch": 7.7375, "grad_norm": 0.42446890473365784, "learning_rate": 3.0677083333333335e-05, "loss": 0.0223, "step": 3714 }, { "epoch": 7.741666666666667, "grad_norm": 0.3545722961425781, "learning_rate": 3.066666666666667e-05, "loss": 0.0253, "step": 3716 }, { "epoch": 7.745833333333334, "grad_norm": 1.277623176574707, "learning_rate": 3.065625e-05, "loss": 0.0279, "step": 3718 }, { "epoch": 7.75, "grad_norm": 0.34411463141441345, "learning_rate": 3.064583333333334e-05, "loss": 0.0226, "step": 3720 }, { "epoch": 7.754166666666666, "grad_norm": 0.9054245352745056, "learning_rate": 3.0635416666666665e-05, "loss": 0.0315, "step": 3722 }, { "epoch": 7.758333333333333, "grad_norm": 4.758686065673828, "learning_rate": 3.0625000000000006e-05, "loss": 0.0283, "step": 3724 }, { "epoch": 7.7625, "grad_norm": 0.47740980982780457, "learning_rate": 3.061458333333333e-05, "loss": 0.0216, "step": 3726 }, { "epoch": 7.766666666666667, "grad_norm": 0.4881611466407776, "learning_rate": 3.060416666666667e-05, "loss": 0.0229, "step": 3728 }, { "epoch": 7.770833333333333, "grad_norm": 1.1405632495880127, "learning_rate": 3.059375e-05, "loss": 0.0238, "step": 3730 }, { "epoch": 7.775, "grad_norm": 0.647423505783081, "learning_rate": 3.0583333333333336e-05, "loss": 0.0225, "step": 3732 }, { "epoch": 7.779166666666667, "grad_norm": 0.5537109375, "learning_rate": 3.057291666666667e-05, "loss": 0.0264, "step": 3734 }, { "epoch": 7.783333333333333, "grad_norm": 0.5988361239433289, "learning_rate": 3.05625e-05, "loss": 0.0269, "step": 3736 }, { "epoch": 7.7875, "grad_norm": 0.5628698468208313, "learning_rate": 3.055208333333334e-05, "loss": 0.0238, "step": 3738 }, { "epoch": 7.791666666666667, "grad_norm": 0.6685660481452942, "learning_rate": 3.0541666666666666e-05, "loss": 0.0237, "step": 3740 }, { "epoch": 7.795833333333333, "grad_norm": 0.6037874817848206, "learning_rate": 3.053125e-05, "loss": 0.0215, "step": 3742 }, { "epoch": 7.8, "grad_norm": 0.26125800609588623, "learning_rate": 3.0520833333333334e-05, "loss": 0.0138, "step": 3744 }, { "epoch": 7.804166666666667, "grad_norm": 0.5440795421600342, "learning_rate": 3.051041666666667e-05, "loss": 0.0218, "step": 3746 }, { "epoch": 7.808333333333334, "grad_norm": 0.6096063256263733, "learning_rate": 3.05e-05, "loss": 0.0176, "step": 3748 }, { "epoch": 7.8125, "grad_norm": 0.6345534324645996, "learning_rate": 3.0489583333333334e-05, "loss": 0.0234, "step": 3750 }, { "epoch": 7.816666666666666, "grad_norm": 0.4291459321975708, "learning_rate": 3.047916666666667e-05, "loss": 0.015, "step": 3752 }, { "epoch": 7.820833333333333, "grad_norm": 0.553010880947113, "learning_rate": 3.0468750000000002e-05, "loss": 0.0207, "step": 3754 }, { "epoch": 7.825, "grad_norm": 0.40812453627586365, "learning_rate": 3.0458333333333333e-05, "loss": 0.0241, "step": 3756 }, { "epoch": 7.829166666666667, "grad_norm": 0.8592191934585571, "learning_rate": 3.044791666666667e-05, "loss": 0.0238, "step": 3758 }, { "epoch": 7.833333333333333, "grad_norm": 0.36087122559547424, "learning_rate": 3.04375e-05, "loss": 0.0219, "step": 3760 }, { "epoch": 7.8375, "grad_norm": 0.4685411751270294, "learning_rate": 3.0427083333333335e-05, "loss": 0.0225, "step": 3762 }, { "epoch": 7.841666666666667, "grad_norm": 0.38486024737358093, "learning_rate": 3.0416666666666666e-05, "loss": 0.0247, "step": 3764 }, { "epoch": 7.845833333333333, "grad_norm": 0.8634423017501831, "learning_rate": 3.0406250000000004e-05, "loss": 0.043, "step": 3766 }, { "epoch": 7.85, "grad_norm": 0.8346765637397766, "learning_rate": 3.0395833333333335e-05, "loss": 0.0191, "step": 3768 }, { "epoch": 7.854166666666667, "grad_norm": 1.000938057899475, "learning_rate": 3.0385416666666666e-05, "loss": 0.0141, "step": 3770 }, { "epoch": 7.858333333333333, "grad_norm": 0.6905760765075684, "learning_rate": 3.0375000000000003e-05, "loss": 0.0259, "step": 3772 }, { "epoch": 7.8625, "grad_norm": 0.43647634983062744, "learning_rate": 3.0364583333333334e-05, "loss": 0.02, "step": 3774 }, { "epoch": 7.866666666666667, "grad_norm": 1.112122654914856, "learning_rate": 3.0354166666666668e-05, "loss": 0.0338, "step": 3776 }, { "epoch": 7.870833333333334, "grad_norm": 0.5119484663009644, "learning_rate": 3.0343750000000006e-05, "loss": 0.0187, "step": 3778 }, { "epoch": 7.875, "grad_norm": 0.9580150842666626, "learning_rate": 3.0333333333333337e-05, "loss": 0.0181, "step": 3780 }, { "epoch": 7.879166666666666, "grad_norm": 0.46004506945610046, "learning_rate": 3.0322916666666667e-05, "loss": 0.0236, "step": 3782 }, { "epoch": 7.883333333333333, "grad_norm": 0.352469801902771, "learning_rate": 3.0312499999999998e-05, "loss": 0.0173, "step": 3784 }, { "epoch": 7.8875, "grad_norm": 0.5450811982154846, "learning_rate": 3.0302083333333336e-05, "loss": 0.0361, "step": 3786 }, { "epoch": 7.891666666666667, "grad_norm": 1.0346827507019043, "learning_rate": 3.0291666666666667e-05, "loss": 0.0198, "step": 3788 }, { "epoch": 7.895833333333333, "grad_norm": 0.47901320457458496, "learning_rate": 3.028125e-05, "loss": 0.0237, "step": 3790 }, { "epoch": 7.9, "grad_norm": 0.6845324039459229, "learning_rate": 3.027083333333334e-05, "loss": 0.0225, "step": 3792 }, { "epoch": 7.904166666666667, "grad_norm": 0.35907748341560364, "learning_rate": 3.026041666666667e-05, "loss": 0.0164, "step": 3794 }, { "epoch": 7.908333333333333, "grad_norm": 0.34360015392303467, "learning_rate": 3.025e-05, "loss": 0.0208, "step": 3796 }, { "epoch": 7.9125, "grad_norm": 0.5348155498504639, "learning_rate": 3.023958333333333e-05, "loss": 0.0271, "step": 3798 }, { "epoch": 7.916666666666667, "grad_norm": 0.5055382251739502, "learning_rate": 3.022916666666667e-05, "loss": 0.0249, "step": 3800 }, { "epoch": 7.916666666666667, "eval_cer": 0.06002887605508663, "eval_loss": 0.39582812786102295, "eval_runtime": 75.3306, "eval_samples_per_second": 5.23, "eval_steps_per_second": 0.664, "step": 3800 }, { "epoch": 7.920833333333333, "grad_norm": 1.3131810426712036, "learning_rate": 3.0218750000000003e-05, "loss": 0.0321, "step": 3802 }, { "epoch": 7.925, "grad_norm": 0.638957142829895, "learning_rate": 3.0208333333333334e-05, "loss": 0.0261, "step": 3804 }, { "epoch": 7.929166666666667, "grad_norm": 0.5020803213119507, "learning_rate": 3.019791666666667e-05, "loss": 0.0231, "step": 3806 }, { "epoch": 7.933333333333334, "grad_norm": 7.461872100830078, "learning_rate": 3.0187500000000002e-05, "loss": 0.0293, "step": 3808 }, { "epoch": 7.9375, "grad_norm": 0.6291200518608093, "learning_rate": 3.0177083333333333e-05, "loss": 0.0275, "step": 3810 }, { "epoch": 7.941666666666666, "grad_norm": 0.8682950735092163, "learning_rate": 3.016666666666667e-05, "loss": 0.0246, "step": 3812 }, { "epoch": 7.945833333333333, "grad_norm": 0.692464292049408, "learning_rate": 3.015625e-05, "loss": 0.0283, "step": 3814 }, { "epoch": 7.95, "grad_norm": 0.5289508700370789, "learning_rate": 3.0145833333333335e-05, "loss": 0.0218, "step": 3816 }, { "epoch": 7.954166666666667, "grad_norm": 0.7127851247787476, "learning_rate": 3.0135416666666666e-05, "loss": 0.0248, "step": 3818 }, { "epoch": 7.958333333333333, "grad_norm": 0.4087834358215332, "learning_rate": 3.0125000000000004e-05, "loss": 0.0172, "step": 3820 }, { "epoch": 7.9625, "grad_norm": 0.4307630956172943, "learning_rate": 3.0114583333333335e-05, "loss": 0.0181, "step": 3822 }, { "epoch": 7.966666666666667, "grad_norm": 0.5808410048484802, "learning_rate": 3.0104166666666665e-05, "loss": 0.0329, "step": 3824 }, { "epoch": 7.970833333333333, "grad_norm": 0.6523730754852295, "learning_rate": 3.0093750000000003e-05, "loss": 0.019, "step": 3826 }, { "epoch": 7.975, "grad_norm": 0.3563057482242584, "learning_rate": 3.0083333333333337e-05, "loss": 0.0163, "step": 3828 }, { "epoch": 7.979166666666667, "grad_norm": 0.4372091591358185, "learning_rate": 3.0072916666666668e-05, "loss": 0.0197, "step": 3830 }, { "epoch": 7.983333333333333, "grad_norm": 0.5268446803092957, "learning_rate": 3.00625e-05, "loss": 0.0191, "step": 3832 }, { "epoch": 7.9875, "grad_norm": 1.0802661180496216, "learning_rate": 3.0052083333333336e-05, "loss": 0.0252, "step": 3834 }, { "epoch": 7.991666666666667, "grad_norm": 0.4825522303581238, "learning_rate": 3.0041666666666667e-05, "loss": 0.0192, "step": 3836 }, { "epoch": 7.995833333333334, "grad_norm": 0.6703685522079468, "learning_rate": 3.0031249999999998e-05, "loss": 0.0208, "step": 3838 }, { "epoch": 8.0, "grad_norm": 0.8694697618484497, "learning_rate": 3.0020833333333336e-05, "loss": 0.0253, "step": 3840 }, { "epoch": 8.004166666666666, "grad_norm": 0.44813060760498047, "learning_rate": 3.001041666666667e-05, "loss": 0.0142, "step": 3842 }, { "epoch": 8.008333333333333, "grad_norm": 0.37218400835990906, "learning_rate": 3e-05, "loss": 0.016, "step": 3844 }, { "epoch": 8.0125, "grad_norm": 0.243580162525177, "learning_rate": 2.998958333333333e-05, "loss": 0.0112, "step": 3846 }, { "epoch": 8.016666666666667, "grad_norm": 0.1926388144493103, "learning_rate": 2.997916666666667e-05, "loss": 0.0103, "step": 3848 }, { "epoch": 8.020833333333334, "grad_norm": 0.35067999362945557, "learning_rate": 2.996875e-05, "loss": 0.0085, "step": 3850 }, { "epoch": 8.025, "grad_norm": 0.4106822609901428, "learning_rate": 2.9958333333333334e-05, "loss": 0.0159, "step": 3852 }, { "epoch": 8.029166666666667, "grad_norm": 0.38085001707077026, "learning_rate": 2.994791666666667e-05, "loss": 0.0188, "step": 3854 }, { "epoch": 8.033333333333333, "grad_norm": 0.33315128087997437, "learning_rate": 2.9937500000000003e-05, "loss": 0.0128, "step": 3856 }, { "epoch": 8.0375, "grad_norm": 0.3993881940841675, "learning_rate": 2.9927083333333333e-05, "loss": 0.0219, "step": 3858 }, { "epoch": 8.041666666666666, "grad_norm": 0.49116936326026917, "learning_rate": 2.991666666666667e-05, "loss": 0.0194, "step": 3860 }, { "epoch": 8.045833333333333, "grad_norm": 0.43114838004112244, "learning_rate": 2.9906250000000002e-05, "loss": 0.0201, "step": 3862 }, { "epoch": 8.05, "grad_norm": 0.36210429668426514, "learning_rate": 2.9895833333333333e-05, "loss": 0.012, "step": 3864 }, { "epoch": 8.054166666666667, "grad_norm": 0.23641756176948547, "learning_rate": 2.9885416666666667e-05, "loss": 0.0157, "step": 3866 }, { "epoch": 8.058333333333334, "grad_norm": 0.3785956799983978, "learning_rate": 2.9875000000000004e-05, "loss": 0.0127, "step": 3868 }, { "epoch": 8.0625, "grad_norm": 0.13942758738994598, "learning_rate": 2.9864583333333335e-05, "loss": 0.0087, "step": 3870 }, { "epoch": 8.066666666666666, "grad_norm": 0.44062569737434387, "learning_rate": 2.9854166666666666e-05, "loss": 0.0106, "step": 3872 }, { "epoch": 8.070833333333333, "grad_norm": 1.080630898475647, "learning_rate": 2.9843750000000004e-05, "loss": 0.0192, "step": 3874 }, { "epoch": 8.075, "grad_norm": 0.30977270007133484, "learning_rate": 2.9833333333333335e-05, "loss": 0.0143, "step": 3876 }, { "epoch": 8.079166666666667, "grad_norm": 0.3131089210510254, "learning_rate": 2.9822916666666665e-05, "loss": 0.0105, "step": 3878 }, { "epoch": 8.083333333333334, "grad_norm": 0.42610597610473633, "learning_rate": 2.98125e-05, "loss": 0.0137, "step": 3880 }, { "epoch": 8.0875, "grad_norm": 0.5242621302604675, "learning_rate": 2.9802083333333337e-05, "loss": 0.0114, "step": 3882 }, { "epoch": 8.091666666666667, "grad_norm": 1.3198421001434326, "learning_rate": 2.9791666666666668e-05, "loss": 0.013, "step": 3884 }, { "epoch": 8.095833333333333, "grad_norm": 0.1904415786266327, "learning_rate": 2.978125e-05, "loss": 0.0121, "step": 3886 }, { "epoch": 8.1, "grad_norm": 0.532697319984436, "learning_rate": 2.9770833333333336e-05, "loss": 0.0189, "step": 3888 }, { "epoch": 8.104166666666666, "grad_norm": 0.2464178055524826, "learning_rate": 2.9760416666666667e-05, "loss": 0.0099, "step": 3890 }, { "epoch": 8.108333333333333, "grad_norm": 0.400334894657135, "learning_rate": 2.975e-05, "loss": 0.0193, "step": 3892 }, { "epoch": 8.1125, "grad_norm": 0.39677226543426514, "learning_rate": 2.9739583333333336e-05, "loss": 0.0151, "step": 3894 }, { "epoch": 8.116666666666667, "grad_norm": 0.23379898071289062, "learning_rate": 2.972916666666667e-05, "loss": 0.0089, "step": 3896 }, { "epoch": 8.120833333333334, "grad_norm": 0.4588472545146942, "learning_rate": 2.971875e-05, "loss": 0.0143, "step": 3898 }, { "epoch": 8.125, "grad_norm": 0.4935609698295593, "learning_rate": 2.970833333333333e-05, "loss": 0.0112, "step": 3900 }, { "epoch": 8.129166666666666, "grad_norm": 0.529336154460907, "learning_rate": 2.969791666666667e-05, "loss": 0.0115, "step": 3902 }, { "epoch": 8.133333333333333, "grad_norm": 0.29298514127731323, "learning_rate": 2.96875e-05, "loss": 0.013, "step": 3904 }, { "epoch": 8.1375, "grad_norm": 0.6578707098960876, "learning_rate": 2.9677083333333334e-05, "loss": 0.0233, "step": 3906 }, { "epoch": 8.141666666666667, "grad_norm": 0.5854950547218323, "learning_rate": 2.9666666666666672e-05, "loss": 0.0174, "step": 3908 }, { "epoch": 8.145833333333334, "grad_norm": 0.15591806173324585, "learning_rate": 2.9656250000000003e-05, "loss": 0.0092, "step": 3910 }, { "epoch": 8.15, "grad_norm": 0.17346365749835968, "learning_rate": 2.9645833333333333e-05, "loss": 0.0141, "step": 3912 }, { "epoch": 8.154166666666667, "grad_norm": 0.13857750594615936, "learning_rate": 2.9635416666666664e-05, "loss": 0.0108, "step": 3914 }, { "epoch": 8.158333333333333, "grad_norm": 0.46861591935157776, "learning_rate": 2.9625000000000002e-05, "loss": 0.0116, "step": 3916 }, { "epoch": 8.1625, "grad_norm": 0.5823172330856323, "learning_rate": 2.9614583333333336e-05, "loss": 0.0214, "step": 3918 }, { "epoch": 8.166666666666666, "grad_norm": 0.8085514307022095, "learning_rate": 2.9604166666666667e-05, "loss": 0.0088, "step": 3920 }, { "epoch": 8.170833333333333, "grad_norm": 0.28737568855285645, "learning_rate": 2.9593750000000004e-05, "loss": 0.0277, "step": 3922 }, { "epoch": 8.175, "grad_norm": 0.3341892659664154, "learning_rate": 2.9583333333333335e-05, "loss": 0.0092, "step": 3924 }, { "epoch": 8.179166666666667, "grad_norm": 1.965190052986145, "learning_rate": 2.9572916666666666e-05, "loss": 0.0125, "step": 3926 }, { "epoch": 8.183333333333334, "grad_norm": 0.4832121431827545, "learning_rate": 2.9562500000000004e-05, "loss": 0.0193, "step": 3928 }, { "epoch": 8.1875, "grad_norm": 0.3147629201412201, "learning_rate": 2.9552083333333334e-05, "loss": 0.0114, "step": 3930 }, { "epoch": 8.191666666666666, "grad_norm": 0.4612670838832855, "learning_rate": 2.954166666666667e-05, "loss": 0.0144, "step": 3932 }, { "epoch": 8.195833333333333, "grad_norm": 0.2960876524448395, "learning_rate": 2.953125e-05, "loss": 0.0223, "step": 3934 }, { "epoch": 8.2, "grad_norm": 0.23616066575050354, "learning_rate": 2.9520833333333337e-05, "loss": 0.0103, "step": 3936 }, { "epoch": 8.204166666666667, "grad_norm": 0.3536072373390198, "learning_rate": 2.9510416666666668e-05, "loss": 0.0185, "step": 3938 }, { "epoch": 8.208333333333334, "grad_norm": 0.1527038961648941, "learning_rate": 2.95e-05, "loss": 0.0126, "step": 3940 }, { "epoch": 8.2125, "grad_norm": 0.3032659590244293, "learning_rate": 2.9489583333333336e-05, "loss": 0.0091, "step": 3942 }, { "epoch": 8.216666666666667, "grad_norm": 0.48280489444732666, "learning_rate": 2.9479166666666667e-05, "loss": 0.0203, "step": 3944 }, { "epoch": 8.220833333333333, "grad_norm": 0.43892645835876465, "learning_rate": 2.946875e-05, "loss": 0.0151, "step": 3946 }, { "epoch": 8.225, "grad_norm": 0.27316904067993164, "learning_rate": 2.9458333333333332e-05, "loss": 0.0108, "step": 3948 }, { "epoch": 8.229166666666666, "grad_norm": 0.8450804948806763, "learning_rate": 2.944791666666667e-05, "loss": 0.0141, "step": 3950 }, { "epoch": 8.233333333333333, "grad_norm": 0.9874789118766785, "learning_rate": 2.94375e-05, "loss": 0.019, "step": 3952 }, { "epoch": 8.2375, "grad_norm": 0.3485477566719055, "learning_rate": 2.942708333333333e-05, "loss": 0.0117, "step": 3954 }, { "epoch": 8.241666666666667, "grad_norm": 0.23910658061504364, "learning_rate": 2.941666666666667e-05, "loss": 0.0153, "step": 3956 }, { "epoch": 8.245833333333334, "grad_norm": 0.4021684527397156, "learning_rate": 2.9406250000000003e-05, "loss": 0.0113, "step": 3958 }, { "epoch": 8.25, "grad_norm": 0.40634194016456604, "learning_rate": 2.9395833333333334e-05, "loss": 0.0096, "step": 3960 }, { "epoch": 8.254166666666666, "grad_norm": 0.20356914401054382, "learning_rate": 2.938541666666667e-05, "loss": 0.0113, "step": 3962 }, { "epoch": 8.258333333333333, "grad_norm": 0.29174235463142395, "learning_rate": 2.9375000000000003e-05, "loss": 0.018, "step": 3964 }, { "epoch": 8.2625, "grad_norm": 0.38249456882476807, "learning_rate": 2.9364583333333333e-05, "loss": 0.0163, "step": 3966 }, { "epoch": 8.266666666666667, "grad_norm": 0.3564383387565613, "learning_rate": 2.9354166666666668e-05, "loss": 0.0139, "step": 3968 }, { "epoch": 8.270833333333334, "grad_norm": 0.2886280119419098, "learning_rate": 2.9343750000000002e-05, "loss": 0.011, "step": 3970 }, { "epoch": 8.275, "grad_norm": 0.3003953993320465, "learning_rate": 2.9333333333333336e-05, "loss": 0.011, "step": 3972 }, { "epoch": 8.279166666666667, "grad_norm": 0.399417906999588, "learning_rate": 2.9322916666666667e-05, "loss": 0.0143, "step": 3974 }, { "epoch": 8.283333333333333, "grad_norm": 0.16974666714668274, "learning_rate": 2.9312500000000004e-05, "loss": 0.0102, "step": 3976 }, { "epoch": 8.2875, "grad_norm": 0.43420496582984924, "learning_rate": 2.9302083333333335e-05, "loss": 0.0116, "step": 3978 }, { "epoch": 8.291666666666666, "grad_norm": 0.19227996468544006, "learning_rate": 2.9291666666666666e-05, "loss": 0.0067, "step": 3980 }, { "epoch": 8.295833333333333, "grad_norm": 0.6903923749923706, "learning_rate": 2.928125e-05, "loss": 0.0154, "step": 3982 }, { "epoch": 8.3, "grad_norm": 0.40828901529312134, "learning_rate": 2.9270833333333338e-05, "loss": 0.0142, "step": 3984 }, { "epoch": 8.304166666666667, "grad_norm": 0.5101356506347656, "learning_rate": 2.926041666666667e-05, "loss": 0.0148, "step": 3986 }, { "epoch": 8.308333333333334, "grad_norm": 0.6743680834770203, "learning_rate": 2.925e-05, "loss": 0.0171, "step": 3988 }, { "epoch": 8.3125, "grad_norm": 0.15305039286613464, "learning_rate": 2.9239583333333337e-05, "loss": 0.012, "step": 3990 }, { "epoch": 8.316666666666666, "grad_norm": 0.5484204292297363, "learning_rate": 2.9229166666666668e-05, "loss": 0.0178, "step": 3992 }, { "epoch": 8.320833333333333, "grad_norm": 0.18691198527812958, "learning_rate": 2.921875e-05, "loss": 0.0106, "step": 3994 }, { "epoch": 8.325, "grad_norm": 0.6497703790664673, "learning_rate": 2.9208333333333333e-05, "loss": 0.0115, "step": 3996 }, { "epoch": 8.329166666666667, "grad_norm": 0.24722211062908173, "learning_rate": 2.919791666666667e-05, "loss": 0.0126, "step": 3998 }, { "epoch": 8.333333333333334, "grad_norm": 0.4097425937652588, "learning_rate": 2.91875e-05, "loss": 0.0158, "step": 4000 }, { "epoch": 8.333333333333334, "eval_cer": 0.060250999555753, "eval_loss": 0.4070720672607422, "eval_runtime": 74.7731, "eval_samples_per_second": 5.269, "eval_steps_per_second": 0.669, "step": 4000 }, { "epoch": 8.3375, "grad_norm": 0.283951073884964, "learning_rate": 2.9177083333333332e-05, "loss": 0.0185, "step": 4002 }, { "epoch": 8.341666666666667, "grad_norm": 1.737522006034851, "learning_rate": 2.916666666666667e-05, "loss": 0.0158, "step": 4004 }, { "epoch": 8.345833333333333, "grad_norm": 0.6242247223854065, "learning_rate": 2.915625e-05, "loss": 0.019, "step": 4006 }, { "epoch": 8.35, "grad_norm": 0.37171995639801025, "learning_rate": 2.9145833333333335e-05, "loss": 0.0155, "step": 4008 }, { "epoch": 8.354166666666666, "grad_norm": 0.6445013880729675, "learning_rate": 2.913541666666667e-05, "loss": 0.0187, "step": 4010 }, { "epoch": 8.358333333333333, "grad_norm": 0.48194971680641174, "learning_rate": 2.9125000000000003e-05, "loss": 0.0127, "step": 4012 }, { "epoch": 8.3625, "grad_norm": 0.2867905795574188, "learning_rate": 2.9114583333333334e-05, "loss": 0.0109, "step": 4014 }, { "epoch": 8.366666666666667, "grad_norm": 0.31192710995674133, "learning_rate": 2.9104166666666665e-05, "loss": 0.0153, "step": 4016 }, { "epoch": 8.370833333333334, "grad_norm": 0.3778490424156189, "learning_rate": 2.9093750000000002e-05, "loss": 0.0096, "step": 4018 }, { "epoch": 8.375, "grad_norm": 0.4541451036930084, "learning_rate": 2.9083333333333333e-05, "loss": 0.0161, "step": 4020 }, { "epoch": 8.379166666666666, "grad_norm": 0.2601257264614105, "learning_rate": 2.9072916666666667e-05, "loss": 0.0094, "step": 4022 }, { "epoch": 8.383333333333333, "grad_norm": 0.34385979175567627, "learning_rate": 2.9062500000000005e-05, "loss": 0.0151, "step": 4024 }, { "epoch": 8.3875, "grad_norm": 0.3521216809749603, "learning_rate": 2.9052083333333336e-05, "loss": 0.0124, "step": 4026 }, { "epoch": 8.391666666666667, "grad_norm": 0.6247578859329224, "learning_rate": 2.9041666666666667e-05, "loss": 0.0178, "step": 4028 }, { "epoch": 8.395833333333334, "grad_norm": 0.4270657002925873, "learning_rate": 2.9031249999999998e-05, "loss": 0.0145, "step": 4030 }, { "epoch": 8.4, "grad_norm": 0.45995810627937317, "learning_rate": 2.9020833333333335e-05, "loss": 0.0112, "step": 4032 }, { "epoch": 8.404166666666667, "grad_norm": 0.23934850096702576, "learning_rate": 2.901041666666667e-05, "loss": 0.0103, "step": 4034 }, { "epoch": 8.408333333333333, "grad_norm": 0.2831811308860779, "learning_rate": 2.9e-05, "loss": 0.0104, "step": 4036 }, { "epoch": 8.4125, "grad_norm": 0.38318371772766113, "learning_rate": 2.8989583333333338e-05, "loss": 0.0137, "step": 4038 }, { "epoch": 8.416666666666666, "grad_norm": 0.3136492073535919, "learning_rate": 2.897916666666667e-05, "loss": 0.0119, "step": 4040 }, { "epoch": 8.420833333333333, "grad_norm": 0.37356919050216675, "learning_rate": 2.896875e-05, "loss": 0.0157, "step": 4042 }, { "epoch": 8.425, "grad_norm": 0.3334972858428955, "learning_rate": 2.8958333333333337e-05, "loss": 0.0085, "step": 4044 }, { "epoch": 8.429166666666667, "grad_norm": 0.49866345524787903, "learning_rate": 2.8947916666666668e-05, "loss": 0.0186, "step": 4046 }, { "epoch": 8.433333333333334, "grad_norm": 0.5019541382789612, "learning_rate": 2.8937500000000002e-05, "loss": 0.013, "step": 4048 }, { "epoch": 8.4375, "grad_norm": 1.7880126237869263, "learning_rate": 2.8927083333333333e-05, "loss": 0.0219, "step": 4050 }, { "epoch": 8.441666666666666, "grad_norm": 2.058314323425293, "learning_rate": 2.891666666666667e-05, "loss": 0.0131, "step": 4052 }, { "epoch": 8.445833333333333, "grad_norm": 0.5908212065696716, "learning_rate": 2.890625e-05, "loss": 0.0154, "step": 4054 }, { "epoch": 8.45, "grad_norm": 0.32968682050704956, "learning_rate": 2.8895833333333332e-05, "loss": 0.0165, "step": 4056 }, { "epoch": 8.454166666666667, "grad_norm": 0.7924643158912659, "learning_rate": 2.888541666666667e-05, "loss": 0.0114, "step": 4058 }, { "epoch": 8.458333333333334, "grad_norm": 1.0340673923492432, "learning_rate": 2.8875e-05, "loss": 0.01, "step": 4060 }, { "epoch": 8.4625, "grad_norm": 0.21858660876750946, "learning_rate": 2.8864583333333335e-05, "loss": 0.0131, "step": 4062 }, { "epoch": 8.466666666666667, "grad_norm": 0.3857004940509796, "learning_rate": 2.8854166666666666e-05, "loss": 0.0218, "step": 4064 }, { "epoch": 8.470833333333333, "grad_norm": 0.4144354462623596, "learning_rate": 2.8843750000000003e-05, "loss": 0.0106, "step": 4066 }, { "epoch": 8.475, "grad_norm": 0.2641182839870453, "learning_rate": 2.8833333333333334e-05, "loss": 0.0139, "step": 4068 }, { "epoch": 8.479166666666666, "grad_norm": 0.6938623189926147, "learning_rate": 2.8822916666666665e-05, "loss": 0.0247, "step": 4070 }, { "epoch": 8.483333333333333, "grad_norm": 0.34389951825141907, "learning_rate": 2.8812500000000002e-05, "loss": 0.0147, "step": 4072 }, { "epoch": 8.4875, "grad_norm": 0.4678143262863159, "learning_rate": 2.8802083333333337e-05, "loss": 0.0148, "step": 4074 }, { "epoch": 8.491666666666667, "grad_norm": 0.5362394452095032, "learning_rate": 2.8791666666666667e-05, "loss": 0.0134, "step": 4076 }, { "epoch": 8.495833333333334, "grad_norm": 0.15431758761405945, "learning_rate": 2.8781250000000005e-05, "loss": 0.0059, "step": 4078 }, { "epoch": 8.5, "grad_norm": 0.42708083987236023, "learning_rate": 2.8770833333333336e-05, "loss": 0.0166, "step": 4080 }, { "epoch": 8.504166666666666, "grad_norm": 0.5327838659286499, "learning_rate": 2.8760416666666667e-05, "loss": 0.0145, "step": 4082 }, { "epoch": 8.508333333333333, "grad_norm": 0.1918160319328308, "learning_rate": 2.8749999999999997e-05, "loss": 0.0119, "step": 4084 }, { "epoch": 8.5125, "grad_norm": 0.3702945411205292, "learning_rate": 2.8739583333333335e-05, "loss": 0.0164, "step": 4086 }, { "epoch": 8.516666666666667, "grad_norm": 1.0106154680252075, "learning_rate": 2.872916666666667e-05, "loss": 0.0182, "step": 4088 }, { "epoch": 8.520833333333334, "grad_norm": 0.5844389200210571, "learning_rate": 2.871875e-05, "loss": 0.0338, "step": 4090 }, { "epoch": 8.525, "grad_norm": 0.27481698989868164, "learning_rate": 2.8708333333333338e-05, "loss": 0.0139, "step": 4092 }, { "epoch": 8.529166666666667, "grad_norm": 0.4112664461135864, "learning_rate": 2.869791666666667e-05, "loss": 0.0097, "step": 4094 }, { "epoch": 8.533333333333333, "grad_norm": 0.4740341603755951, "learning_rate": 2.86875e-05, "loss": 0.0137, "step": 4096 }, { "epoch": 8.5375, "grad_norm": 0.721161961555481, "learning_rate": 2.8677083333333334e-05, "loss": 0.0203, "step": 4098 }, { "epoch": 8.541666666666666, "grad_norm": 0.20499658584594727, "learning_rate": 2.8666666666666668e-05, "loss": 0.012, "step": 4100 }, { "epoch": 8.545833333333333, "grad_norm": 1.1593676805496216, "learning_rate": 2.8656250000000002e-05, "loss": 0.0132, "step": 4102 }, { "epoch": 8.55, "grad_norm": 0.6944693922996521, "learning_rate": 2.8645833333333333e-05, "loss": 0.0143, "step": 4104 }, { "epoch": 8.554166666666667, "grad_norm": 0.4886281192302704, "learning_rate": 2.863541666666667e-05, "loss": 0.0136, "step": 4106 }, { "epoch": 8.558333333333334, "grad_norm": 0.4182271361351013, "learning_rate": 2.8625e-05, "loss": 0.0151, "step": 4108 }, { "epoch": 8.5625, "grad_norm": 0.7091904282569885, "learning_rate": 2.8614583333333332e-05, "loss": 0.0228, "step": 4110 }, { "epoch": 8.566666666666666, "grad_norm": 0.728394091129303, "learning_rate": 2.860416666666667e-05, "loss": 0.0199, "step": 4112 }, { "epoch": 8.570833333333333, "grad_norm": 0.31615138053894043, "learning_rate": 2.8593750000000004e-05, "loss": 0.0205, "step": 4114 }, { "epoch": 8.575, "grad_norm": 0.3228836953639984, "learning_rate": 2.8583333333333335e-05, "loss": 0.0094, "step": 4116 }, { "epoch": 8.579166666666667, "grad_norm": 1.3245941400527954, "learning_rate": 2.8572916666666665e-05, "loss": 0.0165, "step": 4118 }, { "epoch": 8.583333333333334, "grad_norm": 0.38338810205459595, "learning_rate": 2.8562500000000003e-05, "loss": 0.0164, "step": 4120 }, { "epoch": 8.5875, "grad_norm": 1.0763522386550903, "learning_rate": 2.8552083333333334e-05, "loss": 0.0188, "step": 4122 }, { "epoch": 8.591666666666667, "grad_norm": 0.3074553608894348, "learning_rate": 2.8541666666666668e-05, "loss": 0.0128, "step": 4124 }, { "epoch": 8.595833333333333, "grad_norm": 0.36190280318260193, "learning_rate": 2.8531250000000002e-05, "loss": 0.0128, "step": 4126 }, { "epoch": 8.6, "grad_norm": 0.5008407831192017, "learning_rate": 2.8520833333333337e-05, "loss": 0.017, "step": 4128 }, { "epoch": 8.604166666666666, "grad_norm": 0.43333637714385986, "learning_rate": 2.8510416666666667e-05, "loss": 0.0128, "step": 4130 }, { "epoch": 8.608333333333333, "grad_norm": 1.4763576984405518, "learning_rate": 2.8499999999999998e-05, "loss": 0.0146, "step": 4132 }, { "epoch": 8.6125, "grad_norm": 0.37987974286079407, "learning_rate": 2.8489583333333336e-05, "loss": 0.0131, "step": 4134 }, { "epoch": 8.616666666666667, "grad_norm": 0.24548207223415375, "learning_rate": 2.8479166666666667e-05, "loss": 0.0118, "step": 4136 }, { "epoch": 8.620833333333334, "grad_norm": 0.7143663167953491, "learning_rate": 2.846875e-05, "loss": 0.0235, "step": 4138 }, { "epoch": 8.625, "grad_norm": 0.4169697165489197, "learning_rate": 2.845833333333334e-05, "loss": 0.0194, "step": 4140 }, { "epoch": 8.629166666666666, "grad_norm": 0.5203858613967896, "learning_rate": 2.844791666666667e-05, "loss": 0.0207, "step": 4142 }, { "epoch": 8.633333333333333, "grad_norm": 0.7256736755371094, "learning_rate": 2.84375e-05, "loss": 0.0145, "step": 4144 }, { "epoch": 8.6375, "grad_norm": 0.4595649540424347, "learning_rate": 2.842708333333333e-05, "loss": 0.0179, "step": 4146 }, { "epoch": 8.641666666666667, "grad_norm": 0.3554857671260834, "learning_rate": 2.841666666666667e-05, "loss": 0.0114, "step": 4148 }, { "epoch": 8.645833333333334, "grad_norm": 0.3589598834514618, "learning_rate": 2.840625e-05, "loss": 0.0096, "step": 4150 }, { "epoch": 8.65, "grad_norm": 0.5692906379699707, "learning_rate": 2.8395833333333333e-05, "loss": 0.0141, "step": 4152 }, { "epoch": 8.654166666666667, "grad_norm": 2.515963554382324, "learning_rate": 2.838541666666667e-05, "loss": 0.0247, "step": 4154 }, { "epoch": 8.658333333333333, "grad_norm": 0.6139355301856995, "learning_rate": 2.8375000000000002e-05, "loss": 0.0142, "step": 4156 }, { "epoch": 8.6625, "grad_norm": 0.6436298489570618, "learning_rate": 2.8364583333333333e-05, "loss": 0.0168, "step": 4158 }, { "epoch": 8.666666666666666, "grad_norm": 0.3218393325805664, "learning_rate": 2.835416666666667e-05, "loss": 0.0153, "step": 4160 }, { "epoch": 8.670833333333333, "grad_norm": 1.1218321323394775, "learning_rate": 2.834375e-05, "loss": 0.0191, "step": 4162 }, { "epoch": 8.675, "grad_norm": 0.5296989679336548, "learning_rate": 2.8333333333333335e-05, "loss": 0.0103, "step": 4164 }, { "epoch": 8.679166666666667, "grad_norm": 0.20384880900382996, "learning_rate": 2.8322916666666666e-05, "loss": 0.0135, "step": 4166 }, { "epoch": 8.683333333333334, "grad_norm": 0.44636470079421997, "learning_rate": 2.8312500000000004e-05, "loss": 0.0163, "step": 4168 }, { "epoch": 8.6875, "grad_norm": 0.6380673050880432, "learning_rate": 2.8302083333333335e-05, "loss": 0.0246, "step": 4170 }, { "epoch": 8.691666666666666, "grad_norm": 0.23354685306549072, "learning_rate": 2.8291666666666665e-05, "loss": 0.0141, "step": 4172 }, { "epoch": 8.695833333333333, "grad_norm": 0.2720557451248169, "learning_rate": 2.8281250000000003e-05, "loss": 0.0165, "step": 4174 }, { "epoch": 8.7, "grad_norm": 0.4258286654949188, "learning_rate": 2.8270833333333334e-05, "loss": 0.019, "step": 4176 }, { "epoch": 8.704166666666667, "grad_norm": 1.350154161453247, "learning_rate": 2.8260416666666668e-05, "loss": 0.0274, "step": 4178 }, { "epoch": 8.708333333333334, "grad_norm": 0.23831455409526825, "learning_rate": 2.825e-05, "loss": 0.0088, "step": 4180 }, { "epoch": 8.7125, "grad_norm": 0.848138689994812, "learning_rate": 2.8239583333333336e-05, "loss": 0.0211, "step": 4182 }, { "epoch": 8.716666666666667, "grad_norm": 0.648650050163269, "learning_rate": 2.8229166666666667e-05, "loss": 0.0225, "step": 4184 }, { "epoch": 8.720833333333333, "grad_norm": 0.4464459717273712, "learning_rate": 2.8218749999999998e-05, "loss": 0.0155, "step": 4186 }, { "epoch": 8.725, "grad_norm": 0.7200297713279724, "learning_rate": 2.8208333333333336e-05, "loss": 0.0266, "step": 4188 }, { "epoch": 8.729166666666666, "grad_norm": 0.4101089537143707, "learning_rate": 2.819791666666667e-05, "loss": 0.0165, "step": 4190 }, { "epoch": 8.733333333333333, "grad_norm": 0.6235838532447815, "learning_rate": 2.81875e-05, "loss": 0.0298, "step": 4192 }, { "epoch": 8.7375, "grad_norm": 0.4568389058113098, "learning_rate": 2.817708333333334e-05, "loss": 0.0148, "step": 4194 }, { "epoch": 8.741666666666667, "grad_norm": 0.6720632314682007, "learning_rate": 2.816666666666667e-05, "loss": 0.0173, "step": 4196 }, { "epoch": 8.745833333333334, "grad_norm": 0.37289756536483765, "learning_rate": 2.815625e-05, "loss": 0.0128, "step": 4198 }, { "epoch": 8.75, "grad_norm": 0.39457324147224426, "learning_rate": 2.814583333333333e-05, "loss": 0.0117, "step": 4200 }, { "epoch": 8.75, "eval_cer": 0.06238893824966681, "eval_loss": 0.407917320728302, "eval_runtime": 75.1538, "eval_samples_per_second": 5.243, "eval_steps_per_second": 0.665, "step": 4200 }, { "epoch": 8.754166666666666, "grad_norm": 0.26273542642593384, "learning_rate": 2.813541666666667e-05, "loss": 0.011, "step": 4202 }, { "epoch": 8.758333333333333, "grad_norm": 0.5936306118965149, "learning_rate": 2.8125000000000003e-05, "loss": 0.0179, "step": 4204 }, { "epoch": 8.7625, "grad_norm": 1.4177201986312866, "learning_rate": 2.8114583333333333e-05, "loss": 0.0227, "step": 4206 }, { "epoch": 8.766666666666667, "grad_norm": 0.5598524212837219, "learning_rate": 2.810416666666667e-05, "loss": 0.0153, "step": 4208 }, { "epoch": 8.770833333333334, "grad_norm": 0.4930800795555115, "learning_rate": 2.8093750000000002e-05, "loss": 0.0141, "step": 4210 }, { "epoch": 8.775, "grad_norm": 0.25465649366378784, "learning_rate": 2.8083333333333333e-05, "loss": 0.0164, "step": 4212 }, { "epoch": 8.779166666666667, "grad_norm": 0.8102503418922424, "learning_rate": 2.8072916666666667e-05, "loss": 0.0168, "step": 4214 }, { "epoch": 8.783333333333333, "grad_norm": 0.7251538634300232, "learning_rate": 2.80625e-05, "loss": 0.0224, "step": 4216 }, { "epoch": 8.7875, "grad_norm": 0.3069850206375122, "learning_rate": 2.8052083333333335e-05, "loss": 0.0102, "step": 4218 }, { "epoch": 8.791666666666666, "grad_norm": 0.7507594227790833, "learning_rate": 2.8041666666666666e-05, "loss": 0.0183, "step": 4220 }, { "epoch": 8.795833333333333, "grad_norm": 0.4666993021965027, "learning_rate": 2.8031250000000004e-05, "loss": 0.0146, "step": 4222 }, { "epoch": 8.8, "grad_norm": 0.21256017684936523, "learning_rate": 2.8020833333333335e-05, "loss": 0.0089, "step": 4224 }, { "epoch": 8.804166666666667, "grad_norm": 0.6252911686897278, "learning_rate": 2.8010416666666665e-05, "loss": 0.0147, "step": 4226 }, { "epoch": 8.808333333333334, "grad_norm": 0.9426029920578003, "learning_rate": 2.8000000000000003e-05, "loss": 0.0229, "step": 4228 }, { "epoch": 8.8125, "grad_norm": 1.0840859413146973, "learning_rate": 2.7989583333333337e-05, "loss": 0.0207, "step": 4230 }, { "epoch": 8.816666666666666, "grad_norm": 0.3472805321216583, "learning_rate": 2.7979166666666668e-05, "loss": 0.0208, "step": 4232 }, { "epoch": 8.820833333333333, "grad_norm": 0.8794019222259521, "learning_rate": 2.796875e-05, "loss": 0.0183, "step": 4234 }, { "epoch": 8.825, "grad_norm": 0.6341427564620972, "learning_rate": 2.7958333333333336e-05, "loss": 0.0244, "step": 4236 }, { "epoch": 8.829166666666667, "grad_norm": 0.6425473093986511, "learning_rate": 2.7947916666666667e-05, "loss": 0.0168, "step": 4238 }, { "epoch": 8.833333333333334, "grad_norm": 0.4414823055267334, "learning_rate": 2.79375e-05, "loss": 0.0148, "step": 4240 }, { "epoch": 8.8375, "grad_norm": 2.982576370239258, "learning_rate": 2.7927083333333336e-05, "loss": 0.0209, "step": 4242 }, { "epoch": 8.841666666666667, "grad_norm": 0.35279497504234314, "learning_rate": 2.791666666666667e-05, "loss": 0.0098, "step": 4244 }, { "epoch": 8.845833333333333, "grad_norm": 0.26234152913093567, "learning_rate": 2.790625e-05, "loss": 0.0106, "step": 4246 }, { "epoch": 8.85, "grad_norm": 0.5224462747573853, "learning_rate": 2.789583333333333e-05, "loss": 0.021, "step": 4248 }, { "epoch": 8.854166666666666, "grad_norm": 0.4828319847583771, "learning_rate": 2.788541666666667e-05, "loss": 0.02, "step": 4250 }, { "epoch": 8.858333333333333, "grad_norm": 0.38257676362991333, "learning_rate": 2.7875e-05, "loss": 0.0151, "step": 4252 }, { "epoch": 8.8625, "grad_norm": 0.6863691210746765, "learning_rate": 2.7864583333333334e-05, "loss": 0.0162, "step": 4254 }, { "epoch": 8.866666666666667, "grad_norm": 0.38774845004081726, "learning_rate": 2.7854166666666672e-05, "loss": 0.013, "step": 4256 }, { "epoch": 8.870833333333334, "grad_norm": 0.44967684149742126, "learning_rate": 2.7843750000000003e-05, "loss": 0.0148, "step": 4258 }, { "epoch": 8.875, "grad_norm": 58.307029724121094, "learning_rate": 2.7833333333333333e-05, "loss": 0.0156, "step": 4260 }, { "epoch": 8.879166666666666, "grad_norm": 0.37494519352912903, "learning_rate": 2.782291666666667e-05, "loss": 0.0162, "step": 4262 }, { "epoch": 8.883333333333333, "grad_norm": 0.47961556911468506, "learning_rate": 2.7812500000000002e-05, "loss": 0.014, "step": 4264 }, { "epoch": 8.8875, "grad_norm": 0.5847838521003723, "learning_rate": 2.7802083333333333e-05, "loss": 0.0203, "step": 4266 }, { "epoch": 8.891666666666667, "grad_norm": 0.4575504958629608, "learning_rate": 2.7791666666666667e-05, "loss": 0.0143, "step": 4268 }, { "epoch": 8.895833333333334, "grad_norm": 0.3176538050174713, "learning_rate": 2.7781250000000004e-05, "loss": 0.012, "step": 4270 }, { "epoch": 8.9, "grad_norm": 0.4705054759979248, "learning_rate": 2.7770833333333335e-05, "loss": 0.0123, "step": 4272 }, { "epoch": 8.904166666666667, "grad_norm": 0.951871395111084, "learning_rate": 2.7760416666666666e-05, "loss": 0.0193, "step": 4274 }, { "epoch": 8.908333333333333, "grad_norm": 0.377753883600235, "learning_rate": 2.7750000000000004e-05, "loss": 0.0118, "step": 4276 }, { "epoch": 8.9125, "grad_norm": 0.3159986436367035, "learning_rate": 2.7739583333333334e-05, "loss": 0.0196, "step": 4278 }, { "epoch": 8.916666666666666, "grad_norm": 0.639850914478302, "learning_rate": 2.772916666666667e-05, "loss": 0.0164, "step": 4280 }, { "epoch": 8.920833333333333, "grad_norm": 0.4299062490463257, "learning_rate": 2.771875e-05, "loss": 0.0112, "step": 4282 }, { "epoch": 8.925, "grad_norm": 0.9533118009567261, "learning_rate": 2.7708333333333337e-05, "loss": 0.0177, "step": 4284 }, { "epoch": 8.929166666666667, "grad_norm": 0.2058912068605423, "learning_rate": 2.7697916666666668e-05, "loss": 0.0272, "step": 4286 }, { "epoch": 8.933333333333334, "grad_norm": 0.6482354998588562, "learning_rate": 2.76875e-05, "loss": 0.0126, "step": 4288 }, { "epoch": 8.9375, "grad_norm": 0.42187803983688354, "learning_rate": 2.7677083333333336e-05, "loss": 0.0125, "step": 4290 }, { "epoch": 8.941666666666666, "grad_norm": 0.5448387861251831, "learning_rate": 2.7666666666666667e-05, "loss": 0.0118, "step": 4292 }, { "epoch": 8.945833333333333, "grad_norm": 0.5624627470970154, "learning_rate": 2.765625e-05, "loss": 0.0172, "step": 4294 }, { "epoch": 8.95, "grad_norm": 0.342435747385025, "learning_rate": 2.7645833333333332e-05, "loss": 0.0129, "step": 4296 }, { "epoch": 8.954166666666667, "grad_norm": 0.34872812032699585, "learning_rate": 2.763541666666667e-05, "loss": 0.0142, "step": 4298 }, { "epoch": 8.958333333333334, "grad_norm": 0.2870488464832306, "learning_rate": 2.7625e-05, "loss": 0.0084, "step": 4300 }, { "epoch": 8.9625, "grad_norm": 0.4289344847202301, "learning_rate": 2.761458333333333e-05, "loss": 0.0148, "step": 4302 }, { "epoch": 8.966666666666667, "grad_norm": 1.598763108253479, "learning_rate": 2.760416666666667e-05, "loss": 0.0162, "step": 4304 }, { "epoch": 8.970833333333333, "grad_norm": 0.503821074962616, "learning_rate": 2.759375e-05, "loss": 0.0136, "step": 4306 }, { "epoch": 8.975, "grad_norm": 0.5778366327285767, "learning_rate": 2.7583333333333334e-05, "loss": 0.0124, "step": 4308 }, { "epoch": 8.979166666666666, "grad_norm": 0.4293874204158783, "learning_rate": 2.757291666666667e-05, "loss": 0.0176, "step": 4310 }, { "epoch": 8.983333333333333, "grad_norm": 0.39094504714012146, "learning_rate": 2.7562500000000002e-05, "loss": 0.0125, "step": 4312 }, { "epoch": 8.9875, "grad_norm": 0.6024280786514282, "learning_rate": 2.7552083333333333e-05, "loss": 0.014, "step": 4314 }, { "epoch": 8.991666666666667, "grad_norm": 0.28209710121154785, "learning_rate": 2.7541666666666664e-05, "loss": 0.0101, "step": 4316 }, { "epoch": 8.995833333333334, "grad_norm": 0.3500489890575409, "learning_rate": 2.7531250000000002e-05, "loss": 0.0113, "step": 4318 }, { "epoch": 9.0, "grad_norm": 0.32692745327949524, "learning_rate": 2.7520833333333336e-05, "loss": 0.018, "step": 4320 }, { "epoch": 9.004166666666666, "grad_norm": 0.40759170055389404, "learning_rate": 2.7510416666666667e-05, "loss": 0.016, "step": 4322 }, { "epoch": 9.008333333333333, "grad_norm": 0.2701570391654968, "learning_rate": 2.7500000000000004e-05, "loss": 0.0092, "step": 4324 }, { "epoch": 9.0125, "grad_norm": 0.2882181704044342, "learning_rate": 2.7489583333333335e-05, "loss": 0.0163, "step": 4326 }, { "epoch": 9.016666666666667, "grad_norm": 0.18967121839523315, "learning_rate": 2.7479166666666666e-05, "loss": 0.0099, "step": 4328 }, { "epoch": 9.020833333333334, "grad_norm": 0.3310891091823578, "learning_rate": 2.746875e-05, "loss": 0.011, "step": 4330 }, { "epoch": 9.025, "grad_norm": 0.6123878359794617, "learning_rate": 2.7458333333333334e-05, "loss": 0.0105, "step": 4332 }, { "epoch": 9.029166666666667, "grad_norm": 0.3145969808101654, "learning_rate": 2.744791666666667e-05, "loss": 0.0174, "step": 4334 }, { "epoch": 9.033333333333333, "grad_norm": 0.1749265342950821, "learning_rate": 2.74375e-05, "loss": 0.0113, "step": 4336 }, { "epoch": 9.0375, "grad_norm": 0.25173601508140564, "learning_rate": 2.7427083333333337e-05, "loss": 0.0106, "step": 4338 }, { "epoch": 9.041666666666666, "grad_norm": 0.4790075719356537, "learning_rate": 2.7416666666666668e-05, "loss": 0.0093, "step": 4340 }, { "epoch": 9.045833333333333, "grad_norm": 0.1874348372220993, "learning_rate": 2.740625e-05, "loss": 0.0084, "step": 4342 }, { "epoch": 9.05, "grad_norm": 0.291998028755188, "learning_rate": 2.7395833333333336e-05, "loss": 0.0113, "step": 4344 }, { "epoch": 9.054166666666667, "grad_norm": 0.3195537328720093, "learning_rate": 2.738541666666667e-05, "loss": 0.0113, "step": 4346 }, { "epoch": 9.058333333333334, "grad_norm": 0.18078748881816864, "learning_rate": 2.7375e-05, "loss": 0.0084, "step": 4348 }, { "epoch": 9.0625, "grad_norm": 0.5013593435287476, "learning_rate": 2.7364583333333332e-05, "loss": 0.0158, "step": 4350 }, { "epoch": 9.066666666666666, "grad_norm": 0.21272271871566772, "learning_rate": 2.735416666666667e-05, "loss": 0.0129, "step": 4352 }, { "epoch": 9.070833333333333, "grad_norm": 0.8948862552642822, "learning_rate": 2.734375e-05, "loss": 0.0107, "step": 4354 }, { "epoch": 9.075, "grad_norm": 0.6495965123176575, "learning_rate": 2.733333333333333e-05, "loss": 0.0144, "step": 4356 }, { "epoch": 9.079166666666667, "grad_norm": 0.38067251443862915, "learning_rate": 2.732291666666667e-05, "loss": 0.0069, "step": 4358 }, { "epoch": 9.083333333333334, "grad_norm": 0.22481678426265717, "learning_rate": 2.7312500000000003e-05, "loss": 0.0102, "step": 4360 }, { "epoch": 9.0875, "grad_norm": 0.17471058666706085, "learning_rate": 2.7302083333333334e-05, "loss": 0.0077, "step": 4362 }, { "epoch": 9.091666666666667, "grad_norm": 0.17471936345100403, "learning_rate": 2.7291666666666665e-05, "loss": 0.0081, "step": 4364 }, { "epoch": 9.095833333333333, "grad_norm": 1.3758766651153564, "learning_rate": 2.7281250000000002e-05, "loss": 0.006, "step": 4366 }, { "epoch": 9.1, "grad_norm": 0.23094457387924194, "learning_rate": 2.7270833333333333e-05, "loss": 0.0071, "step": 4368 }, { "epoch": 9.104166666666666, "grad_norm": 0.1397314816713333, "learning_rate": 2.7260416666666667e-05, "loss": 0.0055, "step": 4370 }, { "epoch": 9.108333333333333, "grad_norm": 0.27163127064704895, "learning_rate": 2.725e-05, "loss": 0.0083, "step": 4372 }, { "epoch": 9.1125, "grad_norm": 0.3834036588668823, "learning_rate": 2.7239583333333336e-05, "loss": 0.0095, "step": 4374 }, { "epoch": 9.116666666666667, "grad_norm": 0.3974300026893616, "learning_rate": 2.7229166666666667e-05, "loss": 0.0143, "step": 4376 }, { "epoch": 9.120833333333334, "grad_norm": 0.1296340823173523, "learning_rate": 2.7218750000000004e-05, "loss": 0.009, "step": 4378 }, { "epoch": 9.125, "grad_norm": 0.2940031588077545, "learning_rate": 2.7208333333333335e-05, "loss": 0.0096, "step": 4380 }, { "epoch": 9.129166666666666, "grad_norm": 1.136421799659729, "learning_rate": 2.7197916666666666e-05, "loss": 0.0212, "step": 4382 }, { "epoch": 9.133333333333333, "grad_norm": 0.21640455722808838, "learning_rate": 2.71875e-05, "loss": 0.0061, "step": 4384 }, { "epoch": 9.1375, "grad_norm": 0.35760968923568726, "learning_rate": 2.7177083333333338e-05, "loss": 0.009, "step": 4386 }, { "epoch": 9.141666666666667, "grad_norm": 0.46215054392814636, "learning_rate": 2.716666666666667e-05, "loss": 0.0322, "step": 4388 }, { "epoch": 9.145833333333334, "grad_norm": 0.22770412266254425, "learning_rate": 2.715625e-05, "loss": 0.0071, "step": 4390 }, { "epoch": 9.15, "grad_norm": 0.3352470397949219, "learning_rate": 2.7145833333333337e-05, "loss": 0.007, "step": 4392 }, { "epoch": 9.154166666666667, "grad_norm": 0.37598565220832825, "learning_rate": 2.7135416666666668e-05, "loss": 0.007, "step": 4394 }, { "epoch": 9.158333333333333, "grad_norm": 0.40223076939582825, "learning_rate": 2.7125000000000002e-05, "loss": 0.0096, "step": 4396 }, { "epoch": 9.1625, "grad_norm": 0.6792668104171753, "learning_rate": 2.7114583333333333e-05, "loss": 0.0109, "step": 4398 }, { "epoch": 9.166666666666666, "grad_norm": 0.2983770966529846, "learning_rate": 2.710416666666667e-05, "loss": 0.0102, "step": 4400 }, { "epoch": 9.166666666666666, "eval_cer": 0.06305530875166593, "eval_loss": 0.4057413339614868, "eval_runtime": 74.9172, "eval_samples_per_second": 5.259, "eval_steps_per_second": 0.667, "step": 4400 }, { "epoch": 9.170833333333333, "grad_norm": 0.3555755019187927, "learning_rate": 2.709375e-05, "loss": 0.0164, "step": 4402 }, { "epoch": 9.175, "grad_norm": 0.27869948744773865, "learning_rate": 2.7083333333333332e-05, "loss": 0.0106, "step": 4404 }, { "epoch": 9.179166666666667, "grad_norm": 0.22208087146282196, "learning_rate": 2.707291666666667e-05, "loss": 0.0097, "step": 4406 }, { "epoch": 9.183333333333334, "grad_norm": 0.26937270164489746, "learning_rate": 2.70625e-05, "loss": 0.0102, "step": 4408 }, { "epoch": 9.1875, "grad_norm": 0.2829457223415375, "learning_rate": 2.7052083333333335e-05, "loss": 0.0137, "step": 4410 }, { "epoch": 9.191666666666666, "grad_norm": 0.7225059270858765, "learning_rate": 2.7041666666666672e-05, "loss": 0.0126, "step": 4412 }, { "epoch": 9.195833333333333, "grad_norm": 0.5399202704429626, "learning_rate": 2.7031250000000003e-05, "loss": 0.0139, "step": 4414 }, { "epoch": 9.2, "grad_norm": 0.30423328280448914, "learning_rate": 2.7020833333333334e-05, "loss": 0.0094, "step": 4416 }, { "epoch": 9.204166666666667, "grad_norm": 0.26801782846450806, "learning_rate": 2.7010416666666665e-05, "loss": 0.0098, "step": 4418 }, { "epoch": 9.208333333333334, "grad_norm": 0.4822676479816437, "learning_rate": 2.7000000000000002e-05, "loss": 0.0106, "step": 4420 }, { "epoch": 9.2125, "grad_norm": 0.2353227734565735, "learning_rate": 2.6989583333333333e-05, "loss": 0.0094, "step": 4422 }, { "epoch": 9.216666666666667, "grad_norm": 0.7153640985488892, "learning_rate": 2.6979166666666667e-05, "loss": 0.012, "step": 4424 }, { "epoch": 9.220833333333333, "grad_norm": 0.25740593671798706, "learning_rate": 2.6968750000000005e-05, "loss": 0.0088, "step": 4426 }, { "epoch": 9.225, "grad_norm": 0.1916179209947586, "learning_rate": 2.6958333333333336e-05, "loss": 0.0087, "step": 4428 }, { "epoch": 9.229166666666666, "grad_norm": 0.37508469820022583, "learning_rate": 2.6947916666666667e-05, "loss": 0.0099, "step": 4430 }, { "epoch": 9.233333333333333, "grad_norm": 0.5456496477127075, "learning_rate": 2.6937499999999997e-05, "loss": 0.0097, "step": 4432 }, { "epoch": 9.2375, "grad_norm": 0.22547341883182526, "learning_rate": 2.6927083333333335e-05, "loss": 0.0076, "step": 4434 }, { "epoch": 9.241666666666667, "grad_norm": 0.3707039952278137, "learning_rate": 2.691666666666667e-05, "loss": 0.0093, "step": 4436 }, { "epoch": 9.245833333333334, "grad_norm": 0.30521926283836365, "learning_rate": 2.690625e-05, "loss": 0.0072, "step": 4438 }, { "epoch": 9.25, "grad_norm": 0.3909650444984436, "learning_rate": 2.6895833333333338e-05, "loss": 0.0072, "step": 4440 }, { "epoch": 9.254166666666666, "grad_norm": 0.38955241441726685, "learning_rate": 2.688541666666667e-05, "loss": 0.0107, "step": 4442 }, { "epoch": 9.258333333333333, "grad_norm": 0.5742318630218506, "learning_rate": 2.6875e-05, "loss": 0.0144, "step": 4444 }, { "epoch": 9.2625, "grad_norm": 4.196695804595947, "learning_rate": 2.6864583333333334e-05, "loss": 0.0056, "step": 4446 }, { "epoch": 9.266666666666667, "grad_norm": 0.626541793346405, "learning_rate": 2.6854166666666668e-05, "loss": 0.0069, "step": 4448 }, { "epoch": 9.270833333333334, "grad_norm": 0.21688173711299896, "learning_rate": 2.6843750000000002e-05, "loss": 0.0074, "step": 4450 }, { "epoch": 9.275, "grad_norm": 0.851498544216156, "learning_rate": 2.6833333333333333e-05, "loss": 0.0168, "step": 4452 }, { "epoch": 9.279166666666667, "grad_norm": 0.5670156478881836, "learning_rate": 2.682291666666667e-05, "loss": 0.0157, "step": 4454 }, { "epoch": 9.283333333333333, "grad_norm": 0.14587971568107605, "learning_rate": 2.68125e-05, "loss": 0.0098, "step": 4456 }, { "epoch": 9.2875, "grad_norm": 0.17005108296871185, "learning_rate": 2.6802083333333332e-05, "loss": 0.0081, "step": 4458 }, { "epoch": 9.291666666666666, "grad_norm": 0.14582057297229767, "learning_rate": 2.679166666666667e-05, "loss": 0.0076, "step": 4460 }, { "epoch": 9.295833333333333, "grad_norm": 0.21168170869350433, "learning_rate": 2.6781250000000004e-05, "loss": 0.014, "step": 4462 }, { "epoch": 9.3, "grad_norm": 0.351053386926651, "learning_rate": 2.6770833333333335e-05, "loss": 0.009, "step": 4464 }, { "epoch": 9.304166666666667, "grad_norm": 0.12049897015094757, "learning_rate": 2.6760416666666665e-05, "loss": 0.007, "step": 4466 }, { "epoch": 9.308333333333334, "grad_norm": 0.3802511990070343, "learning_rate": 2.6750000000000003e-05, "loss": 0.0099, "step": 4468 }, { "epoch": 9.3125, "grad_norm": 0.3634055256843567, "learning_rate": 2.6739583333333334e-05, "loss": 0.0103, "step": 4470 }, { "epoch": 9.316666666666666, "grad_norm": 0.4041815400123596, "learning_rate": 2.6729166666666665e-05, "loss": 0.0133, "step": 4472 }, { "epoch": 9.320833333333333, "grad_norm": 0.24155522882938385, "learning_rate": 2.6718750000000002e-05, "loss": 0.0106, "step": 4474 }, { "epoch": 9.325, "grad_norm": 0.19242151081562042, "learning_rate": 2.6708333333333337e-05, "loss": 0.0082, "step": 4476 }, { "epoch": 9.329166666666667, "grad_norm": 0.5087029337882996, "learning_rate": 2.6697916666666667e-05, "loss": 0.0103, "step": 4478 }, { "epoch": 9.333333333333334, "grad_norm": 0.17702554166316986, "learning_rate": 2.6687499999999998e-05, "loss": 0.0109, "step": 4480 }, { "epoch": 9.3375, "grad_norm": 0.3687039613723755, "learning_rate": 2.6677083333333336e-05, "loss": 0.0139, "step": 4482 }, { "epoch": 9.341666666666667, "grad_norm": 0.881631076335907, "learning_rate": 2.6666666666666667e-05, "loss": 0.0129, "step": 4484 }, { "epoch": 9.345833333333333, "grad_norm": 0.4367585778236389, "learning_rate": 2.665625e-05, "loss": 0.0119, "step": 4486 }, { "epoch": 9.35, "grad_norm": 0.11596323549747467, "learning_rate": 2.6645833333333335e-05, "loss": 0.0106, "step": 4488 }, { "epoch": 9.354166666666666, "grad_norm": 0.5053444504737854, "learning_rate": 2.663541666666667e-05, "loss": 0.0217, "step": 4490 }, { "epoch": 9.358333333333333, "grad_norm": 0.3087325394153595, "learning_rate": 2.6625e-05, "loss": 0.0106, "step": 4492 }, { "epoch": 9.3625, "grad_norm": 0.48698803782463074, "learning_rate": 2.6614583333333338e-05, "loss": 0.0147, "step": 4494 }, { "epoch": 9.366666666666667, "grad_norm": 0.3165411651134491, "learning_rate": 2.660416666666667e-05, "loss": 0.0181, "step": 4496 }, { "epoch": 9.370833333333334, "grad_norm": 0.35673248767852783, "learning_rate": 2.659375e-05, "loss": 0.0112, "step": 4498 }, { "epoch": 9.375, "grad_norm": 0.7503157258033752, "learning_rate": 2.6583333333333333e-05, "loss": 0.0104, "step": 4500 }, { "epoch": 9.379166666666666, "grad_norm": 0.18833030760288239, "learning_rate": 2.657291666666667e-05, "loss": 0.009, "step": 4502 }, { "epoch": 9.383333333333333, "grad_norm": 0.2613614797592163, "learning_rate": 2.6562500000000002e-05, "loss": 0.0091, "step": 4504 }, { "epoch": 9.3875, "grad_norm": 0.32866108417510986, "learning_rate": 2.6552083333333333e-05, "loss": 0.0138, "step": 4506 }, { "epoch": 9.391666666666667, "grad_norm": 0.24386462569236755, "learning_rate": 2.654166666666667e-05, "loss": 0.0065, "step": 4508 }, { "epoch": 9.395833333333334, "grad_norm": 0.27272891998291016, "learning_rate": 2.653125e-05, "loss": 0.0125, "step": 4510 }, { "epoch": 9.4, "grad_norm": 0.4629071354866028, "learning_rate": 2.6520833333333332e-05, "loss": 0.0129, "step": 4512 }, { "epoch": 9.404166666666667, "grad_norm": 0.45568427443504333, "learning_rate": 2.6510416666666666e-05, "loss": 0.0114, "step": 4514 }, { "epoch": 9.408333333333333, "grad_norm": 0.31041499972343445, "learning_rate": 2.6500000000000004e-05, "loss": 0.0081, "step": 4516 }, { "epoch": 9.4125, "grad_norm": 0.3490058481693268, "learning_rate": 2.6489583333333335e-05, "loss": 0.0169, "step": 4518 }, { "epoch": 9.416666666666666, "grad_norm": 0.5449517965316772, "learning_rate": 2.6479166666666665e-05, "loss": 0.0127, "step": 4520 }, { "epoch": 9.420833333333333, "grad_norm": 0.6693189740180969, "learning_rate": 2.6468750000000003e-05, "loss": 0.0125, "step": 4522 }, { "epoch": 9.425, "grad_norm": 0.14953383803367615, "learning_rate": 2.6458333333333334e-05, "loss": 0.0058, "step": 4524 }, { "epoch": 9.429166666666667, "grad_norm": 0.4333786964416504, "learning_rate": 2.6447916666666668e-05, "loss": 0.0154, "step": 4526 }, { "epoch": 9.433333333333334, "grad_norm": 0.5522569417953491, "learning_rate": 2.6437500000000002e-05, "loss": 0.0084, "step": 4528 }, { "epoch": 9.4375, "grad_norm": 0.5336965918540955, "learning_rate": 2.6427083333333336e-05, "loss": 0.0124, "step": 4530 }, { "epoch": 9.441666666666666, "grad_norm": 0.5881274938583374, "learning_rate": 2.6416666666666667e-05, "loss": 0.011, "step": 4532 }, { "epoch": 9.445833333333333, "grad_norm": 0.30310213565826416, "learning_rate": 2.6406249999999998e-05, "loss": 0.0079, "step": 4534 }, { "epoch": 9.45, "grad_norm": 0.4265073239803314, "learning_rate": 2.6395833333333336e-05, "loss": 0.014, "step": 4536 }, { "epoch": 9.454166666666667, "grad_norm": 0.3428356945514679, "learning_rate": 2.6385416666666667e-05, "loss": 0.0115, "step": 4538 }, { "epoch": 9.458333333333334, "grad_norm": 0.21454471349716187, "learning_rate": 2.6375e-05, "loss": 0.0068, "step": 4540 }, { "epoch": 9.4625, "grad_norm": 0.4171712100505829, "learning_rate": 2.636458333333334e-05, "loss": 0.0168, "step": 4542 }, { "epoch": 9.466666666666667, "grad_norm": 0.29660817980766296, "learning_rate": 2.635416666666667e-05, "loss": 0.0074, "step": 4544 }, { "epoch": 9.470833333333333, "grad_norm": 0.2432163953781128, "learning_rate": 2.634375e-05, "loss": 0.0091, "step": 4546 }, { "epoch": 9.475, "grad_norm": 0.1890026479959488, "learning_rate": 2.633333333333333e-05, "loss": 0.0093, "step": 4548 }, { "epoch": 9.479166666666666, "grad_norm": 0.3172338604927063, "learning_rate": 2.632291666666667e-05, "loss": 0.0113, "step": 4550 }, { "epoch": 9.483333333333333, "grad_norm": 0.45725902915000916, "learning_rate": 2.6312500000000003e-05, "loss": 0.0134, "step": 4552 }, { "epoch": 9.4875, "grad_norm": 0.3064359724521637, "learning_rate": 2.6302083333333333e-05, "loss": 0.0081, "step": 4554 }, { "epoch": 9.491666666666667, "grad_norm": 0.3462902903556824, "learning_rate": 2.629166666666667e-05, "loss": 0.011, "step": 4556 }, { "epoch": 9.495833333333334, "grad_norm": 0.3663736879825592, "learning_rate": 2.6281250000000002e-05, "loss": 0.013, "step": 4558 }, { "epoch": 9.5, "grad_norm": 0.2321634590625763, "learning_rate": 2.6270833333333333e-05, "loss": 0.008, "step": 4560 }, { "epoch": 9.504166666666666, "grad_norm": 0.44426748156547546, "learning_rate": 2.626041666666667e-05, "loss": 0.0099, "step": 4562 }, { "epoch": 9.508333333333333, "grad_norm": 0.3822654187679291, "learning_rate": 2.625e-05, "loss": 0.0099, "step": 4564 }, { "epoch": 9.5125, "grad_norm": 0.4590202569961548, "learning_rate": 2.6239583333333335e-05, "loss": 0.0064, "step": 4566 }, { "epoch": 9.516666666666667, "grad_norm": 0.675052285194397, "learning_rate": 2.6229166666666666e-05, "loss": 0.011, "step": 4568 }, { "epoch": 9.520833333333334, "grad_norm": 0.7222317457199097, "learning_rate": 2.6218750000000004e-05, "loss": 0.0135, "step": 4570 }, { "epoch": 9.525, "grad_norm": 0.3942587673664093, "learning_rate": 2.6208333333333335e-05, "loss": 0.0089, "step": 4572 }, { "epoch": 9.529166666666667, "grad_norm": 0.4779583215713501, "learning_rate": 2.6197916666666665e-05, "loss": 0.0096, "step": 4574 }, { "epoch": 9.533333333333333, "grad_norm": 0.32968831062316895, "learning_rate": 2.6187500000000003e-05, "loss": 0.0172, "step": 4576 }, { "epoch": 9.5375, "grad_norm": 0.4434607923030853, "learning_rate": 2.6177083333333334e-05, "loss": 0.0175, "step": 4578 }, { "epoch": 9.541666666666666, "grad_norm": 0.5086966156959534, "learning_rate": 2.6166666666666668e-05, "loss": 0.0085, "step": 4580 }, { "epoch": 9.545833333333333, "grad_norm": 0.29410484433174133, "learning_rate": 2.615625e-05, "loss": 0.014, "step": 4582 }, { "epoch": 9.55, "grad_norm": 1.0012773275375366, "learning_rate": 2.6145833333333336e-05, "loss": 0.0091, "step": 4584 }, { "epoch": 9.554166666666667, "grad_norm": 0.42076748609542847, "learning_rate": 2.6135416666666667e-05, "loss": 0.0119, "step": 4586 }, { "epoch": 9.558333333333334, "grad_norm": 0.3724452257156372, "learning_rate": 2.6124999999999998e-05, "loss": 0.0094, "step": 4588 }, { "epoch": 9.5625, "grad_norm": 0.7021219730377197, "learning_rate": 2.6114583333333336e-05, "loss": 0.0116, "step": 4590 }, { "epoch": 9.566666666666666, "grad_norm": 0.3422073423862457, "learning_rate": 2.610416666666667e-05, "loss": 0.0083, "step": 4592 }, { "epoch": 9.570833333333333, "grad_norm": 1.527311086654663, "learning_rate": 2.609375e-05, "loss": 0.0107, "step": 4594 }, { "epoch": 9.575, "grad_norm": 0.15996946394443512, "learning_rate": 2.608333333333333e-05, "loss": 0.0075, "step": 4596 }, { "epoch": 9.579166666666667, "grad_norm": 0.3844979703426361, "learning_rate": 2.607291666666667e-05, "loss": 0.0169, "step": 4598 }, { "epoch": 9.583333333333334, "grad_norm": 0.4143499732017517, "learning_rate": 2.60625e-05, "loss": 0.0142, "step": 4600 }, { "epoch": 9.583333333333334, "eval_cer": 0.06227787649933363, "eval_loss": 0.40832847356796265, "eval_runtime": 75.1635, "eval_samples_per_second": 5.242, "eval_steps_per_second": 0.665, "step": 4600 }, { "epoch": 9.5875, "grad_norm": 0.2763945758342743, "learning_rate": 2.6052083333333334e-05, "loss": 0.0146, "step": 4602 }, { "epoch": 9.591666666666667, "grad_norm": 0.36239033937454224, "learning_rate": 2.604166666666667e-05, "loss": 0.0087, "step": 4604 }, { "epoch": 9.595833333333333, "grad_norm": 1.422104001045227, "learning_rate": 2.6031250000000003e-05, "loss": 0.0125, "step": 4606 }, { "epoch": 9.6, "grad_norm": 3.7175467014312744, "learning_rate": 2.6020833333333333e-05, "loss": 0.0115, "step": 4608 }, { "epoch": 9.604166666666666, "grad_norm": 1.1317163705825806, "learning_rate": 2.601041666666667e-05, "loss": 0.0083, "step": 4610 }, { "epoch": 9.608333333333333, "grad_norm": 0.37575122714042664, "learning_rate": 2.6000000000000002e-05, "loss": 0.0102, "step": 4612 }, { "epoch": 9.6125, "grad_norm": 0.40528225898742676, "learning_rate": 2.5989583333333333e-05, "loss": 0.0101, "step": 4614 }, { "epoch": 9.616666666666667, "grad_norm": 0.387807160615921, "learning_rate": 2.5979166666666667e-05, "loss": 0.0093, "step": 4616 }, { "epoch": 9.620833333333334, "grad_norm": 0.3230188190937042, "learning_rate": 2.5968750000000004e-05, "loss": 0.0152, "step": 4618 }, { "epoch": 9.625, "grad_norm": 0.6694038510322571, "learning_rate": 2.5958333333333335e-05, "loss": 0.0169, "step": 4620 }, { "epoch": 9.629166666666666, "grad_norm": 4.312170028686523, "learning_rate": 2.5947916666666666e-05, "loss": 0.0125, "step": 4622 }, { "epoch": 9.633333333333333, "grad_norm": 0.22892257571220398, "learning_rate": 2.5937500000000004e-05, "loss": 0.0088, "step": 4624 }, { "epoch": 9.6375, "grad_norm": 0.3249031901359558, "learning_rate": 2.5927083333333334e-05, "loss": 0.0115, "step": 4626 }, { "epoch": 9.641666666666667, "grad_norm": 0.5639196634292603, "learning_rate": 2.5916666666666665e-05, "loss": 0.0152, "step": 4628 }, { "epoch": 9.645833333333334, "grad_norm": 0.33614975214004517, "learning_rate": 2.590625e-05, "loss": 0.0209, "step": 4630 }, { "epoch": 9.65, "grad_norm": 0.46225208044052124, "learning_rate": 2.5895833333333337e-05, "loss": 0.0124, "step": 4632 }, { "epoch": 9.654166666666667, "grad_norm": 0.533065676689148, "learning_rate": 2.5885416666666668e-05, "loss": 0.019, "step": 4634 }, { "epoch": 9.658333333333333, "grad_norm": 0.32400238513946533, "learning_rate": 2.5875e-05, "loss": 0.0074, "step": 4636 }, { "epoch": 9.6625, "grad_norm": 0.26623278856277466, "learning_rate": 2.5864583333333336e-05, "loss": 0.0069, "step": 4638 }, { "epoch": 9.666666666666666, "grad_norm": 0.2737290561199188, "learning_rate": 2.5854166666666667e-05, "loss": 0.0107, "step": 4640 }, { "epoch": 9.670833333333333, "grad_norm": 0.49844446778297424, "learning_rate": 2.584375e-05, "loss": 0.0169, "step": 4642 }, { "epoch": 9.675, "grad_norm": 2.491852045059204, "learning_rate": 2.5833333333333336e-05, "loss": 0.0087, "step": 4644 }, { "epoch": 9.679166666666667, "grad_norm": 0.48171597719192505, "learning_rate": 2.582291666666667e-05, "loss": 0.013, "step": 4646 }, { "epoch": 9.683333333333334, "grad_norm": 0.17571528255939484, "learning_rate": 2.58125e-05, "loss": 0.0102, "step": 4648 }, { "epoch": 9.6875, "grad_norm": 0.22349873185157776, "learning_rate": 2.580208333333333e-05, "loss": 0.0083, "step": 4650 }, { "epoch": 9.691666666666666, "grad_norm": 1.8985280990600586, "learning_rate": 2.579166666666667e-05, "loss": 0.0093, "step": 4652 }, { "epoch": 9.695833333333333, "grad_norm": 0.2500165104866028, "learning_rate": 2.578125e-05, "loss": 0.006, "step": 4654 }, { "epoch": 9.7, "grad_norm": 0.19520343840122223, "learning_rate": 2.5770833333333334e-05, "loss": 0.0069, "step": 4656 }, { "epoch": 9.704166666666667, "grad_norm": 0.3938866853713989, "learning_rate": 2.576041666666667e-05, "loss": 0.0088, "step": 4658 }, { "epoch": 9.708333333333334, "grad_norm": 0.3333202004432678, "learning_rate": 2.5750000000000002e-05, "loss": 0.0139, "step": 4660 }, { "epoch": 9.7125, "grad_norm": 0.5411664247512817, "learning_rate": 2.5739583333333333e-05, "loss": 0.0154, "step": 4662 }, { "epoch": 9.716666666666667, "grad_norm": 0.5589495897293091, "learning_rate": 2.5729166666666664e-05, "loss": 0.0215, "step": 4664 }, { "epoch": 9.720833333333333, "grad_norm": 0.23344814777374268, "learning_rate": 2.5718750000000002e-05, "loss": 0.0254, "step": 4666 }, { "epoch": 9.725, "grad_norm": 0.24237465858459473, "learning_rate": 2.5708333333333336e-05, "loss": 0.0076, "step": 4668 }, { "epoch": 9.729166666666666, "grad_norm": 0.19256238639354706, "learning_rate": 2.5697916666666667e-05, "loss": 0.0102, "step": 4670 }, { "epoch": 9.733333333333333, "grad_norm": 0.35368767380714417, "learning_rate": 2.5687500000000004e-05, "loss": 0.0088, "step": 4672 }, { "epoch": 9.7375, "grad_norm": 0.7057898044586182, "learning_rate": 2.5677083333333335e-05, "loss": 0.0142, "step": 4674 }, { "epoch": 9.741666666666667, "grad_norm": 0.2973633408546448, "learning_rate": 2.5666666666666666e-05, "loss": 0.0066, "step": 4676 }, { "epoch": 9.745833333333334, "grad_norm": 0.23923951387405396, "learning_rate": 2.5656250000000004e-05, "loss": 0.0094, "step": 4678 }, { "epoch": 9.75, "grad_norm": 0.2951619029045105, "learning_rate": 2.5645833333333334e-05, "loss": 0.013, "step": 4680 }, { "epoch": 9.754166666666666, "grad_norm": 0.22934545576572418, "learning_rate": 2.563541666666667e-05, "loss": 0.0162, "step": 4682 }, { "epoch": 9.758333333333333, "grad_norm": 0.8472704887390137, "learning_rate": 2.5625e-05, "loss": 0.0231, "step": 4684 }, { "epoch": 9.7625, "grad_norm": 0.38351795077323914, "learning_rate": 2.5614583333333337e-05, "loss": 0.0083, "step": 4686 }, { "epoch": 9.766666666666667, "grad_norm": 0.36485838890075684, "learning_rate": 2.5604166666666668e-05, "loss": 0.013, "step": 4688 }, { "epoch": 9.770833333333334, "grad_norm": 0.3856580853462219, "learning_rate": 2.559375e-05, "loss": 0.0185, "step": 4690 }, { "epoch": 9.775, "grad_norm": 0.49694499373435974, "learning_rate": 2.5583333333333336e-05, "loss": 0.016, "step": 4692 }, { "epoch": 9.779166666666667, "grad_norm": 0.5915955901145935, "learning_rate": 2.5572916666666667e-05, "loss": 0.0081, "step": 4694 }, { "epoch": 9.783333333333333, "grad_norm": 0.33123597502708435, "learning_rate": 2.55625e-05, "loss": 0.0097, "step": 4696 }, { "epoch": 9.7875, "grad_norm": 0.5623692870140076, "learning_rate": 2.5552083333333332e-05, "loss": 0.0131, "step": 4698 }, { "epoch": 9.791666666666666, "grad_norm": 0.4370589852333069, "learning_rate": 2.554166666666667e-05, "loss": 0.0238, "step": 4700 }, { "epoch": 9.795833333333333, "grad_norm": 0.41093727946281433, "learning_rate": 2.553125e-05, "loss": 0.0093, "step": 4702 }, { "epoch": 9.8, "grad_norm": 0.18954001367092133, "learning_rate": 2.552083333333333e-05, "loss": 0.0093, "step": 4704 }, { "epoch": 9.804166666666667, "grad_norm": 0.16596989333629608, "learning_rate": 2.551041666666667e-05, "loss": 0.0068, "step": 4706 }, { "epoch": 9.808333333333334, "grad_norm": 0.5705111622810364, "learning_rate": 2.5500000000000003e-05, "loss": 0.0228, "step": 4708 }, { "epoch": 9.8125, "grad_norm": 0.29127103090286255, "learning_rate": 2.5489583333333334e-05, "loss": 0.0121, "step": 4710 }, { "epoch": 9.816666666666666, "grad_norm": 0.35396087169647217, "learning_rate": 2.547916666666667e-05, "loss": 0.0134, "step": 4712 }, { "epoch": 9.820833333333333, "grad_norm": 0.21778187155723572, "learning_rate": 2.5468750000000002e-05, "loss": 0.0078, "step": 4714 }, { "epoch": 9.825, "grad_norm": 0.4489501118659973, "learning_rate": 2.5458333333333333e-05, "loss": 0.011, "step": 4716 }, { "epoch": 9.829166666666667, "grad_norm": 0.33582979440689087, "learning_rate": 2.5447916666666664e-05, "loss": 0.0093, "step": 4718 }, { "epoch": 9.833333333333334, "grad_norm": 0.8122135400772095, "learning_rate": 2.54375e-05, "loss": 0.0102, "step": 4720 }, { "epoch": 9.8375, "grad_norm": 0.27797621488571167, "learning_rate": 2.5427083333333336e-05, "loss": 0.0082, "step": 4722 }, { "epoch": 9.841666666666667, "grad_norm": 0.45591825246810913, "learning_rate": 2.5416666666666667e-05, "loss": 0.0107, "step": 4724 }, { "epoch": 9.845833333333333, "grad_norm": 1.0272306203842163, "learning_rate": 2.5406250000000004e-05, "loss": 0.0132, "step": 4726 }, { "epoch": 9.85, "grad_norm": 0.2875833511352539, "learning_rate": 2.5395833333333335e-05, "loss": 0.0102, "step": 4728 }, { "epoch": 9.854166666666666, "grad_norm": 2.306283950805664, "learning_rate": 2.5385416666666666e-05, "loss": 0.0204, "step": 4730 }, { "epoch": 9.858333333333333, "grad_norm": 0.20234403014183044, "learning_rate": 2.5375e-05, "loss": 0.0059, "step": 4732 }, { "epoch": 9.8625, "grad_norm": 0.28155606985092163, "learning_rate": 2.5364583333333334e-05, "loss": 0.0124, "step": 4734 }, { "epoch": 9.866666666666667, "grad_norm": 0.38022491335868835, "learning_rate": 2.535416666666667e-05, "loss": 0.0112, "step": 4736 }, { "epoch": 9.870833333333334, "grad_norm": 0.35205739736557007, "learning_rate": 2.534375e-05, "loss": 0.0132, "step": 4738 }, { "epoch": 9.875, "grad_norm": 0.3886565864086151, "learning_rate": 2.5333333333333337e-05, "loss": 0.012, "step": 4740 }, { "epoch": 9.879166666666666, "grad_norm": 0.36749890446662903, "learning_rate": 2.5322916666666668e-05, "loss": 0.0067, "step": 4742 }, { "epoch": 9.883333333333333, "grad_norm": 0.6180249452590942, "learning_rate": 2.53125e-05, "loss": 0.0105, "step": 4744 }, { "epoch": 9.8875, "grad_norm": 0.21663150191307068, "learning_rate": 2.5302083333333333e-05, "loss": 0.0078, "step": 4746 }, { "epoch": 9.891666666666667, "grad_norm": 0.5743682384490967, "learning_rate": 2.529166666666667e-05, "loss": 0.0111, "step": 4748 }, { "epoch": 9.895833333333334, "grad_norm": 0.6673963069915771, "learning_rate": 2.528125e-05, "loss": 0.0119, "step": 4750 }, { "epoch": 9.9, "grad_norm": 1.116539716720581, "learning_rate": 2.5270833333333332e-05, "loss": 0.0145, "step": 4752 }, { "epoch": 9.904166666666667, "grad_norm": 0.3567418158054352, "learning_rate": 2.526041666666667e-05, "loss": 0.0106, "step": 4754 }, { "epoch": 9.908333333333333, "grad_norm": 0.9198314547538757, "learning_rate": 2.525e-05, "loss": 0.0131, "step": 4756 }, { "epoch": 9.9125, "grad_norm": 0.24302992224693298, "learning_rate": 2.5239583333333335e-05, "loss": 0.0088, "step": 4758 }, { "epoch": 9.916666666666666, "grad_norm": 3.362426519393921, "learning_rate": 2.522916666666667e-05, "loss": 0.0153, "step": 4760 }, { "epoch": 9.920833333333333, "grad_norm": 0.3978029787540436, "learning_rate": 2.5218750000000003e-05, "loss": 0.0121, "step": 4762 }, { "epoch": 9.925, "grad_norm": 0.2407197803258896, "learning_rate": 2.5208333333333334e-05, "loss": 0.0096, "step": 4764 }, { "epoch": 9.929166666666667, "grad_norm": 0.49418988823890686, "learning_rate": 2.5197916666666665e-05, "loss": 0.0112, "step": 4766 }, { "epoch": 9.933333333333334, "grad_norm": 0.337891161441803, "learning_rate": 2.5187500000000002e-05, "loss": 0.0095, "step": 4768 }, { "epoch": 9.9375, "grad_norm": 0.2470482587814331, "learning_rate": 2.5177083333333333e-05, "loss": 0.0168, "step": 4770 }, { "epoch": 9.941666666666666, "grad_norm": 0.2157241851091385, "learning_rate": 2.5166666666666667e-05, "loss": 0.0077, "step": 4772 }, { "epoch": 9.945833333333333, "grad_norm": 0.28564542531967163, "learning_rate": 2.5156250000000005e-05, "loss": 0.0083, "step": 4774 }, { "epoch": 9.95, "grad_norm": 2.8286337852478027, "learning_rate": 2.5145833333333336e-05, "loss": 0.0165, "step": 4776 }, { "epoch": 9.954166666666667, "grad_norm": 0.46618539094924927, "learning_rate": 2.5135416666666667e-05, "loss": 0.0105, "step": 4778 }, { "epoch": 9.958333333333334, "grad_norm": 0.4813143014907837, "learning_rate": 2.5124999999999997e-05, "loss": 0.0121, "step": 4780 }, { "epoch": 9.9625, "grad_norm": 1.0928210020065308, "learning_rate": 2.5114583333333335e-05, "loss": 0.022, "step": 4782 }, { "epoch": 9.966666666666667, "grad_norm": 0.3772215247154236, "learning_rate": 2.5104166666666666e-05, "loss": 0.0078, "step": 4784 }, { "epoch": 9.970833333333333, "grad_norm": 0.21954086422920227, "learning_rate": 2.509375e-05, "loss": 0.0084, "step": 4786 }, { "epoch": 9.975, "grad_norm": 0.31235209107398987, "learning_rate": 2.5083333333333338e-05, "loss": 0.0112, "step": 4788 }, { "epoch": 9.979166666666666, "grad_norm": 0.8331153988838196, "learning_rate": 2.507291666666667e-05, "loss": 0.0162, "step": 4790 }, { "epoch": 9.983333333333333, "grad_norm": 0.22088022530078888, "learning_rate": 2.50625e-05, "loss": 0.0073, "step": 4792 }, { "epoch": 9.9875, "grad_norm": 0.4953429102897644, "learning_rate": 2.5052083333333337e-05, "loss": 0.0094, "step": 4794 }, { "epoch": 9.991666666666667, "grad_norm": 0.3720788359642029, "learning_rate": 2.5041666666666668e-05, "loss": 0.0088, "step": 4796 }, { "epoch": 9.995833333333334, "grad_norm": 0.37420204281806946, "learning_rate": 2.5031250000000002e-05, "loss": 0.0167, "step": 4798 }, { "epoch": 10.0, "grad_norm": 0.388630747795105, "learning_rate": 2.5020833333333333e-05, "loss": 0.0129, "step": 4800 }, { "epoch": 10.0, "eval_cer": 0.061417147934251445, "eval_loss": 0.4024108946323395, "eval_runtime": 75.4357, "eval_samples_per_second": 5.223, "eval_steps_per_second": 0.663, "step": 4800 }, { "epoch": 10.004166666666666, "grad_norm": 0.3766707181930542, "learning_rate": 2.501041666666667e-05, "loss": 0.0104, "step": 4802 }, { "epoch": 10.008333333333333, "grad_norm": 0.1573638617992401, "learning_rate": 2.5e-05, "loss": 0.0063, "step": 4804 }, { "epoch": 10.0125, "grad_norm": 0.2515840530395508, "learning_rate": 2.4989583333333335e-05, "loss": 0.0059, "step": 4806 }, { "epoch": 10.016666666666667, "grad_norm": 0.40935268998146057, "learning_rate": 2.4979166666666666e-05, "loss": 0.0068, "step": 4808 }, { "epoch": 10.020833333333334, "grad_norm": 0.16688530147075653, "learning_rate": 2.496875e-05, "loss": 0.0083, "step": 4810 }, { "epoch": 10.025, "grad_norm": 0.10320395976305008, "learning_rate": 2.4958333333333335e-05, "loss": 0.0094, "step": 4812 }, { "epoch": 10.029166666666667, "grad_norm": 0.4487435817718506, "learning_rate": 2.494791666666667e-05, "loss": 0.005, "step": 4814 }, { "epoch": 10.033333333333333, "grad_norm": 0.3328726589679718, "learning_rate": 2.4937500000000003e-05, "loss": 0.0054, "step": 4816 }, { "epoch": 10.0375, "grad_norm": 0.2755657434463501, "learning_rate": 2.4927083333333334e-05, "loss": 0.0065, "step": 4818 }, { "epoch": 10.041666666666666, "grad_norm": 0.2134236991405487, "learning_rate": 2.4916666666666668e-05, "loss": 0.008, "step": 4820 }, { "epoch": 10.045833333333333, "grad_norm": 0.3709843158721924, "learning_rate": 2.490625e-05, "loss": 0.0118, "step": 4822 }, { "epoch": 10.05, "grad_norm": 0.25568869709968567, "learning_rate": 2.4895833333333337e-05, "loss": 0.009, "step": 4824 }, { "epoch": 10.054166666666667, "grad_norm": 0.17471468448638916, "learning_rate": 2.4885416666666667e-05, "loss": 0.0086, "step": 4826 }, { "epoch": 10.058333333333334, "grad_norm": 0.4185727834701538, "learning_rate": 2.4875e-05, "loss": 0.0084, "step": 4828 }, { "epoch": 10.0625, "grad_norm": 0.19762420654296875, "learning_rate": 2.4864583333333336e-05, "loss": 0.0079, "step": 4830 }, { "epoch": 10.066666666666666, "grad_norm": 0.24396845698356628, "learning_rate": 2.4854166666666667e-05, "loss": 0.0135, "step": 4832 }, { "epoch": 10.070833333333333, "grad_norm": 0.3414885699748993, "learning_rate": 2.484375e-05, "loss": 0.0065, "step": 4834 }, { "epoch": 10.075, "grad_norm": 0.21019794046878815, "learning_rate": 2.4833333333333335e-05, "loss": 0.0062, "step": 4836 }, { "epoch": 10.079166666666667, "grad_norm": 0.6175082325935364, "learning_rate": 2.482291666666667e-05, "loss": 0.01, "step": 4838 }, { "epoch": 10.083333333333334, "grad_norm": 0.46052655577659607, "learning_rate": 2.4812500000000003e-05, "loss": 0.0126, "step": 4840 }, { "epoch": 10.0875, "grad_norm": 0.1600392907857895, "learning_rate": 2.4802083333333334e-05, "loss": 0.0044, "step": 4842 }, { "epoch": 10.091666666666667, "grad_norm": 0.18468700349330902, "learning_rate": 2.479166666666667e-05, "loss": 0.0051, "step": 4844 }, { "epoch": 10.095833333333333, "grad_norm": 0.21803952753543854, "learning_rate": 2.478125e-05, "loss": 0.0073, "step": 4846 }, { "epoch": 10.1, "grad_norm": 0.2430177927017212, "learning_rate": 2.4770833333333333e-05, "loss": 0.0066, "step": 4848 }, { "epoch": 10.104166666666666, "grad_norm": 0.19580228626728058, "learning_rate": 2.4760416666666668e-05, "loss": 0.006, "step": 4850 }, { "epoch": 10.108333333333333, "grad_norm": 0.1328677386045456, "learning_rate": 2.4750000000000002e-05, "loss": 0.0052, "step": 4852 }, { "epoch": 10.1125, "grad_norm": 0.18059350550174713, "learning_rate": 2.4739583333333336e-05, "loss": 0.0048, "step": 4854 }, { "epoch": 10.116666666666667, "grad_norm": 1.0661076307296753, "learning_rate": 2.4729166666666667e-05, "loss": 0.0094, "step": 4856 }, { "epoch": 10.120833333333334, "grad_norm": 0.15790432691574097, "learning_rate": 2.471875e-05, "loss": 0.0056, "step": 4858 }, { "epoch": 10.125, "grad_norm": 0.1848578304052353, "learning_rate": 2.4708333333333332e-05, "loss": 0.0044, "step": 4860 }, { "epoch": 10.129166666666666, "grad_norm": 0.48750039935112, "learning_rate": 2.4697916666666666e-05, "loss": 0.0094, "step": 4862 }, { "epoch": 10.133333333333333, "grad_norm": 0.2678253948688507, "learning_rate": 2.4687500000000004e-05, "loss": 0.0107, "step": 4864 }, { "epoch": 10.1375, "grad_norm": 0.46954405307769775, "learning_rate": 2.4677083333333335e-05, "loss": 0.011, "step": 4866 }, { "epoch": 10.141666666666667, "grad_norm": 0.4175746738910675, "learning_rate": 2.466666666666667e-05, "loss": 0.0069, "step": 4868 }, { "epoch": 10.145833333333334, "grad_norm": 0.1375957429409027, "learning_rate": 2.465625e-05, "loss": 0.0051, "step": 4870 }, { "epoch": 10.15, "grad_norm": 1.0896683931350708, "learning_rate": 2.4645833333333334e-05, "loss": 0.0095, "step": 4872 }, { "epoch": 10.154166666666667, "grad_norm": 0.28541499376296997, "learning_rate": 2.4635416666666668e-05, "loss": 0.0083, "step": 4874 }, { "epoch": 10.158333333333333, "grad_norm": 0.14369134604930878, "learning_rate": 2.4625000000000002e-05, "loss": 0.0059, "step": 4876 }, { "epoch": 10.1625, "grad_norm": 0.21342194080352783, "learning_rate": 2.4614583333333336e-05, "loss": 0.0083, "step": 4878 }, { "epoch": 10.166666666666666, "grad_norm": 0.5748014450073242, "learning_rate": 2.4604166666666667e-05, "loss": 0.0078, "step": 4880 }, { "epoch": 10.170833333333333, "grad_norm": 0.2828075587749481, "learning_rate": 2.459375e-05, "loss": 0.0125, "step": 4882 }, { "epoch": 10.175, "grad_norm": 0.18985426425933838, "learning_rate": 2.4583333333333332e-05, "loss": 0.0048, "step": 4884 }, { "epoch": 10.179166666666667, "grad_norm": 0.5081931948661804, "learning_rate": 2.4572916666666667e-05, "loss": 0.0131, "step": 4886 }, { "epoch": 10.183333333333334, "grad_norm": 0.3244165778160095, "learning_rate": 2.45625e-05, "loss": 0.0095, "step": 4888 }, { "epoch": 10.1875, "grad_norm": 0.3035576343536377, "learning_rate": 2.4552083333333335e-05, "loss": 0.0075, "step": 4890 }, { "epoch": 10.191666666666666, "grad_norm": 0.29547905921936035, "learning_rate": 2.454166666666667e-05, "loss": 0.0081, "step": 4892 }, { "epoch": 10.195833333333333, "grad_norm": 0.3639109432697296, "learning_rate": 2.453125e-05, "loss": 0.0071, "step": 4894 }, { "epoch": 10.2, "grad_norm": 0.22064310312271118, "learning_rate": 2.4520833333333334e-05, "loss": 0.0065, "step": 4896 }, { "epoch": 10.204166666666667, "grad_norm": 0.4295773506164551, "learning_rate": 2.451041666666667e-05, "loss": 0.0093, "step": 4898 }, { "epoch": 10.208333333333334, "grad_norm": 0.9441025853157043, "learning_rate": 2.45e-05, "loss": 0.0082, "step": 4900 }, { "epoch": 10.2125, "grad_norm": 0.31972065567970276, "learning_rate": 2.4489583333333337e-05, "loss": 0.0052, "step": 4902 }, { "epoch": 10.216666666666667, "grad_norm": 0.37413743138313293, "learning_rate": 2.4479166666666668e-05, "loss": 0.0071, "step": 4904 }, { "epoch": 10.220833333333333, "grad_norm": 0.4010043144226074, "learning_rate": 2.4468750000000002e-05, "loss": 0.0119, "step": 4906 }, { "epoch": 10.225, "grad_norm": 0.2976888120174408, "learning_rate": 2.4458333333333336e-05, "loss": 0.0063, "step": 4908 }, { "epoch": 10.229166666666666, "grad_norm": 0.41089507937431335, "learning_rate": 2.4447916666666667e-05, "loss": 0.0069, "step": 4910 }, { "epoch": 10.233333333333333, "grad_norm": 0.2024819403886795, "learning_rate": 2.44375e-05, "loss": 0.006, "step": 4912 }, { "epoch": 10.2375, "grad_norm": 0.16061629354953766, "learning_rate": 2.4427083333333335e-05, "loss": 0.0045, "step": 4914 }, { "epoch": 10.241666666666667, "grad_norm": 0.18373705446720123, "learning_rate": 2.441666666666667e-05, "loss": 0.0046, "step": 4916 }, { "epoch": 10.245833333333334, "grad_norm": 0.36127451062202454, "learning_rate": 2.440625e-05, "loss": 0.0077, "step": 4918 }, { "epoch": 10.25, "grad_norm": 0.183625265955925, "learning_rate": 2.4395833333333335e-05, "loss": 0.006, "step": 4920 }, { "epoch": 10.254166666666666, "grad_norm": 0.41556406021118164, "learning_rate": 2.438541666666667e-05, "loss": 0.0091, "step": 4922 }, { "epoch": 10.258333333333333, "grad_norm": 0.3450147807598114, "learning_rate": 2.4375e-05, "loss": 0.0137, "step": 4924 }, { "epoch": 10.2625, "grad_norm": 0.258444219827652, "learning_rate": 2.4364583333333334e-05, "loss": 0.0059, "step": 4926 }, { "epoch": 10.266666666666667, "grad_norm": 0.31867995858192444, "learning_rate": 2.4354166666666668e-05, "loss": 0.0088, "step": 4928 }, { "epoch": 10.270833333333334, "grad_norm": 0.342174232006073, "learning_rate": 2.4343750000000002e-05, "loss": 0.0104, "step": 4930 }, { "epoch": 10.275, "grad_norm": 0.3741225600242615, "learning_rate": 2.4333333333333336e-05, "loss": 0.008, "step": 4932 }, { "epoch": 10.279166666666667, "grad_norm": 0.31524619460105896, "learning_rate": 2.4322916666666667e-05, "loss": 0.0078, "step": 4934 }, { "epoch": 10.283333333333333, "grad_norm": 0.3044951558113098, "learning_rate": 2.43125e-05, "loss": 0.0094, "step": 4936 }, { "epoch": 10.2875, "grad_norm": 0.48350802063941956, "learning_rate": 2.4302083333333332e-05, "loss": 0.0166, "step": 4938 }, { "epoch": 10.291666666666666, "grad_norm": 0.17901179194450378, "learning_rate": 2.4291666666666666e-05, "loss": 0.006, "step": 4940 }, { "epoch": 10.295833333333333, "grad_norm": 0.17560721933841705, "learning_rate": 2.428125e-05, "loss": 0.0061, "step": 4942 }, { "epoch": 10.3, "grad_norm": 0.365082323551178, "learning_rate": 2.4270833333333335e-05, "loss": 0.0073, "step": 4944 }, { "epoch": 10.304166666666667, "grad_norm": 0.3452517092227936, "learning_rate": 2.426041666666667e-05, "loss": 0.0076, "step": 4946 }, { "epoch": 10.308333333333334, "grad_norm": 0.6176397204399109, "learning_rate": 2.425e-05, "loss": 0.0107, "step": 4948 }, { "epoch": 10.3125, "grad_norm": 0.32603222131729126, "learning_rate": 2.4239583333333334e-05, "loss": 0.0066, "step": 4950 }, { "epoch": 10.316666666666666, "grad_norm": 0.3338721692562103, "learning_rate": 2.422916666666667e-05, "loss": 0.0092, "step": 4952 }, { "epoch": 10.320833333333333, "grad_norm": 0.3408189117908478, "learning_rate": 2.4218750000000003e-05, "loss": 0.0051, "step": 4954 }, { "epoch": 10.325, "grad_norm": 0.11733327060937881, "learning_rate": 2.4208333333333337e-05, "loss": 0.0095, "step": 4956 }, { "epoch": 10.329166666666667, "grad_norm": 0.24899722635746002, "learning_rate": 2.4197916666666668e-05, "loss": 0.0061, "step": 4958 }, { "epoch": 10.333333333333334, "grad_norm": 0.35082826018333435, "learning_rate": 2.4187500000000002e-05, "loss": 0.0088, "step": 4960 }, { "epoch": 10.3375, "grad_norm": 0.4360288083553314, "learning_rate": 2.4177083333333333e-05, "loss": 0.0127, "step": 4962 }, { "epoch": 10.341666666666667, "grad_norm": 0.3956393301486969, "learning_rate": 2.4166666666666667e-05, "loss": 0.0104, "step": 4964 }, { "epoch": 10.345833333333333, "grad_norm": 0.1912660151720047, "learning_rate": 2.415625e-05, "loss": 0.0054, "step": 4966 }, { "epoch": 10.35, "grad_norm": 0.240082785487175, "learning_rate": 2.4145833333333335e-05, "loss": 0.0054, "step": 4968 }, { "epoch": 10.354166666666666, "grad_norm": 0.23120726644992828, "learning_rate": 2.413541666666667e-05, "loss": 0.0063, "step": 4970 }, { "epoch": 10.358333333333333, "grad_norm": 0.25576314330101013, "learning_rate": 2.4125e-05, "loss": 0.0065, "step": 4972 }, { "epoch": 10.3625, "grad_norm": 3.496408700942993, "learning_rate": 2.4114583333333334e-05, "loss": 0.0128, "step": 4974 }, { "epoch": 10.366666666666667, "grad_norm": 0.271956205368042, "learning_rate": 2.4104166666666665e-05, "loss": 0.0049, "step": 4976 }, { "epoch": 10.370833333333334, "grad_norm": 0.31870704889297485, "learning_rate": 2.409375e-05, "loss": 0.0062, "step": 4978 }, { "epoch": 10.375, "grad_norm": 0.21925115585327148, "learning_rate": 2.4083333333333337e-05, "loss": 0.0106, "step": 4980 }, { "epoch": 10.379166666666666, "grad_norm": 0.5224013328552246, "learning_rate": 2.4072916666666668e-05, "loss": 0.0096, "step": 4982 }, { "epoch": 10.383333333333333, "grad_norm": 0.24112950265407562, "learning_rate": 2.4062500000000002e-05, "loss": 0.0059, "step": 4984 }, { "epoch": 10.3875, "grad_norm": 0.2902519404888153, "learning_rate": 2.4052083333333333e-05, "loss": 0.0095, "step": 4986 }, { "epoch": 10.391666666666667, "grad_norm": 0.3083389103412628, "learning_rate": 2.4041666666666667e-05, "loss": 0.0091, "step": 4988 }, { "epoch": 10.395833333333334, "grad_norm": 0.46726909279823303, "learning_rate": 2.403125e-05, "loss": 0.0082, "step": 4990 }, { "epoch": 10.4, "grad_norm": 0.2161404937505722, "learning_rate": 2.4020833333333336e-05, "loss": 0.0064, "step": 4992 }, { "epoch": 10.404166666666667, "grad_norm": 0.09355935454368591, "learning_rate": 2.401041666666667e-05, "loss": 0.0035, "step": 4994 }, { "epoch": 10.408333333333333, "grad_norm": 0.20823875069618225, "learning_rate": 2.4e-05, "loss": 0.0057, "step": 4996 }, { "epoch": 10.4125, "grad_norm": 0.24869588017463684, "learning_rate": 2.3989583333333335e-05, "loss": 0.0063, "step": 4998 }, { "epoch": 10.416666666666666, "grad_norm": 0.27580156922340393, "learning_rate": 2.3979166666666666e-05, "loss": 0.008, "step": 5000 }, { "epoch": 10.416666666666666, "eval_cer": 0.06150044424700133, "eval_loss": 0.40924227237701416, "eval_runtime": 75.2472, "eval_samples_per_second": 5.236, "eval_steps_per_second": 0.664, "step": 5000 }, { "epoch": 10.420833333333333, "grad_norm": 0.3058290183544159, "learning_rate": 2.396875e-05, "loss": 0.0052, "step": 5002 }, { "epoch": 10.425, "grad_norm": 0.4224923551082611, "learning_rate": 2.3958333333333334e-05, "loss": 0.0102, "step": 5004 }, { "epoch": 10.429166666666667, "grad_norm": 0.2465255856513977, "learning_rate": 2.3947916666666668e-05, "loss": 0.007, "step": 5006 }, { "epoch": 10.433333333333334, "grad_norm": 0.16034017503261566, "learning_rate": 2.3937500000000002e-05, "loss": 0.0057, "step": 5008 }, { "epoch": 10.4375, "grad_norm": 0.18863773345947266, "learning_rate": 2.3927083333333333e-05, "loss": 0.0047, "step": 5010 }, { "epoch": 10.441666666666666, "grad_norm": 0.7675413489341736, "learning_rate": 2.3916666666666668e-05, "loss": 0.0086, "step": 5012 }, { "epoch": 10.445833333333333, "grad_norm": 0.13238072395324707, "learning_rate": 2.3906250000000002e-05, "loss": 0.0049, "step": 5014 }, { "epoch": 10.45, "grad_norm": 0.11200526356697083, "learning_rate": 2.3895833333333333e-05, "loss": 0.0047, "step": 5016 }, { "epoch": 10.454166666666667, "grad_norm": 0.29623883962631226, "learning_rate": 2.3885416666666667e-05, "loss": 0.0087, "step": 5018 }, { "epoch": 10.458333333333334, "grad_norm": 0.45446276664733887, "learning_rate": 2.3875e-05, "loss": 0.0064, "step": 5020 }, { "epoch": 10.4625, "grad_norm": 1.7410765886306763, "learning_rate": 2.3864583333333335e-05, "loss": 0.008, "step": 5022 }, { "epoch": 10.466666666666667, "grad_norm": 0.15084189176559448, "learning_rate": 2.385416666666667e-05, "loss": 0.0085, "step": 5024 }, { "epoch": 10.470833333333333, "grad_norm": 1.169228196144104, "learning_rate": 2.384375e-05, "loss": 0.0069, "step": 5026 }, { "epoch": 10.475, "grad_norm": 0.23842781782150269, "learning_rate": 2.3833333333333334e-05, "loss": 0.0058, "step": 5028 }, { "epoch": 10.479166666666666, "grad_norm": 0.21951478719711304, "learning_rate": 2.382291666666667e-05, "loss": 0.0048, "step": 5030 }, { "epoch": 10.483333333333333, "grad_norm": 0.1839037388563156, "learning_rate": 2.3812500000000003e-05, "loss": 0.0077, "step": 5032 }, { "epoch": 10.4875, "grad_norm": 0.3721061050891876, "learning_rate": 2.3802083333333334e-05, "loss": 0.0113, "step": 5034 }, { "epoch": 10.491666666666667, "grad_norm": 0.24412110447883606, "learning_rate": 2.3791666666666668e-05, "loss": 0.007, "step": 5036 }, { "epoch": 10.495833333333334, "grad_norm": 0.2538153827190399, "learning_rate": 2.3781250000000002e-05, "loss": 0.0069, "step": 5038 }, { "epoch": 10.5, "grad_norm": 0.9346022605895996, "learning_rate": 2.3770833333333333e-05, "loss": 0.0091, "step": 5040 }, { "epoch": 10.504166666666666, "grad_norm": 0.2775988280773163, "learning_rate": 2.3760416666666667e-05, "loss": 0.0099, "step": 5042 }, { "epoch": 10.508333333333333, "grad_norm": 0.31789106130599976, "learning_rate": 2.375e-05, "loss": 0.0097, "step": 5044 }, { "epoch": 10.5125, "grad_norm": 0.5223352909088135, "learning_rate": 2.3739583333333336e-05, "loss": 0.0053, "step": 5046 }, { "epoch": 10.516666666666667, "grad_norm": 1.819031000137329, "learning_rate": 2.372916666666667e-05, "loss": 0.0075, "step": 5048 }, { "epoch": 10.520833333333334, "grad_norm": 0.19597166776657104, "learning_rate": 2.371875e-05, "loss": 0.0056, "step": 5050 }, { "epoch": 10.525, "grad_norm": 0.4958029091358185, "learning_rate": 2.3708333333333335e-05, "loss": 0.0172, "step": 5052 }, { "epoch": 10.529166666666667, "grad_norm": 0.26636940240859985, "learning_rate": 2.3697916666666666e-05, "loss": 0.0082, "step": 5054 }, { "epoch": 10.533333333333333, "grad_norm": 0.23778364062309265, "learning_rate": 2.36875e-05, "loss": 0.0069, "step": 5056 }, { "epoch": 10.5375, "grad_norm": 0.2786272466182709, "learning_rate": 2.3677083333333337e-05, "loss": 0.0067, "step": 5058 }, { "epoch": 10.541666666666666, "grad_norm": 0.22531677782535553, "learning_rate": 2.3666666666666668e-05, "loss": 0.0066, "step": 5060 }, { "epoch": 10.545833333333333, "grad_norm": 0.1792927235364914, "learning_rate": 2.3656250000000002e-05, "loss": 0.0069, "step": 5062 }, { "epoch": 10.55, "grad_norm": 0.8043721914291382, "learning_rate": 2.3645833333333333e-05, "loss": 0.006, "step": 5064 }, { "epoch": 10.554166666666667, "grad_norm": 1.2018071413040161, "learning_rate": 2.3635416666666667e-05, "loss": 0.0071, "step": 5066 }, { "epoch": 10.558333333333334, "grad_norm": 0.1440453678369522, "learning_rate": 2.3624999999999998e-05, "loss": 0.0103, "step": 5068 }, { "epoch": 10.5625, "grad_norm": 0.2137005776166916, "learning_rate": 2.3614583333333336e-05, "loss": 0.0058, "step": 5070 }, { "epoch": 10.566666666666666, "grad_norm": 0.19433656334877014, "learning_rate": 2.360416666666667e-05, "loss": 0.005, "step": 5072 }, { "epoch": 10.570833333333333, "grad_norm": 3.8131372928619385, "learning_rate": 2.359375e-05, "loss": 0.0123, "step": 5074 }, { "epoch": 10.575, "grad_norm": 1.283621072769165, "learning_rate": 2.3583333333333335e-05, "loss": 0.0076, "step": 5076 }, { "epoch": 10.579166666666667, "grad_norm": 0.18506170809268951, "learning_rate": 2.3572916666666666e-05, "loss": 0.0065, "step": 5078 }, { "epoch": 10.583333333333334, "grad_norm": 0.12511277198791504, "learning_rate": 2.35625e-05, "loss": 0.0048, "step": 5080 }, { "epoch": 10.5875, "grad_norm": 0.2679864466190338, "learning_rate": 2.3552083333333334e-05, "loss": 0.0065, "step": 5082 }, { "epoch": 10.591666666666667, "grad_norm": 0.6259869337081909, "learning_rate": 2.354166666666667e-05, "loss": 0.0129, "step": 5084 }, { "epoch": 10.595833333333333, "grad_norm": 0.5477492213249207, "learning_rate": 2.3531250000000003e-05, "loss": 0.0145, "step": 5086 }, { "epoch": 10.6, "grad_norm": 0.17434878647327423, "learning_rate": 2.3520833333333334e-05, "loss": 0.0093, "step": 5088 }, { "epoch": 10.604166666666666, "grad_norm": 0.4925454556941986, "learning_rate": 2.3510416666666668e-05, "loss": 0.0124, "step": 5090 }, { "epoch": 10.608333333333333, "grad_norm": 3.743438959121704, "learning_rate": 2.35e-05, "loss": 0.0117, "step": 5092 }, { "epoch": 10.6125, "grad_norm": 0.3060529828071594, "learning_rate": 2.3489583333333333e-05, "loss": 0.0064, "step": 5094 }, { "epoch": 10.616666666666667, "grad_norm": 1.1992567777633667, "learning_rate": 2.347916666666667e-05, "loss": 0.0095, "step": 5096 }, { "epoch": 10.620833333333334, "grad_norm": 0.5647673010826111, "learning_rate": 2.346875e-05, "loss": 0.0066, "step": 5098 }, { "epoch": 10.625, "grad_norm": 0.3534196615219116, "learning_rate": 2.3458333333333335e-05, "loss": 0.0079, "step": 5100 }, { "epoch": 10.629166666666666, "grad_norm": 0.2697537839412689, "learning_rate": 2.3447916666666666e-05, "loss": 0.0091, "step": 5102 }, { "epoch": 10.633333333333333, "grad_norm": 0.2669658064842224, "learning_rate": 2.34375e-05, "loss": 0.0058, "step": 5104 }, { "epoch": 10.6375, "grad_norm": 0.24099069833755493, "learning_rate": 2.3427083333333335e-05, "loss": 0.0118, "step": 5106 }, { "epoch": 10.641666666666667, "grad_norm": 0.3770759701728821, "learning_rate": 2.341666666666667e-05, "loss": 0.0066, "step": 5108 }, { "epoch": 10.645833333333334, "grad_norm": 0.6416199207305908, "learning_rate": 2.3406250000000003e-05, "loss": 0.0101, "step": 5110 }, { "epoch": 10.65, "grad_norm": 0.26219356060028076, "learning_rate": 2.3395833333333334e-05, "loss": 0.0097, "step": 5112 }, { "epoch": 10.654166666666667, "grad_norm": 0.35349714756011963, "learning_rate": 2.3385416666666668e-05, "loss": 0.0065, "step": 5114 }, { "epoch": 10.658333333333333, "grad_norm": 0.564777135848999, "learning_rate": 2.3375000000000002e-05, "loss": 0.0214, "step": 5116 }, { "epoch": 10.6625, "grad_norm": 0.29877200722694397, "learning_rate": 2.3364583333333333e-05, "loss": 0.0059, "step": 5118 }, { "epoch": 10.666666666666666, "grad_norm": 0.257382869720459, "learning_rate": 2.3354166666666667e-05, "loss": 0.0067, "step": 5120 }, { "epoch": 10.670833333333333, "grad_norm": 0.2259807139635086, "learning_rate": 2.334375e-05, "loss": 0.0083, "step": 5122 }, { "epoch": 10.675, "grad_norm": 0.27069970965385437, "learning_rate": 2.3333333333333336e-05, "loss": 0.0078, "step": 5124 }, { "epoch": 10.679166666666667, "grad_norm": 0.10482528060674667, "learning_rate": 2.3322916666666667e-05, "loss": 0.0087, "step": 5126 }, { "epoch": 10.683333333333334, "grad_norm": 0.24448734521865845, "learning_rate": 2.33125e-05, "loss": 0.0084, "step": 5128 }, { "epoch": 10.6875, "grad_norm": 0.31758561730384827, "learning_rate": 2.3302083333333335e-05, "loss": 0.0142, "step": 5130 }, { "epoch": 10.691666666666666, "grad_norm": 0.17466950416564941, "learning_rate": 2.3291666666666666e-05, "loss": 0.006, "step": 5132 }, { "epoch": 10.695833333333333, "grad_norm": 0.6720095872879028, "learning_rate": 2.328125e-05, "loss": 0.0145, "step": 5134 }, { "epoch": 10.7, "grad_norm": 0.14598052203655243, "learning_rate": 2.3270833333333334e-05, "loss": 0.0054, "step": 5136 }, { "epoch": 10.704166666666667, "grad_norm": 0.1895994246006012, "learning_rate": 2.326041666666667e-05, "loss": 0.0097, "step": 5138 }, { "epoch": 10.708333333333334, "grad_norm": 0.14508402347564697, "learning_rate": 2.3250000000000003e-05, "loss": 0.0053, "step": 5140 }, { "epoch": 10.7125, "grad_norm": 0.207832470536232, "learning_rate": 2.3239583333333334e-05, "loss": 0.0047, "step": 5142 }, { "epoch": 10.716666666666667, "grad_norm": 0.5554311871528625, "learning_rate": 2.3229166666666668e-05, "loss": 0.0118, "step": 5144 }, { "epoch": 10.720833333333333, "grad_norm": 1.2101484537124634, "learning_rate": 2.321875e-05, "loss": 0.0093, "step": 5146 }, { "epoch": 10.725, "grad_norm": 2.746816635131836, "learning_rate": 2.3208333333333336e-05, "loss": 0.0081, "step": 5148 }, { "epoch": 10.729166666666666, "grad_norm": 1.452339768409729, "learning_rate": 2.3197916666666667e-05, "loss": 0.0105, "step": 5150 }, { "epoch": 10.733333333333333, "grad_norm": 0.254096120595932, "learning_rate": 2.31875e-05, "loss": 0.0051, "step": 5152 }, { "epoch": 10.7375, "grad_norm": 0.4455457329750061, "learning_rate": 2.3177083333333335e-05, "loss": 0.0236, "step": 5154 }, { "epoch": 10.741666666666667, "grad_norm": 0.17171673476696014, "learning_rate": 2.3166666666666666e-05, "loss": 0.006, "step": 5156 }, { "epoch": 10.745833333333334, "grad_norm": 0.1805448979139328, "learning_rate": 2.315625e-05, "loss": 0.0057, "step": 5158 }, { "epoch": 10.75, "grad_norm": 0.7959513068199158, "learning_rate": 2.3145833333333335e-05, "loss": 0.0067, "step": 5160 }, { "epoch": 10.754166666666666, "grad_norm": 0.5963665246963501, "learning_rate": 2.313541666666667e-05, "loss": 0.0082, "step": 5162 }, { "epoch": 10.758333333333333, "grad_norm": 0.3629264831542969, "learning_rate": 2.3125000000000003e-05, "loss": 0.0073, "step": 5164 }, { "epoch": 10.7625, "grad_norm": 0.5267052054405212, "learning_rate": 2.3114583333333334e-05, "loss": 0.0126, "step": 5166 }, { "epoch": 10.766666666666667, "grad_norm": 0.20610296726226807, "learning_rate": 2.3104166666666668e-05, "loss": 0.006, "step": 5168 }, { "epoch": 10.770833333333334, "grad_norm": 0.1582213193178177, "learning_rate": 2.309375e-05, "loss": 0.0063, "step": 5170 }, { "epoch": 10.775, "grad_norm": 0.4347027540206909, "learning_rate": 2.3083333333333333e-05, "loss": 0.0061, "step": 5172 }, { "epoch": 10.779166666666667, "grad_norm": 2.927694797515869, "learning_rate": 2.307291666666667e-05, "loss": 0.0118, "step": 5174 }, { "epoch": 10.783333333333333, "grad_norm": 0.35415297746658325, "learning_rate": 2.30625e-05, "loss": 0.0062, "step": 5176 }, { "epoch": 10.7875, "grad_norm": 0.21310625970363617, "learning_rate": 2.3052083333333336e-05, "loss": 0.0067, "step": 5178 }, { "epoch": 10.791666666666666, "grad_norm": 0.3084089756011963, "learning_rate": 2.3041666666666667e-05, "loss": 0.0083, "step": 5180 }, { "epoch": 10.795833333333333, "grad_norm": 11.074761390686035, "learning_rate": 2.303125e-05, "loss": 0.0095, "step": 5182 }, { "epoch": 10.8, "grad_norm": 0.1919543743133545, "learning_rate": 2.302083333333333e-05, "loss": 0.0088, "step": 5184 }, { "epoch": 10.804166666666667, "grad_norm": 0.28558802604675293, "learning_rate": 2.301041666666667e-05, "loss": 0.0054, "step": 5186 }, { "epoch": 10.808333333333334, "grad_norm": 0.25418877601623535, "learning_rate": 2.3000000000000003e-05, "loss": 0.0063, "step": 5188 }, { "epoch": 10.8125, "grad_norm": 0.16356705129146576, "learning_rate": 2.2989583333333334e-05, "loss": 0.0087, "step": 5190 }, { "epoch": 10.816666666666666, "grad_norm": 0.2587560713291168, "learning_rate": 2.297916666666667e-05, "loss": 0.0076, "step": 5192 }, { "epoch": 10.820833333333333, "grad_norm": 0.21946565806865692, "learning_rate": 2.296875e-05, "loss": 0.0083, "step": 5194 }, { "epoch": 10.825, "grad_norm": 0.3756525218486786, "learning_rate": 2.2958333333333333e-05, "loss": 0.0093, "step": 5196 }, { "epoch": 10.829166666666667, "grad_norm": 0.552385687828064, "learning_rate": 2.2947916666666668e-05, "loss": 0.0069, "step": 5198 }, { "epoch": 10.833333333333334, "grad_norm": 0.132595956325531, "learning_rate": 2.2937500000000002e-05, "loss": 0.0112, "step": 5200 }, { "epoch": 10.833333333333334, "eval_cer": 0.05925144380275433, "eval_loss": 0.41167354583740234, "eval_runtime": 75.698, "eval_samples_per_second": 5.205, "eval_steps_per_second": 0.661, "step": 5200 }, { "epoch": 10.8375, "grad_norm": 0.7294612526893616, "learning_rate": 2.2927083333333336e-05, "loss": 0.0132, "step": 5202 }, { "epoch": 10.841666666666667, "grad_norm": 0.2032361775636673, "learning_rate": 2.2916666666666667e-05, "loss": 0.0106, "step": 5204 }, { "epoch": 10.845833333333333, "grad_norm": 0.24338187277317047, "learning_rate": 2.290625e-05, "loss": 0.0167, "step": 5206 }, { "epoch": 10.85, "grad_norm": 0.12392029166221619, "learning_rate": 2.2895833333333335e-05, "loss": 0.007, "step": 5208 }, { "epoch": 10.854166666666666, "grad_norm": 0.22576381266117096, "learning_rate": 2.2885416666666666e-05, "loss": 0.0058, "step": 5210 }, { "epoch": 10.858333333333333, "grad_norm": 0.5494840145111084, "learning_rate": 2.2875e-05, "loss": 0.0109, "step": 5212 }, { "epoch": 10.8625, "grad_norm": 0.1461561918258667, "learning_rate": 2.2864583333333335e-05, "loss": 0.0053, "step": 5214 }, { "epoch": 10.866666666666667, "grad_norm": 0.2092430144548416, "learning_rate": 2.285416666666667e-05, "loss": 0.0084, "step": 5216 }, { "epoch": 10.870833333333334, "grad_norm": 0.9517080783843994, "learning_rate": 2.284375e-05, "loss": 0.0155, "step": 5218 }, { "epoch": 10.875, "grad_norm": 0.23514051735401154, "learning_rate": 2.2833333333333334e-05, "loss": 0.0074, "step": 5220 }, { "epoch": 10.879166666666666, "grad_norm": 0.17661051452159882, "learning_rate": 2.2822916666666668e-05, "loss": 0.0056, "step": 5222 }, { "epoch": 10.883333333333333, "grad_norm": 0.23464688658714294, "learning_rate": 2.28125e-05, "loss": 0.0059, "step": 5224 }, { "epoch": 10.8875, "grad_norm": 0.2654400169849396, "learning_rate": 2.2802083333333336e-05, "loss": 0.0062, "step": 5226 }, { "epoch": 10.891666666666667, "grad_norm": 0.25027287006378174, "learning_rate": 2.2791666666666667e-05, "loss": 0.006, "step": 5228 }, { "epoch": 10.895833333333334, "grad_norm": 0.30139341950416565, "learning_rate": 2.278125e-05, "loss": 0.0071, "step": 5230 }, { "epoch": 10.9, "grad_norm": 0.2400798201560974, "learning_rate": 2.2770833333333336e-05, "loss": 0.0124, "step": 5232 }, { "epoch": 10.904166666666667, "grad_norm": 0.2535480558872223, "learning_rate": 2.2760416666666667e-05, "loss": 0.0074, "step": 5234 }, { "epoch": 10.908333333333333, "grad_norm": 0.1708315759897232, "learning_rate": 2.275e-05, "loss": 0.0081, "step": 5236 }, { "epoch": 10.9125, "grad_norm": 0.5559549331665039, "learning_rate": 2.2739583333333335e-05, "loss": 0.012, "step": 5238 }, { "epoch": 10.916666666666666, "grad_norm": 0.469411164522171, "learning_rate": 2.272916666666667e-05, "loss": 0.0078, "step": 5240 }, { "epoch": 10.920833333333333, "grad_norm": 0.22290188074111938, "learning_rate": 2.271875e-05, "loss": 0.0057, "step": 5242 }, { "epoch": 10.925, "grad_norm": 0.26531362533569336, "learning_rate": 2.2708333333333334e-05, "loss": 0.0077, "step": 5244 }, { "epoch": 10.929166666666667, "grad_norm": 1.224442720413208, "learning_rate": 2.269791666666667e-05, "loss": 0.0136, "step": 5246 }, { "epoch": 10.933333333333334, "grad_norm": 0.6175704598426819, "learning_rate": 2.26875e-05, "loss": 0.0086, "step": 5248 }, { "epoch": 10.9375, "grad_norm": 0.1805402785539627, "learning_rate": 2.2677083333333333e-05, "loss": 0.0096, "step": 5250 }, { "epoch": 10.941666666666666, "grad_norm": 0.566288948059082, "learning_rate": 2.2666666666666668e-05, "loss": 0.0095, "step": 5252 }, { "epoch": 10.945833333333333, "grad_norm": 0.7135134339332581, "learning_rate": 2.2656250000000002e-05, "loss": 0.0087, "step": 5254 }, { "epoch": 10.95, "grad_norm": 0.1782267689704895, "learning_rate": 2.2645833333333336e-05, "loss": 0.0079, "step": 5256 }, { "epoch": 10.954166666666667, "grad_norm": 0.2123182713985443, "learning_rate": 2.2635416666666667e-05, "loss": 0.007, "step": 5258 }, { "epoch": 10.958333333333334, "grad_norm": 0.24366918206214905, "learning_rate": 2.2625e-05, "loss": 0.0133, "step": 5260 }, { "epoch": 10.9625, "grad_norm": 0.24972322583198547, "learning_rate": 2.2614583333333332e-05, "loss": 0.0092, "step": 5262 }, { "epoch": 10.966666666666667, "grad_norm": 0.19417041540145874, "learning_rate": 2.260416666666667e-05, "loss": 0.0072, "step": 5264 }, { "epoch": 10.970833333333333, "grad_norm": 0.6737306714057922, "learning_rate": 2.2593750000000004e-05, "loss": 0.0142, "step": 5266 }, { "epoch": 10.975, "grad_norm": 1.1107364892959595, "learning_rate": 2.2583333333333335e-05, "loss": 0.0076, "step": 5268 }, { "epoch": 10.979166666666666, "grad_norm": 0.18257953226566315, "learning_rate": 2.257291666666667e-05, "loss": 0.0062, "step": 5270 }, { "epoch": 10.983333333333333, "grad_norm": 0.5069628953933716, "learning_rate": 2.25625e-05, "loss": 0.0108, "step": 5272 }, { "epoch": 10.9875, "grad_norm": 0.4585926830768585, "learning_rate": 2.2552083333333334e-05, "loss": 0.013, "step": 5274 }, { "epoch": 10.991666666666667, "grad_norm": 0.2590990364551544, "learning_rate": 2.2541666666666668e-05, "loss": 0.0088, "step": 5276 }, { "epoch": 10.995833333333334, "grad_norm": 0.4228052794933319, "learning_rate": 2.2531250000000002e-05, "loss": 0.0066, "step": 5278 }, { "epoch": 11.0, "grad_norm": 0.16303305327892303, "learning_rate": 2.2520833333333336e-05, "loss": 0.0062, "step": 5280 }, { "epoch": 11.004166666666666, "grad_norm": 0.14639344811439514, "learning_rate": 2.2510416666666667e-05, "loss": 0.0089, "step": 5282 }, { "epoch": 11.008333333333333, "grad_norm": 0.1468411684036255, "learning_rate": 2.25e-05, "loss": 0.0041, "step": 5284 }, { "epoch": 11.0125, "grad_norm": 0.18633559346199036, "learning_rate": 2.2489583333333332e-05, "loss": 0.0056, "step": 5286 }, { "epoch": 11.016666666666667, "grad_norm": 0.1373518407344818, "learning_rate": 2.2479166666666666e-05, "loss": 0.0134, "step": 5288 }, { "epoch": 11.020833333333334, "grad_norm": 0.8263069987297058, "learning_rate": 2.246875e-05, "loss": 0.0074, "step": 5290 }, { "epoch": 11.025, "grad_norm": 0.723675012588501, "learning_rate": 2.2458333333333335e-05, "loss": 0.0071, "step": 5292 }, { "epoch": 11.029166666666667, "grad_norm": 0.14255213737487793, "learning_rate": 2.244791666666667e-05, "loss": 0.0048, "step": 5294 }, { "epoch": 11.033333333333333, "grad_norm": 0.21678827702999115, "learning_rate": 2.24375e-05, "loss": 0.005, "step": 5296 }, { "epoch": 11.0375, "grad_norm": 0.27275824546813965, "learning_rate": 2.2427083333333334e-05, "loss": 0.0151, "step": 5298 }, { "epoch": 11.041666666666666, "grad_norm": 0.5885717868804932, "learning_rate": 2.2416666666666665e-05, "loss": 0.0089, "step": 5300 }, { "epoch": 11.045833333333333, "grad_norm": 0.2888849079608917, "learning_rate": 2.2406250000000003e-05, "loss": 0.0045, "step": 5302 }, { "epoch": 11.05, "grad_norm": 0.17668572068214417, "learning_rate": 2.2395833333333337e-05, "loss": 0.0045, "step": 5304 }, { "epoch": 11.054166666666667, "grad_norm": 0.23341821134090424, "learning_rate": 2.2385416666666668e-05, "loss": 0.0068, "step": 5306 }, { "epoch": 11.058333333333334, "grad_norm": 0.20352338254451752, "learning_rate": 2.2375000000000002e-05, "loss": 0.006, "step": 5308 }, { "epoch": 11.0625, "grad_norm": 1.0092573165893555, "learning_rate": 2.2364583333333333e-05, "loss": 0.0102, "step": 5310 }, { "epoch": 11.066666666666666, "grad_norm": 0.13659065961837769, "learning_rate": 2.2354166666666667e-05, "loss": 0.0043, "step": 5312 }, { "epoch": 11.070833333333333, "grad_norm": 0.13054785132408142, "learning_rate": 2.234375e-05, "loss": 0.0114, "step": 5314 }, { "epoch": 11.075, "grad_norm": 0.26039615273475647, "learning_rate": 2.2333333333333335e-05, "loss": 0.0043, "step": 5316 }, { "epoch": 11.079166666666667, "grad_norm": 0.2547140121459961, "learning_rate": 2.232291666666667e-05, "loss": 0.0052, "step": 5318 }, { "epoch": 11.083333333333334, "grad_norm": 0.2892366051673889, "learning_rate": 2.23125e-05, "loss": 0.0059, "step": 5320 }, { "epoch": 11.0875, "grad_norm": 0.10312634706497192, "learning_rate": 2.2302083333333334e-05, "loss": 0.0036, "step": 5322 }, { "epoch": 11.091666666666667, "grad_norm": 0.1400109827518463, "learning_rate": 2.229166666666667e-05, "loss": 0.0079, "step": 5324 }, { "epoch": 11.095833333333333, "grad_norm": 0.4039161503314972, "learning_rate": 2.228125e-05, "loss": 0.0048, "step": 5326 }, { "epoch": 11.1, "grad_norm": 0.11112111806869507, "learning_rate": 2.2270833333333334e-05, "loss": 0.0041, "step": 5328 }, { "epoch": 11.104166666666666, "grad_norm": 0.3151986002922058, "learning_rate": 2.2260416666666668e-05, "loss": 0.0143, "step": 5330 }, { "epoch": 11.108333333333333, "grad_norm": 0.11282768845558167, "learning_rate": 2.2250000000000002e-05, "loss": 0.0044, "step": 5332 }, { "epoch": 11.1125, "grad_norm": 0.3155863285064697, "learning_rate": 2.2239583333333333e-05, "loss": 0.0069, "step": 5334 }, { "epoch": 11.116666666666667, "grad_norm": 0.24473817646503448, "learning_rate": 2.2229166666666667e-05, "loss": 0.0082, "step": 5336 }, { "epoch": 11.120833333333334, "grad_norm": 0.26377609372138977, "learning_rate": 2.221875e-05, "loss": 0.0077, "step": 5338 }, { "epoch": 11.125, "grad_norm": 0.09334707260131836, "learning_rate": 2.2208333333333332e-05, "loss": 0.0036, "step": 5340 }, { "epoch": 11.129166666666666, "grad_norm": 0.8148914575576782, "learning_rate": 2.219791666666667e-05, "loss": 0.0073, "step": 5342 }, { "epoch": 11.133333333333333, "grad_norm": 0.09025494009256363, "learning_rate": 2.21875e-05, "loss": 0.0037, "step": 5344 }, { "epoch": 11.1375, "grad_norm": 0.10234276205301285, "learning_rate": 2.2177083333333335e-05, "loss": 0.0042, "step": 5346 }, { "epoch": 11.141666666666667, "grad_norm": 0.13562321662902832, "learning_rate": 2.216666666666667e-05, "loss": 0.0038, "step": 5348 }, { "epoch": 11.145833333333334, "grad_norm": 0.26421159505844116, "learning_rate": 2.215625e-05, "loss": 0.0058, "step": 5350 }, { "epoch": 11.15, "grad_norm": 0.23344041407108307, "learning_rate": 2.2145833333333334e-05, "loss": 0.0066, "step": 5352 }, { "epoch": 11.154166666666667, "grad_norm": 0.21719442307949066, "learning_rate": 2.2135416666666668e-05, "loss": 0.0045, "step": 5354 }, { "epoch": 11.158333333333333, "grad_norm": 0.11589968949556351, "learning_rate": 2.2125000000000002e-05, "loss": 0.0047, "step": 5356 }, { "epoch": 11.1625, "grad_norm": 0.31840217113494873, "learning_rate": 2.2114583333333337e-05, "loss": 0.0061, "step": 5358 }, { "epoch": 11.166666666666666, "grad_norm": 0.21088922023773193, "learning_rate": 2.2104166666666667e-05, "loss": 0.004, "step": 5360 }, { "epoch": 11.170833333333333, "grad_norm": 0.40874528884887695, "learning_rate": 2.2093750000000002e-05, "loss": 0.0055, "step": 5362 }, { "epoch": 11.175, "grad_norm": 0.2009340226650238, "learning_rate": 2.2083333333333333e-05, "loss": 0.0089, "step": 5364 }, { "epoch": 11.179166666666667, "grad_norm": 0.4809090793132782, "learning_rate": 2.2072916666666667e-05, "loss": 0.0087, "step": 5366 }, { "epoch": 11.183333333333334, "grad_norm": 0.2524220049381256, "learning_rate": 2.20625e-05, "loss": 0.0103, "step": 5368 }, { "epoch": 11.1875, "grad_norm": 0.08572123944759369, "learning_rate": 2.2052083333333335e-05, "loss": 0.0124, "step": 5370 }, { "epoch": 11.191666666666666, "grad_norm": 0.18648484349250793, "learning_rate": 2.204166666666667e-05, "loss": 0.0113, "step": 5372 }, { "epoch": 11.195833333333333, "grad_norm": 0.13764068484306335, "learning_rate": 2.203125e-05, "loss": 0.0046, "step": 5374 }, { "epoch": 11.2, "grad_norm": 0.17007997632026672, "learning_rate": 2.2020833333333334e-05, "loss": 0.0035, "step": 5376 }, { "epoch": 11.204166666666667, "grad_norm": 0.3239564597606659, "learning_rate": 2.2010416666666665e-05, "loss": 0.0043, "step": 5378 }, { "epoch": 11.208333333333334, "grad_norm": 0.27689430117607117, "learning_rate": 2.2000000000000003e-05, "loss": 0.01, "step": 5380 }, { "epoch": 11.2125, "grad_norm": 0.1706518977880478, "learning_rate": 2.1989583333333337e-05, "loss": 0.0042, "step": 5382 }, { "epoch": 11.216666666666667, "grad_norm": 0.18975432217121124, "learning_rate": 2.1979166666666668e-05, "loss": 0.005, "step": 5384 }, { "epoch": 11.220833333333333, "grad_norm": 0.22202059626579285, "learning_rate": 2.1968750000000002e-05, "loss": 0.0047, "step": 5386 }, { "epoch": 11.225, "grad_norm": 0.10202885419130325, "learning_rate": 2.1958333333333333e-05, "loss": 0.0061, "step": 5388 }, { "epoch": 11.229166666666666, "grad_norm": 0.2862538993358612, "learning_rate": 2.1947916666666667e-05, "loss": 0.004, "step": 5390 }, { "epoch": 11.233333333333333, "grad_norm": 0.22317923605442047, "learning_rate": 2.19375e-05, "loss": 0.0092, "step": 5392 }, { "epoch": 11.2375, "grad_norm": 0.2685011029243469, "learning_rate": 2.1927083333333336e-05, "loss": 0.0041, "step": 5394 }, { "epoch": 11.241666666666667, "grad_norm": 0.15018096566200256, "learning_rate": 2.191666666666667e-05, "loss": 0.0038, "step": 5396 }, { "epoch": 11.245833333333334, "grad_norm": 0.4605119228363037, "learning_rate": 2.190625e-05, "loss": 0.0064, "step": 5398 }, { "epoch": 11.25, "grad_norm": 0.18015289306640625, "learning_rate": 2.1895833333333335e-05, "loss": 0.0038, "step": 5400 }, { "epoch": 11.25, "eval_cer": 0.05900155486450467, "eval_loss": 0.40621718764305115, "eval_runtime": 75.4939, "eval_samples_per_second": 5.219, "eval_steps_per_second": 0.662, "step": 5400 }, { "epoch": 11.254166666666666, "grad_norm": 0.12471625208854675, "learning_rate": 2.1885416666666666e-05, "loss": 0.0049, "step": 5402 }, { "epoch": 11.258333333333333, "grad_norm": 0.3831551671028137, "learning_rate": 2.1875e-05, "loss": 0.0085, "step": 5404 }, { "epoch": 11.2625, "grad_norm": 0.118219293653965, "learning_rate": 2.1864583333333334e-05, "loss": 0.0054, "step": 5406 }, { "epoch": 11.266666666666667, "grad_norm": 0.28454381227493286, "learning_rate": 2.1854166666666668e-05, "loss": 0.0088, "step": 5408 }, { "epoch": 11.270833333333334, "grad_norm": 0.1995982527732849, "learning_rate": 2.1843750000000002e-05, "loss": 0.0047, "step": 5410 }, { "epoch": 11.275, "grad_norm": 0.48554494976997375, "learning_rate": 2.1833333333333333e-05, "loss": 0.0056, "step": 5412 }, { "epoch": 11.279166666666667, "grad_norm": 0.5193212628364563, "learning_rate": 2.1822916666666667e-05, "loss": 0.0118, "step": 5414 }, { "epoch": 11.283333333333333, "grad_norm": 0.3800783157348633, "learning_rate": 2.18125e-05, "loss": 0.0079, "step": 5416 }, { "epoch": 11.2875, "grad_norm": 0.17618264257907867, "learning_rate": 2.1802083333333332e-05, "loss": 0.0089, "step": 5418 }, { "epoch": 11.291666666666666, "grad_norm": 0.5535473227500916, "learning_rate": 2.179166666666667e-05, "loss": 0.01, "step": 5420 }, { "epoch": 11.295833333333333, "grad_norm": 0.323717325925827, "learning_rate": 2.178125e-05, "loss": 0.0064, "step": 5422 }, { "epoch": 11.3, "grad_norm": 0.4848445653915405, "learning_rate": 2.1770833333333335e-05, "loss": 0.0122, "step": 5424 }, { "epoch": 11.304166666666667, "grad_norm": 0.17460107803344727, "learning_rate": 2.1760416666666666e-05, "loss": 0.004, "step": 5426 }, { "epoch": 11.308333333333334, "grad_norm": 0.2708526849746704, "learning_rate": 2.175e-05, "loss": 0.005, "step": 5428 }, { "epoch": 11.3125, "grad_norm": 0.07279666513204575, "learning_rate": 2.1739583333333334e-05, "loss": 0.0052, "step": 5430 }, { "epoch": 11.316666666666666, "grad_norm": 0.18105334043502808, "learning_rate": 2.172916666666667e-05, "loss": 0.0041, "step": 5432 }, { "epoch": 11.320833333333333, "grad_norm": 0.5327079892158508, "learning_rate": 2.1718750000000003e-05, "loss": 0.0057, "step": 5434 }, { "epoch": 11.325, "grad_norm": 0.148968905210495, "learning_rate": 2.1708333333333334e-05, "loss": 0.0072, "step": 5436 }, { "epoch": 11.329166666666667, "grad_norm": 0.1283329427242279, "learning_rate": 2.1697916666666668e-05, "loss": 0.0063, "step": 5438 }, { "epoch": 11.333333333333334, "grad_norm": 0.2779463231563568, "learning_rate": 2.1687500000000002e-05, "loss": 0.0074, "step": 5440 }, { "epoch": 11.3375, "grad_norm": 0.2823297083377838, "learning_rate": 2.1677083333333333e-05, "loss": 0.0079, "step": 5442 }, { "epoch": 11.341666666666667, "grad_norm": 0.11799655854701996, "learning_rate": 2.1666666666666667e-05, "loss": 0.0106, "step": 5444 }, { "epoch": 11.345833333333333, "grad_norm": 0.08582490682601929, "learning_rate": 2.165625e-05, "loss": 0.0035, "step": 5446 }, { "epoch": 11.35, "grad_norm": 0.3342435657978058, "learning_rate": 2.1645833333333335e-05, "loss": 0.0059, "step": 5448 }, { "epoch": 11.354166666666666, "grad_norm": 0.2006761133670807, "learning_rate": 2.1635416666666666e-05, "loss": 0.0062, "step": 5450 }, { "epoch": 11.358333333333333, "grad_norm": 0.07708311080932617, "learning_rate": 2.1625e-05, "loss": 0.0076, "step": 5452 }, { "epoch": 11.3625, "grad_norm": 0.3516533374786377, "learning_rate": 2.1614583333333335e-05, "loss": 0.0056, "step": 5454 }, { "epoch": 11.366666666666667, "grad_norm": 0.28511345386505127, "learning_rate": 2.1604166666666666e-05, "loss": 0.0086, "step": 5456 }, { "epoch": 11.370833333333334, "grad_norm": 0.6914629340171814, "learning_rate": 2.1593750000000003e-05, "loss": 0.0081, "step": 5458 }, { "epoch": 11.375, "grad_norm": 0.3832404613494873, "learning_rate": 2.1583333333333334e-05, "loss": 0.0088, "step": 5460 }, { "epoch": 11.379166666666666, "grad_norm": 0.392055481672287, "learning_rate": 2.1572916666666668e-05, "loss": 0.0059, "step": 5462 }, { "epoch": 11.383333333333333, "grad_norm": 0.1108187735080719, "learning_rate": 2.1562500000000002e-05, "loss": 0.0042, "step": 5464 }, { "epoch": 11.3875, "grad_norm": 0.19530847668647766, "learning_rate": 2.1552083333333333e-05, "loss": 0.0045, "step": 5466 }, { "epoch": 11.391666666666667, "grad_norm": 0.1339133381843567, "learning_rate": 2.1541666666666667e-05, "loss": 0.0034, "step": 5468 }, { "epoch": 11.395833333333334, "grad_norm": 0.14195281267166138, "learning_rate": 2.153125e-05, "loss": 0.0044, "step": 5470 }, { "epoch": 11.4, "grad_norm": 0.21636252105236053, "learning_rate": 2.1520833333333336e-05, "loss": 0.0046, "step": 5472 }, { "epoch": 11.404166666666667, "grad_norm": 0.3773920238018036, "learning_rate": 2.151041666666667e-05, "loss": 0.0063, "step": 5474 }, { "epoch": 11.408333333333333, "grad_norm": 0.43185216188430786, "learning_rate": 2.15e-05, "loss": 0.0131, "step": 5476 }, { "epoch": 11.4125, "grad_norm": 0.09003946185112, "learning_rate": 2.1489583333333335e-05, "loss": 0.003, "step": 5478 }, { "epoch": 11.416666666666666, "grad_norm": 0.3297802209854126, "learning_rate": 2.1479166666666666e-05, "loss": 0.0081, "step": 5480 }, { "epoch": 11.420833333333333, "grad_norm": 0.5099610090255737, "learning_rate": 2.146875e-05, "loss": 0.0106, "step": 5482 }, { "epoch": 11.425, "grad_norm": 0.13046789169311523, "learning_rate": 2.1458333333333334e-05, "loss": 0.0058, "step": 5484 }, { "epoch": 11.429166666666667, "grad_norm": 0.7448767423629761, "learning_rate": 2.144791666666667e-05, "loss": 0.0043, "step": 5486 }, { "epoch": 11.433333333333334, "grad_norm": 0.12755000591278076, "learning_rate": 2.1437500000000003e-05, "loss": 0.005, "step": 5488 }, { "epoch": 11.4375, "grad_norm": 0.79160076379776, "learning_rate": 2.1427083333333334e-05, "loss": 0.0085, "step": 5490 }, { "epoch": 11.441666666666666, "grad_norm": 0.14273864030838013, "learning_rate": 2.1416666666666668e-05, "loss": 0.004, "step": 5492 }, { "epoch": 11.445833333333333, "grad_norm": 0.27386078238487244, "learning_rate": 2.140625e-05, "loss": 0.006, "step": 5494 }, { "epoch": 11.45, "grad_norm": 1.4285553693771362, "learning_rate": 2.1395833333333333e-05, "loss": 0.0145, "step": 5496 }, { "epoch": 11.454166666666667, "grad_norm": 0.6688889265060425, "learning_rate": 2.138541666666667e-05, "loss": 0.0096, "step": 5498 }, { "epoch": 11.458333333333334, "grad_norm": 0.37388163805007935, "learning_rate": 2.1375e-05, "loss": 0.0121, "step": 5500 }, { "epoch": 11.4625, "grad_norm": 0.5253106951713562, "learning_rate": 2.1364583333333335e-05, "loss": 0.0062, "step": 5502 }, { "epoch": 11.466666666666667, "grad_norm": 0.18301111459732056, "learning_rate": 2.1354166666666666e-05, "loss": 0.0039, "step": 5504 }, { "epoch": 11.470833333333333, "grad_norm": 0.1626482754945755, "learning_rate": 2.134375e-05, "loss": 0.006, "step": 5506 }, { "epoch": 11.475, "grad_norm": 0.1303604692220688, "learning_rate": 2.1333333333333335e-05, "loss": 0.0066, "step": 5508 }, { "epoch": 11.479166666666666, "grad_norm": 1.2022501230239868, "learning_rate": 2.132291666666667e-05, "loss": 0.0112, "step": 5510 }, { "epoch": 11.483333333333333, "grad_norm": 0.2564866542816162, "learning_rate": 2.1312500000000003e-05, "loss": 0.0066, "step": 5512 }, { "epoch": 11.4875, "grad_norm": 0.11252661794424057, "learning_rate": 2.1302083333333334e-05, "loss": 0.006, "step": 5514 }, { "epoch": 11.491666666666667, "grad_norm": 1.9845887422561646, "learning_rate": 2.1291666666666668e-05, "loss": 0.0137, "step": 5516 }, { "epoch": 11.495833333333334, "grad_norm": 0.37477540969848633, "learning_rate": 2.128125e-05, "loss": 0.005, "step": 5518 }, { "epoch": 11.5, "grad_norm": 0.9179544448852539, "learning_rate": 2.1270833333333333e-05, "loss": 0.0137, "step": 5520 }, { "epoch": 11.504166666666666, "grad_norm": 0.14215679466724396, "learning_rate": 2.1260416666666667e-05, "loss": 0.01, "step": 5522 }, { "epoch": 11.508333333333333, "grad_norm": 0.7102984189987183, "learning_rate": 2.125e-05, "loss": 0.0088, "step": 5524 }, { "epoch": 11.5125, "grad_norm": 1.1501877307891846, "learning_rate": 2.1239583333333336e-05, "loss": 0.0053, "step": 5526 }, { "epoch": 11.516666666666667, "grad_norm": 0.42684823274612427, "learning_rate": 2.1229166666666667e-05, "loss": 0.0063, "step": 5528 }, { "epoch": 11.520833333333334, "grad_norm": 0.22833840548992157, "learning_rate": 2.121875e-05, "loss": 0.0069, "step": 5530 }, { "epoch": 11.525, "grad_norm": 0.5448914170265198, "learning_rate": 2.1208333333333335e-05, "loss": 0.0057, "step": 5532 }, { "epoch": 11.529166666666667, "grad_norm": 0.2875007390975952, "learning_rate": 2.1197916666666666e-05, "loss": 0.0044, "step": 5534 }, { "epoch": 11.533333333333333, "grad_norm": 0.6705799698829651, "learning_rate": 2.1187500000000003e-05, "loss": 0.0082, "step": 5536 }, { "epoch": 11.5375, "grad_norm": 0.2536393702030182, "learning_rate": 2.1177083333333334e-05, "loss": 0.0071, "step": 5538 }, { "epoch": 11.541666666666666, "grad_norm": 0.4556005597114563, "learning_rate": 2.116666666666667e-05, "loss": 0.0069, "step": 5540 }, { "epoch": 11.545833333333333, "grad_norm": 0.2073305994272232, "learning_rate": 2.115625e-05, "loss": 0.0042, "step": 5542 }, { "epoch": 11.55, "grad_norm": 0.2683389484882355, "learning_rate": 2.1145833333333333e-05, "loss": 0.0056, "step": 5544 }, { "epoch": 11.554166666666667, "grad_norm": 0.08961108326911926, "learning_rate": 2.1135416666666668e-05, "loss": 0.004, "step": 5546 }, { "epoch": 11.558333333333334, "grad_norm": 0.15840335190296173, "learning_rate": 2.1125000000000002e-05, "loss": 0.0035, "step": 5548 }, { "epoch": 11.5625, "grad_norm": 0.3700858950614929, "learning_rate": 2.1114583333333336e-05, "loss": 0.0049, "step": 5550 }, { "epoch": 11.566666666666666, "grad_norm": 0.15944194793701172, "learning_rate": 2.1104166666666667e-05, "loss": 0.006, "step": 5552 }, { "epoch": 11.570833333333333, "grad_norm": 0.20845191180706024, "learning_rate": 2.109375e-05, "loss": 0.0049, "step": 5554 }, { "epoch": 11.575, "grad_norm": 0.27924928069114685, "learning_rate": 2.1083333333333335e-05, "loss": 0.0059, "step": 5556 }, { "epoch": 11.579166666666667, "grad_norm": 0.36979374289512634, "learning_rate": 2.1072916666666666e-05, "loss": 0.0076, "step": 5558 }, { "epoch": 11.583333333333334, "grad_norm": 0.17433571815490723, "learning_rate": 2.10625e-05, "loss": 0.0042, "step": 5560 }, { "epoch": 11.5875, "grad_norm": 1.0232577323913574, "learning_rate": 2.1052083333333335e-05, "loss": 0.0093, "step": 5562 }, { "epoch": 11.591666666666667, "grad_norm": 0.18578392267227173, "learning_rate": 2.104166666666667e-05, "loss": 0.0033, "step": 5564 }, { "epoch": 11.595833333333333, "grad_norm": 0.5110247135162354, "learning_rate": 2.1031250000000003e-05, "loss": 0.0125, "step": 5566 }, { "epoch": 11.6, "grad_norm": 0.23456624150276184, "learning_rate": 2.1020833333333334e-05, "loss": 0.005, "step": 5568 }, { "epoch": 11.604166666666666, "grad_norm": 0.2404676377773285, "learning_rate": 2.1010416666666668e-05, "loss": 0.004, "step": 5570 }, { "epoch": 11.608333333333333, "grad_norm": 0.07095851749181747, "learning_rate": 2.1e-05, "loss": 0.004, "step": 5572 }, { "epoch": 11.6125, "grad_norm": 0.1716654896736145, "learning_rate": 2.0989583333333333e-05, "loss": 0.0059, "step": 5574 }, { "epoch": 11.616666666666667, "grad_norm": 0.12430752068758011, "learning_rate": 2.0979166666666667e-05, "loss": 0.0032, "step": 5576 }, { "epoch": 11.620833333333334, "grad_norm": 0.37310630083084106, "learning_rate": 2.096875e-05, "loss": 0.0044, "step": 5578 }, { "epoch": 11.625, "grad_norm": 0.30032771825790405, "learning_rate": 2.0958333333333336e-05, "loss": 0.0049, "step": 5580 }, { "epoch": 11.629166666666666, "grad_norm": 0.160261869430542, "learning_rate": 2.0947916666666666e-05, "loss": 0.0041, "step": 5582 }, { "epoch": 11.633333333333333, "grad_norm": 0.6883515119552612, "learning_rate": 2.09375e-05, "loss": 0.0072, "step": 5584 }, { "epoch": 11.6375, "grad_norm": 0.16608570516109467, "learning_rate": 2.0927083333333335e-05, "loss": 0.0033, "step": 5586 }, { "epoch": 11.641666666666667, "grad_norm": 0.3280135691165924, "learning_rate": 2.091666666666667e-05, "loss": 0.014, "step": 5588 }, { "epoch": 11.645833333333334, "grad_norm": 0.16164982318878174, "learning_rate": 2.0906250000000003e-05, "loss": 0.0055, "step": 5590 }, { "epoch": 11.65, "grad_norm": 0.15164969861507416, "learning_rate": 2.0895833333333334e-05, "loss": 0.0034, "step": 5592 }, { "epoch": 11.654166666666667, "grad_norm": 0.1090688407421112, "learning_rate": 2.088541666666667e-05, "loss": 0.0041, "step": 5594 }, { "epoch": 11.658333333333333, "grad_norm": 0.16300906240940094, "learning_rate": 2.0875e-05, "loss": 0.0045, "step": 5596 }, { "epoch": 11.6625, "grad_norm": 0.1310596913099289, "learning_rate": 2.0864583333333333e-05, "loss": 0.0053, "step": 5598 }, { "epoch": 11.666666666666666, "grad_norm": 0.12218859791755676, "learning_rate": 2.0854166666666668e-05, "loss": 0.0041, "step": 5600 }, { "epoch": 11.666666666666666, "eval_cer": 0.056752554420257666, "eval_loss": 0.4118540287017822, "eval_runtime": 75.8374, "eval_samples_per_second": 5.195, "eval_steps_per_second": 0.659, "step": 5600 }, { "epoch": 11.670833333333333, "grad_norm": 0.607795774936676, "learning_rate": 2.0843750000000002e-05, "loss": 0.0083, "step": 5602 }, { "epoch": 11.675, "grad_norm": 0.32309913635253906, "learning_rate": 2.0833333333333336e-05, "loss": 0.0085, "step": 5604 }, { "epoch": 11.679166666666667, "grad_norm": 0.221426323056221, "learning_rate": 2.0822916666666667e-05, "loss": 0.0053, "step": 5606 }, { "epoch": 11.683333333333334, "grad_norm": 0.31034237146377563, "learning_rate": 2.08125e-05, "loss": 0.0116, "step": 5608 }, { "epoch": 11.6875, "grad_norm": 0.22828349471092224, "learning_rate": 2.0802083333333332e-05, "loss": 0.0072, "step": 5610 }, { "epoch": 11.691666666666666, "grad_norm": 0.52789705991745, "learning_rate": 2.0791666666666666e-05, "loss": 0.0071, "step": 5612 }, { "epoch": 11.695833333333333, "grad_norm": 0.18092204630374908, "learning_rate": 2.0781250000000004e-05, "loss": 0.004, "step": 5614 }, { "epoch": 11.7, "grad_norm": 0.25349149107933044, "learning_rate": 2.0770833333333335e-05, "loss": 0.0047, "step": 5616 }, { "epoch": 11.704166666666667, "grad_norm": 0.16513817012310028, "learning_rate": 2.076041666666667e-05, "loss": 0.0046, "step": 5618 }, { "epoch": 11.708333333333334, "grad_norm": 0.11228234320878983, "learning_rate": 2.075e-05, "loss": 0.0045, "step": 5620 }, { "epoch": 11.7125, "grad_norm": 0.21161220967769623, "learning_rate": 2.0739583333333334e-05, "loss": 0.0059, "step": 5622 }, { "epoch": 11.716666666666667, "grad_norm": 0.17172405123710632, "learning_rate": 2.0729166666666668e-05, "loss": 0.0062, "step": 5624 }, { "epoch": 11.720833333333333, "grad_norm": 0.16643846035003662, "learning_rate": 2.0718750000000002e-05, "loss": 0.0033, "step": 5626 }, { "epoch": 11.725, "grad_norm": 0.3321714699268341, "learning_rate": 2.0708333333333336e-05, "loss": 0.0063, "step": 5628 }, { "epoch": 11.729166666666666, "grad_norm": 0.5518544316291809, "learning_rate": 2.0697916666666667e-05, "loss": 0.0059, "step": 5630 }, { "epoch": 11.733333333333333, "grad_norm": 0.13135270774364471, "learning_rate": 2.06875e-05, "loss": 0.004, "step": 5632 }, { "epoch": 11.7375, "grad_norm": 0.21046854555606842, "learning_rate": 2.0677083333333332e-05, "loss": 0.0056, "step": 5634 }, { "epoch": 11.741666666666667, "grad_norm": 0.16194966435432434, "learning_rate": 2.0666666666666666e-05, "loss": 0.0039, "step": 5636 }, { "epoch": 11.745833333333334, "grad_norm": 0.12537366151809692, "learning_rate": 2.065625e-05, "loss": 0.0049, "step": 5638 }, { "epoch": 11.75, "grad_norm": 0.7271407842636108, "learning_rate": 2.0645833333333335e-05, "loss": 0.0076, "step": 5640 }, { "epoch": 11.754166666666666, "grad_norm": 0.20175445079803467, "learning_rate": 2.063541666666667e-05, "loss": 0.0053, "step": 5642 }, { "epoch": 11.758333333333333, "grad_norm": 0.29951298236846924, "learning_rate": 2.0625e-05, "loss": 0.0064, "step": 5644 }, { "epoch": 11.7625, "grad_norm": 0.2548162043094635, "learning_rate": 2.0614583333333334e-05, "loss": 0.0121, "step": 5646 }, { "epoch": 11.766666666666667, "grad_norm": 0.2949858605861664, "learning_rate": 2.060416666666667e-05, "loss": 0.008, "step": 5648 }, { "epoch": 11.770833333333334, "grad_norm": 1.3777806758880615, "learning_rate": 2.059375e-05, "loss": 0.0134, "step": 5650 }, { "epoch": 11.775, "grad_norm": 0.12392773479223251, "learning_rate": 2.0583333333333333e-05, "loss": 0.0045, "step": 5652 }, { "epoch": 11.779166666666667, "grad_norm": 0.14528034627437592, "learning_rate": 2.0572916666666668e-05, "loss": 0.0046, "step": 5654 }, { "epoch": 11.783333333333333, "grad_norm": 0.2976987659931183, "learning_rate": 2.0562500000000002e-05, "loss": 0.0049, "step": 5656 }, { "epoch": 11.7875, "grad_norm": 0.17385776340961456, "learning_rate": 2.0552083333333336e-05, "loss": 0.0043, "step": 5658 }, { "epoch": 11.791666666666666, "grad_norm": 0.47948500514030457, "learning_rate": 2.0541666666666667e-05, "loss": 0.011, "step": 5660 }, { "epoch": 11.795833333333333, "grad_norm": 0.2697466015815735, "learning_rate": 2.053125e-05, "loss": 0.0047, "step": 5662 }, { "epoch": 11.8, "grad_norm": 0.23156797885894775, "learning_rate": 2.0520833333333335e-05, "loss": 0.0045, "step": 5664 }, { "epoch": 11.804166666666667, "grad_norm": 0.07147888839244843, "learning_rate": 2.051041666666667e-05, "loss": 0.0033, "step": 5666 }, { "epoch": 11.808333333333334, "grad_norm": 0.1589713990688324, "learning_rate": 2.05e-05, "loss": 0.0043, "step": 5668 }, { "epoch": 11.8125, "grad_norm": 0.1257808804512024, "learning_rate": 2.0489583333333334e-05, "loss": 0.0047, "step": 5670 }, { "epoch": 11.816666666666666, "grad_norm": 0.2323353886604309, "learning_rate": 2.047916666666667e-05, "loss": 0.0056, "step": 5672 }, { "epoch": 11.820833333333333, "grad_norm": 0.4467550814151764, "learning_rate": 2.046875e-05, "loss": 0.0044, "step": 5674 }, { "epoch": 11.825, "grad_norm": 0.31382474303245544, "learning_rate": 2.0458333333333334e-05, "loss": 0.0077, "step": 5676 }, { "epoch": 11.829166666666667, "grad_norm": 1.1931864023208618, "learning_rate": 2.0447916666666668e-05, "loss": 0.0079, "step": 5678 }, { "epoch": 11.833333333333334, "grad_norm": 0.13346697390079498, "learning_rate": 2.0437500000000002e-05, "loss": 0.0039, "step": 5680 }, { "epoch": 11.8375, "grad_norm": 0.4536321461200714, "learning_rate": 2.0427083333333336e-05, "loss": 0.0079, "step": 5682 }, { "epoch": 11.841666666666667, "grad_norm": 0.12358766049146652, "learning_rate": 2.0416666666666667e-05, "loss": 0.0044, "step": 5684 }, { "epoch": 11.845833333333333, "grad_norm": 0.2036765217781067, "learning_rate": 2.040625e-05, "loss": 0.0058, "step": 5686 }, { "epoch": 11.85, "grad_norm": 0.3512805104255676, "learning_rate": 2.0395833333333332e-05, "loss": 0.0063, "step": 5688 }, { "epoch": 11.854166666666666, "grad_norm": 0.19244936108589172, "learning_rate": 2.0385416666666666e-05, "loss": 0.0054, "step": 5690 }, { "epoch": 11.858333333333333, "grad_norm": 0.10313227772712708, "learning_rate": 2.0375e-05, "loss": 0.0047, "step": 5692 }, { "epoch": 11.8625, "grad_norm": 0.19236302375793457, "learning_rate": 2.0364583333333335e-05, "loss": 0.0074, "step": 5694 }, { "epoch": 11.866666666666667, "grad_norm": 0.3313475549221039, "learning_rate": 2.035416666666667e-05, "loss": 0.0144, "step": 5696 }, { "epoch": 11.870833333333334, "grad_norm": 0.2600057125091553, "learning_rate": 2.034375e-05, "loss": 0.0054, "step": 5698 }, { "epoch": 11.875, "grad_norm": 0.0890326201915741, "learning_rate": 2.0333333333333334e-05, "loss": 0.0163, "step": 5700 }, { "epoch": 11.879166666666666, "grad_norm": 0.12212791293859482, "learning_rate": 2.0322916666666665e-05, "loss": 0.0039, "step": 5702 }, { "epoch": 11.883333333333333, "grad_norm": 0.16270384192466736, "learning_rate": 2.0312500000000002e-05, "loss": 0.0058, "step": 5704 }, { "epoch": 11.8875, "grad_norm": 0.12538057565689087, "learning_rate": 2.0302083333333337e-05, "loss": 0.0032, "step": 5706 }, { "epoch": 11.891666666666667, "grad_norm": 0.38861387968063354, "learning_rate": 2.0291666666666667e-05, "loss": 0.0082, "step": 5708 }, { "epoch": 11.895833333333334, "grad_norm": 0.2764340043067932, "learning_rate": 2.0281250000000002e-05, "loss": 0.0077, "step": 5710 }, { "epoch": 11.9, "grad_norm": 0.3225233554840088, "learning_rate": 2.0270833333333333e-05, "loss": 0.0052, "step": 5712 }, { "epoch": 11.904166666666667, "grad_norm": 0.12362344563007355, "learning_rate": 2.0260416666666667e-05, "loss": 0.006, "step": 5714 }, { "epoch": 11.908333333333333, "grad_norm": 0.22279609739780426, "learning_rate": 2.025e-05, "loss": 0.0062, "step": 5716 }, { "epoch": 11.9125, "grad_norm": 1.402426838874817, "learning_rate": 2.0239583333333335e-05, "loss": 0.005, "step": 5718 }, { "epoch": 11.916666666666666, "grad_norm": 0.12483213096857071, "learning_rate": 2.022916666666667e-05, "loss": 0.0036, "step": 5720 }, { "epoch": 11.920833333333333, "grad_norm": 0.32906976342201233, "learning_rate": 2.021875e-05, "loss": 0.0042, "step": 5722 }, { "epoch": 11.925, "grad_norm": 0.10241012275218964, "learning_rate": 2.0208333333333334e-05, "loss": 0.0042, "step": 5724 }, { "epoch": 11.929166666666667, "grad_norm": 0.23845745623111725, "learning_rate": 2.0197916666666665e-05, "loss": 0.0044, "step": 5726 }, { "epoch": 11.933333333333334, "grad_norm": 0.39004990458488464, "learning_rate": 2.01875e-05, "loss": 0.0064, "step": 5728 }, { "epoch": 11.9375, "grad_norm": 0.12265156209468842, "learning_rate": 2.0177083333333337e-05, "loss": 0.0043, "step": 5730 }, { "epoch": 11.941666666666666, "grad_norm": 0.4878791570663452, "learning_rate": 2.0166666666666668e-05, "loss": 0.006, "step": 5732 }, { "epoch": 11.945833333333333, "grad_norm": 0.12098278105258942, "learning_rate": 2.0156250000000002e-05, "loss": 0.0043, "step": 5734 }, { "epoch": 11.95, "grad_norm": 0.17786738276481628, "learning_rate": 2.0145833333333333e-05, "loss": 0.0046, "step": 5736 }, { "epoch": 11.954166666666667, "grad_norm": 4.72953987121582, "learning_rate": 2.0135416666666667e-05, "loss": 0.0084, "step": 5738 }, { "epoch": 11.958333333333334, "grad_norm": 0.20814675092697144, "learning_rate": 2.0125e-05, "loss": 0.004, "step": 5740 }, { "epoch": 11.9625, "grad_norm": 0.25677183270454407, "learning_rate": 2.0114583333333335e-05, "loss": 0.0037, "step": 5742 }, { "epoch": 11.966666666666667, "grad_norm": 0.09203586727380753, "learning_rate": 2.010416666666667e-05, "loss": 0.0043, "step": 5744 }, { "epoch": 11.970833333333333, "grad_norm": 0.4370933771133423, "learning_rate": 2.009375e-05, "loss": 0.0056, "step": 5746 }, { "epoch": 11.975, "grad_norm": 0.911830484867096, "learning_rate": 2.0083333333333335e-05, "loss": 0.0094, "step": 5748 }, { "epoch": 11.979166666666666, "grad_norm": 0.4757936894893646, "learning_rate": 2.0072916666666666e-05, "loss": 0.0098, "step": 5750 }, { "epoch": 11.983333333333333, "grad_norm": 0.1641979068517685, "learning_rate": 2.00625e-05, "loss": 0.0056, "step": 5752 }, { "epoch": 11.9875, "grad_norm": 0.16192474961280823, "learning_rate": 2.0052083333333334e-05, "loss": 0.0103, "step": 5754 }, { "epoch": 11.991666666666667, "grad_norm": 5.07891845703125, "learning_rate": 2.0041666666666668e-05, "loss": 0.0129, "step": 5756 }, { "epoch": 11.995833333333334, "grad_norm": 0.28704604506492615, "learning_rate": 2.0031250000000002e-05, "loss": 0.0107, "step": 5758 }, { "epoch": 12.0, "grad_norm": 0.18753446638584137, "learning_rate": 2.0020833333333333e-05, "loss": 0.0068, "step": 5760 }, { "epoch": 12.004166666666666, "grad_norm": 0.3631332814693451, "learning_rate": 2.0010416666666667e-05, "loss": 0.004, "step": 5762 }, { "epoch": 12.008333333333333, "grad_norm": 0.08007864654064178, "learning_rate": 2e-05, "loss": 0.0036, "step": 5764 }, { "epoch": 12.0125, "grad_norm": 0.19775842130184174, "learning_rate": 1.9989583333333332e-05, "loss": 0.0036, "step": 5766 }, { "epoch": 12.016666666666667, "grad_norm": 0.31369736790657043, "learning_rate": 1.9979166666666667e-05, "loss": 0.0048, "step": 5768 }, { "epoch": 12.020833333333334, "grad_norm": 0.05997704342007637, "learning_rate": 1.996875e-05, "loss": 0.0057, "step": 5770 }, { "epoch": 12.025, "grad_norm": 0.1980482041835785, "learning_rate": 1.9958333333333335e-05, "loss": 0.0039, "step": 5772 }, { "epoch": 12.029166666666667, "grad_norm": 0.07225392758846283, "learning_rate": 1.994791666666667e-05, "loss": 0.0026, "step": 5774 }, { "epoch": 12.033333333333333, "grad_norm": 0.2691930830478668, "learning_rate": 1.99375e-05, "loss": 0.0042, "step": 5776 }, { "epoch": 12.0375, "grad_norm": 0.3260795772075653, "learning_rate": 1.9927083333333334e-05, "loss": 0.0034, "step": 5778 }, { "epoch": 12.041666666666666, "grad_norm": 0.3553968369960785, "learning_rate": 1.9916666666666665e-05, "loss": 0.0087, "step": 5780 }, { "epoch": 12.045833333333333, "grad_norm": 0.9367809295654297, "learning_rate": 1.9906250000000003e-05, "loss": 0.0038, "step": 5782 }, { "epoch": 12.05, "grad_norm": 0.1674671173095703, "learning_rate": 1.9895833333333334e-05, "loss": 0.0037, "step": 5784 }, { "epoch": 12.054166666666667, "grad_norm": 0.137387216091156, "learning_rate": 1.9885416666666668e-05, "loss": 0.0038, "step": 5786 }, { "epoch": 12.058333333333334, "grad_norm": 0.08711022138595581, "learning_rate": 1.9875000000000002e-05, "loss": 0.0032, "step": 5788 }, { "epoch": 12.0625, "grad_norm": 0.21210314333438873, "learning_rate": 1.9864583333333333e-05, "loss": 0.0058, "step": 5790 }, { "epoch": 12.066666666666666, "grad_norm": 0.2784203588962555, "learning_rate": 1.9854166666666667e-05, "loss": 0.0049, "step": 5792 }, { "epoch": 12.070833333333333, "grad_norm": 0.13900257647037506, "learning_rate": 1.984375e-05, "loss": 0.0033, "step": 5794 }, { "epoch": 12.075, "grad_norm": 0.12200033664703369, "learning_rate": 1.9833333333333335e-05, "loss": 0.0059, "step": 5796 }, { "epoch": 12.079166666666667, "grad_norm": 0.39744389057159424, "learning_rate": 1.982291666666667e-05, "loss": 0.0047, "step": 5798 }, { "epoch": 12.083333333333334, "grad_norm": 0.07587271928787231, "learning_rate": 1.98125e-05, "loss": 0.0038, "step": 5800 }, { "epoch": 12.083333333333334, "eval_cer": 0.05733562860950689, "eval_loss": 0.4057757258415222, "eval_runtime": 75.3932, "eval_samples_per_second": 5.226, "eval_steps_per_second": 0.663, "step": 5800 }, { "epoch": 12.0875, "grad_norm": 0.10987043380737305, "learning_rate": 1.9802083333333335e-05, "loss": 0.0028, "step": 5802 }, { "epoch": 12.091666666666667, "grad_norm": 0.1609744280576706, "learning_rate": 1.9791666666666665e-05, "loss": 0.0041, "step": 5804 }, { "epoch": 12.095833333333333, "grad_norm": 0.36001959443092346, "learning_rate": 1.978125e-05, "loss": 0.0095, "step": 5806 }, { "epoch": 12.1, "grad_norm": 0.06932394951581955, "learning_rate": 1.9770833333333337e-05, "loss": 0.0049, "step": 5808 }, { "epoch": 12.104166666666666, "grad_norm": 0.12078548967838287, "learning_rate": 1.9760416666666668e-05, "loss": 0.0032, "step": 5810 }, { "epoch": 12.108333333333333, "grad_norm": 0.49233555793762207, "learning_rate": 1.9750000000000002e-05, "loss": 0.0073, "step": 5812 }, { "epoch": 12.1125, "grad_norm": 0.2644478678703308, "learning_rate": 1.9739583333333333e-05, "loss": 0.0031, "step": 5814 }, { "epoch": 12.116666666666667, "grad_norm": 0.10790616273880005, "learning_rate": 1.9729166666666667e-05, "loss": 0.0023, "step": 5816 }, { "epoch": 12.120833333333334, "grad_norm": 0.07374177873134613, "learning_rate": 1.9718749999999998e-05, "loss": 0.0032, "step": 5818 }, { "epoch": 12.125, "grad_norm": 0.23656070232391357, "learning_rate": 1.9708333333333336e-05, "loss": 0.0117, "step": 5820 }, { "epoch": 12.129166666666666, "grad_norm": 0.26406821608543396, "learning_rate": 1.969791666666667e-05, "loss": 0.0047, "step": 5822 }, { "epoch": 12.133333333333333, "grad_norm": 0.12279634177684784, "learning_rate": 1.96875e-05, "loss": 0.0039, "step": 5824 }, { "epoch": 12.1375, "grad_norm": 0.10766838490962982, "learning_rate": 1.9677083333333335e-05, "loss": 0.0042, "step": 5826 }, { "epoch": 12.141666666666667, "grad_norm": 0.2941032946109772, "learning_rate": 1.9666666666666666e-05, "loss": 0.0083, "step": 5828 }, { "epoch": 12.145833333333334, "grad_norm": 0.15998943150043488, "learning_rate": 1.965625e-05, "loss": 0.004, "step": 5830 }, { "epoch": 12.15, "grad_norm": 0.335482656955719, "learning_rate": 1.9645833333333334e-05, "loss": 0.004, "step": 5832 }, { "epoch": 12.154166666666667, "grad_norm": 0.20236913859844208, "learning_rate": 1.963541666666667e-05, "loss": 0.0041, "step": 5834 }, { "epoch": 12.158333333333333, "grad_norm": 0.08034755289554596, "learning_rate": 1.9625000000000003e-05, "loss": 0.0031, "step": 5836 }, { "epoch": 12.1625, "grad_norm": 0.07140016555786133, "learning_rate": 1.9614583333333334e-05, "loss": 0.0029, "step": 5838 }, { "epoch": 12.166666666666666, "grad_norm": 0.0977131798863411, "learning_rate": 1.9604166666666668e-05, "loss": 0.0035, "step": 5840 }, { "epoch": 12.170833333333333, "grad_norm": 0.36165037751197815, "learning_rate": 1.959375e-05, "loss": 0.0085, "step": 5842 }, { "epoch": 12.175, "grad_norm": 0.09550903737545013, "learning_rate": 1.9583333333333333e-05, "loss": 0.0031, "step": 5844 }, { "epoch": 12.179166666666667, "grad_norm": 0.1289057731628418, "learning_rate": 1.9572916666666667e-05, "loss": 0.0037, "step": 5846 }, { "epoch": 12.183333333333334, "grad_norm": 0.16453348100185394, "learning_rate": 1.95625e-05, "loss": 0.0033, "step": 5848 }, { "epoch": 12.1875, "grad_norm": 0.055952366441488266, "learning_rate": 1.9552083333333335e-05, "loss": 0.0021, "step": 5850 }, { "epoch": 12.191666666666666, "grad_norm": 0.827174961566925, "learning_rate": 1.9541666666666666e-05, "loss": 0.0125, "step": 5852 }, { "epoch": 12.195833333333333, "grad_norm": 0.17026667296886444, "learning_rate": 1.953125e-05, "loss": 0.0051, "step": 5854 }, { "epoch": 12.2, "grad_norm": 0.08462584018707275, "learning_rate": 1.9520833333333335e-05, "loss": 0.0029, "step": 5856 }, { "epoch": 12.204166666666667, "grad_norm": 0.12124695628881454, "learning_rate": 1.9510416666666665e-05, "loss": 0.011, "step": 5858 }, { "epoch": 12.208333333333334, "grad_norm": 0.21386756002902985, "learning_rate": 1.9500000000000003e-05, "loss": 0.005, "step": 5860 }, { "epoch": 12.2125, "grad_norm": 0.16871990263462067, "learning_rate": 1.9489583333333334e-05, "loss": 0.0034, "step": 5862 }, { "epoch": 12.216666666666667, "grad_norm": 0.23798798024654388, "learning_rate": 1.9479166666666668e-05, "loss": 0.008, "step": 5864 }, { "epoch": 12.220833333333333, "grad_norm": 0.1164267510175705, "learning_rate": 1.9468750000000002e-05, "loss": 0.0026, "step": 5866 }, { "epoch": 12.225, "grad_norm": 0.24826012551784515, "learning_rate": 1.9458333333333333e-05, "loss": 0.0101, "step": 5868 }, { "epoch": 12.229166666666666, "grad_norm": 0.11179172992706299, "learning_rate": 1.9447916666666667e-05, "loss": 0.0049, "step": 5870 }, { "epoch": 12.233333333333333, "grad_norm": 0.09538863599300385, "learning_rate": 1.94375e-05, "loss": 0.0036, "step": 5872 }, { "epoch": 12.2375, "grad_norm": 0.04791112616658211, "learning_rate": 1.9427083333333336e-05, "loss": 0.0051, "step": 5874 }, { "epoch": 12.241666666666667, "grad_norm": 0.1233455091714859, "learning_rate": 1.9416666666666667e-05, "loss": 0.0045, "step": 5876 }, { "epoch": 12.245833333333334, "grad_norm": 0.18089796602725983, "learning_rate": 1.940625e-05, "loss": 0.0034, "step": 5878 }, { "epoch": 12.25, "grad_norm": 0.3300330936908722, "learning_rate": 1.9395833333333335e-05, "loss": 0.0042, "step": 5880 }, { "epoch": 12.254166666666666, "grad_norm": 0.10576513409614563, "learning_rate": 1.9385416666666666e-05, "loss": 0.0037, "step": 5882 }, { "epoch": 12.258333333333333, "grad_norm": 0.05452275276184082, "learning_rate": 1.9375e-05, "loss": 0.0034, "step": 5884 }, { "epoch": 12.2625, "grad_norm": 0.06333964318037033, "learning_rate": 1.9364583333333334e-05, "loss": 0.0025, "step": 5886 }, { "epoch": 12.266666666666667, "grad_norm": 0.18415623903274536, "learning_rate": 1.935416666666667e-05, "loss": 0.0034, "step": 5888 }, { "epoch": 12.270833333333334, "grad_norm": 0.35886064171791077, "learning_rate": 1.9343750000000003e-05, "loss": 0.004, "step": 5890 }, { "epoch": 12.275, "grad_norm": 0.19603468477725983, "learning_rate": 1.9333333333333333e-05, "loss": 0.0047, "step": 5892 }, { "epoch": 12.279166666666667, "grad_norm": 0.18984337151050568, "learning_rate": 1.9322916666666668e-05, "loss": 0.0036, "step": 5894 }, { "epoch": 12.283333333333333, "grad_norm": 0.11502573639154434, "learning_rate": 1.93125e-05, "loss": 0.0034, "step": 5896 }, { "epoch": 12.2875, "grad_norm": 0.4500753581523895, "learning_rate": 1.9302083333333336e-05, "loss": 0.0106, "step": 5898 }, { "epoch": 12.291666666666666, "grad_norm": 0.06777490675449371, "learning_rate": 1.9291666666666667e-05, "loss": 0.0037, "step": 5900 }, { "epoch": 12.295833333333333, "grad_norm": 0.29191941022872925, "learning_rate": 1.928125e-05, "loss": 0.0042, "step": 5902 }, { "epoch": 12.3, "grad_norm": 0.2616219222545624, "learning_rate": 1.9270833333333335e-05, "loss": 0.005, "step": 5904 }, { "epoch": 12.304166666666667, "grad_norm": 0.5213989019393921, "learning_rate": 1.9260416666666666e-05, "loss": 0.0101, "step": 5906 }, { "epoch": 12.308333333333334, "grad_norm": 0.1300835758447647, "learning_rate": 1.925e-05, "loss": 0.0039, "step": 5908 }, { "epoch": 12.3125, "grad_norm": 0.14738909900188446, "learning_rate": 1.9239583333333335e-05, "loss": 0.0126, "step": 5910 }, { "epoch": 12.316666666666666, "grad_norm": 0.12184696644544601, "learning_rate": 1.922916666666667e-05, "loss": 0.0041, "step": 5912 }, { "epoch": 12.320833333333333, "grad_norm": 0.10186827927827835, "learning_rate": 1.9218750000000003e-05, "loss": 0.0034, "step": 5914 }, { "epoch": 12.325, "grad_norm": 5.814558029174805, "learning_rate": 1.9208333333333334e-05, "loss": 0.0053, "step": 5916 }, { "epoch": 12.329166666666667, "grad_norm": 0.23609784245491028, "learning_rate": 1.9197916666666668e-05, "loss": 0.0065, "step": 5918 }, { "epoch": 12.333333333333334, "grad_norm": 0.08538217842578888, "learning_rate": 1.91875e-05, "loss": 0.0028, "step": 5920 }, { "epoch": 12.3375, "grad_norm": 3.276970386505127, "learning_rate": 1.9177083333333333e-05, "loss": 0.0199, "step": 5922 }, { "epoch": 12.341666666666667, "grad_norm": 0.05540042370557785, "learning_rate": 1.9166666666666667e-05, "loss": 0.0026, "step": 5924 }, { "epoch": 12.345833333333333, "grad_norm": 0.12964017689228058, "learning_rate": 1.915625e-05, "loss": 0.0035, "step": 5926 }, { "epoch": 12.35, "grad_norm": 0.4797637164592743, "learning_rate": 1.9145833333333336e-05, "loss": 0.0053, "step": 5928 }, { "epoch": 12.354166666666666, "grad_norm": 0.17763759195804596, "learning_rate": 1.9135416666666666e-05, "loss": 0.0046, "step": 5930 }, { "epoch": 12.358333333333333, "grad_norm": 0.08171391487121582, "learning_rate": 1.9125e-05, "loss": 0.0034, "step": 5932 }, { "epoch": 12.3625, "grad_norm": 2.0709128379821777, "learning_rate": 1.911458333333333e-05, "loss": 0.0045, "step": 5934 }, { "epoch": 12.366666666666667, "grad_norm": 0.07818794995546341, "learning_rate": 1.910416666666667e-05, "loss": 0.0057, "step": 5936 }, { "epoch": 12.370833333333334, "grad_norm": 0.3050890266895294, "learning_rate": 1.9093750000000003e-05, "loss": 0.0086, "step": 5938 }, { "epoch": 12.375, "grad_norm": 0.10606548935174942, "learning_rate": 1.9083333333333334e-05, "loss": 0.0028, "step": 5940 }, { "epoch": 12.379166666666666, "grad_norm": 0.11282871663570404, "learning_rate": 1.907291666666667e-05, "loss": 0.0026, "step": 5942 }, { "epoch": 12.383333333333333, "grad_norm": 0.14211325347423553, "learning_rate": 1.90625e-05, "loss": 0.0056, "step": 5944 }, { "epoch": 12.3875, "grad_norm": 0.46308717131614685, "learning_rate": 1.9052083333333333e-05, "loss": 0.0077, "step": 5946 }, { "epoch": 12.391666666666667, "grad_norm": 0.15970638394355774, "learning_rate": 1.9041666666666668e-05, "loss": 0.0035, "step": 5948 }, { "epoch": 12.395833333333334, "grad_norm": 0.35273510217666626, "learning_rate": 1.9031250000000002e-05, "loss": 0.0084, "step": 5950 }, { "epoch": 12.4, "grad_norm": 0.11216560751199722, "learning_rate": 1.9020833333333336e-05, "loss": 0.003, "step": 5952 }, { "epoch": 12.404166666666667, "grad_norm": 0.31250548362731934, "learning_rate": 1.9010416666666667e-05, "loss": 0.0052, "step": 5954 }, { "epoch": 12.408333333333333, "grad_norm": 0.40137746930122375, "learning_rate": 1.9e-05, "loss": 0.0036, "step": 5956 }, { "epoch": 12.4125, "grad_norm": 0.10363531112670898, "learning_rate": 1.8989583333333335e-05, "loss": 0.01, "step": 5958 }, { "epoch": 12.416666666666666, "grad_norm": 0.20889998972415924, "learning_rate": 1.8979166666666666e-05, "loss": 0.0042, "step": 5960 }, { "epoch": 12.420833333333333, "grad_norm": 0.22958438098430634, "learning_rate": 1.896875e-05, "loss": 0.0037, "step": 5962 }, { "epoch": 12.425, "grad_norm": 0.07721810787916183, "learning_rate": 1.8958333333333334e-05, "loss": 0.0031, "step": 5964 }, { "epoch": 12.429166666666667, "grad_norm": 0.12051200121641159, "learning_rate": 1.894791666666667e-05, "loss": 0.0044, "step": 5966 }, { "epoch": 12.433333333333334, "grad_norm": 0.16390161216259003, "learning_rate": 1.89375e-05, "loss": 0.0031, "step": 5968 }, { "epoch": 12.4375, "grad_norm": 0.1828039437532425, "learning_rate": 1.8927083333333334e-05, "loss": 0.0041, "step": 5970 }, { "epoch": 12.441666666666666, "grad_norm": 0.1538514345884323, "learning_rate": 1.8916666666666668e-05, "loss": 0.0033, "step": 5972 }, { "epoch": 12.445833333333333, "grad_norm": 0.22079193592071533, "learning_rate": 1.890625e-05, "loss": 0.0075, "step": 5974 }, { "epoch": 12.45, "grad_norm": 0.22937051951885223, "learning_rate": 1.8895833333333336e-05, "loss": 0.0136, "step": 5976 }, { "epoch": 12.454166666666667, "grad_norm": 0.6354445815086365, "learning_rate": 1.8885416666666667e-05, "loss": 0.009, "step": 5978 }, { "epoch": 12.458333333333334, "grad_norm": 0.29764431715011597, "learning_rate": 1.8875e-05, "loss": 0.0053, "step": 5980 }, { "epoch": 12.4625, "grad_norm": 0.09231902658939362, "learning_rate": 1.8864583333333336e-05, "loss": 0.0036, "step": 5982 }, { "epoch": 12.466666666666667, "grad_norm": 0.1630064994096756, "learning_rate": 1.8854166666666666e-05, "loss": 0.0036, "step": 5984 }, { "epoch": 12.470833333333333, "grad_norm": 0.20857729017734528, "learning_rate": 1.884375e-05, "loss": 0.004, "step": 5986 }, { "epoch": 12.475, "grad_norm": 0.17467021942138672, "learning_rate": 1.8833333333333335e-05, "loss": 0.0039, "step": 5988 }, { "epoch": 12.479166666666666, "grad_norm": 0.1704222857952118, "learning_rate": 1.882291666666667e-05, "loss": 0.0033, "step": 5990 }, { "epoch": 12.483333333333333, "grad_norm": 0.1761569231748581, "learning_rate": 1.88125e-05, "loss": 0.0036, "step": 5992 }, { "epoch": 12.4875, "grad_norm": 0.14899763464927673, "learning_rate": 1.8802083333333334e-05, "loss": 0.0039, "step": 5994 }, { "epoch": 12.491666666666667, "grad_norm": 0.37910330295562744, "learning_rate": 1.8791666666666668e-05, "loss": 0.004, "step": 5996 }, { "epoch": 12.495833333333334, "grad_norm": 0.16126574575901031, "learning_rate": 1.878125e-05, "loss": 0.0037, "step": 5998 }, { "epoch": 12.5, "grad_norm": 0.10544391721487045, "learning_rate": 1.8770833333333333e-05, "loss": 0.0029, "step": 6000 }, { "epoch": 12.5, "eval_cer": 0.058001999111506, "eval_loss": 0.40661105513572693, "eval_runtime": 75.5549, "eval_samples_per_second": 5.215, "eval_steps_per_second": 0.662, "step": 6000 }, { "epoch": 12.504166666666666, "grad_norm": 0.07003624737262726, "learning_rate": 1.8760416666666668e-05, "loss": 0.0029, "step": 6002 }, { "epoch": 12.508333333333333, "grad_norm": 0.15407325327396393, "learning_rate": 1.8750000000000002e-05, "loss": 0.0029, "step": 6004 }, { "epoch": 12.5125, "grad_norm": 0.2814139425754547, "learning_rate": 1.8739583333333336e-05, "loss": 0.0072, "step": 6006 }, { "epoch": 12.516666666666667, "grad_norm": 0.0795307531952858, "learning_rate": 1.8729166666666667e-05, "loss": 0.0045, "step": 6008 }, { "epoch": 12.520833333333334, "grad_norm": 0.12044120579957962, "learning_rate": 1.871875e-05, "loss": 0.0046, "step": 6010 }, { "epoch": 12.525, "grad_norm": 0.5728384852409363, "learning_rate": 1.8708333333333332e-05, "loss": 0.0037, "step": 6012 }, { "epoch": 12.529166666666667, "grad_norm": 0.30938926339149475, "learning_rate": 1.869791666666667e-05, "loss": 0.0032, "step": 6014 }, { "epoch": 12.533333333333333, "grad_norm": 0.0993151143193245, "learning_rate": 1.8687500000000004e-05, "loss": 0.0032, "step": 6016 }, { "epoch": 12.5375, "grad_norm": 0.0789695680141449, "learning_rate": 1.8677083333333334e-05, "loss": 0.0036, "step": 6018 }, { "epoch": 12.541666666666666, "grad_norm": 0.21329320967197418, "learning_rate": 1.866666666666667e-05, "loss": 0.0033, "step": 6020 }, { "epoch": 12.545833333333333, "grad_norm": 0.24306634068489075, "learning_rate": 1.865625e-05, "loss": 0.0026, "step": 6022 }, { "epoch": 12.55, "grad_norm": 0.06536176055669785, "learning_rate": 1.8645833333333334e-05, "loss": 0.005, "step": 6024 }, { "epoch": 12.554166666666667, "grad_norm": 0.059884123504161835, "learning_rate": 1.8635416666666668e-05, "loss": 0.0039, "step": 6026 }, { "epoch": 12.558333333333334, "grad_norm": 0.23491282761096954, "learning_rate": 1.8625000000000002e-05, "loss": 0.0058, "step": 6028 }, { "epoch": 12.5625, "grad_norm": 1.4255889654159546, "learning_rate": 1.8614583333333336e-05, "loss": 0.0091, "step": 6030 }, { "epoch": 12.566666666666666, "grad_norm": 0.08203964680433273, "learning_rate": 1.8604166666666667e-05, "loss": 0.0052, "step": 6032 }, { "epoch": 12.570833333333333, "grad_norm": 0.9114255905151367, "learning_rate": 1.859375e-05, "loss": 0.0039, "step": 6034 }, { "epoch": 12.575, "grad_norm": 0.058477383106946945, "learning_rate": 1.8583333333333332e-05, "loss": 0.0023, "step": 6036 }, { "epoch": 12.579166666666667, "grad_norm": 0.06800162047147751, "learning_rate": 1.8572916666666666e-05, "loss": 0.003, "step": 6038 }, { "epoch": 12.583333333333334, "grad_norm": 0.1604880690574646, "learning_rate": 1.85625e-05, "loss": 0.0036, "step": 6040 }, { "epoch": 12.5875, "grad_norm": 0.1963135302066803, "learning_rate": 1.8552083333333335e-05, "loss": 0.0033, "step": 6042 }, { "epoch": 12.591666666666667, "grad_norm": 0.07418554276227951, "learning_rate": 1.854166666666667e-05, "loss": 0.0044, "step": 6044 }, { "epoch": 12.595833333333333, "grad_norm": 0.07555979490280151, "learning_rate": 1.853125e-05, "loss": 0.0027, "step": 6046 }, { "epoch": 12.6, "grad_norm": 0.21808554232120514, "learning_rate": 1.8520833333333334e-05, "loss": 0.0057, "step": 6048 }, { "epoch": 12.604166666666666, "grad_norm": 0.3645094037055969, "learning_rate": 1.8510416666666665e-05, "loss": 0.0128, "step": 6050 }, { "epoch": 12.608333333333333, "grad_norm": 0.08620110154151917, "learning_rate": 1.85e-05, "loss": 0.0032, "step": 6052 }, { "epoch": 12.6125, "grad_norm": 0.09603077173233032, "learning_rate": 1.8489583333333337e-05, "loss": 0.0032, "step": 6054 }, { "epoch": 12.616666666666667, "grad_norm": 0.10030627250671387, "learning_rate": 1.8479166666666667e-05, "loss": 0.0033, "step": 6056 }, { "epoch": 12.620833333333334, "grad_norm": 0.08681260794401169, "learning_rate": 1.846875e-05, "loss": 0.0041, "step": 6058 }, { "epoch": 12.625, "grad_norm": 0.155517116189003, "learning_rate": 1.8458333333333333e-05, "loss": 0.0032, "step": 6060 }, { "epoch": 12.629166666666666, "grad_norm": 0.13462990522384644, "learning_rate": 1.8447916666666667e-05, "loss": 0.0026, "step": 6062 }, { "epoch": 12.633333333333333, "grad_norm": 1.1838878393173218, "learning_rate": 1.84375e-05, "loss": 0.0068, "step": 6064 }, { "epoch": 12.6375, "grad_norm": 0.12247470766305923, "learning_rate": 1.8427083333333335e-05, "loss": 0.0032, "step": 6066 }, { "epoch": 12.641666666666667, "grad_norm": 0.6452133059501648, "learning_rate": 1.841666666666667e-05, "loss": 0.0045, "step": 6068 }, { "epoch": 12.645833333333334, "grad_norm": 0.09798423945903778, "learning_rate": 1.840625e-05, "loss": 0.0031, "step": 6070 }, { "epoch": 12.65, "grad_norm": 0.16587494313716888, "learning_rate": 1.8395833333333334e-05, "loss": 0.0041, "step": 6072 }, { "epoch": 12.654166666666667, "grad_norm": 0.10559212416410446, "learning_rate": 1.838541666666667e-05, "loss": 0.0033, "step": 6074 }, { "epoch": 12.658333333333333, "grad_norm": 0.1779060661792755, "learning_rate": 1.8375e-05, "loss": 0.0048, "step": 6076 }, { "epoch": 12.6625, "grad_norm": 0.2874112129211426, "learning_rate": 1.8364583333333334e-05, "loss": 0.0055, "step": 6078 }, { "epoch": 12.666666666666666, "grad_norm": 0.07986798137426376, "learning_rate": 1.8354166666666668e-05, "loss": 0.0034, "step": 6080 }, { "epoch": 12.670833333333333, "grad_norm": 0.06800410896539688, "learning_rate": 1.8343750000000002e-05, "loss": 0.0025, "step": 6082 }, { "epoch": 12.675, "grad_norm": 0.29083091020584106, "learning_rate": 1.8333333333333333e-05, "loss": 0.0129, "step": 6084 }, { "epoch": 12.679166666666667, "grad_norm": 0.06131567433476448, "learning_rate": 1.8322916666666667e-05, "loss": 0.0057, "step": 6086 }, { "epoch": 12.683333333333334, "grad_norm": 0.32292258739471436, "learning_rate": 1.83125e-05, "loss": 0.0043, "step": 6088 }, { "epoch": 12.6875, "grad_norm": 0.15253661572933197, "learning_rate": 1.8302083333333332e-05, "loss": 0.0031, "step": 6090 }, { "epoch": 12.691666666666666, "grad_norm": 0.08715595304965973, "learning_rate": 1.829166666666667e-05, "loss": 0.0034, "step": 6092 }, { "epoch": 12.695833333333333, "grad_norm": 0.05960638076066971, "learning_rate": 1.828125e-05, "loss": 0.0028, "step": 6094 }, { "epoch": 12.7, "grad_norm": 0.28367775678634644, "learning_rate": 1.8270833333333335e-05, "loss": 0.0054, "step": 6096 }, { "epoch": 12.704166666666667, "grad_norm": 0.2829267680644989, "learning_rate": 1.826041666666667e-05, "loss": 0.005, "step": 6098 }, { "epoch": 12.708333333333334, "grad_norm": 0.26960697770118713, "learning_rate": 1.825e-05, "loss": 0.0038, "step": 6100 }, { "epoch": 12.7125, "grad_norm": 0.21949166059494019, "learning_rate": 1.8239583333333334e-05, "loss": 0.0038, "step": 6102 }, { "epoch": 12.716666666666667, "grad_norm": 0.06624201685190201, "learning_rate": 1.8229166666666668e-05, "loss": 0.0025, "step": 6104 }, { "epoch": 12.720833333333333, "grad_norm": 0.29696038365364075, "learning_rate": 1.8218750000000002e-05, "loss": 0.0066, "step": 6106 }, { "epoch": 12.725, "grad_norm": 0.48049166798591614, "learning_rate": 1.8208333333333337e-05, "loss": 0.0041, "step": 6108 }, { "epoch": 12.729166666666666, "grad_norm": 0.11901575326919556, "learning_rate": 1.8197916666666667e-05, "loss": 0.0074, "step": 6110 }, { "epoch": 12.733333333333333, "grad_norm": 0.1100866049528122, "learning_rate": 1.81875e-05, "loss": 0.0062, "step": 6112 }, { "epoch": 12.7375, "grad_norm": 0.1102396622300148, "learning_rate": 1.8177083333333332e-05, "loss": 0.0026, "step": 6114 }, { "epoch": 12.741666666666667, "grad_norm": 0.099370576441288, "learning_rate": 1.8166666666666667e-05, "loss": 0.005, "step": 6116 }, { "epoch": 12.745833333333334, "grad_norm": 0.13980542123317719, "learning_rate": 1.815625e-05, "loss": 0.0033, "step": 6118 }, { "epoch": 12.75, "grad_norm": 0.12332060933113098, "learning_rate": 1.8145833333333335e-05, "loss": 0.004, "step": 6120 }, { "epoch": 12.754166666666666, "grad_norm": 0.10048113763332367, "learning_rate": 1.813541666666667e-05, "loss": 0.0044, "step": 6122 }, { "epoch": 12.758333333333333, "grad_norm": 0.08478370308876038, "learning_rate": 1.8125e-05, "loss": 0.0034, "step": 6124 }, { "epoch": 12.7625, "grad_norm": 0.18086303770542145, "learning_rate": 1.8114583333333334e-05, "loss": 0.0031, "step": 6126 }, { "epoch": 12.766666666666667, "grad_norm": 0.9220675826072693, "learning_rate": 1.8104166666666665e-05, "loss": 0.0052, "step": 6128 }, { "epoch": 12.770833333333334, "grad_norm": 0.21774046123027802, "learning_rate": 1.809375e-05, "loss": 0.0079, "step": 6130 }, { "epoch": 12.775, "grad_norm": 2.6301233768463135, "learning_rate": 1.8083333333333337e-05, "loss": 0.0066, "step": 6132 }, { "epoch": 12.779166666666667, "grad_norm": 0.12324796617031097, "learning_rate": 1.8072916666666668e-05, "loss": 0.003, "step": 6134 }, { "epoch": 12.783333333333333, "grad_norm": 0.9999656081199646, "learning_rate": 1.8062500000000002e-05, "loss": 0.0082, "step": 6136 }, { "epoch": 12.7875, "grad_norm": 0.1051531583070755, "learning_rate": 1.8052083333333333e-05, "loss": 0.0074, "step": 6138 }, { "epoch": 12.791666666666666, "grad_norm": 0.10521753132343292, "learning_rate": 1.8041666666666667e-05, "loss": 0.004, "step": 6140 }, { "epoch": 12.795833333333333, "grad_norm": 0.3319118320941925, "learning_rate": 1.803125e-05, "loss": 0.0038, "step": 6142 }, { "epoch": 12.8, "grad_norm": 0.25205421447753906, "learning_rate": 1.8020833333333335e-05, "loss": 0.0038, "step": 6144 }, { "epoch": 12.804166666666667, "grad_norm": 0.14057837426662445, "learning_rate": 1.801041666666667e-05, "loss": 0.0034, "step": 6146 }, { "epoch": 12.808333333333334, "grad_norm": 0.0853852704167366, "learning_rate": 1.8e-05, "loss": 0.004, "step": 6148 }, { "epoch": 12.8125, "grad_norm": 0.3237210214138031, "learning_rate": 1.7989583333333335e-05, "loss": 0.005, "step": 6150 }, { "epoch": 12.816666666666666, "grad_norm": 0.09452507644891739, "learning_rate": 1.7979166666666665e-05, "loss": 0.0033, "step": 6152 }, { "epoch": 12.820833333333333, "grad_norm": 0.12381177395582199, "learning_rate": 1.796875e-05, "loss": 0.0081, "step": 6154 }, { "epoch": 12.825, "grad_norm": 0.18697744607925415, "learning_rate": 1.7958333333333334e-05, "loss": 0.005, "step": 6156 }, { "epoch": 12.829166666666667, "grad_norm": 0.4399700164794922, "learning_rate": 1.7947916666666668e-05, "loss": 0.0044, "step": 6158 }, { "epoch": 12.833333333333334, "grad_norm": 0.4808827042579651, "learning_rate": 1.7937500000000002e-05, "loss": 0.009, "step": 6160 }, { "epoch": 12.8375, "grad_norm": 0.2705475389957428, "learning_rate": 1.7927083333333333e-05, "loss": 0.0033, "step": 6162 }, { "epoch": 12.841666666666667, "grad_norm": 0.10166657716035843, "learning_rate": 1.7916666666666667e-05, "loss": 0.0027, "step": 6164 }, { "epoch": 12.845833333333333, "grad_norm": 0.4135504961013794, "learning_rate": 1.790625e-05, "loss": 0.0033, "step": 6166 }, { "epoch": 12.85, "grad_norm": 0.11073296517133713, "learning_rate": 1.7895833333333332e-05, "loss": 0.0033, "step": 6168 }, { "epoch": 12.854166666666666, "grad_norm": 0.2898044288158417, "learning_rate": 1.788541666666667e-05, "loss": 0.0042, "step": 6170 }, { "epoch": 12.858333333333333, "grad_norm": 0.14552287757396698, "learning_rate": 1.7875e-05, "loss": 0.0048, "step": 6172 }, { "epoch": 12.8625, "grad_norm": 0.09769938886165619, "learning_rate": 1.7864583333333335e-05, "loss": 0.004, "step": 6174 }, { "epoch": 12.866666666666667, "grad_norm": 0.14103436470031738, "learning_rate": 1.7854166666666666e-05, "loss": 0.0029, "step": 6176 }, { "epoch": 12.870833333333334, "grad_norm": 0.09592393785715103, "learning_rate": 1.784375e-05, "loss": 0.0055, "step": 6178 }, { "epoch": 12.875, "grad_norm": 0.07322445511817932, "learning_rate": 1.7833333333333334e-05, "loss": 0.0021, "step": 6180 }, { "epoch": 12.879166666666666, "grad_norm": 0.12351037561893463, "learning_rate": 1.782291666666667e-05, "loss": 0.003, "step": 6182 }, { "epoch": 12.883333333333333, "grad_norm": 0.1900854855775833, "learning_rate": 1.7812500000000003e-05, "loss": 0.0047, "step": 6184 }, { "epoch": 12.8875, "grad_norm": 0.20786139369010925, "learning_rate": 1.7802083333333333e-05, "loss": 0.0032, "step": 6186 }, { "epoch": 12.891666666666667, "grad_norm": 0.1043863594532013, "learning_rate": 1.7791666666666668e-05, "loss": 0.0032, "step": 6188 }, { "epoch": 12.895833333333334, "grad_norm": 0.09750320762395859, "learning_rate": 1.7781250000000002e-05, "loss": 0.0028, "step": 6190 }, { "epoch": 12.9, "grad_norm": 0.08501474559307098, "learning_rate": 1.7770833333333333e-05, "loss": 0.0045, "step": 6192 }, { "epoch": 12.904166666666667, "grad_norm": 0.1338997781276703, "learning_rate": 1.7760416666666667e-05, "loss": 0.0042, "step": 6194 }, { "epoch": 12.908333333333333, "grad_norm": 0.1295781284570694, "learning_rate": 1.775e-05, "loss": 0.0032, "step": 6196 }, { "epoch": 12.9125, "grad_norm": 0.08819591253995895, "learning_rate": 1.7739583333333335e-05, "loss": 0.0033, "step": 6198 }, { "epoch": 12.916666666666666, "grad_norm": 0.11570335924625397, "learning_rate": 1.7729166666666666e-05, "loss": 0.004, "step": 6200 }, { "epoch": 12.916666666666666, "eval_cer": 0.056308307418924924, "eval_loss": 0.4072835445404053, "eval_runtime": 75.2764, "eval_samples_per_second": 5.234, "eval_steps_per_second": 0.664, "step": 6200 }, { "epoch": 12.920833333333333, "grad_norm": 0.17140500247478485, "learning_rate": 1.771875e-05, "loss": 0.0069, "step": 6202 }, { "epoch": 12.925, "grad_norm": 0.12275512516498566, "learning_rate": 1.7708333333333335e-05, "loss": 0.0026, "step": 6204 }, { "epoch": 12.929166666666667, "grad_norm": 0.078315868973732, "learning_rate": 1.7697916666666665e-05, "loss": 0.0028, "step": 6206 }, { "epoch": 12.933333333333334, "grad_norm": 0.1251840889453888, "learning_rate": 1.76875e-05, "loss": 0.0031, "step": 6208 }, { "epoch": 12.9375, "grad_norm": 0.2220505326986313, "learning_rate": 1.7677083333333334e-05, "loss": 0.004, "step": 6210 }, { "epoch": 12.941666666666666, "grad_norm": 0.21876434981822968, "learning_rate": 1.7666666666666668e-05, "loss": 0.0042, "step": 6212 }, { "epoch": 12.945833333333333, "grad_norm": 0.09349135309457779, "learning_rate": 1.7656250000000002e-05, "loss": 0.0026, "step": 6214 }, { "epoch": 12.95, "grad_norm": 2.1639578342437744, "learning_rate": 1.7645833333333333e-05, "loss": 0.007, "step": 6216 }, { "epoch": 12.954166666666667, "grad_norm": 0.0842084139585495, "learning_rate": 1.7635416666666667e-05, "loss": 0.0031, "step": 6218 }, { "epoch": 12.958333333333334, "grad_norm": 0.051358845084905624, "learning_rate": 1.7625e-05, "loss": 0.0032, "step": 6220 }, { "epoch": 12.9625, "grad_norm": 0.26266711950302124, "learning_rate": 1.7614583333333336e-05, "loss": 0.0067, "step": 6222 }, { "epoch": 12.966666666666667, "grad_norm": 0.08133542537689209, "learning_rate": 1.760416666666667e-05, "loss": 0.0033, "step": 6224 }, { "epoch": 12.970833333333333, "grad_norm": 0.07019929587841034, "learning_rate": 1.759375e-05, "loss": 0.0034, "step": 6226 }, { "epoch": 12.975, "grad_norm": 0.11262372136116028, "learning_rate": 1.7583333333333335e-05, "loss": 0.0033, "step": 6228 }, { "epoch": 12.979166666666666, "grad_norm": 0.06473618000745773, "learning_rate": 1.7572916666666666e-05, "loss": 0.0028, "step": 6230 }, { "epoch": 12.983333333333333, "grad_norm": 0.37559714913368225, "learning_rate": 1.75625e-05, "loss": 0.0115, "step": 6232 }, { "epoch": 12.9875, "grad_norm": 0.573939323425293, "learning_rate": 1.7552083333333334e-05, "loss": 0.0051, "step": 6234 }, { "epoch": 12.991666666666667, "grad_norm": 0.47473272681236267, "learning_rate": 1.754166666666667e-05, "loss": 0.008, "step": 6236 }, { "epoch": 12.995833333333334, "grad_norm": 0.13512428104877472, "learning_rate": 1.7531250000000003e-05, "loss": 0.0029, "step": 6238 }, { "epoch": 13.0, "grad_norm": 0.2308589518070221, "learning_rate": 1.7520833333333333e-05, "loss": 0.0035, "step": 6240 }, { "epoch": 13.004166666666666, "grad_norm": 0.0848015770316124, "learning_rate": 1.7510416666666668e-05, "loss": 0.0042, "step": 6242 }, { "epoch": 13.008333333333333, "grad_norm": 0.03562428429722786, "learning_rate": 1.75e-05, "loss": 0.0022, "step": 6244 }, { "epoch": 13.0125, "grad_norm": 0.07065915316343307, "learning_rate": 1.7489583333333333e-05, "loss": 0.0027, "step": 6246 }, { "epoch": 13.016666666666667, "grad_norm": 0.2376709282398224, "learning_rate": 1.747916666666667e-05, "loss": 0.0057, "step": 6248 }, { "epoch": 13.020833333333334, "grad_norm": 0.07870650291442871, "learning_rate": 1.746875e-05, "loss": 0.002, "step": 6250 }, { "epoch": 13.025, "grad_norm": 0.2759530246257782, "learning_rate": 1.7458333333333335e-05, "loss": 0.003, "step": 6252 }, { "epoch": 13.029166666666667, "grad_norm": 0.06724708527326584, "learning_rate": 1.7447916666666666e-05, "loss": 0.0024, "step": 6254 }, { "epoch": 13.033333333333333, "grad_norm": 0.0648641586303711, "learning_rate": 1.74375e-05, "loss": 0.0031, "step": 6256 }, { "epoch": 13.0375, "grad_norm": 0.48740580677986145, "learning_rate": 1.7427083333333335e-05, "loss": 0.0106, "step": 6258 }, { "epoch": 13.041666666666666, "grad_norm": 0.037631623446941376, "learning_rate": 1.741666666666667e-05, "loss": 0.002, "step": 6260 }, { "epoch": 13.045833333333333, "grad_norm": 0.07298068702220917, "learning_rate": 1.7406250000000003e-05, "loss": 0.0024, "step": 6262 }, { "epoch": 13.05, "grad_norm": 0.049659375101327896, "learning_rate": 1.7395833333333334e-05, "loss": 0.002, "step": 6264 }, { "epoch": 13.054166666666667, "grad_norm": 0.05022004246711731, "learning_rate": 1.7385416666666668e-05, "loss": 0.0023, "step": 6266 }, { "epoch": 13.058333333333334, "grad_norm": 0.20897036790847778, "learning_rate": 1.7375e-05, "loss": 0.0067, "step": 6268 }, { "epoch": 13.0625, "grad_norm": 0.09152977913618088, "learning_rate": 1.7364583333333333e-05, "loss": 0.0027, "step": 6270 }, { "epoch": 13.066666666666666, "grad_norm": 0.09065941721200943, "learning_rate": 1.7354166666666667e-05, "loss": 0.0025, "step": 6272 }, { "epoch": 13.070833333333333, "grad_norm": 0.16994191706180573, "learning_rate": 1.734375e-05, "loss": 0.007, "step": 6274 }, { "epoch": 13.075, "grad_norm": 0.04707705229520798, "learning_rate": 1.7333333333333336e-05, "loss": 0.0035, "step": 6276 }, { "epoch": 13.079166666666667, "grad_norm": 0.028542138636112213, "learning_rate": 1.7322916666666666e-05, "loss": 0.0019, "step": 6278 }, { "epoch": 13.083333333333334, "grad_norm": 0.21694958209991455, "learning_rate": 1.73125e-05, "loss": 0.0024, "step": 6280 }, { "epoch": 13.0875, "grad_norm": 0.058447759598493576, "learning_rate": 1.7302083333333335e-05, "loss": 0.0022, "step": 6282 }, { "epoch": 13.091666666666667, "grad_norm": 0.29717880487442017, "learning_rate": 1.7291666666666666e-05, "loss": 0.0078, "step": 6284 }, { "epoch": 13.095833333333333, "grad_norm": 0.051117151975631714, "learning_rate": 1.728125e-05, "loss": 0.0021, "step": 6286 }, { "epoch": 13.1, "grad_norm": 0.2982823848724365, "learning_rate": 1.7270833333333334e-05, "loss": 0.0032, "step": 6288 }, { "epoch": 13.104166666666666, "grad_norm": 0.1450362354516983, "learning_rate": 1.726041666666667e-05, "loss": 0.0025, "step": 6290 }, { "epoch": 13.108333333333333, "grad_norm": 0.07590223848819733, "learning_rate": 1.725e-05, "loss": 0.0024, "step": 6292 }, { "epoch": 13.1125, "grad_norm": 0.04498353227972984, "learning_rate": 1.7239583333333333e-05, "loss": 0.0106, "step": 6294 }, { "epoch": 13.116666666666667, "grad_norm": 0.05637950450181961, "learning_rate": 1.7229166666666668e-05, "loss": 0.0022, "step": 6296 }, { "epoch": 13.120833333333334, "grad_norm": 0.05588340759277344, "learning_rate": 1.7218750000000002e-05, "loss": 0.0052, "step": 6298 }, { "epoch": 13.125, "grad_norm": 0.5091503858566284, "learning_rate": 1.7208333333333336e-05, "loss": 0.0048, "step": 6300 }, { "epoch": 13.129166666666666, "grad_norm": 0.08958738297224045, "learning_rate": 1.7197916666666667e-05, "loss": 0.0031, "step": 6302 }, { "epoch": 13.133333333333333, "grad_norm": 0.10429638624191284, "learning_rate": 1.71875e-05, "loss": 0.0043, "step": 6304 }, { "epoch": 13.1375, "grad_norm": 0.12313724309206009, "learning_rate": 1.7177083333333335e-05, "loss": 0.0023, "step": 6306 }, { "epoch": 13.141666666666667, "grad_norm": 1.0151687860488892, "learning_rate": 1.7166666666666666e-05, "loss": 0.0056, "step": 6308 }, { "epoch": 13.145833333333334, "grad_norm": 0.20746029913425446, "learning_rate": 1.715625e-05, "loss": 0.0031, "step": 6310 }, { "epoch": 13.15, "grad_norm": 0.21498407423496246, "learning_rate": 1.7145833333333334e-05, "loss": 0.0034, "step": 6312 }, { "epoch": 13.154166666666667, "grad_norm": 0.061666008085012436, "learning_rate": 1.713541666666667e-05, "loss": 0.002, "step": 6314 }, { "epoch": 13.158333333333333, "grad_norm": 0.11666218936443329, "learning_rate": 1.7125000000000003e-05, "loss": 0.0025, "step": 6316 }, { "epoch": 13.1625, "grad_norm": 0.13459648191928864, "learning_rate": 1.7114583333333334e-05, "loss": 0.0027, "step": 6318 }, { "epoch": 13.166666666666666, "grad_norm": 0.2527133524417877, "learning_rate": 1.7104166666666668e-05, "loss": 0.0071, "step": 6320 }, { "epoch": 13.170833333333333, "grad_norm": 3.281541585922241, "learning_rate": 1.709375e-05, "loss": 0.0079, "step": 6322 }, { "epoch": 13.175, "grad_norm": 0.04454723000526428, "learning_rate": 1.7083333333333333e-05, "loss": 0.0029, "step": 6324 }, { "epoch": 13.179166666666667, "grad_norm": 0.0527915395796299, "learning_rate": 1.7072916666666667e-05, "loss": 0.0028, "step": 6326 }, { "epoch": 13.183333333333334, "grad_norm": 0.09302666038274765, "learning_rate": 1.70625e-05, "loss": 0.0025, "step": 6328 }, { "epoch": 13.1875, "grad_norm": 0.07682950049638748, "learning_rate": 1.7052083333333336e-05, "loss": 0.0025, "step": 6330 }, { "epoch": 13.191666666666666, "grad_norm": 0.6871304512023926, "learning_rate": 1.7041666666666666e-05, "loss": 0.005, "step": 6332 }, { "epoch": 13.195833333333333, "grad_norm": 0.05567473918199539, "learning_rate": 1.703125e-05, "loss": 0.0028, "step": 6334 }, { "epoch": 13.2, "grad_norm": 0.060123421251773834, "learning_rate": 1.702083333333333e-05, "loss": 0.002, "step": 6336 }, { "epoch": 13.204166666666667, "grad_norm": 0.23109251260757446, "learning_rate": 1.701041666666667e-05, "loss": 0.0033, "step": 6338 }, { "epoch": 13.208333333333334, "grad_norm": 0.05322485789656639, "learning_rate": 1.7000000000000003e-05, "loss": 0.0034, "step": 6340 }, { "epoch": 13.2125, "grad_norm": 0.2606249451637268, "learning_rate": 1.6989583333333334e-05, "loss": 0.0032, "step": 6342 }, { "epoch": 13.216666666666667, "grad_norm": 0.06912656873464584, "learning_rate": 1.6979166666666668e-05, "loss": 0.0021, "step": 6344 }, { "epoch": 13.220833333333333, "grad_norm": 0.07629649341106415, "learning_rate": 1.696875e-05, "loss": 0.0026, "step": 6346 }, { "epoch": 13.225, "grad_norm": 0.4477621912956238, "learning_rate": 1.6958333333333333e-05, "loss": 0.0105, "step": 6348 }, { "epoch": 13.229166666666666, "grad_norm": 0.5969536304473877, "learning_rate": 1.6947916666666668e-05, "loss": 0.0028, "step": 6350 }, { "epoch": 13.233333333333333, "grad_norm": 0.6417747139930725, "learning_rate": 1.6937500000000002e-05, "loss": 0.0037, "step": 6352 }, { "epoch": 13.2375, "grad_norm": 0.2265944927930832, "learning_rate": 1.6927083333333336e-05, "loss": 0.0035, "step": 6354 }, { "epoch": 13.241666666666667, "grad_norm": 0.29463696479797363, "learning_rate": 1.6916666666666667e-05, "loss": 0.0158, "step": 6356 }, { "epoch": 13.245833333333334, "grad_norm": 0.11301270872354507, "learning_rate": 1.690625e-05, "loss": 0.0029, "step": 6358 }, { "epoch": 13.25, "grad_norm": 0.22106249630451202, "learning_rate": 1.6895833333333332e-05, "loss": 0.004, "step": 6360 }, { "epoch": 13.254166666666666, "grad_norm": 0.09679174423217773, "learning_rate": 1.6885416666666666e-05, "loss": 0.0026, "step": 6362 }, { "epoch": 13.258333333333333, "grad_norm": 0.057098694145679474, "learning_rate": 1.6875000000000004e-05, "loss": 0.0021, "step": 6364 }, { "epoch": 13.2625, "grad_norm": 0.1208602711558342, "learning_rate": 1.6864583333333334e-05, "loss": 0.0034, "step": 6366 }, { "epoch": 13.266666666666667, "grad_norm": 0.3989064693450928, "learning_rate": 1.685416666666667e-05, "loss": 0.0023, "step": 6368 }, { "epoch": 13.270833333333334, "grad_norm": 0.06369601935148239, "learning_rate": 1.684375e-05, "loss": 0.0024, "step": 6370 }, { "epoch": 13.275, "grad_norm": 0.14014536142349243, "learning_rate": 1.6833333333333334e-05, "loss": 0.0052, "step": 6372 }, { "epoch": 13.279166666666667, "grad_norm": 0.06940660625696182, "learning_rate": 1.6822916666666668e-05, "loss": 0.0025, "step": 6374 }, { "epoch": 13.283333333333333, "grad_norm": 0.16320501267910004, "learning_rate": 1.6812500000000002e-05, "loss": 0.0028, "step": 6376 }, { "epoch": 13.2875, "grad_norm": 0.08798769116401672, "learning_rate": 1.6802083333333336e-05, "loss": 0.0024, "step": 6378 }, { "epoch": 13.291666666666666, "grad_norm": 0.14229200780391693, "learning_rate": 1.6791666666666667e-05, "loss": 0.0022, "step": 6380 }, { "epoch": 13.295833333333333, "grad_norm": 0.08250267803668976, "learning_rate": 1.678125e-05, "loss": 0.0054, "step": 6382 }, { "epoch": 13.3, "grad_norm": 0.19295653700828552, "learning_rate": 1.6770833333333332e-05, "loss": 0.0037, "step": 6384 }, { "epoch": 13.304166666666667, "grad_norm": 0.13874104619026184, "learning_rate": 1.6760416666666666e-05, "loss": 0.0024, "step": 6386 }, { "epoch": 13.308333333333334, "grad_norm": 0.05990783870220184, "learning_rate": 1.675e-05, "loss": 0.0029, "step": 6388 }, { "epoch": 13.3125, "grad_norm": 0.08141876012086868, "learning_rate": 1.6739583333333335e-05, "loss": 0.0024, "step": 6390 }, { "epoch": 13.316666666666666, "grad_norm": 0.06498119980096817, "learning_rate": 1.672916666666667e-05, "loss": 0.0032, "step": 6392 }, { "epoch": 13.320833333333333, "grad_norm": 0.08833100646734238, "learning_rate": 1.671875e-05, "loss": 0.0023, "step": 6394 }, { "epoch": 13.325, "grad_norm": 0.5611116290092468, "learning_rate": 1.6708333333333334e-05, "loss": 0.0073, "step": 6396 }, { "epoch": 13.329166666666667, "grad_norm": 0.16462194919586182, "learning_rate": 1.6697916666666668e-05, "loss": 0.0033, "step": 6398 }, { "epoch": 13.333333333333334, "grad_norm": 0.10272190719842911, "learning_rate": 1.66875e-05, "loss": 0.0022, "step": 6400 }, { "epoch": 13.333333333333334, "eval_cer": 0.05830741892492226, "eval_loss": 0.41451942920684814, "eval_runtime": 74.7129, "eval_samples_per_second": 5.274, "eval_steps_per_second": 0.669, "step": 6400 }, { "epoch": 13.3375, "grad_norm": 0.04988222196698189, "learning_rate": 1.6677083333333333e-05, "loss": 0.0023, "step": 6402 }, { "epoch": 13.341666666666667, "grad_norm": 0.11419521272182465, "learning_rate": 1.6666666666666667e-05, "loss": 0.0029, "step": 6404 }, { "epoch": 13.345833333333333, "grad_norm": 0.17661044001579285, "learning_rate": 1.665625e-05, "loss": 0.0026, "step": 6406 }, { "epoch": 13.35, "grad_norm": 0.08813263475894928, "learning_rate": 1.6645833333333336e-05, "loss": 0.0025, "step": 6408 }, { "epoch": 13.354166666666666, "grad_norm": 0.04428698867559433, "learning_rate": 1.6635416666666667e-05, "loss": 0.0025, "step": 6410 }, { "epoch": 13.358333333333333, "grad_norm": 0.3351616859436035, "learning_rate": 1.6625e-05, "loss": 0.0052, "step": 6412 }, { "epoch": 13.3625, "grad_norm": 0.6001994013786316, "learning_rate": 1.6614583333333332e-05, "loss": 0.0064, "step": 6414 }, { "epoch": 13.366666666666667, "grad_norm": 0.09188856184482574, "learning_rate": 1.660416666666667e-05, "loss": 0.0098, "step": 6416 }, { "epoch": 13.370833333333334, "grad_norm": 0.147614985704422, "learning_rate": 1.659375e-05, "loss": 0.0029, "step": 6418 }, { "epoch": 13.375, "grad_norm": 0.08335772901773453, "learning_rate": 1.6583333333333334e-05, "loss": 0.0019, "step": 6420 }, { "epoch": 13.379166666666666, "grad_norm": 0.1426796168088913, "learning_rate": 1.657291666666667e-05, "loss": 0.0025, "step": 6422 }, { "epoch": 13.383333333333333, "grad_norm": 0.07756586372852325, "learning_rate": 1.65625e-05, "loss": 0.0021, "step": 6424 }, { "epoch": 13.3875, "grad_norm": 0.04516509920358658, "learning_rate": 1.6552083333333334e-05, "loss": 0.0032, "step": 6426 }, { "epoch": 13.391666666666667, "grad_norm": 0.3209531903266907, "learning_rate": 1.6541666666666668e-05, "loss": 0.006, "step": 6428 }, { "epoch": 13.395833333333334, "grad_norm": 0.050619937479496, "learning_rate": 1.6531250000000002e-05, "loss": 0.002, "step": 6430 }, { "epoch": 13.4, "grad_norm": 0.09837516397237778, "learning_rate": 1.6520833333333336e-05, "loss": 0.0023, "step": 6432 }, { "epoch": 13.404166666666667, "grad_norm": 0.10227131098508835, "learning_rate": 1.6510416666666667e-05, "loss": 0.0044, "step": 6434 }, { "epoch": 13.408333333333333, "grad_norm": 0.04197448119521141, "learning_rate": 1.65e-05, "loss": 0.0023, "step": 6436 }, { "epoch": 13.4125, "grad_norm": 0.5361396074295044, "learning_rate": 1.6489583333333332e-05, "loss": 0.003, "step": 6438 }, { "epoch": 13.416666666666666, "grad_norm": 0.05744115263223648, "learning_rate": 1.6479166666666666e-05, "loss": 0.0018, "step": 6440 }, { "epoch": 13.420833333333333, "grad_norm": 0.10607446730136871, "learning_rate": 1.646875e-05, "loss": 0.0025, "step": 6442 }, { "epoch": 13.425, "grad_norm": 0.060387931764125824, "learning_rate": 1.6458333333333335e-05, "loss": 0.002, "step": 6444 }, { "epoch": 13.429166666666667, "grad_norm": 0.036336980760097504, "learning_rate": 1.644791666666667e-05, "loss": 0.0019, "step": 6446 }, { "epoch": 13.433333333333334, "grad_norm": 0.06848835200071335, "learning_rate": 1.64375e-05, "loss": 0.002, "step": 6448 }, { "epoch": 13.4375, "grad_norm": 0.5597620606422424, "learning_rate": 1.6427083333333334e-05, "loss": 0.0039, "step": 6450 }, { "epoch": 13.441666666666666, "grad_norm": 0.16536912322044373, "learning_rate": 1.6416666666666665e-05, "loss": 0.0024, "step": 6452 }, { "epoch": 13.445833333333333, "grad_norm": 0.1401306837797165, "learning_rate": 1.6406250000000002e-05, "loss": 0.0028, "step": 6454 }, { "epoch": 13.45, "grad_norm": 0.09521885216236115, "learning_rate": 1.6395833333333337e-05, "loss": 0.0025, "step": 6456 }, { "epoch": 13.454166666666667, "grad_norm": 0.10676634311676025, "learning_rate": 1.6385416666666667e-05, "loss": 0.0022, "step": 6458 }, { "epoch": 13.458333333333334, "grad_norm": 0.05474865436553955, "learning_rate": 1.6375e-05, "loss": 0.0025, "step": 6460 }, { "epoch": 13.4625, "grad_norm": 0.05013493448495865, "learning_rate": 1.6364583333333332e-05, "loss": 0.0018, "step": 6462 }, { "epoch": 13.466666666666667, "grad_norm": 0.12773020565509796, "learning_rate": 1.6354166666666667e-05, "loss": 0.0028, "step": 6464 }, { "epoch": 13.470833333333333, "grad_norm": 0.14741913974285126, "learning_rate": 1.634375e-05, "loss": 0.0031, "step": 6466 }, { "epoch": 13.475, "grad_norm": 0.2770758271217346, "learning_rate": 1.6333333333333335e-05, "loss": 0.0025, "step": 6468 }, { "epoch": 13.479166666666666, "grad_norm": 0.06496131420135498, "learning_rate": 1.632291666666667e-05, "loss": 0.0017, "step": 6470 }, { "epoch": 13.483333333333333, "grad_norm": 0.0668620616197586, "learning_rate": 1.63125e-05, "loss": 0.0023, "step": 6472 }, { "epoch": 13.4875, "grad_norm": 0.07766970992088318, "learning_rate": 1.6302083333333334e-05, "loss": 0.0024, "step": 6474 }, { "epoch": 13.491666666666667, "grad_norm": 0.19480179250240326, "learning_rate": 1.6291666666666665e-05, "loss": 0.0026, "step": 6476 }, { "epoch": 13.495833333333334, "grad_norm": 0.0485403873026371, "learning_rate": 1.628125e-05, "loss": 0.0021, "step": 6478 }, { "epoch": 13.5, "grad_norm": 0.08578673750162125, "learning_rate": 1.6270833333333334e-05, "loss": 0.0023, "step": 6480 }, { "epoch": 13.504166666666666, "grad_norm": 0.08711384236812592, "learning_rate": 1.6260416666666668e-05, "loss": 0.0051, "step": 6482 }, { "epoch": 13.508333333333333, "grad_norm": 0.2495734989643097, "learning_rate": 1.6250000000000002e-05, "loss": 0.0038, "step": 6484 }, { "epoch": 13.5125, "grad_norm": 0.09940969198942184, "learning_rate": 1.6239583333333333e-05, "loss": 0.0027, "step": 6486 }, { "epoch": 13.516666666666667, "grad_norm": 0.20602618157863617, "learning_rate": 1.6229166666666667e-05, "loss": 0.008, "step": 6488 }, { "epoch": 13.520833333333334, "grad_norm": 0.12978626787662506, "learning_rate": 1.621875e-05, "loss": 0.0017, "step": 6490 }, { "epoch": 13.525, "grad_norm": 0.12740416824817657, "learning_rate": 1.6208333333333332e-05, "loss": 0.0027, "step": 6492 }, { "epoch": 13.529166666666667, "grad_norm": 0.21826502680778503, "learning_rate": 1.619791666666667e-05, "loss": 0.0062, "step": 6494 }, { "epoch": 13.533333333333333, "grad_norm": 0.16093166172504425, "learning_rate": 1.61875e-05, "loss": 0.002, "step": 6496 }, { "epoch": 13.5375, "grad_norm": 0.07412050664424896, "learning_rate": 1.6177083333333335e-05, "loss": 0.0024, "step": 6498 }, { "epoch": 13.541666666666666, "grad_norm": 0.1684143841266632, "learning_rate": 1.6166666666666665e-05, "loss": 0.0035, "step": 6500 }, { "epoch": 13.545833333333333, "grad_norm": 0.1683197021484375, "learning_rate": 1.615625e-05, "loss": 0.0031, "step": 6502 }, { "epoch": 13.55, "grad_norm": 0.07519049197435379, "learning_rate": 1.6145833333333334e-05, "loss": 0.0021, "step": 6504 }, { "epoch": 13.554166666666667, "grad_norm": 0.09994664043188095, "learning_rate": 1.6135416666666668e-05, "loss": 0.0018, "step": 6506 }, { "epoch": 13.558333333333334, "grad_norm": 0.07023806869983673, "learning_rate": 1.6125000000000002e-05, "loss": 0.0027, "step": 6508 }, { "epoch": 13.5625, "grad_norm": 0.04434641823172569, "learning_rate": 1.6114583333333333e-05, "loss": 0.0017, "step": 6510 }, { "epoch": 13.566666666666666, "grad_norm": 0.05924547091126442, "learning_rate": 1.6104166666666667e-05, "loss": 0.0017, "step": 6512 }, { "epoch": 13.570833333333333, "grad_norm": 0.24255569279193878, "learning_rate": 1.609375e-05, "loss": 0.0033, "step": 6514 }, { "epoch": 13.575, "grad_norm": 0.1360824704170227, "learning_rate": 1.6083333333333332e-05, "loss": 0.0022, "step": 6516 }, { "epoch": 13.579166666666667, "grad_norm": 0.14458172023296356, "learning_rate": 1.6072916666666667e-05, "loss": 0.0031, "step": 6518 }, { "epoch": 13.583333333333334, "grad_norm": 0.0715312510728836, "learning_rate": 1.60625e-05, "loss": 0.0026, "step": 6520 }, { "epoch": 13.5875, "grad_norm": 0.2636762261390686, "learning_rate": 1.6052083333333335e-05, "loss": 0.0031, "step": 6522 }, { "epoch": 13.591666666666667, "grad_norm": 0.0804002657532692, "learning_rate": 1.604166666666667e-05, "loss": 0.0022, "step": 6524 }, { "epoch": 13.595833333333333, "grad_norm": 0.15152859687805176, "learning_rate": 1.603125e-05, "loss": 0.0084, "step": 6526 }, { "epoch": 13.6, "grad_norm": 0.15780454874038696, "learning_rate": 1.6020833333333334e-05, "loss": 0.0035, "step": 6528 }, { "epoch": 13.604166666666666, "grad_norm": 0.19803659617900848, "learning_rate": 1.6010416666666665e-05, "loss": 0.0052, "step": 6530 }, { "epoch": 13.608333333333333, "grad_norm": 0.21142706274986267, "learning_rate": 1.6000000000000003e-05, "loss": 0.0029, "step": 6532 }, { "epoch": 13.6125, "grad_norm": 0.051383182406425476, "learning_rate": 1.5989583333333333e-05, "loss": 0.0022, "step": 6534 }, { "epoch": 13.616666666666667, "grad_norm": 0.043692126870155334, "learning_rate": 1.5979166666666668e-05, "loss": 0.0024, "step": 6536 }, { "epoch": 13.620833333333334, "grad_norm": 0.1039465144276619, "learning_rate": 1.5968750000000002e-05, "loss": 0.0027, "step": 6538 }, { "epoch": 13.625, "grad_norm": 0.10016585886478424, "learning_rate": 1.5958333333333333e-05, "loss": 0.0021, "step": 6540 }, { "epoch": 13.629166666666666, "grad_norm": 0.11184591799974442, "learning_rate": 1.5947916666666667e-05, "loss": 0.0023, "step": 6542 }, { "epoch": 13.633333333333333, "grad_norm": 0.05191025882959366, "learning_rate": 1.59375e-05, "loss": 0.0045, "step": 6544 }, { "epoch": 13.6375, "grad_norm": 0.13095977902412415, "learning_rate": 1.5927083333333335e-05, "loss": 0.003, "step": 6546 }, { "epoch": 13.641666666666667, "grad_norm": 0.07775112986564636, "learning_rate": 1.591666666666667e-05, "loss": 0.0038, "step": 6548 }, { "epoch": 13.645833333333334, "grad_norm": 0.2849348187446594, "learning_rate": 1.590625e-05, "loss": 0.0023, "step": 6550 }, { "epoch": 13.65, "grad_norm": 0.06629511713981628, "learning_rate": 1.5895833333333335e-05, "loss": 0.0022, "step": 6552 }, { "epoch": 13.654166666666667, "grad_norm": 0.14140784740447998, "learning_rate": 1.5885416666666665e-05, "loss": 0.0023, "step": 6554 }, { "epoch": 13.658333333333333, "grad_norm": 0.2714425027370453, "learning_rate": 1.5875e-05, "loss": 0.0045, "step": 6556 }, { "epoch": 13.6625, "grad_norm": 0.2961695194244385, "learning_rate": 1.5864583333333334e-05, "loss": 0.0031, "step": 6558 }, { "epoch": 13.666666666666666, "grad_norm": 0.3609687387943268, "learning_rate": 1.5854166666666668e-05, "loss": 0.0124, "step": 6560 }, { "epoch": 13.670833333333333, "grad_norm": 0.10034968703985214, "learning_rate": 1.5843750000000002e-05, "loss": 0.0023, "step": 6562 }, { "epoch": 13.675, "grad_norm": 0.072947196662426, "learning_rate": 1.5833333333333333e-05, "loss": 0.0028, "step": 6564 }, { "epoch": 13.679166666666667, "grad_norm": 0.09259199351072311, "learning_rate": 1.5822916666666667e-05, "loss": 0.0036, "step": 6566 }, { "epoch": 13.683333333333334, "grad_norm": 0.047906599938869476, "learning_rate": 1.5812499999999998e-05, "loss": 0.0045, "step": 6568 }, { "epoch": 13.6875, "grad_norm": 0.09217698872089386, "learning_rate": 1.5802083333333336e-05, "loss": 0.0023, "step": 6570 }, { "epoch": 13.691666666666666, "grad_norm": 0.08779177069664001, "learning_rate": 1.579166666666667e-05, "loss": 0.0027, "step": 6572 }, { "epoch": 13.695833333333333, "grad_norm": 0.08510252833366394, "learning_rate": 1.578125e-05, "loss": 0.0031, "step": 6574 }, { "epoch": 13.7, "grad_norm": 0.16148851811885834, "learning_rate": 1.5770833333333335e-05, "loss": 0.003, "step": 6576 }, { "epoch": 13.704166666666667, "grad_norm": 0.16418138146400452, "learning_rate": 1.5760416666666666e-05, "loss": 0.002, "step": 6578 }, { "epoch": 13.708333333333334, "grad_norm": 0.10763213783502579, "learning_rate": 1.575e-05, "loss": 0.0027, "step": 6580 }, { "epoch": 13.7125, "grad_norm": 0.12884636223316193, "learning_rate": 1.5739583333333334e-05, "loss": 0.0045, "step": 6582 }, { "epoch": 13.716666666666667, "grad_norm": 0.2788851857185364, "learning_rate": 1.572916666666667e-05, "loss": 0.0058, "step": 6584 }, { "epoch": 13.720833333333333, "grad_norm": 1.0432802438735962, "learning_rate": 1.5718750000000003e-05, "loss": 0.0032, "step": 6586 }, { "epoch": 13.725, "grad_norm": 0.1249435544013977, "learning_rate": 1.5708333333333333e-05, "loss": 0.0033, "step": 6588 }, { "epoch": 13.729166666666666, "grad_norm": 0.39373183250427246, "learning_rate": 1.5697916666666668e-05, "loss": 0.0078, "step": 6590 }, { "epoch": 13.733333333333333, "grad_norm": 0.06215585768222809, "learning_rate": 1.56875e-05, "loss": 0.0021, "step": 6592 }, { "epoch": 13.7375, "grad_norm": 0.1623803824186325, "learning_rate": 1.5677083333333333e-05, "loss": 0.0027, "step": 6594 }, { "epoch": 13.741666666666667, "grad_norm": 0.054530736058950424, "learning_rate": 1.5666666666666667e-05, "loss": 0.003, "step": 6596 }, { "epoch": 13.745833333333334, "grad_norm": 0.16028320789337158, "learning_rate": 1.565625e-05, "loss": 0.0025, "step": 6598 }, { "epoch": 13.75, "grad_norm": 0.3133435547351837, "learning_rate": 1.5645833333333335e-05, "loss": 0.0054, "step": 6600 }, { "epoch": 13.75, "eval_cer": 0.05653043091959129, "eval_loss": 0.4131419360637665, "eval_runtime": 74.8533, "eval_samples_per_second": 5.264, "eval_steps_per_second": 0.668, "step": 6600 }, { "epoch": 13.754166666666666, "grad_norm": 0.10264972597360611, "learning_rate": 1.5635416666666666e-05, "loss": 0.0043, "step": 6602 }, { "epoch": 13.758333333333333, "grad_norm": 0.2827208638191223, "learning_rate": 1.5625e-05, "loss": 0.0043, "step": 6604 }, { "epoch": 13.7625, "grad_norm": 0.18630099296569824, "learning_rate": 1.5614583333333335e-05, "loss": 0.0093, "step": 6606 }, { "epoch": 13.766666666666667, "grad_norm": 0.0557548850774765, "learning_rate": 1.5604166666666665e-05, "loss": 0.0023, "step": 6608 }, { "epoch": 13.770833333333334, "grad_norm": 0.235639750957489, "learning_rate": 1.5593750000000003e-05, "loss": 0.0045, "step": 6610 }, { "epoch": 13.775, "grad_norm": 0.8878408670425415, "learning_rate": 1.5583333333333334e-05, "loss": 0.003, "step": 6612 }, { "epoch": 13.779166666666667, "grad_norm": 0.04364406690001488, "learning_rate": 1.5572916666666668e-05, "loss": 0.0021, "step": 6614 }, { "epoch": 13.783333333333333, "grad_norm": 0.059193991124629974, "learning_rate": 1.5562500000000002e-05, "loss": 0.0024, "step": 6616 }, { "epoch": 13.7875, "grad_norm": 0.1417813003063202, "learning_rate": 1.5552083333333333e-05, "loss": 0.0027, "step": 6618 }, { "epoch": 13.791666666666666, "grad_norm": 0.12418420612812042, "learning_rate": 1.5541666666666667e-05, "loss": 0.0027, "step": 6620 }, { "epoch": 13.795833333333333, "grad_norm": 0.12030600011348724, "learning_rate": 1.553125e-05, "loss": 0.0042, "step": 6622 }, { "epoch": 13.8, "grad_norm": 0.05735962465405464, "learning_rate": 1.5520833333333336e-05, "loss": 0.0016, "step": 6624 }, { "epoch": 13.804166666666667, "grad_norm": 0.398192435503006, "learning_rate": 1.5510416666666666e-05, "loss": 0.0057, "step": 6626 }, { "epoch": 13.808333333333334, "grad_norm": 0.1572618931531906, "learning_rate": 1.55e-05, "loss": 0.0033, "step": 6628 }, { "epoch": 13.8125, "grad_norm": 0.20721299946308136, "learning_rate": 1.5489583333333335e-05, "loss": 0.0032, "step": 6630 }, { "epoch": 13.816666666666666, "grad_norm": 0.6656963229179382, "learning_rate": 1.5479166666666666e-05, "loss": 0.0026, "step": 6632 }, { "epoch": 13.820833333333333, "grad_norm": 0.7500977516174316, "learning_rate": 1.546875e-05, "loss": 0.0041, "step": 6634 }, { "epoch": 13.825, "grad_norm": 0.27128320932388306, "learning_rate": 1.5458333333333334e-05, "loss": 0.0067, "step": 6636 }, { "epoch": 13.829166666666667, "grad_norm": 0.11513631045818329, "learning_rate": 1.544791666666667e-05, "loss": 0.0027, "step": 6638 }, { "epoch": 13.833333333333334, "grad_norm": 0.045905597507953644, "learning_rate": 1.5437500000000003e-05, "loss": 0.0025, "step": 6640 }, { "epoch": 13.8375, "grad_norm": 0.12906470894813538, "learning_rate": 1.5427083333333333e-05, "loss": 0.0042, "step": 6642 }, { "epoch": 13.841666666666667, "grad_norm": 0.431550532579422, "learning_rate": 1.5416666666666668e-05, "loss": 0.0043, "step": 6644 }, { "epoch": 13.845833333333333, "grad_norm": 0.18586336076259613, "learning_rate": 1.540625e-05, "loss": 0.0065, "step": 6646 }, { "epoch": 13.85, "grad_norm": 0.3067913055419922, "learning_rate": 1.5395833333333336e-05, "loss": 0.0049, "step": 6648 }, { "epoch": 13.854166666666666, "grad_norm": 0.07272881269454956, "learning_rate": 1.5385416666666667e-05, "loss": 0.0021, "step": 6650 }, { "epoch": 13.858333333333333, "grad_norm": 0.14190886914730072, "learning_rate": 1.5375e-05, "loss": 0.0033, "step": 6652 }, { "epoch": 13.8625, "grad_norm": 0.09749709814786911, "learning_rate": 1.5364583333333335e-05, "loss": 0.0023, "step": 6654 }, { "epoch": 13.866666666666667, "grad_norm": 0.2671657204627991, "learning_rate": 1.5354166666666666e-05, "loss": 0.0075, "step": 6656 }, { "epoch": 13.870833333333334, "grad_norm": 0.144461989402771, "learning_rate": 1.534375e-05, "loss": 0.0026, "step": 6658 }, { "epoch": 13.875, "grad_norm": 0.8031550645828247, "learning_rate": 1.5333333333333334e-05, "loss": 0.0116, "step": 6660 }, { "epoch": 13.879166666666666, "grad_norm": 0.08302131295204163, "learning_rate": 1.532291666666667e-05, "loss": 0.0027, "step": 6662 }, { "epoch": 13.883333333333333, "grad_norm": 0.33705297112464905, "learning_rate": 1.5312500000000003e-05, "loss": 0.0041, "step": 6664 }, { "epoch": 13.8875, "grad_norm": 0.05843769758939743, "learning_rate": 1.5302083333333334e-05, "loss": 0.0033, "step": 6666 }, { "epoch": 13.891666666666667, "grad_norm": 0.058634959161281586, "learning_rate": 1.5291666666666668e-05, "loss": 0.0056, "step": 6668 }, { "epoch": 13.895833333333334, "grad_norm": 0.10217398405075073, "learning_rate": 1.528125e-05, "loss": 0.0028, "step": 6670 }, { "epoch": 13.9, "grad_norm": 0.11372138559818268, "learning_rate": 1.5270833333333333e-05, "loss": 0.0049, "step": 6672 }, { "epoch": 13.904166666666667, "grad_norm": 0.2324199229478836, "learning_rate": 1.5260416666666667e-05, "loss": 0.0033, "step": 6674 }, { "epoch": 13.908333333333333, "grad_norm": 0.053841665387153625, "learning_rate": 1.525e-05, "loss": 0.0019, "step": 6676 }, { "epoch": 13.9125, "grad_norm": 0.05354693531990051, "learning_rate": 1.5239583333333336e-05, "loss": 0.0024, "step": 6678 }, { "epoch": 13.916666666666666, "grad_norm": 0.4247072637081146, "learning_rate": 1.5229166666666666e-05, "loss": 0.006, "step": 6680 }, { "epoch": 13.920833333333333, "grad_norm": 0.2648441195487976, "learning_rate": 1.521875e-05, "loss": 0.0049, "step": 6682 }, { "epoch": 13.925, "grad_norm": 0.10714209079742432, "learning_rate": 1.5208333333333333e-05, "loss": 0.0049, "step": 6684 }, { "epoch": 13.929166666666667, "grad_norm": 0.05607300251722336, "learning_rate": 1.5197916666666667e-05, "loss": 0.0031, "step": 6686 }, { "epoch": 13.933333333333334, "grad_norm": 0.34447771310806274, "learning_rate": 1.5187500000000002e-05, "loss": 0.0033, "step": 6688 }, { "epoch": 13.9375, "grad_norm": 0.07800997793674469, "learning_rate": 1.5177083333333334e-05, "loss": 0.0023, "step": 6690 }, { "epoch": 13.941666666666666, "grad_norm": 0.03209361806511879, "learning_rate": 1.5166666666666668e-05, "loss": 0.0031, "step": 6692 }, { "epoch": 13.945833333333333, "grad_norm": 0.04913395643234253, "learning_rate": 1.5156249999999999e-05, "loss": 0.0023, "step": 6694 }, { "epoch": 13.95, "grad_norm": 0.04655245691537857, "learning_rate": 1.5145833333333333e-05, "loss": 0.0018, "step": 6696 }, { "epoch": 13.954166666666667, "grad_norm": 0.08584462106227875, "learning_rate": 1.513541666666667e-05, "loss": 0.0023, "step": 6698 }, { "epoch": 13.958333333333334, "grad_norm": 0.19915041327476501, "learning_rate": 1.5125e-05, "loss": 0.004, "step": 6700 }, { "epoch": 13.9625, "grad_norm": 0.07963789999485016, "learning_rate": 1.5114583333333334e-05, "loss": 0.0056, "step": 6702 }, { "epoch": 13.966666666666667, "grad_norm": 0.05457717925310135, "learning_rate": 1.5104166666666667e-05, "loss": 0.0019, "step": 6704 }, { "epoch": 13.970833333333333, "grad_norm": 0.10204040259122849, "learning_rate": 1.5093750000000001e-05, "loss": 0.0024, "step": 6706 }, { "epoch": 13.975, "grad_norm": 0.11524426937103271, "learning_rate": 1.5083333333333335e-05, "loss": 0.0021, "step": 6708 }, { "epoch": 13.979166666666666, "grad_norm": 0.1516694575548172, "learning_rate": 1.5072916666666668e-05, "loss": 0.0073, "step": 6710 }, { "epoch": 13.983333333333333, "grad_norm": 0.04500000178813934, "learning_rate": 1.5062500000000002e-05, "loss": 0.0017, "step": 6712 }, { "epoch": 13.9875, "grad_norm": 0.4163214862346649, "learning_rate": 1.5052083333333333e-05, "loss": 0.0051, "step": 6714 }, { "epoch": 13.991666666666667, "grad_norm": 0.04419863969087601, "learning_rate": 1.5041666666666669e-05, "loss": 0.0025, "step": 6716 }, { "epoch": 13.995833333333334, "grad_norm": 0.06305772811174393, "learning_rate": 1.503125e-05, "loss": 0.0022, "step": 6718 }, { "epoch": 14.0, "grad_norm": 0.13797101378440857, "learning_rate": 1.5020833333333334e-05, "loss": 0.0027, "step": 6720 }, { "epoch": 14.004166666666666, "grad_norm": 0.3175923228263855, "learning_rate": 1.5010416666666668e-05, "loss": 0.0029, "step": 6722 }, { "epoch": 14.008333333333333, "grad_norm": 0.0952536016702652, "learning_rate": 1.5e-05, "loss": 0.0022, "step": 6724 }, { "epoch": 14.0125, "grad_norm": 0.1487370729446411, "learning_rate": 1.4989583333333335e-05, "loss": 0.0026, "step": 6726 }, { "epoch": 14.016666666666667, "grad_norm": 0.1992005705833435, "learning_rate": 1.4979166666666667e-05, "loss": 0.0021, "step": 6728 }, { "epoch": 14.020833333333334, "grad_norm": 0.15221185982227325, "learning_rate": 1.4968750000000001e-05, "loss": 0.003, "step": 6730 }, { "epoch": 14.025, "grad_norm": 0.03944152593612671, "learning_rate": 1.4958333333333336e-05, "loss": 0.0023, "step": 6732 }, { "epoch": 14.029166666666667, "grad_norm": 0.2936011552810669, "learning_rate": 1.4947916666666666e-05, "loss": 0.0024, "step": 6734 }, { "epoch": 14.033333333333333, "grad_norm": 0.07432222366333008, "learning_rate": 1.4937500000000002e-05, "loss": 0.0022, "step": 6736 }, { "epoch": 14.0375, "grad_norm": 0.16294702887535095, "learning_rate": 1.4927083333333333e-05, "loss": 0.0036, "step": 6738 }, { "epoch": 14.041666666666666, "grad_norm": 0.08084812015295029, "learning_rate": 1.4916666666666667e-05, "loss": 0.0019, "step": 6740 }, { "epoch": 14.045833333333333, "grad_norm": 0.05392075330018997, "learning_rate": 1.490625e-05, "loss": 0.0018, "step": 6742 }, { "epoch": 14.05, "grad_norm": 0.04019289091229439, "learning_rate": 1.4895833333333334e-05, "loss": 0.0016, "step": 6744 }, { "epoch": 14.054166666666667, "grad_norm": 0.09720532596111298, "learning_rate": 1.4885416666666668e-05, "loss": 0.0021, "step": 6746 }, { "epoch": 14.058333333333334, "grad_norm": 0.07292551547288895, "learning_rate": 1.4875e-05, "loss": 0.002, "step": 6748 }, { "epoch": 14.0625, "grad_norm": 0.042501915246248245, "learning_rate": 1.4864583333333335e-05, "loss": 0.0019, "step": 6750 }, { "epoch": 14.066666666666666, "grad_norm": 0.20131415128707886, "learning_rate": 1.4854166666666666e-05, "loss": 0.0029, "step": 6752 }, { "epoch": 14.070833333333333, "grad_norm": 0.2206254005432129, "learning_rate": 1.484375e-05, "loss": 0.0039, "step": 6754 }, { "epoch": 14.075, "grad_norm": 0.1910758763551712, "learning_rate": 1.4833333333333336e-05, "loss": 0.0046, "step": 6756 }, { "epoch": 14.079166666666667, "grad_norm": 0.05188716575503349, "learning_rate": 1.4822916666666667e-05, "loss": 0.0066, "step": 6758 }, { "epoch": 14.083333333333334, "grad_norm": 0.07941067218780518, "learning_rate": 1.4812500000000001e-05, "loss": 0.002, "step": 6760 }, { "epoch": 14.0875, "grad_norm": 0.15998734533786774, "learning_rate": 1.4802083333333333e-05, "loss": 0.0019, "step": 6762 }, { "epoch": 14.091666666666667, "grad_norm": 0.081133633852005, "learning_rate": 1.4791666666666668e-05, "loss": 0.0017, "step": 6764 }, { "epoch": 14.095833333333333, "grad_norm": 0.049275245517492294, "learning_rate": 1.4781250000000002e-05, "loss": 0.0025, "step": 6766 }, { "epoch": 14.1, "grad_norm": 0.08918793499469757, "learning_rate": 1.4770833333333334e-05, "loss": 0.0018, "step": 6768 }, { "epoch": 14.104166666666666, "grad_norm": 0.04353095218539238, "learning_rate": 1.4760416666666669e-05, "loss": 0.0017, "step": 6770 }, { "epoch": 14.108333333333333, "grad_norm": 0.06716294586658478, "learning_rate": 1.475e-05, "loss": 0.0016, "step": 6772 }, { "epoch": 14.1125, "grad_norm": 0.027354771271348, "learning_rate": 1.4739583333333334e-05, "loss": 0.0018, "step": 6774 }, { "epoch": 14.116666666666667, "grad_norm": 0.25023260712623596, "learning_rate": 1.4729166666666666e-05, "loss": 0.0049, "step": 6776 }, { "epoch": 14.120833333333334, "grad_norm": 0.08264948427677155, "learning_rate": 1.471875e-05, "loss": 0.0014, "step": 6778 }, { "epoch": 14.125, "grad_norm": 0.14390164613723755, "learning_rate": 1.4708333333333335e-05, "loss": 0.0016, "step": 6780 }, { "epoch": 14.129166666666666, "grad_norm": 0.05219584330916405, "learning_rate": 1.4697916666666667e-05, "loss": 0.0019, "step": 6782 }, { "epoch": 14.133333333333333, "grad_norm": 0.06974564492702484, "learning_rate": 1.4687500000000001e-05, "loss": 0.0017, "step": 6784 }, { "epoch": 14.1375, "grad_norm": 0.032226819545030594, "learning_rate": 1.4677083333333334e-05, "loss": 0.0016, "step": 6786 }, { "epoch": 14.141666666666667, "grad_norm": 0.21882657706737518, "learning_rate": 1.4666666666666668e-05, "loss": 0.0062, "step": 6788 }, { "epoch": 14.145833333333334, "grad_norm": 0.4155077040195465, "learning_rate": 1.4656250000000002e-05, "loss": 0.0044, "step": 6790 }, { "epoch": 14.15, "grad_norm": 0.0691014975309372, "learning_rate": 1.4645833333333333e-05, "loss": 0.0018, "step": 6792 }, { "epoch": 14.154166666666667, "grad_norm": 0.2622540295124054, "learning_rate": 1.4635416666666669e-05, "loss": 0.0043, "step": 6794 }, { "epoch": 14.158333333333333, "grad_norm": 0.05779508128762245, "learning_rate": 1.4625e-05, "loss": 0.0018, "step": 6796 }, { "epoch": 14.1625, "grad_norm": 0.058104485273361206, "learning_rate": 1.4614583333333334e-05, "loss": 0.0016, "step": 6798 }, { "epoch": 14.166666666666666, "grad_norm": 0.2024669051170349, "learning_rate": 1.4604166666666666e-05, "loss": 0.0041, "step": 6800 }, { "epoch": 14.166666666666666, "eval_cer": 0.05436472678809418, "eval_loss": 0.41585394740104675, "eval_runtime": 75.0615, "eval_samples_per_second": 5.249, "eval_steps_per_second": 0.666, "step": 6800 } ], "logging_steps": 2, "max_steps": 9600, "num_input_tokens_seen": 0, "num_train_epochs": 20, "save_steps": 200, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 2.9230002850021717e+20, "train_batch_size": 8, "trial_name": null, "trial_params": null }