diff --git "a/trainer_state.json" "b/trainer_state.json" new file mode 100644--- /dev/null +++ "b/trainer_state.json" @@ -0,0 +1,8514 @@ +{ + "best_metric": 0.5823009014129639, + "best_model_checkpoint": "./Whisper-Small-architecture-change\\checkpoint-30000", + "epoch": 8.0, + "eval_steps": 3750, + "global_step": 30000, + "is_hyper_param_search": false, + "is_local_process_zero": true, + "is_world_process_zero": true, + "log_history": [ + { + "epoch": 0.006666666666666667, + "grad_norm": 239.519287109375, + "learning_rate": 5.6000000000000005e-08, + "loss": 12.6159, + "step": 25 + }, + { + "epoch": 0.013333333333333334, + "grad_norm": 75.88606262207031, + "learning_rate": 1.2266666666666668e-07, + "loss": 11.8896, + "step": 50 + }, + { + "epoch": 0.02, + "grad_norm": 67.30024719238281, + "learning_rate": 1.8933333333333336e-07, + "loss": 10.9161, + "step": 75 + }, + { + "epoch": 0.02666666666666667, + "grad_norm": 54.303775787353516, + "learning_rate": 2.56e-07, + "loss": 9.6544, + "step": 100 + }, + { + "epoch": 0.03333333333333333, + "grad_norm": 37.784915924072266, + "learning_rate": 3.226666666666667e-07, + "loss": 8.1788, + "step": 125 + }, + { + "epoch": 0.04, + "grad_norm": 28.736209869384766, + "learning_rate": 3.893333333333334e-07, + "loss": 6.9935, + "step": 150 + }, + { + "epoch": 0.04666666666666667, + "grad_norm": 46.73013687133789, + "learning_rate": 4.5600000000000006e-07, + "loss": 6.2942, + "step": 175 + }, + { + "epoch": 0.05333333333333334, + "grad_norm": 24.16386604309082, + "learning_rate": 5.226666666666667e-07, + "loss": 5.8035, + "step": 200 + }, + { + "epoch": 0.06, + "grad_norm": 68.5661849975586, + "learning_rate": 5.893333333333333e-07, + "loss": 5.411, + "step": 225 + }, + { + "epoch": 0.06666666666666667, + "grad_norm": 46.952232360839844, + "learning_rate": 6.560000000000002e-07, + "loss": 5.2639, + "step": 250 + }, + { + "epoch": 0.07333333333333333, + "grad_norm": 58.928836822509766, + "learning_rate": 7.226666666666668e-07, + "loss": 4.8827, + "step": 275 + }, + { + "epoch": 0.08, + "grad_norm": 24.367368698120117, + "learning_rate": 7.893333333333333e-07, + "loss": 4.624, + "step": 300 + }, + { + "epoch": 0.08666666666666667, + "grad_norm": 25.666751861572266, + "learning_rate": 8.56e-07, + "loss": 4.3949, + "step": 325 + }, + { + "epoch": 0.09333333333333334, + "grad_norm": 27.72016716003418, + "learning_rate": 9.226666666666667e-07, + "loss": 4.2871, + "step": 350 + }, + { + "epoch": 0.1, + "grad_norm": 36.484439849853516, + "learning_rate": 9.893333333333334e-07, + "loss": 4.0819, + "step": 375 + }, + { + "epoch": 0.10666666666666667, + "grad_norm": 32.614776611328125, + "learning_rate": 1.0560000000000001e-06, + "loss": 3.8913, + "step": 400 + }, + { + "epoch": 0.11333333333333333, + "grad_norm": 28.317888259887695, + "learning_rate": 1.1226666666666667e-06, + "loss": 3.7896, + "step": 425 + }, + { + "epoch": 0.12, + "grad_norm": 27.782875061035156, + "learning_rate": 1.1893333333333334e-06, + "loss": 3.7064, + "step": 450 + }, + { + "epoch": 0.12666666666666668, + "grad_norm": 26.77977180480957, + "learning_rate": 1.256e-06, + "loss": 3.6061, + "step": 475 + }, + { + "epoch": 0.13333333333333333, + "grad_norm": 27.55701446533203, + "learning_rate": 1.3226666666666669e-06, + "loss": 3.5191, + "step": 500 + }, + { + "epoch": 0.14, + "grad_norm": 28.00956916809082, + "learning_rate": 1.3893333333333334e-06, + "loss": 3.589, + "step": 525 + }, + { + "epoch": 0.14666666666666667, + "grad_norm": 29.646137237548828, + "learning_rate": 1.4560000000000001e-06, + "loss": 3.4317, + "step": 550 + }, + { + "epoch": 0.15333333333333332, + "grad_norm": 29.584802627563477, + "learning_rate": 1.5226666666666666e-06, + "loss": 3.4753, + "step": 575 + }, + { + "epoch": 0.16, + "grad_norm": 33.77394104003906, + "learning_rate": 1.5893333333333336e-06, + "loss": 3.4346, + "step": 600 + }, + { + "epoch": 0.16666666666666666, + "grad_norm": 27.980113983154297, + "learning_rate": 1.6560000000000001e-06, + "loss": 3.397, + "step": 625 + }, + { + "epoch": 0.17333333333333334, + "grad_norm": 27.808380126953125, + "learning_rate": 1.7226666666666668e-06, + "loss": 3.3366, + "step": 650 + }, + { + "epoch": 0.18, + "grad_norm": 24.916641235351562, + "learning_rate": 1.7893333333333336e-06, + "loss": 3.3381, + "step": 675 + }, + { + "epoch": 0.18666666666666668, + "grad_norm": 32.362709045410156, + "learning_rate": 1.856e-06, + "loss": 3.3486, + "step": 700 + }, + { + "epoch": 0.19333333333333333, + "grad_norm": 27.902301788330078, + "learning_rate": 1.922666666666667e-06, + "loss": 3.3085, + "step": 725 + }, + { + "epoch": 0.2, + "grad_norm": 26.26052474975586, + "learning_rate": 1.9893333333333336e-06, + "loss": 3.3241, + "step": 750 + }, + { + "epoch": 0.20666666666666667, + "grad_norm": 26.851383209228516, + "learning_rate": 2.0560000000000003e-06, + "loss": 3.3546, + "step": 775 + }, + { + "epoch": 0.21333333333333335, + "grad_norm": 28.635953903198242, + "learning_rate": 2.1226666666666666e-06, + "loss": 3.3221, + "step": 800 + }, + { + "epoch": 0.22, + "grad_norm": 26.6495418548584, + "learning_rate": 2.1893333333333338e-06, + "loss": 3.3503, + "step": 825 + }, + { + "epoch": 0.22666666666666666, + "grad_norm": 28.25477409362793, + "learning_rate": 2.256e-06, + "loss": 3.2957, + "step": 850 + }, + { + "epoch": 0.23333333333333334, + "grad_norm": 25.518457412719727, + "learning_rate": 2.322666666666667e-06, + "loss": 3.3057, + "step": 875 + }, + { + "epoch": 0.24, + "grad_norm": 24.57706642150879, + "learning_rate": 2.3893333333333336e-06, + "loss": 3.278, + "step": 900 + }, + { + "epoch": 0.24666666666666667, + "grad_norm": 24.81038475036621, + "learning_rate": 2.4560000000000003e-06, + "loss": 3.2373, + "step": 925 + }, + { + "epoch": 0.25333333333333335, + "grad_norm": 29.66530990600586, + "learning_rate": 2.5226666666666666e-06, + "loss": 3.2522, + "step": 950 + }, + { + "epoch": 0.26, + "grad_norm": 26.72213363647461, + "learning_rate": 2.5893333333333338e-06, + "loss": 3.2878, + "step": 975 + }, + { + "epoch": 0.26666666666666666, + "grad_norm": 23.94971466064453, + "learning_rate": 2.656e-06, + "loss": 3.234, + "step": 1000 + }, + { + "epoch": 0.2733333333333333, + "grad_norm": 23.6091365814209, + "learning_rate": 2.722666666666667e-06, + "loss": 3.2203, + "step": 1025 + }, + { + "epoch": 0.28, + "grad_norm": 25.30870246887207, + "learning_rate": 2.7893333333333335e-06, + "loss": 3.2367, + "step": 1050 + }, + { + "epoch": 0.2866666666666667, + "grad_norm": 25.568180084228516, + "learning_rate": 2.8560000000000003e-06, + "loss": 3.1817, + "step": 1075 + }, + { + "epoch": 0.29333333333333333, + "grad_norm": 22.48927116394043, + "learning_rate": 2.922666666666667e-06, + "loss": 3.2753, + "step": 1100 + }, + { + "epoch": 0.3, + "grad_norm": 27.178401947021484, + "learning_rate": 2.9893333333333337e-06, + "loss": 3.2463, + "step": 1125 + }, + { + "epoch": 0.30666666666666664, + "grad_norm": 23.64044761657715, + "learning_rate": 3.056e-06, + "loss": 3.2304, + "step": 1150 + }, + { + "epoch": 0.31333333333333335, + "grad_norm": 31.912559509277344, + "learning_rate": 3.122666666666667e-06, + "loss": 3.2285, + "step": 1175 + }, + { + "epoch": 0.32, + "grad_norm": 22.49481773376465, + "learning_rate": 3.1893333333333335e-06, + "loss": 3.1498, + "step": 1200 + }, + { + "epoch": 0.32666666666666666, + "grad_norm": 29.281108856201172, + "learning_rate": 3.2560000000000003e-06, + "loss": 3.2317, + "step": 1225 + }, + { + "epoch": 0.3333333333333333, + "grad_norm": 22.45650291442871, + "learning_rate": 3.322666666666667e-06, + "loss": 3.178, + "step": 1250 + }, + { + "epoch": 0.34, + "grad_norm": 20.367958068847656, + "learning_rate": 3.3893333333333333e-06, + "loss": 3.1035, + "step": 1275 + }, + { + "epoch": 0.3466666666666667, + "grad_norm": 26.218124389648438, + "learning_rate": 3.4560000000000005e-06, + "loss": 3.1787, + "step": 1300 + }, + { + "epoch": 0.35333333333333333, + "grad_norm": 23.400863647460938, + "learning_rate": 3.522666666666667e-06, + "loss": 3.18, + "step": 1325 + }, + { + "epoch": 0.36, + "grad_norm": 21.59478187561035, + "learning_rate": 3.5893333333333335e-06, + "loss": 3.1761, + "step": 1350 + }, + { + "epoch": 0.36666666666666664, + "grad_norm": 25.21897315979004, + "learning_rate": 3.6560000000000002e-06, + "loss": 3.1245, + "step": 1375 + }, + { + "epoch": 0.37333333333333335, + "grad_norm": 25.3254337310791, + "learning_rate": 3.7226666666666674e-06, + "loss": 3.1453, + "step": 1400 + }, + { + "epoch": 0.38, + "grad_norm": 21.052732467651367, + "learning_rate": 3.7893333333333337e-06, + "loss": 3.1765, + "step": 1425 + }, + { + "epoch": 0.38666666666666666, + "grad_norm": 23.032123565673828, + "learning_rate": 3.856e-06, + "loss": 3.1315, + "step": 1450 + }, + { + "epoch": 0.3933333333333333, + "grad_norm": 19.530410766601562, + "learning_rate": 3.922666666666667e-06, + "loss": 3.1531, + "step": 1475 + }, + { + "epoch": 0.4, + "grad_norm": 20.694971084594727, + "learning_rate": 3.9893333333333335e-06, + "loss": 3.1045, + "step": 1500 + }, + { + "epoch": 0.4066666666666667, + "grad_norm": 22.522066116333008, + "learning_rate": 4.056000000000001e-06, + "loss": 3.1297, + "step": 1525 + }, + { + "epoch": 0.41333333333333333, + "grad_norm": 19.77950096130371, + "learning_rate": 4.122666666666667e-06, + "loss": 3.1073, + "step": 1550 + }, + { + "epoch": 0.42, + "grad_norm": 21.60193634033203, + "learning_rate": 4.189333333333333e-06, + "loss": 3.0718, + "step": 1575 + }, + { + "epoch": 0.4266666666666667, + "grad_norm": 21.914920806884766, + "learning_rate": 4.256e-06, + "loss": 3.0882, + "step": 1600 + }, + { + "epoch": 0.43333333333333335, + "grad_norm": 19.905532836914062, + "learning_rate": 4.3226666666666676e-06, + "loss": 3.1147, + "step": 1625 + }, + { + "epoch": 0.44, + "grad_norm": 22.861587524414062, + "learning_rate": 4.389333333333334e-06, + "loss": 3.1326, + "step": 1650 + }, + { + "epoch": 0.44666666666666666, + "grad_norm": 20.808780670166016, + "learning_rate": 4.456e-06, + "loss": 3.0965, + "step": 1675 + }, + { + "epoch": 0.4533333333333333, + "grad_norm": 19.498821258544922, + "learning_rate": 4.5226666666666665e-06, + "loss": 3.1464, + "step": 1700 + }, + { + "epoch": 0.46, + "grad_norm": 19.85230255126953, + "learning_rate": 4.589333333333334e-06, + "loss": 3.1097, + "step": 1725 + }, + { + "epoch": 0.4666666666666667, + "grad_norm": 19.93271255493164, + "learning_rate": 4.656000000000001e-06, + "loss": 3.0988, + "step": 1750 + }, + { + "epoch": 0.47333333333333333, + "grad_norm": 20.05719757080078, + "learning_rate": 4.722666666666667e-06, + "loss": 3.1133, + "step": 1775 + }, + { + "epoch": 0.48, + "grad_norm": 21.105573654174805, + "learning_rate": 4.7893333333333334e-06, + "loss": 3.1428, + "step": 1800 + }, + { + "epoch": 0.4866666666666667, + "grad_norm": 18.432645797729492, + "learning_rate": 4.856e-06, + "loss": 3.1545, + "step": 1825 + }, + { + "epoch": 0.49333333333333335, + "grad_norm": 20.34798812866211, + "learning_rate": 4.922666666666667e-06, + "loss": 3.0391, + "step": 1850 + }, + { + "epoch": 0.5, + "grad_norm": 19.02672004699707, + "learning_rate": 4.989333333333334e-06, + "loss": 3.0875, + "step": 1875 + }, + { + "epoch": 0.5066666666666667, + "grad_norm": 20.14708709716797, + "learning_rate": 5.056000000000001e-06, + "loss": 3.1432, + "step": 1900 + }, + { + "epoch": 0.5133333333333333, + "grad_norm": 23.723203659057617, + "learning_rate": 5.122666666666667e-06, + "loss": 3.0892, + "step": 1925 + }, + { + "epoch": 0.52, + "grad_norm": 19.381290435791016, + "learning_rate": 5.189333333333334e-06, + "loss": 3.0838, + "step": 1950 + }, + { + "epoch": 0.5266666666666666, + "grad_norm": 19.539453506469727, + "learning_rate": 5.256e-06, + "loss": 3.1069, + "step": 1975 + }, + { + "epoch": 0.5333333333333333, + "grad_norm": 18.83083152770996, + "learning_rate": 5.322666666666667e-06, + "loss": 3.0758, + "step": 2000 + }, + { + "epoch": 0.54, + "grad_norm": 18.560165405273438, + "learning_rate": 5.3893333333333345e-06, + "loss": 3.0742, + "step": 2025 + }, + { + "epoch": 0.5466666666666666, + "grad_norm": 22.101673126220703, + "learning_rate": 5.456e-06, + "loss": 3.0226, + "step": 2050 + }, + { + "epoch": 0.5533333333333333, + "grad_norm": 18.727083206176758, + "learning_rate": 5.522666666666667e-06, + "loss": 3.0631, + "step": 2075 + }, + { + "epoch": 0.56, + "grad_norm": 18.049819946289062, + "learning_rate": 5.589333333333333e-06, + "loss": 3.0933, + "step": 2100 + }, + { + "epoch": 0.5666666666666667, + "grad_norm": 19.78648567199707, + "learning_rate": 5.6560000000000006e-06, + "loss": 3.0078, + "step": 2125 + }, + { + "epoch": 0.5733333333333334, + "grad_norm": 21.0572452545166, + "learning_rate": 5.722666666666668e-06, + "loss": 3.0449, + "step": 2150 + }, + { + "epoch": 0.58, + "grad_norm": 20.380678176879883, + "learning_rate": 5.789333333333333e-06, + "loss": 2.9748, + "step": 2175 + }, + { + "epoch": 0.5866666666666667, + "grad_norm": 17.748619079589844, + "learning_rate": 5.856e-06, + "loss": 3.0787, + "step": 2200 + }, + { + "epoch": 0.5933333333333334, + "grad_norm": 17.896774291992188, + "learning_rate": 5.9226666666666675e-06, + "loss": 3.0697, + "step": 2225 + }, + { + "epoch": 0.6, + "grad_norm": 18.280550003051758, + "learning_rate": 5.989333333333334e-06, + "loss": 3.0688, + "step": 2250 + }, + { + "epoch": 0.6066666666666667, + "grad_norm": 18.723684310913086, + "learning_rate": 6.056000000000001e-06, + "loss": 3.1303, + "step": 2275 + }, + { + "epoch": 0.6133333333333333, + "grad_norm": 17.36138343811035, + "learning_rate": 6.1226666666666664e-06, + "loss": 3.0633, + "step": 2300 + }, + { + "epoch": 0.62, + "grad_norm": 19.793079376220703, + "learning_rate": 6.189333333333334e-06, + "loss": 3.0179, + "step": 2325 + }, + { + "epoch": 0.6266666666666667, + "grad_norm": 17.827909469604492, + "learning_rate": 6.256000000000001e-06, + "loss": 3.0857, + "step": 2350 + }, + { + "epoch": 0.6333333333333333, + "grad_norm": 18.614330291748047, + "learning_rate": 6.322666666666667e-06, + "loss": 3.054, + "step": 2375 + }, + { + "epoch": 0.64, + "grad_norm": 22.988759994506836, + "learning_rate": 6.389333333333334e-06, + "loss": 3.0253, + "step": 2400 + }, + { + "epoch": 0.6466666666666666, + "grad_norm": 20.0740966796875, + "learning_rate": 6.456e-06, + "loss": 3.061, + "step": 2425 + }, + { + "epoch": 0.6533333333333333, + "grad_norm": 18.595369338989258, + "learning_rate": 6.522666666666667e-06, + "loss": 3.0692, + "step": 2450 + }, + { + "epoch": 0.66, + "grad_norm": 17.88498306274414, + "learning_rate": 6.589333333333334e-06, + "loss": 3.0545, + "step": 2475 + }, + { + "epoch": 0.6666666666666666, + "grad_norm": 21.808332443237305, + "learning_rate": 6.656e-06, + "loss": 3.0799, + "step": 2500 + }, + { + "epoch": 0.6733333333333333, + "grad_norm": 18.41417694091797, + "learning_rate": 6.7226666666666675e-06, + "loss": 3.022, + "step": 2525 + }, + { + "epoch": 0.68, + "grad_norm": 18.565969467163086, + "learning_rate": 6.789333333333335e-06, + "loss": 3.1076, + "step": 2550 + }, + { + "epoch": 0.6866666666666666, + "grad_norm": 18.83727264404297, + "learning_rate": 6.856e-06, + "loss": 2.9619, + "step": 2575 + }, + { + "epoch": 0.6933333333333334, + "grad_norm": 18.32985496520996, + "learning_rate": 6.922666666666667e-06, + "loss": 3.0591, + "step": 2600 + }, + { + "epoch": 0.7, + "grad_norm": 21.10491943359375, + "learning_rate": 6.9893333333333336e-06, + "loss": 3.0622, + "step": 2625 + }, + { + "epoch": 0.7066666666666667, + "grad_norm": 17.460664749145508, + "learning_rate": 7.056000000000001e-06, + "loss": 3.0811, + "step": 2650 + }, + { + "epoch": 0.7133333333333334, + "grad_norm": 17.22031021118164, + "learning_rate": 7.122666666666668e-06, + "loss": 2.9623, + "step": 2675 + }, + { + "epoch": 0.72, + "grad_norm": 16.849733352661133, + "learning_rate": 7.189333333333333e-06, + "loss": 3.0409, + "step": 2700 + }, + { + "epoch": 0.7266666666666667, + "grad_norm": 18.2067928314209, + "learning_rate": 7.2560000000000005e-06, + "loss": 2.9911, + "step": 2725 + }, + { + "epoch": 0.7333333333333333, + "grad_norm": 18.292409896850586, + "learning_rate": 7.322666666666667e-06, + "loss": 2.9874, + "step": 2750 + }, + { + "epoch": 0.74, + "grad_norm": 17.187450408935547, + "learning_rate": 7.389333333333334e-06, + "loss": 3.0071, + "step": 2775 + }, + { + "epoch": 0.7466666666666667, + "grad_norm": 20.343050003051758, + "learning_rate": 7.456000000000001e-06, + "loss": 2.9822, + "step": 2800 + }, + { + "epoch": 0.7533333333333333, + "grad_norm": 18.014598846435547, + "learning_rate": 7.522666666666667e-06, + "loss": 3.0717, + "step": 2825 + }, + { + "epoch": 0.76, + "grad_norm": 20.944368362426758, + "learning_rate": 7.589333333333334e-06, + "loss": 3.0159, + "step": 2850 + }, + { + "epoch": 0.7666666666666667, + "grad_norm": 16.761674880981445, + "learning_rate": 7.656000000000001e-06, + "loss": 3.0083, + "step": 2875 + }, + { + "epoch": 0.7733333333333333, + "grad_norm": 18.604524612426758, + "learning_rate": 7.722666666666666e-06, + "loss": 3.0415, + "step": 2900 + }, + { + "epoch": 0.78, + "grad_norm": 18.043066024780273, + "learning_rate": 7.789333333333334e-06, + "loss": 3.0802, + "step": 2925 + }, + { + "epoch": 0.7866666666666666, + "grad_norm": 16.00929832458496, + "learning_rate": 7.856e-06, + "loss": 3.0423, + "step": 2950 + }, + { + "epoch": 0.7933333333333333, + "grad_norm": 16.3422794342041, + "learning_rate": 7.922666666666668e-06, + "loss": 3.076, + "step": 2975 + }, + { + "epoch": 0.8, + "grad_norm": 15.557136535644531, + "learning_rate": 7.989333333333335e-06, + "loss": 2.9959, + "step": 3000 + }, + { + "epoch": 0.8066666666666666, + "grad_norm": 19.2346248626709, + "learning_rate": 8.056e-06, + "loss": 2.9714, + "step": 3025 + }, + { + "epoch": 0.8133333333333334, + "grad_norm": 15.833749771118164, + "learning_rate": 8.122666666666668e-06, + "loss": 2.9611, + "step": 3050 + }, + { + "epoch": 0.82, + "grad_norm": 18.065765380859375, + "learning_rate": 8.189333333333333e-06, + "loss": 2.9608, + "step": 3075 + }, + { + "epoch": 0.8266666666666667, + "grad_norm": 16.716943740844727, + "learning_rate": 8.256e-06, + "loss": 2.9033, + "step": 3100 + }, + { + "epoch": 0.8333333333333334, + "grad_norm": 16.83830451965332, + "learning_rate": 8.322666666666667e-06, + "loss": 3.0159, + "step": 3125 + }, + { + "epoch": 0.84, + "grad_norm": 20.110912322998047, + "learning_rate": 8.389333333333335e-06, + "loss": 2.9691, + "step": 3150 + }, + { + "epoch": 0.8466666666666667, + "grad_norm": 16.137088775634766, + "learning_rate": 8.456000000000002e-06, + "loss": 2.9851, + "step": 3175 + }, + { + "epoch": 0.8533333333333334, + "grad_norm": 18.1724796295166, + "learning_rate": 8.522666666666667e-06, + "loss": 2.994, + "step": 3200 + }, + { + "epoch": 0.86, + "grad_norm": 16.472631454467773, + "learning_rate": 8.589333333333334e-06, + "loss": 2.8861, + "step": 3225 + }, + { + "epoch": 0.8666666666666667, + "grad_norm": 18.656780242919922, + "learning_rate": 8.656000000000001e-06, + "loss": 2.9972, + "step": 3250 + }, + { + "epoch": 0.8733333333333333, + "grad_norm": 15.91653823852539, + "learning_rate": 8.722666666666667e-06, + "loss": 2.9792, + "step": 3275 + }, + { + "epoch": 0.88, + "grad_norm": 15.507872581481934, + "learning_rate": 8.789333333333334e-06, + "loss": 3.0047, + "step": 3300 + }, + { + "epoch": 0.8866666666666667, + "grad_norm": 16.6019344329834, + "learning_rate": 8.856000000000001e-06, + "loss": 2.9685, + "step": 3325 + }, + { + "epoch": 0.8933333333333333, + "grad_norm": 14.933441162109375, + "learning_rate": 8.922666666666667e-06, + "loss": 2.9418, + "step": 3350 + }, + { + "epoch": 0.9, + "grad_norm": 17.40934181213379, + "learning_rate": 8.989333333333334e-06, + "loss": 2.9567, + "step": 3375 + }, + { + "epoch": 0.9066666666666666, + "grad_norm": 18.74656867980957, + "learning_rate": 9.056000000000001e-06, + "loss": 2.951, + "step": 3400 + }, + { + "epoch": 0.9133333333333333, + "grad_norm": 16.204360961914062, + "learning_rate": 9.122666666666668e-06, + "loss": 3.0096, + "step": 3425 + }, + { + "epoch": 0.92, + "grad_norm": 18.885921478271484, + "learning_rate": 9.189333333333335e-06, + "loss": 2.964, + "step": 3450 + }, + { + "epoch": 0.9266666666666666, + "grad_norm": 13.964981079101562, + "learning_rate": 9.256e-06, + "loss": 3.0153, + "step": 3475 + }, + { + "epoch": 0.9333333333333333, + "grad_norm": 16.404266357421875, + "learning_rate": 9.322666666666668e-06, + "loss": 2.925, + "step": 3500 + }, + { + "epoch": 0.94, + "grad_norm": 16.299327850341797, + "learning_rate": 9.389333333333333e-06, + "loss": 2.9515, + "step": 3525 + }, + { + "epoch": 0.9466666666666667, + "grad_norm": 16.733388900756836, + "learning_rate": 9.456e-06, + "loss": 2.9643, + "step": 3550 + }, + { + "epoch": 0.9533333333333334, + "grad_norm": 16.279644012451172, + "learning_rate": 9.522666666666668e-06, + "loss": 2.9556, + "step": 3575 + }, + { + "epoch": 0.96, + "grad_norm": 15.715508460998535, + "learning_rate": 9.589333333333333e-06, + "loss": 2.9274, + "step": 3600 + }, + { + "epoch": 0.9666666666666667, + "grad_norm": 15.107101440429688, + "learning_rate": 9.656e-06, + "loss": 2.9195, + "step": 3625 + }, + { + "epoch": 0.9733333333333334, + "grad_norm": 16.75059700012207, + "learning_rate": 9.722666666666668e-06, + "loss": 2.9339, + "step": 3650 + }, + { + "epoch": 0.98, + "grad_norm": 17.120929718017578, + "learning_rate": 9.789333333333335e-06, + "loss": 2.9365, + "step": 3675 + }, + { + "epoch": 0.9866666666666667, + "grad_norm": 15.898221015930176, + "learning_rate": 9.856000000000002e-06, + "loss": 2.9386, + "step": 3700 + }, + { + "epoch": 0.9933333333333333, + "grad_norm": 17.05202293395996, + "learning_rate": 9.922666666666667e-06, + "loss": 2.8902, + "step": 3725 + }, + { + "epoch": 1.0, + "grad_norm": 14.567432403564453, + "learning_rate": 9.989333333333334e-06, + "loss": 3.0206, + "step": 3750 + }, + { + "epoch": 1.0, + "eval_cer": 101.47028678978067, + "eval_loss": 2.9448132514953613, + "eval_runtime": 1028.8779, + "eval_samples_per_second": 4.86, + "eval_steps_per_second": 0.607, + "step": 3750 + }, + { + "epoch": 1.0066666666666666, + "grad_norm": 18.341167449951172, + "learning_rate": 9.9888e-06, + "loss": 2.8614, + "step": 3775 + }, + { + "epoch": 1.0133333333333334, + "grad_norm": 15.505128860473633, + "learning_rate": 9.975466666666668e-06, + "loss": 2.8143, + "step": 3800 + }, + { + "epoch": 1.02, + "grad_norm": 14.86770248413086, + "learning_rate": 9.962133333333334e-06, + "loss": 2.8492, + "step": 3825 + }, + { + "epoch": 1.0266666666666666, + "grad_norm": 16.18270492553711, + "learning_rate": 9.9488e-06, + "loss": 2.8442, + "step": 3850 + }, + { + "epoch": 1.0333333333333334, + "grad_norm": 16.07369613647461, + "learning_rate": 9.935466666666668e-06, + "loss": 2.9152, + "step": 3875 + }, + { + "epoch": 1.04, + "grad_norm": 16.719329833984375, + "learning_rate": 9.922133333333333e-06, + "loss": 2.8814, + "step": 3900 + }, + { + "epoch": 1.0466666666666666, + "grad_norm": 17.83294105529785, + "learning_rate": 9.9088e-06, + "loss": 2.8544, + "step": 3925 + }, + { + "epoch": 1.0533333333333332, + "grad_norm": 15.766818046569824, + "learning_rate": 9.895466666666667e-06, + "loss": 2.841, + "step": 3950 + }, + { + "epoch": 1.06, + "grad_norm": 15.642578125, + "learning_rate": 9.882133333333335e-06, + "loss": 2.849, + "step": 3975 + }, + { + "epoch": 1.0666666666666667, + "grad_norm": 14.70832633972168, + "learning_rate": 9.868800000000001e-06, + "loss": 2.8416, + "step": 4000 + }, + { + "epoch": 1.0733333333333333, + "grad_norm": 16.014005661010742, + "learning_rate": 9.855466666666667e-06, + "loss": 2.8326, + "step": 4025 + }, + { + "epoch": 1.08, + "grad_norm": 15.407599449157715, + "learning_rate": 9.842133333333335e-06, + "loss": 2.8154, + "step": 4050 + }, + { + "epoch": 1.0866666666666667, + "grad_norm": 14.064144134521484, + "learning_rate": 9.8288e-06, + "loss": 2.8825, + "step": 4075 + }, + { + "epoch": 1.0933333333333333, + "grad_norm": 15.654086112976074, + "learning_rate": 9.815466666666668e-06, + "loss": 2.7854, + "step": 4100 + }, + { + "epoch": 1.1, + "grad_norm": 15.339730262756348, + "learning_rate": 9.802133333333334e-06, + "loss": 2.7788, + "step": 4125 + }, + { + "epoch": 1.1066666666666667, + "grad_norm": 17.570232391357422, + "learning_rate": 9.7888e-06, + "loss": 2.8478, + "step": 4150 + }, + { + "epoch": 1.1133333333333333, + "grad_norm": 15.47964859008789, + "learning_rate": 9.775466666666668e-06, + "loss": 2.8316, + "step": 4175 + }, + { + "epoch": 1.12, + "grad_norm": 16.15867805480957, + "learning_rate": 9.762133333333334e-06, + "loss": 2.8736, + "step": 4200 + }, + { + "epoch": 1.1266666666666667, + "grad_norm": 15.28872299194336, + "learning_rate": 9.749333333333333e-06, + "loss": 2.8317, + "step": 4225 + }, + { + "epoch": 1.1333333333333333, + "grad_norm": 16.177919387817383, + "learning_rate": 9.736000000000001e-06, + "loss": 2.8777, + "step": 4250 + }, + { + "epoch": 1.1400000000000001, + "grad_norm": 15.374853134155273, + "learning_rate": 9.722666666666668e-06, + "loss": 2.8266, + "step": 4275 + }, + { + "epoch": 1.1466666666666667, + "grad_norm": 16.301210403442383, + "learning_rate": 9.709333333333334e-06, + "loss": 2.8326, + "step": 4300 + }, + { + "epoch": 1.1533333333333333, + "grad_norm": 15.057426452636719, + "learning_rate": 9.696000000000002e-06, + "loss": 2.8369, + "step": 4325 + }, + { + "epoch": 1.16, + "grad_norm": 15.375238418579102, + "learning_rate": 9.682666666666668e-06, + "loss": 2.9159, + "step": 4350 + }, + { + "epoch": 1.1666666666666667, + "grad_norm": 16.202659606933594, + "learning_rate": 9.669333333333334e-06, + "loss": 2.8469, + "step": 4375 + }, + { + "epoch": 1.1733333333333333, + "grad_norm": 16.35073471069336, + "learning_rate": 9.656e-06, + "loss": 2.8369, + "step": 4400 + }, + { + "epoch": 1.18, + "grad_norm": 15.418061256408691, + "learning_rate": 9.642666666666668e-06, + "loss": 2.8181, + "step": 4425 + }, + { + "epoch": 1.1866666666666668, + "grad_norm": 15.328269958496094, + "learning_rate": 9.629333333333335e-06, + "loss": 2.8162, + "step": 4450 + }, + { + "epoch": 1.1933333333333334, + "grad_norm": 14.795064926147461, + "learning_rate": 9.616e-06, + "loss": 2.7942, + "step": 4475 + }, + { + "epoch": 1.2, + "grad_norm": 15.281371116638184, + "learning_rate": 9.602666666666669e-06, + "loss": 2.8437, + "step": 4500 + }, + { + "epoch": 1.2066666666666666, + "grad_norm": 14.709575653076172, + "learning_rate": 9.589333333333333e-06, + "loss": 2.8218, + "step": 4525 + }, + { + "epoch": 1.2133333333333334, + "grad_norm": 15.948974609375, + "learning_rate": 9.576000000000001e-06, + "loss": 2.7907, + "step": 4550 + }, + { + "epoch": 1.22, + "grad_norm": 15.909748077392578, + "learning_rate": 9.562666666666667e-06, + "loss": 2.7962, + "step": 4575 + }, + { + "epoch": 1.2266666666666666, + "grad_norm": 14.510812759399414, + "learning_rate": 9.549333333333334e-06, + "loss": 2.7648, + "step": 4600 + }, + { + "epoch": 1.2333333333333334, + "grad_norm": 16.688051223754883, + "learning_rate": 9.536000000000002e-06, + "loss": 2.8186, + "step": 4625 + }, + { + "epoch": 1.24, + "grad_norm": 15.568835258483887, + "learning_rate": 9.522666666666668e-06, + "loss": 2.8271, + "step": 4650 + }, + { + "epoch": 1.2466666666666666, + "grad_norm": 16.143383026123047, + "learning_rate": 9.509333333333334e-06, + "loss": 2.8053, + "step": 4675 + }, + { + "epoch": 1.2533333333333334, + "grad_norm": 15.21891975402832, + "learning_rate": 9.496e-06, + "loss": 2.8109, + "step": 4700 + }, + { + "epoch": 1.26, + "grad_norm": 16.1420841217041, + "learning_rate": 9.482666666666668e-06, + "loss": 2.7816, + "step": 4725 + }, + { + "epoch": 1.2666666666666666, + "grad_norm": 15.328913688659668, + "learning_rate": 9.469333333333334e-06, + "loss": 2.8547, + "step": 4750 + }, + { + "epoch": 1.2733333333333334, + "grad_norm": 14.748466491699219, + "learning_rate": 9.456e-06, + "loss": 2.8535, + "step": 4775 + }, + { + "epoch": 1.28, + "grad_norm": 14.702101707458496, + "learning_rate": 9.442666666666669e-06, + "loss": 2.7873, + "step": 4800 + }, + { + "epoch": 1.2866666666666666, + "grad_norm": 15.682441711425781, + "learning_rate": 9.429333333333333e-06, + "loss": 2.867, + "step": 4825 + }, + { + "epoch": 1.2933333333333334, + "grad_norm": 16.01926612854004, + "learning_rate": 9.416000000000001e-06, + "loss": 2.8193, + "step": 4850 + }, + { + "epoch": 1.3, + "grad_norm": 17.409801483154297, + "learning_rate": 9.402666666666667e-06, + "loss": 2.8173, + "step": 4875 + }, + { + "epoch": 1.3066666666666666, + "grad_norm": 14.913454055786133, + "learning_rate": 9.389333333333333e-06, + "loss": 2.9044, + "step": 4900 + }, + { + "epoch": 1.3133333333333335, + "grad_norm": 13.999700546264648, + "learning_rate": 9.376000000000001e-06, + "loss": 2.7916, + "step": 4925 + }, + { + "epoch": 1.32, + "grad_norm": 15.796382904052734, + "learning_rate": 9.362666666666668e-06, + "loss": 2.7737, + "step": 4950 + }, + { + "epoch": 1.3266666666666667, + "grad_norm": 16.898115158081055, + "learning_rate": 9.349333333333334e-06, + "loss": 2.796, + "step": 4975 + }, + { + "epoch": 1.3333333333333333, + "grad_norm": 15.197442054748535, + "learning_rate": 9.336e-06, + "loss": 2.7717, + "step": 5000 + }, + { + "epoch": 1.34, + "grad_norm": 15.102800369262695, + "learning_rate": 9.322666666666668e-06, + "loss": 2.7991, + "step": 5025 + }, + { + "epoch": 1.3466666666666667, + "grad_norm": 14.45152473449707, + "learning_rate": 9.309333333333334e-06, + "loss": 2.79, + "step": 5050 + }, + { + "epoch": 1.3533333333333333, + "grad_norm": 14.972829818725586, + "learning_rate": 9.296e-06, + "loss": 2.7782, + "step": 5075 + }, + { + "epoch": 1.3599999999999999, + "grad_norm": 15.70550537109375, + "learning_rate": 9.282666666666668e-06, + "loss": 2.72, + "step": 5100 + }, + { + "epoch": 1.3666666666666667, + "grad_norm": 15.159205436706543, + "learning_rate": 9.269333333333335e-06, + "loss": 2.8077, + "step": 5125 + }, + { + "epoch": 1.3733333333333333, + "grad_norm": 14.738737106323242, + "learning_rate": 9.256e-06, + "loss": 2.7815, + "step": 5150 + }, + { + "epoch": 1.38, + "grad_norm": 13.930469512939453, + "learning_rate": 9.242666666666667e-06, + "loss": 2.7969, + "step": 5175 + }, + { + "epoch": 1.3866666666666667, + "grad_norm": 14.943868637084961, + "learning_rate": 9.229333333333335e-06, + "loss": 2.8469, + "step": 5200 + }, + { + "epoch": 1.3933333333333333, + "grad_norm": 14.697915077209473, + "learning_rate": 9.216000000000001e-06, + "loss": 2.8645, + "step": 5225 + }, + { + "epoch": 1.4, + "grad_norm": 14.940492630004883, + "learning_rate": 9.202666666666667e-06, + "loss": 2.7931, + "step": 5250 + }, + { + "epoch": 1.4066666666666667, + "grad_norm": 14.791254043579102, + "learning_rate": 9.189333333333335e-06, + "loss": 2.7418, + "step": 5275 + }, + { + "epoch": 1.4133333333333333, + "grad_norm": 14.07961654663086, + "learning_rate": 9.176e-06, + "loss": 2.817, + "step": 5300 + }, + { + "epoch": 1.42, + "grad_norm": 13.466306686401367, + "learning_rate": 9.162666666666668e-06, + "loss": 2.7774, + "step": 5325 + }, + { + "epoch": 1.4266666666666667, + "grad_norm": 14.198969841003418, + "learning_rate": 9.149333333333334e-06, + "loss": 2.8414, + "step": 5350 + }, + { + "epoch": 1.4333333333333333, + "grad_norm": 14.91830825805664, + "learning_rate": 9.136e-06, + "loss": 2.8319, + "step": 5375 + }, + { + "epoch": 1.44, + "grad_norm": 14.651515007019043, + "learning_rate": 9.122666666666668e-06, + "loss": 2.811, + "step": 5400 + }, + { + "epoch": 1.4466666666666668, + "grad_norm": 15.619087219238281, + "learning_rate": 9.109333333333334e-06, + "loss": 2.7757, + "step": 5425 + }, + { + "epoch": 1.4533333333333334, + "grad_norm": 14.169109344482422, + "learning_rate": 9.096e-06, + "loss": 2.801, + "step": 5450 + }, + { + "epoch": 1.46, + "grad_norm": 14.89020824432373, + "learning_rate": 9.082666666666667e-06, + "loss": 2.8429, + "step": 5475 + }, + { + "epoch": 1.4666666666666668, + "grad_norm": 14.567514419555664, + "learning_rate": 9.069333333333335e-06, + "loss": 2.8194, + "step": 5500 + }, + { + "epoch": 1.4733333333333334, + "grad_norm": 14.190622329711914, + "learning_rate": 9.056000000000001e-06, + "loss": 2.772, + "step": 5525 + }, + { + "epoch": 1.48, + "grad_norm": 16.03820037841797, + "learning_rate": 9.042666666666667e-06, + "loss": 2.8167, + "step": 5550 + }, + { + "epoch": 1.4866666666666668, + "grad_norm": 13.951319694519043, + "learning_rate": 9.029333333333335e-06, + "loss": 2.8743, + "step": 5575 + }, + { + "epoch": 1.4933333333333334, + "grad_norm": 16.745908737182617, + "learning_rate": 9.016e-06, + "loss": 2.7967, + "step": 5600 + }, + { + "epoch": 1.5, + "grad_norm": 14.998453140258789, + "learning_rate": 9.002666666666668e-06, + "loss": 2.8179, + "step": 5625 + }, + { + "epoch": 1.5066666666666668, + "grad_norm": 13.700370788574219, + "learning_rate": 8.989333333333334e-06, + "loss": 2.8168, + "step": 5650 + }, + { + "epoch": 1.5133333333333332, + "grad_norm": 13.572522163391113, + "learning_rate": 8.976e-06, + "loss": 2.7986, + "step": 5675 + }, + { + "epoch": 1.52, + "grad_norm": 14.183910369873047, + "learning_rate": 8.962666666666668e-06, + "loss": 2.7939, + "step": 5700 + }, + { + "epoch": 1.5266666666666666, + "grad_norm": 14.836448669433594, + "learning_rate": 8.949333333333334e-06, + "loss": 2.7226, + "step": 5725 + }, + { + "epoch": 1.5333333333333332, + "grad_norm": 14.839132308959961, + "learning_rate": 8.936e-06, + "loss": 2.8044, + "step": 5750 + }, + { + "epoch": 1.54, + "grad_norm": 13.268080711364746, + "learning_rate": 8.922666666666667e-06, + "loss": 2.7952, + "step": 5775 + }, + { + "epoch": 1.5466666666666666, + "grad_norm": 13.93143081665039, + "learning_rate": 8.909333333333335e-06, + "loss": 2.8117, + "step": 5800 + }, + { + "epoch": 1.5533333333333332, + "grad_norm": 13.872674942016602, + "learning_rate": 8.896000000000001e-06, + "loss": 2.7781, + "step": 5825 + }, + { + "epoch": 1.56, + "grad_norm": 16.127439498901367, + "learning_rate": 8.882666666666667e-06, + "loss": 2.7779, + "step": 5850 + }, + { + "epoch": 1.5666666666666667, + "grad_norm": 14.744039535522461, + "learning_rate": 8.869333333333335e-06, + "loss": 2.7451, + "step": 5875 + }, + { + "epoch": 1.5733333333333333, + "grad_norm": 14.032984733581543, + "learning_rate": 8.856000000000001e-06, + "loss": 2.723, + "step": 5900 + }, + { + "epoch": 1.58, + "grad_norm": 15.494585037231445, + "learning_rate": 8.842666666666667e-06, + "loss": 2.8238, + "step": 5925 + }, + { + "epoch": 1.5866666666666667, + "grad_norm": 13.852340698242188, + "learning_rate": 8.829333333333334e-06, + "loss": 2.7442, + "step": 5950 + }, + { + "epoch": 1.5933333333333333, + "grad_norm": 19.91828155517578, + "learning_rate": 8.816000000000002e-06, + "loss": 2.7354, + "step": 5975 + }, + { + "epoch": 1.6, + "grad_norm": 15.183830261230469, + "learning_rate": 8.802666666666668e-06, + "loss": 2.8264, + "step": 6000 + }, + { + "epoch": 1.6066666666666667, + "grad_norm": 14.760404586791992, + "learning_rate": 8.789333333333334e-06, + "loss": 2.7819, + "step": 6025 + }, + { + "epoch": 1.6133333333333333, + "grad_norm": 13.893590927124023, + "learning_rate": 8.776e-06, + "loss": 2.7329, + "step": 6050 + }, + { + "epoch": 1.62, + "grad_norm": 15.335844993591309, + "learning_rate": 8.762666666666667e-06, + "loss": 2.8258, + "step": 6075 + }, + { + "epoch": 1.6266666666666667, + "grad_norm": 14.167142868041992, + "learning_rate": 8.749333333333334e-06, + "loss": 2.6886, + "step": 6100 + }, + { + "epoch": 1.6333333333333333, + "grad_norm": 14.450248718261719, + "learning_rate": 8.736e-06, + "loss": 2.7428, + "step": 6125 + }, + { + "epoch": 1.6400000000000001, + "grad_norm": 15.98160457611084, + "learning_rate": 8.722666666666667e-06, + "loss": 2.8001, + "step": 6150 + }, + { + "epoch": 1.6466666666666665, + "grad_norm": 14.876062393188477, + "learning_rate": 8.709333333333335e-06, + "loss": 2.7839, + "step": 6175 + }, + { + "epoch": 1.6533333333333333, + "grad_norm": 15.391752243041992, + "learning_rate": 8.696000000000001e-06, + "loss": 2.7241, + "step": 6200 + }, + { + "epoch": 1.6600000000000001, + "grad_norm": 14.375226974487305, + "learning_rate": 8.682666666666667e-06, + "loss": 2.7434, + "step": 6225 + }, + { + "epoch": 1.6666666666666665, + "grad_norm": 17.211040496826172, + "learning_rate": 8.669333333333334e-06, + "loss": 2.7371, + "step": 6250 + }, + { + "epoch": 1.6733333333333333, + "grad_norm": 14.420839309692383, + "learning_rate": 8.656000000000001e-06, + "loss": 2.7671, + "step": 6275 + }, + { + "epoch": 1.6800000000000002, + "grad_norm": 15.133004188537598, + "learning_rate": 8.642666666666668e-06, + "loss": 2.662, + "step": 6300 + }, + { + "epoch": 1.6866666666666665, + "grad_norm": 13.884488105773926, + "learning_rate": 8.629866666666667e-06, + "loss": 2.7576, + "step": 6325 + }, + { + "epoch": 1.6933333333333334, + "grad_norm": 14.442697525024414, + "learning_rate": 8.616533333333335e-06, + "loss": 2.6942, + "step": 6350 + }, + { + "epoch": 1.7, + "grad_norm": 14.201814651489258, + "learning_rate": 8.603200000000001e-06, + "loss": 2.7273, + "step": 6375 + }, + { + "epoch": 1.7066666666666666, + "grad_norm": 15.892154693603516, + "learning_rate": 8.589866666666667e-06, + "loss": 2.7005, + "step": 6400 + }, + { + "epoch": 1.7133333333333334, + "grad_norm": 15.0394926071167, + "learning_rate": 8.576533333333335e-06, + "loss": 2.7411, + "step": 6425 + }, + { + "epoch": 1.72, + "grad_norm": 14.898782730102539, + "learning_rate": 8.5632e-06, + "loss": 2.7733, + "step": 6450 + }, + { + "epoch": 1.7266666666666666, + "grad_norm": 14.246618270874023, + "learning_rate": 8.549866666666668e-06, + "loss": 2.7572, + "step": 6475 + }, + { + "epoch": 1.7333333333333334, + "grad_norm": 14.88265323638916, + "learning_rate": 8.536533333333334e-06, + "loss": 2.7332, + "step": 6500 + }, + { + "epoch": 1.74, + "grad_norm": 15.066386222839355, + "learning_rate": 8.5232e-06, + "loss": 2.7738, + "step": 6525 + }, + { + "epoch": 1.7466666666666666, + "grad_norm": 14.970804214477539, + "learning_rate": 8.509866666666668e-06, + "loss": 2.7273, + "step": 6550 + }, + { + "epoch": 1.7533333333333334, + "grad_norm": 18.711088180541992, + "learning_rate": 8.496533333333334e-06, + "loss": 2.7542, + "step": 6575 + }, + { + "epoch": 1.76, + "grad_norm": 15.934128761291504, + "learning_rate": 8.4832e-06, + "loss": 2.6742, + "step": 6600 + }, + { + "epoch": 1.7666666666666666, + "grad_norm": 13.729011535644531, + "learning_rate": 8.469866666666667e-06, + "loss": 2.6903, + "step": 6625 + }, + { + "epoch": 1.7733333333333334, + "grad_norm": 13.908912658691406, + "learning_rate": 8.456533333333335e-06, + "loss": 2.684, + "step": 6650 + }, + { + "epoch": 1.78, + "grad_norm": 14.256633758544922, + "learning_rate": 8.4432e-06, + "loss": 2.7161, + "step": 6675 + }, + { + "epoch": 1.7866666666666666, + "grad_norm": 14.925575256347656, + "learning_rate": 8.429866666666667e-06, + "loss": 2.668, + "step": 6700 + }, + { + "epoch": 1.7933333333333334, + "grad_norm": 14.224350929260254, + "learning_rate": 8.416533333333335e-06, + "loss": 2.6894, + "step": 6725 + }, + { + "epoch": 1.8, + "grad_norm": 14.022618293762207, + "learning_rate": 8.4032e-06, + "loss": 2.7262, + "step": 6750 + }, + { + "epoch": 1.8066666666666666, + "grad_norm": 14.737170219421387, + "learning_rate": 8.389866666666667e-06, + "loss": 2.729, + "step": 6775 + }, + { + "epoch": 1.8133333333333335, + "grad_norm": 17.626880645751953, + "learning_rate": 8.376533333333334e-06, + "loss": 2.7086, + "step": 6800 + }, + { + "epoch": 1.8199999999999998, + "grad_norm": 15.167420387268066, + "learning_rate": 8.3632e-06, + "loss": 2.7241, + "step": 6825 + }, + { + "epoch": 1.8266666666666667, + "grad_norm": 14.240897178649902, + "learning_rate": 8.349866666666668e-06, + "loss": 2.7028, + "step": 6850 + }, + { + "epoch": 1.8333333333333335, + "grad_norm": 14.484946250915527, + "learning_rate": 8.336533333333334e-06, + "loss": 2.7987, + "step": 6875 + }, + { + "epoch": 1.8399999999999999, + "grad_norm": 14.117555618286133, + "learning_rate": 8.3232e-06, + "loss": 2.7395, + "step": 6900 + }, + { + "epoch": 1.8466666666666667, + "grad_norm": 14.787724494934082, + "learning_rate": 8.309866666666666e-06, + "loss": 2.6942, + "step": 6925 + }, + { + "epoch": 1.8533333333333335, + "grad_norm": 13.861804962158203, + "learning_rate": 8.296533333333334e-06, + "loss": 2.7109, + "step": 6950 + }, + { + "epoch": 1.8599999999999999, + "grad_norm": 15.272209167480469, + "learning_rate": 8.2832e-06, + "loss": 2.7072, + "step": 6975 + }, + { + "epoch": 1.8666666666666667, + "grad_norm": 13.781429290771484, + "learning_rate": 8.269866666666667e-06, + "loss": 2.7193, + "step": 7000 + }, + { + "epoch": 1.8733333333333333, + "grad_norm": 15.008417129516602, + "learning_rate": 8.256533333333335e-06, + "loss": 2.7198, + "step": 7025 + }, + { + "epoch": 1.88, + "grad_norm": 17.48888397216797, + "learning_rate": 8.243200000000001e-06, + "loss": 2.737, + "step": 7050 + }, + { + "epoch": 1.8866666666666667, + "grad_norm": 15.835905075073242, + "learning_rate": 8.229866666666667e-06, + "loss": 2.6975, + "step": 7075 + }, + { + "epoch": 1.8933333333333333, + "grad_norm": 14.750869750976562, + "learning_rate": 8.216533333333333e-06, + "loss": 2.7052, + "step": 7100 + }, + { + "epoch": 1.9, + "grad_norm": 14.134411811828613, + "learning_rate": 8.203200000000001e-06, + "loss": 2.7681, + "step": 7125 + }, + { + "epoch": 1.9066666666666667, + "grad_norm": 14.923256874084473, + "learning_rate": 8.189866666666668e-06, + "loss": 2.6854, + "step": 7150 + }, + { + "epoch": 1.9133333333333333, + "grad_norm": 14.352977752685547, + "learning_rate": 8.176533333333334e-06, + "loss": 2.688, + "step": 7175 + }, + { + "epoch": 1.92, + "grad_norm": 13.685964584350586, + "learning_rate": 8.163200000000002e-06, + "loss": 2.712, + "step": 7200 + }, + { + "epoch": 1.9266666666666667, + "grad_norm": 14.306882858276367, + "learning_rate": 8.149866666666666e-06, + "loss": 2.6725, + "step": 7225 + }, + { + "epoch": 1.9333333333333333, + "grad_norm": 13.897980690002441, + "learning_rate": 8.136533333333334e-06, + "loss": 2.7263, + "step": 7250 + }, + { + "epoch": 1.94, + "grad_norm": 16.317609786987305, + "learning_rate": 8.1232e-06, + "loss": 2.6613, + "step": 7275 + }, + { + "epoch": 1.9466666666666668, + "grad_norm": 15.180182456970215, + "learning_rate": 8.109866666666667e-06, + "loss": 2.705, + "step": 7300 + }, + { + "epoch": 1.9533333333333334, + "grad_norm": 14.355299949645996, + "learning_rate": 8.096533333333335e-06, + "loss": 2.6894, + "step": 7325 + }, + { + "epoch": 1.96, + "grad_norm": 15.968114852905273, + "learning_rate": 8.0832e-06, + "loss": 2.7235, + "step": 7350 + }, + { + "epoch": 1.9666666666666668, + "grad_norm": 13.582755088806152, + "learning_rate": 8.069866666666667e-06, + "loss": 2.7348, + "step": 7375 + }, + { + "epoch": 1.9733333333333334, + "grad_norm": 15.618963241577148, + "learning_rate": 8.056533333333333e-06, + "loss": 2.6932, + "step": 7400 + }, + { + "epoch": 1.98, + "grad_norm": 16.184696197509766, + "learning_rate": 8.043200000000001e-06, + "loss": 2.7272, + "step": 7425 + }, + { + "epoch": 1.9866666666666668, + "grad_norm": 15.12050724029541, + "learning_rate": 8.029866666666667e-06, + "loss": 2.7449, + "step": 7450 + }, + { + "epoch": 1.9933333333333332, + "grad_norm": 13.893138885498047, + "learning_rate": 8.016533333333334e-06, + "loss": 2.7622, + "step": 7475 + }, + { + "epoch": 2.0, + "grad_norm": 14.29150390625, + "learning_rate": 8.003200000000002e-06, + "loss": 2.6624, + "step": 7500 + }, + { + "epoch": 2.0, + "eval_cer": 99.03658013901571, + "eval_loss": 2.7586846351623535, + "eval_runtime": 973.4707, + "eval_samples_per_second": 5.136, + "eval_steps_per_second": 0.642, + "step": 7500 + }, + { + "epoch": 2.006666666666667, + "grad_norm": 15.892197608947754, + "learning_rate": 7.989866666666666e-06, + "loss": 2.5019, + "step": 7525 + }, + { + "epoch": 2.013333333333333, + "grad_norm": 14.737539291381836, + "learning_rate": 7.976533333333334e-06, + "loss": 2.5382, + "step": 7550 + }, + { + "epoch": 2.02, + "grad_norm": 14.79334545135498, + "learning_rate": 7.9632e-06, + "loss": 2.535, + "step": 7575 + }, + { + "epoch": 2.026666666666667, + "grad_norm": 15.544516563415527, + "learning_rate": 7.949866666666666e-06, + "loss": 2.5625, + "step": 7600 + }, + { + "epoch": 2.033333333333333, + "grad_norm": 14.05871868133545, + "learning_rate": 7.936533333333334e-06, + "loss": 2.5223, + "step": 7625 + }, + { + "epoch": 2.04, + "grad_norm": 13.43491268157959, + "learning_rate": 7.9232e-06, + "loss": 2.5165, + "step": 7650 + }, + { + "epoch": 2.046666666666667, + "grad_norm": 16.902830123901367, + "learning_rate": 7.909866666666667e-06, + "loss": 2.5073, + "step": 7675 + }, + { + "epoch": 2.0533333333333332, + "grad_norm": 15.363377571105957, + "learning_rate": 7.896533333333333e-06, + "loss": 2.5451, + "step": 7700 + }, + { + "epoch": 2.06, + "grad_norm": 16.13486671447754, + "learning_rate": 7.883200000000001e-06, + "loss": 2.4999, + "step": 7725 + }, + { + "epoch": 2.066666666666667, + "grad_norm": 16.2893009185791, + "learning_rate": 7.869866666666667e-06, + "loss": 2.5279, + "step": 7750 + }, + { + "epoch": 2.0733333333333333, + "grad_norm": 15.974298477172852, + "learning_rate": 7.856533333333333e-06, + "loss": 2.5688, + "step": 7775 + }, + { + "epoch": 2.08, + "grad_norm": 14.843419075012207, + "learning_rate": 7.843200000000001e-06, + "loss": 2.5187, + "step": 7800 + }, + { + "epoch": 2.086666666666667, + "grad_norm": 14.89648723602295, + "learning_rate": 7.829866666666668e-06, + "loss": 2.5592, + "step": 7825 + }, + { + "epoch": 2.0933333333333333, + "grad_norm": 14.28732967376709, + "learning_rate": 7.816533333333334e-06, + "loss": 2.5854, + "step": 7850 + }, + { + "epoch": 2.1, + "grad_norm": 15.313673973083496, + "learning_rate": 7.8032e-06, + "loss": 2.5133, + "step": 7875 + }, + { + "epoch": 2.1066666666666665, + "grad_norm": 15.143229484558105, + "learning_rate": 7.789866666666668e-06, + "loss": 2.6041, + "step": 7900 + }, + { + "epoch": 2.1133333333333333, + "grad_norm": 16.081912994384766, + "learning_rate": 7.776533333333334e-06, + "loss": 2.5482, + "step": 7925 + }, + { + "epoch": 2.12, + "grad_norm": 14.032299041748047, + "learning_rate": 7.7632e-06, + "loss": 2.5295, + "step": 7950 + }, + { + "epoch": 2.1266666666666665, + "grad_norm": 13.623974800109863, + "learning_rate": 7.749866666666668e-06, + "loss": 2.5807, + "step": 7975 + }, + { + "epoch": 2.1333333333333333, + "grad_norm": 14.82207202911377, + "learning_rate": 7.736533333333333e-06, + "loss": 2.5416, + "step": 8000 + }, + { + "epoch": 2.14, + "grad_norm": 14.317402839660645, + "learning_rate": 7.723200000000001e-06, + "loss": 2.5358, + "step": 8025 + }, + { + "epoch": 2.1466666666666665, + "grad_norm": 14.29019832611084, + "learning_rate": 7.709866666666667e-06, + "loss": 2.5165, + "step": 8050 + }, + { + "epoch": 2.1533333333333333, + "grad_norm": 14.499761581420898, + "learning_rate": 7.696533333333333e-06, + "loss": 2.468, + "step": 8075 + }, + { + "epoch": 2.16, + "grad_norm": 16.20831871032715, + "learning_rate": 7.683200000000001e-06, + "loss": 2.5166, + "step": 8100 + }, + { + "epoch": 2.1666666666666665, + "grad_norm": 14.025810241699219, + "learning_rate": 7.669866666666667e-06, + "loss": 2.5002, + "step": 8125 + }, + { + "epoch": 2.1733333333333333, + "grad_norm": 13.856465339660645, + "learning_rate": 7.656533333333334e-06, + "loss": 2.5199, + "step": 8150 + }, + { + "epoch": 2.18, + "grad_norm": 13.947702407836914, + "learning_rate": 7.6432e-06, + "loss": 2.4958, + "step": 8175 + }, + { + "epoch": 2.1866666666666665, + "grad_norm": 14.031968116760254, + "learning_rate": 7.629866666666668e-06, + "loss": 2.4909, + "step": 8200 + }, + { + "epoch": 2.1933333333333334, + "grad_norm": 13.001631736755371, + "learning_rate": 7.616533333333333e-06, + "loss": 2.514, + "step": 8225 + }, + { + "epoch": 2.2, + "grad_norm": 15.477959632873535, + "learning_rate": 7.6032e-06, + "loss": 2.4765, + "step": 8250 + }, + { + "epoch": 2.2066666666666666, + "grad_norm": 14.97217082977295, + "learning_rate": 7.589866666666667e-06, + "loss": 2.5188, + "step": 8275 + }, + { + "epoch": 2.2133333333333334, + "grad_norm": 15.08694076538086, + "learning_rate": 7.576533333333334e-06, + "loss": 2.4899, + "step": 8300 + }, + { + "epoch": 2.22, + "grad_norm": 17.206466674804688, + "learning_rate": 7.563200000000001e-06, + "loss": 2.495, + "step": 8325 + }, + { + "epoch": 2.2266666666666666, + "grad_norm": 13.681031227111816, + "learning_rate": 7.549866666666668e-06, + "loss": 2.5318, + "step": 8350 + }, + { + "epoch": 2.2333333333333334, + "grad_norm": 15.070063591003418, + "learning_rate": 7.536533333333333e-06, + "loss": 2.51, + "step": 8375 + }, + { + "epoch": 2.24, + "grad_norm": 14.901849746704102, + "learning_rate": 7.5232e-06, + "loss": 2.5058, + "step": 8400 + }, + { + "epoch": 2.2466666666666666, + "grad_norm": 14.474413871765137, + "learning_rate": 7.509866666666667e-06, + "loss": 2.4855, + "step": 8425 + }, + { + "epoch": 2.2533333333333334, + "grad_norm": 15.189818382263184, + "learning_rate": 7.4965333333333335e-06, + "loss": 2.4682, + "step": 8450 + }, + { + "epoch": 2.26, + "grad_norm": 14.548968315124512, + "learning_rate": 7.483200000000001e-06, + "loss": 2.4903, + "step": 8475 + }, + { + "epoch": 2.2666666666666666, + "grad_norm": 16.549190521240234, + "learning_rate": 7.469866666666668e-06, + "loss": 2.5566, + "step": 8500 + }, + { + "epoch": 2.2733333333333334, + "grad_norm": 13.84147834777832, + "learning_rate": 7.456533333333333e-06, + "loss": 2.53, + "step": 8525 + }, + { + "epoch": 2.2800000000000002, + "grad_norm": 14.794442176818848, + "learning_rate": 7.4432e-06, + "loss": 2.5228, + "step": 8550 + }, + { + "epoch": 2.2866666666666666, + "grad_norm": 15.938579559326172, + "learning_rate": 7.429866666666667e-06, + "loss": 2.5237, + "step": 8575 + }, + { + "epoch": 2.2933333333333334, + "grad_norm": 15.915651321411133, + "learning_rate": 7.416533333333334e-06, + "loss": 2.4718, + "step": 8600 + }, + { + "epoch": 2.3, + "grad_norm": 14.890464782714844, + "learning_rate": 7.4032000000000005e-06, + "loss": 2.4782, + "step": 8625 + }, + { + "epoch": 2.3066666666666666, + "grad_norm": 14.034588813781738, + "learning_rate": 7.389866666666668e-06, + "loss": 2.4799, + "step": 8650 + }, + { + "epoch": 2.3133333333333335, + "grad_norm": 14.596651077270508, + "learning_rate": 7.376533333333335e-06, + "loss": 2.5249, + "step": 8675 + }, + { + "epoch": 2.32, + "grad_norm": 15.924104690551758, + "learning_rate": 7.3632e-06, + "loss": 2.5433, + "step": 8700 + }, + { + "epoch": 2.3266666666666667, + "grad_norm": 14.39191722869873, + "learning_rate": 7.349866666666667e-06, + "loss": 2.5097, + "step": 8725 + }, + { + "epoch": 2.3333333333333335, + "grad_norm": 17.916866302490234, + "learning_rate": 7.336533333333334e-06, + "loss": 2.516, + "step": 8750 + }, + { + "epoch": 2.34, + "grad_norm": 15.51325798034668, + "learning_rate": 7.3232000000000005e-06, + "loss": 2.4841, + "step": 8775 + }, + { + "epoch": 2.3466666666666667, + "grad_norm": 14.074264526367188, + "learning_rate": 7.3098666666666675e-06, + "loss": 2.5176, + "step": 8800 + }, + { + "epoch": 2.3533333333333335, + "grad_norm": 15.794018745422363, + "learning_rate": 7.296533333333335e-06, + "loss": 2.5616, + "step": 8825 + }, + { + "epoch": 2.36, + "grad_norm": 14.426234245300293, + "learning_rate": 7.2832e-06, + "loss": 2.5224, + "step": 8850 + }, + { + "epoch": 2.3666666666666667, + "grad_norm": 15.045028686523438, + "learning_rate": 7.269866666666667e-06, + "loss": 2.5623, + "step": 8875 + }, + { + "epoch": 2.3733333333333335, + "grad_norm": 14.515600204467773, + "learning_rate": 7.256533333333334e-06, + "loss": 2.4909, + "step": 8900 + }, + { + "epoch": 2.38, + "grad_norm": 14.591583251953125, + "learning_rate": 7.2432e-06, + "loss": 2.4648, + "step": 8925 + }, + { + "epoch": 2.3866666666666667, + "grad_norm": 15.177807807922363, + "learning_rate": 7.2298666666666675e-06, + "loss": 2.4934, + "step": 8950 + }, + { + "epoch": 2.3933333333333335, + "grad_norm": 14.253172874450684, + "learning_rate": 7.2165333333333345e-06, + "loss": 2.505, + "step": 8975 + }, + { + "epoch": 2.4, + "grad_norm": 15.804008483886719, + "learning_rate": 7.2032e-06, + "loss": 2.424, + "step": 9000 + }, + { + "epoch": 2.4066666666666667, + "grad_norm": 15.71060562133789, + "learning_rate": 7.189866666666667e-06, + "loss": 2.4847, + "step": 9025 + }, + { + "epoch": 2.413333333333333, + "grad_norm": 16.404714584350586, + "learning_rate": 7.176533333333334e-06, + "loss": 2.4999, + "step": 9050 + }, + { + "epoch": 2.42, + "grad_norm": 14.94524097442627, + "learning_rate": 7.1632e-06, + "loss": 2.4569, + "step": 9075 + }, + { + "epoch": 2.4266666666666667, + "grad_norm": 15.851588249206543, + "learning_rate": 7.149866666666667e-06, + "loss": 2.493, + "step": 9100 + }, + { + "epoch": 2.4333333333333336, + "grad_norm": 14.112217903137207, + "learning_rate": 7.1365333333333345e-06, + "loss": 2.4397, + "step": 9125 + }, + { + "epoch": 2.44, + "grad_norm": 14.668387413024902, + "learning_rate": 7.1232e-06, + "loss": 2.4702, + "step": 9150 + }, + { + "epoch": 2.4466666666666668, + "grad_norm": 16.891145706176758, + "learning_rate": 7.109866666666667e-06, + "loss": 2.5235, + "step": 9175 + }, + { + "epoch": 2.453333333333333, + "grad_norm": 13.677497863769531, + "learning_rate": 7.096533333333334e-06, + "loss": 2.4918, + "step": 9200 + }, + { + "epoch": 2.46, + "grad_norm": 15.764641761779785, + "learning_rate": 7.0832e-06, + "loss": 2.412, + "step": 9225 + }, + { + "epoch": 2.466666666666667, + "grad_norm": 14.868721008300781, + "learning_rate": 7.069866666666667e-06, + "loss": 2.4162, + "step": 9250 + }, + { + "epoch": 2.473333333333333, + "grad_norm": 14.549164772033691, + "learning_rate": 7.056533333333334e-06, + "loss": 2.5002, + "step": 9275 + }, + { + "epoch": 2.48, + "grad_norm": 14.989385604858398, + "learning_rate": 7.0432e-06, + "loss": 2.4918, + "step": 9300 + }, + { + "epoch": 2.486666666666667, + "grad_norm": 14.603059768676758, + "learning_rate": 7.029866666666667e-06, + "loss": 2.453, + "step": 9325 + }, + { + "epoch": 2.493333333333333, + "grad_norm": 15.52784252166748, + "learning_rate": 7.016533333333334e-06, + "loss": 2.4118, + "step": 9350 + }, + { + "epoch": 2.5, + "grad_norm": 15.43063735961914, + "learning_rate": 7.003200000000001e-06, + "loss": 2.4174, + "step": 9375 + }, + { + "epoch": 2.506666666666667, + "grad_norm": 15.6729097366333, + "learning_rate": 6.989866666666667e-06, + "loss": 2.4298, + "step": 9400 + }, + { + "epoch": 2.513333333333333, + "grad_norm": 15.733779907226562, + "learning_rate": 6.976533333333334e-06, + "loss": 2.4761, + "step": 9425 + }, + { + "epoch": 2.52, + "grad_norm": 14.857540130615234, + "learning_rate": 6.963200000000001e-06, + "loss": 2.4568, + "step": 9450 + }, + { + "epoch": 2.5266666666666664, + "grad_norm": 15.780564308166504, + "learning_rate": 6.949866666666667e-06, + "loss": 2.4335, + "step": 9475 + }, + { + "epoch": 2.533333333333333, + "grad_norm": 15.93884563446045, + "learning_rate": 6.936533333333334e-06, + "loss": 2.4338, + "step": 9500 + }, + { + "epoch": 2.54, + "grad_norm": 16.896879196166992, + "learning_rate": 6.923200000000001e-06, + "loss": 2.4197, + "step": 9525 + }, + { + "epoch": 2.546666666666667, + "grad_norm": 15.936076164245605, + "learning_rate": 6.909866666666667e-06, + "loss": 2.4423, + "step": 9550 + }, + { + "epoch": 2.5533333333333332, + "grad_norm": 15.846403121948242, + "learning_rate": 6.896533333333334e-06, + "loss": 2.4122, + "step": 9575 + }, + { + "epoch": 2.56, + "grad_norm": 16.807167053222656, + "learning_rate": 6.883200000000001e-06, + "loss": 2.3645, + "step": 9600 + }, + { + "epoch": 2.5666666666666664, + "grad_norm": 15.773185729980469, + "learning_rate": 6.869866666666667e-06, + "loss": 2.4473, + "step": 9625 + }, + { + "epoch": 2.5733333333333333, + "grad_norm": 14.884876251220703, + "learning_rate": 6.856533333333334e-06, + "loss": 2.3162, + "step": 9650 + }, + { + "epoch": 2.58, + "grad_norm": 14.894495964050293, + "learning_rate": 6.843200000000001e-06, + "loss": 2.3966, + "step": 9675 + }, + { + "epoch": 2.586666666666667, + "grad_norm": 16.315290451049805, + "learning_rate": 6.829866666666667e-06, + "loss": 2.3827, + "step": 9700 + }, + { + "epoch": 2.5933333333333333, + "grad_norm": 14.877371788024902, + "learning_rate": 6.816533333333334e-06, + "loss": 2.377, + "step": 9725 + }, + { + "epoch": 2.6, + "grad_norm": 15.835363388061523, + "learning_rate": 6.803200000000001e-06, + "loss": 2.4158, + "step": 9750 + }, + { + "epoch": 2.6066666666666665, + "grad_norm": 17.2226505279541, + "learning_rate": 6.789866666666667e-06, + "loss": 2.3278, + "step": 9775 + }, + { + "epoch": 2.6133333333333333, + "grad_norm": 15.720571517944336, + "learning_rate": 6.776533333333334e-06, + "loss": 2.3249, + "step": 9800 + }, + { + "epoch": 2.62, + "grad_norm": 15.03074836730957, + "learning_rate": 6.763200000000001e-06, + "loss": 2.3987, + "step": 9825 + }, + { + "epoch": 2.626666666666667, + "grad_norm": 16.627979278564453, + "learning_rate": 6.749866666666667e-06, + "loss": 2.3894, + "step": 9850 + }, + { + "epoch": 2.6333333333333333, + "grad_norm": 16.66104507446289, + "learning_rate": 6.736533333333334e-06, + "loss": 2.3017, + "step": 9875 + }, + { + "epoch": 2.64, + "grad_norm": 15.011177062988281, + "learning_rate": 6.723200000000001e-06, + "loss": 2.2766, + "step": 9900 + }, + { + "epoch": 2.6466666666666665, + "grad_norm": 14.885912895202637, + "learning_rate": 6.7098666666666665e-06, + "loss": 2.3244, + "step": 9925 + }, + { + "epoch": 2.6533333333333333, + "grad_norm": 18.976299285888672, + "learning_rate": 6.696533333333334e-06, + "loss": 2.3453, + "step": 9950 + }, + { + "epoch": 2.66, + "grad_norm": 18.982887268066406, + "learning_rate": 6.683200000000001e-06, + "loss": 2.3676, + "step": 9975 + }, + { + "epoch": 2.6666666666666665, + "grad_norm": 16.29530906677246, + "learning_rate": 6.669866666666667e-06, + "loss": 2.3464, + "step": 10000 + }, + { + "epoch": 2.6733333333333333, + "grad_norm": 15.873961448669434, + "learning_rate": 6.656533333333334e-06, + "loss": 2.3123, + "step": 10025 + }, + { + "epoch": 2.68, + "grad_norm": 18.046323776245117, + "learning_rate": 6.643200000000001e-06, + "loss": 2.2446, + "step": 10050 + }, + { + "epoch": 2.6866666666666665, + "grad_norm": 15.902738571166992, + "learning_rate": 6.6298666666666664e-06, + "loss": 2.3162, + "step": 10075 + }, + { + "epoch": 2.6933333333333334, + "grad_norm": 17.678884506225586, + "learning_rate": 6.6165333333333335e-06, + "loss": 2.3307, + "step": 10100 + }, + { + "epoch": 2.7, + "grad_norm": 19.40481948852539, + "learning_rate": 6.603200000000001e-06, + "loss": 2.2705, + "step": 10125 + }, + { + "epoch": 2.7066666666666666, + "grad_norm": 17.46210289001465, + "learning_rate": 6.589866666666668e-06, + "loss": 2.2549, + "step": 10150 + }, + { + "epoch": 2.7133333333333334, + "grad_norm": 20.960145950317383, + "learning_rate": 6.576533333333334e-06, + "loss": 2.1682, + "step": 10175 + }, + { + "epoch": 2.7199999999999998, + "grad_norm": 19.256601333618164, + "learning_rate": 6.563733333333334e-06, + "loss": 2.2637, + "step": 10200 + }, + { + "epoch": 2.7266666666666666, + "grad_norm": 19.597484588623047, + "learning_rate": 6.5504e-06, + "loss": 2.2436, + "step": 10225 + }, + { + "epoch": 2.7333333333333334, + "grad_norm": 27.18549346923828, + "learning_rate": 6.537066666666667e-06, + "loss": 2.2028, + "step": 10250 + }, + { + "epoch": 2.74, + "grad_norm": 19.606491088867188, + "learning_rate": 6.523733333333334e-06, + "loss": 2.196, + "step": 10275 + }, + { + "epoch": 2.7466666666666666, + "grad_norm": 21.430288314819336, + "learning_rate": 6.5104e-06, + "loss": 2.1598, + "step": 10300 + }, + { + "epoch": 2.7533333333333334, + "grad_norm": 18.18085479736328, + "learning_rate": 6.4970666666666675e-06, + "loss": 2.0758, + "step": 10325 + }, + { + "epoch": 2.76, + "grad_norm": 18.522924423217773, + "learning_rate": 6.483733333333334e-06, + "loss": 2.1498, + "step": 10350 + }, + { + "epoch": 2.7666666666666666, + "grad_norm": 21.17822265625, + "learning_rate": 6.4704e-06, + "loss": 2.09, + "step": 10375 + }, + { + "epoch": 2.7733333333333334, + "grad_norm": 20.353734970092773, + "learning_rate": 6.457066666666667e-06, + "loss": 2.0851, + "step": 10400 + }, + { + "epoch": 2.7800000000000002, + "grad_norm": 18.234485626220703, + "learning_rate": 6.443733333333334e-06, + "loss": 2.1235, + "step": 10425 + }, + { + "epoch": 2.7866666666666666, + "grad_norm": 20.197546005249023, + "learning_rate": 6.4304e-06, + "loss": 1.9967, + "step": 10450 + }, + { + "epoch": 2.7933333333333334, + "grad_norm": 21.045825958251953, + "learning_rate": 6.417066666666667e-06, + "loss": 2.033, + "step": 10475 + }, + { + "epoch": 2.8, + "grad_norm": 19.628801345825195, + "learning_rate": 6.403733333333334e-06, + "loss": 1.9632, + "step": 10500 + }, + { + "epoch": 2.8066666666666666, + "grad_norm": 22.553890228271484, + "learning_rate": 6.390400000000001e-06, + "loss": 2.0445, + "step": 10525 + }, + { + "epoch": 2.8133333333333335, + "grad_norm": 20.891063690185547, + "learning_rate": 6.377066666666667e-06, + "loss": 1.9664, + "step": 10550 + }, + { + "epoch": 2.82, + "grad_norm": 21.207019805908203, + "learning_rate": 6.363733333333334e-06, + "loss": 1.9734, + "step": 10575 + }, + { + "epoch": 2.8266666666666667, + "grad_norm": 17.794282913208008, + "learning_rate": 6.350400000000001e-06, + "loss": 1.9355, + "step": 10600 + }, + { + "epoch": 2.8333333333333335, + "grad_norm": 18.87672996520996, + "learning_rate": 6.337066666666667e-06, + "loss": 1.8914, + "step": 10625 + }, + { + "epoch": 2.84, + "grad_norm": 22.582807540893555, + "learning_rate": 6.3237333333333335e-06, + "loss": 1.8394, + "step": 10650 + }, + { + "epoch": 2.8466666666666667, + "grad_norm": 19.247133255004883, + "learning_rate": 6.310400000000001e-06, + "loss": 1.8326, + "step": 10675 + }, + { + "epoch": 2.8533333333333335, + "grad_norm": 22.571208953857422, + "learning_rate": 6.297066666666667e-06, + "loss": 1.788, + "step": 10700 + }, + { + "epoch": 2.86, + "grad_norm": 22.470487594604492, + "learning_rate": 6.283733333333334e-06, + "loss": 1.7513, + "step": 10725 + }, + { + "epoch": 2.8666666666666667, + "grad_norm": 20.411582946777344, + "learning_rate": 6.270400000000001e-06, + "loss": 1.7907, + "step": 10750 + }, + { + "epoch": 2.873333333333333, + "grad_norm": 24.050704956054688, + "learning_rate": 6.257066666666667e-06, + "loss": 1.7982, + "step": 10775 + }, + { + "epoch": 2.88, + "grad_norm": 21.617502212524414, + "learning_rate": 6.243733333333334e-06, + "loss": 1.7812, + "step": 10800 + }, + { + "epoch": 2.8866666666666667, + "grad_norm": 20.223268508911133, + "learning_rate": 6.2304000000000005e-06, + "loss": 1.7232, + "step": 10825 + }, + { + "epoch": 2.8933333333333335, + "grad_norm": 19.169328689575195, + "learning_rate": 6.217066666666667e-06, + "loss": 1.7592, + "step": 10850 + }, + { + "epoch": 2.9, + "grad_norm": 18.71587562561035, + "learning_rate": 6.203733333333334e-06, + "loss": 1.6958, + "step": 10875 + }, + { + "epoch": 2.9066666666666667, + "grad_norm": 18.357885360717773, + "learning_rate": 6.190400000000001e-06, + "loss": 1.6515, + "step": 10900 + }, + { + "epoch": 2.913333333333333, + "grad_norm": 27.874958038330078, + "learning_rate": 6.177066666666667e-06, + "loss": 1.6218, + "step": 10925 + }, + { + "epoch": 2.92, + "grad_norm": 21.494277954101562, + "learning_rate": 6.163733333333334e-06, + "loss": 1.6221, + "step": 10950 + }, + { + "epoch": 2.9266666666666667, + "grad_norm": 19.69038200378418, + "learning_rate": 6.1504000000000004e-06, + "loss": 1.6271, + "step": 10975 + }, + { + "epoch": 2.9333333333333336, + "grad_norm": 20.025768280029297, + "learning_rate": 6.137066666666667e-06, + "loss": 1.5823, + "step": 11000 + }, + { + "epoch": 2.94, + "grad_norm": 21.56736946105957, + "learning_rate": 6.123733333333334e-06, + "loss": 1.5545, + "step": 11025 + }, + { + "epoch": 2.9466666666666668, + "grad_norm": 22.40268325805664, + "learning_rate": 6.110400000000001e-06, + "loss": 1.537, + "step": 11050 + }, + { + "epoch": 2.953333333333333, + "grad_norm": 22.65316390991211, + "learning_rate": 6.097066666666667e-06, + "loss": 1.5105, + "step": 11075 + }, + { + "epoch": 2.96, + "grad_norm": 20.644834518432617, + "learning_rate": 6.083733333333334e-06, + "loss": 1.5447, + "step": 11100 + }, + { + "epoch": 2.966666666666667, + "grad_norm": 20.712682723999023, + "learning_rate": 6.0704e-06, + "loss": 1.519, + "step": 11125 + }, + { + "epoch": 2.9733333333333336, + "grad_norm": 19.15509605407715, + "learning_rate": 6.057066666666667e-06, + "loss": 1.4795, + "step": 11150 + }, + { + "epoch": 2.98, + "grad_norm": 22.364810943603516, + "learning_rate": 6.043733333333334e-06, + "loss": 1.4703, + "step": 11175 + }, + { + "epoch": 2.986666666666667, + "grad_norm": 18.33409881591797, + "learning_rate": 6.030400000000001e-06, + "loss": 1.425, + "step": 11200 + }, + { + "epoch": 2.993333333333333, + "grad_norm": 18.183170318603516, + "learning_rate": 6.017066666666667e-06, + "loss": 1.4406, + "step": 11225 + }, + { + "epoch": 3.0, + "grad_norm": 27.566612243652344, + "learning_rate": 6.003733333333334e-06, + "loss": 1.4476, + "step": 11250 + }, + { + "epoch": 3.0, + "eval_cer": 80.56947990235358, + "eval_loss": 1.483169674873352, + "eval_runtime": 977.1542, + "eval_samples_per_second": 5.117, + "eval_steps_per_second": 0.64, + "step": 11250 + }, + { + "epoch": 3.006666666666667, + "grad_norm": 18.13421058654785, + "learning_rate": 5.9904e-06, + "loss": 1.3216, + "step": 11275 + }, + { + "epoch": 3.013333333333333, + "grad_norm": 20.15323257446289, + "learning_rate": 5.977066666666667e-06, + "loss": 1.3265, + "step": 11300 + }, + { + "epoch": 3.02, + "grad_norm": 17.658987045288086, + "learning_rate": 5.963733333333334e-06, + "loss": 1.3207, + "step": 11325 + }, + { + "epoch": 3.026666666666667, + "grad_norm": 21.425071716308594, + "learning_rate": 5.950400000000001e-06, + "loss": 1.2555, + "step": 11350 + }, + { + "epoch": 3.033333333333333, + "grad_norm": 20.28328514099121, + "learning_rate": 5.937066666666668e-06, + "loss": 1.281, + "step": 11375 + }, + { + "epoch": 3.04, + "grad_norm": 18.814109802246094, + "learning_rate": 5.923733333333334e-06, + "loss": 1.3269, + "step": 11400 + }, + { + "epoch": 3.046666666666667, + "grad_norm": 20.14902114868164, + "learning_rate": 5.9104e-06, + "loss": 1.3033, + "step": 11425 + }, + { + "epoch": 3.0533333333333332, + "grad_norm": 18.88955307006836, + "learning_rate": 5.897066666666667e-06, + "loss": 1.2687, + "step": 11450 + }, + { + "epoch": 3.06, + "grad_norm": 19.865415573120117, + "learning_rate": 5.8837333333333335e-06, + "loss": 1.2515, + "step": 11475 + }, + { + "epoch": 3.066666666666667, + "grad_norm": 19.37832260131836, + "learning_rate": 5.870400000000001e-06, + "loss": 1.2624, + "step": 11500 + }, + { + "epoch": 3.0733333333333333, + "grad_norm": 16.852869033813477, + "learning_rate": 5.857066666666668e-06, + "loss": 1.2392, + "step": 11525 + }, + { + "epoch": 3.08, + "grad_norm": 19.31361961364746, + "learning_rate": 5.843733333333334e-06, + "loss": 1.1871, + "step": 11550 + }, + { + "epoch": 3.086666666666667, + "grad_norm": 18.4359188079834, + "learning_rate": 5.8304e-06, + "loss": 1.2503, + "step": 11575 + }, + { + "epoch": 3.0933333333333333, + "grad_norm": 22.16046714782715, + "learning_rate": 5.817066666666667e-06, + "loss": 1.2032, + "step": 11600 + }, + { + "epoch": 3.1, + "grad_norm": 18.019723892211914, + "learning_rate": 5.803733333333333e-06, + "loss": 1.1725, + "step": 11625 + }, + { + "epoch": 3.1066666666666665, + "grad_norm": 20.924667358398438, + "learning_rate": 5.7904000000000005e-06, + "loss": 1.168, + "step": 11650 + }, + { + "epoch": 3.1133333333333333, + "grad_norm": 16.75530433654785, + "learning_rate": 5.7770666666666676e-06, + "loss": 1.1377, + "step": 11675 + }, + { + "epoch": 3.12, + "grad_norm": 19.926475524902344, + "learning_rate": 5.763733333333334e-06, + "loss": 1.1972, + "step": 11700 + }, + { + "epoch": 3.1266666666666665, + "grad_norm": 18.905668258666992, + "learning_rate": 5.7504e-06, + "loss": 1.1704, + "step": 11725 + }, + { + "epoch": 3.1333333333333333, + "grad_norm": 20.3309326171875, + "learning_rate": 5.737066666666667e-06, + "loss": 1.182, + "step": 11750 + }, + { + "epoch": 3.14, + "grad_norm": 19.934507369995117, + "learning_rate": 5.723733333333333e-06, + "loss": 1.1083, + "step": 11775 + }, + { + "epoch": 3.1466666666666665, + "grad_norm": 17.662250518798828, + "learning_rate": 5.7104e-06, + "loss": 1.2018, + "step": 11800 + }, + { + "epoch": 3.1533333333333333, + "grad_norm": 18.359508514404297, + "learning_rate": 5.6970666666666675e-06, + "loss": 1.1489, + "step": 11825 + }, + { + "epoch": 3.16, + "grad_norm": 18.745746612548828, + "learning_rate": 5.683733333333334e-06, + "loss": 1.145, + "step": 11850 + }, + { + "epoch": 3.1666666666666665, + "grad_norm": 18.503721237182617, + "learning_rate": 5.6704e-06, + "loss": 1.1408, + "step": 11875 + }, + { + "epoch": 3.1733333333333333, + "grad_norm": 18.518545150756836, + "learning_rate": 5.657066666666667e-06, + "loss": 1.0807, + "step": 11900 + }, + { + "epoch": 3.18, + "grad_norm": 17.894861221313477, + "learning_rate": 5.643733333333333e-06, + "loss": 1.1442, + "step": 11925 + }, + { + "epoch": 3.1866666666666665, + "grad_norm": 15.847545623779297, + "learning_rate": 5.6304e-06, + "loss": 1.1145, + "step": 11950 + }, + { + "epoch": 3.1933333333333334, + "grad_norm": 19.212461471557617, + "learning_rate": 5.617066666666667e-06, + "loss": 1.1612, + "step": 11975 + }, + { + "epoch": 3.2, + "grad_norm": 17.522655487060547, + "learning_rate": 5.603733333333334e-06, + "loss": 1.0882, + "step": 12000 + }, + { + "epoch": 3.2066666666666666, + "grad_norm": 19.677608489990234, + "learning_rate": 5.5904e-06, + "loss": 1.0879, + "step": 12025 + }, + { + "epoch": 3.2133333333333334, + "grad_norm": 22.800352096557617, + "learning_rate": 5.577066666666667e-06, + "loss": 1.0934, + "step": 12050 + }, + { + "epoch": 3.22, + "grad_norm": 16.68453598022461, + "learning_rate": 5.563733333333334e-06, + "loss": 1.0841, + "step": 12075 + }, + { + "epoch": 3.2266666666666666, + "grad_norm": 15.928760528564453, + "learning_rate": 5.5504e-06, + "loss": 1.0838, + "step": 12100 + }, + { + "epoch": 3.2333333333333334, + "grad_norm": 18.122135162353516, + "learning_rate": 5.537066666666667e-06, + "loss": 1.0625, + "step": 12125 + }, + { + "epoch": 3.24, + "grad_norm": 20.964998245239258, + "learning_rate": 5.523733333333334e-06, + "loss": 1.0918, + "step": 12150 + }, + { + "epoch": 3.2466666666666666, + "grad_norm": 15.70340347290039, + "learning_rate": 5.5104e-06, + "loss": 1.0724, + "step": 12175 + }, + { + "epoch": 3.2533333333333334, + "grad_norm": 17.02191162109375, + "learning_rate": 5.497066666666667e-06, + "loss": 1.0282, + "step": 12200 + }, + { + "epoch": 3.26, + "grad_norm": 18.49588394165039, + "learning_rate": 5.483733333333334e-06, + "loss": 1.0408, + "step": 12225 + }, + { + "epoch": 3.2666666666666666, + "grad_norm": 22.639266967773438, + "learning_rate": 5.4704e-06, + "loss": 1.0144, + "step": 12250 + }, + { + "epoch": 3.2733333333333334, + "grad_norm": 15.44423770904541, + "learning_rate": 5.457066666666667e-06, + "loss": 1.0855, + "step": 12275 + }, + { + "epoch": 3.2800000000000002, + "grad_norm": 22.963947296142578, + "learning_rate": 5.443733333333334e-06, + "loss": 1.0724, + "step": 12300 + }, + { + "epoch": 3.2866666666666666, + "grad_norm": 40.55472183227539, + "learning_rate": 5.4304e-06, + "loss": 1.0006, + "step": 12325 + }, + { + "epoch": 3.2933333333333334, + "grad_norm": 16.66039276123047, + "learning_rate": 5.417066666666667e-06, + "loss": 1.0219, + "step": 12350 + }, + { + "epoch": 3.3, + "grad_norm": 17.24977684020996, + "learning_rate": 5.403733333333334e-06, + "loss": 1.0322, + "step": 12375 + }, + { + "epoch": 3.3066666666666666, + "grad_norm": 19.019458770751953, + "learning_rate": 5.3904e-06, + "loss": 0.9798, + "step": 12400 + }, + { + "epoch": 3.3133333333333335, + "grad_norm": 16.539546966552734, + "learning_rate": 5.377066666666667e-06, + "loss": 1.0275, + "step": 12425 + }, + { + "epoch": 3.32, + "grad_norm": 18.5068359375, + "learning_rate": 5.363733333333334e-06, + "loss": 0.9877, + "step": 12450 + }, + { + "epoch": 3.3266666666666667, + "grad_norm": 17.11224365234375, + "learning_rate": 5.3504e-06, + "loss": 1.0018, + "step": 12475 + }, + { + "epoch": 3.3333333333333335, + "grad_norm": 22.059823989868164, + "learning_rate": 5.337066666666667e-06, + "loss": 0.9792, + "step": 12500 + }, + { + "epoch": 3.34, + "grad_norm": 17.29637908935547, + "learning_rate": 5.323733333333334e-06, + "loss": 1.0092, + "step": 12525 + }, + { + "epoch": 3.3466666666666667, + "grad_norm": 17.670745849609375, + "learning_rate": 5.3104e-06, + "loss": 0.9614, + "step": 12550 + }, + { + "epoch": 3.3533333333333335, + "grad_norm": 17.957721710205078, + "learning_rate": 5.297066666666667e-06, + "loss": 0.9377, + "step": 12575 + }, + { + "epoch": 3.36, + "grad_norm": 15.852421760559082, + "learning_rate": 5.283733333333334e-06, + "loss": 0.9917, + "step": 12600 + }, + { + "epoch": 3.3666666666666667, + "grad_norm": 17.48896598815918, + "learning_rate": 5.2703999999999995e-06, + "loss": 1.0111, + "step": 12625 + }, + { + "epoch": 3.3733333333333335, + "grad_norm": 21.51535415649414, + "learning_rate": 5.257066666666667e-06, + "loss": 0.9994, + "step": 12650 + }, + { + "epoch": 3.38, + "grad_norm": 15.466875076293945, + "learning_rate": 5.243733333333334e-06, + "loss": 0.9503, + "step": 12675 + }, + { + "epoch": 3.3866666666666667, + "grad_norm": 17.920623779296875, + "learning_rate": 5.2304e-06, + "loss": 0.9589, + "step": 12700 + }, + { + "epoch": 3.3933333333333335, + "grad_norm": 15.586639404296875, + "learning_rate": 5.217066666666667e-06, + "loss": 0.9729, + "step": 12725 + }, + { + "epoch": 3.4, + "grad_norm": 14.783682823181152, + "learning_rate": 5.203733333333334e-06, + "loss": 0.9939, + "step": 12750 + }, + { + "epoch": 3.4066666666666667, + "grad_norm": 17.251596450805664, + "learning_rate": 5.1903999999999995e-06, + "loss": 1.0018, + "step": 12775 + }, + { + "epoch": 3.413333333333333, + "grad_norm": 17.84027862548828, + "learning_rate": 5.1770666666666665e-06, + "loss": 1.0204, + "step": 12800 + }, + { + "epoch": 3.42, + "grad_norm": 17.773284912109375, + "learning_rate": 5.163733333333334e-06, + "loss": 0.9932, + "step": 12825 + }, + { + "epoch": 3.4266666666666667, + "grad_norm": 14.547861099243164, + "learning_rate": 5.150400000000001e-06, + "loss": 0.9254, + "step": 12850 + }, + { + "epoch": 3.4333333333333336, + "grad_norm": 18.212722778320312, + "learning_rate": 5.137066666666667e-06, + "loss": 0.9449, + "step": 12875 + }, + { + "epoch": 3.44, + "grad_norm": 17.448068618774414, + "learning_rate": 5.123733333333334e-06, + "loss": 0.968, + "step": 12900 + }, + { + "epoch": 3.4466666666666668, + "grad_norm": 14.539278030395508, + "learning_rate": 5.110400000000001e-06, + "loss": 0.9434, + "step": 12925 + }, + { + "epoch": 3.453333333333333, + "grad_norm": 16.497657775878906, + "learning_rate": 5.0970666666666665e-06, + "loss": 0.9109, + "step": 12950 + }, + { + "epoch": 3.46, + "grad_norm": 21.03278923034668, + "learning_rate": 5.0837333333333335e-06, + "loss": 0.9416, + "step": 12975 + }, + { + "epoch": 3.466666666666667, + "grad_norm": 17.039134979248047, + "learning_rate": 5.070400000000001e-06, + "loss": 0.9326, + "step": 13000 + }, + { + "epoch": 3.473333333333333, + "grad_norm": 20.275808334350586, + "learning_rate": 5.057066666666667e-06, + "loss": 0.9469, + "step": 13025 + }, + { + "epoch": 3.48, + "grad_norm": 13.91722297668457, + "learning_rate": 5.043733333333334e-06, + "loss": 0.8777, + "step": 13050 + }, + { + "epoch": 3.486666666666667, + "grad_norm": 16.104724884033203, + "learning_rate": 5.030400000000001e-06, + "loss": 0.8625, + "step": 13075 + }, + { + "epoch": 3.493333333333333, + "grad_norm": 15.258910179138184, + "learning_rate": 5.017066666666666e-06, + "loss": 0.9123, + "step": 13100 + }, + { + "epoch": 3.5, + "grad_norm": 17.418960571289062, + "learning_rate": 5.0037333333333335e-06, + "loss": 0.9254, + "step": 13125 + }, + { + "epoch": 3.506666666666667, + "grad_norm": 18.373151779174805, + "learning_rate": 4.9904000000000005e-06, + "loss": 0.8871, + "step": 13150 + }, + { + "epoch": 3.513333333333333, + "grad_norm": 16.638057708740234, + "learning_rate": 4.977066666666668e-06, + "loss": 0.8877, + "step": 13175 + }, + { + "epoch": 3.52, + "grad_norm": 12.856508255004883, + "learning_rate": 4.963733333333334e-06, + "loss": 0.8702, + "step": 13200 + }, + { + "epoch": 3.5266666666666664, + "grad_norm": 19.117931365966797, + "learning_rate": 4.9504e-06, + "loss": 0.8807, + "step": 13225 + }, + { + "epoch": 3.533333333333333, + "grad_norm": 17.68391227722168, + "learning_rate": 4.937066666666667e-06, + "loss": 0.9066, + "step": 13250 + }, + { + "epoch": 3.54, + "grad_norm": 14.352727890014648, + "learning_rate": 4.923733333333333e-06, + "loss": 0.8581, + "step": 13275 + }, + { + "epoch": 3.546666666666667, + "grad_norm": 14.85994815826416, + "learning_rate": 4.9104000000000005e-06, + "loss": 0.8182, + "step": 13300 + }, + { + "epoch": 3.5533333333333332, + "grad_norm": 14.014209747314453, + "learning_rate": 4.8970666666666675e-06, + "loss": 0.8461, + "step": 13325 + }, + { + "epoch": 3.56, + "grad_norm": 15.968679428100586, + "learning_rate": 4.883733333333334e-06, + "loss": 0.8698, + "step": 13350 + }, + { + "epoch": 3.5666666666666664, + "grad_norm": 16.30729103088379, + "learning_rate": 4.8704e-06, + "loss": 0.8544, + "step": 13375 + }, + { + "epoch": 3.5733333333333333, + "grad_norm": 13.584997177124023, + "learning_rate": 4.857066666666667e-06, + "loss": 0.856, + "step": 13400 + }, + { + "epoch": 3.58, + "grad_norm": 18.026212692260742, + "learning_rate": 4.843733333333333e-06, + "loss": 0.9001, + "step": 13425 + }, + { + "epoch": 3.586666666666667, + "grad_norm": 16.47620391845703, + "learning_rate": 4.8304e-06, + "loss": 0.8394, + "step": 13450 + }, + { + "epoch": 3.5933333333333333, + "grad_norm": 17.255191802978516, + "learning_rate": 4.8170666666666674e-06, + "loss": 0.8587, + "step": 13475 + }, + { + "epoch": 3.6, + "grad_norm": 19.972877502441406, + "learning_rate": 4.803733333333334e-06, + "loss": 0.8617, + "step": 13500 + }, + { + "epoch": 3.6066666666666665, + "grad_norm": 21.419614791870117, + "learning_rate": 4.790400000000001e-06, + "loss": 0.807, + "step": 13525 + }, + { + "epoch": 3.6133333333333333, + "grad_norm": 16.40117073059082, + "learning_rate": 4.777066666666667e-06, + "loss": 0.8205, + "step": 13550 + }, + { + "epoch": 3.62, + "grad_norm": 12.977128028869629, + "learning_rate": 4.763733333333333e-06, + "loss": 0.8278, + "step": 13575 + }, + { + "epoch": 3.626666666666667, + "grad_norm": 15.489951133728027, + "learning_rate": 4.7504e-06, + "loss": 0.869, + "step": 13600 + }, + { + "epoch": 3.6333333333333333, + "grad_norm": 16.52937126159668, + "learning_rate": 4.737066666666667e-06, + "loss": 0.8563, + "step": 13625 + }, + { + "epoch": 3.64, + "grad_norm": 14.832707405090332, + "learning_rate": 4.723733333333334e-06, + "loss": 0.8407, + "step": 13650 + }, + { + "epoch": 3.6466666666666665, + "grad_norm": 14.225584983825684, + "learning_rate": 4.710400000000001e-06, + "loss": 0.855, + "step": 13675 + }, + { + "epoch": 3.6533333333333333, + "grad_norm": 15.1937894821167, + "learning_rate": 4.697066666666667e-06, + "loss": 0.8503, + "step": 13700 + }, + { + "epoch": 3.66, + "grad_norm": 20.8448486328125, + "learning_rate": 4.683733333333333e-06, + "loss": 0.837, + "step": 13725 + }, + { + "epoch": 3.6666666666666665, + "grad_norm": 18.722503662109375, + "learning_rate": 4.6704e-06, + "loss": 0.8518, + "step": 13750 + }, + { + "epoch": 3.6733333333333333, + "grad_norm": 15.763017654418945, + "learning_rate": 4.657066666666667e-06, + "loss": 0.847, + "step": 13775 + }, + { + "epoch": 3.68, + "grad_norm": 14.237225532531738, + "learning_rate": 4.643733333333334e-06, + "loss": 0.833, + "step": 13800 + }, + { + "epoch": 3.6866666666666665, + "grad_norm": 15.93371868133545, + "learning_rate": 4.630400000000001e-06, + "loss": 0.7715, + "step": 13825 + }, + { + "epoch": 3.6933333333333334, + "grad_norm": 16.834442138671875, + "learning_rate": 4.617066666666667e-06, + "loss": 0.7939, + "step": 13850 + }, + { + "epoch": 3.7, + "grad_norm": 14.779914855957031, + "learning_rate": 4.603733333333334e-06, + "loss": 0.826, + "step": 13875 + }, + { + "epoch": 3.7066666666666666, + "grad_norm": 14.851834297180176, + "learning_rate": 4.5904e-06, + "loss": 0.8093, + "step": 13900 + }, + { + "epoch": 3.7133333333333334, + "grad_norm": 15.832619667053223, + "learning_rate": 4.577066666666667e-06, + "loss": 0.8001, + "step": 13925 + }, + { + "epoch": 3.7199999999999998, + "grad_norm": 15.522562026977539, + "learning_rate": 4.563733333333334e-06, + "loss": 0.7997, + "step": 13950 + }, + { + "epoch": 3.7266666666666666, + "grad_norm": 16.191804885864258, + "learning_rate": 4.5504000000000005e-06, + "loss": 0.8179, + "step": 13975 + }, + { + "epoch": 3.7333333333333334, + "grad_norm": 13.423377990722656, + "learning_rate": 4.537066666666667e-06, + "loss": 0.8197, + "step": 14000 + }, + { + "epoch": 3.74, + "grad_norm": 15.204197883605957, + "learning_rate": 4.523733333333334e-06, + "loss": 0.7643, + "step": 14025 + }, + { + "epoch": 3.7466666666666666, + "grad_norm": 15.547144889831543, + "learning_rate": 4.5104e-06, + "loss": 0.8349, + "step": 14050 + }, + { + "epoch": 3.7533333333333334, + "grad_norm": 20.433292388916016, + "learning_rate": 4.497066666666667e-06, + "loss": 0.8119, + "step": 14075 + }, + { + "epoch": 3.76, + "grad_norm": 15.60657024383545, + "learning_rate": 4.483733333333334e-06, + "loss": 0.8329, + "step": 14100 + }, + { + "epoch": 3.7666666666666666, + "grad_norm": 15.675518035888672, + "learning_rate": 4.4704000000000004e-06, + "loss": 0.7925, + "step": 14125 + }, + { + "epoch": 3.7733333333333334, + "grad_norm": 15.40324592590332, + "learning_rate": 4.457066666666667e-06, + "loss": 0.819, + "step": 14150 + }, + { + "epoch": 3.7800000000000002, + "grad_norm": 17.615110397338867, + "learning_rate": 4.443733333333334e-06, + "loss": 0.8187, + "step": 14175 + }, + { + "epoch": 3.7866666666666666, + "grad_norm": 15.199728012084961, + "learning_rate": 4.4304e-06, + "loss": 0.8083, + "step": 14200 + }, + { + "epoch": 3.7933333333333334, + "grad_norm": 13.343485832214355, + "learning_rate": 4.417066666666667e-06, + "loss": 0.7637, + "step": 14225 + }, + { + "epoch": 3.8, + "grad_norm": 15.899085998535156, + "learning_rate": 4.403733333333334e-06, + "loss": 0.7973, + "step": 14250 + }, + { + "epoch": 3.8066666666666666, + "grad_norm": 14.101431846618652, + "learning_rate": 4.3904e-06, + "loss": 0.7781, + "step": 14275 + }, + { + "epoch": 3.8133333333333335, + "grad_norm": 15.537914276123047, + "learning_rate": 4.3770666666666674e-06, + "loss": 0.7743, + "step": 14300 + }, + { + "epoch": 3.82, + "grad_norm": 12.883047103881836, + "learning_rate": 4.363733333333334e-06, + "loss": 0.8066, + "step": 14325 + }, + { + "epoch": 3.8266666666666667, + "grad_norm": 14.942289352416992, + "learning_rate": 4.3504e-06, + "loss": 0.8025, + "step": 14350 + }, + { + "epoch": 3.8333333333333335, + "grad_norm": 19.595613479614258, + "learning_rate": 4.337066666666667e-06, + "loss": 0.7109, + "step": 14375 + }, + { + "epoch": 3.84, + "grad_norm": 15.804436683654785, + "learning_rate": 4.323733333333334e-06, + "loss": 0.7644, + "step": 14400 + }, + { + "epoch": 3.8466666666666667, + "grad_norm": 16.951135635375977, + "learning_rate": 4.3104e-06, + "loss": 0.8003, + "step": 14425 + }, + { + "epoch": 3.8533333333333335, + "grad_norm": 14.786599159240723, + "learning_rate": 4.297066666666667e-06, + "loss": 0.7621, + "step": 14450 + }, + { + "epoch": 3.86, + "grad_norm": 13.322193145751953, + "learning_rate": 4.2837333333333336e-06, + "loss": 0.8041, + "step": 14475 + }, + { + "epoch": 3.8666666666666667, + "grad_norm": 18.618938446044922, + "learning_rate": 4.2704e-06, + "loss": 0.789, + "step": 14500 + }, + { + "epoch": 3.873333333333333, + "grad_norm": 16.06519317626953, + "learning_rate": 4.257066666666667e-06, + "loss": 0.7971, + "step": 14525 + }, + { + "epoch": 3.88, + "grad_norm": 14.851585388183594, + "learning_rate": 4.243733333333334e-06, + "loss": 0.7695, + "step": 14550 + }, + { + "epoch": 3.8866666666666667, + "grad_norm": 20.466129302978516, + "learning_rate": 4.230400000000001e-06, + "loss": 0.7242, + "step": 14575 + }, + { + "epoch": 3.8933333333333335, + "grad_norm": 17.568323135375977, + "learning_rate": 4.217066666666667e-06, + "loss": 0.7213, + "step": 14600 + }, + { + "epoch": 3.9, + "grad_norm": 18.63966941833496, + "learning_rate": 4.2037333333333335e-06, + "loss": 0.766, + "step": 14625 + }, + { + "epoch": 3.9066666666666667, + "grad_norm": 14.101798057556152, + "learning_rate": 4.1904000000000006e-06, + "loss": 0.7521, + "step": 14650 + }, + { + "epoch": 3.913333333333333, + "grad_norm": 13.927946090698242, + "learning_rate": 4.177066666666667e-06, + "loss": 0.7534, + "step": 14675 + }, + { + "epoch": 3.92, + "grad_norm": 13.884803771972656, + "learning_rate": 4.163733333333334e-06, + "loss": 0.7879, + "step": 14700 + }, + { + "epoch": 3.9266666666666667, + "grad_norm": 13.809706687927246, + "learning_rate": 4.150400000000001e-06, + "loss": 0.731, + "step": 14725 + }, + { + "epoch": 3.9333333333333336, + "grad_norm": 14.635958671569824, + "learning_rate": 4.137066666666667e-06, + "loss": 0.7426, + "step": 14750 + }, + { + "epoch": 3.94, + "grad_norm": 13.908584594726562, + "learning_rate": 4.123733333333333e-06, + "loss": 0.7521, + "step": 14775 + }, + { + "epoch": 3.9466666666666668, + "grad_norm": 14.646370887756348, + "learning_rate": 4.1104000000000005e-06, + "loss": 0.7474, + "step": 14800 + }, + { + "epoch": 3.953333333333333, + "grad_norm": 14.246283531188965, + "learning_rate": 4.097066666666667e-06, + "loss": 0.7325, + "step": 14825 + }, + { + "epoch": 3.96, + "grad_norm": 18.420543670654297, + "learning_rate": 4.083733333333334e-06, + "loss": 0.7487, + "step": 14850 + }, + { + "epoch": 3.966666666666667, + "grad_norm": 14.521321296691895, + "learning_rate": 4.070400000000001e-06, + "loss": 0.7201, + "step": 14875 + }, + { + "epoch": 3.9733333333333336, + "grad_norm": 15.251025199890137, + "learning_rate": 4.057066666666667e-06, + "loss": 0.7832, + "step": 14900 + }, + { + "epoch": 3.98, + "grad_norm": 16.852941513061523, + "learning_rate": 4.043733333333333e-06, + "loss": 0.7793, + "step": 14925 + }, + { + "epoch": 3.986666666666667, + "grad_norm": 15.878645896911621, + "learning_rate": 4.0304e-06, + "loss": 0.7162, + "step": 14950 + }, + { + "epoch": 3.993333333333333, + "grad_norm": 15.512751579284668, + "learning_rate": 4.017066666666667e-06, + "loss": 0.7235, + "step": 14975 + }, + { + "epoch": 4.0, + "grad_norm": 12.685734748840332, + "learning_rate": 4.003733333333334e-06, + "loss": 0.7219, + "step": 15000 + }, + { + "epoch": 4.0, + "eval_cer": 49.14559379833405, + "eval_loss": 0.806309163570404, + "eval_runtime": 1015.7833, + "eval_samples_per_second": 4.922, + "eval_steps_per_second": 0.615, + "step": 15000 + }, + { + "epoch": 4.006666666666667, + "grad_norm": 14.289361953735352, + "learning_rate": 3.990400000000001e-06, + "loss": 0.6287, + "step": 15025 + }, + { + "epoch": 4.013333333333334, + "grad_norm": 13.437457084655762, + "learning_rate": 3.977066666666667e-06, + "loss": 0.6595, + "step": 15050 + }, + { + "epoch": 4.02, + "grad_norm": 17.1053524017334, + "learning_rate": 3.963733333333334e-06, + "loss": 0.6363, + "step": 15075 + }, + { + "epoch": 4.026666666666666, + "grad_norm": 13.047844886779785, + "learning_rate": 3.9504e-06, + "loss": 0.5848, + "step": 15100 + }, + { + "epoch": 4.033333333333333, + "grad_norm": 13.552572250366211, + "learning_rate": 3.9370666666666666e-06, + "loss": 0.627, + "step": 15125 + }, + { + "epoch": 4.04, + "grad_norm": 12.084563255310059, + "learning_rate": 3.923733333333334e-06, + "loss": 0.6102, + "step": 15150 + }, + { + "epoch": 4.046666666666667, + "grad_norm": 13.078583717346191, + "learning_rate": 3.910400000000001e-06, + "loss": 0.621, + "step": 15175 + }, + { + "epoch": 4.053333333333334, + "grad_norm": 12.231912612915039, + "learning_rate": 3.897066666666667e-06, + "loss": 0.6117, + "step": 15200 + }, + { + "epoch": 4.06, + "grad_norm": 11.252701759338379, + "learning_rate": 3.883733333333334e-06, + "loss": 0.6279, + "step": 15225 + }, + { + "epoch": 4.066666666666666, + "grad_norm": 12.882429122924805, + "learning_rate": 3.8704e-06, + "loss": 0.6322, + "step": 15250 + }, + { + "epoch": 4.073333333333333, + "grad_norm": 13.67383098602295, + "learning_rate": 3.8570666666666665e-06, + "loss": 0.6131, + "step": 15275 + }, + { + "epoch": 4.08, + "grad_norm": 12.893893241882324, + "learning_rate": 3.8437333333333336e-06, + "loss": 0.6352, + "step": 15300 + }, + { + "epoch": 4.086666666666667, + "grad_norm": 13.813310623168945, + "learning_rate": 3.830400000000001e-06, + "loss": 0.5968, + "step": 15325 + }, + { + "epoch": 4.093333333333334, + "grad_norm": 13.154492378234863, + "learning_rate": 3.817066666666667e-06, + "loss": 0.5867, + "step": 15350 + }, + { + "epoch": 4.1, + "grad_norm": 12.078230857849121, + "learning_rate": 3.8037333333333335e-06, + "loss": 0.5791, + "step": 15375 + }, + { + "epoch": 4.1066666666666665, + "grad_norm": 13.995023727416992, + "learning_rate": 3.7904e-06, + "loss": 0.6244, + "step": 15400 + }, + { + "epoch": 4.113333333333333, + "grad_norm": 17.068313598632812, + "learning_rate": 3.7770666666666672e-06, + "loss": 0.6137, + "step": 15425 + }, + { + "epoch": 4.12, + "grad_norm": 11.062708854675293, + "learning_rate": 3.7637333333333335e-06, + "loss": 0.5851, + "step": 15450 + }, + { + "epoch": 4.126666666666667, + "grad_norm": 11.240598678588867, + "learning_rate": 3.7504e-06, + "loss": 0.597, + "step": 15475 + }, + { + "epoch": 4.133333333333334, + "grad_norm": 12.456278800964355, + "learning_rate": 3.737066666666667e-06, + "loss": 0.5603, + "step": 15500 + }, + { + "epoch": 4.14, + "grad_norm": 16.469541549682617, + "learning_rate": 3.723733333333334e-06, + "loss": 0.5854, + "step": 15525 + }, + { + "epoch": 4.1466666666666665, + "grad_norm": 12.979583740234375, + "learning_rate": 3.7104e-06, + "loss": 0.6023, + "step": 15550 + }, + { + "epoch": 4.153333333333333, + "grad_norm": 13.850248336791992, + "learning_rate": 3.697066666666667e-06, + "loss": 0.6194, + "step": 15575 + }, + { + "epoch": 4.16, + "grad_norm": 12.601936340332031, + "learning_rate": 3.683733333333334e-06, + "loss": 0.5911, + "step": 15600 + }, + { + "epoch": 4.166666666666667, + "grad_norm": 14.640934944152832, + "learning_rate": 3.6704e-06, + "loss": 0.6172, + "step": 15625 + }, + { + "epoch": 4.173333333333334, + "grad_norm": 15.305973052978516, + "learning_rate": 3.657066666666667e-06, + "loss": 0.6182, + "step": 15650 + }, + { + "epoch": 4.18, + "grad_norm": 12.10018539428711, + "learning_rate": 3.6437333333333338e-06, + "loss": 0.5974, + "step": 15675 + }, + { + "epoch": 4.1866666666666665, + "grad_norm": 13.860063552856445, + "learning_rate": 3.6304e-06, + "loss": 0.6031, + "step": 15700 + }, + { + "epoch": 4.193333333333333, + "grad_norm": 13.83252239227295, + "learning_rate": 3.617066666666667e-06, + "loss": 0.6052, + "step": 15725 + }, + { + "epoch": 4.2, + "grad_norm": 11.443724632263184, + "learning_rate": 3.6037333333333337e-06, + "loss": 0.5816, + "step": 15750 + }, + { + "epoch": 4.206666666666667, + "grad_norm": 11.13795280456543, + "learning_rate": 3.5904000000000004e-06, + "loss": 0.5726, + "step": 15775 + }, + { + "epoch": 4.213333333333333, + "grad_norm": 15.3640775680542, + "learning_rate": 3.577066666666667e-06, + "loss": 0.5934, + "step": 15800 + }, + { + "epoch": 4.22, + "grad_norm": 14.399303436279297, + "learning_rate": 3.5637333333333337e-06, + "loss": 0.6141, + "step": 15825 + }, + { + "epoch": 4.226666666666667, + "grad_norm": 12.934828758239746, + "learning_rate": 3.5504000000000003e-06, + "loss": 0.5743, + "step": 15850 + }, + { + "epoch": 4.233333333333333, + "grad_norm": 12.162245750427246, + "learning_rate": 3.537066666666667e-06, + "loss": 0.5745, + "step": 15875 + }, + { + "epoch": 4.24, + "grad_norm": 12.394309997558594, + "learning_rate": 3.5237333333333337e-06, + "loss": 0.5751, + "step": 15900 + }, + { + "epoch": 4.246666666666667, + "grad_norm": 12.99043083190918, + "learning_rate": 3.5104000000000003e-06, + "loss": 0.6041, + "step": 15925 + }, + { + "epoch": 4.253333333333333, + "grad_norm": 16.74369239807129, + "learning_rate": 3.497066666666667e-06, + "loss": 0.6005, + "step": 15950 + }, + { + "epoch": 4.26, + "grad_norm": 14.432161331176758, + "learning_rate": 3.4837333333333336e-06, + "loss": 0.5981, + "step": 15975 + }, + { + "epoch": 4.266666666666667, + "grad_norm": 12.953250885009766, + "learning_rate": 3.4704000000000003e-06, + "loss": 0.5671, + "step": 16000 + }, + { + "epoch": 4.273333333333333, + "grad_norm": 13.241680145263672, + "learning_rate": 3.457066666666667e-06, + "loss": 0.5796, + "step": 16025 + }, + { + "epoch": 4.28, + "grad_norm": 11.939583778381348, + "learning_rate": 3.4437333333333336e-06, + "loss": 0.5787, + "step": 16050 + }, + { + "epoch": 4.286666666666667, + "grad_norm": 12.91910457611084, + "learning_rate": 3.4304000000000002e-06, + "loss": 0.6134, + "step": 16075 + }, + { + "epoch": 4.293333333333333, + "grad_norm": 14.741557121276855, + "learning_rate": 3.417066666666667e-06, + "loss": 0.5628, + "step": 16100 + }, + { + "epoch": 4.3, + "grad_norm": 15.951726913452148, + "learning_rate": 3.403733333333334e-06, + "loss": 0.5394, + "step": 16125 + }, + { + "epoch": 4.306666666666667, + "grad_norm": 11.719121932983398, + "learning_rate": 3.3904e-06, + "loss": 0.6247, + "step": 16150 + }, + { + "epoch": 4.3133333333333335, + "grad_norm": 13.562647819519043, + "learning_rate": 3.377066666666667e-06, + "loss": 0.5841, + "step": 16175 + }, + { + "epoch": 4.32, + "grad_norm": 10.644658088684082, + "learning_rate": 3.363733333333334e-06, + "loss": 0.6126, + "step": 16200 + }, + { + "epoch": 4.326666666666666, + "grad_norm": 14.556764602661133, + "learning_rate": 3.350933333333334e-06, + "loss": 0.5728, + "step": 16225 + }, + { + "epoch": 4.333333333333333, + "grad_norm": 12.998933792114258, + "learning_rate": 3.3376000000000005e-06, + "loss": 0.626, + "step": 16250 + }, + { + "epoch": 4.34, + "grad_norm": 14.279756546020508, + "learning_rate": 3.3242666666666667e-06, + "loss": 0.6016, + "step": 16275 + }, + { + "epoch": 4.346666666666667, + "grad_norm": 11.278815269470215, + "learning_rate": 3.3109333333333338e-06, + "loss": 0.557, + "step": 16300 + }, + { + "epoch": 4.3533333333333335, + "grad_norm": 13.454874038696289, + "learning_rate": 3.2976000000000004e-06, + "loss": 0.5755, + "step": 16325 + }, + { + "epoch": 4.36, + "grad_norm": 12.35019302368164, + "learning_rate": 3.2842666666666666e-06, + "loss": 0.5684, + "step": 16350 + }, + { + "epoch": 4.366666666666666, + "grad_norm": 11.618946075439453, + "learning_rate": 3.2709333333333337e-06, + "loss": 0.5558, + "step": 16375 + }, + { + "epoch": 4.373333333333333, + "grad_norm": 12.919294357299805, + "learning_rate": 3.2576000000000004e-06, + "loss": 0.599, + "step": 16400 + }, + { + "epoch": 4.38, + "grad_norm": 13.239322662353516, + "learning_rate": 3.2442666666666666e-06, + "loss": 0.5534, + "step": 16425 + }, + { + "epoch": 4.386666666666667, + "grad_norm": 13.732080459594727, + "learning_rate": 3.2309333333333337e-06, + "loss": 0.576, + "step": 16450 + }, + { + "epoch": 4.3933333333333335, + "grad_norm": 16.239593505859375, + "learning_rate": 3.2176000000000003e-06, + "loss": 0.5809, + "step": 16475 + }, + { + "epoch": 4.4, + "grad_norm": 14.283909797668457, + "learning_rate": 3.204266666666667e-06, + "loss": 0.6169, + "step": 16500 + }, + { + "epoch": 4.406666666666666, + "grad_norm": 16.369403839111328, + "learning_rate": 3.1909333333333336e-06, + "loss": 0.564, + "step": 16525 + }, + { + "epoch": 4.413333333333333, + "grad_norm": 13.093811988830566, + "learning_rate": 3.1776000000000003e-06, + "loss": 0.5872, + "step": 16550 + }, + { + "epoch": 4.42, + "grad_norm": 13.088796615600586, + "learning_rate": 3.164266666666667e-06, + "loss": 0.5658, + "step": 16575 + }, + { + "epoch": 4.426666666666667, + "grad_norm": 13.313385963439941, + "learning_rate": 3.1509333333333336e-06, + "loss": 0.5714, + "step": 16600 + }, + { + "epoch": 4.433333333333334, + "grad_norm": 12.119434356689453, + "learning_rate": 3.1376000000000002e-06, + "loss": 0.5668, + "step": 16625 + }, + { + "epoch": 4.44, + "grad_norm": 13.675881385803223, + "learning_rate": 3.124266666666667e-06, + "loss": 0.5551, + "step": 16650 + }, + { + "epoch": 4.446666666666666, + "grad_norm": 12.990140914916992, + "learning_rate": 3.1109333333333336e-06, + "loss": 0.5447, + "step": 16675 + }, + { + "epoch": 4.453333333333333, + "grad_norm": 15.184630393981934, + "learning_rate": 3.0976e-06, + "loss": 0.5809, + "step": 16700 + }, + { + "epoch": 4.46, + "grad_norm": 12.072659492492676, + "learning_rate": 3.0842666666666673e-06, + "loss": 0.5451, + "step": 16725 + }, + { + "epoch": 4.466666666666667, + "grad_norm": 12.795877456665039, + "learning_rate": 3.0709333333333335e-06, + "loss": 0.5472, + "step": 16750 + }, + { + "epoch": 4.473333333333334, + "grad_norm": 12.055028915405273, + "learning_rate": 3.0576e-06, + "loss": 0.5631, + "step": 16775 + }, + { + "epoch": 4.48, + "grad_norm": 14.3660306930542, + "learning_rate": 3.0442666666666672e-06, + "loss": 0.5663, + "step": 16800 + }, + { + "epoch": 4.486666666666666, + "grad_norm": 12.650264739990234, + "learning_rate": 3.0309333333333335e-06, + "loss": 0.5459, + "step": 16825 + }, + { + "epoch": 4.493333333333333, + "grad_norm": 10.95394229888916, + "learning_rate": 3.0176e-06, + "loss": 0.545, + "step": 16850 + }, + { + "epoch": 4.5, + "grad_norm": 13.446609497070312, + "learning_rate": 3.004266666666667e-06, + "loss": 0.5762, + "step": 16875 + }, + { + "epoch": 4.506666666666667, + "grad_norm": 13.137860298156738, + "learning_rate": 2.9909333333333334e-06, + "loss": 0.5902, + "step": 16900 + }, + { + "epoch": 4.513333333333334, + "grad_norm": 13.372554779052734, + "learning_rate": 2.9776000000000005e-06, + "loss": 0.5693, + "step": 16925 + }, + { + "epoch": 4.52, + "grad_norm": 12.754899978637695, + "learning_rate": 2.964266666666667e-06, + "loss": 0.5216, + "step": 16950 + }, + { + "epoch": 4.526666666666666, + "grad_norm": 11.780191421508789, + "learning_rate": 2.9509333333333334e-06, + "loss": 0.5671, + "step": 16975 + }, + { + "epoch": 4.533333333333333, + "grad_norm": 13.690178871154785, + "learning_rate": 2.9381333333333333e-06, + "loss": 0.5791, + "step": 17000 + }, + { + "epoch": 4.54, + "grad_norm": 15.666936874389648, + "learning_rate": 2.9248000000000004e-06, + "loss": 0.5219, + "step": 17025 + }, + { + "epoch": 4.546666666666667, + "grad_norm": 15.298949241638184, + "learning_rate": 2.911466666666667e-06, + "loss": 0.5513, + "step": 17050 + }, + { + "epoch": 4.553333333333334, + "grad_norm": 14.390460014343262, + "learning_rate": 2.8981333333333332e-06, + "loss": 0.5507, + "step": 17075 + }, + { + "epoch": 4.5600000000000005, + "grad_norm": 12.460347175598145, + "learning_rate": 2.8848000000000003e-06, + "loss": 0.5648, + "step": 17100 + }, + { + "epoch": 4.566666666666666, + "grad_norm": 12.278656005859375, + "learning_rate": 2.871466666666667e-06, + "loss": 0.5757, + "step": 17125 + }, + { + "epoch": 4.573333333333333, + "grad_norm": 14.133831024169922, + "learning_rate": 2.858133333333333e-06, + "loss": 0.5553, + "step": 17150 + }, + { + "epoch": 4.58, + "grad_norm": 12.028793334960938, + "learning_rate": 2.8448000000000003e-06, + "loss": 0.5486, + "step": 17175 + }, + { + "epoch": 4.586666666666667, + "grad_norm": 15.197615623474121, + "learning_rate": 2.831466666666667e-06, + "loss": 0.5647, + "step": 17200 + }, + { + "epoch": 4.593333333333334, + "grad_norm": 11.086433410644531, + "learning_rate": 2.818133333333334e-06, + "loss": 0.5543, + "step": 17225 + }, + { + "epoch": 4.6, + "grad_norm": 11.695012092590332, + "learning_rate": 2.8048000000000002e-06, + "loss": 0.5459, + "step": 17250 + }, + { + "epoch": 4.6066666666666665, + "grad_norm": 12.225008010864258, + "learning_rate": 2.791466666666667e-06, + "loss": 0.5324, + "step": 17275 + }, + { + "epoch": 4.613333333333333, + "grad_norm": 13.173316955566406, + "learning_rate": 2.778133333333334e-06, + "loss": 0.5401, + "step": 17300 + }, + { + "epoch": 4.62, + "grad_norm": 10.923612594604492, + "learning_rate": 2.7648e-06, + "loss": 0.5685, + "step": 17325 + }, + { + "epoch": 4.626666666666667, + "grad_norm": 12.482588768005371, + "learning_rate": 2.751466666666667e-06, + "loss": 0.5478, + "step": 17350 + }, + { + "epoch": 4.633333333333333, + "grad_norm": 11.510381698608398, + "learning_rate": 2.738133333333334e-06, + "loss": 0.5835, + "step": 17375 + }, + { + "epoch": 4.64, + "grad_norm": 14.418970108032227, + "learning_rate": 2.7248e-06, + "loss": 0.5786, + "step": 17400 + }, + { + "epoch": 4.6466666666666665, + "grad_norm": 13.74117660522461, + "learning_rate": 2.711466666666667e-06, + "loss": 0.5321, + "step": 17425 + }, + { + "epoch": 4.653333333333333, + "grad_norm": 11.397595405578613, + "learning_rate": 2.698133333333334e-06, + "loss": 0.5538, + "step": 17450 + }, + { + "epoch": 4.66, + "grad_norm": 12.26833724975586, + "learning_rate": 2.6848e-06, + "loss": 0.5625, + "step": 17475 + }, + { + "epoch": 4.666666666666667, + "grad_norm": 11.30891227722168, + "learning_rate": 2.6714666666666668e-06, + "loss": 0.5378, + "step": 17500 + }, + { + "epoch": 4.673333333333334, + "grad_norm": 12.886706352233887, + "learning_rate": 2.658133333333334e-06, + "loss": 0.5599, + "step": 17525 + }, + { + "epoch": 4.68, + "grad_norm": 13.417492866516113, + "learning_rate": 2.6448e-06, + "loss": 0.5766, + "step": 17550 + }, + { + "epoch": 4.6866666666666665, + "grad_norm": 12.227704048156738, + "learning_rate": 2.6314666666666667e-06, + "loss": 0.5403, + "step": 17575 + }, + { + "epoch": 4.693333333333333, + "grad_norm": 13.279901504516602, + "learning_rate": 2.618133333333334e-06, + "loss": 0.542, + "step": 17600 + }, + { + "epoch": 4.7, + "grad_norm": 12.714252471923828, + "learning_rate": 2.6048e-06, + "loss": 0.56, + "step": 17625 + }, + { + "epoch": 4.706666666666667, + "grad_norm": 10.60771369934082, + "learning_rate": 2.591466666666667e-06, + "loss": 0.5243, + "step": 17650 + }, + { + "epoch": 4.713333333333333, + "grad_norm": 12.27328872680664, + "learning_rate": 2.5781333333333338e-06, + "loss": 0.5337, + "step": 17675 + }, + { + "epoch": 4.72, + "grad_norm": 12.52647590637207, + "learning_rate": 2.5648e-06, + "loss": 0.5551, + "step": 17700 + }, + { + "epoch": 4.726666666666667, + "grad_norm": 12.64376449584961, + "learning_rate": 2.551466666666667e-06, + "loss": 0.5291, + "step": 17725 + }, + { + "epoch": 4.733333333333333, + "grad_norm": 14.33850383758545, + "learning_rate": 2.5381333333333337e-06, + "loss": 0.5287, + "step": 17750 + }, + { + "epoch": 4.74, + "grad_norm": 11.983973503112793, + "learning_rate": 2.5248e-06, + "loss": 0.5492, + "step": 17775 + }, + { + "epoch": 4.746666666666667, + "grad_norm": 11.225508689880371, + "learning_rate": 2.511466666666667e-06, + "loss": 0.4987, + "step": 17800 + }, + { + "epoch": 4.753333333333333, + "grad_norm": 11.447752952575684, + "learning_rate": 2.4981333333333337e-06, + "loss": 0.5258, + "step": 17825 + }, + { + "epoch": 4.76, + "grad_norm": 10.124119758605957, + "learning_rate": 2.4848000000000003e-06, + "loss": 0.5353, + "step": 17850 + }, + { + "epoch": 4.766666666666667, + "grad_norm": 13.318207740783691, + "learning_rate": 2.4714666666666666e-06, + "loss": 0.5515, + "step": 17875 + }, + { + "epoch": 4.773333333333333, + "grad_norm": 15.049631118774414, + "learning_rate": 2.4581333333333336e-06, + "loss": 0.5407, + "step": 17900 + }, + { + "epoch": 4.78, + "grad_norm": 12.671513557434082, + "learning_rate": 2.4448000000000003e-06, + "loss": 0.5055, + "step": 17925 + }, + { + "epoch": 4.786666666666667, + "grad_norm": 12.041598320007324, + "learning_rate": 2.431466666666667e-06, + "loss": 0.5609, + "step": 17950 + }, + { + "epoch": 4.793333333333333, + "grad_norm": 13.520513534545898, + "learning_rate": 2.4181333333333336e-06, + "loss": 0.5364, + "step": 17975 + }, + { + "epoch": 4.8, + "grad_norm": 17.017263412475586, + "learning_rate": 2.4048000000000003e-06, + "loss": 0.5261, + "step": 18000 + }, + { + "epoch": 4.806666666666667, + "grad_norm": 14.564126968383789, + "learning_rate": 2.391466666666667e-06, + "loss": 0.5207, + "step": 18025 + }, + { + "epoch": 4.8133333333333335, + "grad_norm": 14.235724449157715, + "learning_rate": 2.3781333333333336e-06, + "loss": 0.5652, + "step": 18050 + }, + { + "epoch": 4.82, + "grad_norm": 13.454742431640625, + "learning_rate": 2.3648e-06, + "loss": 0.5327, + "step": 18075 + }, + { + "epoch": 4.826666666666666, + "grad_norm": 18.96915626525879, + "learning_rate": 2.351466666666667e-06, + "loss": 0.5262, + "step": 18100 + }, + { + "epoch": 4.833333333333333, + "grad_norm": 15.499292373657227, + "learning_rate": 2.3381333333333335e-06, + "loss": 0.5125, + "step": 18125 + }, + { + "epoch": 4.84, + "grad_norm": 12.88327407836914, + "learning_rate": 2.3248e-06, + "loss": 0.5179, + "step": 18150 + }, + { + "epoch": 4.846666666666667, + "grad_norm": 11.603482246398926, + "learning_rate": 2.311466666666667e-06, + "loss": 0.5438, + "step": 18175 + }, + { + "epoch": 4.8533333333333335, + "grad_norm": 11.857097625732422, + "learning_rate": 2.2981333333333335e-06, + "loss": 0.5154, + "step": 18200 + }, + { + "epoch": 4.86, + "grad_norm": 12.624696731567383, + "learning_rate": 2.2848e-06, + "loss": 0.4918, + "step": 18225 + }, + { + "epoch": 4.866666666666667, + "grad_norm": 12.489673614501953, + "learning_rate": 2.2714666666666668e-06, + "loss": 0.4963, + "step": 18250 + }, + { + "epoch": 4.873333333333333, + "grad_norm": 15.11782455444336, + "learning_rate": 2.2581333333333334e-06, + "loss": 0.5208, + "step": 18275 + }, + { + "epoch": 4.88, + "grad_norm": 12.452991485595703, + "learning_rate": 2.2448000000000005e-06, + "loss": 0.5611, + "step": 18300 + }, + { + "epoch": 4.886666666666667, + "grad_norm": 11.177996635437012, + "learning_rate": 2.2314666666666667e-06, + "loss": 0.5237, + "step": 18325 + }, + { + "epoch": 4.8933333333333335, + "grad_norm": 12.216129302978516, + "learning_rate": 2.2181333333333334e-06, + "loss": 0.4784, + "step": 18350 + }, + { + "epoch": 4.9, + "grad_norm": 10.368169784545898, + "learning_rate": 2.2048000000000005e-06, + "loss": 0.5567, + "step": 18375 + }, + { + "epoch": 4.906666666666666, + "grad_norm": 11.962347984313965, + "learning_rate": 2.1914666666666667e-06, + "loss": 0.5338, + "step": 18400 + }, + { + "epoch": 4.913333333333333, + "grad_norm": 12.6566743850708, + "learning_rate": 2.1781333333333334e-06, + "loss": 0.5133, + "step": 18425 + }, + { + "epoch": 4.92, + "grad_norm": 11.35362720489502, + "learning_rate": 2.1648000000000004e-06, + "loss": 0.5217, + "step": 18450 + }, + { + "epoch": 4.926666666666667, + "grad_norm": 12.255300521850586, + "learning_rate": 2.151466666666667e-06, + "loss": 0.5218, + "step": 18475 + }, + { + "epoch": 4.933333333333334, + "grad_norm": 12.370055198669434, + "learning_rate": 2.1381333333333333e-06, + "loss": 0.523, + "step": 18500 + }, + { + "epoch": 4.9399999999999995, + "grad_norm": 11.088907241821289, + "learning_rate": 2.1248000000000004e-06, + "loss": 0.5457, + "step": 18525 + }, + { + "epoch": 4.946666666666666, + "grad_norm": 12.14040470123291, + "learning_rate": 2.111466666666667e-06, + "loss": 0.5293, + "step": 18550 + }, + { + "epoch": 4.953333333333333, + "grad_norm": 12.277812957763672, + "learning_rate": 2.0981333333333333e-06, + "loss": 0.5194, + "step": 18575 + }, + { + "epoch": 4.96, + "grad_norm": 23.09523582458496, + "learning_rate": 2.0848000000000004e-06, + "loss": 0.5107, + "step": 18600 + }, + { + "epoch": 4.966666666666667, + "grad_norm": 12.540942192077637, + "learning_rate": 2.071466666666667e-06, + "loss": 0.5117, + "step": 18625 + }, + { + "epoch": 4.973333333333334, + "grad_norm": 17.492115020751953, + "learning_rate": 2.0581333333333332e-06, + "loss": 0.5015, + "step": 18650 + }, + { + "epoch": 4.98, + "grad_norm": 12.76939582824707, + "learning_rate": 2.0448000000000003e-06, + "loss": 0.5471, + "step": 18675 + }, + { + "epoch": 4.986666666666666, + "grad_norm": 12.47193717956543, + "learning_rate": 2.031466666666667e-06, + "loss": 0.5336, + "step": 18700 + }, + { + "epoch": 4.993333333333333, + "grad_norm": 11.979999542236328, + "learning_rate": 2.0181333333333336e-06, + "loss": 0.5153, + "step": 18725 + }, + { + "epoch": 5.0, + "grad_norm": 12.22541332244873, + "learning_rate": 2.0048000000000003e-06, + "loss": 0.5387, + "step": 18750 + }, + { + "epoch": 5.0, + "eval_cer": 41.29847380876954, + "eval_loss": 0.6620185375213623, + "eval_runtime": 1491.7908, + "eval_samples_per_second": 3.352, + "eval_steps_per_second": 0.419, + "step": 18750 + }, + { + "epoch": 5.006666666666667, + "grad_norm": 10.518372535705566, + "learning_rate": 1.991466666666667e-06, + "loss": 0.4229, + "step": 18775 + }, + { + "epoch": 5.013333333333334, + "grad_norm": 11.578620910644531, + "learning_rate": 1.9781333333333336e-06, + "loss": 0.428, + "step": 18800 + }, + { + "epoch": 5.02, + "grad_norm": 10.48603630065918, + "learning_rate": 1.9648000000000002e-06, + "loss": 0.4359, + "step": 18825 + }, + { + "epoch": 5.026666666666666, + "grad_norm": 11.429214477539062, + "learning_rate": 1.951466666666667e-06, + "loss": 0.4153, + "step": 18850 + }, + { + "epoch": 5.033333333333333, + "grad_norm": 11.663164138793945, + "learning_rate": 1.9381333333333335e-06, + "loss": 0.4151, + "step": 18875 + }, + { + "epoch": 5.04, + "grad_norm": 9.115108489990234, + "learning_rate": 1.9248e-06, + "loss": 0.4359, + "step": 18900 + }, + { + "epoch": 5.046666666666667, + "grad_norm": 12.1903715133667, + "learning_rate": 1.911466666666667e-06, + "loss": 0.4146, + "step": 18925 + }, + { + "epoch": 5.053333333333334, + "grad_norm": 10.824419021606445, + "learning_rate": 1.8981333333333335e-06, + "loss": 0.436, + "step": 18950 + }, + { + "epoch": 5.06, + "grad_norm": 10.565627098083496, + "learning_rate": 1.8848000000000001e-06, + "loss": 0.4281, + "step": 18975 + }, + { + "epoch": 5.066666666666666, + "grad_norm": 11.316956520080566, + "learning_rate": 1.8714666666666668e-06, + "loss": 0.4084, + "step": 19000 + }, + { + "epoch": 5.073333333333333, + "grad_norm": 10.829042434692383, + "learning_rate": 1.8581333333333335e-06, + "loss": 0.4176, + "step": 19025 + }, + { + "epoch": 5.08, + "grad_norm": 12.382488250732422, + "learning_rate": 1.8448000000000001e-06, + "loss": 0.4546, + "step": 19050 + }, + { + "epoch": 5.086666666666667, + "grad_norm": 10.660449028015137, + "learning_rate": 1.831466666666667e-06, + "loss": 0.445, + "step": 19075 + }, + { + "epoch": 5.093333333333334, + "grad_norm": 13.07176399230957, + "learning_rate": 1.8181333333333334e-06, + "loss": 0.4349, + "step": 19100 + }, + { + "epoch": 5.1, + "grad_norm": 9.408832550048828, + "learning_rate": 1.8048e-06, + "loss": 0.3954, + "step": 19125 + }, + { + "epoch": 5.1066666666666665, + "grad_norm": 12.222227096557617, + "learning_rate": 1.791466666666667e-06, + "loss": 0.411, + "step": 19150 + }, + { + "epoch": 5.113333333333333, + "grad_norm": 10.962011337280273, + "learning_rate": 1.7781333333333334e-06, + "loss": 0.4216, + "step": 19175 + }, + { + "epoch": 5.12, + "grad_norm": 10.564722061157227, + "learning_rate": 1.7648e-06, + "loss": 0.4204, + "step": 19200 + }, + { + "epoch": 5.126666666666667, + "grad_norm": 12.088479042053223, + "learning_rate": 1.7514666666666669e-06, + "loss": 0.4481, + "step": 19225 + }, + { + "epoch": 5.133333333333334, + "grad_norm": 11.613677978515625, + "learning_rate": 1.7381333333333333e-06, + "loss": 0.4358, + "step": 19250 + }, + { + "epoch": 5.14, + "grad_norm": 12.435147285461426, + "learning_rate": 1.7248e-06, + "loss": 0.414, + "step": 19275 + }, + { + "epoch": 5.1466666666666665, + "grad_norm": 9.759233474731445, + "learning_rate": 1.7114666666666669e-06, + "loss": 0.4164, + "step": 19300 + }, + { + "epoch": 5.153333333333333, + "grad_norm": 12.249399185180664, + "learning_rate": 1.6981333333333335e-06, + "loss": 0.4503, + "step": 19325 + }, + { + "epoch": 5.16, + "grad_norm": 13.315264701843262, + "learning_rate": 1.6848e-06, + "loss": 0.4547, + "step": 19350 + }, + { + "epoch": 5.166666666666667, + "grad_norm": 11.688339233398438, + "learning_rate": 1.6714666666666668e-06, + "loss": 0.4597, + "step": 19375 + }, + { + "epoch": 5.173333333333334, + "grad_norm": 9.679539680480957, + "learning_rate": 1.6581333333333335e-06, + "loss": 0.4158, + "step": 19400 + }, + { + "epoch": 5.18, + "grad_norm": 10.303837776184082, + "learning_rate": 1.6448e-06, + "loss": 0.434, + "step": 19425 + }, + { + "epoch": 5.1866666666666665, + "grad_norm": 11.41673469543457, + "learning_rate": 1.6314666666666668e-06, + "loss": 0.441, + "step": 19450 + }, + { + "epoch": 5.193333333333333, + "grad_norm": 13.95874309539795, + "learning_rate": 1.6181333333333334e-06, + "loss": 0.3962, + "step": 19475 + }, + { + "epoch": 5.2, + "grad_norm": 12.006397247314453, + "learning_rate": 1.6048000000000003e-06, + "loss": 0.4267, + "step": 19500 + }, + { + "epoch": 5.206666666666667, + "grad_norm": 10.945178985595703, + "learning_rate": 1.5914666666666667e-06, + "loss": 0.4083, + "step": 19525 + }, + { + "epoch": 5.213333333333333, + "grad_norm": 10.092540740966797, + "learning_rate": 1.5781333333333334e-06, + "loss": 0.4204, + "step": 19550 + }, + { + "epoch": 5.22, + "grad_norm": 11.315695762634277, + "learning_rate": 1.5648000000000002e-06, + "loss": 0.4239, + "step": 19575 + }, + { + "epoch": 5.226666666666667, + "grad_norm": 11.035623550415039, + "learning_rate": 1.5514666666666667e-06, + "loss": 0.3977, + "step": 19600 + }, + { + "epoch": 5.233333333333333, + "grad_norm": 10.233633995056152, + "learning_rate": 1.5381333333333333e-06, + "loss": 0.4398, + "step": 19625 + }, + { + "epoch": 5.24, + "grad_norm": 9.87761116027832, + "learning_rate": 1.5248000000000002e-06, + "loss": 0.4185, + "step": 19650 + }, + { + "epoch": 5.246666666666667, + "grad_norm": 11.290163040161133, + "learning_rate": 1.5114666666666669e-06, + "loss": 0.3966, + "step": 19675 + }, + { + "epoch": 5.253333333333333, + "grad_norm": 9.762548446655273, + "learning_rate": 1.4981333333333333e-06, + "loss": 0.3957, + "step": 19700 + }, + { + "epoch": 5.26, + "grad_norm": 12.95799732208252, + "learning_rate": 1.4848000000000002e-06, + "loss": 0.4281, + "step": 19725 + }, + { + "epoch": 5.266666666666667, + "grad_norm": 10.596529006958008, + "learning_rate": 1.4714666666666668e-06, + "loss": 0.4219, + "step": 19750 + }, + { + "epoch": 5.273333333333333, + "grad_norm": 11.48782730102539, + "learning_rate": 1.4581333333333333e-06, + "loss": 0.4331, + "step": 19775 + }, + { + "epoch": 5.28, + "grad_norm": 12.90248966217041, + "learning_rate": 1.4448000000000001e-06, + "loss": 0.424, + "step": 19800 + }, + { + "epoch": 5.286666666666667, + "grad_norm": 10.8175687789917, + "learning_rate": 1.4314666666666668e-06, + "loss": 0.4423, + "step": 19825 + }, + { + "epoch": 5.293333333333333, + "grad_norm": 11.480255126953125, + "learning_rate": 1.4181333333333336e-06, + "loss": 0.4269, + "step": 19850 + }, + { + "epoch": 5.3, + "grad_norm": 10.146092414855957, + "learning_rate": 1.4048e-06, + "loss": 0.3953, + "step": 19875 + }, + { + "epoch": 5.306666666666667, + "grad_norm": 10.456814765930176, + "learning_rate": 1.3914666666666667e-06, + "loss": 0.4297, + "step": 19900 + }, + { + "epoch": 5.3133333333333335, + "grad_norm": 11.504941940307617, + "learning_rate": 1.3781333333333336e-06, + "loss": 0.4242, + "step": 19925 + }, + { + "epoch": 5.32, + "grad_norm": 10.892451286315918, + "learning_rate": 1.3648e-06, + "loss": 0.4269, + "step": 19950 + }, + { + "epoch": 5.326666666666666, + "grad_norm": 10.094409942626953, + "learning_rate": 1.3514666666666667e-06, + "loss": 0.4226, + "step": 19975 + }, + { + "epoch": 5.333333333333333, + "grad_norm": 10.381122589111328, + "learning_rate": 1.3381333333333336e-06, + "loss": 0.4157, + "step": 20000 + }, + { + "epoch": 5.34, + "grad_norm": 10.353303909301758, + "learning_rate": 1.3248e-06, + "loss": 0.4109, + "step": 20025 + }, + { + "epoch": 5.346666666666667, + "grad_norm": 13.274795532226562, + "learning_rate": 1.3114666666666667e-06, + "loss": 0.406, + "step": 20050 + }, + { + "epoch": 5.3533333333333335, + "grad_norm": 10.959283828735352, + "learning_rate": 1.2981333333333335e-06, + "loss": 0.4216, + "step": 20075 + }, + { + "epoch": 5.36, + "grad_norm": 14.18891429901123, + "learning_rate": 1.2848000000000002e-06, + "loss": 0.4409, + "step": 20100 + }, + { + "epoch": 5.366666666666666, + "grad_norm": 11.948831558227539, + "learning_rate": 1.2714666666666666e-06, + "loss": 0.4025, + "step": 20125 + }, + { + "epoch": 5.373333333333333, + "grad_norm": 12.63202953338623, + "learning_rate": 1.2581333333333335e-06, + "loss": 0.4044, + "step": 20150 + }, + { + "epoch": 5.38, + "grad_norm": 15.30573844909668, + "learning_rate": 1.2448000000000001e-06, + "loss": 0.4332, + "step": 20175 + }, + { + "epoch": 5.386666666666667, + "grad_norm": 14.10843563079834, + "learning_rate": 1.2314666666666668e-06, + "loss": 0.4016, + "step": 20200 + }, + { + "epoch": 5.3933333333333335, + "grad_norm": 10.126541137695312, + "learning_rate": 1.2181333333333334e-06, + "loss": 0.4009, + "step": 20225 + }, + { + "epoch": 5.4, + "grad_norm": 11.695585250854492, + "learning_rate": 1.2048e-06, + "loss": 0.4066, + "step": 20250 + }, + { + "epoch": 5.406666666666666, + "grad_norm": 10.318148612976074, + "learning_rate": 1.1914666666666667e-06, + "loss": 0.4414, + "step": 20275 + }, + { + "epoch": 5.413333333333333, + "grad_norm": 11.68632984161377, + "learning_rate": 1.1781333333333334e-06, + "loss": 0.4261, + "step": 20300 + }, + { + "epoch": 5.42, + "grad_norm": 13.459761619567871, + "learning_rate": 1.1648e-06, + "loss": 0.389, + "step": 20325 + }, + { + "epoch": 5.426666666666667, + "grad_norm": 14.375556945800781, + "learning_rate": 1.1514666666666667e-06, + "loss": 0.4423, + "step": 20350 + }, + { + "epoch": 5.433333333333334, + "grad_norm": 10.808845520019531, + "learning_rate": 1.1381333333333334e-06, + "loss": 0.4162, + "step": 20375 + }, + { + "epoch": 5.44, + "grad_norm": 10.788654327392578, + "learning_rate": 1.1248e-06, + "loss": 0.4149, + "step": 20400 + }, + { + "epoch": 5.446666666666666, + "grad_norm": 12.207047462463379, + "learning_rate": 1.1114666666666669e-06, + "loss": 0.4331, + "step": 20425 + }, + { + "epoch": 5.453333333333333, + "grad_norm": 11.573690414428711, + "learning_rate": 1.0981333333333333e-06, + "loss": 0.3812, + "step": 20450 + }, + { + "epoch": 5.46, + "grad_norm": 11.915677070617676, + "learning_rate": 1.0848e-06, + "loss": 0.3915, + "step": 20475 + }, + { + "epoch": 5.466666666666667, + "grad_norm": 11.950614929199219, + "learning_rate": 1.0714666666666668e-06, + "loss": 0.4031, + "step": 20500 + }, + { + "epoch": 5.473333333333334, + "grad_norm": 12.151274681091309, + "learning_rate": 1.0581333333333333e-06, + "loss": 0.4104, + "step": 20525 + }, + { + "epoch": 5.48, + "grad_norm": 13.82215404510498, + "learning_rate": 1.0448000000000001e-06, + "loss": 0.4469, + "step": 20550 + }, + { + "epoch": 5.486666666666666, + "grad_norm": 12.698558807373047, + "learning_rate": 1.0314666666666668e-06, + "loss": 0.4082, + "step": 20575 + }, + { + "epoch": 5.493333333333333, + "grad_norm": 10.853605270385742, + "learning_rate": 1.0181333333333335e-06, + "loss": 0.3888, + "step": 20600 + }, + { + "epoch": 5.5, + "grad_norm": 10.59011459350586, + "learning_rate": 1.0048e-06, + "loss": 0.4173, + "step": 20625 + }, + { + "epoch": 5.506666666666667, + "grad_norm": 12.438119888305664, + "learning_rate": 9.914666666666668e-07, + "loss": 0.4078, + "step": 20650 + }, + { + "epoch": 5.513333333333334, + "grad_norm": 10.870880126953125, + "learning_rate": 9.781333333333334e-07, + "loss": 0.4109, + "step": 20675 + }, + { + "epoch": 5.52, + "grad_norm": 11.666913986206055, + "learning_rate": 9.648e-07, + "loss": 0.397, + "step": 20700 + }, + { + "epoch": 5.526666666666666, + "grad_norm": 12.49132251739502, + "learning_rate": 9.514666666666668e-07, + "loss": 0.4226, + "step": 20725 + }, + { + "epoch": 5.533333333333333, + "grad_norm": 12.631284713745117, + "learning_rate": 9.381333333333334e-07, + "loss": 0.4269, + "step": 20750 + }, + { + "epoch": 5.54, + "grad_norm": 11.162821769714355, + "learning_rate": 9.248000000000001e-07, + "loss": 0.4185, + "step": 20775 + }, + { + "epoch": 5.546666666666667, + "grad_norm": 12.515896797180176, + "learning_rate": 9.114666666666668e-07, + "loss": 0.3963, + "step": 20800 + }, + { + "epoch": 5.553333333333334, + "grad_norm": 11.235916137695312, + "learning_rate": 8.981333333333333e-07, + "loss": 0.4252, + "step": 20825 + }, + { + "epoch": 5.5600000000000005, + "grad_norm": 11.432068824768066, + "learning_rate": 8.848000000000001e-07, + "loss": 0.4115, + "step": 20850 + }, + { + "epoch": 5.566666666666666, + "grad_norm": 10.605951309204102, + "learning_rate": 8.714666666666667e-07, + "loss": 0.4201, + "step": 20875 + }, + { + "epoch": 5.573333333333333, + "grad_norm": 11.995922088623047, + "learning_rate": 8.581333333333335e-07, + "loss": 0.4127, + "step": 20900 + }, + { + "epoch": 5.58, + "grad_norm": 10.330801963806152, + "learning_rate": 8.448e-07, + "loss": 0.4072, + "step": 20925 + }, + { + "epoch": 5.586666666666667, + "grad_norm": 11.993637084960938, + "learning_rate": 8.314666666666667e-07, + "loss": 0.4404, + "step": 20950 + }, + { + "epoch": 5.593333333333334, + "grad_norm": 10.675777435302734, + "learning_rate": 8.181333333333335e-07, + "loss": 0.4139, + "step": 20975 + }, + { + "epoch": 5.6, + "grad_norm": 12.091472625732422, + "learning_rate": 8.048e-07, + "loss": 0.3985, + "step": 21000 + }, + { + "epoch": 5.6066666666666665, + "grad_norm": 12.643013954162598, + "learning_rate": 7.920000000000001e-07, + "loss": 0.4162, + "step": 21025 + }, + { + "epoch": 5.613333333333333, + "grad_norm": 11.848272323608398, + "learning_rate": 7.786666666666668e-07, + "loss": 0.4358, + "step": 21050 + }, + { + "epoch": 5.62, + "grad_norm": 12.265314102172852, + "learning_rate": 7.653333333333333e-07, + "loss": 0.4108, + "step": 21075 + }, + { + "epoch": 5.626666666666667, + "grad_norm": 10.44992446899414, + "learning_rate": 7.520000000000001e-07, + "loss": 0.3828, + "step": 21100 + }, + { + "epoch": 5.633333333333333, + "grad_norm": 13.116846084594727, + "learning_rate": 7.386666666666667e-07, + "loss": 0.4343, + "step": 21125 + }, + { + "epoch": 5.64, + "grad_norm": 12.23213005065918, + "learning_rate": 7.253333333333335e-07, + "loss": 0.3892, + "step": 21150 + }, + { + "epoch": 5.6466666666666665, + "grad_norm": 12.29090404510498, + "learning_rate": 7.12e-07, + "loss": 0.421, + "step": 21175 + }, + { + "epoch": 5.653333333333333, + "grad_norm": 10.548815727233887, + "learning_rate": 6.986666666666667e-07, + "loss": 0.4098, + "step": 21200 + }, + { + "epoch": 5.66, + "grad_norm": 10.131150245666504, + "learning_rate": 6.853333333333334e-07, + "loss": 0.4279, + "step": 21225 + }, + { + "epoch": 5.666666666666667, + "grad_norm": 11.276375770568848, + "learning_rate": 6.72e-07, + "loss": 0.429, + "step": 21250 + }, + { + "epoch": 5.673333333333334, + "grad_norm": 11.812811851501465, + "learning_rate": 6.586666666666667e-07, + "loss": 0.4032, + "step": 21275 + }, + { + "epoch": 5.68, + "grad_norm": 9.848855018615723, + "learning_rate": 6.453333333333334e-07, + "loss": 0.4123, + "step": 21300 + }, + { + "epoch": 5.6866666666666665, + "grad_norm": 10.092644691467285, + "learning_rate": 6.320000000000002e-07, + "loss": 0.3848, + "step": 21325 + }, + { + "epoch": 5.693333333333333, + "grad_norm": 12.5971040725708, + "learning_rate": 6.186666666666667e-07, + "loss": 0.3862, + "step": 21350 + }, + { + "epoch": 5.7, + "grad_norm": 11.947668075561523, + "learning_rate": 6.053333333333334e-07, + "loss": 0.4167, + "step": 21375 + }, + { + "epoch": 5.706666666666667, + "grad_norm": 9.511608123779297, + "learning_rate": 5.920000000000001e-07, + "loss": 0.3893, + "step": 21400 + }, + { + "epoch": 5.713333333333333, + "grad_norm": 10.310453414916992, + "learning_rate": 5.786666666666667e-07, + "loss": 0.414, + "step": 21425 + }, + { + "epoch": 5.72, + "grad_norm": 12.09493637084961, + "learning_rate": 5.653333333333333e-07, + "loss": 0.3987, + "step": 21450 + }, + { + "epoch": 5.726666666666667, + "grad_norm": 11.201457023620605, + "learning_rate": 5.520000000000001e-07, + "loss": 0.4285, + "step": 21475 + }, + { + "epoch": 5.733333333333333, + "grad_norm": 10.464259147644043, + "learning_rate": 5.386666666666667e-07, + "loss": 0.3959, + "step": 21500 + }, + { + "epoch": 5.74, + "grad_norm": 11.564620018005371, + "learning_rate": 5.253333333333334e-07, + "loss": 0.4037, + "step": 21525 + }, + { + "epoch": 5.746666666666667, + "grad_norm": 9.118648529052734, + "learning_rate": 5.12e-07, + "loss": 0.3959, + "step": 21550 + }, + { + "epoch": 5.753333333333333, + "grad_norm": 10.029388427734375, + "learning_rate": 4.986666666666667e-07, + "loss": 0.3994, + "step": 21575 + }, + { + "epoch": 5.76, + "grad_norm": 12.000643730163574, + "learning_rate": 4.853333333333333e-07, + "loss": 0.4138, + "step": 21600 + }, + { + "epoch": 5.766666666666667, + "grad_norm": 10.672340393066406, + "learning_rate": 4.7200000000000004e-07, + "loss": 0.3876, + "step": 21625 + }, + { + "epoch": 5.773333333333333, + "grad_norm": 12.91089153289795, + "learning_rate": 4.586666666666667e-07, + "loss": 0.411, + "step": 21650 + }, + { + "epoch": 5.78, + "grad_norm": 9.507488250732422, + "learning_rate": 4.453333333333334e-07, + "loss": 0.4088, + "step": 21675 + }, + { + "epoch": 5.786666666666667, + "grad_norm": 9.968832015991211, + "learning_rate": 4.3200000000000006e-07, + "loss": 0.4253, + "step": 21700 + }, + { + "epoch": 5.793333333333333, + "grad_norm": 11.008499145507812, + "learning_rate": 4.186666666666667e-07, + "loss": 0.4095, + "step": 21725 + }, + { + "epoch": 5.8, + "grad_norm": 11.764013290405273, + "learning_rate": 4.0533333333333336e-07, + "loss": 0.3989, + "step": 21750 + }, + { + "epoch": 5.806666666666667, + "grad_norm": 11.523482322692871, + "learning_rate": 3.92e-07, + "loss": 0.3957, + "step": 21775 + }, + { + "epoch": 5.8133333333333335, + "grad_norm": 10.864540100097656, + "learning_rate": 3.786666666666667e-07, + "loss": 0.4055, + "step": 21800 + }, + { + "epoch": 5.82, + "grad_norm": 12.574848175048828, + "learning_rate": 3.653333333333334e-07, + "loss": 0.4024, + "step": 21825 + }, + { + "epoch": 5.826666666666666, + "grad_norm": 10.640899658203125, + "learning_rate": 3.5200000000000003e-07, + "loss": 0.4022, + "step": 21850 + }, + { + "epoch": 5.833333333333333, + "grad_norm": 11.801005363464355, + "learning_rate": 3.3866666666666673e-07, + "loss": 0.418, + "step": 21875 + }, + { + "epoch": 5.84, + "grad_norm": 12.836427688598633, + "learning_rate": 3.2533333333333333e-07, + "loss": 0.4178, + "step": 21900 + }, + { + "epoch": 5.846666666666667, + "grad_norm": 13.486298561096191, + "learning_rate": 3.12e-07, + "loss": 0.4058, + "step": 21925 + }, + { + "epoch": 5.8533333333333335, + "grad_norm": 11.323554039001465, + "learning_rate": 2.986666666666667e-07, + "loss": 0.4125, + "step": 21950 + }, + { + "epoch": 5.86, + "grad_norm": 11.855803489685059, + "learning_rate": 2.8533333333333335e-07, + "loss": 0.3877, + "step": 21975 + }, + { + "epoch": 5.866666666666667, + "grad_norm": 10.362449645996094, + "learning_rate": 2.72e-07, + "loss": 0.3983, + "step": 22000 + }, + { + "epoch": 5.873333333333333, + "grad_norm": 10.688560485839844, + "learning_rate": 2.586666666666667e-07, + "loss": 0.3862, + "step": 22025 + }, + { + "epoch": 5.88, + "grad_norm": 11.236830711364746, + "learning_rate": 2.4533333333333336e-07, + "loss": 0.395, + "step": 22050 + }, + { + "epoch": 5.886666666666667, + "grad_norm": 10.633889198303223, + "learning_rate": 2.3253333333333335e-07, + "loss": 0.3978, + "step": 22075 + }, + { + "epoch": 5.8933333333333335, + "grad_norm": 11.28272533416748, + "learning_rate": 2.192e-07, + "loss": 0.4055, + "step": 22100 + }, + { + "epoch": 5.9, + "grad_norm": 9.752985000610352, + "learning_rate": 2.0586666666666668e-07, + "loss": 0.3987, + "step": 22125 + }, + { + "epoch": 5.906666666666666, + "grad_norm": 12.44016170501709, + "learning_rate": 1.9253333333333336e-07, + "loss": 0.4114, + "step": 22150 + }, + { + "epoch": 5.913333333333333, + "grad_norm": 11.595144271850586, + "learning_rate": 1.792e-07, + "loss": 0.4143, + "step": 22175 + }, + { + "epoch": 5.92, + "grad_norm": 10.285599708557129, + "learning_rate": 1.6586666666666667e-07, + "loss": 0.402, + "step": 22200 + }, + { + "epoch": 5.926666666666667, + "grad_norm": 11.048495292663574, + "learning_rate": 1.5253333333333335e-07, + "loss": 0.4158, + "step": 22225 + }, + { + "epoch": 5.933333333333334, + "grad_norm": 9.735221862792969, + "learning_rate": 1.392e-07, + "loss": 0.3939, + "step": 22250 + }, + { + "epoch": 5.9399999999999995, + "grad_norm": 10.202747344970703, + "learning_rate": 1.2586666666666668e-07, + "loss": 0.4026, + "step": 22275 + }, + { + "epoch": 5.946666666666666, + "grad_norm": 10.93299674987793, + "learning_rate": 1.1253333333333335e-07, + "loss": 0.4018, + "step": 22300 + }, + { + "epoch": 5.953333333333333, + "grad_norm": 10.719938278198242, + "learning_rate": 9.92e-08, + "loss": 0.403, + "step": 22325 + }, + { + "epoch": 5.96, + "grad_norm": 11.412227630615234, + "learning_rate": 8.586666666666667e-08, + "loss": 0.4187, + "step": 22350 + }, + { + "epoch": 5.966666666666667, + "grad_norm": 14.425475120544434, + "learning_rate": 7.253333333333333e-08, + "loss": 0.4004, + "step": 22375 + }, + { + "epoch": 5.973333333333334, + "grad_norm": 11.362641334533691, + "learning_rate": 5.92e-08, + "loss": 0.4135, + "step": 22400 + }, + { + "epoch": 5.98, + "grad_norm": 12.42673110961914, + "learning_rate": 4.5866666666666674e-08, + "loss": 0.4027, + "step": 22425 + }, + { + "epoch": 5.986666666666666, + "grad_norm": 11.912519454956055, + "learning_rate": 3.2533333333333333e-08, + "loss": 0.3704, + "step": 22450 + }, + { + "epoch": 5.993333333333333, + "grad_norm": 11.626212120056152, + "learning_rate": 1.9200000000000003e-08, + "loss": 0.3965, + "step": 22475 + }, + { + "epoch": 6.0, + "grad_norm": 12.690690040588379, + "learning_rate": 5.866666666666667e-09, + "loss": 0.3824, + "step": 22500 + }, + { + "epoch": 6.0, + "eval_cer": 39.13124499189385, + "eval_loss": 0.6240352392196655, + "eval_runtime": 1343.2458, + "eval_samples_per_second": 3.722, + "eval_steps_per_second": 0.465, + "step": 22500 + }, + { + "epoch": 6.006666666666667, + "grad_norm": 12.137826919555664, + "learning_rate": 2.851809523809524e-06, + "loss": 0.358, + "step": 22525 + }, + { + "epoch": 6.013333333333334, + "grad_norm": 11.761364936828613, + "learning_rate": 2.8422857142857147e-06, + "loss": 0.3959, + "step": 22550 + }, + { + "epoch": 6.02, + "grad_norm": 10.832027435302734, + "learning_rate": 2.832761904761905e-06, + "loss": 0.394, + "step": 22575 + }, + { + "epoch": 6.026666666666666, + "grad_norm": 7.794073104858398, + "learning_rate": 2.8232380952380956e-06, + "loss": 0.3789, + "step": 22600 + }, + { + "epoch": 6.033333333333333, + "grad_norm": 12.955880165100098, + "learning_rate": 2.813714285714286e-06, + "loss": 0.3785, + "step": 22625 + }, + { + "epoch": 6.04, + "grad_norm": 11.481342315673828, + "learning_rate": 2.8041904761904765e-06, + "loss": 0.3824, + "step": 22650 + }, + { + "epoch": 6.046666666666667, + "grad_norm": 10.780312538146973, + "learning_rate": 2.7946666666666667e-06, + "loss": 0.3733, + "step": 22675 + }, + { + "epoch": 6.053333333333334, + "grad_norm": 11.146238327026367, + "learning_rate": 2.7851428571428574e-06, + "loss": 0.4052, + "step": 22700 + }, + { + "epoch": 6.06, + "grad_norm": 10.87049674987793, + "learning_rate": 2.775619047619048e-06, + "loss": 0.3697, + "step": 22725 + }, + { + "epoch": 6.066666666666666, + "grad_norm": 10.135970115661621, + "learning_rate": 2.7660952380952382e-06, + "loss": 0.3986, + "step": 22750 + }, + { + "epoch": 6.073333333333333, + "grad_norm": 11.384647369384766, + "learning_rate": 2.756952380952381e-06, + "loss": 0.3946, + "step": 22775 + }, + { + "epoch": 6.08, + "grad_norm": 12.906999588012695, + "learning_rate": 2.7474285714285713e-06, + "loss": 0.3947, + "step": 22800 + }, + { + "epoch": 6.086666666666667, + "grad_norm": 10.210248947143555, + "learning_rate": 2.7379047619047624e-06, + "loss": 0.387, + "step": 22825 + }, + { + "epoch": 6.093333333333334, + "grad_norm": 13.041064262390137, + "learning_rate": 2.728380952380952e-06, + "loss": 0.3687, + "step": 22850 + }, + { + "epoch": 6.1, + "grad_norm": 14.882314682006836, + "learning_rate": 2.7188571428571432e-06, + "loss": 0.4045, + "step": 22875 + }, + { + "epoch": 6.1066666666666665, + "grad_norm": 12.158224105834961, + "learning_rate": 2.709333333333334e-06, + "loss": 0.3847, + "step": 22900 + }, + { + "epoch": 6.113333333333333, + "grad_norm": 10.840941429138184, + "learning_rate": 2.699809523809524e-06, + "loss": 0.3963, + "step": 22925 + }, + { + "epoch": 6.12, + "grad_norm": 14.865074157714844, + "learning_rate": 2.6902857142857147e-06, + "loss": 0.3679, + "step": 22950 + }, + { + "epoch": 6.126666666666667, + "grad_norm": 11.978253364562988, + "learning_rate": 2.680761904761905e-06, + "loss": 0.3955, + "step": 22975 + }, + { + "epoch": 6.133333333333334, + "grad_norm": 10.554466247558594, + "learning_rate": 2.6712380952380956e-06, + "loss": 0.3716, + "step": 23000 + }, + { + "epoch": 6.14, + "grad_norm": 17.36324691772461, + "learning_rate": 2.661714285714286e-06, + "loss": 0.4098, + "step": 23025 + }, + { + "epoch": 6.1466666666666665, + "grad_norm": 10.269063949584961, + "learning_rate": 2.6521904761904765e-06, + "loss": 0.3834, + "step": 23050 + }, + { + "epoch": 6.153333333333333, + "grad_norm": 9.568987846374512, + "learning_rate": 2.6426666666666667e-06, + "loss": 0.3886, + "step": 23075 + }, + { + "epoch": 6.16, + "grad_norm": 12.36820125579834, + "learning_rate": 2.6331428571428574e-06, + "loss": 0.4071, + "step": 23100 + }, + { + "epoch": 6.166666666666667, + "grad_norm": 13.98944091796875, + "learning_rate": 2.6236190476190476e-06, + "loss": 0.3744, + "step": 23125 + }, + { + "epoch": 6.173333333333334, + "grad_norm": 12.924062728881836, + "learning_rate": 2.6140952380952382e-06, + "loss": 0.4004, + "step": 23150 + }, + { + "epoch": 6.18, + "grad_norm": 11.722105979919434, + "learning_rate": 2.6045714285714285e-06, + "loss": 0.4102, + "step": 23175 + }, + { + "epoch": 6.1866666666666665, + "grad_norm": 11.197291374206543, + "learning_rate": 2.595047619047619e-06, + "loss": 0.4024, + "step": 23200 + }, + { + "epoch": 6.193333333333333, + "grad_norm": 9.876270294189453, + "learning_rate": 2.58552380952381e-06, + "loss": 0.385, + "step": 23225 + }, + { + "epoch": 6.2, + "grad_norm": 13.367981910705566, + "learning_rate": 2.576e-06, + "loss": 0.406, + "step": 23250 + }, + { + "epoch": 6.206666666666667, + "grad_norm": 11.678939819335938, + "learning_rate": 2.566476190476191e-06, + "loss": 0.4128, + "step": 23275 + }, + { + "epoch": 6.213333333333333, + "grad_norm": 11.034611701965332, + "learning_rate": 2.5569523809523813e-06, + "loss": 0.3647, + "step": 23300 + }, + { + "epoch": 6.22, + "grad_norm": 10.479132652282715, + "learning_rate": 2.547428571428572e-06, + "loss": 0.3798, + "step": 23325 + }, + { + "epoch": 6.226666666666667, + "grad_norm": 14.648127555847168, + "learning_rate": 2.537904761904762e-06, + "loss": 0.3824, + "step": 23350 + }, + { + "epoch": 6.233333333333333, + "grad_norm": 13.51427936553955, + "learning_rate": 2.528380952380953e-06, + "loss": 0.3655, + "step": 23375 + }, + { + "epoch": 6.24, + "grad_norm": 10.342455863952637, + "learning_rate": 2.518857142857143e-06, + "loss": 0.3901, + "step": 23400 + }, + { + "epoch": 6.246666666666667, + "grad_norm": 11.435091018676758, + "learning_rate": 2.5093333333333337e-06, + "loss": 0.4026, + "step": 23425 + }, + { + "epoch": 6.253333333333333, + "grad_norm": 15.214591979980469, + "learning_rate": 2.499809523809524e-06, + "loss": 0.4181, + "step": 23450 + }, + { + "epoch": 6.26, + "grad_norm": 11.05782413482666, + "learning_rate": 2.4902857142857145e-06, + "loss": 0.4092, + "step": 23475 + }, + { + "epoch": 6.266666666666667, + "grad_norm": 12.299212455749512, + "learning_rate": 2.4807619047619048e-06, + "loss": 0.4009, + "step": 23500 + }, + { + "epoch": 6.273333333333333, + "grad_norm": 9.42092514038086, + "learning_rate": 2.4712380952380954e-06, + "loss": 0.3784, + "step": 23525 + }, + { + "epoch": 6.28, + "grad_norm": 11.740710258483887, + "learning_rate": 2.461714285714286e-06, + "loss": 0.4113, + "step": 23550 + }, + { + "epoch": 6.286666666666667, + "grad_norm": 12.14942455291748, + "learning_rate": 2.4521904761904763e-06, + "loss": 0.4068, + "step": 23575 + }, + { + "epoch": 6.293333333333333, + "grad_norm": 16.812084197998047, + "learning_rate": 2.442666666666667e-06, + "loss": 0.3669, + "step": 23600 + }, + { + "epoch": 6.3, + "grad_norm": 13.293127059936523, + "learning_rate": 2.433142857142857e-06, + "loss": 0.3853, + "step": 23625 + }, + { + "epoch": 6.306666666666667, + "grad_norm": 13.875311851501465, + "learning_rate": 2.423619047619048e-06, + "loss": 0.395, + "step": 23650 + }, + { + "epoch": 6.3133333333333335, + "grad_norm": 10.801082611083984, + "learning_rate": 2.414095238095238e-06, + "loss": 0.3832, + "step": 23675 + }, + { + "epoch": 6.32, + "grad_norm": 10.943424224853516, + "learning_rate": 2.4045714285714287e-06, + "loss": 0.4085, + "step": 23700 + }, + { + "epoch": 6.326666666666666, + "grad_norm": 12.409562110900879, + "learning_rate": 2.3950476190476193e-06, + "loss": 0.3738, + "step": 23725 + }, + { + "epoch": 6.333333333333333, + "grad_norm": 11.013738632202148, + "learning_rate": 2.38552380952381e-06, + "loss": 0.3851, + "step": 23750 + }, + { + "epoch": 6.34, + "grad_norm": 13.557110786437988, + "learning_rate": 2.376e-06, + "loss": 0.4057, + "step": 23775 + }, + { + "epoch": 6.346666666666667, + "grad_norm": 14.173124313354492, + "learning_rate": 2.366476190476191e-06, + "loss": 0.3868, + "step": 23800 + }, + { + "epoch": 6.3533333333333335, + "grad_norm": 15.651717185974121, + "learning_rate": 2.356952380952381e-06, + "loss": 0.3945, + "step": 23825 + }, + { + "epoch": 6.36, + "grad_norm": 10.76655387878418, + "learning_rate": 2.3474285714285717e-06, + "loss": 0.3933, + "step": 23850 + }, + { + "epoch": 6.366666666666666, + "grad_norm": 9.955676078796387, + "learning_rate": 2.337904761904762e-06, + "loss": 0.3752, + "step": 23875 + }, + { + "epoch": 6.373333333333333, + "grad_norm": 11.04216480255127, + "learning_rate": 2.3283809523809526e-06, + "loss": 0.3753, + "step": 23900 + }, + { + "epoch": 6.38, + "grad_norm": 11.465700149536133, + "learning_rate": 2.318857142857143e-06, + "loss": 0.3794, + "step": 23925 + }, + { + "epoch": 6.386666666666667, + "grad_norm": 11.953079223632812, + "learning_rate": 2.3093333333333335e-06, + "loss": 0.4127, + "step": 23950 + }, + { + "epoch": 6.3933333333333335, + "grad_norm": 11.241700172424316, + "learning_rate": 2.2998095238095237e-06, + "loss": 0.4062, + "step": 23975 + }, + { + "epoch": 6.4, + "grad_norm": 12.426981925964355, + "learning_rate": 2.2902857142857143e-06, + "loss": 0.3957, + "step": 24000 + }, + { + "epoch": 6.406666666666666, + "grad_norm": 10.37293815612793, + "learning_rate": 2.280761904761905e-06, + "loss": 0.3881, + "step": 24025 + }, + { + "epoch": 6.413333333333333, + "grad_norm": 13.00999641418457, + "learning_rate": 2.2712380952380956e-06, + "loss": 0.3663, + "step": 24050 + }, + { + "epoch": 6.42, + "grad_norm": 12.310436248779297, + "learning_rate": 2.261714285714286e-06, + "loss": 0.367, + "step": 24075 + }, + { + "epoch": 6.426666666666667, + "grad_norm": 12.6433687210083, + "learning_rate": 2.2521904761904765e-06, + "loss": 0.3819, + "step": 24100 + }, + { + "epoch": 6.433333333333334, + "grad_norm": 11.623528480529785, + "learning_rate": 2.2426666666666667e-06, + "loss": 0.379, + "step": 24125 + }, + { + "epoch": 6.44, + "grad_norm": 12.670708656311035, + "learning_rate": 2.2331428571428574e-06, + "loss": 0.3724, + "step": 24150 + }, + { + "epoch": 6.446666666666666, + "grad_norm": 11.888187408447266, + "learning_rate": 2.2236190476190476e-06, + "loss": 0.4165, + "step": 24175 + }, + { + "epoch": 6.453333333333333, + "grad_norm": 12.258306503295898, + "learning_rate": 2.2140952380952383e-06, + "loss": 0.3779, + "step": 24200 + }, + { + "epoch": 6.46, + "grad_norm": 10.96053695678711, + "learning_rate": 2.204571428571429e-06, + "loss": 0.381, + "step": 24225 + }, + { + "epoch": 6.466666666666667, + "grad_norm": 11.79867172241211, + "learning_rate": 2.195047619047619e-06, + "loss": 0.3977, + "step": 24250 + }, + { + "epoch": 6.473333333333334, + "grad_norm": 13.438236236572266, + "learning_rate": 2.1855238095238098e-06, + "loss": 0.3843, + "step": 24275 + }, + { + "epoch": 6.48, + "grad_norm": 13.02250862121582, + "learning_rate": 2.176e-06, + "loss": 0.3983, + "step": 24300 + }, + { + "epoch": 6.486666666666666, + "grad_norm": 13.521238327026367, + "learning_rate": 2.1664761904761907e-06, + "loss": 0.3931, + "step": 24325 + }, + { + "epoch": 6.493333333333333, + "grad_norm": 11.842591285705566, + "learning_rate": 2.1569523809523813e-06, + "loss": 0.3799, + "step": 24350 + }, + { + "epoch": 6.5, + "grad_norm": 10.645975112915039, + "learning_rate": 2.1474285714285715e-06, + "loss": 0.3706, + "step": 24375 + }, + { + "epoch": 6.506666666666667, + "grad_norm": 10.326393127441406, + "learning_rate": 2.137904761904762e-06, + "loss": 0.3751, + "step": 24400 + }, + { + "epoch": 6.513333333333334, + "grad_norm": 13.133468627929688, + "learning_rate": 2.1283809523809524e-06, + "loss": 0.3777, + "step": 24425 + }, + { + "epoch": 6.52, + "grad_norm": 10.78549575805664, + "learning_rate": 2.118857142857143e-06, + "loss": 0.3846, + "step": 24450 + }, + { + "epoch": 6.526666666666666, + "grad_norm": 11.748588562011719, + "learning_rate": 2.1093333333333337e-06, + "loss": 0.4037, + "step": 24475 + }, + { + "epoch": 6.533333333333333, + "grad_norm": 14.0172700881958, + "learning_rate": 2.099809523809524e-06, + "loss": 0.3767, + "step": 24500 + }, + { + "epoch": 6.54, + "grad_norm": 13.472816467285156, + "learning_rate": 2.0902857142857146e-06, + "loss": 0.3939, + "step": 24525 + }, + { + "epoch": 6.546666666666667, + "grad_norm": 11.429086685180664, + "learning_rate": 2.080761904761905e-06, + "loss": 0.3755, + "step": 24550 + }, + { + "epoch": 6.553333333333334, + "grad_norm": 11.161534309387207, + "learning_rate": 2.0712380952380954e-06, + "loss": 0.3764, + "step": 24575 + }, + { + "epoch": 6.5600000000000005, + "grad_norm": 10.712623596191406, + "learning_rate": 2.0617142857142857e-06, + "loss": 0.3754, + "step": 24600 + }, + { + "epoch": 6.566666666666666, + "grad_norm": 13.371075630187988, + "learning_rate": 2.0521904761904763e-06, + "loss": 0.4058, + "step": 24625 + }, + { + "epoch": 6.573333333333333, + "grad_norm": 16.552316665649414, + "learning_rate": 2.042666666666667e-06, + "loss": 0.379, + "step": 24650 + }, + { + "epoch": 6.58, + "grad_norm": 12.23228931427002, + "learning_rate": 2.0331428571428576e-06, + "loss": 0.362, + "step": 24675 + }, + { + "epoch": 6.586666666666667, + "grad_norm": 11.066303253173828, + "learning_rate": 2.023619047619048e-06, + "loss": 0.3822, + "step": 24700 + }, + { + "epoch": 6.593333333333334, + "grad_norm": 10.846311569213867, + "learning_rate": 2.0140952380952385e-06, + "loss": 0.3653, + "step": 24725 + }, + { + "epoch": 6.6, + "grad_norm": 12.564541816711426, + "learning_rate": 2.0045714285714287e-06, + "loss": 0.363, + "step": 24750 + }, + { + "epoch": 6.6066666666666665, + "grad_norm": 11.429590225219727, + "learning_rate": 1.9950476190476194e-06, + "loss": 0.3893, + "step": 24775 + }, + { + "epoch": 6.613333333333333, + "grad_norm": 11.184556007385254, + "learning_rate": 1.9855238095238096e-06, + "loss": 0.4014, + "step": 24800 + }, + { + "epoch": 6.62, + "grad_norm": 10.795510292053223, + "learning_rate": 1.9760000000000002e-06, + "loss": 0.3789, + "step": 24825 + }, + { + "epoch": 6.626666666666667, + "grad_norm": 10.292459487915039, + "learning_rate": 1.966857142857143e-06, + "loss": 0.3638, + "step": 24850 + }, + { + "epoch": 6.633333333333333, + "grad_norm": 9.902223587036133, + "learning_rate": 1.9573333333333337e-06, + "loss": 0.3758, + "step": 24875 + }, + { + "epoch": 6.64, + "grad_norm": 12.191415786743164, + "learning_rate": 1.947809523809524e-06, + "loss": 0.3522, + "step": 24900 + }, + { + "epoch": 6.6466666666666665, + "grad_norm": 12.334999084472656, + "learning_rate": 1.9382857142857146e-06, + "loss": 0.3741, + "step": 24925 + }, + { + "epoch": 6.653333333333333, + "grad_norm": 8.51640510559082, + "learning_rate": 1.928761904761905e-06, + "loss": 0.36, + "step": 24950 + }, + { + "epoch": 6.66, + "grad_norm": 12.26137924194336, + "learning_rate": 1.9192380952380955e-06, + "loss": 0.35, + "step": 24975 + }, + { + "epoch": 6.666666666666667, + "grad_norm": 10.84534740447998, + "learning_rate": 1.9097142857142857e-06, + "loss": 0.3906, + "step": 25000 + }, + { + "epoch": 6.673333333333334, + "grad_norm": 10.58218002319336, + "learning_rate": 1.9001904761904763e-06, + "loss": 0.3995, + "step": 25025 + }, + { + "epoch": 6.68, + "grad_norm": 11.058030128479004, + "learning_rate": 1.8906666666666668e-06, + "loss": 0.3786, + "step": 25050 + }, + { + "epoch": 6.6866666666666665, + "grad_norm": 9.970268249511719, + "learning_rate": 1.8811428571428572e-06, + "loss": 0.3664, + "step": 25075 + }, + { + "epoch": 6.693333333333333, + "grad_norm": 9.96993350982666, + "learning_rate": 1.8716190476190476e-06, + "loss": 0.3651, + "step": 25100 + }, + { + "epoch": 6.7, + "grad_norm": 13.423519134521484, + "learning_rate": 1.862095238095238e-06, + "loss": 0.3652, + "step": 25125 + }, + { + "epoch": 6.706666666666667, + "grad_norm": 12.175082206726074, + "learning_rate": 1.852571428571429e-06, + "loss": 0.3962, + "step": 25150 + }, + { + "epoch": 6.713333333333333, + "grad_norm": 11.508081436157227, + "learning_rate": 1.8430476190476194e-06, + "loss": 0.3632, + "step": 25175 + }, + { + "epoch": 6.72, + "grad_norm": 10.878847122192383, + "learning_rate": 1.8335238095238098e-06, + "loss": 0.3707, + "step": 25200 + }, + { + "epoch": 6.726666666666667, + "grad_norm": 11.726008415222168, + "learning_rate": 1.8240000000000002e-06, + "loss": 0.3908, + "step": 25225 + }, + { + "epoch": 6.733333333333333, + "grad_norm": 11.045228958129883, + "learning_rate": 1.8144761904761907e-06, + "loss": 0.3445, + "step": 25250 + }, + { + "epoch": 6.74, + "grad_norm": 11.509730339050293, + "learning_rate": 1.8049523809523811e-06, + "loss": 0.3686, + "step": 25275 + }, + { + "epoch": 6.746666666666667, + "grad_norm": 11.498992919921875, + "learning_rate": 1.7954285714285715e-06, + "loss": 0.3473, + "step": 25300 + }, + { + "epoch": 6.753333333333333, + "grad_norm": 11.988232612609863, + "learning_rate": 1.785904761904762e-06, + "loss": 0.4069, + "step": 25325 + }, + { + "epoch": 6.76, + "grad_norm": 10.21833610534668, + "learning_rate": 1.7763809523809524e-06, + "loss": 0.3659, + "step": 25350 + }, + { + "epoch": 6.766666666666667, + "grad_norm": 12.243949890136719, + "learning_rate": 1.7668571428571429e-06, + "loss": 0.3628, + "step": 25375 + }, + { + "epoch": 6.773333333333333, + "grad_norm": 12.08329963684082, + "learning_rate": 1.7573333333333333e-06, + "loss": 0.3644, + "step": 25400 + }, + { + "epoch": 6.78, + "grad_norm": 20.53824806213379, + "learning_rate": 1.747809523809524e-06, + "loss": 0.3626, + "step": 25425 + }, + { + "epoch": 6.786666666666667, + "grad_norm": 9.830753326416016, + "learning_rate": 1.7382857142857144e-06, + "loss": 0.3821, + "step": 25450 + }, + { + "epoch": 6.793333333333333, + "grad_norm": 11.922624588012695, + "learning_rate": 1.728761904761905e-06, + "loss": 0.3704, + "step": 25475 + }, + { + "epoch": 6.8, + "grad_norm": 10.916805267333984, + "learning_rate": 1.7192380952380955e-06, + "loss": 0.3865, + "step": 25500 + }, + { + "epoch": 6.806666666666667, + "grad_norm": 11.221138000488281, + "learning_rate": 1.709714285714286e-06, + "loss": 0.3593, + "step": 25525 + }, + { + "epoch": 6.8133333333333335, + "grad_norm": 11.305229187011719, + "learning_rate": 1.7001904761904763e-06, + "loss": 0.3912, + "step": 25550 + }, + { + "epoch": 6.82, + "grad_norm": 12.159748077392578, + "learning_rate": 1.6906666666666668e-06, + "loss": 0.3845, + "step": 25575 + }, + { + "epoch": 6.826666666666666, + "grad_norm": 12.120233535766602, + "learning_rate": 1.6811428571428572e-06, + "loss": 0.3738, + "step": 25600 + }, + { + "epoch": 6.833333333333333, + "grad_norm": 11.134908676147461, + "learning_rate": 1.6716190476190479e-06, + "loss": 0.3714, + "step": 25625 + }, + { + "epoch": 6.84, + "grad_norm": 12.1336088180542, + "learning_rate": 1.6620952380952383e-06, + "loss": 0.3718, + "step": 25650 + }, + { + "epoch": 6.846666666666667, + "grad_norm": 10.316018104553223, + "learning_rate": 1.6525714285714287e-06, + "loss": 0.3797, + "step": 25675 + }, + { + "epoch": 6.8533333333333335, + "grad_norm": 11.610684394836426, + "learning_rate": 1.6430476190476192e-06, + "loss": 0.3837, + "step": 25700 + }, + { + "epoch": 6.86, + "grad_norm": 13.191995620727539, + "learning_rate": 1.6335238095238096e-06, + "loss": 0.3864, + "step": 25725 + }, + { + "epoch": 6.866666666666667, + "grad_norm": 10.857339859008789, + "learning_rate": 1.624e-06, + "loss": 0.3763, + "step": 25750 + }, + { + "epoch": 6.873333333333333, + "grad_norm": 12.388221740722656, + "learning_rate": 1.6144761904761905e-06, + "loss": 0.3609, + "step": 25775 + }, + { + "epoch": 6.88, + "grad_norm": 11.07863998413086, + "learning_rate": 1.6049523809523811e-06, + "loss": 0.363, + "step": 25800 + }, + { + "epoch": 6.886666666666667, + "grad_norm": 11.749582290649414, + "learning_rate": 1.5954285714285716e-06, + "loss": 0.3691, + "step": 25825 + }, + { + "epoch": 6.8933333333333335, + "grad_norm": 11.271061897277832, + "learning_rate": 1.5859047619047622e-06, + "loss": 0.3677, + "step": 25850 + }, + { + "epoch": 6.9, + "grad_norm": 10.681711196899414, + "learning_rate": 1.5763809523809526e-06, + "loss": 0.3769, + "step": 25875 + }, + { + "epoch": 6.906666666666666, + "grad_norm": 11.021591186523438, + "learning_rate": 1.566857142857143e-06, + "loss": 0.3894, + "step": 25900 + }, + { + "epoch": 6.913333333333333, + "grad_norm": 11.152920722961426, + "learning_rate": 1.5573333333333335e-06, + "loss": 0.3701, + "step": 25925 + }, + { + "epoch": 6.92, + "grad_norm": 13.052079200744629, + "learning_rate": 1.547809523809524e-06, + "loss": 0.3936, + "step": 25950 + }, + { + "epoch": 6.926666666666667, + "grad_norm": 12.706589698791504, + "learning_rate": 1.5382857142857144e-06, + "loss": 0.3715, + "step": 25975 + }, + { + "epoch": 6.933333333333334, + "grad_norm": 11.716316223144531, + "learning_rate": 1.5287619047619048e-06, + "loss": 0.3504, + "step": 26000 + }, + { + "epoch": 6.9399999999999995, + "grad_norm": 10.866019248962402, + "learning_rate": 1.5192380952380953e-06, + "loss": 0.3509, + "step": 26025 + }, + { + "epoch": 6.946666666666666, + "grad_norm": 10.131735801696777, + "learning_rate": 1.5097142857142857e-06, + "loss": 0.3583, + "step": 26050 + }, + { + "epoch": 6.953333333333333, + "grad_norm": 10.417754173278809, + "learning_rate": 1.5001904761904761e-06, + "loss": 0.3554, + "step": 26075 + }, + { + "epoch": 6.96, + "grad_norm": 8.432124137878418, + "learning_rate": 1.4906666666666666e-06, + "loss": 0.355, + "step": 26100 + }, + { + "epoch": 6.966666666666667, + "grad_norm": 12.281510353088379, + "learning_rate": 1.4811428571428574e-06, + "loss": 0.3684, + "step": 26125 + }, + { + "epoch": 6.973333333333334, + "grad_norm": 13.510490417480469, + "learning_rate": 1.4716190476190479e-06, + "loss": 0.3573, + "step": 26150 + }, + { + "epoch": 6.98, + "grad_norm": 12.254592895507812, + "learning_rate": 1.4620952380952383e-06, + "loss": 0.3824, + "step": 26175 + }, + { + "epoch": 6.986666666666666, + "grad_norm": 12.711370468139648, + "learning_rate": 1.4525714285714287e-06, + "loss": 0.3585, + "step": 26200 + }, + { + "epoch": 6.993333333333333, + "grad_norm": 11.889477729797363, + "learning_rate": 1.4430476190476192e-06, + "loss": 0.3669, + "step": 26225 + }, + { + "epoch": 7.0, + "grad_norm": 10.887103080749512, + "learning_rate": 1.4335238095238096e-06, + "loss": 0.3445, + "step": 26250 + }, + { + "epoch": 7.0, + "eval_cer": 37.51374317499953, + "eval_loss": 0.5983843207359314, + "eval_runtime": 1033.6124, + "eval_samples_per_second": 4.837, + "eval_steps_per_second": 0.605, + "step": 26250 + }, + { + "epoch": 7.006666666666667, + "grad_norm": 11.25572681427002, + "learning_rate": 1.424e-06, + "loss": 0.3061, + "step": 26275 + }, + { + "epoch": 7.013333333333334, + "grad_norm": 9.16206169128418, + "learning_rate": 1.4144761904761905e-06, + "loss": 0.2869, + "step": 26300 + }, + { + "epoch": 7.02, + "grad_norm": 8.910353660583496, + "learning_rate": 1.404952380952381e-06, + "loss": 0.305, + "step": 26325 + }, + { + "epoch": 7.026666666666666, + "grad_norm": 9.618818283081055, + "learning_rate": 1.3954285714285716e-06, + "loss": 0.2958, + "step": 26350 + }, + { + "epoch": 7.033333333333333, + "grad_norm": 9.257414817810059, + "learning_rate": 1.385904761904762e-06, + "loss": 0.3038, + "step": 26375 + }, + { + "epoch": 7.04, + "grad_norm": 11.275477409362793, + "learning_rate": 1.3763809523809524e-06, + "loss": 0.3024, + "step": 26400 + }, + { + "epoch": 7.046666666666667, + "grad_norm": 10.187274932861328, + "learning_rate": 1.366857142857143e-06, + "loss": 0.3045, + "step": 26425 + }, + { + "epoch": 7.053333333333334, + "grad_norm": 8.755224227905273, + "learning_rate": 1.3573333333333335e-06, + "loss": 0.3025, + "step": 26450 + }, + { + "epoch": 7.06, + "grad_norm": 10.949536323547363, + "learning_rate": 1.347809523809524e-06, + "loss": 0.3051, + "step": 26475 + }, + { + "epoch": 7.066666666666666, + "grad_norm": 10.860185623168945, + "learning_rate": 1.3382857142857144e-06, + "loss": 0.3186, + "step": 26500 + }, + { + "epoch": 7.073333333333333, + "grad_norm": 8.588729858398438, + "learning_rate": 1.3287619047619048e-06, + "loss": 0.3077, + "step": 26525 + }, + { + "epoch": 7.08, + "grad_norm": 9.80830192565918, + "learning_rate": 1.3192380952380953e-06, + "loss": 0.2739, + "step": 26550 + }, + { + "epoch": 7.086666666666667, + "grad_norm": 8.376108169555664, + "learning_rate": 1.309714285714286e-06, + "loss": 0.2832, + "step": 26575 + }, + { + "epoch": 7.093333333333334, + "grad_norm": 10.261234283447266, + "learning_rate": 1.3001904761904764e-06, + "loss": 0.3074, + "step": 26600 + }, + { + "epoch": 7.1, + "grad_norm": 10.393391609191895, + "learning_rate": 1.2906666666666668e-06, + "loss": 0.2966, + "step": 26625 + }, + { + "epoch": 7.1066666666666665, + "grad_norm": 9.279651641845703, + "learning_rate": 1.2811428571428572e-06, + "loss": 0.3181, + "step": 26650 + }, + { + "epoch": 7.113333333333333, + "grad_norm": 9.441299438476562, + "learning_rate": 1.2716190476190477e-06, + "loss": 0.3036, + "step": 26675 + }, + { + "epoch": 7.12, + "grad_norm": 11.348038673400879, + "learning_rate": 1.262095238095238e-06, + "loss": 0.2926, + "step": 26700 + }, + { + "epoch": 7.126666666666667, + "grad_norm": 9.508393287658691, + "learning_rate": 1.2525714285714285e-06, + "loss": 0.3263, + "step": 26725 + }, + { + "epoch": 7.133333333333334, + "grad_norm": 9.91976547241211, + "learning_rate": 1.2430476190476192e-06, + "loss": 0.2984, + "step": 26750 + }, + { + "epoch": 7.14, + "grad_norm": 11.496084213256836, + "learning_rate": 1.2335238095238096e-06, + "loss": 0.296, + "step": 26775 + }, + { + "epoch": 7.1466666666666665, + "grad_norm": 9.453579902648926, + "learning_rate": 1.224e-06, + "loss": 0.2959, + "step": 26800 + }, + { + "epoch": 7.153333333333333, + "grad_norm": 9.365256309509277, + "learning_rate": 1.2144761904761907e-06, + "loss": 0.3051, + "step": 26825 + }, + { + "epoch": 7.16, + "grad_norm": 9.524981498718262, + "learning_rate": 1.2049523809523811e-06, + "loss": 0.298, + "step": 26850 + }, + { + "epoch": 7.166666666666667, + "grad_norm": 10.354265213012695, + "learning_rate": 1.1954285714285716e-06, + "loss": 0.3068, + "step": 26875 + }, + { + "epoch": 7.173333333333334, + "grad_norm": 11.221643447875977, + "learning_rate": 1.185904761904762e-06, + "loss": 0.3227, + "step": 26900 + }, + { + "epoch": 7.18, + "grad_norm": 10.431055068969727, + "learning_rate": 1.1763809523809524e-06, + "loss": 0.3046, + "step": 26925 + }, + { + "epoch": 7.1866666666666665, + "grad_norm": 9.235274314880371, + "learning_rate": 1.1668571428571429e-06, + "loss": 0.2843, + "step": 26950 + }, + { + "epoch": 7.193333333333333, + "grad_norm": 10.125055313110352, + "learning_rate": 1.1573333333333333e-06, + "loss": 0.3063, + "step": 26975 + }, + { + "epoch": 7.2, + "grad_norm": 10.493371963500977, + "learning_rate": 1.147809523809524e-06, + "loss": 0.3117, + "step": 27000 + }, + { + "epoch": 7.206666666666667, + "grad_norm": 7.774281978607178, + "learning_rate": 1.1382857142857144e-06, + "loss": 0.3094, + "step": 27025 + }, + { + "epoch": 7.213333333333333, + "grad_norm": 8.537607192993164, + "learning_rate": 1.1287619047619048e-06, + "loss": 0.2928, + "step": 27050 + }, + { + "epoch": 7.22, + "grad_norm": 9.693193435668945, + "learning_rate": 1.1192380952380953e-06, + "loss": 0.2879, + "step": 27075 + }, + { + "epoch": 7.226666666666667, + "grad_norm": 8.884086608886719, + "learning_rate": 1.1097142857142857e-06, + "loss": 0.3027, + "step": 27100 + }, + { + "epoch": 7.233333333333333, + "grad_norm": 9.74974536895752, + "learning_rate": 1.1001904761904761e-06, + "loss": 0.2951, + "step": 27125 + }, + { + "epoch": 7.24, + "grad_norm": 11.982810020446777, + "learning_rate": 1.0906666666666668e-06, + "loss": 0.2826, + "step": 27150 + }, + { + "epoch": 7.246666666666667, + "grad_norm": 11.163418769836426, + "learning_rate": 1.0811428571428572e-06, + "loss": 0.2907, + "step": 27175 + }, + { + "epoch": 7.253333333333333, + "grad_norm": 9.687846183776855, + "learning_rate": 1.0716190476190477e-06, + "loss": 0.3044, + "step": 27200 + }, + { + "epoch": 7.26, + "grad_norm": 10.391332626342773, + "learning_rate": 1.0620952380952381e-06, + "loss": 0.2945, + "step": 27225 + }, + { + "epoch": 7.266666666666667, + "grad_norm": 13.256232261657715, + "learning_rate": 1.0525714285714285e-06, + "loss": 0.2942, + "step": 27250 + }, + { + "epoch": 7.273333333333333, + "grad_norm": 10.908733367919922, + "learning_rate": 1.0430476190476192e-06, + "loss": 0.3107, + "step": 27275 + }, + { + "epoch": 7.28, + "grad_norm": 9.392241477966309, + "learning_rate": 1.0335238095238096e-06, + "loss": 0.3014, + "step": 27300 + }, + { + "epoch": 7.286666666666667, + "grad_norm": 9.14670181274414, + "learning_rate": 1.024e-06, + "loss": 0.2987, + "step": 27325 + }, + { + "epoch": 7.293333333333333, + "grad_norm": 11.493985176086426, + "learning_rate": 1.0144761904761905e-06, + "loss": 0.3055, + "step": 27350 + }, + { + "epoch": 7.3, + "grad_norm": 10.28006649017334, + "learning_rate": 1.0053333333333333e-06, + "loss": 0.3038, + "step": 27375 + }, + { + "epoch": 7.306666666666667, + "grad_norm": 9.671829223632812, + "learning_rate": 9.95809523809524e-07, + "loss": 0.2878, + "step": 27400 + }, + { + "epoch": 7.3133333333333335, + "grad_norm": 9.773625373840332, + "learning_rate": 9.862857142857144e-07, + "loss": 0.3071, + "step": 27425 + }, + { + "epoch": 7.32, + "grad_norm": 9.756706237792969, + "learning_rate": 9.767619047619049e-07, + "loss": 0.3054, + "step": 27450 + }, + { + "epoch": 7.326666666666666, + "grad_norm": 12.406295776367188, + "learning_rate": 9.672380952380953e-07, + "loss": 0.3158, + "step": 27475 + }, + { + "epoch": 7.333333333333333, + "grad_norm": 10.767521858215332, + "learning_rate": 9.57714285714286e-07, + "loss": 0.3095, + "step": 27500 + }, + { + "epoch": 7.34, + "grad_norm": 10.578283309936523, + "learning_rate": 9.481904761904763e-07, + "loss": 0.3148, + "step": 27525 + }, + { + "epoch": 7.346666666666667, + "grad_norm": 10.172937393188477, + "learning_rate": 9.386666666666667e-07, + "loss": 0.2939, + "step": 27550 + }, + { + "epoch": 7.3533333333333335, + "grad_norm": 11.271796226501465, + "learning_rate": 9.291428571428572e-07, + "loss": 0.2992, + "step": 27575 + }, + { + "epoch": 7.36, + "grad_norm": 12.104768753051758, + "learning_rate": 9.196190476190477e-07, + "loss": 0.3053, + "step": 27600 + }, + { + "epoch": 7.366666666666666, + "grad_norm": 9.602285385131836, + "learning_rate": 9.100952380952381e-07, + "loss": 0.3051, + "step": 27625 + }, + { + "epoch": 7.373333333333333, + "grad_norm": 10.11711597442627, + "learning_rate": 9.005714285714287e-07, + "loss": 0.3142, + "step": 27650 + }, + { + "epoch": 7.38, + "grad_norm": 10.303130149841309, + "learning_rate": 8.910476190476192e-07, + "loss": 0.3176, + "step": 27675 + }, + { + "epoch": 7.386666666666667, + "grad_norm": 12.947826385498047, + "learning_rate": 8.815238095238096e-07, + "loss": 0.2949, + "step": 27700 + }, + { + "epoch": 7.3933333333333335, + "grad_norm": 10.146268844604492, + "learning_rate": 8.720000000000001e-07, + "loss": 0.2892, + "step": 27725 + }, + { + "epoch": 7.4, + "grad_norm": 10.741728782653809, + "learning_rate": 8.624761904761905e-07, + "loss": 0.2921, + "step": 27750 + }, + { + "epoch": 7.406666666666666, + "grad_norm": 9.30477237701416, + "learning_rate": 8.52952380952381e-07, + "loss": 0.2858, + "step": 27775 + }, + { + "epoch": 7.413333333333333, + "grad_norm": 11.063037872314453, + "learning_rate": 8.434285714285714e-07, + "loss": 0.2955, + "step": 27800 + }, + { + "epoch": 7.42, + "grad_norm": 12.957379341125488, + "learning_rate": 8.33904761904762e-07, + "loss": 0.2795, + "step": 27825 + }, + { + "epoch": 7.426666666666667, + "grad_norm": 12.326026916503906, + "learning_rate": 8.243809523809525e-07, + "loss": 0.3171, + "step": 27850 + }, + { + "epoch": 7.433333333333334, + "grad_norm": 10.958904266357422, + "learning_rate": 8.148571428571429e-07, + "loss": 0.2771, + "step": 27875 + }, + { + "epoch": 7.44, + "grad_norm": 10.292631149291992, + "learning_rate": 8.053333333333333e-07, + "loss": 0.2916, + "step": 27900 + }, + { + "epoch": 7.446666666666666, + "grad_norm": 11.159157752990723, + "learning_rate": 7.958095238095239e-07, + "loss": 0.2862, + "step": 27925 + }, + { + "epoch": 7.453333333333333, + "grad_norm": 10.338879585266113, + "learning_rate": 7.862857142857143e-07, + "loss": 0.2946, + "step": 27950 + }, + { + "epoch": 7.46, + "grad_norm": 9.124221801757812, + "learning_rate": 7.767619047619049e-07, + "loss": 0.2881, + "step": 27975 + }, + { + "epoch": 7.466666666666667, + "grad_norm": 12.685495376586914, + "learning_rate": 7.672380952380953e-07, + "loss": 0.2895, + "step": 28000 + }, + { + "epoch": 7.473333333333334, + "grad_norm": 11.856629371643066, + "learning_rate": 7.577142857142858e-07, + "loss": 0.2966, + "step": 28025 + }, + { + "epoch": 7.48, + "grad_norm": 10.334390640258789, + "learning_rate": 7.481904761904763e-07, + "loss": 0.2791, + "step": 28050 + }, + { + "epoch": 7.486666666666666, + "grad_norm": 9.32947063446045, + "learning_rate": 7.386666666666667e-07, + "loss": 0.2833, + "step": 28075 + }, + { + "epoch": 7.493333333333333, + "grad_norm": 10.271613121032715, + "learning_rate": 7.291428571428572e-07, + "loss": 0.2901, + "step": 28100 + }, + { + "epoch": 7.5, + "grad_norm": 9.8995361328125, + "learning_rate": 7.196190476190477e-07, + "loss": 0.2989, + "step": 28125 + }, + { + "epoch": 7.506666666666667, + "grad_norm": 10.765287399291992, + "learning_rate": 7.100952380952382e-07, + "loss": 0.3013, + "step": 28150 + }, + { + "epoch": 7.513333333333334, + "grad_norm": 9.296792984008789, + "learning_rate": 7.005714285714287e-07, + "loss": 0.2935, + "step": 28175 + }, + { + "epoch": 7.52, + "grad_norm": 10.173944473266602, + "learning_rate": 6.910476190476191e-07, + "loss": 0.294, + "step": 28200 + }, + { + "epoch": 7.526666666666666, + "grad_norm": 10.9154691696167, + "learning_rate": 6.815238095238095e-07, + "loss": 0.299, + "step": 28225 + }, + { + "epoch": 7.533333333333333, + "grad_norm": 10.071695327758789, + "learning_rate": 6.72e-07, + "loss": 0.3034, + "step": 28250 + }, + { + "epoch": 7.54, + "grad_norm": 10.011914253234863, + "learning_rate": 6.624761904761904e-07, + "loss": 0.2844, + "step": 28275 + }, + { + "epoch": 7.546666666666667, + "grad_norm": 8.42730712890625, + "learning_rate": 6.529523809523811e-07, + "loss": 0.2975, + "step": 28300 + }, + { + "epoch": 7.553333333333334, + "grad_norm": 10.949541091918945, + "learning_rate": 6.434285714285715e-07, + "loss": 0.2886, + "step": 28325 + }, + { + "epoch": 7.5600000000000005, + "grad_norm": 9.885818481445312, + "learning_rate": 6.339047619047619e-07, + "loss": 0.303, + "step": 28350 + }, + { + "epoch": 7.566666666666666, + "grad_norm": 9.095516204833984, + "learning_rate": 6.243809523809524e-07, + "loss": 0.2655, + "step": 28375 + }, + { + "epoch": 7.573333333333333, + "grad_norm": 8.578228950500488, + "learning_rate": 6.148571428571429e-07, + "loss": 0.2889, + "step": 28400 + }, + { + "epoch": 7.58, + "grad_norm": 10.553742408752441, + "learning_rate": 6.053333333333334e-07, + "loss": 0.2961, + "step": 28425 + }, + { + "epoch": 7.586666666666667, + "grad_norm": 9.948991775512695, + "learning_rate": 5.958095238095239e-07, + "loss": 0.2999, + "step": 28450 + }, + { + "epoch": 7.593333333333334, + "grad_norm": 10.235663414001465, + "learning_rate": 5.862857142857143e-07, + "loss": 0.3189, + "step": 28475 + }, + { + "epoch": 7.6, + "grad_norm": 9.104354858398438, + "learning_rate": 5.767619047619049e-07, + "loss": 0.2866, + "step": 28500 + }, + { + "epoch": 7.6066666666666665, + "grad_norm": 11.20688533782959, + "learning_rate": 5.672380952380953e-07, + "loss": 0.3, + "step": 28525 + }, + { + "epoch": 7.613333333333333, + "grad_norm": 10.199275016784668, + "learning_rate": 5.577142857142857e-07, + "loss": 0.2958, + "step": 28550 + }, + { + "epoch": 7.62, + "grad_norm": 9.480252265930176, + "learning_rate": 5.481904761904763e-07, + "loss": 0.298, + "step": 28575 + }, + { + "epoch": 7.626666666666667, + "grad_norm": 12.102067947387695, + "learning_rate": 5.386666666666667e-07, + "loss": 0.3049, + "step": 28600 + }, + { + "epoch": 7.633333333333333, + "grad_norm": 10.799897193908691, + "learning_rate": 5.291428571428572e-07, + "loss": 0.2925, + "step": 28625 + }, + { + "epoch": 7.64, + "grad_norm": 10.917769432067871, + "learning_rate": 5.196190476190477e-07, + "loss": 0.3106, + "step": 28650 + }, + { + "epoch": 7.6466666666666665, + "grad_norm": 8.036992073059082, + "learning_rate": 5.100952380952381e-07, + "loss": 0.3137, + "step": 28675 + }, + { + "epoch": 7.653333333333333, + "grad_norm": 11.026237487792969, + "learning_rate": 5.005714285714286e-07, + "loss": 0.2871, + "step": 28700 + }, + { + "epoch": 7.66, + "grad_norm": 11.679567337036133, + "learning_rate": 4.910476190476191e-07, + "loss": 0.2982, + "step": 28725 + }, + { + "epoch": 7.666666666666667, + "grad_norm": 12.444727897644043, + "learning_rate": 4.815238095238096e-07, + "loss": 0.3011, + "step": 28750 + }, + { + "epoch": 7.673333333333334, + "grad_norm": 10.87670612335205, + "learning_rate": 4.7200000000000004e-07, + "loss": 0.2939, + "step": 28775 + }, + { + "epoch": 7.68, + "grad_norm": 10.27847957611084, + "learning_rate": 4.624761904761905e-07, + "loss": 0.2917, + "step": 28800 + }, + { + "epoch": 7.6866666666666665, + "grad_norm": 12.696969032287598, + "learning_rate": 4.52952380952381e-07, + "loss": 0.2818, + "step": 28825 + }, + { + "epoch": 7.693333333333333, + "grad_norm": 10.282780647277832, + "learning_rate": 4.4342857142857146e-07, + "loss": 0.3119, + "step": 28850 + }, + { + "epoch": 7.7, + "grad_norm": 10.55575942993164, + "learning_rate": 4.339047619047619e-07, + "loss": 0.3064, + "step": 28875 + }, + { + "epoch": 7.706666666666667, + "grad_norm": 8.594602584838867, + "learning_rate": 4.2438095238095244e-07, + "loss": 0.2987, + "step": 28900 + }, + { + "epoch": 7.713333333333333, + "grad_norm": 9.24609088897705, + "learning_rate": 4.148571428571429e-07, + "loss": 0.2837, + "step": 28925 + }, + { + "epoch": 7.72, + "grad_norm": 11.564009666442871, + "learning_rate": 4.0533333333333336e-07, + "loss": 0.2786, + "step": 28950 + }, + { + "epoch": 7.726666666666667, + "grad_norm": 9.449562072753906, + "learning_rate": 3.9580952380952385e-07, + "loss": 0.2912, + "step": 28975 + }, + { + "epoch": 7.733333333333333, + "grad_norm": 8.743968963623047, + "learning_rate": 3.8666666666666674e-07, + "loss": 0.2918, + "step": 29000 + }, + { + "epoch": 7.74, + "grad_norm": 9.604830741882324, + "learning_rate": 3.771428571428572e-07, + "loss": 0.2891, + "step": 29025 + }, + { + "epoch": 7.746666666666667, + "grad_norm": 9.952617645263672, + "learning_rate": 3.676190476190476e-07, + "loss": 0.3126, + "step": 29050 + }, + { + "epoch": 7.753333333333333, + "grad_norm": 12.20897388458252, + "learning_rate": 3.5809523809523816e-07, + "loss": 0.2805, + "step": 29075 + }, + { + "epoch": 7.76, + "grad_norm": 8.835500717163086, + "learning_rate": 3.485714285714286e-07, + "loss": 0.2844, + "step": 29100 + }, + { + "epoch": 7.766666666666667, + "grad_norm": 10.93779182434082, + "learning_rate": 3.390476190476191e-07, + "loss": 0.294, + "step": 29125 + }, + { + "epoch": 7.773333333333333, + "grad_norm": 9.020634651184082, + "learning_rate": 3.2952380952380957e-07, + "loss": 0.2964, + "step": 29150 + }, + { + "epoch": 7.78, + "grad_norm": 8.779486656188965, + "learning_rate": 3.2e-07, + "loss": 0.2813, + "step": 29175 + }, + { + "epoch": 7.786666666666667, + "grad_norm": 11.472345352172852, + "learning_rate": 3.104761904761905e-07, + "loss": 0.3017, + "step": 29200 + }, + { + "epoch": 7.793333333333333, + "grad_norm": 9.780472755432129, + "learning_rate": 3.00952380952381e-07, + "loss": 0.2959, + "step": 29225 + }, + { + "epoch": 7.8, + "grad_norm": 10.236734390258789, + "learning_rate": 2.914285714285715e-07, + "loss": 0.2978, + "step": 29250 + }, + { + "epoch": 7.806666666666667, + "grad_norm": 9.499064445495605, + "learning_rate": 2.819047619047619e-07, + "loss": 0.2788, + "step": 29275 + }, + { + "epoch": 7.8133333333333335, + "grad_norm": 9.444111824035645, + "learning_rate": 2.723809523809524e-07, + "loss": 0.2921, + "step": 29300 + }, + { + "epoch": 7.82, + "grad_norm": 9.732866287231445, + "learning_rate": 2.628571428571429e-07, + "loss": 0.3158, + "step": 29325 + }, + { + "epoch": 7.826666666666666, + "grad_norm": 9.821197509765625, + "learning_rate": 2.533333333333333e-07, + "loss": 0.285, + "step": 29350 + }, + { + "epoch": 7.833333333333333, + "grad_norm": 10.885210990905762, + "learning_rate": 2.438095238095238e-07, + "loss": 0.2965, + "step": 29375 + }, + { + "epoch": 7.84, + "grad_norm": 8.728747367858887, + "learning_rate": 2.3428571428571428e-07, + "loss": 0.2815, + "step": 29400 + }, + { + "epoch": 7.846666666666667, + "grad_norm": 8.477163314819336, + "learning_rate": 2.2476190476190477e-07, + "loss": 0.2956, + "step": 29425 + }, + { + "epoch": 7.8533333333333335, + "grad_norm": 12.775598526000977, + "learning_rate": 2.1523809523809526e-07, + "loss": 0.3151, + "step": 29450 + }, + { + "epoch": 7.86, + "grad_norm": 12.98935604095459, + "learning_rate": 2.0571428571428572e-07, + "loss": 0.2896, + "step": 29475 + }, + { + "epoch": 7.866666666666667, + "grad_norm": 8.463953018188477, + "learning_rate": 1.961904761904762e-07, + "loss": 0.3121, + "step": 29500 + }, + { + "epoch": 7.873333333333333, + "grad_norm": 10.078069686889648, + "learning_rate": 1.866666666666667e-07, + "loss": 0.3194, + "step": 29525 + }, + { + "epoch": 7.88, + "grad_norm": 8.812171936035156, + "learning_rate": 1.7714285714285716e-07, + "loss": 0.2754, + "step": 29550 + }, + { + "epoch": 7.886666666666667, + "grad_norm": 16.076549530029297, + "learning_rate": 1.6761904761904765e-07, + "loss": 0.3178, + "step": 29575 + }, + { + "epoch": 7.8933333333333335, + "grad_norm": 10.433496475219727, + "learning_rate": 1.5809523809523809e-07, + "loss": 0.287, + "step": 29600 + }, + { + "epoch": 7.9, + "grad_norm": 9.714764595031738, + "learning_rate": 1.4857142857142857e-07, + "loss": 0.2665, + "step": 29625 + }, + { + "epoch": 7.906666666666666, + "grad_norm": 11.626995086669922, + "learning_rate": 1.3904761904761906e-07, + "loss": 0.2846, + "step": 29650 + }, + { + "epoch": 7.913333333333333, + "grad_norm": 6.550778865814209, + "learning_rate": 1.2952380952380955e-07, + "loss": 0.2879, + "step": 29675 + }, + { + "epoch": 7.92, + "grad_norm": 9.649068832397461, + "learning_rate": 1.2000000000000002e-07, + "loss": 0.2837, + "step": 29700 + }, + { + "epoch": 7.926666666666667, + "grad_norm": 12.218232154846191, + "learning_rate": 1.1047619047619048e-07, + "loss": 0.2782, + "step": 29725 + }, + { + "epoch": 7.933333333333334, + "grad_norm": 9.019352912902832, + "learning_rate": 1.0095238095238095e-07, + "loss": 0.3041, + "step": 29750 + }, + { + "epoch": 7.9399999999999995, + "grad_norm": 10.712698936462402, + "learning_rate": 9.142857142857144e-08, + "loss": 0.2897, + "step": 29775 + }, + { + "epoch": 7.946666666666666, + "grad_norm": 10.272931098937988, + "learning_rate": 8.190476190476192e-08, + "loss": 0.3069, + "step": 29800 + }, + { + "epoch": 7.953333333333333, + "grad_norm": 9.492351531982422, + "learning_rate": 7.238095238095238e-08, + "loss": 0.2932, + "step": 29825 + }, + { + "epoch": 7.96, + "grad_norm": 9.674139022827148, + "learning_rate": 6.285714285714286e-08, + "loss": 0.2721, + "step": 29850 + }, + { + "epoch": 7.966666666666667, + "grad_norm": 9.163436889648438, + "learning_rate": 5.3333333333333334e-08, + "loss": 0.2842, + "step": 29875 + }, + { + "epoch": 7.973333333333334, + "grad_norm": 11.24505615234375, + "learning_rate": 4.380952380952382e-08, + "loss": 0.3078, + "step": 29900 + }, + { + "epoch": 7.98, + "grad_norm": 9.878830909729004, + "learning_rate": 3.4285714285714286e-08, + "loss": 0.2789, + "step": 29925 + }, + { + "epoch": 7.986666666666666, + "grad_norm": 9.989307403564453, + "learning_rate": 2.4761904761904762e-08, + "loss": 0.3064, + "step": 29950 + }, + { + "epoch": 7.993333333333333, + "grad_norm": 11.098297119140625, + "learning_rate": 1.523809523809524e-08, + "loss": 0.2807, + "step": 29975 + }, + { + "epoch": 8.0, + "grad_norm": 10.015700340270996, + "learning_rate": 5.714285714285715e-09, + "loss": 0.2819, + "step": 30000 + }, + { + "epoch": 8.0, + "eval_cer": 36.60063731062371, + "eval_loss": 0.5823009014129639, + "eval_runtime": 985.9539, + "eval_samples_per_second": 5.071, + "eval_steps_per_second": 0.634, + "step": 30000 + }, + { + "epoch": 8.0, + "step": 30000, + "total_flos": 1.94561409024e+20, + "train_loss": 0.08470725466410318, + "train_runtime": 32886.9002, + "train_samples_per_second": 14.595, + "train_steps_per_second": 0.912 + } + ], + "logging_steps": 25, + "max_steps": 30000, + "num_input_tokens_seen": 0, + "num_train_epochs": 8, + "save_steps": 3750, + "stateful_callbacks": { + "TrainerControl": { + "args": { + "should_epoch_stop": false, + "should_evaluate": false, + "should_log": false, + "should_save": true, + "should_training_stop": true + }, + "attributes": {} + } + }, + "total_flos": 1.94561409024e+20, + "train_batch_size": 16, + "trial_name": null, + "trial_params": null +}