{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.04842052922056642, "global_step": 8265, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 8.78775484946759e-05, "learning_rate": 2.34375e-05, "loss": 10.2, "step": 15 }, { "epoch": 0.0001757550969893518, "learning_rate": 4.6875e-05, "loss": 9.733333333333333, "step": 30 }, { "epoch": 0.0002636326454840277, "learning_rate": 7.031250000000001e-05, "loss": 8.433333333333334, "step": 45 }, { "epoch": 0.0003515101939787036, "learning_rate": 9.375e-05, "loss": 8.266666666666667, "step": 60 }, { "epoch": 0.0004393877424733795, "learning_rate": 0.0001171875, "loss": 8.066666666666666, "step": 75 }, { "epoch": 0.0005272652909680554, "learning_rate": 0.00014062500000000002, "loss": 7.933333333333334, "step": 90 }, { "epoch": 0.0006151428394627313, "learning_rate": 0.0001640625, "loss": 7.866666666666666, "step": 105 }, { "epoch": 0.0007030203879574072, "learning_rate": 0.0001875, "loss": 7.866666666666666, "step": 120 }, { "epoch": 0.0007908979364520831, "learning_rate": 0.0002109375, "loss": 7.8, "step": 135 }, { "epoch": 0.000878775484946759, "learning_rate": 0.000234375, "loss": 7.8, "step": 150 }, { "epoch": 0.0009666530334414349, "learning_rate": 0.0002578125, "loss": 7.733333333333333, "step": 165 }, { "epoch": 0.0010545305819361108, "learning_rate": 0.00028125000000000003, "loss": 7.766666666666667, "step": 180 }, { "epoch": 0.0011424081304307868, "learning_rate": 0.0003046875, "loss": 7.7, "step": 195 }, { "epoch": 0.0012302856789254625, "learning_rate": 0.000328125, "loss": 7.733333333333333, "step": 210 }, { "epoch": 0.0013181632274201385, "learning_rate": 0.0003515625, "loss": 7.7, "step": 225 }, { "epoch": 0.0014060407759148145, "learning_rate": 0.000375, "loss": 7.633333333333334, "step": 240 }, { "epoch": 0.0014939183244094903, "learning_rate": 0.00039843750000000003, "loss": 7.566666666666666, "step": 255 }, { "epoch": 0.0015817958729041663, "learning_rate": 0.000421875, "loss": 7.6, "step": 270 }, { "epoch": 0.0016696734213988422, "learning_rate": 0.0004453125, "loss": 7.5, "step": 285 }, { "epoch": 0.001757550969893518, "learning_rate": 0.00046875, "loss": 7.533333333333333, "step": 300 }, { "epoch": 0.001845428518388194, "learning_rate": 0.0004921875, "loss": 7.533333333333333, "step": 315 }, { "epoch": 0.0019333060668828698, "learning_rate": 0.0004999902297188503, "loss": 7.5, "step": 330 }, { "epoch": 0.0020211836153775455, "learning_rate": 0.000499975574297126, "loss": 7.433333333333334, "step": 345 }, { "epoch": 0.0021090611638722215, "learning_rate": 0.0004999609188754016, "loss": 7.5, "step": 360 }, { "epoch": 0.0021969387123668975, "learning_rate": 0.0004999462634536772, "loss": 7.333333333333333, "step": 375 }, { "epoch": 0.0022848162608615735, "learning_rate": 0.0004999316080319527, "loss": 7.2, "step": 390 }, { "epoch": 0.0023726938093562495, "learning_rate": 0.0004999169526102283, "loss": 6.866666666666666, "step": 405 }, { "epoch": 0.002460571357850925, "learning_rate": 0.0004999022971885039, "loss": 6.533333333333333, "step": 420 }, { "epoch": 0.002548448906345601, "learning_rate": 0.0004998876417667794, "loss": 6.2, "step": 435 }, { "epoch": 0.002636326454840277, "learning_rate": 0.0004998729863450551, "loss": 5.7, "step": 450 }, { "epoch": 0.002724204003334953, "learning_rate": 0.0004998583309233307, "loss": 5.4, "step": 465 }, { "epoch": 0.002812081551829629, "learning_rate": 0.0004998436755016063, "loss": 5.166666666666667, "step": 480 }, { "epoch": 0.002899959100324305, "learning_rate": 0.0004998290200798818, "loss": 5.133333333333334, "step": 495 }, { "epoch": 0.0029878366488189805, "learning_rate": 0.0004998143646581574, "loss": 5.0, "step": 510 }, { "epoch": 0.0030757141973136565, "learning_rate": 0.000499799709236433, "loss": 4.8, "step": 525 }, { "epoch": 0.0031635917458083325, "learning_rate": 0.0004997850538147085, "loss": 4.733333333333333, "step": 540 }, { "epoch": 0.0032514692943030085, "learning_rate": 0.0004997703983929842, "loss": 4.6, "step": 555 }, { "epoch": 0.0033393468427976845, "learning_rate": 0.0004997557429712598, "loss": 4.6, "step": 570 }, { "epoch": 0.00342722439129236, "learning_rate": 0.0004997410875495354, "loss": 4.5, "step": 585 }, { "epoch": 0.003515101939787036, "learning_rate": 0.0004997264321278109, "loss": 4.5, "step": 600 }, { "epoch": 0.003602979488281712, "learning_rate": 0.0004997117767060865, "loss": 4.533333333333333, "step": 615 }, { "epoch": 0.003690857036776388, "learning_rate": 0.000499697121284362, "loss": 4.4, "step": 630 }, { "epoch": 0.003778734585271064, "learning_rate": 0.0004996824658626376, "loss": 4.25, "step": 645 }, { "epoch": 0.0038666121337657395, "learning_rate": 0.0004996678104409132, "loss": 4.233333333333333, "step": 660 }, { "epoch": 0.003954489682260416, "learning_rate": 0.0004996531550191889, "loss": 4.25, "step": 675 }, { "epoch": 0.004042367230755091, "learning_rate": 0.0004996384995974645, "loss": 4.25, "step": 690 }, { "epoch": 0.004130244779249767, "learning_rate": 0.00049962384417574, "loss": 4.216666666666667, "step": 705 }, { "epoch": 0.004218122327744443, "learning_rate": 0.0004996091887540156, "loss": 4.2, "step": 720 }, { "epoch": 0.004305999876239119, "learning_rate": 0.0004995945333322911, "loss": 4.2, "step": 735 }, { "epoch": 0.004393877424733795, "learning_rate": 0.0004995798779105667, "loss": 4.15, "step": 750 }, { "epoch": 0.004481754973228471, "learning_rate": 0.0004995652224888423, "loss": 4.15, "step": 765 }, { "epoch": 0.004569632521723147, "learning_rate": 0.000499550567067118, "loss": 4.133333333333334, "step": 780 }, { "epoch": 0.004657510070217823, "learning_rate": 0.0004995359116453936, "loss": 4.15, "step": 795 }, { "epoch": 0.004745387618712499, "learning_rate": 0.0004995212562236691, "loss": 4.133333333333334, "step": 810 }, { "epoch": 0.004833265167207175, "learning_rate": 0.0004995066008019447, "loss": 4.133333333333334, "step": 825 }, { "epoch": 0.00492114271570185, "learning_rate": 0.0004994919453802202, "loss": 4.083333333333333, "step": 840 }, { "epoch": 0.005009020264196526, "learning_rate": 0.0004994772899584958, "loss": 4.133333333333334, "step": 855 }, { "epoch": 0.005096897812691202, "learning_rate": 0.0004994626345367714, "loss": 4.083333333333333, "step": 870 }, { "epoch": 0.005184775361185878, "learning_rate": 0.000499447979115047, "loss": 4.066666666666666, "step": 885 }, { "epoch": 0.005272652909680554, "learning_rate": 0.0004994333236933227, "loss": 4.1, "step": 900 }, { "epoch": 0.00536053045817523, "learning_rate": 0.0004994186682715982, "loss": 4.1, "step": 915 }, { "epoch": 0.005448408006669906, "learning_rate": 0.0004994040128498738, "loss": 4.066666666666666, "step": 930 }, { "epoch": 0.005536285555164582, "learning_rate": 0.0004993893574281493, "loss": 4.066666666666666, "step": 945 }, { "epoch": 0.005624163103659258, "learning_rate": 0.0004993747020064249, "loss": 4.066666666666666, "step": 960 }, { "epoch": 0.005712040652153934, "learning_rate": 0.0004993600465847005, "loss": 4.016666666666667, "step": 975 }, { "epoch": 0.00579991820064861, "learning_rate": 0.0004993453911629761, "loss": 4.066666666666666, "step": 990 }, { "epoch": 0.005887795749143285, "learning_rate": 0.0004993307357412518, "loss": 4.033333333333333, "step": 1005 }, { "epoch": 0.005975673297637961, "learning_rate": 0.0004993160803195273, "loss": 4.0, "step": 1020 }, { "epoch": 0.006063550846132637, "learning_rate": 0.0004993014248978029, "loss": 4.066666666666666, "step": 1035 }, { "epoch": 0.006151428394627313, "learning_rate": 0.0004992867694760784, "loss": 4.0, "step": 1050 }, { "epoch": 0.006239305943121989, "learning_rate": 0.000499272114054354, "loss": 4.0, "step": 1065 }, { "epoch": 0.006327183491616665, "learning_rate": 0.0004992574586326296, "loss": 4.016666666666667, "step": 1080 }, { "epoch": 0.006415061040111341, "learning_rate": 0.0004992428032109052, "loss": 4.016666666666667, "step": 1095 }, { "epoch": 0.006502938588606017, "learning_rate": 0.0004992281477891808, "loss": 4.0, "step": 1110 }, { "epoch": 0.006590816137100693, "learning_rate": 0.0004992134923674564, "loss": 3.9833333333333334, "step": 1125 }, { "epoch": 0.006678693685595369, "learning_rate": 0.000499198836945732, "loss": 4.0, "step": 1140 }, { "epoch": 0.006766571234090044, "learning_rate": 0.0004991841815240075, "loss": 3.9833333333333334, "step": 1155 }, { "epoch": 0.00685444878258472, "learning_rate": 0.0004991695261022831, "loss": 3.9833333333333334, "step": 1170 }, { "epoch": 0.006942326331079396, "learning_rate": 0.0004991548706805587, "loss": 4.0, "step": 1185 }, { "epoch": 0.007030203879574072, "learning_rate": 0.0004991402152588343, "loss": 3.95, "step": 1200 }, { "epoch": 0.007118081428068748, "learning_rate": 0.0004991255598371099, "loss": 3.9833333333333334, "step": 1215 }, { "epoch": 0.007205958976563424, "learning_rate": 0.0004991109044153854, "loss": 3.9833333333333334, "step": 1230 }, { "epoch": 0.0072938365250581, "learning_rate": 0.0004990962489936611, "loss": 3.966666666666667, "step": 1245 }, { "epoch": 0.007381714073552776, "learning_rate": 0.0004990815935719366, "loss": 3.966666666666667, "step": 1260 }, { "epoch": 0.007469591622047452, "learning_rate": 0.0004990669381502122, "loss": 3.933333333333333, "step": 1275 }, { "epoch": 0.007557469170542128, "learning_rate": 0.0004990522827284878, "loss": 3.966666666666667, "step": 1290 }, { "epoch": 0.007645346719036803, "learning_rate": 0.0004990376273067634, "loss": 3.9833333333333334, "step": 1305 }, { "epoch": 0.007733224267531479, "learning_rate": 0.0004990229718850389, "loss": 3.933333333333333, "step": 1320 }, { "epoch": 0.007821101816026155, "learning_rate": 0.0004990083164633145, "loss": 3.95, "step": 1335 }, { "epoch": 0.007908979364520832, "learning_rate": 0.0004989936610415902, "loss": 3.933333333333333, "step": 1350 }, { "epoch": 0.007996856913015507, "learning_rate": 0.0004989790056198657, "loss": 3.9, "step": 1365 }, { "epoch": 0.008084734461510182, "learning_rate": 0.0004989643501981413, "loss": 3.95, "step": 1380 }, { "epoch": 0.008172612010004859, "learning_rate": 0.0004989496947764169, "loss": 3.933333333333333, "step": 1395 }, { "epoch": 0.008260489558499534, "learning_rate": 0.0004989350393546925, "loss": 3.9166666666666665, "step": 1410 }, { "epoch": 0.008348367106994211, "learning_rate": 0.000498920383932968, "loss": 3.9166666666666665, "step": 1425 }, { "epoch": 0.008436244655488886, "learning_rate": 0.0004989057285112436, "loss": 3.933333333333333, "step": 1440 }, { "epoch": 0.008524122203983563, "learning_rate": 0.0004988910730895193, "loss": 3.9, "step": 1455 }, { "epoch": 0.008611999752478238, "learning_rate": 0.0004988764176677949, "loss": 3.8833333333333333, "step": 1470 }, { "epoch": 0.008699877300972915, "learning_rate": 0.0004988617622460704, "loss": 3.933333333333333, "step": 1485 }, { "epoch": 0.00878775484946759, "learning_rate": 0.000498847106824346, "loss": 3.8666666666666667, "step": 1500 }, { "epoch": 0.008875632397962267, "learning_rate": 0.0004988324514026216, "loss": 3.9, "step": 1515 }, { "epoch": 0.008963509946456942, "learning_rate": 0.0004988177959808971, "loss": 3.8833333333333333, "step": 1530 }, { "epoch": 0.009051387494951617, "learning_rate": 0.0004988031405591727, "loss": 3.9166666666666665, "step": 1545 }, { "epoch": 0.009139265043446294, "learning_rate": 0.0004987884851374483, "loss": 3.8833333333333333, "step": 1560 }, { "epoch": 0.00922714259194097, "learning_rate": 0.000498773829715724, "loss": 3.8666666666666667, "step": 1575 }, { "epoch": 0.009315020140435646, "learning_rate": 0.0004987591742939995, "loss": 3.8833333333333333, "step": 1590 }, { "epoch": 0.009402897688930321, "learning_rate": 0.0004987445188722751, "loss": 3.85, "step": 1605 }, { "epoch": 0.009490775237424998, "learning_rate": 0.0004987298634505507, "loss": 3.8666666666666667, "step": 1620 }, { "epoch": 0.009578652785919673, "learning_rate": 0.0004987152080288262, "loss": 3.8666666666666667, "step": 1635 }, { "epoch": 0.00966653033441435, "learning_rate": 0.0004987005526071018, "loss": 3.8333333333333335, "step": 1650 }, { "epoch": 0.009754407882909025, "learning_rate": 0.0004986858971853774, "loss": 3.8333333333333335, "step": 1665 }, { "epoch": 0.0098422854314037, "learning_rate": 0.000498671241763653, "loss": 3.8666666666666667, "step": 1680 }, { "epoch": 0.009930162979898377, "learning_rate": 0.0004986565863419286, "loss": 3.85, "step": 1695 }, { "epoch": 0.010018040528393052, "learning_rate": 0.0004986419309202042, "loss": 3.8833333333333333, "step": 1710 }, { "epoch": 0.010105918076887729, "learning_rate": 0.0004986272754984798, "loss": 3.816666666666667, "step": 1725 }, { "epoch": 0.010193795625382404, "learning_rate": 0.0004986126200767553, "loss": 3.8, "step": 1740 }, { "epoch": 0.010281673173877081, "learning_rate": 0.0004985979646550309, "loss": 3.8333333333333335, "step": 1755 }, { "epoch": 0.010369550722371756, "learning_rate": 0.0004985833092333065, "loss": 3.816666666666667, "step": 1770 }, { "epoch": 0.010457428270866433, "learning_rate": 0.0004985686538115821, "loss": 3.8333333333333335, "step": 1785 }, { "epoch": 0.010545305819361108, "learning_rate": 0.0004985539983898577, "loss": 3.8333333333333335, "step": 1800 }, { "epoch": 0.010633183367855785, "learning_rate": 0.0004985393429681333, "loss": 3.816666666666667, "step": 1815 }, { "epoch": 0.01072106091635046, "learning_rate": 0.0004985246875464089, "loss": 3.7666666666666666, "step": 1830 }, { "epoch": 0.010808938464845135, "learning_rate": 0.0004985100321246844, "loss": 3.8, "step": 1845 }, { "epoch": 0.010896816013339812, "learning_rate": 0.00049849537670296, "loss": 3.85, "step": 1860 }, { "epoch": 0.010984693561834487, "learning_rate": 0.0004984807212812356, "loss": 3.816666666666667, "step": 1875 }, { "epoch": 0.011072571110329164, "learning_rate": 0.0004984660658595112, "loss": 3.75, "step": 1890 }, { "epoch": 0.011160448658823839, "learning_rate": 0.0004984514104377867, "loss": 3.783333333333333, "step": 1905 }, { "epoch": 0.011248326207318516, "learning_rate": 0.0004984367550160624, "loss": 3.75, "step": 1920 }, { "epoch": 0.011336203755813191, "learning_rate": 0.000498422099594338, "loss": 3.75, "step": 1935 }, { "epoch": 0.011424081304307868, "learning_rate": 0.0004984074441726135, "loss": 3.8, "step": 1950 }, { "epoch": 0.011511958852802543, "learning_rate": 0.0004983927887508891, "loss": 3.8333333333333335, "step": 1965 }, { "epoch": 0.01159983640129722, "learning_rate": 0.0004983781333291647, "loss": 3.783333333333333, "step": 1980 }, { "epoch": 0.011687713949791895, "learning_rate": 0.0004983634779074403, "loss": 3.7666666666666666, "step": 1995 }, { "epoch": 0.01177559149828657, "learning_rate": 0.0004983488224857158, "loss": 3.783333333333333, "step": 2010 }, { "epoch": 0.011863469046781247, "learning_rate": 0.0004983341670639915, "loss": 3.8, "step": 2025 }, { "epoch": 0.011951346595275922, "learning_rate": 0.0004983195116422671, "loss": 3.7, "step": 2040 }, { "epoch": 0.012039224143770599, "learning_rate": 0.0004983048562205426, "loss": 3.7333333333333334, "step": 2055 }, { "epoch": 0.012127101692265274, "learning_rate": 0.0004982902007988182, "loss": 3.75, "step": 2070 }, { "epoch": 0.012214979240759951, "learning_rate": 0.0004982755453770938, "loss": 3.7666666666666666, "step": 2085 }, { "epoch": 0.012302856789254626, "learning_rate": 0.0004982608899553694, "loss": 3.783333333333333, "step": 2100 }, { "epoch": 0.012390734337749303, "learning_rate": 0.0004982462345336449, "loss": 3.7333333333333334, "step": 2115 }, { "epoch": 0.012478611886243978, "learning_rate": 0.0004982315791119205, "loss": 3.783333333333333, "step": 2130 }, { "epoch": 0.012566489434738653, "learning_rate": 0.0004982169236901962, "loss": 3.7333333333333334, "step": 2145 }, { "epoch": 0.01265436698323333, "learning_rate": 0.0004982022682684717, "loss": 3.7333333333333334, "step": 2160 }, { "epoch": 0.012742244531728005, "learning_rate": 0.0004981876128467473, "loss": 3.6666666666666665, "step": 2175 }, { "epoch": 0.012830122080222682, "learning_rate": 0.0004981729574250229, "loss": 3.716666666666667, "step": 2190 }, { "epoch": 0.012917999628717357, "learning_rate": 0.0004981583020032985, "loss": 3.7, "step": 2205 }, { "epoch": 0.013005877177212034, "learning_rate": 0.000498143646581574, "loss": 3.7, "step": 2220 }, { "epoch": 0.013093754725706709, "learning_rate": 0.0004981289911598496, "loss": 3.683333333333333, "step": 2235 }, { "epoch": 0.013181632274201386, "learning_rate": 0.0004981143357381251, "loss": 3.7333333333333334, "step": 2250 }, { "epoch": 0.013269509822696061, "learning_rate": 0.0004980996803164008, "loss": 3.683333333333333, "step": 2265 }, { "epoch": 0.013357387371190738, "learning_rate": 0.0004980850248946764, "loss": 3.6666666666666665, "step": 2280 }, { "epoch": 0.013445264919685413, "learning_rate": 0.000498070369472952, "loss": 3.6666666666666665, "step": 2295 }, { "epoch": 0.013533142468180088, "learning_rate": 0.0004980557140512276, "loss": 3.716666666666667, "step": 2310 }, { "epoch": 0.013621020016674765, "learning_rate": 0.0004980410586295031, "loss": 3.7333333333333334, "step": 2325 }, { "epoch": 0.01370889756516944, "learning_rate": 0.0004980264032077787, "loss": 3.716666666666667, "step": 2340 }, { "epoch": 0.013796775113664117, "learning_rate": 0.0004980117477860542, "loss": 3.7, "step": 2355 }, { "epoch": 0.013884652662158792, "learning_rate": 0.0004979970923643299, "loss": 3.6666666666666665, "step": 2370 }, { "epoch": 0.013972530210653469, "learning_rate": 0.0004979824369426055, "loss": 3.65, "step": 2385 }, { "epoch": 0.014060407759148144, "learning_rate": 0.0004979677815208811, "loss": 3.716666666666667, "step": 2400 }, { "epoch": 0.014148285307642821, "learning_rate": 0.0004979531260991567, "loss": 3.683333333333333, "step": 2415 }, { "epoch": 0.014236162856137496, "learning_rate": 0.0004979384706774322, "loss": 3.683333333333333, "step": 2430 }, { "epoch": 0.014324040404632171, "learning_rate": 0.0004979238152557078, "loss": 3.6333333333333333, "step": 2445 }, { "epoch": 0.014411917953126848, "learning_rate": 0.0004979091598339833, "loss": 3.6666666666666665, "step": 2460 }, { "epoch": 0.014499795501621523, "learning_rate": 0.000497894504412259, "loss": 3.65, "step": 2475 }, { "epoch": 0.0145876730501162, "learning_rate": 0.0004978798489905346, "loss": 3.6666666666666665, "step": 2490 }, { "epoch": 0.014675550598610875, "learning_rate": 0.0004978651935688102, "loss": 3.683333333333333, "step": 2505 }, { "epoch": 0.014763428147105552, "learning_rate": 0.0004978505381470858, "loss": 3.683333333333333, "step": 2520 }, { "epoch": 0.014851305695600227, "learning_rate": 0.0004978358827253613, "loss": 3.6666666666666665, "step": 2535 }, { "epoch": 0.014939183244094904, "learning_rate": 0.0004978212273036369, "loss": 3.6666666666666665, "step": 2550 }, { "epoch": 0.015027060792589579, "learning_rate": 0.0004978065718819124, "loss": 3.6, "step": 2565 }, { "epoch": 0.015114938341084256, "learning_rate": 0.000497791916460188, "loss": 3.6333333333333333, "step": 2580 }, { "epoch": 0.015202815889578931, "learning_rate": 0.0004977772610384637, "loss": 3.5833333333333335, "step": 2595 }, { "epoch": 0.015290693438073606, "learning_rate": 0.0004977626056167393, "loss": 3.65, "step": 2610 }, { "epoch": 0.015378570986568283, "learning_rate": 0.0004977479501950149, "loss": 3.566666666666667, "step": 2625 }, { "epoch": 0.015466448535062958, "learning_rate": 0.0004977332947732904, "loss": 3.6, "step": 2640 }, { "epoch": 0.015554326083557635, "learning_rate": 0.000497718639351566, "loss": 3.6166666666666667, "step": 2655 }, { "epoch": 0.01564220363205231, "learning_rate": 0.0004977039839298415, "loss": 3.533333333333333, "step": 2670 }, { "epoch": 0.015730081180546987, "learning_rate": 0.0004976893285081171, "loss": 3.566666666666667, "step": 2685 }, { "epoch": 0.015817958729041664, "learning_rate": 0.0004976746730863928, "loss": 3.7, "step": 2700 }, { "epoch": 0.015905836277536337, "learning_rate": 0.0004976600176646684, "loss": 3.566666666666667, "step": 2715 }, { "epoch": 0.015993713826031014, "learning_rate": 0.000497645362242944, "loss": 3.55, "step": 2730 }, { "epoch": 0.01608159137452569, "learning_rate": 0.0004976307068212195, "loss": 3.6, "step": 2745 }, { "epoch": 0.016169468923020364, "learning_rate": 0.0004976160513994951, "loss": 3.5833333333333335, "step": 2760 }, { "epoch": 0.01625734647151504, "learning_rate": 0.0004976013959777706, "loss": 3.533333333333333, "step": 2775 }, { "epoch": 0.016345224020009718, "learning_rate": 0.0004975867405560462, "loss": 3.55, "step": 2790 }, { "epoch": 0.016433101568504395, "learning_rate": 0.0004975720851343218, "loss": 3.5166666666666666, "step": 2805 }, { "epoch": 0.01652097911699907, "learning_rate": 0.0004975574297125975, "loss": 3.566666666666667, "step": 2820 }, { "epoch": 0.016608856665493745, "learning_rate": 0.0004975427742908731, "loss": 3.6166666666666667, "step": 2835 }, { "epoch": 0.016696734213988422, "learning_rate": 0.0004975281188691486, "loss": 3.5166666666666666, "step": 2850 }, { "epoch": 0.0167846117624831, "learning_rate": 0.0004975134634474242, "loss": 3.5, "step": 2865 }, { "epoch": 0.016872489310977772, "learning_rate": 0.0004974988080256997, "loss": 3.4833333333333334, "step": 2880 }, { "epoch": 0.01696036685947245, "learning_rate": 0.0004974841526039753, "loss": 3.5, "step": 2895 }, { "epoch": 0.017048244407967126, "learning_rate": 0.0004974694971822509, "loss": 3.5166666666666666, "step": 2910 }, { "epoch": 0.0171361219564618, "learning_rate": 0.0004974548417605266, "loss": 3.55, "step": 2925 }, { "epoch": 0.017223999504956476, "learning_rate": 0.0004974401863388021, "loss": 3.4833333333333334, "step": 2940 }, { "epoch": 0.017311877053451153, "learning_rate": 0.0004974255309170777, "loss": 3.533333333333333, "step": 2955 }, { "epoch": 0.01739975460194583, "learning_rate": 0.0004974108754953533, "loss": 3.6666666666666665, "step": 2970 }, { "epoch": 0.017487632150440503, "learning_rate": 0.0004973962200736288, "loss": 3.566666666666667, "step": 2985 }, { "epoch": 0.01757550969893518, "learning_rate": 0.0004973815646519044, "loss": 3.55, "step": 3000 }, { "epoch": 0.017663387247429857, "learning_rate": 0.00049736690923018, "loss": 3.533333333333333, "step": 3015 }, { "epoch": 0.017751264795924534, "learning_rate": 0.0004973522538084556, "loss": 3.433333333333333, "step": 3030 }, { "epoch": 0.017839142344419207, "learning_rate": 0.0004973375983867312, "loss": 3.5, "step": 3045 }, { "epoch": 0.017927019892913884, "learning_rate": 0.0004973229429650068, "loss": 3.466666666666667, "step": 3060 }, { "epoch": 0.01801489744140856, "learning_rate": 0.0004973082875432824, "loss": 3.4833333333333334, "step": 3075 }, { "epoch": 0.018102774989903234, "learning_rate": 0.0004972936321215579, "loss": 3.55, "step": 3090 }, { "epoch": 0.01819065253839791, "learning_rate": 0.0004972789766998335, "loss": 3.433333333333333, "step": 3105 }, { "epoch": 0.018278530086892588, "learning_rate": 0.0004972643212781091, "loss": 3.533333333333333, "step": 3120 }, { "epoch": 0.018366407635387265, "learning_rate": 0.0004972496658563847, "loss": 3.4166666666666665, "step": 3135 }, { "epoch": 0.01845428518388194, "learning_rate": 0.0004972350104346602, "loss": 3.433333333333333, "step": 3150 }, { "epoch": 0.018542162732376615, "learning_rate": 0.0004972203550129359, "loss": 3.45, "step": 3165 }, { "epoch": 0.018630040280871292, "learning_rate": 0.0004972056995912114, "loss": 3.566666666666667, "step": 3180 }, { "epoch": 0.01871791782936597, "learning_rate": 0.000497191044169487, "loss": 3.533333333333333, "step": 3195 }, { "epoch": 0.018805795377860642, "learning_rate": 0.0004971763887477626, "loss": 3.55, "step": 3210 }, { "epoch": 0.01889367292635532, "learning_rate": 0.0004971617333260382, "loss": 3.4833333333333334, "step": 3225 }, { "epoch": 0.018981550474849996, "learning_rate": 0.0004971470779043138, "loss": 3.4833333333333334, "step": 3240 }, { "epoch": 0.01906942802334467, "learning_rate": 0.0004971324224825893, "loss": 3.466666666666667, "step": 3255 }, { "epoch": 0.019157305571839346, "learning_rate": 0.000497117767060865, "loss": 3.5, "step": 3270 }, { "epoch": 0.019245183120334023, "learning_rate": 0.0004971031116391405, "loss": 3.433333333333333, "step": 3285 }, { "epoch": 0.0193330606688287, "learning_rate": 0.0004970884562174161, "loss": 3.4833333333333334, "step": 3300 }, { "epoch": 0.019420938217323373, "learning_rate": 0.0004970738007956917, "loss": 3.5, "step": 3315 }, { "epoch": 0.01950881576581805, "learning_rate": 0.0004970591453739673, "loss": 3.4833333333333334, "step": 3330 }, { "epoch": 0.019596693314312727, "learning_rate": 0.0004970444899522429, "loss": 3.433333333333333, "step": 3345 }, { "epoch": 0.0196845708628074, "learning_rate": 0.0004970298345305184, "loss": 3.433333333333333, "step": 3360 }, { "epoch": 0.019772448411302077, "learning_rate": 0.000497015179108794, "loss": 3.533333333333333, "step": 3375 }, { "epoch": 0.019860325959796754, "learning_rate": 0.0004970005236870696, "loss": 3.3666666666666667, "step": 3390 }, { "epoch": 0.01994820350829143, "learning_rate": 0.0004969858682653452, "loss": 3.45, "step": 3405 }, { "epoch": 0.020036081056786104, "learning_rate": 0.0004969712128436208, "loss": 3.4166666666666665, "step": 3420 }, { "epoch": 0.02012395860528078, "learning_rate": 0.0004969565574218964, "loss": 3.4, "step": 3435 }, { "epoch": 0.020211836153775458, "learning_rate": 0.000496941902000172, "loss": 3.316666666666667, "step": 3450 }, { "epoch": 0.020299713702270135, "learning_rate": 0.0004969272465784475, "loss": 3.4833333333333334, "step": 3465 }, { "epoch": 0.02038759125076481, "learning_rate": 0.0004969125911567231, "loss": 3.433333333333333, "step": 3480 }, { "epoch": 0.020475468799259485, "learning_rate": 0.0004968979357349987, "loss": 3.466666666666667, "step": 3495 }, { "epoch": 0.020563346347754162, "learning_rate": 0.0004968832803132743, "loss": 3.3666666666666667, "step": 3510 }, { "epoch": 0.020651223896248835, "learning_rate": 0.0004968686248915499, "loss": 3.45, "step": 3525 }, { "epoch": 0.020739101444743512, "learning_rate": 0.0004968539694698255, "loss": 3.4, "step": 3540 }, { "epoch": 0.02082697899323819, "learning_rate": 0.0004968393140481011, "loss": 3.4166666666666665, "step": 3555 }, { "epoch": 0.020914856541732866, "learning_rate": 0.0004968246586263766, "loss": 3.433333333333333, "step": 3570 }, { "epoch": 0.02100273409022754, "learning_rate": 0.0004968100032046522, "loss": 3.35, "step": 3585 }, { "epoch": 0.021090611638722216, "learning_rate": 0.0004967953477829277, "loss": 3.5, "step": 3600 }, { "epoch": 0.021178489187216893, "learning_rate": 0.0004967806923612034, "loss": 3.3833333333333333, "step": 3615 }, { "epoch": 0.02126636673571157, "learning_rate": 0.000496766036939479, "loss": 3.4166666666666665, "step": 3630 }, { "epoch": 0.021354244284206243, "learning_rate": 0.0004967513815177546, "loss": 3.466666666666667, "step": 3645 }, { "epoch": 0.02144212183270092, "learning_rate": 0.0004967367260960302, "loss": 3.3833333333333333, "step": 3660 }, { "epoch": 0.021529999381195597, "learning_rate": 0.0004967220706743057, "loss": 3.4166666666666665, "step": 3675 }, { "epoch": 0.02161787692969027, "learning_rate": 0.0004967074152525813, "loss": 3.4, "step": 3690 }, { "epoch": 0.021705754478184947, "learning_rate": 0.0004966927598308568, "loss": 3.3666666666666667, "step": 3705 }, { "epoch": 0.021793632026679624, "learning_rate": 0.0004966781044091325, "loss": 3.35, "step": 3720 }, { "epoch": 0.0218815095751743, "learning_rate": 0.0004966634489874081, "loss": 3.3833333333333333, "step": 3735 }, { "epoch": 0.021969387123668974, "learning_rate": 0.0004966487935656837, "loss": 3.316666666666667, "step": 3750 }, { "epoch": 0.02205726467216365, "learning_rate": 0.0004966341381439593, "loss": 3.3333333333333335, "step": 3765 }, { "epoch": 0.022145142220658328, "learning_rate": 0.0004966194827222348, "loss": 3.35, "step": 3780 }, { "epoch": 0.022233019769153005, "learning_rate": 0.0004966048273005104, "loss": 3.3333333333333335, "step": 3795 }, { "epoch": 0.022320897317647678, "learning_rate": 0.0004965901718787859, "loss": 3.2666666666666666, "step": 3810 }, { "epoch": 0.022408774866142355, "learning_rate": 0.0004965755164570615, "loss": 3.3666666666666667, "step": 3825 }, { "epoch": 0.022496652414637032, "learning_rate": 0.0004965608610353372, "loss": 3.283333333333333, "step": 3840 }, { "epoch": 0.022584529963131705, "learning_rate": 0.0004965462056136128, "loss": 3.3666666666666667, "step": 3855 }, { "epoch": 0.022672407511626382, "learning_rate": 0.0004965315501918883, "loss": 3.3833333333333333, "step": 3870 }, { "epoch": 0.02276028506012106, "learning_rate": 0.0004965168947701639, "loss": 3.283333333333333, "step": 3885 }, { "epoch": 0.022848162608615736, "learning_rate": 0.0004965022393484395, "loss": 3.3333333333333335, "step": 3900 }, { "epoch": 0.02293604015711041, "learning_rate": 0.000496487583926715, "loss": 3.4166666666666665, "step": 3915 }, { "epoch": 0.023023917705605086, "learning_rate": 0.0004964729285049906, "loss": 3.3666666666666667, "step": 3930 }, { "epoch": 0.023111795254099763, "learning_rate": 0.0004964582730832663, "loss": 3.3666666666666667, "step": 3945 }, { "epoch": 0.02319967280259444, "learning_rate": 0.0004964436176615419, "loss": 3.3, "step": 3960 }, { "epoch": 0.023287550351089113, "learning_rate": 0.0004964289622398174, "loss": 3.3833333333333333, "step": 3975 }, { "epoch": 0.02337542789958379, "learning_rate": 0.000496414306818093, "loss": 3.3666666666666667, "step": 3990 }, { "epoch": 0.023463305448078467, "learning_rate": 0.0004963996513963686, "loss": 3.3666666666666667, "step": 4005 }, { "epoch": 0.02355118299657314, "learning_rate": 0.0004963849959746441, "loss": 3.283333333333333, "step": 4020 }, { "epoch": 0.023639060545067817, "learning_rate": 0.0004963703405529197, "loss": 3.35, "step": 4035 }, { "epoch": 0.023726938093562494, "learning_rate": 0.0004963556851311953, "loss": 3.316666666666667, "step": 4050 }, { "epoch": 0.02381481564205717, "learning_rate": 0.000496341029709471, "loss": 3.2333333333333334, "step": 4065 }, { "epoch": 0.023902693190551844, "learning_rate": 0.0004963263742877465, "loss": 3.3, "step": 4080 }, { "epoch": 0.02399057073904652, "learning_rate": 0.0004963117188660221, "loss": 3.1666666666666665, "step": 4095 }, { "epoch": 0.024078448287541198, "learning_rate": 0.0004962970634442977, "loss": 3.2666666666666666, "step": 4110 }, { "epoch": 0.02416632583603587, "learning_rate": 0.0004962824080225733, "loss": 3.316666666666667, "step": 4125 }, { "epoch": 0.024254203384530548, "learning_rate": 0.0004962677526008488, "loss": 3.316666666666667, "step": 4140 }, { "epoch": 0.024342080933025225, "learning_rate": 0.0004962530971791244, "loss": 3.2333333333333334, "step": 4155 }, { "epoch": 0.024429958481519902, "learning_rate": 0.0004962384417574001, "loss": 3.283333333333333, "step": 4170 }, { "epoch": 0.024517836030014575, "learning_rate": 0.0004962237863356756, "loss": 3.2666666666666666, "step": 4185 }, { "epoch": 0.024605713578509252, "learning_rate": 0.0004962091309139512, "loss": 3.283333333333333, "step": 4200 }, { "epoch": 0.02469359112700393, "learning_rate": 0.0004961944754922268, "loss": 3.3833333333333333, "step": 4215 }, { "epoch": 0.024781468675498606, "learning_rate": 0.0004961798200705024, "loss": 3.3, "step": 4230 }, { "epoch": 0.02486934622399328, "learning_rate": 0.0004961651646487779, "loss": 3.283333333333333, "step": 4245 }, { "epoch": 0.024957223772487956, "learning_rate": 0.0004961505092270535, "loss": 3.316666666666667, "step": 4260 }, { "epoch": 0.025045101320982633, "learning_rate": 0.0004961358538053292, "loss": 3.283333333333333, "step": 4275 }, { "epoch": 0.025132978869477306, "learning_rate": 0.0004961211983836047, "loss": 3.283333333333333, "step": 4290 }, { "epoch": 0.025220856417971983, "learning_rate": 0.0004961065429618803, "loss": 3.2333333333333334, "step": 4305 }, { "epoch": 0.02530873396646666, "learning_rate": 0.0004960918875401559, "loss": 3.2333333333333334, "step": 4320 }, { "epoch": 0.025396611514961337, "learning_rate": 0.0004960772321184315, "loss": 3.283333333333333, "step": 4335 }, { "epoch": 0.02548448906345601, "learning_rate": 0.000496062576696707, "loss": 3.2, "step": 4350 }, { "epoch": 0.025572366611950687, "learning_rate": 0.0004960479212749826, "loss": 3.25, "step": 4365 }, { "epoch": 0.025660244160445364, "learning_rate": 0.0004960332658532582, "loss": 3.2666666666666666, "step": 4380 }, { "epoch": 0.02574812170894004, "learning_rate": 0.0004960186104315338, "loss": 3.2666666666666666, "step": 4395 }, { "epoch": 0.025835999257434714, "learning_rate": 0.0004960039550098094, "loss": 3.25, "step": 4410 }, { "epoch": 0.02592387680592939, "learning_rate": 0.000495989299588085, "loss": 3.216666666666667, "step": 4425 }, { "epoch": 0.026011754354424068, "learning_rate": 0.0004959746441663606, "loss": 3.25, "step": 4440 }, { "epoch": 0.02609963190291874, "learning_rate": 0.0004959599887446361, "loss": 3.183333333333333, "step": 4455 }, { "epoch": 0.026187509451413418, "learning_rate": 0.0004959453333229117, "loss": 3.15, "step": 4470 }, { "epoch": 0.026275386999908095, "learning_rate": 0.0004959306779011873, "loss": 3.2333333333333334, "step": 4485 }, { "epoch": 0.026363264548402772, "learning_rate": 0.0004959160224794628, "loss": 3.2333333333333334, "step": 4500 }, { "epoch": 0.026451142096897445, "learning_rate": 0.0004959013670577385, "loss": 3.2666666666666666, "step": 4515 }, { "epoch": 0.026539019645392122, "learning_rate": 0.0004958867116360141, "loss": 3.1333333333333333, "step": 4530 }, { "epoch": 0.0266268971938868, "learning_rate": 0.0004958720562142897, "loss": 3.25, "step": 4545 }, { "epoch": 0.026714774742381476, "learning_rate": 0.0004958574007925652, "loss": 3.216666666666667, "step": 4560 }, { "epoch": 0.02680265229087615, "learning_rate": 0.0004958427453708408, "loss": 3.25, "step": 4575 }, { "epoch": 0.026890529839370826, "learning_rate": 0.0004958280899491164, "loss": 3.25, "step": 4590 }, { "epoch": 0.026978407387865503, "learning_rate": 0.0004958134345273919, "loss": 3.316666666666667, "step": 4605 }, { "epoch": 0.027066284936360176, "learning_rate": 0.0004957987791056676, "loss": 3.3, "step": 4620 }, { "epoch": 0.027154162484854853, "learning_rate": 0.0004957841236839432, "loss": 3.25, "step": 4635 }, { "epoch": 0.02724204003334953, "learning_rate": 0.0004957694682622188, "loss": 3.2333333333333334, "step": 4650 }, { "epoch": 0.027329917581844207, "learning_rate": 0.0004957548128404943, "loss": 3.05, "step": 4665 }, { "epoch": 0.02741779513033888, "learning_rate": 0.0004957401574187699, "loss": 3.25, "step": 4680 }, { "epoch": 0.027505672678833557, "learning_rate": 0.0004957255019970455, "loss": 3.183333333333333, "step": 4695 }, { "epoch": 0.027593550227328234, "learning_rate": 0.000495710846575321, "loss": 3.15, "step": 4710 }, { "epoch": 0.02768142777582291, "learning_rate": 0.0004956961911535966, "loss": 3.1333333333333333, "step": 4725 }, { "epoch": 0.027769305324317584, "learning_rate": 0.0004956815357318723, "loss": 3.1166666666666667, "step": 4740 }, { "epoch": 0.02785718287281226, "learning_rate": 0.0004956668803101479, "loss": 3.1666666666666665, "step": 4755 }, { "epoch": 0.027945060421306938, "learning_rate": 0.0004956522248884234, "loss": 3.1666666666666665, "step": 4770 }, { "epoch": 0.02803293796980161, "learning_rate": 0.000495637569466699, "loss": 3.3, "step": 4785 }, { "epoch": 0.028120815518296288, "learning_rate": 0.0004956229140449745, "loss": 3.183333333333333, "step": 4800 }, { "epoch": 0.028208693066790965, "learning_rate": 0.0004956082586232501, "loss": 3.2333333333333334, "step": 4815 }, { "epoch": 0.028296570615285642, "learning_rate": 0.0004955936032015257, "loss": 3.216666666666667, "step": 4830 }, { "epoch": 0.028384448163780315, "learning_rate": 0.0004955789477798014, "loss": 3.05, "step": 4845 }, { "epoch": 0.028472325712274992, "learning_rate": 0.000495564292358077, "loss": 3.183333333333333, "step": 4860 }, { "epoch": 0.02856020326076967, "learning_rate": 0.0004955496369363525, "loss": 3.0833333333333335, "step": 4875 }, { "epoch": 0.028648080809264342, "learning_rate": 0.0004955349815146281, "loss": 3.1666666666666665, "step": 4890 }, { "epoch": 0.02873595835775902, "learning_rate": 0.0004955203260929036, "loss": 3.25, "step": 4905 }, { "epoch": 0.028823835906253696, "learning_rate": 0.0004955056706711792, "loss": 3.033333333333333, "step": 4920 }, { "epoch": 0.028911713454748373, "learning_rate": 0.0004954910152494548, "loss": 3.183333333333333, "step": 4935 }, { "epoch": 0.028999591003243046, "learning_rate": 0.0004954763598277304, "loss": 3.15, "step": 4950 }, { "epoch": 0.029087468551737723, "learning_rate": 0.0004954617044060061, "loss": 3.05, "step": 4965 }, { "epoch": 0.0291753461002324, "learning_rate": 0.0004954470489842816, "loss": 3.183333333333333, "step": 4980 }, { "epoch": 0.029263223648727077, "learning_rate": 0.0004954323935625572, "loss": 3.15, "step": 4995 }, { "epoch": 0.02935110119722175, "learning_rate": 0.0004954177381408327, "loss": 3.1166666666666667, "step": 5010 }, { "epoch": 0.029438978745716427, "learning_rate": 0.0004954030827191083, "loss": 3.066666666666667, "step": 5025 }, { "epoch": 0.029526856294211104, "learning_rate": 0.0004953884272973839, "loss": 3.1333333333333333, "step": 5040 }, { "epoch": 0.029614733842705777, "learning_rate": 0.0004953737718756595, "loss": 3.25, "step": 5055 }, { "epoch": 0.029702611391200454, "learning_rate": 0.0004953591164539352, "loss": 3.1166666666666667, "step": 5070 }, { "epoch": 0.02979048893969513, "learning_rate": 0.0004953444610322107, "loss": 3.1, "step": 5085 }, { "epoch": 0.029878366488189808, "learning_rate": 0.0004953298056104863, "loss": 3.15, "step": 5100 }, { "epoch": 0.02996624403668448, "learning_rate": 0.0004953151501887618, "loss": 3.1666666666666665, "step": 5115 }, { "epoch": 0.030054121585179158, "learning_rate": 0.0004953004947670374, "loss": 3.15, "step": 5130 }, { "epoch": 0.030141999133673835, "learning_rate": 0.000495285839345313, "loss": 3.1666666666666665, "step": 5145 }, { "epoch": 0.030229876682168512, "learning_rate": 0.0004952711839235886, "loss": 3.2, "step": 5160 }, { "epoch": 0.030317754230663185, "learning_rate": 0.0004952565285018643, "loss": 3.1666666666666665, "step": 5175 }, { "epoch": 0.030405631779157862, "learning_rate": 0.0004952418730801398, "loss": 3.066666666666667, "step": 5190 }, { "epoch": 0.03049350932765254, "learning_rate": 0.0004952272176584154, "loss": 3.066666666666667, "step": 5205 }, { "epoch": 0.030581386876147212, "learning_rate": 0.0004952125622366909, "loss": 3.1, "step": 5220 }, { "epoch": 0.03066926442464189, "learning_rate": 0.0004951979068149665, "loss": 3.066666666666667, "step": 5235 }, { "epoch": 0.030757141973136566, "learning_rate": 0.0004951832513932421, "loss": 3.1333333333333333, "step": 5250 }, { "epoch": 0.030845019521631243, "learning_rate": 0.0004951685959715177, "loss": 3.1333333333333333, "step": 5265 }, { "epoch": 0.030932897070125916, "learning_rate": 0.0004951539405497933, "loss": 3.066666666666667, "step": 5280 }, { "epoch": 0.031020774618620593, "learning_rate": 0.0004951392851280689, "loss": 3.1166666666666667, "step": 5295 }, { "epoch": 0.03110865216711527, "learning_rate": 0.0004951246297063445, "loss": 3.1333333333333333, "step": 5310 }, { "epoch": 0.031196529715609947, "learning_rate": 0.00049510997428462, "loss": 3.1166666666666667, "step": 5325 }, { "epoch": 0.03128440726410462, "learning_rate": 0.0004950953188628956, "loss": 3.1333333333333333, "step": 5340 }, { "epoch": 0.031372284812599294, "learning_rate": 0.0004950806634411712, "loss": 3.066666666666667, "step": 5355 }, { "epoch": 0.031460162361093974, "learning_rate": 0.0004950660080194468, "loss": 3.1166666666666667, "step": 5370 }, { "epoch": 0.03154803990958865, "learning_rate": 0.0004950513525977223, "loss": 3.0833333333333335, "step": 5385 }, { "epoch": 0.03163591745808333, "learning_rate": 0.0004950366971759979, "loss": 3.1, "step": 5400 }, { "epoch": 0.031723795006578, "learning_rate": 0.0004950220417542736, "loss": 3.15, "step": 5415 }, { "epoch": 0.031811672555072674, "learning_rate": 0.0004950073863325491, "loss": 3.183333333333333, "step": 5430 }, { "epoch": 0.031899550103567355, "learning_rate": 0.0004949927309108247, "loss": 3.1166666666666667, "step": 5445 }, { "epoch": 0.03198742765206203, "learning_rate": 0.0004949780754891003, "loss": 3.1333333333333333, "step": 5460 }, { "epoch": 0.0320753052005567, "learning_rate": 0.0004949634200673759, "loss": 3.183333333333333, "step": 5475 }, { "epoch": 0.03216318274905138, "learning_rate": 0.0004949487646456514, "loss": 3.1333333333333333, "step": 5490 }, { "epoch": 0.032251060297546055, "learning_rate": 0.000494934109223927, "loss": 3.05, "step": 5505 }, { "epoch": 0.03233893784604073, "learning_rate": 0.0004949194538022027, "loss": 3.1, "step": 5520 }, { "epoch": 0.03242681539453541, "learning_rate": 0.0004949047983804782, "loss": 3.15, "step": 5535 }, { "epoch": 0.03251469294303008, "learning_rate": 0.0004948901429587538, "loss": 3.0833333333333335, "step": 5550 }, { "epoch": 0.03260257049152476, "learning_rate": 0.0004948754875370294, "loss": 3.1166666666666667, "step": 5565 }, { "epoch": 0.032690448040019436, "learning_rate": 0.000494860832115305, "loss": 3.066666666666667, "step": 5580 }, { "epoch": 0.03277832558851411, "learning_rate": 0.0004948461766935805, "loss": 3.05, "step": 5595 }, { "epoch": 0.03286620313700879, "learning_rate": 0.0004948315212718561, "loss": 2.95, "step": 5610 }, { "epoch": 0.03295408068550346, "learning_rate": 0.0004948168658501317, "loss": 3.0833333333333335, "step": 5625 }, { "epoch": 0.03304195823399814, "learning_rate": 0.0004948022104284073, "loss": 2.9833333333333334, "step": 5640 }, { "epoch": 0.03312983578249282, "learning_rate": 0.0004947875550066829, "loss": 3.1166666666666667, "step": 5655 }, { "epoch": 0.03321771333098749, "learning_rate": 0.0004947728995849585, "loss": 3.0, "step": 5670 }, { "epoch": 0.033305590879482164, "learning_rate": 0.0004947582441632341, "loss": 3.0833333333333335, "step": 5685 }, { "epoch": 0.033393468427976844, "learning_rate": 0.0004947435887415096, "loss": 2.966666666666667, "step": 5700 }, { "epoch": 0.03348134597647152, "learning_rate": 0.0004947289333197852, "loss": 3.066666666666667, "step": 5715 }, { "epoch": 0.0335692235249662, "learning_rate": 0.0004947142778980607, "loss": 3.1333333333333333, "step": 5730 }, { "epoch": 0.03365710107346087, "learning_rate": 0.0004946996224763363, "loss": 3.0166666666666666, "step": 5745 }, { "epoch": 0.033744978621955544, "learning_rate": 0.000494684967054612, "loss": 3.066666666666667, "step": 5760 }, { "epoch": 0.033832856170450225, "learning_rate": 0.0004946703116328876, "loss": 2.9833333333333334, "step": 5775 }, { "epoch": 0.0339207337189449, "learning_rate": 0.0004946556562111632, "loss": 3.066666666666667, "step": 5790 }, { "epoch": 0.03400861126743957, "learning_rate": 0.0004946410007894387, "loss": 3.066666666666667, "step": 5805 }, { "epoch": 0.03409648881593425, "learning_rate": 0.0004946263453677143, "loss": 3.0, "step": 5820 }, { "epoch": 0.034184366364428925, "learning_rate": 0.0004946116899459898, "loss": 3.15, "step": 5835 }, { "epoch": 0.0342722439129236, "learning_rate": 0.0004945970345242654, "loss": 3.066666666666667, "step": 5850 }, { "epoch": 0.03436012146141828, "learning_rate": 0.0004945823791025411, "loss": 2.9833333333333334, "step": 5865 }, { "epoch": 0.03444799900991295, "learning_rate": 0.0004945677236808167, "loss": 3.1, "step": 5880 }, { "epoch": 0.03453587655840763, "learning_rate": 0.0004945530682590923, "loss": 3.05, "step": 5895 }, { "epoch": 0.034623754106902306, "learning_rate": 0.0004945384128373678, "loss": 3.1166666666666667, "step": 5910 }, { "epoch": 0.03471163165539698, "learning_rate": 0.0004945237574156434, "loss": 2.933333333333333, "step": 5925 }, { "epoch": 0.03479950920389166, "learning_rate": 0.0004945091019939189, "loss": 3.1166666666666667, "step": 5940 }, { "epoch": 0.03488738675238633, "learning_rate": 0.0004944944465721945, "loss": 2.8833333333333333, "step": 5955 }, { "epoch": 0.03497526430088101, "learning_rate": 0.0004944797911504701, "loss": 3.05, "step": 5970 }, { "epoch": 0.03506314184937569, "learning_rate": 0.0004944651357287458, "loss": 3.1333333333333333, "step": 5985 }, { "epoch": 0.03515101939787036, "learning_rate": 0.0004944504803070214, "loss": 3.1166666666666667, "step": 6000 }, { "epoch": 0.035238896946365034, "learning_rate": 0.0004944358248852969, "loss": 3.1, "step": 6015 }, { "epoch": 0.035326774494859714, "learning_rate": 0.0004944211694635725, "loss": 2.95, "step": 6030 }, { "epoch": 0.03541465204335439, "learning_rate": 0.000494406514041848, "loss": 3.0833333333333335, "step": 6045 }, { "epoch": 0.03550252959184907, "learning_rate": 0.0004943918586201236, "loss": 2.95, "step": 6060 }, { "epoch": 0.03559040714034374, "learning_rate": 0.0004943772031983992, "loss": 3.0166666666666666, "step": 6075 }, { "epoch": 0.035678284688838414, "learning_rate": 0.0004943625477766749, "loss": 3.066666666666667, "step": 6090 }, { "epoch": 0.035766162237333095, "learning_rate": 0.0004943478923549505, "loss": 3.033333333333333, "step": 6105 }, { "epoch": 0.03585403978582777, "learning_rate": 0.000494333236933226, "loss": 3.0166666666666666, "step": 6120 }, { "epoch": 0.03594191733432244, "learning_rate": 0.0004943185815115016, "loss": 3.0166666666666666, "step": 6135 }, { "epoch": 0.03602979488281712, "learning_rate": 0.0004943039260897771, "loss": 2.8666666666666667, "step": 6150 }, { "epoch": 0.036117672431311795, "learning_rate": 0.0004942892706680527, "loss": 2.95, "step": 6165 }, { "epoch": 0.03620554997980647, "learning_rate": 0.0004942746152463283, "loss": 2.9833333333333334, "step": 6180 }, { "epoch": 0.03629342752830115, "learning_rate": 0.000494259959824604, "loss": 2.9833333333333334, "step": 6195 }, { "epoch": 0.03638130507679582, "learning_rate": 0.0004942453044028796, "loss": 2.9833333333333334, "step": 6210 }, { "epoch": 0.0364691826252905, "learning_rate": 0.0004942306489811551, "loss": 3.0166666666666666, "step": 6225 }, { "epoch": 0.036557060173785176, "learning_rate": 0.0004942159935594307, "loss": 2.95, "step": 6240 }, { "epoch": 0.03664493772227985, "learning_rate": 0.0004942013381377062, "loss": 3.0, "step": 6255 }, { "epoch": 0.03673281527077453, "learning_rate": 0.0004941866827159818, "loss": 3.0166666666666666, "step": 6270 }, { "epoch": 0.0368206928192692, "learning_rate": 0.0004941720272942574, "loss": 3.0, "step": 6285 }, { "epoch": 0.03690857036776388, "learning_rate": 0.000494157371872533, "loss": 3.0, "step": 6300 }, { "epoch": 0.03699644791625856, "learning_rate": 0.0004941427164508086, "loss": 3.05, "step": 6315 }, { "epoch": 0.03708432546475323, "learning_rate": 0.0004941280610290842, "loss": 3.0, "step": 6330 }, { "epoch": 0.037172203013247904, "learning_rate": 0.0004941134056073598, "loss": 3.1, "step": 6345 }, { "epoch": 0.037260080561742584, "learning_rate": 0.0004940987501856353, "loss": 2.966666666666667, "step": 6360 }, { "epoch": 0.03734795811023726, "learning_rate": 0.0004940840947639109, "loss": 2.933333333333333, "step": 6375 }, { "epoch": 0.03743583565873194, "learning_rate": 0.0004940694393421865, "loss": 3.1666666666666665, "step": 6390 }, { "epoch": 0.03752371320722661, "learning_rate": 0.0004940547839204621, "loss": 2.85, "step": 6405 }, { "epoch": 0.037611590755721284, "learning_rate": 0.0004940401284987376, "loss": 2.933333333333333, "step": 6420 }, { "epoch": 0.037699468304215965, "learning_rate": 0.0004940254730770133, "loss": 3.0, "step": 6435 }, { "epoch": 0.03778734585271064, "learning_rate": 0.0004940108176552889, "loss": 2.966666666666667, "step": 6450 }, { "epoch": 0.03787522340120531, "learning_rate": 0.0004939961622335644, "loss": 3.066666666666667, "step": 6465 }, { "epoch": 0.03796310094969999, "learning_rate": 0.00049398150681184, "loss": 2.9, "step": 6480 }, { "epoch": 0.038050978498194665, "learning_rate": 0.0004939668513901156, "loss": 2.9833333333333334, "step": 6495 }, { "epoch": 0.03813885604668934, "learning_rate": 0.0004939521959683912, "loss": 3.0166666666666666, "step": 6510 }, { "epoch": 0.03822673359518402, "learning_rate": 0.0004939375405466667, "loss": 2.9166666666666665, "step": 6525 }, { "epoch": 0.03831461114367869, "learning_rate": 0.0004939228851249424, "loss": 3.0166666666666666, "step": 6540 }, { "epoch": 0.03840248869217337, "learning_rate": 0.000493908229703218, "loss": 2.9833333333333334, "step": 6555 }, { "epoch": 0.038490366240668046, "learning_rate": 0.0004938935742814935, "loss": 3.033333333333333, "step": 6570 }, { "epoch": 0.03857824378916272, "learning_rate": 0.0004938789188597691, "loss": 2.9833333333333334, "step": 6585 }, { "epoch": 0.0386661213376574, "learning_rate": 0.0004938642634380447, "loss": 2.8833333333333333, "step": 6600 }, { "epoch": 0.03875399888615207, "learning_rate": 0.0004938496080163203, "loss": 2.95, "step": 6615 }, { "epoch": 0.03884187643464675, "learning_rate": 0.0004938349525945958, "loss": 2.95, "step": 6630 }, { "epoch": 0.03892975398314143, "learning_rate": 0.0004938202971728714, "loss": 2.9833333333333334, "step": 6645 }, { "epoch": 0.0390176315316361, "learning_rate": 0.0004938056417511471, "loss": 2.9166666666666665, "step": 6660 }, { "epoch": 0.039105509080130774, "learning_rate": 0.0004937909863294227, "loss": 2.95, "step": 6675 }, { "epoch": 0.039193386628625454, "learning_rate": 0.0004937763309076982, "loss": 2.95, "step": 6690 }, { "epoch": 0.03928126417712013, "learning_rate": 0.0004937616754859738, "loss": 2.9166666666666665, "step": 6705 }, { "epoch": 0.0393691417256148, "learning_rate": 0.0004937470200642494, "loss": 3.0, "step": 6720 }, { "epoch": 0.03945701927410948, "learning_rate": 0.0004937323646425249, "loss": 2.9, "step": 6735 }, { "epoch": 0.039544896822604154, "learning_rate": 0.0004937177092208005, "loss": 2.8833333333333333, "step": 6750 }, { "epoch": 0.039632774371098835, "learning_rate": 0.0004937030537990762, "loss": 2.933333333333333, "step": 6765 }, { "epoch": 0.03972065191959351, "learning_rate": 0.0004936883983773518, "loss": 2.966666666666667, "step": 6780 }, { "epoch": 0.03980852946808818, "learning_rate": 0.0004936737429556273, "loss": 3.0166666666666666, "step": 6795 }, { "epoch": 0.03989640701658286, "learning_rate": 0.0004936590875339029, "loss": 2.933333333333333, "step": 6810 }, { "epoch": 0.039984284565077535, "learning_rate": 0.0004936444321121785, "loss": 2.966666666666667, "step": 6825 }, { "epoch": 0.04007216211357221, "learning_rate": 0.000493629776690454, "loss": 2.95, "step": 6840 }, { "epoch": 0.04016003966206689, "learning_rate": 0.0004936151212687296, "loss": 2.933333333333333, "step": 6855 }, { "epoch": 0.04024791721056156, "learning_rate": 0.0004936004658470052, "loss": 2.85, "step": 6870 }, { "epoch": 0.040335794759056236, "learning_rate": 0.0004935858104252809, "loss": 2.95, "step": 6885 }, { "epoch": 0.040423672307550916, "learning_rate": 0.0004935711550035564, "loss": 2.85, "step": 6900 }, { "epoch": 0.04051154985604559, "learning_rate": 0.000493556499581832, "loss": 2.9166666666666665, "step": 6915 }, { "epoch": 0.04059942740454027, "learning_rate": 0.0004935418441601076, "loss": 2.95, "step": 6930 }, { "epoch": 0.04068730495303494, "learning_rate": 0.0004935271887383831, "loss": 3.0166666666666666, "step": 6945 }, { "epoch": 0.04077518250152962, "learning_rate": 0.0004935125333166587, "loss": 2.9166666666666665, "step": 6960 }, { "epoch": 0.0408630600500243, "learning_rate": 0.0004934978778949343, "loss": 2.8833333333333333, "step": 6975 }, { "epoch": 0.04095093759851897, "learning_rate": 0.00049348322247321, "loss": 2.8833333333333333, "step": 6990 }, { "epoch": 0.041038815147013644, "learning_rate": 0.0004934685670514855, "loss": 2.966666666666667, "step": 7005 }, { "epoch": 0.041126692695508324, "learning_rate": 0.0004934539116297611, "loss": 2.95, "step": 7020 }, { "epoch": 0.041214570244003, "learning_rate": 0.0004934392562080367, "loss": 2.933333333333333, "step": 7035 }, { "epoch": 0.04130244779249767, "learning_rate": 0.0004934246007863122, "loss": 2.933333333333333, "step": 7050 }, { "epoch": 0.04139032534099235, "learning_rate": 0.0004934099453645878, "loss": 2.8833333333333333, "step": 7065 }, { "epoch": 0.041478202889487024, "learning_rate": 0.0004933952899428634, "loss": 2.95, "step": 7080 }, { "epoch": 0.041566080437981705, "learning_rate": 0.000493380634521139, "loss": 2.9, "step": 7095 }, { "epoch": 0.04165395798647638, "learning_rate": 0.0004933659790994146, "loss": 2.933333333333333, "step": 7110 }, { "epoch": 0.04174183553497105, "learning_rate": 0.0004933513236776902, "loss": 2.9, "step": 7125 }, { "epoch": 0.04182971308346573, "learning_rate": 0.0004933366682559658, "loss": 2.85, "step": 7140 }, { "epoch": 0.041917590631960405, "learning_rate": 0.0004933220128342413, "loss": 2.8333333333333335, "step": 7155 }, { "epoch": 0.04200546818045508, "learning_rate": 0.0004933073574125169, "loss": 2.933333333333333, "step": 7170 }, { "epoch": 0.04209334572894976, "learning_rate": 0.0004932927019907925, "loss": 2.9166666666666665, "step": 7185 }, { "epoch": 0.04218122327744443, "learning_rate": 0.0004932780465690681, "loss": 2.933333333333333, "step": 7200 }, { "epoch": 0.042269100825939106, "learning_rate": 0.0004932633911473437, "loss": 2.8, "step": 7215 }, { "epoch": 0.042356978374433786, "learning_rate": 0.0004932487357256193, "loss": 2.85, "step": 7230 }, { "epoch": 0.04244485592292846, "learning_rate": 0.0004932340803038948, "loss": 2.85, "step": 7245 }, { "epoch": 0.04253273347142314, "learning_rate": 0.0004932194248821704, "loss": 2.8666666666666667, "step": 7260 }, { "epoch": 0.04262061101991781, "learning_rate": 0.000493204769460446, "loss": 2.85, "step": 7275 }, { "epoch": 0.042708488568412487, "learning_rate": 0.0004931901140387216, "loss": 2.966666666666667, "step": 7290 }, { "epoch": 0.04279636611690717, "learning_rate": 0.0004931754586169972, "loss": 2.816666666666667, "step": 7305 }, { "epoch": 0.04288424366540184, "learning_rate": 0.0004931608031952727, "loss": 3.0166666666666666, "step": 7320 }, { "epoch": 0.042972121213896514, "learning_rate": 0.0004931461477735484, "loss": 2.9166666666666665, "step": 7335 }, { "epoch": 0.043059998762391194, "learning_rate": 0.0004931314923518239, "loss": 2.9166666666666665, "step": 7350 }, { "epoch": 0.04314787631088587, "learning_rate": 0.0004931168369300995, "loss": 2.966666666666667, "step": 7365 }, { "epoch": 0.04323575385938054, "learning_rate": 0.0004931021815083751, "loss": 2.95, "step": 7380 }, { "epoch": 0.04332363140787522, "learning_rate": 0.0004930875260866507, "loss": 2.966666666666667, "step": 7395 }, { "epoch": 0.043411508956369894, "learning_rate": 0.0004930728706649263, "loss": 2.8333333333333335, "step": 7410 }, { "epoch": 0.043499386504864575, "learning_rate": 0.0004930582152432018, "loss": 3.0166666666666666, "step": 7425 }, { "epoch": 0.04358726405335925, "learning_rate": 0.0004930435598214775, "loss": 2.933333333333333, "step": 7440 }, { "epoch": 0.04367514160185392, "learning_rate": 0.000493028904399753, "loss": 2.9166666666666665, "step": 7455 }, { "epoch": 0.0437630191503486, "learning_rate": 0.0004930142489780286, "loss": 2.8333333333333335, "step": 7470 }, { "epoch": 0.043850896698843275, "learning_rate": 0.0004929995935563042, "loss": 2.95, "step": 7485 }, { "epoch": 0.04393877424733795, "learning_rate": 0.0004929849381345798, "loss": 2.9166666666666665, "step": 7500 }, { "epoch": 0.04402665179583263, "learning_rate": 0.0004929702827128554, "loss": 2.933333333333333, "step": 7515 }, { "epoch": 0.0441145293443273, "learning_rate": 0.0004929556272911309, "loss": 2.816666666666667, "step": 7530 }, { "epoch": 0.044202406892821976, "learning_rate": 0.0004929409718694065, "loss": 2.966666666666667, "step": 7545 }, { "epoch": 0.044290284441316656, "learning_rate": 0.000492926316447682, "loss": 2.9, "step": 7560 }, { "epoch": 0.04437816198981133, "learning_rate": 0.0004929116610259577, "loss": 2.85, "step": 7575 }, { "epoch": 0.04446603953830601, "learning_rate": 0.0004928970056042333, "loss": 2.816666666666667, "step": 7590 }, { "epoch": 0.04455391708680068, "learning_rate": 0.0004928823501825089, "loss": 2.8666666666666667, "step": 7605 }, { "epoch": 0.044641794635295357, "learning_rate": 0.0004928676947607845, "loss": 2.8833333333333333, "step": 7620 }, { "epoch": 0.04472967218379004, "learning_rate": 0.00049285303933906, "loss": 2.9166666666666665, "step": 7635 }, { "epoch": 0.04481754973228471, "learning_rate": 0.0004928383839173356, "loss": 2.8, "step": 7650 }, { "epoch": 0.044905427280779384, "learning_rate": 0.0004928237284956111, "loss": 2.85, "step": 7665 }, { "epoch": 0.044993304829274064, "learning_rate": 0.0004928090730738868, "loss": 2.8, "step": 7680 }, { "epoch": 0.04508118237776874, "learning_rate": 0.0004927944176521624, "loss": 2.8333333333333335, "step": 7695 }, { "epoch": 0.04516905992626341, "learning_rate": 0.000492779762230438, "loss": 2.85, "step": 7710 }, { "epoch": 0.04525693747475809, "learning_rate": 0.0004927651068087136, "loss": 2.8833333333333333, "step": 7725 }, { "epoch": 0.045344815023252764, "learning_rate": 0.0004927504513869891, "loss": 2.7, "step": 7740 }, { "epoch": 0.045432692571747445, "learning_rate": 0.0004927357959652647, "loss": 2.9166666666666665, "step": 7755 }, { "epoch": 0.04552057012024212, "learning_rate": 0.0004927211405435402, "loss": 2.8666666666666667, "step": 7770 }, { "epoch": 0.04560844766873679, "learning_rate": 0.0004927064851218159, "loss": 2.7666666666666666, "step": 7785 }, { "epoch": 0.04569632521723147, "learning_rate": 0.0004926918297000915, "loss": 2.9, "step": 7800 }, { "epoch": 0.045784202765726145, "learning_rate": 0.0004926771742783671, "loss": 2.75, "step": 7815 }, { "epoch": 0.04587208031422082, "learning_rate": 0.0004926625188566427, "loss": 2.9, "step": 7830 }, { "epoch": 0.0459599578627155, "learning_rate": 0.0004926478634349182, "loss": 2.933333333333333, "step": 7845 }, { "epoch": 0.04604783541121017, "learning_rate": 0.0004926332080131938, "loss": 2.8666666666666667, "step": 7860 }, { "epoch": 0.046135712959704846, "learning_rate": 0.0004926185525914693, "loss": 2.933333333333333, "step": 7875 }, { "epoch": 0.046223590508199526, "learning_rate": 0.000492603897169745, "loss": 2.9, "step": 7890 }, { "epoch": 0.0463114680566942, "learning_rate": 0.0004925892417480206, "loss": 2.8, "step": 7905 }, { "epoch": 0.04639934560518888, "learning_rate": 0.0004925745863262962, "loss": 2.6666666666666665, "step": 7920 }, { "epoch": 0.04648722315368355, "learning_rate": 0.0004925599309045717, "loss": 2.8333333333333335, "step": 7935 }, { "epoch": 0.046575100702178227, "learning_rate": 0.0004925452754828473, "loss": 2.816666666666667, "step": 7950 }, { "epoch": 0.04666297825067291, "learning_rate": 0.0004925306200611229, "loss": 2.8833333333333333, "step": 7965 }, { "epoch": 0.04675085579916758, "learning_rate": 0.0004925159646393984, "loss": 2.9166666666666665, "step": 7980 }, { "epoch": 0.046838733347662254, "learning_rate": 0.000492501309217674, "loss": 2.8833333333333333, "step": 7995 }, { "epoch": 0.046926610896156934, "learning_rate": 0.0004924866537959497, "loss": 2.8666666666666667, "step": 8010 }, { "epoch": 0.04701448844465161, "learning_rate": 0.0004924719983742253, "loss": 2.85, "step": 8025 }, { "epoch": 0.04710236599314628, "learning_rate": 0.0004924573429525008, "loss": 2.783333333333333, "step": 8040 }, { "epoch": 0.04719024354164096, "learning_rate": 0.0004924426875307764, "loss": 2.8333333333333335, "step": 8055 }, { "epoch": 0.047278121090135634, "learning_rate": 0.000492428032109052, "loss": 2.8333333333333335, "step": 8070 }, { "epoch": 0.04736599863863031, "learning_rate": 0.0004924133766873275, "loss": 2.8833333333333333, "step": 8085 }, { "epoch": 0.04745387618712499, "learning_rate": 0.0004923987212656031, "loss": 2.75, "step": 8100 }, { "epoch": 0.04754175373561966, "learning_rate": 0.0004923840658438788, "loss": 2.716666666666667, "step": 8115 }, { "epoch": 0.04762963128411434, "learning_rate": 0.0004923694104221544, "loss": 2.8666666666666667, "step": 8130 }, { "epoch": 0.047717508832609015, "learning_rate": 0.0004923547550004299, "loss": 2.816666666666667, "step": 8145 }, { "epoch": 0.04780538638110369, "learning_rate": 0.0004923400995787055, "loss": 2.7333333333333334, "step": 8160 }, { "epoch": 0.04789326392959837, "learning_rate": 0.000492325444156981, "loss": 2.7333333333333334, "step": 8175 }, { "epoch": 0.04798114147809304, "learning_rate": 0.0004923107887352566, "loss": 2.8, "step": 8190 }, { "epoch": 0.048069019026587716, "learning_rate": 0.0004922961333135322, "loss": 2.8, "step": 8205 }, { "epoch": 0.048156896575082396, "learning_rate": 0.0004922814778918078, "loss": 2.85, "step": 8220 }, { "epoch": 0.04824477412357707, "learning_rate": 0.0004922668224700835, "loss": 2.75, "step": 8235 }, { "epoch": 0.04833265167207174, "learning_rate": 0.000492252167048359, "loss": 2.8333333333333335, "step": 8250 }, { "epoch": 0.04842052922056642, "learning_rate": 0.0004922375116266346, "loss": 2.783333333333333, "step": 8265 } ], "max_steps": 512076, "num_train_epochs": 3, "total_flos": 1079104548938711040, "trial_name": null, "trial_params": null }