[{"loss": 4.0702, "grad_norm": 4.815432071685791, "learning_rate": 1.491e-05, "epoch": 0.03922183871979919, "step": 500}, {"loss": 3.7346, "grad_norm": 4.787735462188721, "learning_rate": 2.991e-05, "epoch": 0.07844367743959837, "step": 1000}, {"loss": 3.65, "grad_norm": 4.107189178466797, "learning_rate": 2.9995355250003903e-05, "epoch": 0.11766551615939755, "step": 1500}, {"loss": 3.5925, "grad_norm": 3.937546730041504, "learning_rate": 2.9981311601106195e-05, "epoch": 0.15688735487919675, "step": 2000}, {"loss": 3.5522, "grad_norm": 4.4103522300720215, "learning_rate": 2.9957877686602315e-05, "epoch": 0.19610919359899592, "step": 2500}, {"loss": 3.5288, "grad_norm": 3.844406843185425, "learning_rate": 2.9925068194837793e-05, "epoch": 0.2353310323187951, "step": 3000}, {"loss": 3.5035, "grad_norm": 3.899444818496704, "learning_rate": 2.9882903690757167e-05, "epoch": 0.27455287103859427, "step": 3500}, {"loss": 3.4881, "grad_norm": 3.9522151947021484, "learning_rate": 2.9831410603013876e-05, "epoch": 0.3137747097583935, "step": 4000}, {"loss": 3.4783, "grad_norm": 4.143383502960205, "learning_rate": 2.9770621207404843e-05, "epoch": 0.3529965484781927, "step": 4500}, {"loss": 3.458, "grad_norm": 3.931680917739868, "learning_rate": 2.970057360664003e-05, "epoch": 0.39221838719799185, "step": 5000}, {"loss": 3.4537, "grad_norm": 4.119752407073975, "learning_rate": 2.962131170645972e-05, "epoch": 0.431440225917791, "step": 5500}, {"loss": 3.4308, "grad_norm": 4.143581867218018, "learning_rate": 2.953307115155352e-05, "epoch": 0.4706620646375902, "step": 6000}, {"loss": 3.4315, "grad_norm": 4.0809326171875, "learning_rate": 2.943555359993314e-05, "epoch": 0.5098839033573894, "step": 6500}, {"loss": 3.41, "grad_norm": 3.7539913654327393, "learning_rate": 2.9328987863074716e-05, "epoch": 0.5491057420771885, "step": 7000}, {"loss": 3.4165, "grad_norm": 3.645097494125366, "learning_rate": 2.9213440736236267e-05, "epoch": 0.5883275807969878, "step": 7500}, {"loss": 3.4037, "grad_norm": 4.06417989730835, "learning_rate": 2.908975779543806e-05, "epoch": 0.627549419516787, "step": 8000}, {"loss": 3.3904, "grad_norm": 3.7389395236968994, "learning_rate": 2.8956523489228323e-05, "epoch": 0.6667712582365861, "step": 8500}, {"loss": 3.3841, "grad_norm": 3.387664318084717, "learning_rate": 2.881454125319828e-05, "epoch": 0.7059930969563853, "step": 9000}, {"loss": 3.3783, "grad_norm": 3.811471462249756, "learning_rate": 2.8663900081619134e-05, "epoch": 0.7452149356761845, "step": 9500}, {"loss": 3.3663, "grad_norm": 3.8173110485076904, "learning_rate": 2.850469439617105e-05, "epoch": 0.7844367743959837, "step": 10000}, {"loss": 3.364, "grad_norm": 3.7175230979919434, "learning_rate": 2.833702398675975e-05, "epoch": 0.8236586131157829, "step": 10500}, {"loss": 3.3416, "grad_norm": 3.737067937850952, "learning_rate": 2.8161354279482287e-05, "epoch": 0.862880451835582, "step": 11000}, {"loss": 3.3499, "grad_norm": 3.3745436668395996, "learning_rate": 2.7977091333720223e-05, "epoch": 0.9021022905553813, "step": 11500}, {"loss": 3.3354, "grad_norm": 3.772184133529663, "learning_rate": 2.778469436487234e-05, "epoch": 0.9413241292751804, "step": 12000}, {"loss": 3.3402, "grad_norm": 4.003607749938965, "learning_rate": 2.758428396709537e-05, "epoch": 0.9805459679949796, "step": 12500}, {"eval_loss": 3.1642658710479736, "eval_rouge1": 37.4957, "eval_rouge2": 16.0158, "eval_rougeL": 30.7641, "eval_rougeLsum": 30.7659, "eval_runtime": 3241.2289, "eval_samples_per_second": 3.494, "eval_steps_per_second": 0.109, "epoch": 1.0, "step": 12748}, {"loss": 3.288, "grad_norm": 3.707019329071045, "learning_rate": 2.737598575735234e-05, "epoch": 1.0197678067147788, "step": 13000}, {"loss": 3.2239, "grad_norm": 4.062658309936523, "learning_rate": 2.7159930296676013e-05, "epoch": 1.058989645434578, "step": 13500}, {"loss": 3.2289, "grad_norm": 3.5189483165740967, "learning_rate": 2.6936253008333408e-05, "epoch": 1.098211484154377, "step": 14000}, {"loss": 3.2243, "grad_norm": 3.8249692916870117, "learning_rate": 2.6705094092942713e-05, "epoch": 1.1374333228741764, "step": 14500}, {"loss": 3.2222, "grad_norm": 3.4259629249572754, "learning_rate": 2.6466598440595697e-05, "epoch": 1.1766551615939755, "step": 15000}, {"loss": 3.2202, "grad_norm": 3.554076671600342, "learning_rate": 2.622091554004081e-05, "epoch": 1.2158770003137747, "step": 15500}, {"loss": 3.2121, "grad_norm": 3.7606992721557617, "learning_rate": 2.596819938498385e-05, "epoch": 1.255098839033574, "step": 16000}, {"loss": 3.2071, "grad_norm": 3.7788052558898926, "learning_rate": 2.5708608377564914e-05, "epoch": 1.2943206777533731, "step": 16500}, {"loss": 3.2039, "grad_norm": 3.279533624649048, "learning_rate": 2.5442305229072128e-05, "epoch": 1.3335425164731722, "step": 17000}, {"loss": 3.2059, "grad_norm": 3.5672452449798584, "learning_rate": 2.516945685795448e-05, "epoch": 1.3727643551929716, "step": 17500}, {"loss": 3.218, "grad_norm": 3.909329414367676, "learning_rate": 2.4890234285197522e-05, "epoch": 1.4119861939127707, "step": 18000}, {"loss": 3.2032, "grad_norm": 3.512930154800415, "learning_rate": 2.4604812527127683e-05, "epoch": 1.4512080326325698, "step": 18500}, {"loss": 3.2076, "grad_norm": 3.427480697631836, "learning_rate": 2.4313370485712254e-05, "epoch": 1.490429871352369, "step": 19000}, {"loss": 3.1948, "grad_norm": 4.243097305297852, "learning_rate": 2.4016090836423888e-05, "epoch": 1.529651710072168, "step": 19500}, {"loss": 3.1972, "grad_norm": 3.9088072776794434, "learning_rate": 2.371315991373986e-05, "epoch": 1.5688735487919674, "step": 20000}, {"loss": 3.1948, "grad_norm": 3.7923810482025146, "learning_rate": 2.3404767594347884e-05, "epoch": 1.6080953875117665, "step": 20500}, {"loss": 3.1884, "grad_norm": 3.7284505367279053, "learning_rate": 2.3091107178131644e-05, "epoch": 1.6473172262315656, "step": 21000}, {"loss": 3.1969, "grad_norm": 3.415501117706299, "learning_rate": 2.2772375267010705e-05, "epoch": 1.686539064951365, "step": 21500}, {"loss": 3.1841, "grad_norm": 3.8518974781036377, "learning_rate": 2.2449423576610366e-05, "epoch": 1.725760903671164, "step": 22000}, {"loss": 3.1826, "grad_norm": 3.5303738117218018, "learning_rate": 2.212116020480534e-05, "epoch": 1.7649827423909632, "step": 22500}, {"loss": 3.175, "grad_norm": 3.536060333251953, "learning_rate": 2.1788433299530904e-05, "epoch": 1.8042045811107625, "step": 23000}, {"loss": 3.1827, "grad_norm": 3.6350674629211426, "learning_rate": 2.1451451413555863e-05, "epoch": 1.8434264198305617, "step": 23500}, {"loss": 3.1731, "grad_norm": 3.775521755218506, "learning_rate": 2.1111111711965262e-05, "epoch": 1.8826482585503608, "step": 24000}, {"loss": 3.1707, "grad_norm": 3.366093873977661, "learning_rate": 2.0766956879545798e-05, "epoch": 1.9218700972701601, "step": 24500}, {"loss": 3.1763, "grad_norm": 3.482616662979126, "learning_rate": 2.0418501396470045e-05, "epoch": 1.9610919359899592, "step": 25000}, {"eval_loss": 3.0951175689697266, "eval_rouge1": 38.2165, "eval_rouge2": 16.8821, "eval_rougeL": 31.5157, "eval_rougeLsum": 31.5127, "eval_runtime": 3331.5705, "eval_samples_per_second": 3.4, "eval_steps_per_second": 0.106, "epoch": 2.0, "step": 25496}, {"loss": 3.1733, "grad_norm": 3.7435946464538574, "learning_rate": 2.006664960413546e-05, "epoch": 2.0003137747097584, "step": 25500}, {"loss": 3.0619, "grad_norm": 3.429003953933716, "learning_rate": 1.971162204276389e-05, "epoch": 2.0395356134295577, "step": 26000}, {"loss": 3.0719, "grad_norm": 3.7137835025787354, "learning_rate": 1.9353641243144866e-05, "epoch": 2.0787574521493566, "step": 26500}, {"loss": 3.0649, "grad_norm": 3.3914031982421875, "learning_rate": 1.899293158715361e-05, "epoch": 2.117979290869156, "step": 27000}, {"loss": 3.0666, "grad_norm": 3.721632242202759, "learning_rate": 1.862971916710877e-05, "epoch": 2.1572011295889553, "step": 27500}, {"loss": 3.0733, "grad_norm": 3.5332696437835693, "learning_rate": 1.8264231644058102e-05, "epoch": 2.196422968308754, "step": 28000}, {"loss": 3.0632, "grad_norm": 3.5465166568756104, "learning_rate": 1.78966981050808e-05, "epoch": 2.2356448070285535, "step": 28500}, {"loss": 3.0683, "grad_norm": 3.6786136627197266, "learning_rate": 1.752734891969603e-05, "epoch": 2.274866645748353, "step": 29000}, {"loss": 3.0649, "grad_norm": 3.3921070098876953, "learning_rate": 1.7156415595467664e-05, "epoch": 2.3140884844681517, "step": 29500}, {"loss": 3.0743, "grad_norm": 3.5219807624816895, "learning_rate": 1.6784130632895608e-05, "epoch": 2.353310323187951, "step": 30000}, {"loss": 3.0612, "grad_norm": 3.4730820655822754, "learning_rate": 1.6410727379684856e-05, "epoch": 2.3925321619077504, "step": 30500}, {"loss": 3.072, "grad_norm": 3.7993781566619873, "learning_rate": 1.603643988448342e-05, "epoch": 2.4317540006275493, "step": 31000}, {"loss": 3.0724, "grad_norm": 3.6652684211730957, "learning_rate": 1.566225311663884e-05, "epoch": 2.4709758393473487, "step": 31500}, {"loss": 3.0708, "grad_norm": 3.5753328800201416, "learning_rate": 1.5286901947838715e-05, "epoch": 2.510197678067148, "step": 32000}, {"loss": 3.0501, "grad_norm": 3.676226854324341, "learning_rate": 1.491137094929038e-05, "epoch": 2.549419516786947, "step": 32500}, {"loss": 3.061, "grad_norm": 3.402405023574829, "learning_rate": 1.4535895503309714e-05, "epoch": 2.5886413555067462, "step": 33000}, {"loss": 3.0642, "grad_norm": 3.395519733428955, "learning_rate": 1.4160710957392342e-05, "epoch": 2.6278631942265456, "step": 33500}, {"loss": 3.0648, "grad_norm": 3.715311050415039, "learning_rate": 1.3786052476698117e-05, "epoch": 2.6670850329463445, "step": 34000}, {"loss": 3.0555, "grad_norm": 3.593257188796997, "learning_rate": 1.3412154896649924e-05, "epoch": 2.706306871666144, "step": 34500}, {"loss": 3.051, "grad_norm": 3.361978054046631, "learning_rate": 1.3039252575739176e-05, "epoch": 2.745528710385943, "step": 35000}, {"loss": 3.064, "grad_norm": 3.5041344165802, "learning_rate": 1.2668321213761833e-05, "epoch": 2.784750549105742, "step": 35500}, {"loss": 3.0543, "grad_norm": 3.610360860824585, "learning_rate": 1.229884550503379e-05, "epoch": 2.8239723878255414, "step": 36000}, {"loss": 3.0523, "grad_norm": 3.7899672985076904, "learning_rate": 1.1931056111050598e-05, "epoch": 2.8631942265453403, "step": 36500}, {"loss": 3.0565, "grad_norm": 3.543691635131836, "learning_rate": 1.1564451504047482e-05, "epoch": 2.9024160652651396, "step": 37000}, {"loss": 3.0475, "grad_norm": 3.3301544189453125, "learning_rate": 1.1200000294139285e-05, "epoch": 2.941637903984939, "step": 37500}, {"loss": 3.0448, "grad_norm": 3.9095375537872314, "learning_rate": 1.0837930918845544e-05, "epoch": 2.980859742704738, "step": 38000}, {"eval_loss": 3.061704158782959, "eval_rouge1": 38.8404, "eval_rouge2": 17.5522, "eval_rougeL": 32.2, "eval_rougeLsum": 32.1992, "eval_runtime": 3411.6639, "eval_samples_per_second": 3.32, "eval_steps_per_second": 0.104, "epoch": 3.0, "step": 38244}, {"loss": 3.0133, "grad_norm": 3.467282772064209, "learning_rate": 1.0478470322755109e-05, "epoch": 3.020081581424537, "step": 38500}, {"loss": 2.9807, "grad_norm": 3.3419344425201416, "learning_rate": 1.0121843815277612e-05, "epoch": 3.0593034201443365, "step": 39000}, {"loss": 2.9753, "grad_norm": 3.455366373062134, "learning_rate": 9.768274929419812e-06, "epoch": 3.0985252588641354, "step": 39500}, {"loss": 2.9718, "grad_norm": 3.565645933151245, "learning_rate": 9.417985281675422e-06, "epoch": 3.1377470975839348, "step": 40000}, {"loss": 2.9779, "grad_norm": 3.3410637378692627, "learning_rate": 9.071884378155362e-06, "epoch": 3.176968936303734, "step": 40500}, {"loss": 2.9752, "grad_norm": 3.350271463394165, "learning_rate": 8.728802049068453e-06, "epoch": 3.216190775023533, "step": 41000}, {"loss": 2.9808, "grad_norm": 3.53889536857605, "learning_rate": 8.389650498273598e-06, "epoch": 3.2554126137433324, "step": 41500}, {"loss": 2.9695, "grad_norm": 3.205538511276245, "learning_rate": 8.054642305498627e-06, "epoch": 3.2946344524631312, "step": 42000}, {"loss": 2.975, "grad_norm": 3.9880053997039795, "learning_rate": 7.724644280267924e-06, "epoch": 3.3338562911829306, "step": 42500}, {"loss": 2.973, "grad_norm": 3.633437156677246, "learning_rate": 7.3985406967444604e-06, "epoch": 3.37307812990273, "step": 43000}, {"loss": 2.9724, "grad_norm": 3.805098295211792, "learning_rate": 7.077201697507921e-06, "epoch": 3.412299968622529, "step": 43500}, {"loss": 2.975, "grad_norm": 4.2869391441345215, "learning_rate": 6.760828697403193e-06, "epoch": 3.451521807342328, "step": 44000}, {"loss": 2.9647, "grad_norm": 3.576887607574463, "learning_rate": 6.449619998593714e-06, "epoch": 3.4907436460621275, "step": 44500}, {"loss": 2.9666, "grad_norm": 3.492790937423706, "learning_rate": 6.143770666265945e-06, "epoch": 3.5299654847819264, "step": 45000}, {"loss": 2.9644, "grad_norm": 3.918761968612671, "learning_rate": 5.843472406362751e-06, "epoch": 3.5691873235017257, "step": 45500}, {"loss": 2.9648, "grad_norm": 4.009835243225098, "learning_rate": 5.549496712196254e-06, "epoch": 3.608409162221525, "step": 46000}, {"loss": 2.9698, "grad_norm": 3.570612907409668, "learning_rate": 5.260849649705151e-06, "epoch": 3.647631000941324, "step": 46500}, {"loss": 2.9786, "grad_norm": 4.1993327140808105, "learning_rate": 4.978307073323322e-06, "epoch": 3.6868528396611233, "step": 47000}, {"loss": 2.9831, "grad_norm": 3.8628501892089844, "learning_rate": 4.7020460803509235e-06, "epoch": 3.7260746783809227, "step": 47500}, {"loss": 2.9754, "grad_norm": 3.874561071395874, "learning_rate": 4.432239830800228e-06, "epoch": 3.7652965171007216, "step": 48000}, {"loss": 2.9642, "grad_norm": 3.1391055583953857, "learning_rate": 4.169057438859151e-06, "epoch": 3.804518355820521, "step": 48500}, {"loss": 2.9638, "grad_norm": 3.948002576828003, "learning_rate": 3.9126638668907405e-06, "epoch": 3.8437401945403202, "step": 49000}, {"loss": 2.9576, "grad_norm": 3.7557053565979004, "learning_rate": 3.6632198220349728e-06, "epoch": 3.882962033260119, "step": 49500}, {"loss": 2.9673, "grad_norm": 3.304769277572632, "learning_rate": 3.420881655477741e-06, "epoch": 3.9221838719799185, "step": 50000}, {"loss": 2.9831, "grad_norm": 3.4931411743164062, "learning_rate": 3.1858012644501506e-06, "epoch": 3.961405710699718, "step": 50500}, {"eval_loss": 3.0519392490386963, "eval_rouge1": 39.2075, "eval_rouge2": 17.8449, "eval_rougeL": 32.4087, "eval_rougeLsum": 32.4081, "eval_runtime": 3275.0999, "eval_samples_per_second": 3.458, "eval_steps_per_second": 0.108, "epoch": 4.0, "step": 50992}, {"loss": 2.9713, "grad_norm": 3.3399176597595215, "learning_rate": 2.9581259970195286e-06, "epoch": 4.000627549419517, "step": 51000}, {"loss": 2.9364, "grad_norm": 3.536789894104004, "learning_rate": 2.737998559731877e-06, "epoch": 4.039849388139316, "step": 51500}, {"loss": 2.923, "grad_norm": 3.5440595149993896, "learning_rate": 2.525974051676147e-06, "epoch": 4.079071226859115, "step": 52000}, {"loss": 2.9211, "grad_norm": 3.8463945388793945, "learning_rate": 2.3213356163755182e-06, "epoch": 4.118293065578914, "step": 52500}, {"loss": 2.9284, "grad_norm": 3.648240089416504, "learning_rate": 2.1246441505568537e-06, "epoch": 4.157514904298713, "step": 53000}, {"loss": 2.9239, "grad_norm": 3.572735071182251, "learning_rate": 1.9360229401617134e-06, "epoch": 4.196736743018513, "step": 53500}, {"loss": 2.917, "grad_norm": 3.5229058265686035, "learning_rate": 1.7559428300231623e-06, "epoch": 4.235958581738312, "step": 54000}, {"loss": 2.9242, "grad_norm": 3.326449155807495, "learning_rate": 1.5837949679170921e-06, "epoch": 4.275180420458111, "step": 54500}, {"loss": 2.9357, "grad_norm": 3.7157654762268066, "learning_rate": 1.4200563647619397e-06, "epoch": 4.3144022591779105, "step": 55000}, {"loss": 2.9311, "grad_norm": 3.2318365573883057, "learning_rate": 1.2648296516900543e-06, "epoch": 4.353624097897709, "step": 55500}, {"loss": 2.9256, "grad_norm": 3.6705663204193115, "learning_rate": 1.1182121245927245e-06, "epoch": 4.392845936617508, "step": 56000}, {"loss": 2.9178, "grad_norm": 3.4331142902374268, "learning_rate": 9.802956831352532e-07, "epoch": 4.432067775337308, "step": 56500}, {"loss": 2.9278, "grad_norm": 3.337388277053833, "learning_rate": 8.51166773154376e-07, "epoch": 4.471289614057107, "step": 57000}, {"loss": 2.9277, "grad_norm": 3.4332690238952637, "learning_rate": 7.309063324741272e-07, "epoch": 4.510511452776906, "step": 57500}, {"loss": 2.9199, "grad_norm": 3.7671151161193848, "learning_rate": 6.198034000842179e-07, "epoch": 4.549733291496706, "step": 58000}, {"loss": 2.9266, "grad_norm": 3.427056074142456, "learning_rate": 5.174823361239295e-07, "epoch": 4.588955130216505, "step": 58500}, {"loss": 2.9281, "grad_norm": 3.361043930053711, "learning_rate": 4.244162820315323e-07, "epoch": 4.6281769689363035, "step": 59000}, {"loss": 2.9322, "grad_norm": 3.8575241565704346, "learning_rate": 3.402905807692175e-07, "epoch": 4.667398807656103, "step": 59500}, {"loss": 2.9244, "grad_norm": 4.022634029388428, "learning_rate": 2.6535356530566544e-07, "epoch": 4.706620646375902, "step": 60000}, {"loss": 2.9347, "grad_norm": 3.458353281021118, "learning_rate": 1.9965220605959898e-07, "epoch": 4.745842485095701, "step": 60500}, {"loss": 2.9236, "grad_norm": 3.635650873184204, "learning_rate": 1.4322768455306723e-07, "epoch": 4.785064323815501, "step": 61000}, {"loss": 2.9294, "grad_norm": 3.6379334926605225, "learning_rate": 9.611536759891847e-08, "epoch": 4.8242861625353, "step": 61500}, {"loss": 2.9246, "grad_norm": 3.5791709423065186, "learning_rate": 5.834478513293606e-08, "epoch": 4.863508001255099, "step": 62000}, {"loss": 2.9247, "grad_norm": 3.939692258834839, "learning_rate": 2.9939611704512534e-08, "epoch": 4.9027298399748975, "step": 62500}, {"loss": 2.9238, "grad_norm": 3.4289450645446777, "learning_rate": 1.0946322205762637e-08, "epoch": 4.941951678694697, "step": 63000}, {"loss": 2.9226, "grad_norm": 4.182614803314209, "learning_rate": 1.3106100966864265e-09, "epoch": 4.981173517414496, "step": 63500}, {"eval_loss": 3.0508058071136475, "eval_rouge1": 39.2079, "eval_rouge2": 17.8686, "eval_rougeL": 32.4777, "eval_rougeLsum": 32.4734, "eval_runtime": 3239.8044, "eval_samples_per_second": 3.496, "eval_steps_per_second": 0.109, "epoch": 5.0, "step": 63740}, {"train_runtime": 35039.9492, "train_samples_per_second": 29.105, "train_steps_per_second": 1.819, "total_flos": 6.008027139794534e+17, "train_loss": 3.126221167543745, "epoch": 5.0, "step": 63740}]