{
  "best_metric": 0.249,
  "best_model_checkpoint": "logs/google-t5/t5-small/checkpoint-28155",
  "epoch": 18.0,
  "eval_steps": 500,
  "global_step": 33786,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03,
      "grad_norm": 1.3638477325439453,
      "learning_rate": 1.997336174746937e-05,
      "loss": 2.8409,
      "step": 50
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.420181155204773,
      "learning_rate": 1.9946723494938732e-05,
      "loss": 2.538,
      "step": 100
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.119789719581604,
      "learning_rate": 1.9920085242408102e-05,
      "loss": 2.4663,
      "step": 150
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1085336208343506,
      "learning_rate": 1.9893446989877465e-05,
      "loss": 2.4737,
      "step": 200
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.8778786659240723,
      "learning_rate": 1.9866808737346832e-05,
      "loss": 2.4436,
      "step": 250
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1101582050323486,
      "learning_rate": 1.9840170484816195e-05,
      "loss": 2.4545,
      "step": 300
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1823639869689941,
      "learning_rate": 1.9813532232285565e-05,
      "loss": 2.3472,
      "step": 350
    },
    {
      "epoch": 0.21,
      "grad_norm": 1.0613980293273926,
      "learning_rate": 1.978689397975493e-05,
      "loss": 2.3945,
      "step": 400
    },
    {
      "epoch": 0.24,
      "grad_norm": 1.1558998823165894,
      "learning_rate": 1.9760255727224296e-05,
      "loss": 2.4172,
      "step": 450
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.098973274230957,
      "learning_rate": 1.9733617474693662e-05,
      "loss": 2.3629,
      "step": 500
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.3629950284957886,
      "learning_rate": 1.970697922216303e-05,
      "loss": 2.3975,
      "step": 550
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.1299411058425903,
      "learning_rate": 1.9680340969632396e-05,
      "loss": 2.3322,
      "step": 600
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.9830572605133057,
      "learning_rate": 1.965370271710176e-05,
      "loss": 2.379,
      "step": 650
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.0205196142196655,
      "learning_rate": 1.9627064464571126e-05,
      "loss": 2.3454,
      "step": 700
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.230190396308899,
      "learning_rate": 1.960042621204049e-05,
      "loss": 2.3045,
      "step": 750
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.115490436553955,
      "learning_rate": 1.957378795950986e-05,
      "loss": 2.3676,
      "step": 800
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9047977924346924,
      "learning_rate": 1.9547149706979226e-05,
      "loss": 2.3871,
      "step": 850
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.0352205038070679,
      "learning_rate": 1.952051145444859e-05,
      "loss": 2.3481,
      "step": 900
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.864746630191803,
      "learning_rate": 1.9493873201917956e-05,
      "loss": 2.3384,
      "step": 950
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.3858081102371216,
      "learning_rate": 1.9467234949387323e-05,
      "loss": 2.3271,
      "step": 1000
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9969013333320618,
      "learning_rate": 1.944059669685669e-05,
      "loss": 2.3267,
      "step": 1050
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.035396933555603,
      "learning_rate": 1.9413958444326053e-05,
      "loss": 2.349,
      "step": 1100
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.235714316368103,
      "learning_rate": 1.938732019179542e-05,
      "loss": 2.3442,
      "step": 1150
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9119770526885986,
      "learning_rate": 1.9360681939264787e-05,
      "loss": 2.3246,
      "step": 1200
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.8794578909873962,
      "learning_rate": 1.9334043686734153e-05,
      "loss": 2.3633,
      "step": 1250
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.9355188012123108,
      "learning_rate": 1.930740543420352e-05,
      "loss": 2.339,
      "step": 1300
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9303766489028931,
      "learning_rate": 1.9280767181672883e-05,
      "loss": 2.3174,
      "step": 1350
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.3199224472045898,
      "learning_rate": 1.925412892914225e-05,
      "loss": 2.3321,
      "step": 1400
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0782549381256104,
      "learning_rate": 1.9227490676611617e-05,
      "loss": 2.3348,
      "step": 1450
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.9403214454650879,
      "learning_rate": 1.9200852424080984e-05,
      "loss": 2.3133,
      "step": 1500
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.9809348583221436,
      "learning_rate": 1.9174214171550347e-05,
      "loss": 2.3177,
      "step": 1550
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9974561333656311,
      "learning_rate": 1.9147575919019714e-05,
      "loss": 2.311,
      "step": 1600
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.9475740194320679,
      "learning_rate": 1.912093766648908e-05,
      "loss": 2.3208,
      "step": 1650
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0113029479980469,
      "learning_rate": 1.9094299413958447e-05,
      "loss": 2.3031,
      "step": 1700
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.920647144317627,
      "learning_rate": 1.9067661161427814e-05,
      "loss": 2.3268,
      "step": 1750
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9876402020454407,
      "learning_rate": 1.9041022908897177e-05,
      "loss": 2.3,
      "step": 1800
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0489838123321533,
      "learning_rate": 1.9014384656366544e-05,
      "loss": 2.305,
      "step": 1850
    },
    {
      "epoch": 1.0,
      "eval_bert-score-f1": 0.8753073360155793,
      "eval_bert-score-precision": 0.8779077029804112,
      "eval_bert-score-recall": 0.873077545509742,
      "eval_gen_len": 49.607327717446466,
      "eval_loss": 2.088743209838867,
      "eval_rouge1": 0.3105,
      "eval_rouge2": 0.1136,
      "eval_rougeL": 0.2275,
      "eval_rougeLsum": 0.2276,
      "eval_runtime": 1364.7929,
      "eval_samples_per_second": 14.439,
      "eval_steps_per_second": 0.344,
      "step": 1877
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.8712087869644165,
      "learning_rate": 1.898774640383591e-05,
      "loss": 2.2941,
      "step": 1900
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.8705251812934875,
      "learning_rate": 1.8961108151305278e-05,
      "loss": 2.2953,
      "step": 1950
    },
    {
      "epoch": 1.07,
      "grad_norm": 1.098132610321045,
      "learning_rate": 1.893446989877464e-05,
      "loss": 2.2976,
      "step": 2000
    },
    {
      "epoch": 1.09,
      "grad_norm": 1.1778416633605957,
      "learning_rate": 1.8907831646244008e-05,
      "loss": 2.2866,
      "step": 2050
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.7667921185493469,
      "learning_rate": 1.8881193393713374e-05,
      "loss": 2.2641,
      "step": 2100
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.9039889574050903,
      "learning_rate": 1.885455514118274e-05,
      "loss": 2.2788,
      "step": 2150
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.8681074976921082,
      "learning_rate": 1.8827916888652108e-05,
      "loss": 2.3297,
      "step": 2200
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.0154231786727905,
      "learning_rate": 1.880127863612147e-05,
      "loss": 2.3267,
      "step": 2250
    },
    {
      "epoch": 1.23,
      "grad_norm": 1.5686161518096924,
      "learning_rate": 1.8774640383590838e-05,
      "loss": 2.2867,
      "step": 2300
    },
    {
      "epoch": 1.25,
      "grad_norm": 1.0235270261764526,
      "learning_rate": 1.8748002131060205e-05,
      "loss": 2.3132,
      "step": 2350
    },
    {
      "epoch": 1.28,
      "grad_norm": 1.1120573282241821,
      "learning_rate": 1.872136387852957e-05,
      "loss": 2.2774,
      "step": 2400
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.9750345349311829,
      "learning_rate": 1.8694725625998935e-05,
      "loss": 2.2903,
      "step": 2450
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.8807668089866638,
      "learning_rate": 1.86680873734683e-05,
      "loss": 2.2923,
      "step": 2500
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.9335638284683228,
      "learning_rate": 1.8641449120937668e-05,
      "loss": 2.3168,
      "step": 2550
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.8730989694595337,
      "learning_rate": 1.8614810868407035e-05,
      "loss": 2.3007,
      "step": 2600
    },
    {
      "epoch": 1.41,
      "grad_norm": 1.0019006729125977,
      "learning_rate": 1.8588172615876402e-05,
      "loss": 2.3087,
      "step": 2650
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.9429858922958374,
      "learning_rate": 1.8561534363345765e-05,
      "loss": 2.2802,
      "step": 2700
    },
    {
      "epoch": 1.47,
      "grad_norm": 1.0355122089385986,
      "learning_rate": 1.8534896110815132e-05,
      "loss": 2.2801,
      "step": 2750
    },
    {
      "epoch": 1.49,
      "grad_norm": 1.3223506212234497,
      "learning_rate": 1.85082578582845e-05,
      "loss": 2.3245,
      "step": 2800
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.9225859642028809,
      "learning_rate": 1.8481619605753865e-05,
      "loss": 2.2838,
      "step": 2850
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.9716720581054688,
      "learning_rate": 1.845498135322323e-05,
      "loss": 2.296,
      "step": 2900
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.947675883769989,
      "learning_rate": 1.8428343100692595e-05,
      "loss": 2.2768,
      "step": 2950
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.9065707921981812,
      "learning_rate": 1.8401704848161962e-05,
      "loss": 2.2767,
      "step": 3000
    },
    {
      "epoch": 1.62,
      "grad_norm": 1.0325031280517578,
      "learning_rate": 1.837506659563133e-05,
      "loss": 2.262,
      "step": 3050
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.9252289533615112,
      "learning_rate": 1.8348428343100696e-05,
      "loss": 2.2824,
      "step": 3100
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.8026869297027588,
      "learning_rate": 1.832179009057006e-05,
      "loss": 2.2762,
      "step": 3150
    },
    {
      "epoch": 1.7,
      "grad_norm": 1.017001748085022,
      "learning_rate": 1.8295151838039426e-05,
      "loss": 2.2742,
      "step": 3200
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.8680307269096375,
      "learning_rate": 1.8268513585508792e-05,
      "loss": 2.252,
      "step": 3250
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.9704865217208862,
      "learning_rate": 1.824187533297816e-05,
      "loss": 2.2627,
      "step": 3300
    },
    {
      "epoch": 1.78,
      "grad_norm": 1.1407126188278198,
      "learning_rate": 1.8215237080447523e-05,
      "loss": 2.305,
      "step": 3350
    },
    {
      "epoch": 1.81,
      "grad_norm": 1.0476961135864258,
      "learning_rate": 1.818859882791689e-05,
      "loss": 2.2659,
      "step": 3400
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.9194826483726501,
      "learning_rate": 1.8161960575386256e-05,
      "loss": 2.2728,
      "step": 3450
    },
    {
      "epoch": 1.86,
      "grad_norm": 1.061948299407959,
      "learning_rate": 1.8135322322855623e-05,
      "loss": 2.262,
      "step": 3500
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.8690770864486694,
      "learning_rate": 1.810868407032499e-05,
      "loss": 2.2611,
      "step": 3550
    },
    {
      "epoch": 1.92,
      "grad_norm": 1.000588297843933,
      "learning_rate": 1.8082045817794353e-05,
      "loss": 2.2707,
      "step": 3600
    },
    {
      "epoch": 1.94,
      "grad_norm": 1.2689441442489624,
      "learning_rate": 1.805540756526372e-05,
      "loss": 2.2688,
      "step": 3650
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.9255685210227966,
      "learning_rate": 1.8028769312733086e-05,
      "loss": 2.2559,
      "step": 3700
    },
    {
      "epoch": 2.0,
      "grad_norm": 1.0140782594680786,
      "learning_rate": 1.8002131060202453e-05,
      "loss": 2.2838,
      "step": 3750
    },
    {
      "epoch": 2.0,
      "eval_bert-score-f1": 0.8773485723212565,
      "eval_bert-score-precision": 0.8805842198545674,
      "eval_bert-score-recall": 0.8744701069949739,
      "eval_gen_len": 49.16461991271694,
      "eval_loss": 2.062197685241699,
      "eval_rouge1": 0.3196,
      "eval_rouge2": 0.1183,
      "eval_rougeL": 0.2349,
      "eval_rougeLsum": 0.235,
      "eval_runtime": 1347.8022,
      "eval_samples_per_second": 14.621,
      "eval_steps_per_second": 0.349,
      "step": 3754
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.8860589861869812,
      "learning_rate": 1.7975492807671817e-05,
      "loss": 2.2635,
      "step": 3800
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.9218833446502686,
      "learning_rate": 1.7948854555141183e-05,
      "loss": 2.2621,
      "step": 3850
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.9549726247787476,
      "learning_rate": 1.792221630261055e-05,
      "loss": 2.2513,
      "step": 3900
    },
    {
      "epoch": 2.1,
      "grad_norm": 1.135712742805481,
      "learning_rate": 1.7895578050079917e-05,
      "loss": 2.2721,
      "step": 3950
    },
    {
      "epoch": 2.13,
      "grad_norm": 1.056344985961914,
      "learning_rate": 1.7868939797549283e-05,
      "loss": 2.2601,
      "step": 4000
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.8976427316665649,
      "learning_rate": 1.7842301545018647e-05,
      "loss": 2.2441,
      "step": 4050
    },
    {
      "epoch": 2.18,
      "grad_norm": 1.0189875364303589,
      "learning_rate": 1.7815663292488014e-05,
      "loss": 2.2441,
      "step": 4100
    },
    {
      "epoch": 2.21,
      "grad_norm": 1.1941207647323608,
      "learning_rate": 1.778902503995738e-05,
      "loss": 2.2518,
      "step": 4150
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.9858642816543579,
      "learning_rate": 1.7762386787426747e-05,
      "loss": 2.2417,
      "step": 4200
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.8909502625465393,
      "learning_rate": 1.7735748534896114e-05,
      "loss": 2.2741,
      "step": 4250
    },
    {
      "epoch": 2.29,
      "grad_norm": 1.1010240316390991,
      "learning_rate": 1.7709110282365477e-05,
      "loss": 2.2538,
      "step": 4300
    },
    {
      "epoch": 2.32,
      "grad_norm": 1.1926771402359009,
      "learning_rate": 1.7682472029834844e-05,
      "loss": 2.2844,
      "step": 4350
    },
    {
      "epoch": 2.34,
      "grad_norm": 1.048973798751831,
      "learning_rate": 1.765583377730421e-05,
      "loss": 2.2677,
      "step": 4400
    },
    {
      "epoch": 2.37,
      "grad_norm": 1.0072720050811768,
      "learning_rate": 1.7629195524773577e-05,
      "loss": 2.2616,
      "step": 4450
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.854369044303894,
      "learning_rate": 1.760255727224294e-05,
      "loss": 2.2498,
      "step": 4500
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.9605410099029541,
      "learning_rate": 1.7575919019712307e-05,
      "loss": 2.2541,
      "step": 4550
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.9667823314666748,
      "learning_rate": 1.7549280767181674e-05,
      "loss": 2.26,
      "step": 4600
    },
    {
      "epoch": 2.48,
      "grad_norm": 2.42110013961792,
      "learning_rate": 1.752264251465104e-05,
      "loss": 2.2585,
      "step": 4650
    },
    {
      "epoch": 2.5,
      "grad_norm": 1.0035040378570557,
      "learning_rate": 1.7496004262120408e-05,
      "loss": 2.2538,
      "step": 4700
    },
    {
      "epoch": 2.53,
      "grad_norm": 1.1149507761001587,
      "learning_rate": 1.746936600958977e-05,
      "loss": 2.2643,
      "step": 4750
    },
    {
      "epoch": 2.56,
      "grad_norm": 1.4942309856414795,
      "learning_rate": 1.7442727757059138e-05,
      "loss": 2.3053,
      "step": 4800
    },
    {
      "epoch": 2.58,
      "grad_norm": 1.016640305519104,
      "learning_rate": 1.7416089504528505e-05,
      "loss": 2.2325,
      "step": 4850
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.8914662003517151,
      "learning_rate": 1.738945125199787e-05,
      "loss": 2.26,
      "step": 4900
    },
    {
      "epoch": 2.64,
      "grad_norm": 1.0502891540527344,
      "learning_rate": 1.7362812999467235e-05,
      "loss": 2.2357,
      "step": 4950
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.9784315824508667,
      "learning_rate": 1.73361747469366e-05,
      "loss": 2.2371,
      "step": 5000
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.9308114647865295,
      "learning_rate": 1.7309536494405968e-05,
      "loss": 2.2452,
      "step": 5050
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.9364565014839172,
      "learning_rate": 1.7282898241875335e-05,
      "loss": 2.235,
      "step": 5100
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.8989120721817017,
      "learning_rate": 1.72562599893447e-05,
      "loss": 2.272,
      "step": 5150
    },
    {
      "epoch": 2.77,
      "grad_norm": 1.2291622161865234,
      "learning_rate": 1.7229621736814065e-05,
      "loss": 2.278,
      "step": 5200
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.9619302749633789,
      "learning_rate": 1.7202983484283432e-05,
      "loss": 2.2554,
      "step": 5250
    },
    {
      "epoch": 2.82,
      "grad_norm": 1.0430196523666382,
      "learning_rate": 1.71763452317528e-05,
      "loss": 2.2546,
      "step": 5300
    },
    {
      "epoch": 2.85,
      "grad_norm": 1.0834633111953735,
      "learning_rate": 1.7149706979222165e-05,
      "loss": 2.2379,
      "step": 5350
    },
    {
      "epoch": 2.88,
      "grad_norm": 1.0730029344558716,
      "learning_rate": 1.712306872669153e-05,
      "loss": 2.2789,
      "step": 5400
    },
    {
      "epoch": 2.9,
      "grad_norm": 1.124229907989502,
      "learning_rate": 1.7096430474160895e-05,
      "loss": 2.2293,
      "step": 5450
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.9467495679855347,
      "learning_rate": 1.7069792221630262e-05,
      "loss": 2.2606,
      "step": 5500
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.8856106400489807,
      "learning_rate": 1.704315396909963e-05,
      "loss": 2.2713,
      "step": 5550
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.7882632613182068,
      "learning_rate": 1.7016515716568996e-05,
      "loss": 2.2508,
      "step": 5600
    },
    {
      "epoch": 3.0,
      "eval_bert-score-f1": 0.8785184490539139,
      "eval_bert-score-precision": 0.8821266702464495,
      "eval_bert-score-recall": 0.8752563403945616,
      "eval_gen_len": 48.600781487871714,
      "eval_loss": 2.047697067260742,
      "eval_rouge1": 0.324,
      "eval_rouge2": 0.1204,
      "eval_rougeL": 0.2387,
      "eval_rougeLsum": 0.2389,
      "eval_runtime": 1313.571,
      "eval_samples_per_second": 15.002,
      "eval_steps_per_second": 0.358,
      "step": 5631
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.9630438685417175,
      "learning_rate": 1.698987746403836e-05,
      "loss": 2.246,
      "step": 5650
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.8204315900802612,
      "learning_rate": 1.6963239211507726e-05,
      "loss": 2.225,
      "step": 5700
    },
    {
      "epoch": 3.06,
      "grad_norm": 1.1320478916168213,
      "learning_rate": 1.6936600958977092e-05,
      "loss": 2.2206,
      "step": 5750
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.9559237360954285,
      "learning_rate": 1.690996270644646e-05,
      "loss": 2.2459,
      "step": 5800
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.9689226150512695,
      "learning_rate": 1.6883324453915822e-05,
      "loss": 2.2517,
      "step": 5850
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.9438573718070984,
      "learning_rate": 1.685668620138519e-05,
      "loss": 2.2579,
      "step": 5900
    },
    {
      "epoch": 3.17,
      "grad_norm": 1.1130074262619019,
      "learning_rate": 1.6830047948854556e-05,
      "loss": 2.2387,
      "step": 5950
    },
    {
      "epoch": 3.2,
      "grad_norm": 1.1083691120147705,
      "learning_rate": 1.6803409696323923e-05,
      "loss": 2.2558,
      "step": 6000
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.96318119764328,
      "learning_rate": 1.677677144379329e-05,
      "loss": 2.257,
      "step": 6050
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.8898953795433044,
      "learning_rate": 1.6750133191262653e-05,
      "loss": 2.2524,
      "step": 6100
    },
    {
      "epoch": 3.28,
      "grad_norm": 1.2933117151260376,
      "learning_rate": 1.672349493873202e-05,
      "loss": 2.2551,
      "step": 6150
    },
    {
      "epoch": 3.3,
      "grad_norm": 1.1499016284942627,
      "learning_rate": 1.6696856686201386e-05,
      "loss": 2.244,
      "step": 6200
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.9967105388641357,
      "learning_rate": 1.6670218433670753e-05,
      "loss": 2.2514,
      "step": 6250
    },
    {
      "epoch": 3.36,
      "grad_norm": 1.0175275802612305,
      "learning_rate": 1.6643580181140116e-05,
      "loss": 2.2298,
      "step": 6300
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.8878999352455139,
      "learning_rate": 1.6616941928609483e-05,
      "loss": 2.2394,
      "step": 6350
    },
    {
      "epoch": 3.41,
      "grad_norm": 1.1751534938812256,
      "learning_rate": 1.6590303676078853e-05,
      "loss": 2.2321,
      "step": 6400
    },
    {
      "epoch": 3.44,
      "grad_norm": 1.0338590145111084,
      "learning_rate": 1.6563665423548217e-05,
      "loss": 2.2562,
      "step": 6450
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.8953673243522644,
      "learning_rate": 1.6537027171017583e-05,
      "loss": 2.2199,
      "step": 6500
    },
    {
      "epoch": 3.49,
      "grad_norm": 1.24599027633667,
      "learning_rate": 1.6510388918486947e-05,
      "loss": 2.2346,
      "step": 6550
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.953091561794281,
      "learning_rate": 1.6483750665956313e-05,
      "loss": 2.246,
      "step": 6600
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.919922947883606,
      "learning_rate": 1.645711241342568e-05,
      "loss": 2.2288,
      "step": 6650
    },
    {
      "epoch": 3.57,
      "grad_norm": 1.1812031269073486,
      "learning_rate": 1.6430474160895047e-05,
      "loss": 2.2419,
      "step": 6700
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.9377938508987427,
      "learning_rate": 1.640383590836441e-05,
      "loss": 2.2478,
      "step": 6750
    },
    {
      "epoch": 3.62,
      "grad_norm": 1.247550368309021,
      "learning_rate": 1.6377197655833777e-05,
      "loss": 2.2495,
      "step": 6800
    },
    {
      "epoch": 3.65,
      "grad_norm": 1.1216537952423096,
      "learning_rate": 1.6350559403303147e-05,
      "loss": 2.2241,
      "step": 6850
    },
    {
      "epoch": 3.68,
      "grad_norm": 1.038252353668213,
      "learning_rate": 1.632392115077251e-05,
      "loss": 2.2346,
      "step": 6900
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.8921188116073608,
      "learning_rate": 1.6297282898241877e-05,
      "loss": 2.2488,
      "step": 6950
    },
    {
      "epoch": 3.73,
      "grad_norm": 1.0422166585922241,
      "learning_rate": 1.627064464571124e-05,
      "loss": 2.2336,
      "step": 7000
    },
    {
      "epoch": 3.76,
      "grad_norm": 1.0294251441955566,
      "learning_rate": 1.624400639318061e-05,
      "loss": 2.234,
      "step": 7050
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.8972188830375671,
      "learning_rate": 1.6217368140649974e-05,
      "loss": 2.2147,
      "step": 7100
    },
    {
      "epoch": 3.81,
      "grad_norm": 1.1645957231521606,
      "learning_rate": 1.619072988811934e-05,
      "loss": 2.2336,
      "step": 7150
    },
    {
      "epoch": 3.84,
      "grad_norm": 1.2658772468566895,
      "learning_rate": 1.6164091635588704e-05,
      "loss": 2.2322,
      "step": 7200
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.923834502696991,
      "learning_rate": 1.613745338305807e-05,
      "loss": 2.2348,
      "step": 7250
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.8885565996170044,
      "learning_rate": 1.611081513052744e-05,
      "loss": 2.2251,
      "step": 7300
    },
    {
      "epoch": 3.92,
      "grad_norm": 1.1370388269424438,
      "learning_rate": 1.6084176877996804e-05,
      "loss": 2.2266,
      "step": 7350
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.9725862145423889,
      "learning_rate": 1.605753862546617e-05,
      "loss": 2.2243,
      "step": 7400
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.8951359987258911,
      "learning_rate": 1.6030900372935535e-05,
      "loss": 2.2278,
      "step": 7450
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.9756078720092773,
      "learning_rate": 1.6004262120404905e-05,
      "loss": 2.2591,
      "step": 7500
    },
    {
      "epoch": 4.0,
      "eval_bert-score-f1": 0.8792554777484974,
      "eval_bert-score-precision": 0.8833729287797178,
      "eval_bert-score-recall": 0.8754834527081552,
      "eval_gen_len": 47.54663554247438,
      "eval_loss": 2.039776086807251,
      "eval_rouge1": 0.3271,
      "eval_rouge2": 0.1225,
      "eval_rougeL": 0.2416,
      "eval_rougeLsum": 0.2417,
      "eval_runtime": 1382.3306,
      "eval_samples_per_second": 14.256,
      "eval_steps_per_second": 0.34,
      "step": 7508
    },
    {
      "epoch": 4.02,
      "grad_norm": 0.9563359618186951,
      "learning_rate": 1.5977623867874268e-05,
      "loss": 2.2286,
      "step": 7550
    },
    {
      "epoch": 4.05,
      "grad_norm": 0.9959126114845276,
      "learning_rate": 1.5950985615343635e-05,
      "loss": 2.2287,
      "step": 7600
    },
    {
      "epoch": 4.08,
      "grad_norm": 0.9405544996261597,
      "learning_rate": 1.5924347362813e-05,
      "loss": 2.244,
      "step": 7650
    },
    {
      "epoch": 4.1,
      "grad_norm": 1.0261281728744507,
      "learning_rate": 1.5897709110282368e-05,
      "loss": 2.2141,
      "step": 7700
    },
    {
      "epoch": 4.13,
      "grad_norm": 0.8446668386459351,
      "learning_rate": 1.5871070857751735e-05,
      "loss": 2.2217,
      "step": 7750
    },
    {
      "epoch": 4.16,
      "grad_norm": 0.981716513633728,
      "learning_rate": 1.58444326052211e-05,
      "loss": 2.2535,
      "step": 7800
    },
    {
      "epoch": 4.18,
      "grad_norm": 0.9390552043914795,
      "learning_rate": 1.5817794352690465e-05,
      "loss": 2.1902,
      "step": 7850
    },
    {
      "epoch": 4.21,
      "grad_norm": 0.9392485618591309,
      "learning_rate": 1.5791156100159832e-05,
      "loss": 2.2325,
      "step": 7900
    },
    {
      "epoch": 4.24,
      "grad_norm": 0.8909654021263123,
      "learning_rate": 1.57645178476292e-05,
      "loss": 2.2106,
      "step": 7950
    },
    {
      "epoch": 4.26,
      "grad_norm": 0.9464941620826721,
      "learning_rate": 1.5737879595098562e-05,
      "loss": 2.1985,
      "step": 8000
    },
    {
      "epoch": 4.29,
      "grad_norm": 0.9561291337013245,
      "learning_rate": 1.571124134256793e-05,
      "loss": 2.2595,
      "step": 8050
    },
    {
      "epoch": 4.32,
      "grad_norm": 1.0075396299362183,
      "learning_rate": 1.5684603090037295e-05,
      "loss": 2.2328,
      "step": 8100
    },
    {
      "epoch": 4.34,
      "grad_norm": 1.0439025163650513,
      "learning_rate": 1.5657964837506662e-05,
      "loss": 2.2036,
      "step": 8150
    },
    {
      "epoch": 4.37,
      "grad_norm": 0.9002524614334106,
      "learning_rate": 1.563132658497603e-05,
      "loss": 2.2157,
      "step": 8200
    },
    {
      "epoch": 4.4,
      "grad_norm": 0.9860824346542358,
      "learning_rate": 1.5604688332445392e-05,
      "loss": 2.2526,
      "step": 8250
    },
    {
      "epoch": 4.42,
      "grad_norm": 0.8125404715538025,
      "learning_rate": 1.557805007991476e-05,
      "loss": 2.2458,
      "step": 8300
    },
    {
      "epoch": 4.45,
      "grad_norm": 0.9793021082878113,
      "learning_rate": 1.5551411827384126e-05,
      "loss": 2.2111,
      "step": 8350
    },
    {
      "epoch": 4.48,
      "grad_norm": 0.9543974995613098,
      "learning_rate": 1.5524773574853492e-05,
      "loss": 2.2372,
      "step": 8400
    },
    {
      "epoch": 4.5,
      "grad_norm": 1.0786656141281128,
      "learning_rate": 1.5498135322322856e-05,
      "loss": 2.2256,
      "step": 8450
    },
    {
      "epoch": 4.53,
      "grad_norm": 1.1105990409851074,
      "learning_rate": 1.5471497069792223e-05,
      "loss": 2.2282,
      "step": 8500
    },
    {
      "epoch": 4.56,
      "grad_norm": 1.4228782653808594,
      "learning_rate": 1.544485881726159e-05,
      "loss": 2.2482,
      "step": 8550
    },
    {
      "epoch": 4.58,
      "grad_norm": 1.0002621412277222,
      "learning_rate": 1.5418220564730956e-05,
      "loss": 2.2104,
      "step": 8600
    },
    {
      "epoch": 4.61,
      "grad_norm": 0.8620786666870117,
      "learning_rate": 1.5391582312200323e-05,
      "loss": 2.2201,
      "step": 8650
    },
    {
      "epoch": 4.64,
      "grad_norm": 0.9315156936645508,
      "learning_rate": 1.5364944059669686e-05,
      "loss": 2.2519,
      "step": 8700
    },
    {
      "epoch": 4.66,
      "grad_norm": 0.9382575750350952,
      "learning_rate": 1.5338305807139053e-05,
      "loss": 2.2439,
      "step": 8750
    },
    {
      "epoch": 4.69,
      "grad_norm": 0.9228121042251587,
      "learning_rate": 1.531166755460842e-05,
      "loss": 2.2105,
      "step": 8800
    },
    {
      "epoch": 4.71,
      "grad_norm": 0.9347973465919495,
      "learning_rate": 1.5285029302077786e-05,
      "loss": 2.2201,
      "step": 8850
    },
    {
      "epoch": 4.74,
      "grad_norm": 1.0652745962142944,
      "learning_rate": 1.525839104954715e-05,
      "loss": 2.2117,
      "step": 8900
    },
    {
      "epoch": 4.77,
      "grad_norm": 0.9884467720985413,
      "learning_rate": 1.5231752797016516e-05,
      "loss": 2.2058,
      "step": 8950
    },
    {
      "epoch": 4.79,
      "grad_norm": 1.2926949262619019,
      "learning_rate": 1.5205114544485883e-05,
      "loss": 2.2062,
      "step": 9000
    },
    {
      "epoch": 4.82,
      "grad_norm": 0.9000586867332458,
      "learning_rate": 1.5178476291955248e-05,
      "loss": 2.2578,
      "step": 9050
    },
    {
      "epoch": 4.85,
      "grad_norm": 1.1215986013412476,
      "learning_rate": 1.5151838039424615e-05,
      "loss": 2.2035,
      "step": 9100
    },
    {
      "epoch": 4.87,
      "grad_norm": 0.9411687254905701,
      "learning_rate": 1.512519978689398e-05,
      "loss": 2.2392,
      "step": 9150
    },
    {
      "epoch": 4.9,
      "grad_norm": 0.9772723913192749,
      "learning_rate": 1.5098561534363347e-05,
      "loss": 2.2341,
      "step": 9200
    },
    {
      "epoch": 4.93,
      "grad_norm": 0.9062642455101013,
      "learning_rate": 1.5071923281832712e-05,
      "loss": 2.2132,
      "step": 9250
    },
    {
      "epoch": 4.95,
      "grad_norm": 0.9838491082191467,
      "learning_rate": 1.5045285029302079e-05,
      "loss": 2.2316,
      "step": 9300
    },
    {
      "epoch": 4.98,
      "grad_norm": 0.7986493110656738,
      "learning_rate": 1.5018646776771445e-05,
      "loss": 2.2406,
      "step": 9350
    },
    {
      "epoch": 5.0,
      "eval_bert-score-f1": 0.8796141604796214,
      "eval_bert-score-precision": 0.883697147159108,
      "eval_bert-score-recall": 0.8758704174409406,
      "eval_gen_len": 47.69806150411042,
      "eval_loss": 2.032108783721924,
      "eval_rouge1": 0.3291,
      "eval_rouge2": 0.1235,
      "eval_rougeL": 0.2433,
      "eval_rougeLsum": 0.2434,
      "eval_runtime": 1320.3538,
      "eval_samples_per_second": 14.925,
      "eval_steps_per_second": 0.356,
      "step": 9385
    },
    {
      "epoch": 5.01,
      "grad_norm": 1.181012511253357,
      "learning_rate": 1.499200852424081e-05,
      "loss": 2.205,
      "step": 9400
    },
    {
      "epoch": 5.03,
      "grad_norm": 0.8982387185096741,
      "learning_rate": 1.4965370271710177e-05,
      "loss": 2.2044,
      "step": 9450
    },
    {
      "epoch": 5.06,
      "grad_norm": 0.9843763709068298,
      "learning_rate": 1.4938732019179542e-05,
      "loss": 2.2087,
      "step": 9500
    },
    {
      "epoch": 5.09,
      "grad_norm": 0.9226497411727905,
      "learning_rate": 1.4912093766648909e-05,
      "loss": 2.2019,
      "step": 9550
    },
    {
      "epoch": 5.11,
      "grad_norm": 1.0900003910064697,
      "learning_rate": 1.4885455514118274e-05,
      "loss": 2.2219,
      "step": 9600
    },
    {
      "epoch": 5.14,
      "grad_norm": 1.0898627042770386,
      "learning_rate": 1.485881726158764e-05,
      "loss": 2.2281,
      "step": 9650
    },
    {
      "epoch": 5.17,
      "grad_norm": 1.1963268518447876,
      "learning_rate": 1.4832179009057006e-05,
      "loss": 2.2289,
      "step": 9700
    },
    {
      "epoch": 5.19,
      "grad_norm": 0.9371781349182129,
      "learning_rate": 1.4805540756526373e-05,
      "loss": 2.2287,
      "step": 9750
    },
    {
      "epoch": 5.22,
      "grad_norm": 0.9393157958984375,
      "learning_rate": 1.4778902503995741e-05,
      "loss": 2.1454,
      "step": 9800
    },
    {
      "epoch": 5.25,
      "grad_norm": 1.1463308334350586,
      "learning_rate": 1.4752264251465104e-05,
      "loss": 2.2116,
      "step": 9850
    },
    {
      "epoch": 5.27,
      "grad_norm": 1.232642412185669,
      "learning_rate": 1.4725625998934471e-05,
      "loss": 2.2056,
      "step": 9900
    },
    {
      "epoch": 5.3,
      "grad_norm": 0.8566424250602722,
      "learning_rate": 1.4698987746403836e-05,
      "loss": 2.2077,
      "step": 9950
    },
    {
      "epoch": 5.33,
      "grad_norm": 1.073114275932312,
      "learning_rate": 1.4672349493873203e-05,
      "loss": 2.2043,
      "step": 10000
    },
    {
      "epoch": 5.35,
      "grad_norm": 1.100190281867981,
      "learning_rate": 1.4645711241342568e-05,
      "loss": 2.2105,
      "step": 10050
    },
    {
      "epoch": 5.38,
      "grad_norm": 0.8915311694145203,
      "learning_rate": 1.4619072988811935e-05,
      "loss": 2.2263,
      "step": 10100
    },
    {
      "epoch": 5.41,
      "grad_norm": 1.0838483572006226,
      "learning_rate": 1.45924347362813e-05,
      "loss": 2.2386,
      "step": 10150
    },
    {
      "epoch": 5.43,
      "grad_norm": 1.0265840291976929,
      "learning_rate": 1.4565796483750666e-05,
      "loss": 2.2046,
      "step": 10200
    },
    {
      "epoch": 5.46,
      "grad_norm": 1.012404441833496,
      "learning_rate": 1.4539158231220035e-05,
      "loss": 2.1914,
      "step": 10250
    },
    {
      "epoch": 5.49,
      "grad_norm": 0.8332634568214417,
      "learning_rate": 1.4512519978689398e-05,
      "loss": 2.2424,
      "step": 10300
    },
    {
      "epoch": 5.51,
      "grad_norm": 0.9419781565666199,
      "learning_rate": 1.4485881726158767e-05,
      "loss": 2.2081,
      "step": 10350
    },
    {
      "epoch": 5.54,
      "grad_norm": 0.9537687301635742,
      "learning_rate": 1.445924347362813e-05,
      "loss": 2.2382,
      "step": 10400
    },
    {
      "epoch": 5.57,
      "grad_norm": 0.8523421883583069,
      "learning_rate": 1.4432605221097498e-05,
      "loss": 2.2479,
      "step": 10450
    },
    {
      "epoch": 5.59,
      "grad_norm": 0.9717277884483337,
      "learning_rate": 1.4405966968566862e-05,
      "loss": 2.2335,
      "step": 10500
    },
    {
      "epoch": 5.62,
      "grad_norm": 1.2556852102279663,
      "learning_rate": 1.4379328716036229e-05,
      "loss": 2.207,
      "step": 10550
    },
    {
      "epoch": 5.65,
      "grad_norm": 1.0949528217315674,
      "learning_rate": 1.4352690463505594e-05,
      "loss": 2.2454,
      "step": 10600
    },
    {
      "epoch": 5.67,
      "grad_norm": 0.8859919309616089,
      "learning_rate": 1.432605221097496e-05,
      "loss": 2.1991,
      "step": 10650
    },
    {
      "epoch": 5.7,
      "grad_norm": 1.0127480030059814,
      "learning_rate": 1.4299413958444329e-05,
      "loss": 2.2031,
      "step": 10700
    },
    {
      "epoch": 5.73,
      "grad_norm": 1.0773361921310425,
      "learning_rate": 1.4272775705913692e-05,
      "loss": 2.2183,
      "step": 10750
    },
    {
      "epoch": 5.75,
      "grad_norm": 1.2354990243911743,
      "learning_rate": 1.424613745338306e-05,
      "loss": 2.1787,
      "step": 10800
    },
    {
      "epoch": 5.78,
      "grad_norm": 0.8633403182029724,
      "learning_rate": 1.4219499200852424e-05,
      "loss": 2.2058,
      "step": 10850
    },
    {
      "epoch": 5.81,
      "grad_norm": 0.8349035382270813,
      "learning_rate": 1.4192860948321792e-05,
      "loss": 2.2102,
      "step": 10900
    },
    {
      "epoch": 5.83,
      "grad_norm": 0.954465389251709,
      "learning_rate": 1.4166222695791156e-05,
      "loss": 2.2074,
      "step": 10950
    },
    {
      "epoch": 5.86,
      "grad_norm": 1.0947058200836182,
      "learning_rate": 1.4139584443260524e-05,
      "loss": 2.2063,
      "step": 11000
    },
    {
      "epoch": 5.89,
      "grad_norm": 1.0066620111465454,
      "learning_rate": 1.4112946190729891e-05,
      "loss": 2.2391,
      "step": 11050
    },
    {
      "epoch": 5.91,
      "grad_norm": 1.3262407779693604,
      "learning_rate": 1.4086307938199256e-05,
      "loss": 2.1883,
      "step": 11100
    },
    {
      "epoch": 5.94,
      "grad_norm": 0.898461639881134,
      "learning_rate": 1.4059669685668623e-05,
      "loss": 2.2254,
      "step": 11150
    },
    {
      "epoch": 5.97,
      "grad_norm": 1.2728203535079956,
      "learning_rate": 1.4033031433137986e-05,
      "loss": 2.2002,
      "step": 11200
    },
    {
      "epoch": 5.99,
      "grad_norm": 0.8816812038421631,
      "learning_rate": 1.4006393180607354e-05,
      "loss": 2.222,
      "step": 11250
    },
    {
      "epoch": 6.0,
      "eval_bert-score-f1": 0.8800827935451446,
      "eval_bert-score-precision": 0.884203289352576,
      "eval_bert-score-recall": 0.8763012464314104,
      "eval_gen_len": 47.73409113975439,
      "eval_loss": 2.0270581245422363,
      "eval_rouge1": 0.3308,
      "eval_rouge2": 0.125,
      "eval_rougeL": 0.2449,
      "eval_rougeLsum": 0.245,
      "eval_runtime": 1367.5469,
      "eval_samples_per_second": 14.41,
      "eval_steps_per_second": 0.344,
      "step": 11262
    },
    {
      "epoch": 6.02,
      "grad_norm": 0.9405691623687744,
      "learning_rate": 1.3979754928076718e-05,
      "loss": 2.1931,
      "step": 11300
    },
    {
      "epoch": 6.05,
      "grad_norm": 0.8556106686592102,
      "learning_rate": 1.3953116675546086e-05,
      "loss": 2.2086,
      "step": 11350
    },
    {
      "epoch": 6.07,
      "grad_norm": 1.0254322290420532,
      "learning_rate": 1.392647842301545e-05,
      "loss": 2.2235,
      "step": 11400
    },
    {
      "epoch": 6.1,
      "grad_norm": 0.9665789604187012,
      "learning_rate": 1.3899840170484818e-05,
      "loss": 2.1956,
      "step": 11450
    },
    {
      "epoch": 6.13,
      "grad_norm": 1.1138479709625244,
      "learning_rate": 1.3873201917954185e-05,
      "loss": 2.2233,
      "step": 11500
    },
    {
      "epoch": 6.15,
      "grad_norm": 0.9537137150764465,
      "learning_rate": 1.384656366542355e-05,
      "loss": 2.2047,
      "step": 11550
    },
    {
      "epoch": 6.18,
      "grad_norm": 0.9105952978134155,
      "learning_rate": 1.3819925412892917e-05,
      "loss": 2.1739,
      "step": 11600
    },
    {
      "epoch": 6.21,
      "grad_norm": 0.9230592250823975,
      "learning_rate": 1.3793287160362282e-05,
      "loss": 2.1911,
      "step": 11650
    },
    {
      "epoch": 6.23,
      "grad_norm": 0.944442868232727,
      "learning_rate": 1.3766648907831648e-05,
      "loss": 2.2074,
      "step": 11700
    },
    {
      "epoch": 6.26,
      "grad_norm": 0.9925301671028137,
      "learning_rate": 1.3740010655301013e-05,
      "loss": 2.1973,
      "step": 11750
    },
    {
      "epoch": 6.29,
      "grad_norm": 1.0720447301864624,
      "learning_rate": 1.371337240277038e-05,
      "loss": 2.181,
      "step": 11800
    },
    {
      "epoch": 6.31,
      "grad_norm": 0.9020980000495911,
      "learning_rate": 1.3686734150239745e-05,
      "loss": 2.193,
      "step": 11850
    },
    {
      "epoch": 6.34,
      "grad_norm": 0.9980204701423645,
      "learning_rate": 1.3660095897709112e-05,
      "loss": 2.2342,
      "step": 11900
    },
    {
      "epoch": 6.37,
      "grad_norm": 0.9240878820419312,
      "learning_rate": 1.3633457645178479e-05,
      "loss": 2.1855,
      "step": 11950
    },
    {
      "epoch": 6.39,
      "grad_norm": 1.1149895191192627,
      "learning_rate": 1.3606819392647844e-05,
      "loss": 2.1918,
      "step": 12000
    },
    {
      "epoch": 6.42,
      "grad_norm": 0.8434773683547974,
      "learning_rate": 1.358018114011721e-05,
      "loss": 2.2347,
      "step": 12050
    },
    {
      "epoch": 6.45,
      "grad_norm": 0.8160800337791443,
      "learning_rate": 1.3553542887586576e-05,
      "loss": 2.2275,
      "step": 12100
    },
    {
      "epoch": 6.47,
      "grad_norm": 1.0393248796463013,
      "learning_rate": 1.3526904635055942e-05,
      "loss": 2.2449,
      "step": 12150
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.9805082082748413,
      "learning_rate": 1.3500266382525307e-05,
      "loss": 2.2118,
      "step": 12200
    },
    {
      "epoch": 6.53,
      "grad_norm": 0.8884342908859253,
      "learning_rate": 1.3473628129994674e-05,
      "loss": 2.2184,
      "step": 12250
    },
    {
      "epoch": 6.55,
      "grad_norm": 1.1096868515014648,
      "learning_rate": 1.3446989877464039e-05,
      "loss": 2.231,
      "step": 12300
    },
    {
      "epoch": 6.58,
      "grad_norm": 0.937127947807312,
      "learning_rate": 1.3420351624933406e-05,
      "loss": 2.2032,
      "step": 12350
    },
    {
      "epoch": 6.61,
      "grad_norm": 1.0019285678863525,
      "learning_rate": 1.3393713372402773e-05,
      "loss": 2.2028,
      "step": 12400
    },
    {
      "epoch": 6.63,
      "grad_norm": 1.070123553276062,
      "learning_rate": 1.3367075119872138e-05,
      "loss": 2.2673,
      "step": 12450
    },
    {
      "epoch": 6.66,
      "grad_norm": 0.8974484801292419,
      "learning_rate": 1.3340436867341504e-05,
      "loss": 2.1909,
      "step": 12500
    },
    {
      "epoch": 6.69,
      "grad_norm": 0.9534024596214294,
      "learning_rate": 1.331379861481087e-05,
      "loss": 2.2061,
      "step": 12550
    },
    {
      "epoch": 6.71,
      "grad_norm": 0.8722013831138611,
      "learning_rate": 1.3287160362280236e-05,
      "loss": 2.2054,
      "step": 12600
    },
    {
      "epoch": 6.74,
      "grad_norm": 1.222458004951477,
      "learning_rate": 1.3260522109749601e-05,
      "loss": 2.167,
      "step": 12650
    },
    {
      "epoch": 6.77,
      "grad_norm": 0.8800060153007507,
      "learning_rate": 1.3233883857218968e-05,
      "loss": 2.1955,
      "step": 12700
    },
    {
      "epoch": 6.79,
      "grad_norm": 1.005924105644226,
      "learning_rate": 1.3207245604688335e-05,
      "loss": 2.1644,
      "step": 12750
    },
    {
      "epoch": 6.82,
      "grad_norm": 1.0622010231018066,
      "learning_rate": 1.31806073521577e-05,
      "loss": 2.226,
      "step": 12800
    },
    {
      "epoch": 6.85,
      "grad_norm": 0.9073338508605957,
      "learning_rate": 1.3153969099627067e-05,
      "loss": 2.1781,
      "step": 12850
    },
    {
      "epoch": 6.87,
      "grad_norm": 1.0695091485977173,
      "learning_rate": 1.3127330847096432e-05,
      "loss": 2.1965,
      "step": 12900
    },
    {
      "epoch": 6.9,
      "grad_norm": 1.0539031028747559,
      "learning_rate": 1.3100692594565798e-05,
      "loss": 2.1864,
      "step": 12950
    },
    {
      "epoch": 6.93,
      "grad_norm": 1.0355671644210815,
      "learning_rate": 1.3074054342035163e-05,
      "loss": 2.21,
      "step": 13000
    },
    {
      "epoch": 6.95,
      "grad_norm": 0.9524690508842468,
      "learning_rate": 1.304741608950453e-05,
      "loss": 2.2146,
      "step": 13050
    },
    {
      "epoch": 6.98,
      "grad_norm": 0.8750210404396057,
      "learning_rate": 1.3020777836973895e-05,
      "loss": 2.2185,
      "step": 13100
    },
    {
      "epoch": 7.0,
      "eval_bert-score-f1": 0.8803590643584976,
      "eval_bert-score-precision": 0.8845637915861083,
      "eval_bert-score-recall": 0.8764868623034598,
      "eval_gen_len": 47.655891606617274,
      "eval_loss": 2.022202253341675,
      "eval_rouge1": 0.3314,
      "eval_rouge2": 0.1248,
      "eval_rougeL": 0.2451,
      "eval_rougeLsum": 0.2452,
      "eval_runtime": 1324.8965,
      "eval_samples_per_second": 14.874,
      "eval_steps_per_second": 0.355,
      "step": 13139
    },
    {
      "epoch": 7.01,
      "grad_norm": 1.8067052364349365,
      "learning_rate": 1.2994139584443262e-05,
      "loss": 2.2044,
      "step": 13150
    },
    {
      "epoch": 7.03,
      "grad_norm": 1.0369492769241333,
      "learning_rate": 1.2967501331912629e-05,
      "loss": 2.2093,
      "step": 13200
    },
    {
      "epoch": 7.06,
      "grad_norm": 0.7998984456062317,
      "learning_rate": 1.2940863079381994e-05,
      "loss": 2.1803,
      "step": 13250
    },
    {
      "epoch": 7.09,
      "grad_norm": 0.8763892650604248,
      "learning_rate": 1.291422482685136e-05,
      "loss": 2.2028,
      "step": 13300
    },
    {
      "epoch": 7.11,
      "grad_norm": 1.031553864479065,
      "learning_rate": 1.2887586574320726e-05,
      "loss": 2.1598,
      "step": 13350
    },
    {
      "epoch": 7.14,
      "grad_norm": 1.2158304452896118,
      "learning_rate": 1.2860948321790092e-05,
      "loss": 2.2008,
      "step": 13400
    },
    {
      "epoch": 7.17,
      "grad_norm": 1.0015206336975098,
      "learning_rate": 1.2834310069259457e-05,
      "loss": 2.2118,
      "step": 13450
    },
    {
      "epoch": 7.19,
      "grad_norm": 1.3029738664627075,
      "learning_rate": 1.2807671816728824e-05,
      "loss": 2.163,
      "step": 13500
    },
    {
      "epoch": 7.22,
      "grad_norm": 1.1144462823867798,
      "learning_rate": 1.2781033564198189e-05,
      "loss": 2.1821,
      "step": 13550
    },
    {
      "epoch": 7.25,
      "grad_norm": 0.9808390736579895,
      "learning_rate": 1.2754395311667556e-05,
      "loss": 2.1844,
      "step": 13600
    },
    {
      "epoch": 7.27,
      "grad_norm": 0.8838719129562378,
      "learning_rate": 1.2727757059136923e-05,
      "loss": 2.1936,
      "step": 13650
    },
    {
      "epoch": 7.3,
      "grad_norm": 1.0219964981079102,
      "learning_rate": 1.2701118806606288e-05,
      "loss": 2.1864,
      "step": 13700
    },
    {
      "epoch": 7.33,
      "grad_norm": 0.9708404541015625,
      "learning_rate": 1.2674480554075654e-05,
      "loss": 2.1734,
      "step": 13750
    },
    {
      "epoch": 7.35,
      "grad_norm": 0.9595683217048645,
      "learning_rate": 1.264784230154502e-05,
      "loss": 2.2069,
      "step": 13800
    },
    {
      "epoch": 7.38,
      "grad_norm": 1.2408117055892944,
      "learning_rate": 1.2621204049014386e-05,
      "loss": 2.1918,
      "step": 13850
    },
    {
      "epoch": 7.41,
      "grad_norm": 0.9526282548904419,
      "learning_rate": 1.2594565796483751e-05,
      "loss": 2.2069,
      "step": 13900
    },
    {
      "epoch": 7.43,
      "grad_norm": 0.9085534811019897,
      "learning_rate": 1.2567927543953118e-05,
      "loss": 2.1929,
      "step": 13950
    },
    {
      "epoch": 7.46,
      "grad_norm": 0.9988005757331848,
      "learning_rate": 1.2541289291422483e-05,
      "loss": 2.212,
      "step": 14000
    },
    {
      "epoch": 7.49,
      "grad_norm": 0.9731308221817017,
      "learning_rate": 1.251465103889185e-05,
      "loss": 2.2168,
      "step": 14050
    },
    {
      "epoch": 7.51,
      "grad_norm": 1.2218581438064575,
      "learning_rate": 1.2488012786361216e-05,
      "loss": 2.2136,
      "step": 14100
    },
    {
      "epoch": 7.54,
      "grad_norm": 1.3860177993774414,
      "learning_rate": 1.2461374533830582e-05,
      "loss": 2.1844,
      "step": 14150
    },
    {
      "epoch": 7.57,
      "grad_norm": 1.3227049112319946,
      "learning_rate": 1.2434736281299948e-05,
      "loss": 2.2017,
      "step": 14200
    },
    {
      "epoch": 7.59,
      "grad_norm": 0.9687981009483337,
      "learning_rate": 1.2408098028769313e-05,
      "loss": 2.2242,
      "step": 14250
    },
    {
      "epoch": 7.62,
      "grad_norm": 1.0260825157165527,
      "learning_rate": 1.238145977623868e-05,
      "loss": 2.2096,
      "step": 14300
    },
    {
      "epoch": 7.65,
      "grad_norm": 0.9353439211845398,
      "learning_rate": 1.2354821523708045e-05,
      "loss": 2.2122,
      "step": 14350
    },
    {
      "epoch": 7.67,
      "grad_norm": 1.0099036693572998,
      "learning_rate": 1.2328183271177412e-05,
      "loss": 2.2187,
      "step": 14400
    },
    {
      "epoch": 7.7,
      "grad_norm": 0.8156920075416565,
      "learning_rate": 1.2301545018646779e-05,
      "loss": 2.1853,
      "step": 14450
    },
    {
      "epoch": 7.73,
      "grad_norm": 14.783089637756348,
      "learning_rate": 1.2274906766116144e-05,
      "loss": 2.1917,
      "step": 14500
    },
    {
      "epoch": 7.75,
      "grad_norm": 0.9252942204475403,
      "learning_rate": 1.224826851358551e-05,
      "loss": 2.2074,
      "step": 14550
    },
    {
      "epoch": 7.78,
      "grad_norm": 0.9822306632995605,
      "learning_rate": 1.2221630261054875e-05,
      "loss": 2.193,
      "step": 14600
    },
    {
      "epoch": 7.81,
      "grad_norm": 1.1552455425262451,
      "learning_rate": 1.2194992008524242e-05,
      "loss": 2.1851,
      "step": 14650
    },
    {
      "epoch": 7.83,
      "grad_norm": 1.0293680429458618,
      "learning_rate": 1.2168353755993607e-05,
      "loss": 2.2109,
      "step": 14700
    },
    {
      "epoch": 7.86,
      "grad_norm": 1.0043119192123413,
      "learning_rate": 1.2141715503462974e-05,
      "loss": 2.2112,
      "step": 14750
    },
    {
      "epoch": 7.88,
      "grad_norm": 0.9331013560295105,
      "learning_rate": 1.2115077250932339e-05,
      "loss": 2.1837,
      "step": 14800
    },
    {
      "epoch": 7.91,
      "grad_norm": 0.9587385058403015,
      "learning_rate": 1.2088438998401706e-05,
      "loss": 2.1773,
      "step": 14850
    },
    {
      "epoch": 7.94,
      "grad_norm": 1.1071295738220215,
      "learning_rate": 1.2061800745871073e-05,
      "loss": 2.2065,
      "step": 14900
    },
    {
      "epoch": 7.96,
      "grad_norm": 1.34778892993927,
      "learning_rate": 1.2035162493340438e-05,
      "loss": 2.1854,
      "step": 14950
    },
    {
      "epoch": 7.99,
      "grad_norm": 3.2136006355285645,
      "learning_rate": 1.2008524240809804e-05,
      "loss": 2.1886,
      "step": 15000
    },
    {
      "epoch": 8.0,
      "eval_bert-score-f1": 0.8805449074880007,
      "eval_bert-score-precision": 0.8848301609899627,
      "eval_bert-score-recall": 0.8765954361686147,
      "eval_gen_len": 47.339947224195676,
      "eval_loss": 2.0204520225524902,
      "eval_rouge1": 0.3323,
      "eval_rouge2": 0.1257,
      "eval_rougeL": 0.2461,
      "eval_rougeLsum": 0.2462,
      "eval_runtime": 1323.5674,
      "eval_samples_per_second": 14.889,
      "eval_steps_per_second": 0.355,
      "step": 15016
    },
    {
      "epoch": 8.02,
      "grad_norm": 0.8995711803436279,
      "learning_rate": 1.198188598827917e-05,
      "loss": 2.1601,
      "step": 15050
    },
    {
      "epoch": 8.04,
      "grad_norm": 1.0043758153915405,
      "learning_rate": 1.1955247735748536e-05,
      "loss": 2.2012,
      "step": 15100
    },
    {
      "epoch": 8.07,
      "grad_norm": 0.9039593935012817,
      "learning_rate": 1.1928609483217901e-05,
      "loss": 2.2207,
      "step": 15150
    },
    {
      "epoch": 8.1,
      "grad_norm": 0.9619396328926086,
      "learning_rate": 1.1901971230687268e-05,
      "loss": 2.1609,
      "step": 15200
    },
    {
      "epoch": 8.12,
      "grad_norm": 1.0527337789535522,
      "learning_rate": 1.1875332978156633e-05,
      "loss": 2.221,
      "step": 15250
    },
    {
      "epoch": 8.15,
      "grad_norm": 0.9329215288162231,
      "learning_rate": 1.1848694725626e-05,
      "loss": 2.1669,
      "step": 15300
    },
    {
      "epoch": 8.18,
      "grad_norm": 1.0186532735824585,
      "learning_rate": 1.1822056473095366e-05,
      "loss": 2.1857,
      "step": 15350
    },
    {
      "epoch": 8.2,
      "grad_norm": 1.1034983396530151,
      "learning_rate": 1.1795418220564731e-05,
      "loss": 2.1956,
      "step": 15400
    },
    {
      "epoch": 8.23,
      "grad_norm": 1.0719212293624878,
      "learning_rate": 1.1768779968034098e-05,
      "loss": 2.2007,
      "step": 15450
    },
    {
      "epoch": 8.26,
      "grad_norm": 1.5037603378295898,
      "learning_rate": 1.1742141715503463e-05,
      "loss": 2.1967,
      "step": 15500
    },
    {
      "epoch": 8.28,
      "grad_norm": 0.9770453572273254,
      "learning_rate": 1.171550346297283e-05,
      "loss": 2.218,
      "step": 15550
    },
    {
      "epoch": 8.31,
      "grad_norm": 1.0334933996200562,
      "learning_rate": 1.1688865210442195e-05,
      "loss": 2.1892,
      "step": 15600
    },
    {
      "epoch": 8.34,
      "grad_norm": 0.9753350615501404,
      "learning_rate": 1.1662226957911562e-05,
      "loss": 2.2074,
      "step": 15650
    },
    {
      "epoch": 8.36,
      "grad_norm": 0.9147941470146179,
      "learning_rate": 1.1635588705380927e-05,
      "loss": 2.2111,
      "step": 15700
    },
    {
      "epoch": 8.39,
      "grad_norm": 1.0154210329055786,
      "learning_rate": 1.1608950452850294e-05,
      "loss": 2.1971,
      "step": 15750
    },
    {
      "epoch": 8.42,
      "grad_norm": 1.0365736484527588,
      "learning_rate": 1.158231220031966e-05,
      "loss": 2.1874,
      "step": 15800
    },
    {
      "epoch": 8.44,
      "grad_norm": 0.894719660282135,
      "learning_rate": 1.1555673947789025e-05,
      "loss": 2.2059,
      "step": 15850
    },
    {
      "epoch": 8.47,
      "grad_norm": 0.9420655369758606,
      "learning_rate": 1.1529035695258392e-05,
      "loss": 2.1473,
      "step": 15900
    },
    {
      "epoch": 8.5,
      "grad_norm": 1.0870007276535034,
      "learning_rate": 1.1502397442727757e-05,
      "loss": 2.1944,
      "step": 15950
    },
    {
      "epoch": 8.52,
      "grad_norm": 1.072520136833191,
      "learning_rate": 1.1475759190197124e-05,
      "loss": 2.1914,
      "step": 16000
    },
    {
      "epoch": 8.55,
      "grad_norm": 0.9754800200462341,
      "learning_rate": 1.1449120937666489e-05,
      "loss": 2.1726,
      "step": 16050
    },
    {
      "epoch": 8.58,
      "grad_norm": 0.983051598072052,
      "learning_rate": 1.1422482685135856e-05,
      "loss": 2.1591,
      "step": 16100
    },
    {
      "epoch": 8.6,
      "grad_norm": 0.9521353244781494,
      "learning_rate": 1.1395844432605222e-05,
      "loss": 2.1675,
      "step": 16150
    },
    {
      "epoch": 8.63,
      "grad_norm": 1.016432762145996,
      "learning_rate": 1.1369206180074587e-05,
      "loss": 2.1821,
      "step": 16200
    },
    {
      "epoch": 8.66,
      "grad_norm": 0.9886535406112671,
      "learning_rate": 1.1342567927543954e-05,
      "loss": 2.1711,
      "step": 16250
    },
    {
      "epoch": 8.68,
      "grad_norm": 0.9348542094230652,
      "learning_rate": 1.131592967501332e-05,
      "loss": 2.2016,
      "step": 16300
    },
    {
      "epoch": 8.71,
      "grad_norm": 0.8952618837356567,
      "learning_rate": 1.1289291422482686e-05,
      "loss": 2.1632,
      "step": 16350
    },
    {
      "epoch": 8.74,
      "grad_norm": 0.9894302487373352,
      "learning_rate": 1.1262653169952051e-05,
      "loss": 2.1792,
      "step": 16400
    },
    {
      "epoch": 8.76,
      "grad_norm": 0.899584949016571,
      "learning_rate": 1.1236014917421418e-05,
      "loss": 2.1698,
      "step": 16450
    },
    {
      "epoch": 8.79,
      "grad_norm": 0.9734613299369812,
      "learning_rate": 1.1209376664890783e-05,
      "loss": 2.2253,
      "step": 16500
    },
    {
      "epoch": 8.82,
      "grad_norm": 1.0697177648544312,
      "learning_rate": 1.118273841236015e-05,
      "loss": 2.2307,
      "step": 16550
    },
    {
      "epoch": 8.84,
      "grad_norm": 0.827741801738739,
      "learning_rate": 1.1156100159829516e-05,
      "loss": 2.179,
      "step": 16600
    },
    {
      "epoch": 8.87,
      "grad_norm": 0.8641231060028076,
      "learning_rate": 1.1129461907298881e-05,
      "loss": 2.1768,
      "step": 16650
    },
    {
      "epoch": 8.9,
      "grad_norm": 0.9500383734703064,
      "learning_rate": 1.1102823654768248e-05,
      "loss": 2.185,
      "step": 16700
    },
    {
      "epoch": 8.92,
      "grad_norm": 0.8771828413009644,
      "learning_rate": 1.1076185402237613e-05,
      "loss": 2.2018,
      "step": 16750
    },
    {
      "epoch": 8.95,
      "grad_norm": 0.7786308526992798,
      "learning_rate": 1.104954714970698e-05,
      "loss": 2.1856,
      "step": 16800
    },
    {
      "epoch": 8.98,
      "grad_norm": 0.9104407429695129,
      "learning_rate": 1.1022908897176345e-05,
      "loss": 2.2215,
      "step": 16850
    },
    {
      "epoch": 9.0,
      "eval_bert-score-f1": 0.8808141563956924,
      "eval_bert-score-precision": 0.8852914021691005,
      "eval_bert-score-recall": 0.8766740019322894,
      "eval_gen_len": 47.14802598193444,
      "eval_loss": 2.0156819820404053,
      "eval_rouge1": 0.333,
      "eval_rouge2": 0.1262,
      "eval_rougeL": 0.2467,
      "eval_rougeLsum": 0.2467,
      "eval_runtime": 1329.5202,
      "eval_samples_per_second": 14.822,
      "eval_steps_per_second": 0.354,
      "step": 16893
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.9584008455276489,
      "learning_rate": 1.0996270644645712e-05,
      "loss": 2.1627,
      "step": 16900
    },
    {
      "epoch": 9.03,
      "grad_norm": 1.0817357301712036,
      "learning_rate": 1.0969632392115077e-05,
      "loss": 2.174,
      "step": 16950
    },
    {
      "epoch": 9.06,
      "grad_norm": 1.1630058288574219,
      "learning_rate": 1.0942994139584444e-05,
      "loss": 2.1988,
      "step": 17000
    },
    {
      "epoch": 9.08,
      "grad_norm": 1.065058946609497,
      "learning_rate": 1.091635588705381e-05,
      "loss": 2.1628,
      "step": 17050
    },
    {
      "epoch": 9.11,
      "grad_norm": 1.3880870342254639,
      "learning_rate": 1.0889717634523175e-05,
      "loss": 2.177,
      "step": 17100
    },
    {
      "epoch": 9.14,
      "grad_norm": 1.0271745920181274,
      "learning_rate": 1.0863079381992542e-05,
      "loss": 2.212,
      "step": 17150
    },
    {
      "epoch": 9.16,
      "grad_norm": 0.9514613747596741,
      "learning_rate": 1.0836441129461907e-05,
      "loss": 2.1729,
      "step": 17200
    },
    {
      "epoch": 9.19,
      "grad_norm": 0.9049180746078491,
      "learning_rate": 1.0809802876931274e-05,
      "loss": 2.1928,
      "step": 17250
    },
    {
      "epoch": 9.22,
      "grad_norm": 1.0372991561889648,
      "learning_rate": 1.0783164624400639e-05,
      "loss": 2.207,
      "step": 17300
    },
    {
      "epoch": 9.24,
      "grad_norm": 0.9088106751441956,
      "learning_rate": 1.0756526371870006e-05,
      "loss": 2.1818,
      "step": 17350
    },
    {
      "epoch": 9.27,
      "grad_norm": 1.0153067111968994,
      "learning_rate": 1.072988811933937e-05,
      "loss": 2.1996,
      "step": 17400
    },
    {
      "epoch": 9.3,
      "grad_norm": 1.0672743320465088,
      "learning_rate": 1.0703249866808737e-05,
      "loss": 2.2183,
      "step": 17450
    },
    {
      "epoch": 9.32,
      "grad_norm": 1.0173332691192627,
      "learning_rate": 1.0676611614278106e-05,
      "loss": 2.2153,
      "step": 17500
    },
    {
      "epoch": 9.35,
      "grad_norm": 1.1739368438720703,
      "learning_rate": 1.064997336174747e-05,
      "loss": 2.1694,
      "step": 17550
    },
    {
      "epoch": 9.38,
      "grad_norm": 0.8909546136856079,
      "learning_rate": 1.0623335109216838e-05,
      "loss": 2.1908,
      "step": 17600
    },
    {
      "epoch": 9.4,
      "grad_norm": 0.9530623555183411,
      "learning_rate": 1.0596696856686201e-05,
      "loss": 2.2027,
      "step": 17650
    },
    {
      "epoch": 9.43,
      "grad_norm": 0.8588944673538208,
      "learning_rate": 1.057005860415557e-05,
      "loss": 2.143,
      "step": 17700
    },
    {
      "epoch": 9.46,
      "grad_norm": 1.096243977546692,
      "learning_rate": 1.0543420351624933e-05,
      "loss": 2.1315,
      "step": 17750
    },
    {
      "epoch": 9.48,
      "grad_norm": 0.888977587223053,
      "learning_rate": 1.05167820990943e-05,
      "loss": 2.1478,
      "step": 17800
    },
    {
      "epoch": 9.51,
      "grad_norm": 1.374234676361084,
      "learning_rate": 1.0490143846563668e-05,
      "loss": 2.1564,
      "step": 17850
    },
    {
      "epoch": 9.54,
      "grad_norm": 1.0646979808807373,
      "learning_rate": 1.0463505594033031e-05,
      "loss": 2.1963,
      "step": 17900
    },
    {
      "epoch": 9.56,
      "grad_norm": 0.8910280466079712,
      "learning_rate": 1.04368673415024e-05,
      "loss": 2.1892,
      "step": 17950
    },
    {
      "epoch": 9.59,
      "grad_norm": 1.0399140119552612,
      "learning_rate": 1.0410229088971763e-05,
      "loss": 2.2132,
      "step": 18000
    },
    {
      "epoch": 9.62,
      "grad_norm": 1.1613365411758423,
      "learning_rate": 1.0383590836441132e-05,
      "loss": 2.1946,
      "step": 18050
    },
    {
      "epoch": 9.64,
      "grad_norm": 0.9431652426719666,
      "learning_rate": 1.0356952583910495e-05,
      "loss": 2.1825,
      "step": 18100
    },
    {
      "epoch": 9.67,
      "grad_norm": 1.1334350109100342,
      "learning_rate": 1.0330314331379863e-05,
      "loss": 2.1937,
      "step": 18150
    },
    {
      "epoch": 9.7,
      "grad_norm": 1.1028201580047607,
      "learning_rate": 1.0303676078849227e-05,
      "loss": 2.2181,
      "step": 18200
    },
    {
      "epoch": 9.72,
      "grad_norm": 0.9916718602180481,
      "learning_rate": 1.0277037826318595e-05,
      "loss": 2.174,
      "step": 18250
    },
    {
      "epoch": 9.75,
      "grad_norm": 1.0355281829833984,
      "learning_rate": 1.0250399573787962e-05,
      "loss": 2.1565,
      "step": 18300
    },
    {
      "epoch": 9.78,
      "grad_norm": 0.901858925819397,
      "learning_rate": 1.0223761321257327e-05,
      "loss": 2.1732,
      "step": 18350
    },
    {
      "epoch": 9.8,
      "grad_norm": 1.1691358089447021,
      "learning_rate": 1.0197123068726694e-05,
      "loss": 2.1854,
      "step": 18400
    },
    {
      "epoch": 9.83,
      "grad_norm": 1.1045140027999878,
      "learning_rate": 1.0170484816196057e-05,
      "loss": 2.1906,
      "step": 18450
    },
    {
      "epoch": 9.86,
      "grad_norm": 1.4803402423858643,
      "learning_rate": 1.0143846563665425e-05,
      "loss": 2.1744,
      "step": 18500
    },
    {
      "epoch": 9.88,
      "grad_norm": 1.0411149263381958,
      "learning_rate": 1.0117208311134789e-05,
      "loss": 2.2064,
      "step": 18550
    },
    {
      "epoch": 9.91,
      "grad_norm": 0.9394697546958923,
      "learning_rate": 1.0090570058604157e-05,
      "loss": 2.1646,
      "step": 18600
    },
    {
      "epoch": 9.94,
      "grad_norm": 1.0079654455184937,
      "learning_rate": 1.006393180607352e-05,
      "loss": 2.1638,
      "step": 18650
    },
    {
      "epoch": 9.96,
      "grad_norm": 0.9374598264694214,
      "learning_rate": 1.0037293553542889e-05,
      "loss": 2.2037,
      "step": 18700
    },
    {
      "epoch": 9.99,
      "grad_norm": 0.9795972108840942,
      "learning_rate": 1.0010655301012256e-05,
      "loss": 2.2119,
      "step": 18750
    },
    {
      "epoch": 10.0,
      "eval_bert-score-f1": 0.8809602989904121,
      "eval_bert-score-precision": 0.8852206096635378,
      "eval_bert-score-recall": 0.8770327499302876,
      "eval_gen_len": 47.48157921445245,
      "eval_loss": 2.0146677494049072,
      "eval_rouge1": 0.3344,
      "eval_rouge2": 0.1266,
      "eval_rougeL": 0.2474,
      "eval_rougeLsum": 0.2475,
      "eval_runtime": 1332.7051,
      "eval_samples_per_second": 14.786,
      "eval_steps_per_second": 0.353,
      "step": 18770
    },
    {
      "epoch": 10.02,
      "grad_norm": 1.0391963720321655,
      "learning_rate": 9.984017048481621e-06,
      "loss": 2.1618,
      "step": 18800
    },
    {
      "epoch": 10.04,
      "grad_norm": 0.9638227820396423,
      "learning_rate": 9.957378795950986e-06,
      "loss": 2.1847,
      "step": 18850
    },
    {
      "epoch": 10.07,
      "grad_norm": 0.9130365252494812,
      "learning_rate": 9.930740543420353e-06,
      "loss": 2.1409,
      "step": 18900
    },
    {
      "epoch": 10.1,
      "grad_norm": 0.97170490026474,
      "learning_rate": 9.90410229088972e-06,
      "loss": 2.2007,
      "step": 18950
    },
    {
      "epoch": 10.12,
      "grad_norm": 0.9903939962387085,
      "learning_rate": 9.877464038359084e-06,
      "loss": 2.1873,
      "step": 19000
    },
    {
      "epoch": 10.15,
      "grad_norm": 1.0155619382858276,
      "learning_rate": 9.850825785828451e-06,
      "loss": 2.2185,
      "step": 19050
    },
    {
      "epoch": 10.18,
      "grad_norm": 1.0440953969955444,
      "learning_rate": 9.824187533297816e-06,
      "loss": 2.183,
      "step": 19100
    },
    {
      "epoch": 10.2,
      "grad_norm": 1.002216100692749,
      "learning_rate": 9.797549280767183e-06,
      "loss": 2.1827,
      "step": 19150
    },
    {
      "epoch": 10.23,
      "grad_norm": 0.9036744236946106,
      "learning_rate": 9.770911028236548e-06,
      "loss": 2.157,
      "step": 19200
    },
    {
      "epoch": 10.26,
      "grad_norm": 1.0186132192611694,
      "learning_rate": 9.744272775705915e-06,
      "loss": 2.1458,
      "step": 19250
    },
    {
      "epoch": 10.28,
      "grad_norm": 1.157223105430603,
      "learning_rate": 9.71763452317528e-06,
      "loss": 2.1578,
      "step": 19300
    },
    {
      "epoch": 10.31,
      "grad_norm": 1.0317802429199219,
      "learning_rate": 9.690996270644647e-06,
      "loss": 2.1852,
      "step": 19350
    },
    {
      "epoch": 10.34,
      "grad_norm": 0.9137316942214966,
      "learning_rate": 9.664358018114013e-06,
      "loss": 2.228,
      "step": 19400
    },
    {
      "epoch": 10.36,
      "grad_norm": 0.8266160488128662,
      "learning_rate": 9.637719765583378e-06,
      "loss": 2.2115,
      "step": 19450
    },
    {
      "epoch": 10.39,
      "grad_norm": 0.9575254917144775,
      "learning_rate": 9.611081513052745e-06,
      "loss": 2.1671,
      "step": 19500
    },
    {
      "epoch": 10.42,
      "grad_norm": 1.1885944604873657,
      "learning_rate": 9.58444326052211e-06,
      "loss": 2.1953,
      "step": 19550
    },
    {
      "epoch": 10.44,
      "grad_norm": 0.8843189477920532,
      "learning_rate": 9.557805007991477e-06,
      "loss": 2.1859,
      "step": 19600
    },
    {
      "epoch": 10.47,
      "grad_norm": 1.5487014055252075,
      "learning_rate": 9.531166755460842e-06,
      "loss": 2.1678,
      "step": 19650
    },
    {
      "epoch": 10.5,
      "grad_norm": 1.1339489221572876,
      "learning_rate": 9.504528502930209e-06,
      "loss": 2.1917,
      "step": 19700
    },
    {
      "epoch": 10.52,
      "grad_norm": 0.973892331123352,
      "learning_rate": 9.477890250399575e-06,
      "loss": 2.1741,
      "step": 19750
    },
    {
      "epoch": 10.55,
      "grad_norm": 1.0158993005752563,
      "learning_rate": 9.45125199786894e-06,
      "loss": 2.1949,
      "step": 19800
    },
    {
      "epoch": 10.58,
      "grad_norm": 0.8538472056388855,
      "learning_rate": 9.424613745338307e-06,
      "loss": 2.1792,
      "step": 19850
    },
    {
      "epoch": 10.6,
      "grad_norm": 1.1701879501342773,
      "learning_rate": 9.397975492807672e-06,
      "loss": 2.1807,
      "step": 19900
    },
    {
      "epoch": 10.63,
      "grad_norm": 1.2362642288208008,
      "learning_rate": 9.371337240277039e-06,
      "loss": 2.1767,
      "step": 19950
    },
    {
      "epoch": 10.66,
      "grad_norm": 1.123152494430542,
      "learning_rate": 9.344698987746404e-06,
      "loss": 2.1598,
      "step": 20000
    },
    {
      "epoch": 10.68,
      "grad_norm": 0.953671932220459,
      "learning_rate": 9.31806073521577e-06,
      "loss": 2.1543,
      "step": 20050
    },
    {
      "epoch": 10.71,
      "grad_norm": 1.0523099899291992,
      "learning_rate": 9.291422482685136e-06,
      "loss": 2.2153,
      "step": 20100
    },
    {
      "epoch": 10.74,
      "grad_norm": 1.3634711503982544,
      "learning_rate": 9.264784230154503e-06,
      "loss": 2.1659,
      "step": 20150
    },
    {
      "epoch": 10.76,
      "grad_norm": 0.9536843299865723,
      "learning_rate": 9.23814597762387e-06,
      "loss": 2.1771,
      "step": 20200
    },
    {
      "epoch": 10.79,
      "grad_norm": 0.9196369647979736,
      "learning_rate": 9.211507725093234e-06,
      "loss": 2.1675,
      "step": 20250
    },
    {
      "epoch": 10.82,
      "grad_norm": 0.846582293510437,
      "learning_rate": 9.184869472562601e-06,
      "loss": 2.1461,
      "step": 20300
    },
    {
      "epoch": 10.84,
      "grad_norm": 0.9845914840698242,
      "learning_rate": 9.158231220031966e-06,
      "loss": 2.2221,
      "step": 20350
    },
    {
      "epoch": 10.87,
      "grad_norm": 1.0751748085021973,
      "learning_rate": 9.131592967501333e-06,
      "loss": 2.1662,
      "step": 20400
    },
    {
      "epoch": 10.9,
      "grad_norm": 0.9254376292228699,
      "learning_rate": 9.104954714970698e-06,
      "loss": 2.1693,
      "step": 20450
    },
    {
      "epoch": 10.92,
      "grad_norm": 0.9914495348930359,
      "learning_rate": 9.078316462440065e-06,
      "loss": 2.1774,
      "step": 20500
    },
    {
      "epoch": 10.95,
      "grad_norm": 1.060456395149231,
      "learning_rate": 9.05167820990943e-06,
      "loss": 2.1928,
      "step": 20550
    },
    {
      "epoch": 10.97,
      "grad_norm": 0.9841185212135315,
      "learning_rate": 9.025039957378797e-06,
      "loss": 2.1774,
      "step": 20600
    },
    {
      "epoch": 11.0,
      "eval_bert-score-f1": 0.8810000661683061,
      "eval_bert-score-precision": 0.8851854187195088,
      "eval_bert-score-recall": 0.8771485046185927,
      "eval_gen_len": 47.51730437430224,
      "eval_loss": 2.013378381729126,
      "eval_rouge1": 0.3348,
      "eval_rouge2": 0.1268,
      "eval_rougeL": 0.2476,
      "eval_rougeLsum": 0.2477,
      "eval_runtime": 1329.4509,
      "eval_samples_per_second": 14.823,
      "eval_steps_per_second": 0.354,
      "step": 20647
    },
    {
      "epoch": 11.0,
      "grad_norm": 0.9042637944221497,
      "learning_rate": 8.998401704848163e-06,
      "loss": 2.1635,
      "step": 20650
    },
    {
      "epoch": 11.03,
      "grad_norm": 0.9590170979499817,
      "learning_rate": 8.971763452317528e-06,
      "loss": 2.165,
      "step": 20700
    },
    {
      "epoch": 11.05,
      "grad_norm": 0.8360864520072937,
      "learning_rate": 8.945125199786895e-06,
      "loss": 2.1263,
      "step": 20750
    },
    {
      "epoch": 11.08,
      "grad_norm": 1.0940536260604858,
      "learning_rate": 8.91848694725626e-06,
      "loss": 2.1797,
      "step": 20800
    },
    {
      "epoch": 11.11,
      "grad_norm": 0.9590544104576111,
      "learning_rate": 8.891848694725627e-06,
      "loss": 2.1848,
      "step": 20850
    },
    {
      "epoch": 11.13,
      "grad_norm": 1.009817361831665,
      "learning_rate": 8.865210442194992e-06,
      "loss": 2.1582,
      "step": 20900
    },
    {
      "epoch": 11.16,
      "grad_norm": 0.9471531510353088,
      "learning_rate": 8.838572189664359e-06,
      "loss": 2.193,
      "step": 20950
    },
    {
      "epoch": 11.19,
      "grad_norm": 1.0452817678451538,
      "learning_rate": 8.811933937133724e-06,
      "loss": 2.1514,
      "step": 21000
    },
    {
      "epoch": 11.21,
      "grad_norm": 1.0049973726272583,
      "learning_rate": 8.78529568460309e-06,
      "loss": 2.1969,
      "step": 21050
    },
    {
      "epoch": 11.24,
      "grad_norm": 1.1841228008270264,
      "learning_rate": 8.758657432072457e-06,
      "loss": 2.1479,
      "step": 21100
    },
    {
      "epoch": 11.27,
      "grad_norm": 0.9284167289733887,
      "learning_rate": 8.732019179541822e-06,
      "loss": 2.1597,
      "step": 21150
    },
    {
      "epoch": 11.29,
      "grad_norm": 1.0026378631591797,
      "learning_rate": 8.705380927011189e-06,
      "loss": 2.1856,
      "step": 21200
    },
    {
      "epoch": 11.32,
      "grad_norm": 1.1704638004302979,
      "learning_rate": 8.678742674480554e-06,
      "loss": 2.1991,
      "step": 21250
    },
    {
      "epoch": 11.35,
      "grad_norm": 0.9646838307380676,
      "learning_rate": 8.65210442194992e-06,
      "loss": 2.1673,
      "step": 21300
    },
    {
      "epoch": 11.37,
      "grad_norm": 0.9169173240661621,
      "learning_rate": 8.625466169419286e-06,
      "loss": 2.1879,
      "step": 21350
    },
    {
      "epoch": 11.4,
      "grad_norm": 1.2698827981948853,
      "learning_rate": 8.598827916888653e-06,
      "loss": 2.1711,
      "step": 21400
    },
    {
      "epoch": 11.43,
      "grad_norm": 1.0014339685440063,
      "learning_rate": 8.57218966435802e-06,
      "loss": 2.1574,
      "step": 21450
    },
    {
      "epoch": 11.45,
      "grad_norm": 1.141926884651184,
      "learning_rate": 8.545551411827386e-06,
      "loss": 2.181,
      "step": 21500
    },
    {
      "epoch": 11.48,
      "grad_norm": 0.9993128180503845,
      "learning_rate": 8.518913159296751e-06,
      "loss": 2.1954,
      "step": 21550
    },
    {
      "epoch": 11.51,
      "grad_norm": 0.8284913301467896,
      "learning_rate": 8.492274906766118e-06,
      "loss": 2.1507,
      "step": 21600
    },
    {
      "epoch": 11.53,
      "grad_norm": 0.9283605217933655,
      "learning_rate": 8.465636654235483e-06,
      "loss": 2.164,
      "step": 21650
    },
    {
      "epoch": 11.56,
      "grad_norm": 1.0683674812316895,
      "learning_rate": 8.438998401704848e-06,
      "loss": 2.1689,
      "step": 21700
    },
    {
      "epoch": 11.59,
      "grad_norm": 0.9687473177909851,
      "learning_rate": 8.412360149174215e-06,
      "loss": 2.1447,
      "step": 21750
    },
    {
      "epoch": 11.61,
      "grad_norm": 1.2580022811889648,
      "learning_rate": 8.38572189664358e-06,
      "loss": 2.1895,
      "step": 21800
    },
    {
      "epoch": 11.64,
      "grad_norm": 0.9309559464454651,
      "learning_rate": 8.359083644112946e-06,
      "loss": 2.178,
      "step": 21850
    },
    {
      "epoch": 11.67,
      "grad_norm": 0.9081181883811951,
      "learning_rate": 8.332445391582313e-06,
      "loss": 2.1827,
      "step": 21900
    },
    {
      "epoch": 11.69,
      "grad_norm": 0.9058334231376648,
      "learning_rate": 8.30580713905168e-06,
      "loss": 2.1636,
      "step": 21950
    },
    {
      "epoch": 11.72,
      "grad_norm": 0.9327389597892761,
      "learning_rate": 8.279168886521045e-06,
      "loss": 2.175,
      "step": 22000
    },
    {
      "epoch": 11.75,
      "grad_norm": 1.3059749603271484,
      "learning_rate": 8.252530633990412e-06,
      "loss": 2.1655,
      "step": 22050
    },
    {
      "epoch": 11.77,
      "grad_norm": 0.9360121488571167,
      "learning_rate": 8.225892381459777e-06,
      "loss": 2.1759,
      "step": 22100
    },
    {
      "epoch": 11.8,
      "grad_norm": 2.760277032852173,
      "learning_rate": 8.199254128929144e-06,
      "loss": 2.1784,
      "step": 22150
    },
    {
      "epoch": 11.83,
      "grad_norm": 0.9712272882461548,
      "learning_rate": 8.172615876398509e-06,
      "loss": 2.1736,
      "step": 22200
    },
    {
      "epoch": 11.85,
      "grad_norm": 0.8907904028892517,
      "learning_rate": 8.145977623867875e-06,
      "loss": 2.1918,
      "step": 22250
    },
    {
      "epoch": 11.88,
      "grad_norm": 1.1707508563995361,
      "learning_rate": 8.119339371337242e-06,
      "loss": 2.1679,
      "step": 22300
    },
    {
      "epoch": 11.91,
      "grad_norm": 0.8738240003585815,
      "learning_rate": 8.092701118806607e-06,
      "loss": 2.1831,
      "step": 22350
    },
    {
      "epoch": 11.93,
      "grad_norm": 1.0194109678268433,
      "learning_rate": 8.066062866275974e-06,
      "loss": 2.1654,
      "step": 22400
    },
    {
      "epoch": 11.96,
      "grad_norm": 2.5614118576049805,
      "learning_rate": 8.039424613745339e-06,
      "loss": 2.1985,
      "step": 22450
    },
    {
      "epoch": 11.99,
      "grad_norm": 1.0855169296264648,
      "learning_rate": 8.012786361214706e-06,
      "loss": 2.2065,
      "step": 22500
    },
    {
      "epoch": 12.0,
      "eval_bert-score-f1": 0.8812093867313604,
      "eval_bert-score-precision": 0.8855559532955481,
      "eval_bert-score-recall": 0.8771963626476008,
      "eval_gen_len": 47.54465644981224,
      "eval_loss": 2.0089080333709717,
      "eval_rouge1": 0.3353,
      "eval_rouge2": 0.1269,
      "eval_rougeL": 0.2482,
      "eval_rougeLsum": 0.2483,
      "eval_runtime": 1322.3144,
      "eval_samples_per_second": 14.903,
      "eval_steps_per_second": 0.355,
      "step": 22524
    },
    {
      "epoch": 12.01,
      "grad_norm": 0.9317869544029236,
      "learning_rate": 7.98614810868407e-06,
      "loss": 2.1648,
      "step": 22550
    },
    {
      "epoch": 12.04,
      "grad_norm": 0.9064331650733948,
      "learning_rate": 7.959509856153437e-06,
      "loss": 2.1624,
      "step": 22600
    },
    {
      "epoch": 12.07,
      "grad_norm": 0.867645263671875,
      "learning_rate": 7.932871603622802e-06,
      "loss": 2.135,
      "step": 22650
    },
    {
      "epoch": 12.09,
      "grad_norm": 0.9419721364974976,
      "learning_rate": 7.90623335109217e-06,
      "loss": 2.1511,
      "step": 22700
    },
    {
      "epoch": 12.12,
      "grad_norm": 1.0487383604049683,
      "learning_rate": 7.879595098561536e-06,
      "loss": 2.2027,
      "step": 22750
    },
    {
      "epoch": 12.15,
      "grad_norm": 0.9865580797195435,
      "learning_rate": 7.852956846030901e-06,
      "loss": 2.1988,
      "step": 22800
    },
    {
      "epoch": 12.17,
      "grad_norm": 0.8484292030334473,
      "learning_rate": 7.826318593500268e-06,
      "loss": 2.1662,
      "step": 22850
    },
    {
      "epoch": 12.2,
      "grad_norm": 1.0033077001571655,
      "learning_rate": 7.799680340969633e-06,
      "loss": 2.1494,
      "step": 22900
    },
    {
      "epoch": 12.23,
      "grad_norm": 0.967682957649231,
      "learning_rate": 7.773042088439e-06,
      "loss": 2.149,
      "step": 22950
    },
    {
      "epoch": 12.25,
      "grad_norm": 1.0493502616882324,
      "learning_rate": 7.746403835908365e-06,
      "loss": 2.1783,
      "step": 23000
    },
    {
      "epoch": 12.28,
      "grad_norm": 1.7216830253601074,
      "learning_rate": 7.719765583377731e-06,
      "loss": 2.2004,
      "step": 23050
    },
    {
      "epoch": 12.31,
      "grad_norm": 0.8698610067367554,
      "learning_rate": 7.693127330847096e-06,
      "loss": 2.1873,
      "step": 23100
    },
    {
      "epoch": 12.33,
      "grad_norm": 0.9329569935798645,
      "learning_rate": 7.666489078316463e-06,
      "loss": 2.1386,
      "step": 23150
    },
    {
      "epoch": 12.36,
      "grad_norm": 1.0915803909301758,
      "learning_rate": 7.63985082578583e-06,
      "loss": 2.1847,
      "step": 23200
    },
    {
      "epoch": 12.39,
      "grad_norm": 0.945863664150238,
      "learning_rate": 7.613212573255196e-06,
      "loss": 2.1515,
      "step": 23250
    },
    {
      "epoch": 12.41,
      "grad_norm": 1.3315609693527222,
      "learning_rate": 7.586574320724561e-06,
      "loss": 2.1758,
      "step": 23300
    },
    {
      "epoch": 12.44,
      "grad_norm": 0.9587283134460449,
      "learning_rate": 7.559936068193927e-06,
      "loss": 2.1817,
      "step": 23350
    },
    {
      "epoch": 12.47,
      "grad_norm": 1.0035264492034912,
      "learning_rate": 7.533297815663293e-06,
      "loss": 2.2093,
      "step": 23400
    },
    {
      "epoch": 12.49,
      "grad_norm": 0.9835115671157837,
      "learning_rate": 7.5066595631326585e-06,
      "loss": 2.1545,
      "step": 23450
    },
    {
      "epoch": 12.52,
      "grad_norm": 1.103174090385437,
      "learning_rate": 7.480021310602024e-06,
      "loss": 2.1901,
      "step": 23500
    },
    {
      "epoch": 12.55,
      "grad_norm": 0.9141381978988647,
      "learning_rate": 7.45338305807139e-06,
      "loss": 2.1721,
      "step": 23550
    },
    {
      "epoch": 12.57,
      "grad_norm": 0.9373638033866882,
      "learning_rate": 7.426744805540758e-06,
      "loss": 2.1484,
      "step": 23600
    },
    {
      "epoch": 12.6,
      "grad_norm": 0.8388597369194031,
      "learning_rate": 7.400106553010124e-06,
      "loss": 2.1476,
      "step": 23650
    },
    {
      "epoch": 12.63,
      "grad_norm": 1.1504141092300415,
      "learning_rate": 7.37346830047949e-06,
      "loss": 2.1471,
      "step": 23700
    },
    {
      "epoch": 12.65,
      "grad_norm": 1.0790530443191528,
      "learning_rate": 7.3468300479488556e-06,
      "loss": 2.1905,
      "step": 23750
    },
    {
      "epoch": 12.68,
      "grad_norm": 1.2390844821929932,
      "learning_rate": 7.3201917954182215e-06,
      "loss": 2.1447,
      "step": 23800
    },
    {
      "epoch": 12.71,
      "grad_norm": 1.1462445259094238,
      "learning_rate": 7.293553542887587e-06,
      "loss": 2.176,
      "step": 23850
    },
    {
      "epoch": 12.73,
      "grad_norm": 1.1283916234970093,
      "learning_rate": 7.266915290356953e-06,
      "loss": 2.2012,
      "step": 23900
    },
    {
      "epoch": 12.76,
      "grad_norm": 0.9534170031547546,
      "learning_rate": 7.240277037826319e-06,
      "loss": 2.1723,
      "step": 23950
    },
    {
      "epoch": 12.79,
      "grad_norm": 1.0652652978897095,
      "learning_rate": 7.213638785295686e-06,
      "loss": 2.1637,
      "step": 24000
    },
    {
      "epoch": 12.81,
      "grad_norm": 0.9238381385803223,
      "learning_rate": 7.187000532765052e-06,
      "loss": 2.1684,
      "step": 24050
    },
    {
      "epoch": 12.84,
      "grad_norm": 1.0384712219238281,
      "learning_rate": 7.160362280234418e-06,
      "loss": 2.1827,
      "step": 24100
    },
    {
      "epoch": 12.87,
      "grad_norm": 1.0068541765213013,
      "learning_rate": 7.133724027703784e-06,
      "loss": 2.1631,
      "step": 24150
    },
    {
      "epoch": 12.89,
      "grad_norm": 1.0497870445251465,
      "learning_rate": 7.1070857751731495e-06,
      "loss": 2.1397,
      "step": 24200
    },
    {
      "epoch": 12.92,
      "grad_norm": 0.9750410318374634,
      "learning_rate": 7.080447522642515e-06,
      "loss": 2.1806,
      "step": 24250
    },
    {
      "epoch": 12.95,
      "grad_norm": 1.383784532546997,
      "learning_rate": 7.053809270111881e-06,
      "loss": 2.1835,
      "step": 24300
    },
    {
      "epoch": 12.97,
      "grad_norm": 1.006396770477295,
      "learning_rate": 7.027171017581247e-06,
      "loss": 2.1553,
      "step": 24350
    },
    {
      "epoch": 13.0,
      "grad_norm": 1.2312555313110352,
      "learning_rate": 7.000532765050613e-06,
      "loss": 2.1748,
      "step": 24400
    },
    {
      "epoch": 13.0,
      "eval_bert-score-f1": 0.8812570747936678,
      "eval_bert-score-precision": 0.8856106671139539,
      "eval_bert-score-recall": 0.8772335333635659,
      "eval_gen_len": 47.40327818938395,
      "eval_loss": 2.0081796646118164,
      "eval_rouge1": 0.3355,
      "eval_rouge2": 0.1268,
      "eval_rougeL": 0.2484,
      "eval_rougeLsum": 0.2485,
      "eval_runtime": 1330.0155,
      "eval_samples_per_second": 14.816,
      "eval_steps_per_second": 0.353,
      "step": 24401
    },
    {
      "epoch": 13.03,
      "grad_norm": 0.9376835227012634,
      "learning_rate": 6.97389451251998e-06,
      "loss": 2.177,
      "step": 24450
    },
    {
      "epoch": 13.05,
      "grad_norm": 0.8431729078292847,
      "learning_rate": 6.947256259989346e-06,
      "loss": 2.151,
      "step": 24500
    },
    {
      "epoch": 13.08,
      "grad_norm": 0.9604516625404358,
      "learning_rate": 6.920618007458712e-06,
      "loss": 2.1812,
      "step": 24550
    },
    {
      "epoch": 13.11,
      "grad_norm": 1.005323886871338,
      "learning_rate": 6.8939797549280775e-06,
      "loss": 2.1375,
      "step": 24600
    },
    {
      "epoch": 13.13,
      "grad_norm": 0.8559876680374146,
      "learning_rate": 6.867341502397443e-06,
      "loss": 2.1757,
      "step": 24650
    },
    {
      "epoch": 13.16,
      "grad_norm": 0.9345346689224243,
      "learning_rate": 6.840703249866809e-06,
      "loss": 2.1612,
      "step": 24700
    },
    {
      "epoch": 13.19,
      "grad_norm": 0.8913391828536987,
      "learning_rate": 6.814064997336175e-06,
      "loss": 2.1644,
      "step": 24750
    },
    {
      "epoch": 13.21,
      "grad_norm": 1.023695468902588,
      "learning_rate": 6.787426744805541e-06,
      "loss": 2.1737,
      "step": 24800
    },
    {
      "epoch": 13.24,
      "grad_norm": 0.9663516879081726,
      "learning_rate": 6.760788492274908e-06,
      "loss": 2.194,
      "step": 24850
    },
    {
      "epoch": 13.27,
      "grad_norm": 2.1459882259368896,
      "learning_rate": 6.734150239744274e-06,
      "loss": 2.1383,
      "step": 24900
    },
    {
      "epoch": 13.29,
      "grad_norm": 1.0092273950576782,
      "learning_rate": 6.70751198721364e-06,
      "loss": 2.1482,
      "step": 24950
    },
    {
      "epoch": 13.32,
      "grad_norm": 0.9323935508728027,
      "learning_rate": 6.6808737346830055e-06,
      "loss": 2.1585,
      "step": 25000
    },
    {
      "epoch": 13.35,
      "grad_norm": 0.9155877828598022,
      "learning_rate": 6.654235482152371e-06,
      "loss": 2.1752,
      "step": 25050
    },
    {
      "epoch": 13.37,
      "grad_norm": 1.0836352109909058,
      "learning_rate": 6.627597229621737e-06,
      "loss": 2.1702,
      "step": 25100
    },
    {
      "epoch": 13.4,
      "grad_norm": 1.0014092922210693,
      "learning_rate": 6.600958977091103e-06,
      "loss": 2.1667,
      "step": 25150
    },
    {
      "epoch": 13.43,
      "grad_norm": 0.917218804359436,
      "learning_rate": 6.574320724560469e-06,
      "loss": 2.174,
      "step": 25200
    },
    {
      "epoch": 13.45,
      "grad_norm": 0.9018741846084595,
      "learning_rate": 6.547682472029835e-06,
      "loss": 2.1612,
      "step": 25250
    },
    {
      "epoch": 13.48,
      "grad_norm": 1.0210672616958618,
      "learning_rate": 6.521044219499202e-06,
      "loss": 2.1516,
      "step": 25300
    },
    {
      "epoch": 13.51,
      "grad_norm": 0.9759948253631592,
      "learning_rate": 6.494405966968568e-06,
      "loss": 2.1683,
      "step": 25350
    },
    {
      "epoch": 13.53,
      "grad_norm": 0.8901129961013794,
      "learning_rate": 6.4677677144379335e-06,
      "loss": 2.1777,
      "step": 25400
    },
    {
      "epoch": 13.56,
      "grad_norm": 0.9080635905265808,
      "learning_rate": 6.4411294619072994e-06,
      "loss": 2.1821,
      "step": 25450
    },
    {
      "epoch": 13.59,
      "grad_norm": 0.9286373257637024,
      "learning_rate": 6.414491209376665e-06,
      "loss": 2.1779,
      "step": 25500
    },
    {
      "epoch": 13.61,
      "grad_norm": 1.1481138467788696,
      "learning_rate": 6.387852956846031e-06,
      "loss": 2.1692,
      "step": 25550
    },
    {
      "epoch": 13.64,
      "grad_norm": 0.9707843661308289,
      "learning_rate": 6.361214704315397e-06,
      "loss": 2.1682,
      "step": 25600
    },
    {
      "epoch": 13.67,
      "grad_norm": 1.042262077331543,
      "learning_rate": 6.334576451784763e-06,
      "loss": 2.1584,
      "step": 25650
    },
    {
      "epoch": 13.69,
      "grad_norm": 0.9933112859725952,
      "learning_rate": 6.30793819925413e-06,
      "loss": 2.1558,
      "step": 25700
    },
    {
      "epoch": 13.72,
      "grad_norm": 0.8889453411102295,
      "learning_rate": 6.281299946723496e-06,
      "loss": 2.1592,
      "step": 25750
    },
    {
      "epoch": 13.75,
      "grad_norm": 0.8605052828788757,
      "learning_rate": 6.2546616941928615e-06,
      "loss": 2.1993,
      "step": 25800
    },
    {
      "epoch": 13.77,
      "grad_norm": 0.946685791015625,
      "learning_rate": 6.2280234416622274e-06,
      "loss": 2.1609,
      "step": 25850
    },
    {
      "epoch": 13.8,
      "grad_norm": 0.9031264185905457,
      "learning_rate": 6.201385189131593e-06,
      "loss": 2.1578,
      "step": 25900
    },
    {
      "epoch": 13.83,
      "grad_norm": 1.1098228693008423,
      "learning_rate": 6.174746936600959e-06,
      "loss": 2.1487,
      "step": 25950
    },
    {
      "epoch": 13.85,
      "grad_norm": 0.9173837900161743,
      "learning_rate": 6.148108684070325e-06,
      "loss": 2.1639,
      "step": 26000
    },
    {
      "epoch": 13.88,
      "grad_norm": 1.1397854089736938,
      "learning_rate": 6.121470431539691e-06,
      "loss": 2.165,
      "step": 26050
    },
    {
      "epoch": 13.91,
      "grad_norm": 1.0020257234573364,
      "learning_rate": 6.094832179009057e-06,
      "loss": 2.1713,
      "step": 26100
    },
    {
      "epoch": 13.93,
      "grad_norm": 0.9584590792655945,
      "learning_rate": 6.068193926478424e-06,
      "loss": 2.2049,
      "step": 26150
    },
    {
      "epoch": 13.96,
      "grad_norm": 1.1951069831848145,
      "learning_rate": 6.0415556739477896e-06,
      "loss": 2.1632,
      "step": 26200
    },
    {
      "epoch": 13.99,
      "grad_norm": 1.0568323135375977,
      "learning_rate": 6.0149174214171555e-06,
      "loss": 2.1792,
      "step": 26250
    },
    {
      "epoch": 14.0,
      "eval_bert-score-f1": 0.8812965099779855,
      "eval_bert-score-precision": 0.8854620127155008,
      "eval_bert-score-recall": 0.877461512582043,
      "eval_gen_len": 47.727494164213944,
      "eval_loss": 2.0084121227264404,
      "eval_rouge1": 0.3362,
      "eval_rouge2": 0.1273,
      "eval_rougeL": 0.2487,
      "eval_rougeLsum": 0.2487,
      "eval_runtime": 1350.2387,
      "eval_samples_per_second": 14.594,
      "eval_steps_per_second": 0.348,
      "step": 26278
    },
    {
      "epoch": 14.01,
      "grad_norm": 0.9785760045051575,
      "learning_rate": 5.988279168886521e-06,
      "loss": 2.1468,
      "step": 26300
    },
    {
      "epoch": 14.04,
      "grad_norm": 1.0162745714187622,
      "learning_rate": 5.961640916355887e-06,
      "loss": 2.1717,
      "step": 26350
    },
    {
      "epoch": 14.06,
      "grad_norm": 1.0883443355560303,
      "learning_rate": 5.935002663825253e-06,
      "loss": 2.1565,
      "step": 26400
    },
    {
      "epoch": 14.09,
      "grad_norm": 1.0060546398162842,
      "learning_rate": 5.908364411294619e-06,
      "loss": 2.1691,
      "step": 26450
    },
    {
      "epoch": 14.12,
      "grad_norm": 0.9702796936035156,
      "learning_rate": 5.881726158763985e-06,
      "loss": 2.1747,
      "step": 26500
    },
    {
      "epoch": 14.14,
      "grad_norm": 0.9459964632987976,
      "learning_rate": 5.8550879062333525e-06,
      "loss": 2.1781,
      "step": 26550
    },
    {
      "epoch": 14.17,
      "grad_norm": 0.8751854300498962,
      "learning_rate": 5.8284496537027176e-06,
      "loss": 2.1531,
      "step": 26600
    },
    {
      "epoch": 14.2,
      "grad_norm": 0.9021329879760742,
      "learning_rate": 5.8018114011720835e-06,
      "loss": 2.1741,
      "step": 26650
    },
    {
      "epoch": 14.22,
      "grad_norm": 0.9062153100967407,
      "learning_rate": 5.775173148641449e-06,
      "loss": 2.1424,
      "step": 26700
    },
    {
      "epoch": 14.25,
      "grad_norm": 0.8709902167320251,
      "learning_rate": 5.748534896110815e-06,
      "loss": 2.1458,
      "step": 26750
    },
    {
      "epoch": 14.28,
      "grad_norm": 0.8705712556838989,
      "learning_rate": 5.721896643580181e-06,
      "loss": 2.113,
      "step": 26800
    },
    {
      "epoch": 14.3,
      "grad_norm": 0.880886435508728,
      "learning_rate": 5.695258391049547e-06,
      "loss": 2.2009,
      "step": 26850
    },
    {
      "epoch": 14.33,
      "grad_norm": 1.1115506887435913,
      "learning_rate": 5.668620138518913e-06,
      "loss": 2.1809,
      "step": 26900
    },
    {
      "epoch": 14.36,
      "grad_norm": 0.9538648128509521,
      "learning_rate": 5.641981885988279e-06,
      "loss": 2.1776,
      "step": 26950
    },
    {
      "epoch": 14.38,
      "grad_norm": 0.8338669538497925,
      "learning_rate": 5.6153436334576464e-06,
      "loss": 2.1357,
      "step": 27000
    },
    {
      "epoch": 14.41,
      "grad_norm": 0.9421921372413635,
      "learning_rate": 5.588705380927012e-06,
      "loss": 2.1514,
      "step": 27050
    },
    {
      "epoch": 14.44,
      "grad_norm": 0.8788719177246094,
      "learning_rate": 5.562067128396378e-06,
      "loss": 2.1643,
      "step": 27100
    },
    {
      "epoch": 14.46,
      "grad_norm": 0.9146755337715149,
      "learning_rate": 5.535428875865744e-06,
      "loss": 2.1334,
      "step": 27150
    },
    {
      "epoch": 14.49,
      "grad_norm": 1.042197346687317,
      "learning_rate": 5.50879062333511e-06,
      "loss": 2.1927,
      "step": 27200
    },
    {
      "epoch": 14.52,
      "grad_norm": 0.9642235636711121,
      "learning_rate": 5.482152370804475e-06,
      "loss": 2.1628,
      "step": 27250
    },
    {
      "epoch": 14.54,
      "grad_norm": 1.0911927223205566,
      "learning_rate": 5.455514118273841e-06,
      "loss": 2.1643,
      "step": 27300
    },
    {
      "epoch": 14.57,
      "grad_norm": 1.1119507551193237,
      "learning_rate": 5.428875865743207e-06,
      "loss": 2.1757,
      "step": 27350
    },
    {
      "epoch": 14.6,
      "grad_norm": 0.9982576370239258,
      "learning_rate": 5.4022376132125744e-06,
      "loss": 2.1912,
      "step": 27400
    },
    {
      "epoch": 14.62,
      "grad_norm": 0.9314507842063904,
      "learning_rate": 5.37559936068194e-06,
      "loss": 2.171,
      "step": 27450
    },
    {
      "epoch": 14.65,
      "grad_norm": 1.2115583419799805,
      "learning_rate": 5.348961108151306e-06,
      "loss": 2.16,
      "step": 27500
    },
    {
      "epoch": 14.68,
      "grad_norm": 0.9271109700202942,
      "learning_rate": 5.322322855620672e-06,
      "loss": 2.1908,
      "step": 27550
    },
    {
      "epoch": 14.7,
      "grad_norm": 0.8988925218582153,
      "learning_rate": 5.295684603090038e-06,
      "loss": 2.1852,
      "step": 27600
    },
    {
      "epoch": 14.73,
      "grad_norm": 0.9780814051628113,
      "learning_rate": 5.269046350559404e-06,
      "loss": 2.1417,
      "step": 27650
    },
    {
      "epoch": 14.76,
      "grad_norm": 1.1456106901168823,
      "learning_rate": 5.24240809802877e-06,
      "loss": 2.1775,
      "step": 27700
    },
    {
      "epoch": 14.78,
      "grad_norm": 0.813176155090332,
      "learning_rate": 5.215769845498136e-06,
      "loss": 2.1916,
      "step": 27750
    },
    {
      "epoch": 14.81,
      "grad_norm": 0.9489790797233582,
      "learning_rate": 5.189131592967502e-06,
      "loss": 2.1561,
      "step": 27800
    },
    {
      "epoch": 14.84,
      "grad_norm": 0.9345203042030334,
      "learning_rate": 5.162493340436868e-06,
      "loss": 2.1511,
      "step": 27850
    },
    {
      "epoch": 14.86,
      "grad_norm": 0.7995460033416748,
      "learning_rate": 5.135855087906234e-06,
      "loss": 2.1918,
      "step": 27900
    },
    {
      "epoch": 14.89,
      "grad_norm": 0.8729720711708069,
      "learning_rate": 5.1092168353756e-06,
      "loss": 2.1598,
      "step": 27950
    },
    {
      "epoch": 14.92,
      "grad_norm": 0.928892970085144,
      "learning_rate": 5.082578582844966e-06,
      "loss": 2.1602,
      "step": 28000
    },
    {
      "epoch": 14.94,
      "grad_norm": 0.9653081297874451,
      "learning_rate": 5.055940330314332e-06,
      "loss": 2.1591,
      "step": 28050
    },
    {
      "epoch": 14.97,
      "grad_norm": 1.006082534790039,
      "learning_rate": 5.029302077783698e-06,
      "loss": 2.1554,
      "step": 28100
    },
    {
      "epoch": 15.0,
      "grad_norm": 0.9210333228111267,
      "learning_rate": 5.002663825253064e-06,
      "loss": 2.1609,
      "step": 28150
    },
    {
      "epoch": 15.0,
      "eval_bert-score-f1": 0.8813901242448342,
      "eval_bert-score-precision": 0.8855356388553972,
      "eval_bert-score-recall": 0.8775755109870953,
      "eval_gen_len": 47.89211407693088,
      "eval_loss": 2.008052349090576,
      "eval_rouge1": 0.3364,
      "eval_rouge2": 0.1275,
      "eval_rougeL": 0.249,
      "eval_rougeLsum": 0.2491,
      "eval_runtime": 1342.1803,
      "eval_samples_per_second": 14.682,
      "eval_steps_per_second": 0.35,
      "step": 28155
    },
    {
      "epoch": 15.02,
      "grad_norm": 0.9067476987838745,
      "learning_rate": 4.97602557272243e-06,
      "loss": 2.1855,
      "step": 28200
    },
    {
      "epoch": 15.05,
      "grad_norm": 0.9924964904785156,
      "learning_rate": 4.9493873201917955e-06,
      "loss": 2.1434,
      "step": 28250
    },
    {
      "epoch": 15.08,
      "grad_norm": 0.9526183009147644,
      "learning_rate": 4.922749067661161e-06,
      "loss": 2.1306,
      "step": 28300
    },
    {
      "epoch": 15.1,
      "grad_norm": 0.8999783396720886,
      "learning_rate": 4.896110815130528e-06,
      "loss": 2.1683,
      "step": 28350
    },
    {
      "epoch": 15.13,
      "grad_norm": 1.3067386150360107,
      "learning_rate": 4.869472562599894e-06,
      "loss": 2.175,
      "step": 28400
    },
    {
      "epoch": 15.16,
      "grad_norm": 0.930998682975769,
      "learning_rate": 4.84283431006926e-06,
      "loss": 2.1571,
      "step": 28450
    },
    {
      "epoch": 15.18,
      "grad_norm": 1.0874801874160767,
      "learning_rate": 4.816196057538626e-06,
      "loss": 2.1648,
      "step": 28500
    },
    {
      "epoch": 15.21,
      "grad_norm": 0.8937533497810364,
      "learning_rate": 4.789557805007992e-06,
      "loss": 2.1593,
      "step": 28550
    },
    {
      "epoch": 15.24,
      "grad_norm": 1.1147658824920654,
      "learning_rate": 4.762919552477358e-06,
      "loss": 2.1554,
      "step": 28600
    },
    {
      "epoch": 15.26,
      "grad_norm": 1.2026888132095337,
      "learning_rate": 4.7362812999467235e-06,
      "loss": 2.1702,
      "step": 28650
    },
    {
      "epoch": 15.29,
      "grad_norm": 1.02727210521698,
      "learning_rate": 4.7096430474160894e-06,
      "loss": 2.1316,
      "step": 28700
    },
    {
      "epoch": 15.32,
      "grad_norm": 0.9779881834983826,
      "learning_rate": 4.683004794885455e-06,
      "loss": 2.1673,
      "step": 28750
    },
    {
      "epoch": 15.34,
      "grad_norm": 1.0025492906570435,
      "learning_rate": 4.656366542354822e-06,
      "loss": 2.1949,
      "step": 28800
    },
    {
      "epoch": 15.37,
      "grad_norm": 1.1579878330230713,
      "learning_rate": 4.629728289824188e-06,
      "loss": 2.161,
      "step": 28850
    },
    {
      "epoch": 15.4,
      "grad_norm": 0.9376475811004639,
      "learning_rate": 4.603090037293554e-06,
      "loss": 2.1849,
      "step": 28900
    },
    {
      "epoch": 15.42,
      "grad_norm": 1.239538550376892,
      "learning_rate": 4.57645178476292e-06,
      "loss": 2.148,
      "step": 28950
    },
    {
      "epoch": 15.45,
      "grad_norm": 0.9662672281265259,
      "learning_rate": 4.5498135322322865e-06,
      "loss": 2.1917,
      "step": 29000
    },
    {
      "epoch": 15.48,
      "grad_norm": 0.999487578868866,
      "learning_rate": 4.523175279701652e-06,
      "loss": 2.1746,
      "step": 29050
    },
    {
      "epoch": 15.5,
      "grad_norm": 1.1087113618850708,
      "learning_rate": 4.496537027171018e-06,
      "loss": 2.1756,
      "step": 29100
    },
    {
      "epoch": 15.53,
      "grad_norm": 0.9873372316360474,
      "learning_rate": 4.469898774640384e-06,
      "loss": 2.1333,
      "step": 29150
    },
    {
      "epoch": 15.56,
      "grad_norm": 0.9368143677711487,
      "learning_rate": 4.44326052210975e-06,
      "loss": 2.1784,
      "step": 29200
    },
    {
      "epoch": 15.58,
      "grad_norm": 1.0396299362182617,
      "learning_rate": 4.416622269579116e-06,
      "loss": 2.1786,
      "step": 29250
    },
    {
      "epoch": 15.61,
      "grad_norm": 0.9846010804176331,
      "learning_rate": 4.389984017048482e-06,
      "loss": 2.1886,
      "step": 29300
    },
    {
      "epoch": 15.64,
      "grad_norm": 0.7157499194145203,
      "learning_rate": 4.363345764517848e-06,
      "loss": 2.1454,
      "step": 29350
    },
    {
      "epoch": 15.66,
      "grad_norm": 0.8496772050857544,
      "learning_rate": 4.336707511987214e-06,
      "loss": 2.1456,
      "step": 29400
    },
    {
      "epoch": 15.69,
      "grad_norm": 1.0150104761123657,
      "learning_rate": 4.31006925945658e-06,
      "loss": 2.1725,
      "step": 29450
    },
    {
      "epoch": 15.72,
      "grad_norm": 0.9437685012817383,
      "learning_rate": 4.283431006925946e-06,
      "loss": 2.1655,
      "step": 29500
    },
    {
      "epoch": 15.74,
      "grad_norm": 0.978090226650238,
      "learning_rate": 4.256792754395312e-06,
      "loss": 2.1476,
      "step": 29550
    },
    {
      "epoch": 15.77,
      "grad_norm": 0.8782944679260254,
      "learning_rate": 4.230154501864678e-06,
      "loss": 2.1482,
      "step": 29600
    },
    {
      "epoch": 15.8,
      "grad_norm": 0.830117404460907,
      "learning_rate": 4.203516249334044e-06,
      "loss": 2.118,
      "step": 29650
    },
    {
      "epoch": 15.82,
      "grad_norm": 0.9760297536849976,
      "learning_rate": 4.17687799680341e-06,
      "loss": 2.2007,
      "step": 29700
    },
    {
      "epoch": 15.85,
      "grad_norm": 0.8977949619293213,
      "learning_rate": 4.150239744272776e-06,
      "loss": 2.1008,
      "step": 29750
    },
    {
      "epoch": 15.88,
      "grad_norm": 1.0869261026382446,
      "learning_rate": 4.123601491742142e-06,
      "loss": 2.1915,
      "step": 29800
    },
    {
      "epoch": 15.9,
      "grad_norm": 1.1186174154281616,
      "learning_rate": 4.0969632392115084e-06,
      "loss": 2.1653,
      "step": 29850
    },
    {
      "epoch": 15.93,
      "grad_norm": 0.9164936542510986,
      "learning_rate": 4.070324986680874e-06,
      "loss": 2.1479,
      "step": 29900
    },
    {
      "epoch": 15.96,
      "grad_norm": 0.9677796959877014,
      "learning_rate": 4.04368673415024e-06,
      "loss": 2.1207,
      "step": 29950
    },
    {
      "epoch": 15.98,
      "grad_norm": 0.8449875116348267,
      "learning_rate": 4.017048481619606e-06,
      "loss": 2.189,
      "step": 30000
    },
    {
      "epoch": 16.0,
      "eval_bert-score-f1": 0.8815181989403869,
      "eval_bert-score-precision": 0.8858505654647171,
      "eval_bert-score-recall": 0.8775155795209725,
      "eval_gen_len": 47.55181163097534,
      "eval_loss": 2.0050902366638184,
      "eval_rouge1": 0.3365,
      "eval_rouge2": 0.1273,
      "eval_rougeL": 0.249,
      "eval_rougeLsum": 0.2491,
      "eval_runtime": 1330.728,
      "eval_samples_per_second": 14.808,
      "eval_steps_per_second": 0.353,
      "step": 30032
    },
    {
      "epoch": 16.01,
      "grad_norm": 0.9980852603912354,
      "learning_rate": 3.990410229088972e-06,
      "loss": 2.1959,
      "step": 30050
    },
    {
      "epoch": 16.04,
      "grad_norm": 1.3163436651229858,
      "learning_rate": 3.963771976558338e-06,
      "loss": 2.173,
      "step": 30100
    },
    {
      "epoch": 16.06,
      "grad_norm": 0.9099076986312866,
      "learning_rate": 3.937133724027704e-06,
      "loss": 2.1724,
      "step": 30150
    },
    {
      "epoch": 16.09,
      "grad_norm": 1.0009883642196655,
      "learning_rate": 3.91049547149707e-06,
      "loss": 2.1544,
      "step": 30200
    },
    {
      "epoch": 16.12,
      "grad_norm": 0.9975098967552185,
      "learning_rate": 3.883857218966436e-06,
      "loss": 2.1458,
      "step": 30250
    },
    {
      "epoch": 16.14,
      "grad_norm": 0.8518524169921875,
      "learning_rate": 3.857218966435802e-06,
      "loss": 2.1569,
      "step": 30300
    },
    {
      "epoch": 16.17,
      "grad_norm": 0.9639623761177063,
      "learning_rate": 3.830580713905168e-06,
      "loss": 2.15,
      "step": 30350
    },
    {
      "epoch": 16.2,
      "grad_norm": 0.8993538022041321,
      "learning_rate": 3.803942461374534e-06,
      "loss": 2.1448,
      "step": 30400
    },
    {
      "epoch": 16.22,
      "grad_norm": 1.0397539138793945,
      "learning_rate": 3.7773042088439e-06,
      "loss": 2.1305,
      "step": 30450
    },
    {
      "epoch": 16.25,
      "grad_norm": 1.0676199197769165,
      "learning_rate": 3.7506659563132663e-06,
      "loss": 2.141,
      "step": 30500
    },
    {
      "epoch": 16.28,
      "grad_norm": 1.0054043531417847,
      "learning_rate": 3.7240277037826322e-06,
      "loss": 2.1595,
      "step": 30550
    },
    {
      "epoch": 16.3,
      "grad_norm": 0.949520468711853,
      "learning_rate": 3.697389451251998e-06,
      "loss": 2.2005,
      "step": 30600
    },
    {
      "epoch": 16.33,
      "grad_norm": 0.9753077030181885,
      "learning_rate": 3.670751198721364e-06,
      "loss": 2.1924,
      "step": 30650
    },
    {
      "epoch": 16.36,
      "grad_norm": 0.8877549767494202,
      "learning_rate": 3.6441129461907304e-06,
      "loss": 2.1553,
      "step": 30700
    },
    {
      "epoch": 16.38,
      "grad_norm": 1.0130952596664429,
      "learning_rate": 3.6174746936600963e-06,
      "loss": 2.1451,
      "step": 30750
    },
    {
      "epoch": 16.41,
      "grad_norm": 1.2479366064071655,
      "learning_rate": 3.590836441129462e-06,
      "loss": 2.168,
      "step": 30800
    },
    {
      "epoch": 16.44,
      "grad_norm": 1.0229461193084717,
      "learning_rate": 3.564198188598828e-06,
      "loss": 2.1642,
      "step": 30850
    },
    {
      "epoch": 16.46,
      "grad_norm": 0.9332823157310486,
      "learning_rate": 3.5375599360681944e-06,
      "loss": 2.1587,
      "step": 30900
    },
    {
      "epoch": 16.49,
      "grad_norm": 1.008484125137329,
      "learning_rate": 3.5109216835375603e-06,
      "loss": 2.1725,
      "step": 30950
    },
    {
      "epoch": 16.52,
      "grad_norm": 0.9926919341087341,
      "learning_rate": 3.484283431006926e-06,
      "loss": 2.1694,
      "step": 31000
    },
    {
      "epoch": 16.54,
      "grad_norm": 0.9659560322761536,
      "learning_rate": 3.457645178476292e-06,
      "loss": 2.1787,
      "step": 31050
    },
    {
      "epoch": 16.57,
      "grad_norm": 0.9388399720191956,
      "learning_rate": 3.431006925945658e-06,
      "loss": 2.1726,
      "step": 31100
    },
    {
      "epoch": 16.6,
      "grad_norm": 0.8616447448730469,
      "learning_rate": 3.4043686734150243e-06,
      "loss": 2.1566,
      "step": 31150
    },
    {
      "epoch": 16.62,
      "grad_norm": 0.8849464058876038,
      "learning_rate": 3.37773042088439e-06,
      "loss": 2.1769,
      "step": 31200
    },
    {
      "epoch": 16.65,
      "grad_norm": 0.9730740785598755,
      "learning_rate": 3.351092168353756e-06,
      "loss": 2.1858,
      "step": 31250
    },
    {
      "epoch": 16.68,
      "grad_norm": 1.1059538125991821,
      "learning_rate": 3.324453915823122e-06,
      "loss": 2.1722,
      "step": 31300
    },
    {
      "epoch": 16.7,
      "grad_norm": 1.2941957712173462,
      "learning_rate": 3.2978156632924883e-06,
      "loss": 2.1652,
      "step": 31350
    },
    {
      "epoch": 16.73,
      "grad_norm": 0.9166463017463684,
      "learning_rate": 3.271177410761854e-06,
      "loss": 2.158,
      "step": 31400
    },
    {
      "epoch": 16.76,
      "grad_norm": 1.1810513734817505,
      "learning_rate": 3.24453915823122e-06,
      "loss": 2.1334,
      "step": 31450
    },
    {
      "epoch": 16.78,
      "grad_norm": 0.9561477899551392,
      "learning_rate": 3.217900905700586e-06,
      "loss": 2.1354,
      "step": 31500
    },
    {
      "epoch": 16.81,
      "grad_norm": 0.8539523482322693,
      "learning_rate": 3.1912626531699527e-06,
      "loss": 2.1458,
      "step": 31550
    },
    {
      "epoch": 16.84,
      "grad_norm": 1.099672794342041,
      "learning_rate": 3.1646244006393186e-06,
      "loss": 2.1784,
      "step": 31600
    },
    {
      "epoch": 16.86,
      "grad_norm": 0.8352581858634949,
      "learning_rate": 3.1379861481086845e-06,
      "loss": 2.1348,
      "step": 31650
    },
    {
      "epoch": 16.89,
      "grad_norm": 1.0823798179626465,
      "learning_rate": 3.11134789557805e-06,
      "loss": 2.1657,
      "step": 31700
    },
    {
      "epoch": 16.92,
      "grad_norm": 0.9096495509147644,
      "learning_rate": 3.0847096430474167e-06,
      "loss": 2.1526,
      "step": 31750
    },
    {
      "epoch": 16.94,
      "grad_norm": 0.9881473779678345,
      "learning_rate": 3.0580713905167826e-06,
      "loss": 2.1759,
      "step": 31800
    },
    {
      "epoch": 16.97,
      "grad_norm": 1.2694969177246094,
      "learning_rate": 3.0314331379861485e-06,
      "loss": 2.1896,
      "step": 31850
    },
    {
      "epoch": 17.0,
      "grad_norm": 1.1195552349090576,
      "learning_rate": 3.0047948854555144e-06,
      "loss": 2.1417,
      "step": 31900
    },
    {
      "epoch": 17.0,
      "eval_bert-score-f1": 0.8814209539291642,
      "eval_bert-score-precision": 0.8856624760483045,
      "eval_bert-score-recall": 0.8775075128371735,
      "eval_gen_len": 47.645996143306604,
      "eval_loss": 2.005204439163208,
      "eval_rouge1": 0.3363,
      "eval_rouge2": 0.1273,
      "eval_rougeL": 0.2488,
      "eval_rougeLsum": 0.2489,
      "eval_runtime": 1335.7013,
      "eval_samples_per_second": 14.753,
      "eval_steps_per_second": 0.352,
      "step": 31909
    },
    {
      "epoch": 17.02,
      "grad_norm": 0.8519843816757202,
      "learning_rate": 2.9781566329248803e-06,
      "loss": 2.139,
      "step": 31950
    },
    {
      "epoch": 17.05,
      "grad_norm": 0.9282755255699158,
      "learning_rate": 2.9515183803942466e-06,
      "loss": 2.1555,
      "step": 32000
    },
    {
      "epoch": 17.08,
      "grad_norm": 1.0514159202575684,
      "learning_rate": 2.9248801278636125e-06,
      "loss": 2.1316,
      "step": 32050
    },
    {
      "epoch": 17.1,
      "grad_norm": 1.034957766532898,
      "learning_rate": 2.8982418753329784e-06,
      "loss": 2.2094,
      "step": 32100
    },
    {
      "epoch": 17.13,
      "grad_norm": 1.0574824810028076,
      "learning_rate": 2.8716036228023443e-06,
      "loss": 2.1641,
      "step": 32150
    },
    {
      "epoch": 17.16,
      "grad_norm": 0.9753189086914062,
      "learning_rate": 2.8449653702717106e-06,
      "loss": 2.1442,
      "step": 32200
    },
    {
      "epoch": 17.18,
      "grad_norm": 1.2037853002548218,
      "learning_rate": 2.8183271177410765e-06,
      "loss": 2.147,
      "step": 32250
    },
    {
      "epoch": 17.21,
      "grad_norm": 0.8287584185600281,
      "learning_rate": 2.7916888652104424e-06,
      "loss": 2.1765,
      "step": 32300
    },
    {
      "epoch": 17.23,
      "grad_norm": 1.0360517501831055,
      "learning_rate": 2.7650506126798083e-06,
      "loss": 2.1864,
      "step": 32350
    },
    {
      "epoch": 17.26,
      "grad_norm": 1.1471740007400513,
      "learning_rate": 2.7384123601491746e-06,
      "loss": 2.1629,
      "step": 32400
    },
    {
      "epoch": 17.29,
      "grad_norm": 0.9185000658035278,
      "learning_rate": 2.7117741076185405e-06,
      "loss": 2.1639,
      "step": 32450
    },
    {
      "epoch": 17.31,
      "grad_norm": 1.1663320064544678,
      "learning_rate": 2.6851358550879064e-06,
      "loss": 2.1174,
      "step": 32500
    },
    {
      "epoch": 17.34,
      "grad_norm": 0.980441689491272,
      "learning_rate": 2.6584976025572723e-06,
      "loss": 2.1397,
      "step": 32550
    },
    {
      "epoch": 17.37,
      "grad_norm": 1.1273858547210693,
      "learning_rate": 2.6318593500266386e-06,
      "loss": 2.1462,
      "step": 32600
    },
    {
      "epoch": 17.39,
      "grad_norm": 1.146296501159668,
      "learning_rate": 2.6052210974960045e-06,
      "loss": 2.1797,
      "step": 32650
    },
    {
      "epoch": 17.42,
      "grad_norm": 0.9205301403999329,
      "learning_rate": 2.5785828449653704e-06,
      "loss": 2.1909,
      "step": 32700
    },
    {
      "epoch": 17.45,
      "grad_norm": 1.103619933128357,
      "learning_rate": 2.5519445924347363e-06,
      "loss": 2.1637,
      "step": 32750
    },
    {
      "epoch": 17.47,
      "grad_norm": 0.8971651196479797,
      "learning_rate": 2.5253063399041022e-06,
      "loss": 2.1693,
      "step": 32800
    },
    {
      "epoch": 17.5,
      "grad_norm": 1.088956356048584,
      "learning_rate": 2.4986680873734685e-06,
      "loss": 2.151,
      "step": 32850
    },
    {
      "epoch": 17.53,
      "grad_norm": 0.9202156066894531,
      "learning_rate": 2.4720298348428344e-06,
      "loss": 2.1679,
      "step": 32900
    },
    {
      "epoch": 17.55,
      "grad_norm": 0.9409503936767578,
      "learning_rate": 2.4453915823122003e-06,
      "loss": 2.157,
      "step": 32950
    },
    {
      "epoch": 17.58,
      "grad_norm": 1.0779467821121216,
      "learning_rate": 2.4187533297815667e-06,
      "loss": 2.1291,
      "step": 33000
    },
    {
      "epoch": 17.61,
      "grad_norm": 0.918696403503418,
      "learning_rate": 2.3921150772509325e-06,
      "loss": 2.1844,
      "step": 33050
    },
    {
      "epoch": 17.63,
      "grad_norm": 1.5606318712234497,
      "learning_rate": 2.3654768247202984e-06,
      "loss": 2.1489,
      "step": 33100
    },
    {
      "epoch": 17.66,
      "grad_norm": 1.205295443534851,
      "learning_rate": 2.3388385721896643e-06,
      "loss": 2.1667,
      "step": 33150
    },
    {
      "epoch": 17.69,
      "grad_norm": 1.052687644958496,
      "learning_rate": 2.3122003196590307e-06,
      "loss": 2.1258,
      "step": 33200
    },
    {
      "epoch": 17.71,
      "grad_norm": 0.9863780736923218,
      "learning_rate": 2.2855620671283966e-06,
      "loss": 2.1722,
      "step": 33250
    },
    {
      "epoch": 17.74,
      "grad_norm": 0.9677025079727173,
      "learning_rate": 2.258923814597763e-06,
      "loss": 2.1813,
      "step": 33300
    },
    {
      "epoch": 17.77,
      "grad_norm": 1.0325006246566772,
      "learning_rate": 2.2322855620671283e-06,
      "loss": 2.1258,
      "step": 33350
    },
    {
      "epoch": 17.79,
      "grad_norm": 1.2607378959655762,
      "learning_rate": 2.2056473095364947e-06,
      "loss": 2.1531,
      "step": 33400
    },
    {
      "epoch": 17.82,
      "grad_norm": 0.8155959844589233,
      "learning_rate": 2.1790090570058606e-06,
      "loss": 2.1356,
      "step": 33450
    },
    {
      "epoch": 17.85,
      "grad_norm": 1.000097632408142,
      "learning_rate": 2.152370804475227e-06,
      "loss": 2.1564,
      "step": 33500
    },
    {
      "epoch": 17.87,
      "grad_norm": 1.0435174703598022,
      "learning_rate": 2.1257325519445928e-06,
      "loss": 2.1442,
      "step": 33550
    },
    {
      "epoch": 17.9,
      "grad_norm": 0.8841784000396729,
      "learning_rate": 2.0990942994139587e-06,
      "loss": 2.1775,
      "step": 33600
    },
    {
      "epoch": 17.93,
      "grad_norm": 0.971834123134613,
      "learning_rate": 2.0724560468833246e-06,
      "loss": 2.1737,
      "step": 33650
    },
    {
      "epoch": 17.95,
      "grad_norm": 1.0215661525726318,
      "learning_rate": 2.0458177943526905e-06,
      "loss": 2.1105,
      "step": 33700
    },
    {
      "epoch": 17.98,
      "grad_norm": 0.964297890663147,
      "learning_rate": 2.0191795418220568e-06,
      "loss": 2.1731,
      "step": 33750
    },
    {
      "epoch": 18.0,
      "eval_bert-score-f1": 0.8815276650811141,
      "eval_bert-score-precision": 0.8858032303631735,
      "eval_bert-score-recall": 0.8775806915883447,
      "eval_gen_len": 47.6104739673196,
      "eval_loss": 2.004894495010376,
      "eval_rouge1": 0.3366,
      "eval_rouge2": 0.1273,
      "eval_rougeL": 0.249,
      "eval_rougeLsum": 0.2491,
      "eval_runtime": 1338.1647,
      "eval_samples_per_second": 14.726,
      "eval_steps_per_second": 0.351,
      "step": 33786
    }
  ],
  "logging_steps": 50,
  "max_steps": 37540,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 20,
  "save_steps": 500,
  "total_flos": 3.840531477455831e+17,
  "train_batch_size": 42,
  "trial_name": null,
  "trial_params": null
}