{
  "best_metric": 0.817,
  "best_model_checkpoint": "vit-base-patch16-224-finetuned-eurosat\\checkpoint-30027",
  "epoch": 2.9999250693108874,
  "eval_steps": 500,
  "global_step": 30027,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 4.143807888031006,
      "learning_rate": 1.665001665001665e-07,
      "loss": 0.7013,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 4.3371052742004395,
      "learning_rate": 3.33000333000333e-07,
      "loss": 0.7137,
      "step": 20
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.710317373275757,
      "learning_rate": 4.995004995004995e-07,
      "loss": 0.6865,
      "step": 30
    },
    {
      "epoch": 0.0,
      "grad_norm": 8.937060356140137,
      "learning_rate": 6.66000666000666e-07,
      "loss": 0.7143,
      "step": 40
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.3995606899261475,
      "learning_rate": 8.325008325008326e-07,
      "loss": 0.6581,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.234834671020508,
      "learning_rate": 9.99000999000999e-07,
      "loss": 0.6659,
      "step": 60
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.9313976764678955,
      "learning_rate": 1.1655011655011657e-06,
      "loss": 0.64,
      "step": 70
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.143862724304199,
      "learning_rate": 1.332001332001332e-06,
      "loss": 0.6162,
      "step": 80
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.50057315826416,
      "learning_rate": 1.4985014985014986e-06,
      "loss": 0.6566,
      "step": 90
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.007065773010254,
      "learning_rate": 1.6650016650016652e-06,
      "loss": 0.5893,
      "step": 100
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.4080264568328857,
      "learning_rate": 1.8315018315018316e-06,
      "loss": 0.6097,
      "step": 110
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.078551292419434,
      "learning_rate": 1.998001998001998e-06,
      "loss": 0.6134,
      "step": 120
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.021951198577881,
      "learning_rate": 2.1645021645021643e-06,
      "loss": 0.6403,
      "step": 130
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.054600238800049,
      "learning_rate": 2.3310023310023313e-06,
      "loss": 0.6344,
      "step": 140
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.5640459060668945,
      "learning_rate": 2.4975024975024975e-06,
      "loss": 0.6425,
      "step": 150
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.93977427482605,
      "learning_rate": 2.664002664002664e-06,
      "loss": 0.7425,
      "step": 160
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.6370434761047363,
      "learning_rate": 2.8305028305028307e-06,
      "loss": 0.6646,
      "step": 170
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.0690064430236816,
      "learning_rate": 2.9970029970029973e-06,
      "loss": 0.625,
      "step": 180
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.831897020339966,
      "learning_rate": 3.1635031635031634e-06,
      "loss": 0.6883,
      "step": 190
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.4181017875671387,
      "learning_rate": 3.3300033300033304e-06,
      "loss": 0.6234,
      "step": 200
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.2327756881713867,
      "learning_rate": 3.496503496503497e-06,
      "loss": 0.6206,
      "step": 210
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.764942169189453,
      "learning_rate": 3.663003663003663e-06,
      "loss": 0.6256,
      "step": 220
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.811342716217041,
      "learning_rate": 3.82950382950383e-06,
      "loss": 0.627,
      "step": 230
    },
    {
      "epoch": 0.02,
      "grad_norm": 3.721987724304199,
      "learning_rate": 3.996003996003996e-06,
      "loss": 0.6545,
      "step": 240
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.076831817626953,
      "learning_rate": 4.1625041625041625e-06,
      "loss": 0.7367,
      "step": 250
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.8314592838287354,
      "learning_rate": 4.329004329004329e-06,
      "loss": 0.671,
      "step": 260
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.5825934410095215,
      "learning_rate": 4.495504495504496e-06,
      "loss": 0.6385,
      "step": 270
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.518993377685547,
      "learning_rate": 4.662004662004663e-06,
      "loss": 0.6326,
      "step": 280
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.053534030914307,
      "learning_rate": 4.828504828504829e-06,
      "loss": 0.6461,
      "step": 290
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.821556568145752,
      "learning_rate": 4.995004995004995e-06,
      "loss": 0.6243,
      "step": 300
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.4191884994506836,
      "learning_rate": 5.161505161505162e-06,
      "loss": 0.6653,
      "step": 310
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.8679020404815674,
      "learning_rate": 5.328005328005328e-06,
      "loss": 0.6648,
      "step": 320
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.505882740020752,
      "learning_rate": 5.494505494505494e-06,
      "loss": 0.6255,
      "step": 330
    },
    {
      "epoch": 0.03,
      "grad_norm": 4.490391254425049,
      "learning_rate": 5.661005661005661e-06,
      "loss": 0.7027,
      "step": 340
    },
    {
      "epoch": 0.03,
      "grad_norm": 3.501941204071045,
      "learning_rate": 5.8275058275058275e-06,
      "loss": 0.6195,
      "step": 350
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.729767084121704,
      "learning_rate": 5.9940059940059945e-06,
      "loss": 0.6453,
      "step": 360
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.2515740394592285,
      "learning_rate": 6.160506160506161e-06,
      "loss": 0.6595,
      "step": 370
    },
    {
      "epoch": 0.04,
      "grad_norm": 4.356018543243408,
      "learning_rate": 6.327006327006327e-06,
      "loss": 0.6354,
      "step": 380
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.877014636993408,
      "learning_rate": 6.493506493506493e-06,
      "loss": 0.6109,
      "step": 390
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.5872933864593506,
      "learning_rate": 6.660006660006661e-06,
      "loss": 0.6738,
      "step": 400
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.6947875022888184,
      "learning_rate": 6.826506826506828e-06,
      "loss": 0.6403,
      "step": 410
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.675807237625122,
      "learning_rate": 6.993006993006994e-06,
      "loss": 0.6403,
      "step": 420
    },
    {
      "epoch": 0.04,
      "grad_norm": 6.208953857421875,
      "learning_rate": 7.15950715950716e-06,
      "loss": 0.6654,
      "step": 430
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.489384412765503,
      "learning_rate": 7.326007326007326e-06,
      "loss": 0.5591,
      "step": 440
    },
    {
      "epoch": 0.04,
      "grad_norm": 3.0858824253082275,
      "learning_rate": 7.492507492507493e-06,
      "loss": 0.5784,
      "step": 450
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.518639326095581,
      "learning_rate": 7.65900765900766e-06,
      "loss": 0.6244,
      "step": 460
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.314357280731201,
      "learning_rate": 7.825507825507827e-06,
      "loss": 0.6696,
      "step": 470
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.855201005935669,
      "learning_rate": 7.992007992007993e-06,
      "loss": 0.6448,
      "step": 480
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.133615493774414,
      "learning_rate": 8.158508158508159e-06,
      "loss": 0.7997,
      "step": 490
    },
    {
      "epoch": 0.05,
      "grad_norm": 4.010055065155029,
      "learning_rate": 8.325008325008325e-06,
      "loss": 0.6864,
      "step": 500
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.7918381690979004,
      "learning_rate": 8.491508491508491e-06,
      "loss": 0.6849,
      "step": 510
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.829275608062744,
      "learning_rate": 8.658008658008657e-06,
      "loss": 0.6874,
      "step": 520
    },
    {
      "epoch": 0.05,
      "grad_norm": 8.789960861206055,
      "learning_rate": 8.824508824508825e-06,
      "loss": 0.6453,
      "step": 530
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.300079345703125,
      "learning_rate": 8.991008991008991e-06,
      "loss": 0.6048,
      "step": 540
    },
    {
      "epoch": 0.05,
      "grad_norm": 3.0659468173980713,
      "learning_rate": 9.157509157509158e-06,
      "loss": 0.6241,
      "step": 550
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.7649049758911133,
      "learning_rate": 9.324009324009325e-06,
      "loss": 0.6665,
      "step": 560
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.066420555114746,
      "learning_rate": 9.490509490509492e-06,
      "loss": 0.547,
      "step": 570
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.458407163619995,
      "learning_rate": 9.657009657009658e-06,
      "loss": 0.5517,
      "step": 580
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.89324688911438,
      "learning_rate": 9.823509823509824e-06,
      "loss": 0.6554,
      "step": 590
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.8929543495178223,
      "learning_rate": 9.99000999000999e-06,
      "loss": 0.6266,
      "step": 600
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.6850342750549316,
      "learning_rate": 1.0156510156510158e-05,
      "loss": 0.573,
      "step": 610
    },
    {
      "epoch": 0.06,
      "grad_norm": 3.519540548324585,
      "learning_rate": 1.0323010323010324e-05,
      "loss": 0.6271,
      "step": 620
    },
    {
      "epoch": 0.06,
      "grad_norm": 4.327082633972168,
      "learning_rate": 1.048951048951049e-05,
      "loss": 0.6372,
      "step": 630
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.6244053840637207,
      "learning_rate": 1.0656010656010656e-05,
      "loss": 0.5966,
      "step": 640
    },
    {
      "epoch": 0.06,
      "grad_norm": 2.7536351680755615,
      "learning_rate": 1.0822510822510823e-05,
      "loss": 0.6449,
      "step": 650
    },
    {
      "epoch": 0.07,
      "grad_norm": 4.168099880218506,
      "learning_rate": 1.0989010989010989e-05,
      "loss": 0.5002,
      "step": 660
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.3233509063720703,
      "learning_rate": 1.1155511155511157e-05,
      "loss": 0.6136,
      "step": 670
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.7021570205688477,
      "learning_rate": 1.1322011322011323e-05,
      "loss": 0.5898,
      "step": 680
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.611968755722046,
      "learning_rate": 1.1488511488511489e-05,
      "loss": 0.6309,
      "step": 690
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.93473482131958,
      "learning_rate": 1.1655011655011655e-05,
      "loss": 0.5728,
      "step": 700
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.007603645324707,
      "learning_rate": 1.1821511821511821e-05,
      "loss": 0.7093,
      "step": 710
    },
    {
      "epoch": 0.07,
      "grad_norm": 2.820805072784424,
      "learning_rate": 1.1988011988011989e-05,
      "loss": 0.6266,
      "step": 720
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.550325393676758,
      "learning_rate": 1.2154512154512155e-05,
      "loss": 0.6259,
      "step": 730
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.779064416885376,
      "learning_rate": 1.2321012321012321e-05,
      "loss": 0.6034,
      "step": 740
    },
    {
      "epoch": 0.07,
      "grad_norm": 3.8791258335113525,
      "learning_rate": 1.248751248751249e-05,
      "loss": 0.6473,
      "step": 750
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.6681346893310547,
      "learning_rate": 1.2654012654012654e-05,
      "loss": 0.6411,
      "step": 760
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.8080577850341797,
      "learning_rate": 1.282051282051282e-05,
      "loss": 0.5737,
      "step": 770
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.6958494186401367,
      "learning_rate": 1.2987012987012986e-05,
      "loss": 0.616,
      "step": 780
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.0849642753601074,
      "learning_rate": 1.3153513153513152e-05,
      "loss": 0.63,
      "step": 790
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.5817477703094482,
      "learning_rate": 1.3320013320013322e-05,
      "loss": 0.5961,
      "step": 800
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.210632801055908,
      "learning_rate": 1.3486513486513488e-05,
      "loss": 0.6512,
      "step": 810
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.832017660140991,
      "learning_rate": 1.3653013653013656e-05,
      "loss": 0.6371,
      "step": 820
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.8050060272216797,
      "learning_rate": 1.3819513819513822e-05,
      "loss": 0.6296,
      "step": 830
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.799236297607422,
      "learning_rate": 1.3986013986013988e-05,
      "loss": 0.7331,
      "step": 840
    },
    {
      "epoch": 0.08,
      "grad_norm": 3.32173228263855,
      "learning_rate": 1.4152514152514154e-05,
      "loss": 0.677,
      "step": 850
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.045391082763672,
      "learning_rate": 1.431901431901432e-05,
      "loss": 0.5561,
      "step": 860
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.6511189937591553,
      "learning_rate": 1.4485514485514487e-05,
      "loss": 0.6512,
      "step": 870
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.34279203414917,
      "learning_rate": 1.4652014652014653e-05,
      "loss": 0.6416,
      "step": 880
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.426117181777954,
      "learning_rate": 1.481851481851482e-05,
      "loss": 0.6969,
      "step": 890
    },
    {
      "epoch": 0.09,
      "grad_norm": 4.197295665740967,
      "learning_rate": 1.4985014985014987e-05,
      "loss": 0.6136,
      "step": 900
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.0342905521392822,
      "learning_rate": 1.5151515151515153e-05,
      "loss": 0.6388,
      "step": 910
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.89811372756958,
      "learning_rate": 1.531801531801532e-05,
      "loss": 0.6349,
      "step": 920
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.301680326461792,
      "learning_rate": 1.5484515484515485e-05,
      "loss": 0.6151,
      "step": 930
    },
    {
      "epoch": 0.09,
      "grad_norm": 6.3720855712890625,
      "learning_rate": 1.5651015651015653e-05,
      "loss": 0.5988,
      "step": 940
    },
    {
      "epoch": 0.09,
      "grad_norm": 3.698079824447632,
      "learning_rate": 1.5817515817515818e-05,
      "loss": 0.661,
      "step": 950
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.5234649181365967,
      "learning_rate": 1.5984015984015985e-05,
      "loss": 0.5988,
      "step": 960
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.299887180328369,
      "learning_rate": 1.615051615051615e-05,
      "loss": 0.6168,
      "step": 970
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.086143970489502,
      "learning_rate": 1.6317016317016318e-05,
      "loss": 0.673,
      "step": 980
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.241053342819214,
      "learning_rate": 1.6483516483516486e-05,
      "loss": 0.5701,
      "step": 990
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.8212482929229736,
      "learning_rate": 1.665001665001665e-05,
      "loss": 0.5832,
      "step": 1000
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.9919960498809814,
      "learning_rate": 1.6816516816516818e-05,
      "loss": 0.6191,
      "step": 1010
    },
    {
      "epoch": 0.1,
      "grad_norm": 4.5017499923706055,
      "learning_rate": 1.6983016983016982e-05,
      "loss": 0.6425,
      "step": 1020
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.4761552810668945,
      "learning_rate": 1.714951714951715e-05,
      "loss": 0.6093,
      "step": 1030
    },
    {
      "epoch": 0.1,
      "grad_norm": 2.8189988136291504,
      "learning_rate": 1.7316017316017315e-05,
      "loss": 0.6464,
      "step": 1040
    },
    {
      "epoch": 0.1,
      "grad_norm": 3.3645195960998535,
      "learning_rate": 1.7482517482517483e-05,
      "loss": 0.6478,
      "step": 1050
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.9217216968536377,
      "learning_rate": 1.764901764901765e-05,
      "loss": 0.5968,
      "step": 1060
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.433065414428711,
      "learning_rate": 1.7815517815517815e-05,
      "loss": 0.6744,
      "step": 1070
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.672701835632324,
      "learning_rate": 1.7982017982017983e-05,
      "loss": 0.7145,
      "step": 1080
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.073391914367676,
      "learning_rate": 1.8148518148518147e-05,
      "loss": 0.619,
      "step": 1090
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.224742412567139,
      "learning_rate": 1.8315018315018315e-05,
      "loss": 0.6114,
      "step": 1100
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.451174736022949,
      "learning_rate": 1.848151848151848e-05,
      "loss": 0.6246,
      "step": 1110
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.5323846340179443,
      "learning_rate": 1.864801864801865e-05,
      "loss": 0.6619,
      "step": 1120
    },
    {
      "epoch": 0.11,
      "grad_norm": 4.070211887359619,
      "learning_rate": 1.8814518814518815e-05,
      "loss": 0.6744,
      "step": 1130
    },
    {
      "epoch": 0.11,
      "grad_norm": 3.4572842121124268,
      "learning_rate": 1.8981018981018983e-05,
      "loss": 0.5542,
      "step": 1140
    },
    {
      "epoch": 0.11,
      "grad_norm": 2.585160255432129,
      "learning_rate": 1.914751914751915e-05,
      "loss": 0.6527,
      "step": 1150
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.862469434738159,
      "learning_rate": 1.9314019314019315e-05,
      "loss": 0.5866,
      "step": 1160
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.0568771362304688,
      "learning_rate": 1.9480519480519483e-05,
      "loss": 0.673,
      "step": 1170
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.47163724899292,
      "learning_rate": 1.9647019647019648e-05,
      "loss": 0.6058,
      "step": 1180
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.995535135269165,
      "learning_rate": 1.9813519813519816e-05,
      "loss": 0.6389,
      "step": 1190
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.6869277954101562,
      "learning_rate": 1.998001998001998e-05,
      "loss": 0.7257,
      "step": 1200
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.953423500061035,
      "learning_rate": 2.0146520146520148e-05,
      "loss": 0.6641,
      "step": 1210
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.167754888534546,
      "learning_rate": 2.0313020313020316e-05,
      "loss": 0.6345,
      "step": 1220
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.2004787921905518,
      "learning_rate": 2.047952047952048e-05,
      "loss": 0.6203,
      "step": 1230
    },
    {
      "epoch": 0.12,
      "grad_norm": 3.4565041065216064,
      "learning_rate": 2.0646020646020648e-05,
      "loss": 0.6317,
      "step": 1240
    },
    {
      "epoch": 0.12,
      "grad_norm": 2.550762891769409,
      "learning_rate": 2.0812520812520813e-05,
      "loss": 0.7145,
      "step": 1250
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.040627956390381,
      "learning_rate": 2.097902097902098e-05,
      "loss": 0.7227,
      "step": 1260
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.968839645385742,
      "learning_rate": 2.1145521145521148e-05,
      "loss": 0.6216,
      "step": 1270
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.207261562347412,
      "learning_rate": 2.1312021312021313e-05,
      "loss": 0.5915,
      "step": 1280
    },
    {
      "epoch": 0.13,
      "grad_norm": 2.974346876144409,
      "learning_rate": 2.147852147852148e-05,
      "loss": 0.5907,
      "step": 1290
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.700695753097534,
      "learning_rate": 2.1645021645021645e-05,
      "loss": 0.6362,
      "step": 1300
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.24476957321167,
      "learning_rate": 2.1811521811521813e-05,
      "loss": 0.6223,
      "step": 1310
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.9188432693481445,
      "learning_rate": 2.1978021978021977e-05,
      "loss": 0.6304,
      "step": 1320
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.430567741394043,
      "learning_rate": 2.2144522144522145e-05,
      "loss": 0.6165,
      "step": 1330
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.1413612365722656,
      "learning_rate": 2.2311022311022313e-05,
      "loss": 0.6274,
      "step": 1340
    },
    {
      "epoch": 0.13,
      "grad_norm": 3.7195515632629395,
      "learning_rate": 2.2477522477522478e-05,
      "loss": 0.7045,
      "step": 1350
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.751626968383789,
      "learning_rate": 2.2644022644022645e-05,
      "loss": 0.6951,
      "step": 1360
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.785062789916992,
      "learning_rate": 2.281052281052281e-05,
      "loss": 0.6375,
      "step": 1370
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.333721876144409,
      "learning_rate": 2.2977022977022978e-05,
      "loss": 0.6521,
      "step": 1380
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.5998647212982178,
      "learning_rate": 2.3143523143523142e-05,
      "loss": 0.6363,
      "step": 1390
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.289191246032715,
      "learning_rate": 2.331002331002331e-05,
      "loss": 0.5736,
      "step": 1400
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.3231725692749023,
      "learning_rate": 2.3476523476523478e-05,
      "loss": 0.6373,
      "step": 1410
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.5303213596343994,
      "learning_rate": 2.3643023643023642e-05,
      "loss": 0.6599,
      "step": 1420
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.067136526107788,
      "learning_rate": 2.380952380952381e-05,
      "loss": 0.6361,
      "step": 1430
    },
    {
      "epoch": 0.14,
      "grad_norm": 5.459754943847656,
      "learning_rate": 2.3976023976023978e-05,
      "loss": 0.7127,
      "step": 1440
    },
    {
      "epoch": 0.14,
      "grad_norm": 3.1710708141326904,
      "learning_rate": 2.4142524142524146e-05,
      "loss": 0.6537,
      "step": 1450
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.0916967391967773,
      "learning_rate": 2.430902430902431e-05,
      "loss": 0.6631,
      "step": 1460
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.8450398445129395,
      "learning_rate": 2.4475524475524478e-05,
      "loss": 0.6961,
      "step": 1470
    },
    {
      "epoch": 0.15,
      "grad_norm": 7.607813358306885,
      "learning_rate": 2.4642024642024643e-05,
      "loss": 0.7021,
      "step": 1480
    },
    {
      "epoch": 0.15,
      "grad_norm": 4.3831892013549805,
      "learning_rate": 2.480852480852481e-05,
      "loss": 0.6838,
      "step": 1490
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.611351251602173,
      "learning_rate": 2.497502497502498e-05,
      "loss": 0.6356,
      "step": 1500
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.941192388534546,
      "learning_rate": 2.514152514152514e-05,
      "loss": 0.5953,
      "step": 1510
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.700096368789673,
      "learning_rate": 2.5308025308025307e-05,
      "loss": 0.6765,
      "step": 1520
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.3786630630493164,
      "learning_rate": 2.5474525474525475e-05,
      "loss": 0.6126,
      "step": 1530
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.542215585708618,
      "learning_rate": 2.564102564102564e-05,
      "loss": 0.6203,
      "step": 1540
    },
    {
      "epoch": 0.15,
      "grad_norm": 3.35492205619812,
      "learning_rate": 2.5807525807525808e-05,
      "loss": 0.6733,
      "step": 1550
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.045470714569092,
      "learning_rate": 2.5974025974025972e-05,
      "loss": 0.6415,
      "step": 1560
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.654778242111206,
      "learning_rate": 2.614052614052614e-05,
      "loss": 0.595,
      "step": 1570
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.3865551948547363,
      "learning_rate": 2.6307026307026304e-05,
      "loss": 0.7034,
      "step": 1580
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.162357807159424,
      "learning_rate": 2.6473526473526472e-05,
      "loss": 0.6514,
      "step": 1590
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.2497456073760986,
      "learning_rate": 2.6640026640026643e-05,
      "loss": 0.7133,
      "step": 1600
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.959510564804077,
      "learning_rate": 2.680652680652681e-05,
      "loss": 0.6591,
      "step": 1610
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.1745548248291016,
      "learning_rate": 2.6973026973026976e-05,
      "loss": 0.6164,
      "step": 1620
    },
    {
      "epoch": 0.16,
      "grad_norm": 4.332220077514648,
      "learning_rate": 2.7139527139527144e-05,
      "loss": 0.6749,
      "step": 1630
    },
    {
      "epoch": 0.16,
      "grad_norm": 2.552464485168457,
      "learning_rate": 2.730602730602731e-05,
      "loss": 0.5962,
      "step": 1640
    },
    {
      "epoch": 0.16,
      "grad_norm": 3.578460216522217,
      "learning_rate": 2.7472527472527476e-05,
      "loss": 0.6475,
      "step": 1650
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.805715799331665,
      "learning_rate": 2.7639027639027644e-05,
      "loss": 0.6258,
      "step": 1660
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.9281070232391357,
      "learning_rate": 2.7805527805527808e-05,
      "loss": 0.6419,
      "step": 1670
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.7207179069519043,
      "learning_rate": 2.7972027972027976e-05,
      "loss": 0.6354,
      "step": 1680
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.329742431640625,
      "learning_rate": 2.813852813852814e-05,
      "loss": 0.6691,
      "step": 1690
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.392087936401367,
      "learning_rate": 2.830502830502831e-05,
      "loss": 0.6762,
      "step": 1700
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.7016987800598145,
      "learning_rate": 2.8471528471528476e-05,
      "loss": 0.6535,
      "step": 1710
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.018450975418091,
      "learning_rate": 2.863802863802864e-05,
      "loss": 0.6964,
      "step": 1720
    },
    {
      "epoch": 0.17,
      "grad_norm": 4.4692254066467285,
      "learning_rate": 2.880452880452881e-05,
      "loss": 0.7253,
      "step": 1730
    },
    {
      "epoch": 0.17,
      "grad_norm": 2.9922616481781006,
      "learning_rate": 2.8971028971028973e-05,
      "loss": 0.6297,
      "step": 1740
    },
    {
      "epoch": 0.17,
      "grad_norm": 3.266223430633545,
      "learning_rate": 2.913752913752914e-05,
      "loss": 0.6422,
      "step": 1750
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.138639450073242,
      "learning_rate": 2.9304029304029305e-05,
      "loss": 0.6508,
      "step": 1760
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.110523223876953,
      "learning_rate": 2.9470529470529473e-05,
      "loss": 0.6626,
      "step": 1770
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.019514560699463,
      "learning_rate": 2.963702963702964e-05,
      "loss": 0.7009,
      "step": 1780
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.1442365646362305,
      "learning_rate": 2.9803529803529806e-05,
      "loss": 0.6107,
      "step": 1790
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.780212879180908,
      "learning_rate": 2.9970029970029973e-05,
      "loss": 0.6838,
      "step": 1800
    },
    {
      "epoch": 0.18,
      "grad_norm": 4.0584821701049805,
      "learning_rate": 3.0136530136530138e-05,
      "loss": 0.6244,
      "step": 1810
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.335064649581909,
      "learning_rate": 3.0303030303030306e-05,
      "loss": 0.6025,
      "step": 1820
    },
    {
      "epoch": 0.18,
      "grad_norm": 3.4462058544158936,
      "learning_rate": 3.046953046953047e-05,
      "loss": 0.674,
      "step": 1830
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.7492432594299316,
      "learning_rate": 3.063603063603064e-05,
      "loss": 0.7213,
      "step": 1840
    },
    {
      "epoch": 0.18,
      "grad_norm": 2.401935577392578,
      "learning_rate": 3.08025308025308e-05,
      "loss": 0.6673,
      "step": 1850
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.814907073974609,
      "learning_rate": 3.096903096903097e-05,
      "loss": 0.7082,
      "step": 1860
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.054569721221924,
      "learning_rate": 3.113553113553114e-05,
      "loss": 0.6982,
      "step": 1870
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.3828787803649902,
      "learning_rate": 3.1302031302031306e-05,
      "loss": 0.6421,
      "step": 1880
    },
    {
      "epoch": 0.19,
      "grad_norm": 4.35954475402832,
      "learning_rate": 3.146853146853147e-05,
      "loss": 0.7249,
      "step": 1890
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.830960512161255,
      "learning_rate": 3.1635031635031635e-05,
      "loss": 0.6561,
      "step": 1900
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.847562074661255,
      "learning_rate": 3.18015318015318e-05,
      "loss": 0.6287,
      "step": 1910
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.9341158866882324,
      "learning_rate": 3.196803196803197e-05,
      "loss": 0.6301,
      "step": 1920
    },
    {
      "epoch": 0.19,
      "grad_norm": 3.032898426055908,
      "learning_rate": 3.213453213453214e-05,
      "loss": 0.6097,
      "step": 1930
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.82609224319458,
      "learning_rate": 3.23010323010323e-05,
      "loss": 0.6798,
      "step": 1940
    },
    {
      "epoch": 0.19,
      "grad_norm": 2.6661720275878906,
      "learning_rate": 3.246753246753247e-05,
      "loss": 0.5971,
      "step": 1950
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.7539432048797607,
      "learning_rate": 3.2634032634032635e-05,
      "loss": 0.6275,
      "step": 1960
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.220037460327148,
      "learning_rate": 3.28005328005328e-05,
      "loss": 0.6802,
      "step": 1970
    },
    {
      "epoch": 0.2,
      "grad_norm": 4.646699905395508,
      "learning_rate": 3.296703296703297e-05,
      "loss": 0.6227,
      "step": 1980
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.2269105911254883,
      "learning_rate": 3.313353313353313e-05,
      "loss": 0.6926,
      "step": 1990
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.011136054992676,
      "learning_rate": 3.33000333000333e-05,
      "loss": 0.596,
      "step": 2000
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.2184975147247314,
      "learning_rate": 3.346653346653347e-05,
      "loss": 0.6576,
      "step": 2010
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.4780256748199463,
      "learning_rate": 3.3633033633033636e-05,
      "loss": 0.6767,
      "step": 2020
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.2396726608276367,
      "learning_rate": 3.37995337995338e-05,
      "loss": 0.6888,
      "step": 2030
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.776508092880249,
      "learning_rate": 3.3966033966033965e-05,
      "loss": 0.6414,
      "step": 2040
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.2651543617248535,
      "learning_rate": 3.413253413253413e-05,
      "loss": 0.6892,
      "step": 2050
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.05000376701355,
      "learning_rate": 3.42990342990343e-05,
      "loss": 0.6691,
      "step": 2060
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.359323263168335,
      "learning_rate": 3.446553446553447e-05,
      "loss": 0.7593,
      "step": 2070
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.5331568717956543,
      "learning_rate": 3.463203463203463e-05,
      "loss": 0.6799,
      "step": 2080
    },
    {
      "epoch": 0.21,
      "grad_norm": 4.362392902374268,
      "learning_rate": 3.47985347985348e-05,
      "loss": 0.683,
      "step": 2090
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.4829938411712646,
      "learning_rate": 3.4965034965034965e-05,
      "loss": 0.6436,
      "step": 2100
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.211120843887329,
      "learning_rate": 3.513153513153513e-05,
      "loss": 0.5781,
      "step": 2110
    },
    {
      "epoch": 0.21,
      "grad_norm": 2.366032600402832,
      "learning_rate": 3.52980352980353e-05,
      "loss": 0.7066,
      "step": 2120
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.347127914428711,
      "learning_rate": 3.546453546453546e-05,
      "loss": 0.6347,
      "step": 2130
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.2104318141937256,
      "learning_rate": 3.563103563103563e-05,
      "loss": 0.5974,
      "step": 2140
    },
    {
      "epoch": 0.21,
      "grad_norm": 3.2869739532470703,
      "learning_rate": 3.57975357975358e-05,
      "loss": 0.6259,
      "step": 2150
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.589951753616333,
      "learning_rate": 3.5964035964035965e-05,
      "loss": 0.7143,
      "step": 2160
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.98591685295105,
      "learning_rate": 3.613053613053613e-05,
      "loss": 0.6392,
      "step": 2170
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.4246814250946045,
      "learning_rate": 3.6297036297036294e-05,
      "loss": 0.7363,
      "step": 2180
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.9035470485687256,
      "learning_rate": 3.646353646353646e-05,
      "loss": 0.6941,
      "step": 2190
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.573880434036255,
      "learning_rate": 3.663003663003663e-05,
      "loss": 0.6679,
      "step": 2200
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.4419684410095215,
      "learning_rate": 3.67965367965368e-05,
      "loss": 0.6591,
      "step": 2210
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.5740432739257812,
      "learning_rate": 3.696303696303696e-05,
      "loss": 0.649,
      "step": 2220
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.3701674938201904,
      "learning_rate": 3.712953712953713e-05,
      "loss": 0.6529,
      "step": 2230
    },
    {
      "epoch": 0.22,
      "grad_norm": 3.196596145629883,
      "learning_rate": 3.72960372960373e-05,
      "loss": 0.6365,
      "step": 2240
    },
    {
      "epoch": 0.22,
      "grad_norm": 2.728541851043701,
      "learning_rate": 3.746253746253747e-05,
      "loss": 0.6374,
      "step": 2250
    },
    {
      "epoch": 0.23,
      "grad_norm": 4.00582218170166,
      "learning_rate": 3.762903762903763e-05,
      "loss": 0.6848,
      "step": 2260
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.1797847747802734,
      "learning_rate": 3.77955377955378e-05,
      "loss": 0.6489,
      "step": 2270
    },
    {
      "epoch": 0.23,
      "grad_norm": 5.0644965171813965,
      "learning_rate": 3.7962037962037966e-05,
      "loss": 0.6559,
      "step": 2280
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.1695683002471924,
      "learning_rate": 3.8128538128538134e-05,
      "loss": 0.7034,
      "step": 2290
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.6316077709198,
      "learning_rate": 3.82950382950383e-05,
      "loss": 0.6285,
      "step": 2300
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.874967098236084,
      "learning_rate": 3.846153846153846e-05,
      "loss": 0.6505,
      "step": 2310
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.304536819458008,
      "learning_rate": 3.862803862803863e-05,
      "loss": 0.6922,
      "step": 2320
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.284654378890991,
      "learning_rate": 3.87945387945388e-05,
      "loss": 0.5511,
      "step": 2330
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.6909499168395996,
      "learning_rate": 3.8961038961038966e-05,
      "loss": 0.6991,
      "step": 2340
    },
    {
      "epoch": 0.23,
      "grad_norm": 3.1265745162963867,
      "learning_rate": 3.9127539127539134e-05,
      "loss": 0.651,
      "step": 2350
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.222930669784546,
      "learning_rate": 3.9294039294039295e-05,
      "loss": 0.6485,
      "step": 2360
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.59405517578125,
      "learning_rate": 3.946053946053946e-05,
      "loss": 0.711,
      "step": 2370
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.1941816806793213,
      "learning_rate": 3.962703962703963e-05,
      "loss": 0.7184,
      "step": 2380
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.494382858276367,
      "learning_rate": 3.97935397935398e-05,
      "loss": 0.6892,
      "step": 2390
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.012460708618164,
      "learning_rate": 3.996003996003996e-05,
      "loss": 0.724,
      "step": 2400
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.0071542263031006,
      "learning_rate": 4.012654012654013e-05,
      "loss": 0.6477,
      "step": 2410
    },
    {
      "epoch": 0.24,
      "grad_norm": 4.752322196960449,
      "learning_rate": 4.0293040293040296e-05,
      "loss": 0.6353,
      "step": 2420
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.6090269088745117,
      "learning_rate": 4.0459540459540464e-05,
      "loss": 0.714,
      "step": 2430
    },
    {
      "epoch": 0.24,
      "grad_norm": 3.938098907470703,
      "learning_rate": 4.062604062604063e-05,
      "loss": 0.6247,
      "step": 2440
    },
    {
      "epoch": 0.24,
      "grad_norm": 2.9197661876678467,
      "learning_rate": 4.079254079254079e-05,
      "loss": 0.5771,
      "step": 2450
    },
    {
      "epoch": 0.25,
      "grad_norm": 5.048435688018799,
      "learning_rate": 4.095904095904096e-05,
      "loss": 0.644,
      "step": 2460
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.0006542205810547,
      "learning_rate": 4.112554112554113e-05,
      "loss": 0.6548,
      "step": 2470
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.7411301136016846,
      "learning_rate": 4.1292041292041296e-05,
      "loss": 0.7101,
      "step": 2480
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.175611972808838,
      "learning_rate": 4.1458541458541464e-05,
      "loss": 0.6581,
      "step": 2490
    },
    {
      "epoch": 0.25,
      "grad_norm": 2.8713555335998535,
      "learning_rate": 4.1625041625041625e-05,
      "loss": 0.6362,
      "step": 2500
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.231764316558838,
      "learning_rate": 4.179154179154179e-05,
      "loss": 0.6506,
      "step": 2510
    },
    {
      "epoch": 0.25,
      "grad_norm": 4.106600761413574,
      "learning_rate": 4.195804195804196e-05,
      "loss": 0.6588,
      "step": 2520
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.5757391452789307,
      "learning_rate": 4.212454212454213e-05,
      "loss": 0.7156,
      "step": 2530
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.106599807739258,
      "learning_rate": 4.2291042291042296e-05,
      "loss": 0.7472,
      "step": 2540
    },
    {
      "epoch": 0.25,
      "grad_norm": 3.6396870613098145,
      "learning_rate": 4.245754245754246e-05,
      "loss": 0.7223,
      "step": 2550
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.5374386310577393,
      "learning_rate": 4.2624042624042625e-05,
      "loss": 0.7077,
      "step": 2560
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.072171449661255,
      "learning_rate": 4.279054279054279e-05,
      "loss": 0.7106,
      "step": 2570
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.4686245918273926,
      "learning_rate": 4.295704295704296e-05,
      "loss": 0.6951,
      "step": 2580
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.7888894081115723,
      "learning_rate": 4.312354312354312e-05,
      "loss": 0.6931,
      "step": 2590
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.6959950923919678,
      "learning_rate": 4.329004329004329e-05,
      "loss": 0.735,
      "step": 2600
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.269169569015503,
      "learning_rate": 4.345654345654346e-05,
      "loss": 0.7162,
      "step": 2610
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.9557881355285645,
      "learning_rate": 4.3623043623043626e-05,
      "loss": 0.7071,
      "step": 2620
    },
    {
      "epoch": 0.26,
      "grad_norm": 4.567783355712891,
      "learning_rate": 4.3789543789543794e-05,
      "loss": 0.7102,
      "step": 2630
    },
    {
      "epoch": 0.26,
      "grad_norm": 3.0015954971313477,
      "learning_rate": 4.3956043956043955e-05,
      "loss": 0.6926,
      "step": 2640
    },
    {
      "epoch": 0.26,
      "grad_norm": 2.662362575531006,
      "learning_rate": 4.412254412254412e-05,
      "loss": 0.6845,
      "step": 2650
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.0730533599853516,
      "learning_rate": 4.428904428904429e-05,
      "loss": 0.6637,
      "step": 2660
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.097629070281982,
      "learning_rate": 4.445554445554446e-05,
      "loss": 0.6609,
      "step": 2670
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.025362491607666,
      "learning_rate": 4.4622044622044626e-05,
      "loss": 0.7523,
      "step": 2680
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.29850172996521,
      "learning_rate": 4.478854478854479e-05,
      "loss": 0.689,
      "step": 2690
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.637359380722046,
      "learning_rate": 4.4955044955044955e-05,
      "loss": 0.6614,
      "step": 2700
    },
    {
      "epoch": 0.27,
      "grad_norm": 4.763982772827148,
      "learning_rate": 4.512154512154512e-05,
      "loss": 0.658,
      "step": 2710
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.5565683841705322,
      "learning_rate": 4.528804528804529e-05,
      "loss": 0.6514,
      "step": 2720
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.509711503982544,
      "learning_rate": 4.545454545454546e-05,
      "loss": 0.6969,
      "step": 2730
    },
    {
      "epoch": 0.27,
      "grad_norm": 2.928274631500244,
      "learning_rate": 4.562104562104562e-05,
      "loss": 0.7249,
      "step": 2740
    },
    {
      "epoch": 0.27,
      "grad_norm": 3.250553607940674,
      "learning_rate": 4.578754578754579e-05,
      "loss": 0.709,
      "step": 2750
    },
    {
      "epoch": 0.28,
      "grad_norm": 4.049304962158203,
      "learning_rate": 4.5954045954045955e-05,
      "loss": 0.6754,
      "step": 2760
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.8650705814361572,
      "learning_rate": 4.612054612054612e-05,
      "loss": 0.6426,
      "step": 2770
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.564432144165039,
      "learning_rate": 4.6287046287046284e-05,
      "loss": 0.6688,
      "step": 2780
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.266627073287964,
      "learning_rate": 4.645354645354645e-05,
      "loss": 0.6864,
      "step": 2790
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.7144393920898438,
      "learning_rate": 4.662004662004662e-05,
      "loss": 0.6962,
      "step": 2800
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.09128737449646,
      "learning_rate": 4.678654678654679e-05,
      "loss": 0.7042,
      "step": 2810
    },
    {
      "epoch": 0.28,
      "grad_norm": 2.848628044128418,
      "learning_rate": 4.6953046953046956e-05,
      "loss": 0.6409,
      "step": 2820
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.790220260620117,
      "learning_rate": 4.711954711954712e-05,
      "loss": 0.6415,
      "step": 2830
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.610269784927368,
      "learning_rate": 4.7286047286047285e-05,
      "loss": 0.7319,
      "step": 2840
    },
    {
      "epoch": 0.28,
      "grad_norm": 3.384129762649536,
      "learning_rate": 4.745254745254745e-05,
      "loss": 0.7099,
      "step": 2850
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.2773547172546387,
      "learning_rate": 4.761904761904762e-05,
      "loss": 0.6551,
      "step": 2860
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.0820701122283936,
      "learning_rate": 4.778554778554779e-05,
      "loss": 0.6476,
      "step": 2870
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.9618988037109375,
      "learning_rate": 4.7952047952047956e-05,
      "loss": 0.6305,
      "step": 2880
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.9479079246520996,
      "learning_rate": 4.8118548118548124e-05,
      "loss": 0.7312,
      "step": 2890
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.5750815868377686,
      "learning_rate": 4.828504828504829e-05,
      "loss": 0.6782,
      "step": 2900
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.3944244384765625,
      "learning_rate": 4.845154845154846e-05,
      "loss": 0.6961,
      "step": 2910
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.16254997253418,
      "learning_rate": 4.861804861804862e-05,
      "loss": 0.7181,
      "step": 2920
    },
    {
      "epoch": 0.29,
      "grad_norm": 4.3824896812438965,
      "learning_rate": 4.878454878454879e-05,
      "loss": 0.741,
      "step": 2930
    },
    {
      "epoch": 0.29,
      "grad_norm": 3.244351863861084,
      "learning_rate": 4.8951048951048956e-05,
      "loss": 0.7478,
      "step": 2940
    },
    {
      "epoch": 0.29,
      "grad_norm": 2.886916399002075,
      "learning_rate": 4.9117549117549124e-05,
      "loss": 0.6752,
      "step": 2950
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.601970911026001,
      "learning_rate": 4.9284049284049285e-05,
      "loss": 0.649,
      "step": 2960
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.5168495178222656,
      "learning_rate": 4.945054945054945e-05,
      "loss": 0.6394,
      "step": 2970
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.4704172611236572,
      "learning_rate": 4.961704961704962e-05,
      "loss": 0.6708,
      "step": 2980
    },
    {
      "epoch": 0.3,
      "grad_norm": 7.601482391357422,
      "learning_rate": 4.978354978354979e-05,
      "loss": 0.6836,
      "step": 2990
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.495169162750244,
      "learning_rate": 4.995004995004996e-05,
      "loss": 0.6617,
      "step": 3000
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.917120933532715,
      "learning_rate": 4.9987048549437536e-05,
      "loss": 0.6576,
      "step": 3010
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.18586802482605,
      "learning_rate": 4.996854647720545e-05,
      "loss": 0.6515,
      "step": 3020
    },
    {
      "epoch": 0.3,
      "grad_norm": 4.816073417663574,
      "learning_rate": 4.995004440497336e-05,
      "loss": 0.6889,
      "step": 3030
    },
    {
      "epoch": 0.3,
      "grad_norm": 3.645301580429077,
      "learning_rate": 4.993154233274127e-05,
      "loss": 0.6472,
      "step": 3040
    },
    {
      "epoch": 0.3,
      "grad_norm": 2.479456663131714,
      "learning_rate": 4.991304026050918e-05,
      "loss": 0.6546,
      "step": 3050
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.1566131114959717,
      "learning_rate": 4.989453818827709e-05,
      "loss": 0.68,
      "step": 3060
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.232149600982666,
      "learning_rate": 4.9876036116045e-05,
      "loss": 0.6907,
      "step": 3070
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.9885268211364746,
      "learning_rate": 4.985753404381291e-05,
      "loss": 0.7299,
      "step": 3080
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.3521902561187744,
      "learning_rate": 4.983903197158082e-05,
      "loss": 0.7052,
      "step": 3090
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.668668270111084,
      "learning_rate": 4.9820529899348725e-05,
      "loss": 0.775,
      "step": 3100
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.5962018966674805,
      "learning_rate": 4.980202782711664e-05,
      "loss": 0.6475,
      "step": 3110
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.839630365371704,
      "learning_rate": 4.978352575488455e-05,
      "loss": 0.7245,
      "step": 3120
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.8176333904266357,
      "learning_rate": 4.976502368265246e-05,
      "loss": 0.661,
      "step": 3130
    },
    {
      "epoch": 0.31,
      "grad_norm": 2.886023998260498,
      "learning_rate": 4.974652161042037e-05,
      "loss": 0.6815,
      "step": 3140
    },
    {
      "epoch": 0.31,
      "grad_norm": 3.4412879943847656,
      "learning_rate": 4.972801953818828e-05,
      "loss": 0.6895,
      "step": 3150
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.1835789680480957,
      "learning_rate": 4.970951746595619e-05,
      "loss": 0.704,
      "step": 3160
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.291534185409546,
      "learning_rate": 4.96910153937241e-05,
      "loss": 0.6676,
      "step": 3170
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.19836688041687,
      "learning_rate": 4.967251332149201e-05,
      "loss": 0.6599,
      "step": 3180
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.9169349670410156,
      "learning_rate": 4.9654011249259915e-05,
      "loss": 0.6952,
      "step": 3190
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.065004825592041,
      "learning_rate": 4.963550917702783e-05,
      "loss": 0.67,
      "step": 3200
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.3194329738616943,
      "learning_rate": 4.961700710479574e-05,
      "loss": 0.744,
      "step": 3210
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.0933687686920166,
      "learning_rate": 4.959850503256365e-05,
      "loss": 0.7001,
      "step": 3220
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.237429141998291,
      "learning_rate": 4.958000296033156e-05,
      "loss": 0.6463,
      "step": 3230
    },
    {
      "epoch": 0.32,
      "grad_norm": 3.177100419998169,
      "learning_rate": 4.956150088809947e-05,
      "loss": 0.6795,
      "step": 3240
    },
    {
      "epoch": 0.32,
      "grad_norm": 2.3401427268981934,
      "learning_rate": 4.9542998815867384e-05,
      "loss": 0.6482,
      "step": 3250
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.536630153656006,
      "learning_rate": 4.952449674363529e-05,
      "loss": 0.6704,
      "step": 3260
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.5215039253234863,
      "learning_rate": 4.95059946714032e-05,
      "loss": 0.6696,
      "step": 3270
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.260028839111328,
      "learning_rate": 4.948749259917111e-05,
      "loss": 0.7197,
      "step": 3280
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.2853939533233643,
      "learning_rate": 4.9468990526939016e-05,
      "loss": 0.6989,
      "step": 3290
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.6121411323547363,
      "learning_rate": 4.945048845470693e-05,
      "loss": 0.6647,
      "step": 3300
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.1926543712615967,
      "learning_rate": 4.943198638247484e-05,
      "loss": 0.6561,
      "step": 3310
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.1858632564544678,
      "learning_rate": 4.9413484310242744e-05,
      "loss": 0.7861,
      "step": 3320
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.2109670639038086,
      "learning_rate": 4.939498223801066e-05,
      "loss": 0.701,
      "step": 3330
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.783686637878418,
      "learning_rate": 4.9376480165778574e-05,
      "loss": 0.7777,
      "step": 3340
    },
    {
      "epoch": 0.33,
      "grad_norm": 3.410270929336548,
      "learning_rate": 4.935797809354648e-05,
      "loss": 0.6555,
      "step": 3350
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.885530710220337,
      "learning_rate": 4.933947602131439e-05,
      "loss": 0.7203,
      "step": 3360
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.7811217308044434,
      "learning_rate": 4.93209739490823e-05,
      "loss": 0.668,
      "step": 3370
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.9874584674835205,
      "learning_rate": 4.9302471876850206e-05,
      "loss": 0.6601,
      "step": 3380
    },
    {
      "epoch": 0.34,
      "grad_norm": 5.877241134643555,
      "learning_rate": 4.928396980461812e-05,
      "loss": 0.656,
      "step": 3390
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.242494821548462,
      "learning_rate": 4.926546773238603e-05,
      "loss": 0.7639,
      "step": 3400
    },
    {
      "epoch": 0.34,
      "grad_norm": 4.061120986938477,
      "learning_rate": 4.924696566015394e-05,
      "loss": 0.735,
      "step": 3410
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.9545159339904785,
      "learning_rate": 4.9228463587921845e-05,
      "loss": 0.6883,
      "step": 3420
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.049849510192871,
      "learning_rate": 4.9209961515689764e-05,
      "loss": 0.668,
      "step": 3430
    },
    {
      "epoch": 0.34,
      "grad_norm": 3.805722713470459,
      "learning_rate": 4.919145944345767e-05,
      "loss": 0.6251,
      "step": 3440
    },
    {
      "epoch": 0.34,
      "grad_norm": 2.8707118034362793,
      "learning_rate": 4.917295737122558e-05,
      "loss": 0.6259,
      "step": 3450
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.954826831817627,
      "learning_rate": 4.915445529899349e-05,
      "loss": 0.7868,
      "step": 3460
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.7207062244415283,
      "learning_rate": 4.91359532267614e-05,
      "loss": 0.6842,
      "step": 3470
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.386116981506348,
      "learning_rate": 4.911745115452931e-05,
      "loss": 0.7914,
      "step": 3480
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.4692001342773438,
      "learning_rate": 4.909894908229722e-05,
      "loss": 0.746,
      "step": 3490
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.150736093521118,
      "learning_rate": 4.908044701006513e-05,
      "loss": 0.6644,
      "step": 3500
    },
    {
      "epoch": 0.35,
      "grad_norm": 4.693958759307861,
      "learning_rate": 4.9061944937833035e-05,
      "loss": 0.6948,
      "step": 3510
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.445857524871826,
      "learning_rate": 4.9043442865600947e-05,
      "loss": 0.7154,
      "step": 3520
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.1995596885681152,
      "learning_rate": 4.9024940793368865e-05,
      "loss": 0.7604,
      "step": 3530
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.0893702507019043,
      "learning_rate": 4.900643872113677e-05,
      "loss": 0.7379,
      "step": 3540
    },
    {
      "epoch": 0.35,
      "grad_norm": 3.6002602577209473,
      "learning_rate": 4.898793664890468e-05,
      "loss": 0.7105,
      "step": 3550
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.7122859954833984,
      "learning_rate": 4.896943457667259e-05,
      "loss": 0.6578,
      "step": 3560
    },
    {
      "epoch": 0.36,
      "grad_norm": 2.694075584411621,
      "learning_rate": 4.89509325044405e-05,
      "loss": 0.6822,
      "step": 3570
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.4229962825775146,
      "learning_rate": 4.893243043220841e-05,
      "loss": 0.6516,
      "step": 3580
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.672518014907837,
      "learning_rate": 4.891392835997632e-05,
      "loss": 0.6896,
      "step": 3590
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.5169482231140137,
      "learning_rate": 4.8895426287744225e-05,
      "loss": 0.6889,
      "step": 3600
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.154953718185425,
      "learning_rate": 4.8876924215512136e-05,
      "loss": 0.6785,
      "step": 3610
    },
    {
      "epoch": 0.36,
      "grad_norm": 3.2900729179382324,
      "learning_rate": 4.885842214328005e-05,
      "loss": 0.7517,
      "step": 3620
    },
    {
      "epoch": 0.36,
      "grad_norm": 4.323124885559082,
      "learning_rate": 4.883992007104796e-05,
      "loss": 0.6966,
      "step": 3630
    },
    {
      "epoch": 0.36,
      "grad_norm": 5.399986743927002,
      "learning_rate": 4.882141799881587e-05,
      "loss": 0.69,
      "step": 3640
    },
    {
      "epoch": 0.36,
      "grad_norm": 5.075412273406982,
      "learning_rate": 4.880291592658378e-05,
      "loss": 0.7788,
      "step": 3650
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.2062761783599854,
      "learning_rate": 4.8784413854351694e-05,
      "loss": 0.7574,
      "step": 3660
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.317241668701172,
      "learning_rate": 4.87659117821196e-05,
      "loss": 0.658,
      "step": 3670
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.6651973724365234,
      "learning_rate": 4.874740970988751e-05,
      "loss": 0.7496,
      "step": 3680
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.5626258850097656,
      "learning_rate": 4.872890763765542e-05,
      "loss": 0.7816,
      "step": 3690
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.0095059871673584,
      "learning_rate": 4.8710405565423326e-05,
      "loss": 0.7491,
      "step": 3700
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.0716545581817627,
      "learning_rate": 4.869190349319124e-05,
      "loss": 0.72,
      "step": 3710
    },
    {
      "epoch": 0.37,
      "grad_norm": 2.905806303024292,
      "learning_rate": 4.867340142095915e-05,
      "loss": 0.6502,
      "step": 3720
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.9353294372558594,
      "learning_rate": 4.865489934872706e-05,
      "loss": 0.7077,
      "step": 3730
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.7626047134399414,
      "learning_rate": 4.863639727649497e-05,
      "loss": 0.7233,
      "step": 3740
    },
    {
      "epoch": 0.37,
      "grad_norm": 3.5270373821258545,
      "learning_rate": 4.8617895204262883e-05,
      "loss": 0.7243,
      "step": 3750
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.535348892211914,
      "learning_rate": 4.859939313203079e-05,
      "loss": 0.7701,
      "step": 3760
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.1107444763183594,
      "learning_rate": 4.85808910597987e-05,
      "loss": 0.7412,
      "step": 3770
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.0057485103607178,
      "learning_rate": 4.856238898756661e-05,
      "loss": 0.7172,
      "step": 3780
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.6687729358673096,
      "learning_rate": 4.8543886915334516e-05,
      "loss": 0.6417,
      "step": 3790
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.737105369567871,
      "learning_rate": 4.852538484310243e-05,
      "loss": 0.7302,
      "step": 3800
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.80928373336792,
      "learning_rate": 4.850688277087034e-05,
      "loss": 0.7065,
      "step": 3810
    },
    {
      "epoch": 0.38,
      "grad_norm": 4.683786392211914,
      "learning_rate": 4.848838069863825e-05,
      "loss": 0.7072,
      "step": 3820
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.5444495677948,
      "learning_rate": 4.846987862640616e-05,
      "loss": 0.7736,
      "step": 3830
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.5115811824798584,
      "learning_rate": 4.845137655417407e-05,
      "loss": 0.7627,
      "step": 3840
    },
    {
      "epoch": 0.38,
      "grad_norm": 3.4074809551239014,
      "learning_rate": 4.843287448194198e-05,
      "loss": 0.692,
      "step": 3850
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.832009792327881,
      "learning_rate": 4.841437240970989e-05,
      "loss": 0.7025,
      "step": 3860
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.658374547958374,
      "learning_rate": 4.83958703374778e-05,
      "loss": 0.7198,
      "step": 3870
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.4195690155029297,
      "learning_rate": 4.837736826524571e-05,
      "loss": 0.7065,
      "step": 3880
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.1046645641326904,
      "learning_rate": 4.835886619301362e-05,
      "loss": 0.6888,
      "step": 3890
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.8661742210388184,
      "learning_rate": 4.834036412078153e-05,
      "loss": 0.755,
      "step": 3900
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.115279197692871,
      "learning_rate": 4.832186204854944e-05,
      "loss": 0.6514,
      "step": 3910
    },
    {
      "epoch": 0.39,
      "grad_norm": 8.61153793334961,
      "learning_rate": 4.8303359976317345e-05,
      "loss": 0.7454,
      "step": 3920
    },
    {
      "epoch": 0.39,
      "grad_norm": 2.7483174800872803,
      "learning_rate": 4.828485790408526e-05,
      "loss": 0.7423,
      "step": 3930
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.693269729614258,
      "learning_rate": 4.8266355831853174e-05,
      "loss": 0.6962,
      "step": 3940
    },
    {
      "epoch": 0.39,
      "grad_norm": 3.1500983238220215,
      "learning_rate": 4.824785375962108e-05,
      "loss": 0.7291,
      "step": 3950
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.116868495941162,
      "learning_rate": 4.822935168738899e-05,
      "loss": 0.6667,
      "step": 3960
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.663654327392578,
      "learning_rate": 4.82108496151569e-05,
      "loss": 0.6313,
      "step": 3970
    },
    {
      "epoch": 0.4,
      "grad_norm": 4.001587867736816,
      "learning_rate": 4.819234754292481e-05,
      "loss": 0.686,
      "step": 3980
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.693596124649048,
      "learning_rate": 4.817384547069272e-05,
      "loss": 0.6414,
      "step": 3990
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.6303272247314453,
      "learning_rate": 4.815534339846063e-05,
      "loss": 0.6954,
      "step": 4000
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.3746917247772217,
      "learning_rate": 4.813684132622854e-05,
      "loss": 0.714,
      "step": 4010
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.1857755184173584,
      "learning_rate": 4.8118339253996446e-05,
      "loss": 0.722,
      "step": 4020
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.11415696144104,
      "learning_rate": 4.8099837181764364e-05,
      "loss": 0.6373,
      "step": 4030
    },
    {
      "epoch": 0.4,
      "grad_norm": 3.3149592876434326,
      "learning_rate": 4.808133510953227e-05,
      "loss": 0.6993,
      "step": 4040
    },
    {
      "epoch": 0.4,
      "grad_norm": 2.897944211959839,
      "learning_rate": 4.806283303730018e-05,
      "loss": 0.7559,
      "step": 4050
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.841883897781372,
      "learning_rate": 4.804433096506809e-05,
      "loss": 0.7015,
      "step": 4060
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.390214204788208,
      "learning_rate": 4.8025828892836e-05,
      "loss": 0.7028,
      "step": 4070
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.864741563796997,
      "learning_rate": 4.800732682060391e-05,
      "loss": 0.715,
      "step": 4080
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.641937494277954,
      "learning_rate": 4.798882474837182e-05,
      "loss": 0.7282,
      "step": 4090
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.2922136783599854,
      "learning_rate": 4.797032267613973e-05,
      "loss": 0.6585,
      "step": 4100
    },
    {
      "epoch": 0.41,
      "grad_norm": 4.140772819519043,
      "learning_rate": 4.7951820603907636e-05,
      "loss": 0.6839,
      "step": 4110
    },
    {
      "epoch": 0.41,
      "grad_norm": 2.926967144012451,
      "learning_rate": 4.793331853167555e-05,
      "loss": 0.7303,
      "step": 4120
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.0702428817749023,
      "learning_rate": 4.7914816459443465e-05,
      "loss": 0.6683,
      "step": 4130
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.0564613342285156,
      "learning_rate": 4.789631438721137e-05,
      "loss": 0.6944,
      "step": 4140
    },
    {
      "epoch": 0.41,
      "grad_norm": 3.486023426055908,
      "learning_rate": 4.787781231497928e-05,
      "loss": 0.7244,
      "step": 4150
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.0423271656036377,
      "learning_rate": 4.785931024274719e-05,
      "loss": 0.6815,
      "step": 4160
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.033371686935425,
      "learning_rate": 4.78408081705151e-05,
      "loss": 0.6375,
      "step": 4170
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.1808581352233887,
      "learning_rate": 4.782230609828301e-05,
      "loss": 0.7356,
      "step": 4180
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.790998935699463,
      "learning_rate": 4.780380402605092e-05,
      "loss": 0.757,
      "step": 4190
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.2511792182922363,
      "learning_rate": 4.7785301953818825e-05,
      "loss": 0.664,
      "step": 4200
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.6056017875671387,
      "learning_rate": 4.776679988158674e-05,
      "loss": 0.6819,
      "step": 4210
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.6150944232940674,
      "learning_rate": 4.774829780935465e-05,
      "loss": 0.7041,
      "step": 4220
    },
    {
      "epoch": 0.42,
      "grad_norm": 2.8771958351135254,
      "learning_rate": 4.772979573712256e-05,
      "loss": 0.708,
      "step": 4230
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.340028762817383,
      "learning_rate": 4.771129366489047e-05,
      "loss": 0.7337,
      "step": 4240
    },
    {
      "epoch": 0.42,
      "grad_norm": 3.5120291709899902,
      "learning_rate": 4.769279159265838e-05,
      "loss": 0.6655,
      "step": 4250
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.2807934284210205,
      "learning_rate": 4.767428952042629e-05,
      "loss": 0.7403,
      "step": 4260
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.64139723777771,
      "learning_rate": 4.76557874481942e-05,
      "loss": 0.6865,
      "step": 4270
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.096184730529785,
      "learning_rate": 4.763728537596211e-05,
      "loss": 0.6541,
      "step": 4280
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.449509382247925,
      "learning_rate": 4.761878330373002e-05,
      "loss": 0.71,
      "step": 4290
    },
    {
      "epoch": 0.43,
      "grad_norm": 4.055688381195068,
      "learning_rate": 4.7600281231497927e-05,
      "loss": 0.6786,
      "step": 4300
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.244075298309326,
      "learning_rate": 4.758177915926584e-05,
      "loss": 0.6509,
      "step": 4310
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.341848611831665,
      "learning_rate": 4.756327708703375e-05,
      "loss": 0.6653,
      "step": 4320
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.488085985183716,
      "learning_rate": 4.754477501480166e-05,
      "loss": 0.7078,
      "step": 4330
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.0209105014801025,
      "learning_rate": 4.752627294256957e-05,
      "loss": 0.7548,
      "step": 4340
    },
    {
      "epoch": 0.43,
      "grad_norm": 3.407996654510498,
      "learning_rate": 4.7507770870337484e-05,
      "loss": 0.6894,
      "step": 4350
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.0299911499023438,
      "learning_rate": 4.748926879810539e-05,
      "loss": 0.6937,
      "step": 4360
    },
    {
      "epoch": 0.44,
      "grad_norm": 7.176002502441406,
      "learning_rate": 4.74707667258733e-05,
      "loss": 0.7005,
      "step": 4370
    },
    {
      "epoch": 0.44,
      "grad_norm": 2.7733206748962402,
      "learning_rate": 4.745226465364121e-05,
      "loss": 0.7204,
      "step": 4380
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.3237507343292236,
      "learning_rate": 4.7433762581409116e-05,
      "loss": 0.6871,
      "step": 4390
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.1356794834136963,
      "learning_rate": 4.741526050917703e-05,
      "loss": 0.685,
      "step": 4400
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.1489083766937256,
      "learning_rate": 4.739675843694494e-05,
      "loss": 0.6954,
      "step": 4410
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.482736349105835,
      "learning_rate": 4.737825636471285e-05,
      "loss": 0.6895,
      "step": 4420
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.587050437927246,
      "learning_rate": 4.735975429248076e-05,
      "loss": 0.757,
      "step": 4430
    },
    {
      "epoch": 0.44,
      "grad_norm": 3.401193141937256,
      "learning_rate": 4.7341252220248674e-05,
      "loss": 0.7334,
      "step": 4440
    },
    {
      "epoch": 0.44,
      "grad_norm": 4.266185283660889,
      "learning_rate": 4.732275014801658e-05,
      "loss": 0.6171,
      "step": 4450
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.7276811599731445,
      "learning_rate": 4.730424807578449e-05,
      "loss": 0.7713,
      "step": 4460
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.5109221935272217,
      "learning_rate": 4.72857460035524e-05,
      "loss": 0.7528,
      "step": 4470
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.810439109802246,
      "learning_rate": 4.726724393132031e-05,
      "loss": 0.701,
      "step": 4480
    },
    {
      "epoch": 0.45,
      "grad_norm": 4.154197692871094,
      "learning_rate": 4.724874185908822e-05,
      "loss": 0.6752,
      "step": 4490
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.7947487831115723,
      "learning_rate": 4.723023978685613e-05,
      "loss": 0.6545,
      "step": 4500
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.61089825630188,
      "learning_rate": 4.721173771462404e-05,
      "loss": 0.7028,
      "step": 4510
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.313081979751587,
      "learning_rate": 4.7193235642391945e-05,
      "loss": 0.7085,
      "step": 4520
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.060281276702881,
      "learning_rate": 4.7174733570159863e-05,
      "loss": 0.7366,
      "step": 4530
    },
    {
      "epoch": 0.45,
      "grad_norm": 3.0079808235168457,
      "learning_rate": 4.7156231497927775e-05,
      "loss": 0.6549,
      "step": 4540
    },
    {
      "epoch": 0.45,
      "grad_norm": 2.5408244132995605,
      "learning_rate": 4.713772942569568e-05,
      "loss": 0.728,
      "step": 4550
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.1962056159973145,
      "learning_rate": 4.711922735346359e-05,
      "loss": 0.6684,
      "step": 4560
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.8910794258117676,
      "learning_rate": 4.71007252812315e-05,
      "loss": 0.7655,
      "step": 4570
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.488985061645508,
      "learning_rate": 4.708222320899941e-05,
      "loss": 0.772,
      "step": 4580
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.752354860305786,
      "learning_rate": 4.706372113676732e-05,
      "loss": 0.7451,
      "step": 4590
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.0325851440429688,
      "learning_rate": 4.704521906453523e-05,
      "loss": 0.7147,
      "step": 4600
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.618589162826538,
      "learning_rate": 4.7026716992303135e-05,
      "loss": 0.6435,
      "step": 4610
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.6547980308532715,
      "learning_rate": 4.7008214920071046e-05,
      "loss": 0.6481,
      "step": 4620
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.9657163619995117,
      "learning_rate": 4.6989712847838965e-05,
      "loss": 0.7469,
      "step": 4630
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.7938413619995117,
      "learning_rate": 4.697121077560687e-05,
      "loss": 0.6518,
      "step": 4640
    },
    {
      "epoch": 0.46,
      "grad_norm": 3.79465913772583,
      "learning_rate": 4.695270870337478e-05,
      "loss": 0.6303,
      "step": 4650
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.498037338256836,
      "learning_rate": 4.693420663114269e-05,
      "loss": 0.7436,
      "step": 4660
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.107898712158203,
      "learning_rate": 4.69157045589106e-05,
      "loss": 0.713,
      "step": 4670
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.5295932292938232,
      "learning_rate": 4.689720248667851e-05,
      "loss": 0.7683,
      "step": 4680
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.293151378631592,
      "learning_rate": 4.687870041444642e-05,
      "loss": 0.7604,
      "step": 4690
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.6718192100524902,
      "learning_rate": 4.686019834221433e-05,
      "loss": 0.7116,
      "step": 4700
    },
    {
      "epoch": 0.47,
      "grad_norm": 4.470846176147461,
      "learning_rate": 4.6841696269982236e-05,
      "loss": 0.7383,
      "step": 4710
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.570448398590088,
      "learning_rate": 4.682319419775015e-05,
      "loss": 0.6672,
      "step": 4720
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.130115032196045,
      "learning_rate": 4.6804692125518066e-05,
      "loss": 0.6578,
      "step": 4730
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.2586610317230225,
      "learning_rate": 4.678619005328597e-05,
      "loss": 0.7408,
      "step": 4740
    },
    {
      "epoch": 0.47,
      "grad_norm": 3.4966371059417725,
      "learning_rate": 4.676768798105388e-05,
      "loss": 0.7351,
      "step": 4750
    },
    {
      "epoch": 0.48,
      "grad_norm": 2.790525436401367,
      "learning_rate": 4.6749185908821794e-05,
      "loss": 0.7594,
      "step": 4760
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.3006558418273926,
      "learning_rate": 4.67306838365897e-05,
      "loss": 0.7306,
      "step": 4770
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.5441343784332275,
      "learning_rate": 4.671218176435761e-05,
      "loss": 0.7491,
      "step": 4780
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.0579774379730225,
      "learning_rate": 4.669367969212552e-05,
      "loss": 0.7123,
      "step": 4790
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.5825626850128174,
      "learning_rate": 4.6675177619893426e-05,
      "loss": 0.7365,
      "step": 4800
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.9491169452667236,
      "learning_rate": 4.665667554766134e-05,
      "loss": 0.6622,
      "step": 4810
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.820397138595581,
      "learning_rate": 4.663817347542925e-05,
      "loss": 0.7592,
      "step": 4820
    },
    {
      "epoch": 0.48,
      "grad_norm": 4.459632873535156,
      "learning_rate": 4.661967140319716e-05,
      "loss": 0.8015,
      "step": 4830
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.0507092475891113,
      "learning_rate": 4.660116933096507e-05,
      "loss": 0.6625,
      "step": 4840
    },
    {
      "epoch": 0.48,
      "grad_norm": 3.1301498413085938,
      "learning_rate": 4.658266725873298e-05,
      "loss": 0.6523,
      "step": 4850
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.0061397552490234,
      "learning_rate": 4.656416518650089e-05,
      "loss": 0.666,
      "step": 4860
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.207050085067749,
      "learning_rate": 4.65456631142688e-05,
      "loss": 0.6746,
      "step": 4870
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.0666189193725586,
      "learning_rate": 4.652716104203671e-05,
      "loss": 0.7079,
      "step": 4880
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.665508985519409,
      "learning_rate": 4.650865896980462e-05,
      "loss": 0.7223,
      "step": 4890
    },
    {
      "epoch": 0.49,
      "grad_norm": 4.09714412689209,
      "learning_rate": 4.649015689757253e-05,
      "loss": 0.7197,
      "step": 4900
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.7033355236053467,
      "learning_rate": 4.647165482534044e-05,
      "loss": 0.7172,
      "step": 4910
    },
    {
      "epoch": 0.49,
      "grad_norm": 2.7510733604431152,
      "learning_rate": 4.645315275310835e-05,
      "loss": 0.6604,
      "step": 4920
    },
    {
      "epoch": 0.49,
      "grad_norm": 5.247477054595947,
      "learning_rate": 4.643465068087626e-05,
      "loss": 0.6192,
      "step": 4930
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.5152814388275146,
      "learning_rate": 4.641614860864417e-05,
      "loss": 0.745,
      "step": 4940
    },
    {
      "epoch": 0.49,
      "grad_norm": 3.7760205268859863,
      "learning_rate": 4.6397646536412085e-05,
      "loss": 0.6941,
      "step": 4950
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.916893720626831,
      "learning_rate": 4.637914446417999e-05,
      "loss": 0.6881,
      "step": 4960
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.430846929550171,
      "learning_rate": 4.63606423919479e-05,
      "loss": 0.7103,
      "step": 4970
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.299255847930908,
      "learning_rate": 4.634214031971581e-05,
      "loss": 0.6987,
      "step": 4980
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.055800676345825,
      "learning_rate": 4.632363824748372e-05,
      "loss": 0.696,
      "step": 4990
    },
    {
      "epoch": 0.5,
      "grad_norm": 5.483026504516602,
      "learning_rate": 4.630513617525163e-05,
      "loss": 0.7,
      "step": 5000
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.8333847522735596,
      "learning_rate": 4.628663410301954e-05,
      "loss": 0.7213,
      "step": 5010
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.9540722370147705,
      "learning_rate": 4.6268132030787445e-05,
      "loss": 0.6662,
      "step": 5020
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.3765172958374023,
      "learning_rate": 4.624962995855536e-05,
      "loss": 0.705,
      "step": 5030
    },
    {
      "epoch": 0.5,
      "grad_norm": 2.8790442943573,
      "learning_rate": 4.6231127886323274e-05,
      "loss": 0.7824,
      "step": 5040
    },
    {
      "epoch": 0.5,
      "grad_norm": 3.3633291721343994,
      "learning_rate": 4.621262581409118e-05,
      "loss": 0.6629,
      "step": 5050
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.630092144012451,
      "learning_rate": 4.619412374185909e-05,
      "loss": 0.7884,
      "step": 5060
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.2913572788238525,
      "learning_rate": 4.6175621669627e-05,
      "loss": 0.7226,
      "step": 5070
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.1665987968444824,
      "learning_rate": 4.615711959739491e-05,
      "loss": 0.6747,
      "step": 5080
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.847998857498169,
      "learning_rate": 4.613861752516282e-05,
      "loss": 0.7566,
      "step": 5090
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.9884705543518066,
      "learning_rate": 4.612011545293073e-05,
      "loss": 0.6798,
      "step": 5100
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.395481824874878,
      "learning_rate": 4.610161338069864e-05,
      "loss": 0.6804,
      "step": 5110
    },
    {
      "epoch": 0.51,
      "grad_norm": 2.6122045516967773,
      "learning_rate": 4.6083111308466546e-05,
      "loss": 0.653,
      "step": 5120
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.6596665382385254,
      "learning_rate": 4.6064609236234464e-05,
      "loss": 0.7396,
      "step": 5130
    },
    {
      "epoch": 0.51,
      "grad_norm": 4.680124759674072,
      "learning_rate": 4.6046107164002376e-05,
      "loss": 0.7387,
      "step": 5140
    },
    {
      "epoch": 0.51,
      "grad_norm": 3.2190725803375244,
      "learning_rate": 4.602760509177028e-05,
      "loss": 0.7279,
      "step": 5150
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.0659613609313965,
      "learning_rate": 4.600910301953819e-05,
      "loss": 0.7357,
      "step": 5160
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.6748595237731934,
      "learning_rate": 4.59906009473061e-05,
      "loss": 0.7864,
      "step": 5170
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.323573112487793,
      "learning_rate": 4.597209887507401e-05,
      "loss": 0.7308,
      "step": 5180
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.7393147945404053,
      "learning_rate": 4.595359680284192e-05,
      "loss": 0.6764,
      "step": 5190
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.5103776454925537,
      "learning_rate": 4.593509473060983e-05,
      "loss": 0.7109,
      "step": 5200
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.285094976425171,
      "learning_rate": 4.5916592658377736e-05,
      "loss": 0.6962,
      "step": 5210
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.2349486351013184,
      "learning_rate": 4.589809058614565e-05,
      "loss": 0.6853,
      "step": 5220
    },
    {
      "epoch": 0.52,
      "grad_norm": 3.5859060287475586,
      "learning_rate": 4.5879588513913565e-05,
      "loss": 0.6813,
      "step": 5230
    },
    {
      "epoch": 0.52,
      "grad_norm": 2.677842378616333,
      "learning_rate": 4.586108644168147e-05,
      "loss": 0.59,
      "step": 5240
    },
    {
      "epoch": 0.52,
      "grad_norm": 4.364510536193848,
      "learning_rate": 4.584258436944938e-05,
      "loss": 0.7534,
      "step": 5250
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.4947190284729004,
      "learning_rate": 4.582408229721729e-05,
      "loss": 0.6751,
      "step": 5260
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.007179021835327,
      "learning_rate": 4.58055802249852e-05,
      "loss": 0.612,
      "step": 5270
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.915795087814331,
      "learning_rate": 4.578707815275311e-05,
      "loss": 0.7342,
      "step": 5280
    },
    {
      "epoch": 0.53,
      "grad_norm": 4.793553829193115,
      "learning_rate": 4.576857608052102e-05,
      "loss": 0.7445,
      "step": 5290
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.239215850830078,
      "learning_rate": 4.575007400828893e-05,
      "loss": 0.7448,
      "step": 5300
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.851557731628418,
      "learning_rate": 4.573157193605684e-05,
      "loss": 0.6988,
      "step": 5310
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.5731825828552246,
      "learning_rate": 4.571306986382475e-05,
      "loss": 0.7265,
      "step": 5320
    },
    {
      "epoch": 0.53,
      "grad_norm": 2.9147541522979736,
      "learning_rate": 4.569456779159266e-05,
      "loss": 0.668,
      "step": 5330
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.736429452896118,
      "learning_rate": 4.567606571936057e-05,
      "loss": 0.6881,
      "step": 5340
    },
    {
      "epoch": 0.53,
      "grad_norm": 3.393468141555786,
      "learning_rate": 4.565756364712848e-05,
      "loss": 0.6687,
      "step": 5350
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.4674503803253174,
      "learning_rate": 4.5639061574896394e-05,
      "loss": 0.7433,
      "step": 5360
    },
    {
      "epoch": 0.54,
      "grad_norm": 6.003540992736816,
      "learning_rate": 4.56205595026643e-05,
      "loss": 0.7155,
      "step": 5370
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.570277214050293,
      "learning_rate": 4.560205743043221e-05,
      "loss": 0.709,
      "step": 5380
    },
    {
      "epoch": 0.54,
      "grad_norm": 4.090922832489014,
      "learning_rate": 4.558355535820012e-05,
      "loss": 0.802,
      "step": 5390
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.913710355758667,
      "learning_rate": 4.5565053285968027e-05,
      "loss": 0.7182,
      "step": 5400
    },
    {
      "epoch": 0.54,
      "grad_norm": 2.6558327674865723,
      "learning_rate": 4.554655121373594e-05,
      "loss": 0.7069,
      "step": 5410
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.427002191543579,
      "learning_rate": 4.552804914150385e-05,
      "loss": 0.6731,
      "step": 5420
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.406917095184326,
      "learning_rate": 4.550954706927176e-05,
      "loss": 0.7815,
      "step": 5430
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.42771577835083,
      "learning_rate": 4.549104499703967e-05,
      "loss": 0.7221,
      "step": 5440
    },
    {
      "epoch": 0.54,
      "grad_norm": 3.498706579208374,
      "learning_rate": 4.5472542924807584e-05,
      "loss": 0.6667,
      "step": 5450
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.2848498821258545,
      "learning_rate": 4.545404085257549e-05,
      "loss": 0.6614,
      "step": 5460
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.0836191177368164,
      "learning_rate": 4.54355387803434e-05,
      "loss": 0.6907,
      "step": 5470
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.0977256298065186,
      "learning_rate": 4.541703670811131e-05,
      "loss": 0.771,
      "step": 5480
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.111789226531982,
      "learning_rate": 4.5398534635879216e-05,
      "loss": 0.7382,
      "step": 5490
    },
    {
      "epoch": 0.55,
      "grad_norm": 2.8825130462646484,
      "learning_rate": 4.538003256364713e-05,
      "loss": 0.7433,
      "step": 5500
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.494843006134033,
      "learning_rate": 4.536153049141504e-05,
      "loss": 0.7211,
      "step": 5510
    },
    {
      "epoch": 0.55,
      "grad_norm": 4.035333633422852,
      "learning_rate": 4.534302841918295e-05,
      "loss": 0.6804,
      "step": 5520
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.898184299468994,
      "learning_rate": 4.532452634695086e-05,
      "loss": 0.7233,
      "step": 5530
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.699542760848999,
      "learning_rate": 4.5306024274718774e-05,
      "loss": 0.6881,
      "step": 5540
    },
    {
      "epoch": 0.55,
      "grad_norm": 3.6503000259399414,
      "learning_rate": 4.5287522202486685e-05,
      "loss": 0.7409,
      "step": 5550
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.549100875854492,
      "learning_rate": 4.526902013025459e-05,
      "loss": 0.6978,
      "step": 5560
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.8764123916625977,
      "learning_rate": 4.52505180580225e-05,
      "loss": 0.7452,
      "step": 5570
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.588412046432495,
      "learning_rate": 4.523201598579041e-05,
      "loss": 0.718,
      "step": 5580
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.35566782951355,
      "learning_rate": 4.521351391355832e-05,
      "loss": 0.7232,
      "step": 5590
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.28306245803833,
      "learning_rate": 4.519501184132623e-05,
      "loss": 0.7158,
      "step": 5600
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.5765879154205322,
      "learning_rate": 4.517650976909414e-05,
      "loss": 0.7281,
      "step": 5610
    },
    {
      "epoch": 0.56,
      "grad_norm": 2.9879677295684814,
      "learning_rate": 4.5158007696862045e-05,
      "loss": 0.7462,
      "step": 5620
    },
    {
      "epoch": 0.56,
      "grad_norm": 3.0765247344970703,
      "learning_rate": 4.5139505624629963e-05,
      "loss": 0.677,
      "step": 5630
    },
    {
      "epoch": 0.56,
      "grad_norm": 4.486486911773682,
      "learning_rate": 4.5121003552397875e-05,
      "loss": 0.6832,
      "step": 5640
    },
    {
      "epoch": 0.56,
      "grad_norm": 5.058973789215088,
      "learning_rate": 4.510250148016578e-05,
      "loss": 0.6712,
      "step": 5650
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.3011398315429688,
      "learning_rate": 4.508399940793369e-05,
      "loss": 0.6867,
      "step": 5660
    },
    {
      "epoch": 0.57,
      "grad_norm": 2.844648599624634,
      "learning_rate": 4.50654973357016e-05,
      "loss": 0.6902,
      "step": 5670
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.342316150665283,
      "learning_rate": 4.504699526346951e-05,
      "loss": 0.6404,
      "step": 5680
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.158602714538574,
      "learning_rate": 4.502849319123742e-05,
      "loss": 0.7007,
      "step": 5690
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.691908597946167,
      "learning_rate": 4.500999111900533e-05,
      "loss": 0.7336,
      "step": 5700
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.370650053024292,
      "learning_rate": 4.499148904677324e-05,
      "loss": 0.6574,
      "step": 5710
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.949035882949829,
      "learning_rate": 4.4972986974541146e-05,
      "loss": 0.6916,
      "step": 5720
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.2617616653442383,
      "learning_rate": 4.4954484902309065e-05,
      "loss": 0.6873,
      "step": 5730
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.2022359371185303,
      "learning_rate": 4.493598283007697e-05,
      "loss": 0.6815,
      "step": 5740
    },
    {
      "epoch": 0.57,
      "grad_norm": 3.377497911453247,
      "learning_rate": 4.491748075784488e-05,
      "loss": 0.7057,
      "step": 5750
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.087242364883423,
      "learning_rate": 4.489897868561279e-05,
      "loss": 0.728,
      "step": 5760
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.445363998413086,
      "learning_rate": 4.4880476613380704e-05,
      "loss": 0.702,
      "step": 5770
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.1716368198394775,
      "learning_rate": 4.486197454114861e-05,
      "loss": 0.6705,
      "step": 5780
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.1223642826080322,
      "learning_rate": 4.484347246891652e-05,
      "loss": 0.6924,
      "step": 5790
    },
    {
      "epoch": 0.58,
      "grad_norm": 4.624827861785889,
      "learning_rate": 4.482497039668443e-05,
      "loss": 0.7212,
      "step": 5800
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.541598320007324,
      "learning_rate": 4.4806468324452336e-05,
      "loss": 0.7128,
      "step": 5810
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.090545415878296,
      "learning_rate": 4.478796625222025e-05,
      "loss": 0.7428,
      "step": 5820
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.049219846725464,
      "learning_rate": 4.4769464179988166e-05,
      "loss": 0.6532,
      "step": 5830
    },
    {
      "epoch": 0.58,
      "grad_norm": 3.6822829246520996,
      "learning_rate": 4.475096210775607e-05,
      "loss": 0.6711,
      "step": 5840
    },
    {
      "epoch": 0.58,
      "grad_norm": 2.690136194229126,
      "learning_rate": 4.473246003552398e-05,
      "loss": 0.7492,
      "step": 5850
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.3854334354400635,
      "learning_rate": 4.4713957963291894e-05,
      "loss": 0.7189,
      "step": 5860
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.8197314739227295,
      "learning_rate": 4.46954558910598e-05,
      "loss": 0.7129,
      "step": 5870
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.065481424331665,
      "learning_rate": 4.467695381882771e-05,
      "loss": 0.7047,
      "step": 5880
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.7819786071777344,
      "learning_rate": 4.465845174659562e-05,
      "loss": 0.6518,
      "step": 5890
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.8253705501556396,
      "learning_rate": 4.4639949674363526e-05,
      "loss": 0.7676,
      "step": 5900
    },
    {
      "epoch": 0.59,
      "grad_norm": 2.8241100311279297,
      "learning_rate": 4.462144760213144e-05,
      "loss": 0.6914,
      "step": 5910
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.347315788269043,
      "learning_rate": 4.460294552989935e-05,
      "loss": 0.7427,
      "step": 5920
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.3063645362854,
      "learning_rate": 4.458444345766726e-05,
      "loss": 0.7193,
      "step": 5930
    },
    {
      "epoch": 0.59,
      "grad_norm": 3.471043109893799,
      "learning_rate": 4.456594138543517e-05,
      "loss": 0.74,
      "step": 5940
    },
    {
      "epoch": 0.59,
      "grad_norm": 4.2801923751831055,
      "learning_rate": 4.454743931320308e-05,
      "loss": 0.7362,
      "step": 5950
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.989138603210449,
      "learning_rate": 4.4528937240970995e-05,
      "loss": 0.7589,
      "step": 5960
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.891620635986328,
      "learning_rate": 4.45104351687389e-05,
      "loss": 0.7471,
      "step": 5970
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.5190775394439697,
      "learning_rate": 4.449193309650681e-05,
      "loss": 0.6959,
      "step": 5980
    },
    {
      "epoch": 0.6,
      "grad_norm": 7.23317813873291,
      "learning_rate": 4.447343102427472e-05,
      "loss": 0.7425,
      "step": 5990
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.803925037384033,
      "learning_rate": 4.445492895204263e-05,
      "loss": 0.6632,
      "step": 6000
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.003685474395752,
      "learning_rate": 4.443642687981054e-05,
      "loss": 0.739,
      "step": 6010
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.2653040885925293,
      "learning_rate": 4.441792480757845e-05,
      "loss": 0.731,
      "step": 6020
    },
    {
      "epoch": 0.6,
      "grad_norm": 3.226297616958618,
      "learning_rate": 4.439942273534636e-05,
      "loss": 0.7518,
      "step": 6030
    },
    {
      "epoch": 0.6,
      "grad_norm": 2.7298340797424316,
      "learning_rate": 4.438092066311427e-05,
      "loss": 0.665,
      "step": 6040
    },
    {
      "epoch": 0.6,
      "grad_norm": 4.334570407867432,
      "learning_rate": 4.4362418590882185e-05,
      "loss": 0.6836,
      "step": 6050
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.217198133468628,
      "learning_rate": 4.434391651865009e-05,
      "loss": 0.656,
      "step": 6060
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.106971502304077,
      "learning_rate": 4.4325414446418e-05,
      "loss": 0.7466,
      "step": 6070
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.1955838203430176,
      "learning_rate": 4.430691237418591e-05,
      "loss": 0.674,
      "step": 6080
    },
    {
      "epoch": 0.61,
      "grad_norm": 2.9241461753845215,
      "learning_rate": 4.428841030195382e-05,
      "loss": 0.7442,
      "step": 6090
    },
    {
      "epoch": 0.61,
      "grad_norm": 5.2432756423950195,
      "learning_rate": 4.426990822972173e-05,
      "loss": 0.6703,
      "step": 6100
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.753436803817749,
      "learning_rate": 4.425140615748964e-05,
      "loss": 0.7246,
      "step": 6110
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.066377639770508,
      "learning_rate": 4.423290408525755e-05,
      "loss": 0.7144,
      "step": 6120
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.2576711177825928,
      "learning_rate": 4.421440201302546e-05,
      "loss": 0.6492,
      "step": 6130
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.8865461349487305,
      "learning_rate": 4.4195899940793374e-05,
      "loss": 0.7538,
      "step": 6140
    },
    {
      "epoch": 0.61,
      "grad_norm": 3.826071262359619,
      "learning_rate": 4.417739786856128e-05,
      "loss": 0.7203,
      "step": 6150
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.7041971683502197,
      "learning_rate": 4.415889579632919e-05,
      "loss": 0.7717,
      "step": 6160
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.6242477893829346,
      "learning_rate": 4.41403937240971e-05,
      "loss": 0.6898,
      "step": 6170
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.2470602989196777,
      "learning_rate": 4.4121891651865013e-05,
      "loss": 0.6884,
      "step": 6180
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.398453712463379,
      "learning_rate": 4.410338957963292e-05,
      "loss": 0.6188,
      "step": 6190
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.3669776916503906,
      "learning_rate": 4.408488750740083e-05,
      "loss": 0.7488,
      "step": 6200
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.5610759258270264,
      "learning_rate": 4.406638543516874e-05,
      "loss": 0.7008,
      "step": 6210
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.2245664596557617,
      "learning_rate": 4.4047883362936646e-05,
      "loss": 0.7498,
      "step": 6220
    },
    {
      "epoch": 0.62,
      "grad_norm": 2.7771151065826416,
      "learning_rate": 4.4029381290704564e-05,
      "loss": 0.7187,
      "step": 6230
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.5703916549682617,
      "learning_rate": 4.4010879218472475e-05,
      "loss": 0.7788,
      "step": 6240
    },
    {
      "epoch": 0.62,
      "grad_norm": 3.1681056022644043,
      "learning_rate": 4.399237714624038e-05,
      "loss": 0.6728,
      "step": 6250
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.526160955429077,
      "learning_rate": 4.397387507400829e-05,
      "loss": 0.6645,
      "step": 6260
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.017457485198975,
      "learning_rate": 4.39553730017762e-05,
      "loss": 0.7339,
      "step": 6270
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.1970152854919434,
      "learning_rate": 4.393687092954411e-05,
      "loss": 0.6054,
      "step": 6280
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.042806625366211,
      "learning_rate": 4.391836885731202e-05,
      "loss": 0.6512,
      "step": 6290
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.7096316814422607,
      "learning_rate": 4.389986678507993e-05,
      "loss": 0.7076,
      "step": 6300
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.728597402572632,
      "learning_rate": 4.3881364712847836e-05,
      "loss": 0.7225,
      "step": 6310
    },
    {
      "epoch": 0.63,
      "grad_norm": 4.376035213470459,
      "learning_rate": 4.386286264061575e-05,
      "loss": 0.6623,
      "step": 6320
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.8302483558654785,
      "learning_rate": 4.3844360568383665e-05,
      "loss": 0.7073,
      "step": 6330
    },
    {
      "epoch": 0.63,
      "grad_norm": 3.854022741317749,
      "learning_rate": 4.382585849615157e-05,
      "loss": 0.8001,
      "step": 6340
    },
    {
      "epoch": 0.63,
      "grad_norm": 2.8756144046783447,
      "learning_rate": 4.380735642391948e-05,
      "loss": 0.6636,
      "step": 6350
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.7288026809692383,
      "learning_rate": 4.378885435168739e-05,
      "loss": 0.7495,
      "step": 6360
    },
    {
      "epoch": 0.64,
      "grad_norm": 2.9840424060821533,
      "learning_rate": 4.3770352279455304e-05,
      "loss": 0.6777,
      "step": 6370
    },
    {
      "epoch": 0.64,
      "grad_norm": 4.310705184936523,
      "learning_rate": 4.375185020722321e-05,
      "loss": 0.6803,
      "step": 6380
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.7630207538604736,
      "learning_rate": 4.373334813499112e-05,
      "loss": 0.7109,
      "step": 6390
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.7814226150512695,
      "learning_rate": 4.371484606275903e-05,
      "loss": 0.7577,
      "step": 6400
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.839198350906372,
      "learning_rate": 4.369634399052694e-05,
      "loss": 0.7663,
      "step": 6410
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.658724069595337,
      "learning_rate": 4.367784191829485e-05,
      "loss": 0.7317,
      "step": 6420
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.8283934593200684,
      "learning_rate": 4.3659339846062766e-05,
      "loss": 0.6931,
      "step": 6430
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.5772292613983154,
      "learning_rate": 4.364083777383067e-05,
      "loss": 0.6718,
      "step": 6440
    },
    {
      "epoch": 0.64,
      "grad_norm": 3.1871001720428467,
      "learning_rate": 4.362233570159858e-05,
      "loss": 0.6788,
      "step": 6450
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.8843536376953125,
      "learning_rate": 4.3603833629366494e-05,
      "loss": 0.6351,
      "step": 6460
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.259979009628296,
      "learning_rate": 4.35853315571344e-05,
      "loss": 0.7101,
      "step": 6470
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.7645761966705322,
      "learning_rate": 4.356682948490231e-05,
      "loss": 0.6965,
      "step": 6480
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.6463429927825928,
      "learning_rate": 4.354832741267022e-05,
      "loss": 0.7327,
      "step": 6490
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.130833864212036,
      "learning_rate": 4.3529825340438126e-05,
      "loss": 0.726,
      "step": 6500
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.425238847732544,
      "learning_rate": 4.351132326820604e-05,
      "loss": 0.7061,
      "step": 6510
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.681682825088501,
      "learning_rate": 4.349282119597395e-05,
      "loss": 0.6863,
      "step": 6520
    },
    {
      "epoch": 0.65,
      "grad_norm": 3.4088051319122314,
      "learning_rate": 4.347431912374186e-05,
      "loss": 0.6382,
      "step": 6530
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.8277435302734375,
      "learning_rate": 4.345581705150977e-05,
      "loss": 0.7226,
      "step": 6540
    },
    {
      "epoch": 0.65,
      "grad_norm": 4.150753021240234,
      "learning_rate": 4.3437314979277684e-05,
      "loss": 0.7227,
      "step": 6550
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.421832799911499,
      "learning_rate": 4.341881290704559e-05,
      "loss": 0.6776,
      "step": 6560
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.8952486515045166,
      "learning_rate": 4.34003108348135e-05,
      "loss": 0.7345,
      "step": 6570
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.506693124771118,
      "learning_rate": 4.338180876258141e-05,
      "loss": 0.7031,
      "step": 6580
    },
    {
      "epoch": 0.66,
      "grad_norm": 4.75941276550293,
      "learning_rate": 4.336330669034932e-05,
      "loss": 0.7697,
      "step": 6590
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.085662841796875,
      "learning_rate": 4.334480461811723e-05,
      "loss": 0.7587,
      "step": 6600
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.584279775619507,
      "learning_rate": 4.332630254588514e-05,
      "loss": 0.768,
      "step": 6610
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.445774793624878,
      "learning_rate": 4.330780047365305e-05,
      "loss": 0.6356,
      "step": 6620
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.9531917572021484,
      "learning_rate": 4.328929840142096e-05,
      "loss": 0.7137,
      "step": 6630
    },
    {
      "epoch": 0.66,
      "grad_norm": 3.0538129806518555,
      "learning_rate": 4.3270796329188874e-05,
      "loss": 0.6754,
      "step": 6640
    },
    {
      "epoch": 0.66,
      "grad_norm": 2.927947998046875,
      "learning_rate": 4.3252294256956785e-05,
      "loss": 0.7131,
      "step": 6650
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.5217700004577637,
      "learning_rate": 4.323379218472469e-05,
      "loss": 0.715,
      "step": 6660
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.6936652660369873,
      "learning_rate": 4.32152901124926e-05,
      "loss": 0.6964,
      "step": 6670
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.312591791152954,
      "learning_rate": 4.319678804026051e-05,
      "loss": 0.6377,
      "step": 6680
    },
    {
      "epoch": 0.67,
      "grad_norm": 2.7416396141052246,
      "learning_rate": 4.317828596802842e-05,
      "loss": 0.6723,
      "step": 6690
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.532472848892212,
      "learning_rate": 4.315978389579633e-05,
      "loss": 0.7016,
      "step": 6700
    },
    {
      "epoch": 0.67,
      "grad_norm": 6.874277591705322,
      "learning_rate": 4.314128182356424e-05,
      "loss": 0.6997,
      "step": 6710
    },
    {
      "epoch": 0.67,
      "grad_norm": 4.2954020500183105,
      "learning_rate": 4.312277975133215e-05,
      "loss": 0.7205,
      "step": 6720
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.1909594535827637,
      "learning_rate": 4.310427767910006e-05,
      "loss": 0.7113,
      "step": 6730
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.6756272315979004,
      "learning_rate": 4.3085775606867975e-05,
      "loss": 0.6799,
      "step": 6740
    },
    {
      "epoch": 0.67,
      "grad_norm": 3.8838164806365967,
      "learning_rate": 4.306727353463588e-05,
      "loss": 0.7603,
      "step": 6750
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.246784210205078,
      "learning_rate": 4.304877146240379e-05,
      "loss": 0.7142,
      "step": 6760
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.92970871925354,
      "learning_rate": 4.30302693901717e-05,
      "loss": 0.6589,
      "step": 6770
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.6819159984588623,
      "learning_rate": 4.3011767317939614e-05,
      "loss": 0.7424,
      "step": 6780
    },
    {
      "epoch": 0.68,
      "grad_norm": 7.440663814544678,
      "learning_rate": 4.299326524570752e-05,
      "loss": 0.6353,
      "step": 6790
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.888259172439575,
      "learning_rate": 4.297476317347543e-05,
      "loss": 0.694,
      "step": 6800
    },
    {
      "epoch": 0.68,
      "grad_norm": 2.91501522064209,
      "learning_rate": 4.295626110124334e-05,
      "loss": 0.6007,
      "step": 6810
    },
    {
      "epoch": 0.68,
      "grad_norm": 4.218962669372559,
      "learning_rate": 4.2937759029011246e-05,
      "loss": 0.7097,
      "step": 6820
    },
    {
      "epoch": 0.68,
      "grad_norm": 4.241761207580566,
      "learning_rate": 4.2919256956779165e-05,
      "loss": 0.6973,
      "step": 6830
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.455763578414917,
      "learning_rate": 4.2900754884547076e-05,
      "loss": 0.7762,
      "step": 6840
    },
    {
      "epoch": 0.68,
      "grad_norm": 3.309475898742676,
      "learning_rate": 4.288225281231498e-05,
      "loss": 0.6378,
      "step": 6850
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.034236431121826,
      "learning_rate": 4.286375074008289e-05,
      "loss": 0.7397,
      "step": 6860
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.7271220684051514,
      "learning_rate": 4.2845248667850804e-05,
      "loss": 0.7588,
      "step": 6870
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.175063371658325,
      "learning_rate": 4.282674659561871e-05,
      "loss": 0.7398,
      "step": 6880
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.6644043922424316,
      "learning_rate": 4.280824452338662e-05,
      "loss": 0.7538,
      "step": 6890
    },
    {
      "epoch": 0.69,
      "grad_norm": 2.8367252349853516,
      "learning_rate": 4.278974245115453e-05,
      "loss": 0.7317,
      "step": 6900
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.6563289165496826,
      "learning_rate": 4.2771240378922436e-05,
      "loss": 0.7447,
      "step": 6910
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.7786736488342285,
      "learning_rate": 4.275273830669035e-05,
      "loss": 0.6911,
      "step": 6920
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.5631000995635986,
      "learning_rate": 4.2734236234458266e-05,
      "loss": 0.6825,
      "step": 6930
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.420441150665283,
      "learning_rate": 4.271573416222617e-05,
      "loss": 0.6482,
      "step": 6940
    },
    {
      "epoch": 0.69,
      "grad_norm": 3.4992713928222656,
      "learning_rate": 4.269723208999408e-05,
      "loss": 0.692,
      "step": 6950
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.9008631706237793,
      "learning_rate": 4.2678730017761993e-05,
      "loss": 0.7514,
      "step": 6960
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.1805083751678467,
      "learning_rate": 4.26602279455299e-05,
      "loss": 0.7349,
      "step": 6970
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.6992764472961426,
      "learning_rate": 4.264172587329781e-05,
      "loss": 0.6533,
      "step": 6980
    },
    {
      "epoch": 0.7,
      "grad_norm": 2.6751019954681396,
      "learning_rate": 4.262322380106572e-05,
      "loss": 0.6601,
      "step": 6990
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.261441469192505,
      "learning_rate": 4.260472172883363e-05,
      "loss": 0.7267,
      "step": 7000
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.0199317932128906,
      "learning_rate": 4.258621965660154e-05,
      "loss": 0.7362,
      "step": 7010
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.227018356323242,
      "learning_rate": 4.256771758436945e-05,
      "loss": 0.7879,
      "step": 7020
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.005372524261475,
      "learning_rate": 4.254921551213737e-05,
      "loss": 0.6443,
      "step": 7030
    },
    {
      "epoch": 0.7,
      "grad_norm": 4.077149868011475,
      "learning_rate": 4.253071343990527e-05,
      "loss": 0.7666,
      "step": 7040
    },
    {
      "epoch": 0.7,
      "grad_norm": 3.207517623901367,
      "learning_rate": 4.251221136767318e-05,
      "loss": 0.7382,
      "step": 7050
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.460784435272217,
      "learning_rate": 4.2493709295441095e-05,
      "loss": 0.7727,
      "step": 7060
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.195282459259033,
      "learning_rate": 4.2475207223209e-05,
      "loss": 0.7165,
      "step": 7070
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.7710602283477783,
      "learning_rate": 4.245670515097691e-05,
      "loss": 0.6675,
      "step": 7080
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.550250053405762,
      "learning_rate": 4.243820307874482e-05,
      "loss": 0.7527,
      "step": 7090
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.827406644821167,
      "learning_rate": 4.241970100651273e-05,
      "loss": 0.6402,
      "step": 7100
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.7714028358459473,
      "learning_rate": 4.240119893428064e-05,
      "loss": 0.6154,
      "step": 7110
    },
    {
      "epoch": 0.71,
      "grad_norm": 4.008815765380859,
      "learning_rate": 4.238269686204855e-05,
      "loss": 0.771,
      "step": 7120
    },
    {
      "epoch": 0.71,
      "grad_norm": 2.982142448425293,
      "learning_rate": 4.236419478981646e-05,
      "loss": 0.6815,
      "step": 7130
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.395442247390747,
      "learning_rate": 4.234569271758437e-05,
      "loss": 0.684,
      "step": 7140
    },
    {
      "epoch": 0.71,
      "grad_norm": 3.153670072555542,
      "learning_rate": 4.2327190645352284e-05,
      "loss": 0.6952,
      "step": 7150
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.5066866874694824,
      "learning_rate": 4.230868857312019e-05,
      "loss": 0.7315,
      "step": 7160
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.202247381210327,
      "learning_rate": 4.22901865008881e-05,
      "loss": 0.736,
      "step": 7170
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.446960210800171,
      "learning_rate": 4.227168442865601e-05,
      "loss": 0.7283,
      "step": 7180
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.4236812591552734,
      "learning_rate": 4.2253182356423924e-05,
      "loss": 0.7353,
      "step": 7190
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.1295604705810547,
      "learning_rate": 4.223468028419183e-05,
      "loss": 0.7057,
      "step": 7200
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.9113945960998535,
      "learning_rate": 4.221617821195974e-05,
      "loss": 0.6099,
      "step": 7210
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.1458358764648438,
      "learning_rate": 4.219767613972765e-05,
      "loss": 0.7207,
      "step": 7220
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.9172866344451904,
      "learning_rate": 4.217917406749556e-05,
      "loss": 0.8095,
      "step": 7230
    },
    {
      "epoch": 0.72,
      "grad_norm": 3.2960827350616455,
      "learning_rate": 4.2160671995263474e-05,
      "loss": 0.702,
      "step": 7240
    },
    {
      "epoch": 0.72,
      "grad_norm": 2.835190773010254,
      "learning_rate": 4.2142169923031386e-05,
      "loss": 0.7281,
      "step": 7250
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.9012463092803955,
      "learning_rate": 4.212366785079929e-05,
      "loss": 0.7006,
      "step": 7260
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.64485239982605,
      "learning_rate": 4.21051657785672e-05,
      "loss": 0.6959,
      "step": 7270
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.800475835800171,
      "learning_rate": 4.208666370633511e-05,
      "loss": 0.7161,
      "step": 7280
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.4665591716766357,
      "learning_rate": 4.206816163410302e-05,
      "loss": 0.7119,
      "step": 7290
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.220041036605835,
      "learning_rate": 4.204965956187093e-05,
      "loss": 0.6859,
      "step": 7300
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.687044620513916,
      "learning_rate": 4.203115748963884e-05,
      "loss": 0.6902,
      "step": 7310
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.8851964473724365,
      "learning_rate": 4.2012655417406746e-05,
      "loss": 0.7012,
      "step": 7320
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.6309332847595215,
      "learning_rate": 4.1994153345174664e-05,
      "loss": 0.6992,
      "step": 7330
    },
    {
      "epoch": 0.73,
      "grad_norm": 3.939882278442383,
      "learning_rate": 4.1975651272942575e-05,
      "loss": 0.7224,
      "step": 7340
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.8149564266204834,
      "learning_rate": 4.195714920071048e-05,
      "loss": 0.7332,
      "step": 7350
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.9551186561584473,
      "learning_rate": 4.193864712847839e-05,
      "loss": 0.6993,
      "step": 7360
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.1702091693878174,
      "learning_rate": 4.19201450562463e-05,
      "loss": 0.6451,
      "step": 7370
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.0133557319641113,
      "learning_rate": 4.190164298401421e-05,
      "loss": 0.7359,
      "step": 7380
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.8423237800598145,
      "learning_rate": 4.188314091178212e-05,
      "loss": 0.658,
      "step": 7390
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.378992795944214,
      "learning_rate": 4.186463883955003e-05,
      "loss": 0.7358,
      "step": 7400
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.24690842628479,
      "learning_rate": 4.184613676731794e-05,
      "loss": 0.7024,
      "step": 7410
    },
    {
      "epoch": 0.74,
      "grad_norm": 2.4341156482696533,
      "learning_rate": 4.182763469508585e-05,
      "loss": 0.6706,
      "step": 7420
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.5091660022735596,
      "learning_rate": 4.1809132622853765e-05,
      "loss": 0.7897,
      "step": 7430
    },
    {
      "epoch": 0.74,
      "grad_norm": 3.399709701538086,
      "learning_rate": 4.179063055062168e-05,
      "loss": 0.7172,
      "step": 7440
    },
    {
      "epoch": 0.74,
      "grad_norm": 4.162614345550537,
      "learning_rate": 4.177212847838958e-05,
      "loss": 0.7509,
      "step": 7450
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.8644330501556396,
      "learning_rate": 4.175362640615749e-05,
      "loss": 0.7031,
      "step": 7460
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.059576988220215,
      "learning_rate": 4.1735124333925404e-05,
      "loss": 0.6861,
      "step": 7470
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.750117540359497,
      "learning_rate": 4.171662226169331e-05,
      "loss": 0.6969,
      "step": 7480
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.206870079040527,
      "learning_rate": 4.169812018946122e-05,
      "loss": 0.6961,
      "step": 7490
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.905251979827881,
      "learning_rate": 4.167961811722913e-05,
      "loss": 0.774,
      "step": 7500
    },
    {
      "epoch": 0.75,
      "grad_norm": 2.853501558303833,
      "learning_rate": 4.166111604499704e-05,
      "loss": 0.6759,
      "step": 7510
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.5831539630889893,
      "learning_rate": 4.164261397276495e-05,
      "loss": 0.7701,
      "step": 7520
    },
    {
      "epoch": 0.75,
      "grad_norm": 4.644014835357666,
      "learning_rate": 4.1624111900532866e-05,
      "loss": 0.7483,
      "step": 7530
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.068154811859131,
      "learning_rate": 4.160560982830077e-05,
      "loss": 0.655,
      "step": 7540
    },
    {
      "epoch": 0.75,
      "grad_norm": 3.0920000076293945,
      "learning_rate": 4.158710775606868e-05,
      "loss": 0.7289,
      "step": 7550
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.257368564605713,
      "learning_rate": 4.1568605683836594e-05,
      "loss": 0.6538,
      "step": 7560
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.0346789360046387,
      "learning_rate": 4.15501036116045e-05,
      "loss": 0.6361,
      "step": 7570
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.2296407222747803,
      "learning_rate": 4.153160153937241e-05,
      "loss": 0.6257,
      "step": 7580
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.2762022018432617,
      "learning_rate": 4.151309946714032e-05,
      "loss": 0.7373,
      "step": 7590
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.141784429550171,
      "learning_rate": 4.149459739490823e-05,
      "loss": 0.7158,
      "step": 7600
    },
    {
      "epoch": 0.76,
      "grad_norm": 5.944089889526367,
      "learning_rate": 4.147609532267614e-05,
      "loss": 0.7284,
      "step": 7610
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.340660810470581,
      "learning_rate": 4.145759325044405e-05,
      "loss": 0.6856,
      "step": 7620
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.000439405441284,
      "learning_rate": 4.143909117821196e-05,
      "loss": 0.6411,
      "step": 7630
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.654869556427002,
      "learning_rate": 4.142058910597987e-05,
      "loss": 0.6954,
      "step": 7640
    },
    {
      "epoch": 0.76,
      "grad_norm": 3.481484889984131,
      "learning_rate": 4.1402087033747784e-05,
      "loss": 0.7751,
      "step": 7650
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.862942695617676,
      "learning_rate": 4.1383584961515695e-05,
      "loss": 0.6602,
      "step": 7660
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.608815908432007,
      "learning_rate": 4.13650828892836e-05,
      "loss": 0.7608,
      "step": 7670
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.004307270050049,
      "learning_rate": 4.134658081705151e-05,
      "loss": 0.7425,
      "step": 7680
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.5019147396087646,
      "learning_rate": 4.132807874481942e-05,
      "loss": 0.7468,
      "step": 7690
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.1590490341186523,
      "learning_rate": 4.130957667258733e-05,
      "loss": 0.6892,
      "step": 7700
    },
    {
      "epoch": 0.77,
      "grad_norm": 4.303895473480225,
      "learning_rate": 4.129107460035524e-05,
      "loss": 0.7334,
      "step": 7710
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.129940986633301,
      "learning_rate": 4.127257252812315e-05,
      "loss": 0.6929,
      "step": 7720
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.7248690128326416,
      "learning_rate": 4.125407045589106e-05,
      "loss": 0.7221,
      "step": 7730
    },
    {
      "epoch": 0.77,
      "grad_norm": 2.6588993072509766,
      "learning_rate": 4.1235568383658974e-05,
      "loss": 0.6783,
      "step": 7740
    },
    {
      "epoch": 0.77,
      "grad_norm": 3.3328003883361816,
      "learning_rate": 4.1217066311426885e-05,
      "loss": 0.7209,
      "step": 7750
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.8697052001953125,
      "learning_rate": 4.119856423919479e-05,
      "loss": 0.7998,
      "step": 7760
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.719139337539673,
      "learning_rate": 4.11800621669627e-05,
      "loss": 0.6782,
      "step": 7770
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.3749945163726807,
      "learning_rate": 4.116156009473061e-05,
      "loss": 0.7732,
      "step": 7780
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.360452175140381,
      "learning_rate": 4.114305802249852e-05,
      "loss": 0.6449,
      "step": 7790
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.2894506454467773,
      "learning_rate": 4.112455595026643e-05,
      "loss": 0.7023,
      "step": 7800
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.3179047107696533,
      "learning_rate": 4.110605387803434e-05,
      "loss": 0.6887,
      "step": 7810
    },
    {
      "epoch": 0.78,
      "grad_norm": 3.690995693206787,
      "learning_rate": 4.108755180580225e-05,
      "loss": 0.6968,
      "step": 7820
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.9359781742095947,
      "learning_rate": 4.106904973357016e-05,
      "loss": 0.6888,
      "step": 7830
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.7506980895996094,
      "learning_rate": 4.1050547661338075e-05,
      "loss": 0.7542,
      "step": 7840
    },
    {
      "epoch": 0.78,
      "grad_norm": 2.761293649673462,
      "learning_rate": 4.1032045589105986e-05,
      "loss": 0.6072,
      "step": 7850
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.546552896499634,
      "learning_rate": 4.101354351687389e-05,
      "loss": 0.6575,
      "step": 7860
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.185645580291748,
      "learning_rate": 4.09950414446418e-05,
      "loss": 0.6875,
      "step": 7870
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.2904093265533447,
      "learning_rate": 4.0976539372409714e-05,
      "loss": 0.6656,
      "step": 7880
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.6031906604766846,
      "learning_rate": 4.095803730017762e-05,
      "loss": 0.7408,
      "step": 7890
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.028386354446411,
      "learning_rate": 4.093953522794553e-05,
      "loss": 0.7196,
      "step": 7900
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.331310510635376,
      "learning_rate": 4.092103315571344e-05,
      "loss": 0.6816,
      "step": 7910
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.5718724727630615,
      "learning_rate": 4.0902531083481346e-05,
      "loss": 0.6469,
      "step": 7920
    },
    {
      "epoch": 0.79,
      "grad_norm": 4.075356483459473,
      "learning_rate": 4.0884029011249265e-05,
      "loss": 0.7223,
      "step": 7930
    },
    {
      "epoch": 0.79,
      "grad_norm": 3.210800886154175,
      "learning_rate": 4.0865526939017176e-05,
      "loss": 0.764,
      "step": 7940
    },
    {
      "epoch": 0.79,
      "grad_norm": 2.8002758026123047,
      "learning_rate": 4.084702486678508e-05,
      "loss": 0.7479,
      "step": 7950
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.2762162685394287,
      "learning_rate": 4.082852279455299e-05,
      "loss": 0.7043,
      "step": 7960
    },
    {
      "epoch": 0.8,
      "grad_norm": 4.017598628997803,
      "learning_rate": 4.0810020722320904e-05,
      "loss": 0.6708,
      "step": 7970
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.5973875522613525,
      "learning_rate": 4.079151865008881e-05,
      "loss": 0.7703,
      "step": 7980
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.0258469581604004,
      "learning_rate": 4.077301657785672e-05,
      "loss": 0.7634,
      "step": 7990
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.086970329284668,
      "learning_rate": 4.075451450562463e-05,
      "loss": 0.6632,
      "step": 8000
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.122438430786133,
      "learning_rate": 4.073601243339254e-05,
      "loss": 0.6914,
      "step": 8010
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.2738826274871826,
      "learning_rate": 4.071751036116045e-05,
      "loss": 0.6985,
      "step": 8020
    },
    {
      "epoch": 0.8,
      "grad_norm": 3.590562582015991,
      "learning_rate": 4.0699008288928366e-05,
      "loss": 0.6668,
      "step": 8030
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.709895610809326,
      "learning_rate": 4.068050621669627e-05,
      "loss": 0.7312,
      "step": 8040
    },
    {
      "epoch": 0.8,
      "grad_norm": 2.737299919128418,
      "learning_rate": 4.066200414446418e-05,
      "loss": 0.6713,
      "step": 8050
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.7332022190093994,
      "learning_rate": 4.0643502072232093e-05,
      "loss": 0.6722,
      "step": 8060
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.0403268337249756,
      "learning_rate": 4.0625000000000005e-05,
      "loss": 0.7225,
      "step": 8070
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.9470479488372803,
      "learning_rate": 4.060649792776791e-05,
      "loss": 0.6596,
      "step": 8080
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.9079937934875488,
      "learning_rate": 4.058799585553582e-05,
      "loss": 0.6141,
      "step": 8090
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.714907646179199,
      "learning_rate": 4.056949378330373e-05,
      "loss": 0.7094,
      "step": 8100
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.4031879901885986,
      "learning_rate": 4.055099171107164e-05,
      "loss": 0.7352,
      "step": 8110
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.6782803535461426,
      "learning_rate": 4.0532489638839556e-05,
      "loss": 0.6756,
      "step": 8120
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.405510425567627,
      "learning_rate": 4.051398756660747e-05,
      "loss": 0.7295,
      "step": 8130
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.907303810119629,
      "learning_rate": 4.049548549437537e-05,
      "loss": 0.7633,
      "step": 8140
    },
    {
      "epoch": 0.81,
      "grad_norm": 2.9391021728515625,
      "learning_rate": 4.047698342214328e-05,
      "loss": 0.6538,
      "step": 8150
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.443737506866455,
      "learning_rate": 4.0458481349911195e-05,
      "loss": 0.6724,
      "step": 8160
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.584064245223999,
      "learning_rate": 4.04399792776791e-05,
      "loss": 0.7876,
      "step": 8170
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.431939125061035,
      "learning_rate": 4.042147720544701e-05,
      "loss": 0.7189,
      "step": 8180
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.9941608905792236,
      "learning_rate": 4.040297513321492e-05,
      "loss": 0.6281,
      "step": 8190
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.370363473892212,
      "learning_rate": 4.038447306098283e-05,
      "loss": 0.7187,
      "step": 8200
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.1996521949768066,
      "learning_rate": 4.036597098875074e-05,
      "loss": 0.6539,
      "step": 8210
    },
    {
      "epoch": 0.82,
      "grad_norm": 2.750889539718628,
      "learning_rate": 4.034746891651866e-05,
      "loss": 0.6748,
      "step": 8220
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.5755226612091064,
      "learning_rate": 4.032896684428656e-05,
      "loss": 0.6695,
      "step": 8230
    },
    {
      "epoch": 0.82,
      "grad_norm": 3.9970200061798096,
      "learning_rate": 4.031046477205447e-05,
      "loss": 0.7,
      "step": 8240
    },
    {
      "epoch": 0.82,
      "grad_norm": 5.130136966705322,
      "learning_rate": 4.0291962699822384e-05,
      "loss": 0.712,
      "step": 8250
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.364795207977295,
      "learning_rate": 4.0273460627590296e-05,
      "loss": 0.6278,
      "step": 8260
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.255390167236328,
      "learning_rate": 4.02549585553582e-05,
      "loss": 0.6101,
      "step": 8270
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.2750284671783447,
      "learning_rate": 4.023645648312611e-05,
      "loss": 0.725,
      "step": 8280
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.522221565246582,
      "learning_rate": 4.0217954410894024e-05,
      "loss": 0.6794,
      "step": 8290
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.956768751144409,
      "learning_rate": 4.019945233866193e-05,
      "loss": 0.6318,
      "step": 8300
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.4493567943573,
      "learning_rate": 4.018095026642984e-05,
      "loss": 0.7451,
      "step": 8310
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.709312677383423,
      "learning_rate": 4.016244819419776e-05,
      "loss": 0.645,
      "step": 8320
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.137434959411621,
      "learning_rate": 4.014394612196566e-05,
      "loss": 0.7364,
      "step": 8330
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.478536605834961,
      "learning_rate": 4.0125444049733574e-05,
      "loss": 0.7218,
      "step": 8340
    },
    {
      "epoch": 0.83,
      "grad_norm": 3.0276939868927,
      "learning_rate": 4.0106941977501486e-05,
      "loss": 0.6801,
      "step": 8350
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.8030710220336914,
      "learning_rate": 4.008843990526939e-05,
      "loss": 0.7039,
      "step": 8360
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.5732266902923584,
      "learning_rate": 4.00699378330373e-05,
      "loss": 0.6716,
      "step": 8370
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.9177465438842773,
      "learning_rate": 4.005143576080521e-05,
      "loss": 0.6694,
      "step": 8380
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.6514761447906494,
      "learning_rate": 4.003293368857312e-05,
      "loss": 0.7003,
      "step": 8390
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.974885940551758,
      "learning_rate": 4.001443161634103e-05,
      "loss": 0.6694,
      "step": 8400
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.4087789058685303,
      "learning_rate": 3.999592954410894e-05,
      "loss": 0.6038,
      "step": 8410
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.979226589202881,
      "learning_rate": 3.997742747187685e-05,
      "loss": 0.7639,
      "step": 8420
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.1408095359802246,
      "learning_rate": 3.9958925399644764e-05,
      "loss": 0.6848,
      "step": 8430
    },
    {
      "epoch": 0.84,
      "grad_norm": 3.216731309890747,
      "learning_rate": 3.9940423327412675e-05,
      "loss": 0.6937,
      "step": 8440
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.61850643157959,
      "learning_rate": 3.992192125518058e-05,
      "loss": 0.7375,
      "step": 8450
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.6858556270599365,
      "learning_rate": 3.990341918294849e-05,
      "loss": 0.7158,
      "step": 8460
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.293750286102295,
      "learning_rate": 3.98849171107164e-05,
      "loss": 0.7543,
      "step": 8470
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.2501158714294434,
      "learning_rate": 3.9866415038484315e-05,
      "loss": 0.7248,
      "step": 8480
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.5157229900360107,
      "learning_rate": 3.984791296625222e-05,
      "loss": 0.634,
      "step": 8490
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.928302049636841,
      "learning_rate": 3.982941089402013e-05,
      "loss": 0.6874,
      "step": 8500
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.5610949993133545,
      "learning_rate": 3.981090882178804e-05,
      "loss": 0.7042,
      "step": 8510
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.260753631591797,
      "learning_rate": 3.9792406749555954e-05,
      "loss": 0.7501,
      "step": 8520
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.702948570251465,
      "learning_rate": 3.9773904677323865e-05,
      "loss": 0.7273,
      "step": 8530
    },
    {
      "epoch": 0.85,
      "grad_norm": 2.547903299331665,
      "learning_rate": 3.975540260509178e-05,
      "loss": 0.7098,
      "step": 8540
    },
    {
      "epoch": 0.85,
      "grad_norm": 3.28859281539917,
      "learning_rate": 3.973690053285968e-05,
      "loss": 0.6878,
      "step": 8550
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.595850706100464,
      "learning_rate": 3.971839846062759e-05,
      "loss": 0.6604,
      "step": 8560
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.531613826751709,
      "learning_rate": 3.9699896388395504e-05,
      "loss": 0.7241,
      "step": 8570
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.845658302307129,
      "learning_rate": 3.968139431616341e-05,
      "loss": 0.7122,
      "step": 8580
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.1356287002563477,
      "learning_rate": 3.966289224393132e-05,
      "loss": 0.7523,
      "step": 8590
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.0163774490356445,
      "learning_rate": 3.964439017169923e-05,
      "loss": 0.6673,
      "step": 8600
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.0381124019622803,
      "learning_rate": 3.962588809946714e-05,
      "loss": 0.7,
      "step": 8610
    },
    {
      "epoch": 0.86,
      "grad_norm": 2.952058792114258,
      "learning_rate": 3.9607386027235055e-05,
      "loss": 0.6754,
      "step": 8620
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.0328359603881836,
      "learning_rate": 3.9588883955002966e-05,
      "loss": 0.7004,
      "step": 8630
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.840974807739258,
      "learning_rate": 3.957038188277087e-05,
      "loss": 0.6634,
      "step": 8640
    },
    {
      "epoch": 0.86,
      "grad_norm": 3.360800266265869,
      "learning_rate": 3.955187981053878e-05,
      "loss": 0.6903,
      "step": 8650
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.255812168121338,
      "learning_rate": 3.9533377738306694e-05,
      "loss": 0.6789,
      "step": 8660
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.91373348236084,
      "learning_rate": 3.9514875666074605e-05,
      "loss": 0.6198,
      "step": 8670
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.543733835220337,
      "learning_rate": 3.949637359384251e-05,
      "loss": 0.7394,
      "step": 8680
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.0398051738739014,
      "learning_rate": 3.947787152161042e-05,
      "loss": 0.7654,
      "step": 8690
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.8919241428375244,
      "learning_rate": 3.945936944937833e-05,
      "loss": 0.6931,
      "step": 8700
    },
    {
      "epoch": 0.87,
      "grad_norm": 2.9001657962799072,
      "learning_rate": 3.944086737714624e-05,
      "loss": 0.7549,
      "step": 8710
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.5956387519836426,
      "learning_rate": 3.9422365304914156e-05,
      "loss": 0.6944,
      "step": 8720
    },
    {
      "epoch": 0.87,
      "grad_norm": 3.5077672004699707,
      "learning_rate": 3.940386323268207e-05,
      "loss": 0.7655,
      "step": 8730
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.442770004272461,
      "learning_rate": 3.938536116044997e-05,
      "loss": 0.7139,
      "step": 8740
    },
    {
      "epoch": 0.87,
      "grad_norm": 4.000288486480713,
      "learning_rate": 3.9366859088217884e-05,
      "loss": 0.7245,
      "step": 8750
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.689286231994629,
      "learning_rate": 3.9348357015985795e-05,
      "loss": 0.5879,
      "step": 8760
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.401548385620117,
      "learning_rate": 3.93298549437537e-05,
      "loss": 0.6858,
      "step": 8770
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.448023796081543,
      "learning_rate": 3.931135287152161e-05,
      "loss": 0.6811,
      "step": 8780
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.2810890674591064,
      "learning_rate": 3.929285079928952e-05,
      "loss": 0.6794,
      "step": 8790
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.609715223312378,
      "learning_rate": 3.927434872705743e-05,
      "loss": 0.6504,
      "step": 8800
    },
    {
      "epoch": 0.88,
      "grad_norm": 2.9513227939605713,
      "learning_rate": 3.925584665482534e-05,
      "loss": 0.8283,
      "step": 8810
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.7401466369628906,
      "learning_rate": 3.923734458259326e-05,
      "loss": 0.7306,
      "step": 8820
    },
    {
      "epoch": 0.88,
      "grad_norm": 4.144277095794678,
      "learning_rate": 3.921884251036116e-05,
      "loss": 0.7268,
      "step": 8830
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.678297996520996,
      "learning_rate": 3.9200340438129074e-05,
      "loss": 0.692,
      "step": 8840
    },
    {
      "epoch": 0.88,
      "grad_norm": 3.707899808883667,
      "learning_rate": 3.9181838365896985e-05,
      "loss": 0.7075,
      "step": 8850
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.3677265644073486,
      "learning_rate": 3.916333629366489e-05,
      "loss": 0.7374,
      "step": 8860
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.220582962036133,
      "learning_rate": 3.91448342214328e-05,
      "loss": 0.7403,
      "step": 8870
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.3604612350463867,
      "learning_rate": 3.912633214920071e-05,
      "loss": 0.6923,
      "step": 8880
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.446706771850586,
      "learning_rate": 3.9107830076968624e-05,
      "loss": 0.7184,
      "step": 8890
    },
    {
      "epoch": 0.89,
      "grad_norm": 4.198021411895752,
      "learning_rate": 3.908932800473653e-05,
      "loss": 0.7518,
      "step": 8900
    },
    {
      "epoch": 0.89,
      "grad_norm": 2.9448413848876953,
      "learning_rate": 3.907082593250444e-05,
      "loss": 0.6894,
      "step": 8910
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.749976634979248,
      "learning_rate": 3.905232386027235e-05,
      "loss": 0.6867,
      "step": 8920
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.661350965499878,
      "learning_rate": 3.903382178804026e-05,
      "loss": 0.7022,
      "step": 8930
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.2905352115631104,
      "learning_rate": 3.9015319715808175e-05,
      "loss": 0.8061,
      "step": 8940
    },
    {
      "epoch": 0.89,
      "grad_norm": 3.825838565826416,
      "learning_rate": 3.8996817643576086e-05,
      "loss": 0.7062,
      "step": 8950
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.6496896743774414,
      "learning_rate": 3.897831557134399e-05,
      "loss": 0.6547,
      "step": 8960
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.662646770477295,
      "learning_rate": 3.89598134991119e-05,
      "loss": 0.7532,
      "step": 8970
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.2954490184783936,
      "learning_rate": 3.8941311426879814e-05,
      "loss": 0.665,
      "step": 8980
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.055861949920654,
      "learning_rate": 3.892280935464772e-05,
      "loss": 0.6996,
      "step": 8990
    },
    {
      "epoch": 0.9,
      "grad_norm": 2.7757158279418945,
      "learning_rate": 3.890430728241563e-05,
      "loss": 0.7302,
      "step": 9000
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.9842848777770996,
      "learning_rate": 3.888580521018354e-05,
      "loss": 0.6282,
      "step": 9010
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.4768214225769043,
      "learning_rate": 3.886730313795145e-05,
      "loss": 0.7549,
      "step": 9020
    },
    {
      "epoch": 0.9,
      "grad_norm": 4.035672664642334,
      "learning_rate": 3.8848801065719364e-05,
      "loss": 0.6994,
      "step": 9030
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.3320860862731934,
      "learning_rate": 3.8830298993487276e-05,
      "loss": 0.7162,
      "step": 9040
    },
    {
      "epoch": 0.9,
      "grad_norm": 3.0396978855133057,
      "learning_rate": 3.881179692125518e-05,
      "loss": 0.7393,
      "step": 9050
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.9914345741271973,
      "learning_rate": 3.879329484902309e-05,
      "loss": 0.7271,
      "step": 9060
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.2769615650177,
      "learning_rate": 3.8774792776791004e-05,
      "loss": 0.7251,
      "step": 9070
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.170062780380249,
      "learning_rate": 3.8756290704558915e-05,
      "loss": 0.6513,
      "step": 9080
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.977623224258423,
      "learning_rate": 3.873778863232682e-05,
      "loss": 0.6865,
      "step": 9090
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.7750723361968994,
      "learning_rate": 3.871928656009473e-05,
      "loss": 0.7091,
      "step": 9100
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.859572172164917,
      "learning_rate": 3.870078448786264e-05,
      "loss": 0.6574,
      "step": 9110
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.0711612701416016,
      "learning_rate": 3.8682282415630554e-05,
      "loss": 0.705,
      "step": 9120
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.5640811920166016,
      "learning_rate": 3.8663780343398466e-05,
      "loss": 0.6588,
      "step": 9130
    },
    {
      "epoch": 0.91,
      "grad_norm": 2.883946657180786,
      "learning_rate": 3.864527827116638e-05,
      "loss": 0.6356,
      "step": 9140
    },
    {
      "epoch": 0.91,
      "grad_norm": 3.4991910457611084,
      "learning_rate": 3.862677619893428e-05,
      "loss": 0.6477,
      "step": 9150
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.00874924659729,
      "learning_rate": 3.860827412670219e-05,
      "loss": 0.7504,
      "step": 9160
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.3327860832214355,
      "learning_rate": 3.8589772054470105e-05,
      "loss": 0.7586,
      "step": 9170
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.9025368690490723,
      "learning_rate": 3.857126998223801e-05,
      "loss": 0.7231,
      "step": 9180
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.2718677520751953,
      "learning_rate": 3.855276791000592e-05,
      "loss": 0.7191,
      "step": 9190
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.9135499000549316,
      "learning_rate": 3.853426583777383e-05,
      "loss": 0.7179,
      "step": 9200
    },
    {
      "epoch": 0.92,
      "grad_norm": 2.6807799339294434,
      "learning_rate": 3.851576376554174e-05,
      "loss": 0.7349,
      "step": 9210
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.3802340030670166,
      "learning_rate": 3.8497261693309655e-05,
      "loss": 0.6744,
      "step": 9220
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.354132652282715,
      "learning_rate": 3.847875962107757e-05,
      "loss": 0.6873,
      "step": 9230
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.371439218521118,
      "learning_rate": 3.846025754884547e-05,
      "loss": 0.6838,
      "step": 9240
    },
    {
      "epoch": 0.92,
      "grad_norm": 3.1483325958251953,
      "learning_rate": 3.844175547661338e-05,
      "loss": 0.7302,
      "step": 9250
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.71643328666687,
      "learning_rate": 3.8423253404381295e-05,
      "loss": 0.745,
      "step": 9260
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.9945173263549805,
      "learning_rate": 3.84047513321492e-05,
      "loss": 0.6158,
      "step": 9270
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.298778772354126,
      "learning_rate": 3.838624925991711e-05,
      "loss": 0.6807,
      "step": 9280
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.2233939170837402,
      "learning_rate": 3.836774718768502e-05,
      "loss": 0.7609,
      "step": 9290
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.4256768226623535,
      "learning_rate": 3.8349245115452934e-05,
      "loss": 0.6382,
      "step": 9300
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.616039514541626,
      "learning_rate": 3.833074304322084e-05,
      "loss": 0.7203,
      "step": 9310
    },
    {
      "epoch": 0.93,
      "grad_norm": 2.9548635482788086,
      "learning_rate": 3.831224097098876e-05,
      "loss": 0.8008,
      "step": 9320
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.125415563583374,
      "learning_rate": 3.829373889875666e-05,
      "loss": 0.7794,
      "step": 9330
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.6145691871643066,
      "learning_rate": 3.827523682652457e-05,
      "loss": 0.688,
      "step": 9340
    },
    {
      "epoch": 0.93,
      "grad_norm": 3.803590774536133,
      "learning_rate": 3.8256734754292484e-05,
      "loss": 0.6892,
      "step": 9350
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.3734872341156006,
      "learning_rate": 3.8238232682060396e-05,
      "loss": 0.7138,
      "step": 9360
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.400301456451416,
      "learning_rate": 3.82197306098283e-05,
      "loss": 0.6942,
      "step": 9370
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.9175925254821777,
      "learning_rate": 3.820122853759621e-05,
      "loss": 0.72,
      "step": 9380
    },
    {
      "epoch": 0.94,
      "grad_norm": 4.250988483428955,
      "learning_rate": 3.8182726465364123e-05,
      "loss": 0.6982,
      "step": 9390
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.927309036254883,
      "learning_rate": 3.816422439313203e-05,
      "loss": 0.6641,
      "step": 9400
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.631150722503662,
      "learning_rate": 3.814572232089994e-05,
      "loss": 0.6975,
      "step": 9410
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.9201819896698,
      "learning_rate": 3.812722024866786e-05,
      "loss": 0.7661,
      "step": 9420
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.9754297733306885,
      "learning_rate": 3.810871817643576e-05,
      "loss": 0.6357,
      "step": 9430
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.5603244304656982,
      "learning_rate": 3.8090216104203674e-05,
      "loss": 0.7026,
      "step": 9440
    },
    {
      "epoch": 0.94,
      "grad_norm": 3.5769381523132324,
      "learning_rate": 3.8071714031971586e-05,
      "loss": 0.7062,
      "step": 9450
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.252786159515381,
      "learning_rate": 3.805321195973949e-05,
      "loss": 0.775,
      "step": 9460
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.078734874725342,
      "learning_rate": 3.80347098875074e-05,
      "loss": 0.7075,
      "step": 9470
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.7544054985046387,
      "learning_rate": 3.801620781527531e-05,
      "loss": 0.6318,
      "step": 9480
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.777592658996582,
      "learning_rate": 3.7997705743043225e-05,
      "loss": 0.7559,
      "step": 9490
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.7361185550689697,
      "learning_rate": 3.797920367081113e-05,
      "loss": 0.6805,
      "step": 9500
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.472205400466919,
      "learning_rate": 3.796070159857904e-05,
      "loss": 0.6875,
      "step": 9510
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.4699065685272217,
      "learning_rate": 3.794219952634695e-05,
      "loss": 0.742,
      "step": 9520
    },
    {
      "epoch": 0.95,
      "grad_norm": 3.5510029792785645,
      "learning_rate": 3.7923697454114864e-05,
      "loss": 0.7143,
      "step": 9530
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.34071683883667,
      "learning_rate": 3.7905195381882775e-05,
      "loss": 0.6578,
      "step": 9540
    },
    {
      "epoch": 0.95,
      "grad_norm": 2.94657039642334,
      "learning_rate": 3.788669330965069e-05,
      "loss": 0.7347,
      "step": 9550
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.159726142883301,
      "learning_rate": 3.786819123741859e-05,
      "loss": 0.6969,
      "step": 9560
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.3791043758392334,
      "learning_rate": 3.78496891651865e-05,
      "loss": 0.8101,
      "step": 9570
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.210484027862549,
      "learning_rate": 3.7831187092954414e-05,
      "loss": 0.6992,
      "step": 9580
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.254465579986572,
      "learning_rate": 3.781268502072232e-05,
      "loss": 0.7236,
      "step": 9590
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.0058064460754395,
      "learning_rate": 3.779418294849023e-05,
      "loss": 0.6721,
      "step": 9600
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.5603253841400146,
      "learning_rate": 3.777568087625814e-05,
      "loss": 0.6635,
      "step": 9610
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.4826533794403076,
      "learning_rate": 3.7757178804026054e-05,
      "loss": 0.7098,
      "step": 9620
    },
    {
      "epoch": 0.96,
      "grad_norm": 4.009721755981445,
      "learning_rate": 3.7738676731793965e-05,
      "loss": 0.7492,
      "step": 9630
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.353595018386841,
      "learning_rate": 3.7720174659561877e-05,
      "loss": 0.7452,
      "step": 9640
    },
    {
      "epoch": 0.96,
      "grad_norm": 3.139503002166748,
      "learning_rate": 3.770167258732978e-05,
      "loss": 0.5973,
      "step": 9650
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.371108293533325,
      "learning_rate": 3.768317051509769e-05,
      "loss": 0.7255,
      "step": 9660
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.1213271617889404,
      "learning_rate": 3.7664668442865604e-05,
      "loss": 0.694,
      "step": 9670
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.7713840007781982,
      "learning_rate": 3.764616637063351e-05,
      "loss": 0.6477,
      "step": 9680
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.2583186626434326,
      "learning_rate": 3.762766429840142e-05,
      "loss": 0.689,
      "step": 9690
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.3795759677886963,
      "learning_rate": 3.760916222616933e-05,
      "loss": 0.7788,
      "step": 9700
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.709946632385254,
      "learning_rate": 3.759066015393724e-05,
      "loss": 0.6461,
      "step": 9710
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.4651758670806885,
      "learning_rate": 3.7572158081705155e-05,
      "loss": 0.7045,
      "step": 9720
    },
    {
      "epoch": 0.97,
      "grad_norm": 2.528712272644043,
      "learning_rate": 3.7553656009473066e-05,
      "loss": 0.7125,
      "step": 9730
    },
    {
      "epoch": 0.97,
      "grad_norm": 3.85544753074646,
      "learning_rate": 3.753515393724098e-05,
      "loss": 0.7093,
      "step": 9740
    },
    {
      "epoch": 0.97,
      "grad_norm": 4.1005706787109375,
      "learning_rate": 3.751665186500888e-05,
      "loss": 0.6977,
      "step": 9750
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.578944683074951,
      "learning_rate": 3.7498149792776794e-05,
      "loss": 0.7095,
      "step": 9760
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.9232137203216553,
      "learning_rate": 3.7479647720544705e-05,
      "loss": 0.6719,
      "step": 9770
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.859959602355957,
      "learning_rate": 3.746114564831261e-05,
      "loss": 0.6583,
      "step": 9780
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.29256272315979,
      "learning_rate": 3.744264357608052e-05,
      "loss": 0.6967,
      "step": 9790
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.185386896133423,
      "learning_rate": 3.742414150384843e-05,
      "loss": 0.6906,
      "step": 9800
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.5301074981689453,
      "learning_rate": 3.740563943161634e-05,
      "loss": 0.7094,
      "step": 9810
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.060410499572754,
      "learning_rate": 3.7387137359384256e-05,
      "loss": 0.6646,
      "step": 9820
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.3957197666168213,
      "learning_rate": 3.736863528715217e-05,
      "loss": 0.7129,
      "step": 9830
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.388462781906128,
      "learning_rate": 3.735013321492007e-05,
      "loss": 0.6175,
      "step": 9840
    },
    {
      "epoch": 0.98,
      "grad_norm": 3.594999074935913,
      "learning_rate": 3.7331631142687984e-05,
      "loss": 0.6917,
      "step": 9850
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.006159782409668,
      "learning_rate": 3.7313129070455895e-05,
      "loss": 0.6874,
      "step": 9860
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.2706339359283447,
      "learning_rate": 3.72946269982238e-05,
      "loss": 0.6714,
      "step": 9870
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.6119894981384277,
      "learning_rate": 3.727612492599171e-05,
      "loss": 0.6958,
      "step": 9880
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.798229694366455,
      "learning_rate": 3.725762285375962e-05,
      "loss": 0.6236,
      "step": 9890
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.0353028774261475,
      "learning_rate": 3.7239120781527534e-05,
      "loss": 0.6519,
      "step": 9900
    },
    {
      "epoch": 0.99,
      "grad_norm": 4.2288947105407715,
      "learning_rate": 3.722061870929544e-05,
      "loss": 0.6766,
      "step": 9910
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.935196876525879,
      "learning_rate": 3.720211663706336e-05,
      "loss": 0.7025,
      "step": 9920
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.6913864612579346,
      "learning_rate": 3.718361456483126e-05,
      "loss": 0.6921,
      "step": 9930
    },
    {
      "epoch": 0.99,
      "grad_norm": 3.2140910625457764,
      "learning_rate": 3.7165112492599173e-05,
      "loss": 0.6788,
      "step": 9940
    },
    {
      "epoch": 0.99,
      "grad_norm": 2.984436273574829,
      "learning_rate": 3.7146610420367085e-05,
      "loss": 0.696,
      "step": 9950
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.3226215839385986,
      "learning_rate": 3.7128108348134996e-05,
      "loss": 0.7141,
      "step": 9960
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.5949292182922363,
      "learning_rate": 3.71096062759029e-05,
      "loss": 0.7163,
      "step": 9970
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.041661262512207,
      "learning_rate": 3.709110420367081e-05,
      "loss": 0.6991,
      "step": 9980
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.442058801651001,
      "learning_rate": 3.7072602131438724e-05,
      "loss": 0.6825,
      "step": 9990
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.7761807441711426,
      "learning_rate": 3.705410005920663e-05,
      "loss": 0.8014,
      "step": 10000
    },
    {
      "epoch": 1.0,
      "eval_accuracy": 0.80524,
      "eval_loss": 0.7430065870285034,
      "eval_runtime": 1093.8871,
      "eval_samples_per_second": 45.709,
      "eval_steps_per_second": 1.429,
      "step": 10009
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.1181893348693848,
      "learning_rate": 3.703559798697454e-05,
      "loss": 0.6877,
      "step": 10010
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.7535245418548584,
      "learning_rate": 3.701709591474246e-05,
      "loss": 0.5918,
      "step": 10020
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.964733600616455,
      "learning_rate": 3.699859384251036e-05,
      "loss": 0.6416,
      "step": 10030
    },
    {
      "epoch": 1.0,
      "grad_norm": 2.8820981979370117,
      "learning_rate": 3.6980091770278275e-05,
      "loss": 0.6773,
      "step": 10040
    },
    {
      "epoch": 1.0,
      "grad_norm": 3.5077693462371826,
      "learning_rate": 3.6961589698046186e-05,
      "loss": 0.7045,
      "step": 10050
    },
    {
      "epoch": 1.01,
      "grad_norm": 3.211270332336426,
      "learning_rate": 3.694308762581409e-05,
      "loss": 0.565,
      "step": 10060
    },
    {
      "epoch": 1.01,
      "grad_norm": 3.5224015712738037,
      "learning_rate": 3.6924585553582e-05,
      "loss": 0.5422,
      "step": 10070
    },
    {
      "epoch": 1.01,
      "grad_norm": 2.9345641136169434,
      "learning_rate": 3.6906083481349914e-05,
      "loss": 0.6643,
      "step": 10080
    },
    {
      "epoch": 1.01,
      "grad_norm": 3.099191904067993,
      "learning_rate": 3.688758140911782e-05,
      "loss": 0.6138,
      "step": 10090
    },
    {
      "epoch": 1.01,
      "grad_norm": 3.485200881958008,
      "learning_rate": 3.686907933688573e-05,
      "loss": 0.6426,
      "step": 10100
    },
    {
      "epoch": 1.01,
      "grad_norm": 2.566310167312622,
      "learning_rate": 3.685057726465364e-05,
      "loss": 0.6582,
      "step": 10110
    },
    {
      "epoch": 1.01,
      "grad_norm": 3.4499053955078125,
      "learning_rate": 3.683207519242155e-05,
      "loss": 0.6675,
      "step": 10120
    },
    {
      "epoch": 1.01,
      "grad_norm": 3.525655508041382,
      "learning_rate": 3.6813573120189464e-05,
      "loss": 0.6705,
      "step": 10130
    },
    {
      "epoch": 1.01,
      "grad_norm": 3.427734136581421,
      "learning_rate": 3.6795071047957376e-05,
      "loss": 0.5946,
      "step": 10140
    },
    {
      "epoch": 1.01,
      "grad_norm": 3.6131081581115723,
      "learning_rate": 3.677656897572529e-05,
      "loss": 0.6778,
      "step": 10150
    },
    {
      "epoch": 1.02,
      "grad_norm": 2.5527448654174805,
      "learning_rate": 3.675806690349319e-05,
      "loss": 0.6505,
      "step": 10160
    },
    {
      "epoch": 1.02,
      "grad_norm": 2.3502860069274902,
      "learning_rate": 3.6739564831261104e-05,
      "loss": 0.699,
      "step": 10170
    },
    {
      "epoch": 1.02,
      "grad_norm": 2.657069444656372,
      "learning_rate": 3.6721062759029015e-05,
      "loss": 0.6968,
      "step": 10180
    },
    {
      "epoch": 1.02,
      "grad_norm": 2.981180429458618,
      "learning_rate": 3.670256068679692e-05,
      "loss": 0.6185,
      "step": 10190
    },
    {
      "epoch": 1.02,
      "grad_norm": 3.0769989490509033,
      "learning_rate": 3.668405861456483e-05,
      "loss": 0.6648,
      "step": 10200
    },
    {
      "epoch": 1.02,
      "grad_norm": 3.680899143218994,
      "learning_rate": 3.666555654233274e-05,
      "loss": 0.6226,
      "step": 10210
    },
    {
      "epoch": 1.02,
      "grad_norm": 3.560539722442627,
      "learning_rate": 3.6647054470100654e-05,
      "loss": 0.6728,
      "step": 10220
    },
    {
      "epoch": 1.02,
      "grad_norm": 3.3931691646575928,
      "learning_rate": 3.6628552397868566e-05,
      "loss": 0.5831,
      "step": 10230
    },
    {
      "epoch": 1.02,
      "grad_norm": 3.147226572036743,
      "learning_rate": 3.661005032563648e-05,
      "loss": 0.6562,
      "step": 10240
    },
    {
      "epoch": 1.02,
      "grad_norm": 3.3510067462921143,
      "learning_rate": 3.659154825340438e-05,
      "loss": 0.6052,
      "step": 10250
    },
    {
      "epoch": 1.03,
      "grad_norm": 3.4114606380462646,
      "learning_rate": 3.657304618117229e-05,
      "loss": 0.68,
      "step": 10260
    },
    {
      "epoch": 1.03,
      "grad_norm": 4.236805438995361,
      "learning_rate": 3.6554544108940205e-05,
      "loss": 0.6672,
      "step": 10270
    },
    {
      "epoch": 1.03,
      "grad_norm": 2.9539339542388916,
      "learning_rate": 3.653604203670811e-05,
      "loss": 0.6113,
      "step": 10280
    },
    {
      "epoch": 1.03,
      "grad_norm": 2.614046812057495,
      "learning_rate": 3.651753996447602e-05,
      "loss": 0.682,
      "step": 10290
    },
    {
      "epoch": 1.03,
      "grad_norm": 3.0388906002044678,
      "learning_rate": 3.649903789224393e-05,
      "loss": 0.6725,
      "step": 10300
    },
    {
      "epoch": 1.03,
      "grad_norm": 3.154029369354248,
      "learning_rate": 3.6480535820011844e-05,
      "loss": 0.6126,
      "step": 10310
    },
    {
      "epoch": 1.03,
      "grad_norm": 4.12540340423584,
      "learning_rate": 3.6462033747779755e-05,
      "loss": 0.6112,
      "step": 10320
    },
    {
      "epoch": 1.03,
      "grad_norm": 2.8442752361297607,
      "learning_rate": 3.644353167554767e-05,
      "loss": 0.638,
      "step": 10330
    },
    {
      "epoch": 1.03,
      "grad_norm": 3.3814101219177246,
      "learning_rate": 3.642502960331557e-05,
      "loss": 0.6669,
      "step": 10340
    },
    {
      "epoch": 1.03,
      "grad_norm": 3.7424614429473877,
      "learning_rate": 3.640652753108348e-05,
      "loss": 0.6511,
      "step": 10350
    },
    {
      "epoch": 1.04,
      "grad_norm": 2.9579248428344727,
      "learning_rate": 3.6388025458851395e-05,
      "loss": 0.5946,
      "step": 10360
    },
    {
      "epoch": 1.04,
      "grad_norm": 2.9333860874176025,
      "learning_rate": 3.6369523386619306e-05,
      "loss": 0.6456,
      "step": 10370
    },
    {
      "epoch": 1.04,
      "grad_norm": 3.0744147300720215,
      "learning_rate": 3.635102131438721e-05,
      "loss": 0.7364,
      "step": 10380
    },
    {
      "epoch": 1.04,
      "grad_norm": 3.5439300537109375,
      "learning_rate": 3.633251924215512e-05,
      "loss": 0.6168,
      "step": 10390
    },
    {
      "epoch": 1.04,
      "grad_norm": 2.586587429046631,
      "learning_rate": 3.6314017169923034e-05,
      "loss": 0.6107,
      "step": 10400
    },
    {
      "epoch": 1.04,
      "grad_norm": 2.92362642288208,
      "learning_rate": 3.629551509769094e-05,
      "loss": 0.5799,
      "step": 10410
    },
    {
      "epoch": 1.04,
      "grad_norm": 7.072276592254639,
      "learning_rate": 3.627701302545886e-05,
      "loss": 0.6614,
      "step": 10420
    },
    {
      "epoch": 1.04,
      "grad_norm": 2.761164903640747,
      "learning_rate": 3.625851095322677e-05,
      "loss": 0.5981,
      "step": 10430
    },
    {
      "epoch": 1.04,
      "grad_norm": 3.096622943878174,
      "learning_rate": 3.624000888099467e-05,
      "loss": 0.6559,
      "step": 10440
    },
    {
      "epoch": 1.04,
      "grad_norm": 3.255768060684204,
      "learning_rate": 3.6221506808762584e-05,
      "loss": 0.7148,
      "step": 10450
    },
    {
      "epoch": 1.05,
      "grad_norm": 3.0588650703430176,
      "learning_rate": 3.6203004736530496e-05,
      "loss": 0.6346,
      "step": 10460
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.158717155456543,
      "learning_rate": 3.61845026642984e-05,
      "loss": 0.5729,
      "step": 10470
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.8936245441436768,
      "learning_rate": 3.616600059206631e-05,
      "loss": 0.5909,
      "step": 10480
    },
    {
      "epoch": 1.05,
      "grad_norm": 3.4045350551605225,
      "learning_rate": 3.6147498519834223e-05,
      "loss": 0.6304,
      "step": 10490
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.8016343116760254,
      "learning_rate": 3.612899644760213e-05,
      "loss": 0.5888,
      "step": 10500
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.6956419944763184,
      "learning_rate": 3.611049437537004e-05,
      "loss": 0.6325,
      "step": 10510
    },
    {
      "epoch": 1.05,
      "grad_norm": 3.260124683380127,
      "learning_rate": 3.609199230313796e-05,
      "loss": 0.6364,
      "step": 10520
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.809405565261841,
      "learning_rate": 3.607349023090586e-05,
      "loss": 0.6122,
      "step": 10530
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.4191246032714844,
      "learning_rate": 3.6054988158673774e-05,
      "loss": 0.6153,
      "step": 10540
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.639845132827759,
      "learning_rate": 3.6036486086441686e-05,
      "loss": 0.665,
      "step": 10550
    },
    {
      "epoch": 1.06,
      "grad_norm": 3.06502103805542,
      "learning_rate": 3.60179840142096e-05,
      "loss": 0.6474,
      "step": 10560
    },
    {
      "epoch": 1.06,
      "grad_norm": 3.296661138534546,
      "learning_rate": 3.59994819419775e-05,
      "loss": 0.6473,
      "step": 10570
    },
    {
      "epoch": 1.06,
      "grad_norm": 2.80055832862854,
      "learning_rate": 3.598097986974541e-05,
      "loss": 0.6053,
      "step": 10580
    },
    {
      "epoch": 1.06,
      "grad_norm": 4.42303466796875,
      "learning_rate": 3.5962477797513325e-05,
      "loss": 0.6489,
      "step": 10590
    },
    {
      "epoch": 1.06,
      "grad_norm": 3.225330114364624,
      "learning_rate": 3.594397572528123e-05,
      "loss": 0.6327,
      "step": 10600
    },
    {
      "epoch": 1.06,
      "grad_norm": 3.0779612064361572,
      "learning_rate": 3.592547365304914e-05,
      "loss": 0.6498,
      "step": 10610
    },
    {
      "epoch": 1.06,
      "grad_norm": 2.700340509414673,
      "learning_rate": 3.590697158081706e-05,
      "loss": 0.6496,
      "step": 10620
    },
    {
      "epoch": 1.06,
      "grad_norm": 2.890972137451172,
      "learning_rate": 3.5888469508584964e-05,
      "loss": 0.6146,
      "step": 10630
    },
    {
      "epoch": 1.06,
      "grad_norm": 3.008657932281494,
      "learning_rate": 3.5869967436352875e-05,
      "loss": 0.6497,
      "step": 10640
    },
    {
      "epoch": 1.06,
      "grad_norm": 2.6230437755584717,
      "learning_rate": 3.585146536412079e-05,
      "loss": 0.583,
      "step": 10650
    },
    {
      "epoch": 1.07,
      "grad_norm": 3.891068696975708,
      "learning_rate": 3.583296329188869e-05,
      "loss": 0.6136,
      "step": 10660
    },
    {
      "epoch": 1.07,
      "grad_norm": 4.340550422668457,
      "learning_rate": 3.58144612196566e-05,
      "loss": 0.6297,
      "step": 10670
    },
    {
      "epoch": 1.07,
      "grad_norm": 2.5153660774230957,
      "learning_rate": 3.5795959147424514e-05,
      "loss": 0.6101,
      "step": 10680
    },
    {
      "epoch": 1.07,
      "grad_norm": 9.326394081115723,
      "learning_rate": 3.577745707519242e-05,
      "loss": 0.5657,
      "step": 10690
    },
    {
      "epoch": 1.07,
      "grad_norm": 3.0182595252990723,
      "learning_rate": 3.575895500296033e-05,
      "loss": 0.6149,
      "step": 10700
    },
    {
      "epoch": 1.07,
      "grad_norm": 3.623122215270996,
      "learning_rate": 3.574045293072824e-05,
      "loss": 0.6983,
      "step": 10710
    },
    {
      "epoch": 1.07,
      "grad_norm": 3.878861427307129,
      "learning_rate": 3.5721950858496154e-05,
      "loss": 0.6189,
      "step": 10720
    },
    {
      "epoch": 1.07,
      "grad_norm": 3.781388521194458,
      "learning_rate": 3.5703448786264065e-05,
      "loss": 0.7018,
      "step": 10730
    },
    {
      "epoch": 1.07,
      "grad_norm": 3.463426351547241,
      "learning_rate": 3.5684946714031976e-05,
      "loss": 0.6446,
      "step": 10740
    },
    {
      "epoch": 1.07,
      "grad_norm": 3.1662182807922363,
      "learning_rate": 3.566644464179988e-05,
      "loss": 0.6524,
      "step": 10750
    },
    {
      "epoch": 1.08,
      "grad_norm": 3.1254653930664062,
      "learning_rate": 3.564794256956779e-05,
      "loss": 0.5778,
      "step": 10760
    },
    {
      "epoch": 1.08,
      "grad_norm": 3.391824960708618,
      "learning_rate": 3.5629440497335704e-05,
      "loss": 0.5968,
      "step": 10770
    },
    {
      "epoch": 1.08,
      "grad_norm": 3.9026334285736084,
      "learning_rate": 3.5610938425103616e-05,
      "loss": 0.6671,
      "step": 10780
    },
    {
      "epoch": 1.08,
      "grad_norm": 2.893352746963501,
      "learning_rate": 3.559243635287152e-05,
      "loss": 0.6432,
      "step": 10790
    },
    {
      "epoch": 1.08,
      "grad_norm": 2.801680326461792,
      "learning_rate": 3.557393428063943e-05,
      "loss": 0.7129,
      "step": 10800
    },
    {
      "epoch": 1.08,
      "grad_norm": 2.916677474975586,
      "learning_rate": 3.555543220840734e-05,
      "loss": 0.6207,
      "step": 10810
    },
    {
      "epoch": 1.08,
      "grad_norm": 3.3339462280273438,
      "learning_rate": 3.5536930136175255e-05,
      "loss": 0.7035,
      "step": 10820
    },
    {
      "epoch": 1.08,
      "grad_norm": 3.398240804672241,
      "learning_rate": 3.5518428063943166e-05,
      "loss": 0.5917,
      "step": 10830
    },
    {
      "epoch": 1.08,
      "grad_norm": 3.411691665649414,
      "learning_rate": 3.549992599171108e-05,
      "loss": 0.6079,
      "step": 10840
    },
    {
      "epoch": 1.08,
      "grad_norm": 3.334026336669922,
      "learning_rate": 3.548142391947898e-05,
      "loss": 0.6618,
      "step": 10850
    },
    {
      "epoch": 1.08,
      "grad_norm": 3.1054089069366455,
      "learning_rate": 3.5462921847246894e-05,
      "loss": 0.6323,
      "step": 10860
    },
    {
      "epoch": 1.09,
      "grad_norm": 3.285814046859741,
      "learning_rate": 3.5444419775014805e-05,
      "loss": 0.6799,
      "step": 10870
    },
    {
      "epoch": 1.09,
      "grad_norm": 2.8195531368255615,
      "learning_rate": 3.542591770278271e-05,
      "loss": 0.6209,
      "step": 10880
    },
    {
      "epoch": 1.09,
      "grad_norm": 3.518054723739624,
      "learning_rate": 3.540741563055062e-05,
      "loss": 0.6904,
      "step": 10890
    },
    {
      "epoch": 1.09,
      "grad_norm": 3.485314130783081,
      "learning_rate": 3.538891355831853e-05,
      "loss": 0.6217,
      "step": 10900
    },
    {
      "epoch": 1.09,
      "grad_norm": 3.5836002826690674,
      "learning_rate": 3.537041148608644e-05,
      "loss": 0.6625,
      "step": 10910
    },
    {
      "epoch": 1.09,
      "grad_norm": 3.978917360305786,
      "learning_rate": 3.5351909413854356e-05,
      "loss": 0.6764,
      "step": 10920
    },
    {
      "epoch": 1.09,
      "grad_norm": 3.8693044185638428,
      "learning_rate": 3.533340734162227e-05,
      "loss": 0.5939,
      "step": 10930
    },
    {
      "epoch": 1.09,
      "grad_norm": 2.804370641708374,
      "learning_rate": 3.531490526939017e-05,
      "loss": 0.6707,
      "step": 10940
    },
    {
      "epoch": 1.09,
      "grad_norm": 2.834616184234619,
      "learning_rate": 3.5296403197158084e-05,
      "loss": 0.6691,
      "step": 10950
    },
    {
      "epoch": 1.09,
      "grad_norm": 3.122694969177246,
      "learning_rate": 3.5277901124925995e-05,
      "loss": 0.7253,
      "step": 10960
    },
    {
      "epoch": 1.1,
      "grad_norm": 3.8774213790893555,
      "learning_rate": 3.5259399052693907e-05,
      "loss": 0.6685,
      "step": 10970
    },
    {
      "epoch": 1.1,
      "grad_norm": 3.316446542739868,
      "learning_rate": 3.524089698046181e-05,
      "loss": 0.6788,
      "step": 10980
    },
    {
      "epoch": 1.1,
      "grad_norm": 3.1040635108947754,
      "learning_rate": 3.522239490822972e-05,
      "loss": 0.644,
      "step": 10990
    },
    {
      "epoch": 1.1,
      "grad_norm": 3.3823344707489014,
      "learning_rate": 3.5203892835997634e-05,
      "loss": 0.7056,
      "step": 11000
    },
    {
      "epoch": 1.1,
      "grad_norm": 3.407257556915283,
      "learning_rate": 3.518539076376554e-05,
      "loss": 0.6835,
      "step": 11010
    },
    {
      "epoch": 1.1,
      "grad_norm": 3.2743570804595947,
      "learning_rate": 3.516688869153346e-05,
      "loss": 0.7234,
      "step": 11020
    },
    {
      "epoch": 1.1,
      "grad_norm": 4.126183032989502,
      "learning_rate": 3.514838661930137e-05,
      "loss": 0.7041,
      "step": 11030
    },
    {
      "epoch": 1.1,
      "grad_norm": 2.548957586288452,
      "learning_rate": 3.5129884547069273e-05,
      "loss": 0.6143,
      "step": 11040
    },
    {
      "epoch": 1.1,
      "grad_norm": 3.4543380737304688,
      "learning_rate": 3.5111382474837185e-05,
      "loss": 0.5629,
      "step": 11050
    },
    {
      "epoch": 1.1,
      "grad_norm": 2.704160690307617,
      "learning_rate": 3.5092880402605096e-05,
      "loss": 0.5765,
      "step": 11060
    },
    {
      "epoch": 1.11,
      "grad_norm": 3.4310379028320312,
      "learning_rate": 3.5074378330373e-05,
      "loss": 0.593,
      "step": 11070
    },
    {
      "epoch": 1.11,
      "grad_norm": 2.764085292816162,
      "learning_rate": 3.505587625814091e-05,
      "loss": 0.6639,
      "step": 11080
    },
    {
      "epoch": 1.11,
      "grad_norm": 3.2846081256866455,
      "learning_rate": 3.5037374185908824e-05,
      "loss": 0.6506,
      "step": 11090
    },
    {
      "epoch": 1.11,
      "grad_norm": 2.892465591430664,
      "learning_rate": 3.501887211367673e-05,
      "loss": 0.6011,
      "step": 11100
    },
    {
      "epoch": 1.11,
      "grad_norm": 3.417182445526123,
      "learning_rate": 3.500037004144464e-05,
      "loss": 0.6654,
      "step": 11110
    },
    {
      "epoch": 1.11,
      "grad_norm": 3.7286770343780518,
      "learning_rate": 3.498186796921256e-05,
      "loss": 0.7057,
      "step": 11120
    },
    {
      "epoch": 1.11,
      "grad_norm": 3.255378484725952,
      "learning_rate": 3.496336589698046e-05,
      "loss": 0.6556,
      "step": 11130
    },
    {
      "epoch": 1.11,
      "grad_norm": 3.848623514175415,
      "learning_rate": 3.4944863824748375e-05,
      "loss": 0.6995,
      "step": 11140
    },
    {
      "epoch": 1.11,
      "grad_norm": 3.612989902496338,
      "learning_rate": 3.4926361752516286e-05,
      "loss": 0.6878,
      "step": 11150
    },
    {
      "epoch": 1.11,
      "grad_norm": 3.2082748413085938,
      "learning_rate": 3.490785968028419e-05,
      "loss": 0.6881,
      "step": 11160
    },
    {
      "epoch": 1.12,
      "grad_norm": 2.800450563430786,
      "learning_rate": 3.48893576080521e-05,
      "loss": 0.6576,
      "step": 11170
    },
    {
      "epoch": 1.12,
      "grad_norm": 3.991353750228882,
      "learning_rate": 3.4870855535820014e-05,
      "loss": 0.6953,
      "step": 11180
    },
    {
      "epoch": 1.12,
      "grad_norm": 2.3713061809539795,
      "learning_rate": 3.4852353463587925e-05,
      "loss": 0.6955,
      "step": 11190
    },
    {
      "epoch": 1.12,
      "grad_norm": 3.326631546020508,
      "learning_rate": 3.483385139135583e-05,
      "loss": 0.7575,
      "step": 11200
    },
    {
      "epoch": 1.12,
      "grad_norm": 2.9334118366241455,
      "learning_rate": 3.481534931912374e-05,
      "loss": 0.7323,
      "step": 11210
    },
    {
      "epoch": 1.12,
      "grad_norm": 3.160457134246826,
      "learning_rate": 3.479684724689165e-05,
      "loss": 0.6321,
      "step": 11220
    },
    {
      "epoch": 1.12,
      "grad_norm": 3.13979434967041,
      "learning_rate": 3.4778345174659564e-05,
      "loss": 0.6276,
      "step": 11230
    },
    {
      "epoch": 1.12,
      "grad_norm": 3.1074936389923096,
      "learning_rate": 3.4759843102427476e-05,
      "loss": 0.5905,
      "step": 11240
    },
    {
      "epoch": 1.12,
      "grad_norm": 3.0382590293884277,
      "learning_rate": 3.474134103019539e-05,
      "loss": 0.6395,
      "step": 11250
    },
    {
      "epoch": 1.12,
      "grad_norm": 3.154359817504883,
      "learning_rate": 3.472283895796329e-05,
      "loss": 0.6637,
      "step": 11260
    },
    {
      "epoch": 1.13,
      "grad_norm": 3.232880115509033,
      "learning_rate": 3.4704336885731204e-05,
      "loss": 0.6254,
      "step": 11270
    },
    {
      "epoch": 1.13,
      "grad_norm": 2.740191698074341,
      "learning_rate": 3.4685834813499115e-05,
      "loss": 0.6687,
      "step": 11280
    },
    {
      "epoch": 1.13,
      "grad_norm": 3.7838189601898193,
      "learning_rate": 3.466733274126702e-05,
      "loss": 0.6032,
      "step": 11290
    },
    {
      "epoch": 1.13,
      "grad_norm": 3.0825300216674805,
      "learning_rate": 3.464883066903493e-05,
      "loss": 0.6388,
      "step": 11300
    },
    {
      "epoch": 1.13,
      "grad_norm": 3.323312997817993,
      "learning_rate": 3.463032859680284e-05,
      "loss": 0.6223,
      "step": 11310
    },
    {
      "epoch": 1.13,
      "grad_norm": 3.3909971714019775,
      "learning_rate": 3.4611826524570754e-05,
      "loss": 0.6536,
      "step": 11320
    },
    {
      "epoch": 1.13,
      "grad_norm": 3.4785690307617188,
      "learning_rate": 3.4593324452338666e-05,
      "loss": 0.6614,
      "step": 11330
    },
    {
      "epoch": 1.13,
      "grad_norm": 2.6674859523773193,
      "learning_rate": 3.457482238010658e-05,
      "loss": 0.6056,
      "step": 11340
    },
    {
      "epoch": 1.13,
      "grad_norm": 3.0986225605010986,
      "learning_rate": 3.455632030787448e-05,
      "loss": 0.6337,
      "step": 11350
    },
    {
      "epoch": 1.13,
      "grad_norm": 3.749635934829712,
      "learning_rate": 3.453781823564239e-05,
      "loss": 0.6292,
      "step": 11360
    },
    {
      "epoch": 1.14,
      "grad_norm": 2.5264360904693604,
      "learning_rate": 3.4519316163410305e-05,
      "loss": 0.6263,
      "step": 11370
    },
    {
      "epoch": 1.14,
      "grad_norm": 3.5325794219970703,
      "learning_rate": 3.4500814091178216e-05,
      "loss": 0.7291,
      "step": 11380
    },
    {
      "epoch": 1.14,
      "grad_norm": 3.9753777980804443,
      "learning_rate": 3.448231201894612e-05,
      "loss": 0.5904,
      "step": 11390
    },
    {
      "epoch": 1.14,
      "grad_norm": 3.6549832820892334,
      "learning_rate": 3.446380994671403e-05,
      "loss": 0.6038,
      "step": 11400
    },
    {
      "epoch": 1.14,
      "grad_norm": 3.207801580429077,
      "learning_rate": 3.4445307874481944e-05,
      "loss": 0.6374,
      "step": 11410
    },
    {
      "epoch": 1.14,
      "grad_norm": 2.2447080612182617,
      "learning_rate": 3.4426805802249855e-05,
      "loss": 0.6076,
      "step": 11420
    },
    {
      "epoch": 1.14,
      "grad_norm": 3.9362998008728027,
      "learning_rate": 3.440830373001777e-05,
      "loss": 0.6986,
      "step": 11430
    },
    {
      "epoch": 1.14,
      "grad_norm": 3.9222657680511475,
      "learning_rate": 3.438980165778568e-05,
      "loss": 0.6965,
      "step": 11440
    },
    {
      "epoch": 1.14,
      "grad_norm": 3.42958927154541,
      "learning_rate": 3.437129958555358e-05,
      "loss": 0.6713,
      "step": 11450
    },
    {
      "epoch": 1.14,
      "grad_norm": 3.7808573246002197,
      "learning_rate": 3.4352797513321494e-05,
      "loss": 0.6813,
      "step": 11460
    },
    {
      "epoch": 1.15,
      "grad_norm": 3.624952793121338,
      "learning_rate": 3.4334295441089406e-05,
      "loss": 0.6201,
      "step": 11470
    },
    {
      "epoch": 1.15,
      "grad_norm": 3.5665152072906494,
      "learning_rate": 3.431579336885731e-05,
      "loss": 0.585,
      "step": 11480
    },
    {
      "epoch": 1.15,
      "grad_norm": 3.1151187419891357,
      "learning_rate": 3.429729129662522e-05,
      "loss": 0.6114,
      "step": 11490
    },
    {
      "epoch": 1.15,
      "grad_norm": 3.2215003967285156,
      "learning_rate": 3.4278789224393134e-05,
      "loss": 0.6597,
      "step": 11500
    },
    {
      "epoch": 1.15,
      "grad_norm": 3.2068936824798584,
      "learning_rate": 3.426028715216104e-05,
      "loss": 0.5239,
      "step": 11510
    },
    {
      "epoch": 1.15,
      "grad_norm": 2.681844472885132,
      "learning_rate": 3.4241785079928957e-05,
      "loss": 0.6331,
      "step": 11520
    },
    {
      "epoch": 1.15,
      "grad_norm": 3.0798354148864746,
      "learning_rate": 3.422328300769687e-05,
      "loss": 0.6102,
      "step": 11530
    },
    {
      "epoch": 1.15,
      "grad_norm": 4.660195827484131,
      "learning_rate": 3.420478093546477e-05,
      "loss": 0.7028,
      "step": 11540
    },
    {
      "epoch": 1.15,
      "grad_norm": 3.261040449142456,
      "learning_rate": 3.4186278863232684e-05,
      "loss": 0.5954,
      "step": 11550
    },
    {
      "epoch": 1.15,
      "grad_norm": 4.253509044647217,
      "learning_rate": 3.4167776791000596e-05,
      "loss": 0.665,
      "step": 11560
    },
    {
      "epoch": 1.16,
      "grad_norm": 2.94742488861084,
      "learning_rate": 3.41492747187685e-05,
      "loss": 0.622,
      "step": 11570
    },
    {
      "epoch": 1.16,
      "grad_norm": 2.973891496658325,
      "learning_rate": 3.413077264653641e-05,
      "loss": 0.655,
      "step": 11580
    },
    {
      "epoch": 1.16,
      "grad_norm": 3.796238660812378,
      "learning_rate": 3.411227057430432e-05,
      "loss": 0.6284,
      "step": 11590
    },
    {
      "epoch": 1.16,
      "grad_norm": 4.168126583099365,
      "learning_rate": 3.4093768502072235e-05,
      "loss": 0.6942,
      "step": 11600
    },
    {
      "epoch": 1.16,
      "grad_norm": 2.8195130825042725,
      "learning_rate": 3.407526642984014e-05,
      "loss": 0.6355,
      "step": 11610
    },
    {
      "epoch": 1.16,
      "grad_norm": 3.756375551223755,
      "learning_rate": 3.405676435760806e-05,
      "loss": 0.6452,
      "step": 11620
    },
    {
      "epoch": 1.16,
      "grad_norm": 3.1298201084136963,
      "learning_rate": 3.403826228537596e-05,
      "loss": 0.6282,
      "step": 11630
    },
    {
      "epoch": 1.16,
      "grad_norm": 4.013066291809082,
      "learning_rate": 3.4019760213143874e-05,
      "loss": 0.6276,
      "step": 11640
    },
    {
      "epoch": 1.16,
      "grad_norm": 3.121164560317993,
      "learning_rate": 3.4001258140911785e-05,
      "loss": 0.7248,
      "step": 11650
    },
    {
      "epoch": 1.16,
      "grad_norm": 4.080761432647705,
      "learning_rate": 3.39827560686797e-05,
      "loss": 0.637,
      "step": 11660
    },
    {
      "epoch": 1.17,
      "grad_norm": 4.154942512512207,
      "learning_rate": 3.39642539964476e-05,
      "loss": 0.6446,
      "step": 11670
    },
    {
      "epoch": 1.17,
      "grad_norm": 2.8643150329589844,
      "learning_rate": 3.394575192421551e-05,
      "loss": 0.6503,
      "step": 11680
    },
    {
      "epoch": 1.17,
      "grad_norm": 3.4520106315612793,
      "learning_rate": 3.3927249851983425e-05,
      "loss": 0.6579,
      "step": 11690
    },
    {
      "epoch": 1.17,
      "grad_norm": 3.031409978866577,
      "learning_rate": 3.390874777975133e-05,
      "loss": 0.6579,
      "step": 11700
    },
    {
      "epoch": 1.17,
      "grad_norm": 3.9099950790405273,
      "learning_rate": 3.389024570751924e-05,
      "loss": 0.709,
      "step": 11710
    },
    {
      "epoch": 1.17,
      "grad_norm": 2.6982858180999756,
      "learning_rate": 3.387174363528716e-05,
      "loss": 0.6634,
      "step": 11720
    },
    {
      "epoch": 1.17,
      "grad_norm": 2.4696218967437744,
      "learning_rate": 3.3853241563055064e-05,
      "loss": 0.625,
      "step": 11730
    },
    {
      "epoch": 1.17,
      "grad_norm": 2.751220464706421,
      "learning_rate": 3.3834739490822975e-05,
      "loss": 0.5831,
      "step": 11740
    },
    {
      "epoch": 1.17,
      "grad_norm": 3.111224889755249,
      "learning_rate": 3.381623741859089e-05,
      "loss": 0.618,
      "step": 11750
    },
    {
      "epoch": 1.17,
      "grad_norm": 2.989543914794922,
      "learning_rate": 3.379773534635879e-05,
      "loss": 0.6072,
      "step": 11760
    },
    {
      "epoch": 1.18,
      "grad_norm": 3.4094650745391846,
      "learning_rate": 3.37792332741267e-05,
      "loss": 0.6377,
      "step": 11770
    },
    {
      "epoch": 1.18,
      "grad_norm": 3.2611992359161377,
      "learning_rate": 3.3760731201894614e-05,
      "loss": 0.6151,
      "step": 11780
    },
    {
      "epoch": 1.18,
      "grad_norm": 2.585327386856079,
      "learning_rate": 3.3742229129662526e-05,
      "loss": 0.5614,
      "step": 11790
    },
    {
      "epoch": 1.18,
      "grad_norm": 4.119274616241455,
      "learning_rate": 3.372372705743043e-05,
      "loss": 0.6785,
      "step": 11800
    },
    {
      "epoch": 1.18,
      "grad_norm": 3.643336534500122,
      "learning_rate": 3.370522498519834e-05,
      "loss": 0.587,
      "step": 11810
    },
    {
      "epoch": 1.18,
      "grad_norm": 3.7652945518493652,
      "learning_rate": 3.3686722912966253e-05,
      "loss": 0.6296,
      "step": 11820
    },
    {
      "epoch": 1.18,
      "grad_norm": 4.1551055908203125,
      "learning_rate": 3.3668220840734165e-05,
      "loss": 0.6281,
      "step": 11830
    },
    {
      "epoch": 1.18,
      "grad_norm": 3.950317621231079,
      "learning_rate": 3.3649718768502076e-05,
      "loss": 0.6805,
      "step": 11840
    },
    {
      "epoch": 1.18,
      "grad_norm": 3.2204627990722656,
      "learning_rate": 3.363121669626999e-05,
      "loss": 0.6267,
      "step": 11850
    },
    {
      "epoch": 1.18,
      "grad_norm": 2.637192964553833,
      "learning_rate": 3.361271462403789e-05,
      "loss": 0.5848,
      "step": 11860
    },
    {
      "epoch": 1.19,
      "grad_norm": 2.8080403804779053,
      "learning_rate": 3.3594212551805804e-05,
      "loss": 0.6343,
      "step": 11870
    },
    {
      "epoch": 1.19,
      "grad_norm": 3.715155839920044,
      "learning_rate": 3.3575710479573716e-05,
      "loss": 0.6023,
      "step": 11880
    },
    {
      "epoch": 1.19,
      "grad_norm": 2.9908275604248047,
      "learning_rate": 3.355720840734162e-05,
      "loss": 0.7187,
      "step": 11890
    },
    {
      "epoch": 1.19,
      "grad_norm": 3.114546775817871,
      "learning_rate": 3.353870633510953e-05,
      "loss": 0.5936,
      "step": 11900
    },
    {
      "epoch": 1.19,
      "grad_norm": 3.0877957344055176,
      "learning_rate": 3.352020426287744e-05,
      "loss": 0.6525,
      "step": 11910
    },
    {
      "epoch": 1.19,
      "grad_norm": 3.4836466312408447,
      "learning_rate": 3.3501702190645355e-05,
      "loss": 0.6418,
      "step": 11920
    },
    {
      "epoch": 1.19,
      "grad_norm": 3.787961959838867,
      "learning_rate": 3.3483200118413266e-05,
      "loss": 0.699,
      "step": 11930
    },
    {
      "epoch": 1.19,
      "grad_norm": 3.785646438598633,
      "learning_rate": 3.346469804618118e-05,
      "loss": 0.6522,
      "step": 11940
    },
    {
      "epoch": 1.19,
      "grad_norm": 3.1701290607452393,
      "learning_rate": 3.344619597394908e-05,
      "loss": 0.5857,
      "step": 11950
    },
    {
      "epoch": 1.19,
      "grad_norm": 3.731513738632202,
      "learning_rate": 3.3427693901716994e-05,
      "loss": 0.668,
      "step": 11960
    },
    {
      "epoch": 1.2,
      "grad_norm": 3.2765262126922607,
      "learning_rate": 3.3409191829484905e-05,
      "loss": 0.7105,
      "step": 11970
    },
    {
      "epoch": 1.2,
      "grad_norm": 2.4831597805023193,
      "learning_rate": 3.339068975725281e-05,
      "loss": 0.5959,
      "step": 11980
    },
    {
      "epoch": 1.2,
      "grad_norm": 2.7681567668914795,
      "learning_rate": 3.337218768502072e-05,
      "loss": 0.7118,
      "step": 11990
    },
    {
      "epoch": 1.2,
      "grad_norm": 4.185715675354004,
      "learning_rate": 3.335368561278863e-05,
      "loss": 0.7005,
      "step": 12000
    },
    {
      "epoch": 1.2,
      "grad_norm": 3.0354535579681396,
      "learning_rate": 3.3335183540556544e-05,
      "loss": 0.6425,
      "step": 12010
    },
    {
      "epoch": 1.2,
      "grad_norm": 3.667135000228882,
      "learning_rate": 3.3316681468324456e-05,
      "loss": 0.6566,
      "step": 12020
    },
    {
      "epoch": 1.2,
      "grad_norm": 3.8417975902557373,
      "learning_rate": 3.329817939609237e-05,
      "loss": 0.6459,
      "step": 12030
    },
    {
      "epoch": 1.2,
      "grad_norm": 4.897420406341553,
      "learning_rate": 3.327967732386027e-05,
      "loss": 0.6225,
      "step": 12040
    },
    {
      "epoch": 1.2,
      "grad_norm": 3.0625221729278564,
      "learning_rate": 3.3261175251628184e-05,
      "loss": 0.6519,
      "step": 12050
    },
    {
      "epoch": 1.2,
      "grad_norm": 5.869795322418213,
      "learning_rate": 3.3242673179396095e-05,
      "loss": 0.6599,
      "step": 12060
    },
    {
      "epoch": 1.21,
      "grad_norm": 3.367356061935425,
      "learning_rate": 3.3224171107164007e-05,
      "loss": 0.594,
      "step": 12070
    },
    {
      "epoch": 1.21,
      "grad_norm": 3.5932376384735107,
      "learning_rate": 3.320566903493191e-05,
      "loss": 0.5986,
      "step": 12080
    },
    {
      "epoch": 1.21,
      "grad_norm": 3.080273389816284,
      "learning_rate": 3.318716696269982e-05,
      "loss": 0.6324,
      "step": 12090
    },
    {
      "epoch": 1.21,
      "grad_norm": 3.1961352825164795,
      "learning_rate": 3.3168664890467734e-05,
      "loss": 0.7039,
      "step": 12100
    },
    {
      "epoch": 1.21,
      "grad_norm": 3.487450361251831,
      "learning_rate": 3.315016281823564e-05,
      "loss": 0.7059,
      "step": 12110
    },
    {
      "epoch": 1.21,
      "grad_norm": 4.145289897918701,
      "learning_rate": 3.313166074600356e-05,
      "loss": 0.677,
      "step": 12120
    },
    {
      "epoch": 1.21,
      "grad_norm": 3.444383382797241,
      "learning_rate": 3.311315867377147e-05,
      "loss": 0.6958,
      "step": 12130
    },
    {
      "epoch": 1.21,
      "grad_norm": 2.9179484844207764,
      "learning_rate": 3.309465660153937e-05,
      "loss": 0.6206,
      "step": 12140
    },
    {
      "epoch": 1.21,
      "grad_norm": 3.1596102714538574,
      "learning_rate": 3.3076154529307285e-05,
      "loss": 0.6594,
      "step": 12150
    },
    {
      "epoch": 1.21,
      "grad_norm": 2.993089199066162,
      "learning_rate": 3.3057652457075196e-05,
      "loss": 0.6767,
      "step": 12160
    },
    {
      "epoch": 1.22,
      "grad_norm": 3.0286574363708496,
      "learning_rate": 3.30391503848431e-05,
      "loss": 0.5656,
      "step": 12170
    },
    {
      "epoch": 1.22,
      "grad_norm": 3.302394390106201,
      "learning_rate": 3.302064831261101e-05,
      "loss": 0.6584,
      "step": 12180
    },
    {
      "epoch": 1.22,
      "grad_norm": 3.730269193649292,
      "learning_rate": 3.3002146240378924e-05,
      "loss": 0.6161,
      "step": 12190
    },
    {
      "epoch": 1.22,
      "grad_norm": 3.7121951580047607,
      "learning_rate": 3.2983644168146835e-05,
      "loss": 0.619,
      "step": 12200
    },
    {
      "epoch": 1.22,
      "grad_norm": 3.0996217727661133,
      "learning_rate": 3.296514209591474e-05,
      "loss": 0.6445,
      "step": 12210
    },
    {
      "epoch": 1.22,
      "grad_norm": 3.542146921157837,
      "learning_rate": 3.294664002368266e-05,
      "loss": 0.6178,
      "step": 12220
    },
    {
      "epoch": 1.22,
      "grad_norm": 2.831160306930542,
      "learning_rate": 3.292813795145056e-05,
      "loss": 0.6096,
      "step": 12230
    },
    {
      "epoch": 1.22,
      "grad_norm": 2.4128029346466064,
      "learning_rate": 3.2909635879218475e-05,
      "loss": 0.5383,
      "step": 12240
    },
    {
      "epoch": 1.22,
      "grad_norm": 2.762180805206299,
      "learning_rate": 3.2891133806986386e-05,
      "loss": 0.5583,
      "step": 12250
    },
    {
      "epoch": 1.22,
      "grad_norm": 6.548438549041748,
      "learning_rate": 3.28726317347543e-05,
      "loss": 0.6885,
      "step": 12260
    },
    {
      "epoch": 1.23,
      "grad_norm": 3.5024468898773193,
      "learning_rate": 3.28541296625222e-05,
      "loss": 0.5894,
      "step": 12270
    },
    {
      "epoch": 1.23,
      "grad_norm": 3.1399359703063965,
      "learning_rate": 3.2835627590290114e-05,
      "loss": 0.6096,
      "step": 12280
    },
    {
      "epoch": 1.23,
      "grad_norm": 3.2865688800811768,
      "learning_rate": 3.2817125518058025e-05,
      "loss": 0.6686,
      "step": 12290
    },
    {
      "epoch": 1.23,
      "grad_norm": 2.8115241527557373,
      "learning_rate": 3.279862344582593e-05,
      "loss": 0.6286,
      "step": 12300
    },
    {
      "epoch": 1.23,
      "grad_norm": 3.3504295349121094,
      "learning_rate": 3.278012137359384e-05,
      "loss": 0.6522,
      "step": 12310
    },
    {
      "epoch": 1.23,
      "grad_norm": 3.434828758239746,
      "learning_rate": 3.276161930136176e-05,
      "loss": 0.6235,
      "step": 12320
    },
    {
      "epoch": 1.23,
      "grad_norm": 3.201862335205078,
      "learning_rate": 3.2743117229129664e-05,
      "loss": 0.6391,
      "step": 12330
    },
    {
      "epoch": 1.23,
      "grad_norm": 4.036927700042725,
      "learning_rate": 3.2724615156897576e-05,
      "loss": 0.6555,
      "step": 12340
    },
    {
      "epoch": 1.23,
      "grad_norm": 3.0073225498199463,
      "learning_rate": 3.270611308466549e-05,
      "loss": 0.5661,
      "step": 12350
    },
    {
      "epoch": 1.23,
      "grad_norm": 3.148961067199707,
      "learning_rate": 3.268761101243339e-05,
      "loss": 0.6432,
      "step": 12360
    },
    {
      "epoch": 1.24,
      "grad_norm": 4.097149848937988,
      "learning_rate": 3.2669108940201303e-05,
      "loss": 0.646,
      "step": 12370
    },
    {
      "epoch": 1.24,
      "grad_norm": 2.5273194313049316,
      "learning_rate": 3.2650606867969215e-05,
      "loss": 0.5923,
      "step": 12380
    },
    {
      "epoch": 1.24,
      "grad_norm": 3.758929967880249,
      "learning_rate": 3.263210479573712e-05,
      "loss": 0.6426,
      "step": 12390
    },
    {
      "epoch": 1.24,
      "grad_norm": 3.528520345687866,
      "learning_rate": 3.261360272350503e-05,
      "loss": 0.6279,
      "step": 12400
    },
    {
      "epoch": 1.24,
      "grad_norm": 3.0324807167053223,
      "learning_rate": 3.259510065127294e-05,
      "loss": 0.6486,
      "step": 12410
    },
    {
      "epoch": 1.24,
      "grad_norm": 3.4958560466766357,
      "learning_rate": 3.2576598579040854e-05,
      "loss": 0.6683,
      "step": 12420
    },
    {
      "epoch": 1.24,
      "grad_norm": 3.9343013763427734,
      "learning_rate": 3.2558096506808766e-05,
      "loss": 0.6797,
      "step": 12430
    },
    {
      "epoch": 1.24,
      "grad_norm": 3.5031068325042725,
      "learning_rate": 3.253959443457668e-05,
      "loss": 0.6396,
      "step": 12440
    },
    {
      "epoch": 1.24,
      "grad_norm": 3.3130271434783936,
      "learning_rate": 3.252109236234459e-05,
      "loss": 0.6156,
      "step": 12450
    },
    {
      "epoch": 1.24,
      "grad_norm": 3.252957344055176,
      "learning_rate": 3.250259029011249e-05,
      "loss": 0.6135,
      "step": 12460
    },
    {
      "epoch": 1.25,
      "grad_norm": 3.12182354927063,
      "learning_rate": 3.2484088217880405e-05,
      "loss": 0.6463,
      "step": 12470
    },
    {
      "epoch": 1.25,
      "grad_norm": 3.17364501953125,
      "learning_rate": 3.2465586145648316e-05,
      "loss": 0.593,
      "step": 12480
    },
    {
      "epoch": 1.25,
      "grad_norm": 2.993727445602417,
      "learning_rate": 3.244708407341622e-05,
      "loss": 0.649,
      "step": 12490
    },
    {
      "epoch": 1.25,
      "grad_norm": 4.914885520935059,
      "learning_rate": 3.242858200118413e-05,
      "loss": 0.6474,
      "step": 12500
    },
    {
      "epoch": 1.25,
      "grad_norm": 3.020387887954712,
      "learning_rate": 3.2410079928952044e-05,
      "loss": 0.6567,
      "step": 12510
    },
    {
      "epoch": 1.25,
      "grad_norm": 3.400268793106079,
      "learning_rate": 3.2391577856719955e-05,
      "loss": 0.6426,
      "step": 12520
    },
    {
      "epoch": 1.25,
      "grad_norm": 3.257695198059082,
      "learning_rate": 3.237307578448787e-05,
      "loss": 0.6808,
      "step": 12530
    },
    {
      "epoch": 1.25,
      "grad_norm": 2.844632625579834,
      "learning_rate": 3.235457371225578e-05,
      "loss": 0.6949,
      "step": 12540
    },
    {
      "epoch": 1.25,
      "grad_norm": 2.9249799251556396,
      "learning_rate": 3.233607164002368e-05,
      "loss": 0.6256,
      "step": 12550
    },
    {
      "epoch": 1.25,
      "grad_norm": 3.794994831085205,
      "learning_rate": 3.2317569567791594e-05,
      "loss": 0.6485,
      "step": 12560
    },
    {
      "epoch": 1.26,
      "grad_norm": 2.707615852355957,
      "learning_rate": 3.2299067495559506e-05,
      "loss": 0.6426,
      "step": 12570
    },
    {
      "epoch": 1.26,
      "grad_norm": 3.806544065475464,
      "learning_rate": 3.228056542332741e-05,
      "loss": 0.6001,
      "step": 12580
    },
    {
      "epoch": 1.26,
      "grad_norm": 3.0447041988372803,
      "learning_rate": 3.226206335109532e-05,
      "loss": 0.6706,
      "step": 12590
    },
    {
      "epoch": 1.26,
      "grad_norm": 2.76012921333313,
      "learning_rate": 3.2243561278863234e-05,
      "loss": 0.7168,
      "step": 12600
    },
    {
      "epoch": 1.26,
      "grad_norm": 2.837597608566284,
      "learning_rate": 3.2225059206631145e-05,
      "loss": 0.6177,
      "step": 12610
    },
    {
      "epoch": 1.26,
      "grad_norm": 2.9845316410064697,
      "learning_rate": 3.2206557134399057e-05,
      "loss": 0.6854,
      "step": 12620
    },
    {
      "epoch": 1.26,
      "grad_norm": 3.462629795074463,
      "learning_rate": 3.218805506216697e-05,
      "loss": 0.6284,
      "step": 12630
    },
    {
      "epoch": 1.26,
      "grad_norm": 2.8487749099731445,
      "learning_rate": 3.216955298993487e-05,
      "loss": 0.6234,
      "step": 12640
    },
    {
      "epoch": 1.26,
      "grad_norm": 3.1831510066986084,
      "learning_rate": 3.2151050917702784e-05,
      "loss": 0.6999,
      "step": 12650
    },
    {
      "epoch": 1.26,
      "grad_norm": 3.6960947513580322,
      "learning_rate": 3.2132548845470696e-05,
      "loss": 0.6525,
      "step": 12660
    },
    {
      "epoch": 1.27,
      "grad_norm": 2.927382230758667,
      "learning_rate": 3.211404677323861e-05,
      "loss": 0.7179,
      "step": 12670
    },
    {
      "epoch": 1.27,
      "grad_norm": 2.598731756210327,
      "learning_rate": 3.209554470100651e-05,
      "loss": 0.6945,
      "step": 12680
    },
    {
      "epoch": 1.27,
      "grad_norm": 3.7092390060424805,
      "learning_rate": 3.207704262877442e-05,
      "loss": 0.6433,
      "step": 12690
    },
    {
      "epoch": 1.27,
      "grad_norm": 2.7750513553619385,
      "learning_rate": 3.2058540556542335e-05,
      "loss": 0.7189,
      "step": 12700
    },
    {
      "epoch": 1.27,
      "grad_norm": 3.159693717956543,
      "learning_rate": 3.204003848431024e-05,
      "loss": 0.5865,
      "step": 12710
    },
    {
      "epoch": 1.27,
      "grad_norm": 5.907037734985352,
      "learning_rate": 3.202153641207816e-05,
      "loss": 0.6077,
      "step": 12720
    },
    {
      "epoch": 1.27,
      "grad_norm": 2.889223098754883,
      "learning_rate": 3.200303433984607e-05,
      "loss": 0.6553,
      "step": 12730
    },
    {
      "epoch": 1.27,
      "grad_norm": 2.477449655532837,
      "learning_rate": 3.1984532267613974e-05,
      "loss": 0.564,
      "step": 12740
    },
    {
      "epoch": 1.27,
      "grad_norm": 4.955873489379883,
      "learning_rate": 3.1966030195381885e-05,
      "loss": 0.5817,
      "step": 12750
    },
    {
      "epoch": 1.27,
      "grad_norm": 2.29955792427063,
      "learning_rate": 3.19475281231498e-05,
      "loss": 0.6237,
      "step": 12760
    },
    {
      "epoch": 1.28,
      "grad_norm": 2.828894853591919,
      "learning_rate": 3.19290260509177e-05,
      "loss": 0.5878,
      "step": 12770
    },
    {
      "epoch": 1.28,
      "grad_norm": 3.1473631858825684,
      "learning_rate": 3.191052397868561e-05,
      "loss": 0.6187,
      "step": 12780
    },
    {
      "epoch": 1.28,
      "grad_norm": 2.6889145374298096,
      "learning_rate": 3.1892021906453525e-05,
      "loss": 0.583,
      "step": 12790
    },
    {
      "epoch": 1.28,
      "grad_norm": 2.923922300338745,
      "learning_rate": 3.187351983422143e-05,
      "loss": 0.6254,
      "step": 12800
    },
    {
      "epoch": 1.28,
      "grad_norm": 2.2855634689331055,
      "learning_rate": 3.185501776198934e-05,
      "loss": 0.6118,
      "step": 12810
    },
    {
      "epoch": 1.28,
      "grad_norm": 3.544391632080078,
      "learning_rate": 3.183651568975726e-05,
      "loss": 0.5871,
      "step": 12820
    },
    {
      "epoch": 1.28,
      "grad_norm": 3.3927829265594482,
      "learning_rate": 3.1818013617525164e-05,
      "loss": 0.563,
      "step": 12830
    },
    {
      "epoch": 1.28,
      "grad_norm": 3.5112123489379883,
      "learning_rate": 3.1799511545293075e-05,
      "loss": 0.6372,
      "step": 12840
    },
    {
      "epoch": 1.28,
      "grad_norm": 4.550623893737793,
      "learning_rate": 3.178100947306099e-05,
      "loss": 0.6599,
      "step": 12850
    },
    {
      "epoch": 1.28,
      "grad_norm": 4.017589569091797,
      "learning_rate": 3.17625074008289e-05,
      "loss": 0.6802,
      "step": 12860
    },
    {
      "epoch": 1.29,
      "grad_norm": 3.230546712875366,
      "learning_rate": 3.17440053285968e-05,
      "loss": 0.6408,
      "step": 12870
    },
    {
      "epoch": 1.29,
      "grad_norm": 4.686328411102295,
      "learning_rate": 3.1725503256364714e-05,
      "loss": 0.6893,
      "step": 12880
    },
    {
      "epoch": 1.29,
      "grad_norm": 3.3412556648254395,
      "learning_rate": 3.1707001184132626e-05,
      "loss": 0.6477,
      "step": 12890
    },
    {
      "epoch": 1.29,
      "grad_norm": 3.064905881881714,
      "learning_rate": 3.168849911190053e-05,
      "loss": 0.6455,
      "step": 12900
    },
    {
      "epoch": 1.29,
      "grad_norm": 3.5585787296295166,
      "learning_rate": 3.166999703966844e-05,
      "loss": 0.6491,
      "step": 12910
    },
    {
      "epoch": 1.29,
      "grad_norm": 3.2316718101501465,
      "learning_rate": 3.165149496743636e-05,
      "loss": 0.5981,
      "step": 12920
    },
    {
      "epoch": 1.29,
      "grad_norm": 2.8964016437530518,
      "learning_rate": 3.1632992895204265e-05,
      "loss": 0.6082,
      "step": 12930
    },
    {
      "epoch": 1.29,
      "grad_norm": 4.335542678833008,
      "learning_rate": 3.1614490822972176e-05,
      "loss": 0.6729,
      "step": 12940
    },
    {
      "epoch": 1.29,
      "grad_norm": 3.2810184955596924,
      "learning_rate": 3.159598875074009e-05,
      "loss": 0.6168,
      "step": 12950
    },
    {
      "epoch": 1.29,
      "grad_norm": 2.870304822921753,
      "learning_rate": 3.157748667850799e-05,
      "loss": 0.6434,
      "step": 12960
    },
    {
      "epoch": 1.3,
      "grad_norm": 3.032256841659546,
      "learning_rate": 3.1558984606275904e-05,
      "loss": 0.572,
      "step": 12970
    },
    {
      "epoch": 1.3,
      "grad_norm": 2.8468868732452393,
      "learning_rate": 3.1540482534043816e-05,
      "loss": 0.6604,
      "step": 12980
    },
    {
      "epoch": 1.3,
      "grad_norm": 3.6513540744781494,
      "learning_rate": 3.152198046181172e-05,
      "loss": 0.6608,
      "step": 12990
    },
    {
      "epoch": 1.3,
      "grad_norm": 2.977566719055176,
      "learning_rate": 3.150347838957963e-05,
      "loss": 0.6658,
      "step": 13000
    },
    {
      "epoch": 1.3,
      "grad_norm": 3.987013816833496,
      "learning_rate": 3.148497631734754e-05,
      "loss": 0.5891,
      "step": 13010
    },
    {
      "epoch": 1.3,
      "grad_norm": 3.0518245697021484,
      "learning_rate": 3.1466474245115455e-05,
      "loss": 0.6288,
      "step": 13020
    },
    {
      "epoch": 1.3,
      "grad_norm": 3.303015947341919,
      "learning_rate": 3.1447972172883366e-05,
      "loss": 0.6714,
      "step": 13030
    },
    {
      "epoch": 1.3,
      "grad_norm": 3.0725748538970947,
      "learning_rate": 3.142947010065128e-05,
      "loss": 0.6587,
      "step": 13040
    },
    {
      "epoch": 1.3,
      "grad_norm": 3.8151180744171143,
      "learning_rate": 3.141096802841918e-05,
      "loss": 0.5991,
      "step": 13050
    },
    {
      "epoch": 1.3,
      "grad_norm": 3.3679752349853516,
      "learning_rate": 3.1392465956187094e-05,
      "loss": 0.6529,
      "step": 13060
    },
    {
      "epoch": 1.31,
      "grad_norm": 3.916172981262207,
      "learning_rate": 3.1373963883955005e-05,
      "loss": 0.6552,
      "step": 13070
    },
    {
      "epoch": 1.31,
      "grad_norm": 3.814277410507202,
      "learning_rate": 3.135546181172292e-05,
      "loss": 0.6796,
      "step": 13080
    },
    {
      "epoch": 1.31,
      "grad_norm": 3.164332628250122,
      "learning_rate": 3.133695973949082e-05,
      "loss": 0.7232,
      "step": 13090
    },
    {
      "epoch": 1.31,
      "grad_norm": 2.4926483631134033,
      "learning_rate": 3.131845766725873e-05,
      "loss": 0.5986,
      "step": 13100
    },
    {
      "epoch": 1.31,
      "grad_norm": 4.548547267913818,
      "learning_rate": 3.1299955595026644e-05,
      "loss": 0.6163,
      "step": 13110
    },
    {
      "epoch": 1.31,
      "grad_norm": 2.6778204441070557,
      "learning_rate": 3.1281453522794556e-05,
      "loss": 0.6501,
      "step": 13120
    },
    {
      "epoch": 1.31,
      "grad_norm": 2.995266914367676,
      "learning_rate": 3.126295145056247e-05,
      "loss": 0.6462,
      "step": 13130
    },
    {
      "epoch": 1.31,
      "grad_norm": 4.008337497711182,
      "learning_rate": 3.124444937833038e-05,
      "loss": 0.7338,
      "step": 13140
    },
    {
      "epoch": 1.31,
      "grad_norm": 4.393537521362305,
      "learning_rate": 3.1225947306098284e-05,
      "loss": 0.6415,
      "step": 13150
    },
    {
      "epoch": 1.31,
      "grad_norm": 3.3687222003936768,
      "learning_rate": 3.1207445233866195e-05,
      "loss": 0.6006,
      "step": 13160
    },
    {
      "epoch": 1.32,
      "grad_norm": 9.197619438171387,
      "learning_rate": 3.1188943161634106e-05,
      "loss": 0.6152,
      "step": 13170
    },
    {
      "epoch": 1.32,
      "grad_norm": 3.8094303607940674,
      "learning_rate": 3.117044108940201e-05,
      "loss": 0.6403,
      "step": 13180
    },
    {
      "epoch": 1.32,
      "grad_norm": 3.2720236778259277,
      "learning_rate": 3.115193901716992e-05,
      "loss": 0.5964,
      "step": 13190
    },
    {
      "epoch": 1.32,
      "grad_norm": 3.096493721008301,
      "learning_rate": 3.1133436944937834e-05,
      "loss": 0.5677,
      "step": 13200
    },
    {
      "epoch": 1.32,
      "grad_norm": 3.4747812747955322,
      "learning_rate": 3.111493487270574e-05,
      "loss": 0.5611,
      "step": 13210
    },
    {
      "epoch": 1.32,
      "grad_norm": 3.291983127593994,
      "learning_rate": 3.109643280047366e-05,
      "loss": 0.6375,
      "step": 13220
    },
    {
      "epoch": 1.32,
      "grad_norm": 3.2094779014587402,
      "learning_rate": 3.107793072824157e-05,
      "loss": 0.6485,
      "step": 13230
    },
    {
      "epoch": 1.32,
      "grad_norm": 3.9960062503814697,
      "learning_rate": 3.105942865600947e-05,
      "loss": 0.6814,
      "step": 13240
    },
    {
      "epoch": 1.32,
      "grad_norm": 3.894122838973999,
      "learning_rate": 3.1040926583777385e-05,
      "loss": 0.6416,
      "step": 13250
    },
    {
      "epoch": 1.32,
      "grad_norm": 2.8835840225219727,
      "learning_rate": 3.1022424511545296e-05,
      "loss": 0.5836,
      "step": 13260
    },
    {
      "epoch": 1.33,
      "grad_norm": 3.3440587520599365,
      "learning_rate": 3.100392243931321e-05,
      "loss": 0.5767,
      "step": 13270
    },
    {
      "epoch": 1.33,
      "grad_norm": 3.292712450027466,
      "learning_rate": 3.098542036708111e-05,
      "loss": 0.6389,
      "step": 13280
    },
    {
      "epoch": 1.33,
      "grad_norm": 2.5547330379486084,
      "learning_rate": 3.0966918294849024e-05,
      "loss": 0.6293,
      "step": 13290
    },
    {
      "epoch": 1.33,
      "grad_norm": 2.7613046169281006,
      "learning_rate": 3.0948416222616935e-05,
      "loss": 0.5414,
      "step": 13300
    },
    {
      "epoch": 1.33,
      "grad_norm": 4.139732837677002,
      "learning_rate": 3.092991415038484e-05,
      "loss": 0.6699,
      "step": 13310
    },
    {
      "epoch": 1.33,
      "grad_norm": 3.2314202785491943,
      "learning_rate": 3.091141207815276e-05,
      "loss": 0.6535,
      "step": 13320
    },
    {
      "epoch": 1.33,
      "grad_norm": 3.38381290435791,
      "learning_rate": 3.089291000592067e-05,
      "loss": 0.6351,
      "step": 13330
    },
    {
      "epoch": 1.33,
      "grad_norm": 3.41096830368042,
      "learning_rate": 3.0874407933688575e-05,
      "loss": 0.6391,
      "step": 13340
    },
    {
      "epoch": 1.33,
      "grad_norm": 3.3434479236602783,
      "learning_rate": 3.0855905861456486e-05,
      "loss": 0.6845,
      "step": 13350
    },
    {
      "epoch": 1.33,
      "grad_norm": 3.3808066844940186,
      "learning_rate": 3.08374037892244e-05,
      "loss": 0.7033,
      "step": 13360
    },
    {
      "epoch": 1.34,
      "grad_norm": 3.9312660694122314,
      "learning_rate": 3.08189017169923e-05,
      "loss": 0.596,
      "step": 13370
    },
    {
      "epoch": 1.34,
      "grad_norm": 3.218473196029663,
      "learning_rate": 3.0800399644760214e-05,
      "loss": 0.6412,
      "step": 13380
    },
    {
      "epoch": 1.34,
      "grad_norm": 2.5754144191741943,
      "learning_rate": 3.0781897572528125e-05,
      "loss": 0.6418,
      "step": 13390
    },
    {
      "epoch": 1.34,
      "grad_norm": 2.9485692977905273,
      "learning_rate": 3.076339550029603e-05,
      "loss": 0.6217,
      "step": 13400
    },
    {
      "epoch": 1.34,
      "grad_norm": 3.6481120586395264,
      "learning_rate": 3.074489342806394e-05,
      "loss": 0.6761,
      "step": 13410
    },
    {
      "epoch": 1.34,
      "grad_norm": 3.250967025756836,
      "learning_rate": 3.072639135583186e-05,
      "loss": 0.6509,
      "step": 13420
    },
    {
      "epoch": 1.34,
      "grad_norm": 3.0208499431610107,
      "learning_rate": 3.0707889283599764e-05,
      "loss": 0.6317,
      "step": 13430
    },
    {
      "epoch": 1.34,
      "grad_norm": 2.883809804916382,
      "learning_rate": 3.0689387211367676e-05,
      "loss": 0.6707,
      "step": 13440
    },
    {
      "epoch": 1.34,
      "grad_norm": 4.685804843902588,
      "learning_rate": 3.067088513913559e-05,
      "loss": 0.6274,
      "step": 13450
    },
    {
      "epoch": 1.34,
      "grad_norm": 3.731534719467163,
      "learning_rate": 3.065238306690349e-05,
      "loss": 0.5779,
      "step": 13460
    },
    {
      "epoch": 1.35,
      "grad_norm": 2.512434720993042,
      "learning_rate": 3.0633880994671403e-05,
      "loss": 0.6419,
      "step": 13470
    },
    {
      "epoch": 1.35,
      "grad_norm": 3.234847068786621,
      "learning_rate": 3.0615378922439315e-05,
      "loss": 0.6373,
      "step": 13480
    },
    {
      "epoch": 1.35,
      "grad_norm": 3.118727922439575,
      "learning_rate": 3.0596876850207226e-05,
      "loss": 0.6734,
      "step": 13490
    },
    {
      "epoch": 1.35,
      "grad_norm": 3.1953415870666504,
      "learning_rate": 3.057837477797513e-05,
      "loss": 0.5852,
      "step": 13500
    },
    {
      "epoch": 1.35,
      "grad_norm": 3.4154052734375,
      "learning_rate": 3.055987270574304e-05,
      "loss": 0.6565,
      "step": 13510
    },
    {
      "epoch": 1.35,
      "grad_norm": 3.1681909561157227,
      "learning_rate": 3.0541370633510954e-05,
      "loss": 0.6583,
      "step": 13520
    },
    {
      "epoch": 1.35,
      "grad_norm": 3.7377474308013916,
      "learning_rate": 3.0522868561278865e-05,
      "loss": 0.6233,
      "step": 13530
    },
    {
      "epoch": 1.35,
      "grad_norm": 3.1830763816833496,
      "learning_rate": 3.0504366489046777e-05,
      "loss": 0.6405,
      "step": 13540
    },
    {
      "epoch": 1.35,
      "grad_norm": 3.3439865112304688,
      "learning_rate": 3.0485864416814685e-05,
      "loss": 0.6279,
      "step": 13550
    },
    {
      "epoch": 1.35,
      "grad_norm": 2.974323272705078,
      "learning_rate": 3.0467362344582597e-05,
      "loss": 0.6149,
      "step": 13560
    },
    {
      "epoch": 1.36,
      "grad_norm": 3.7130510807037354,
      "learning_rate": 3.0448860272350505e-05,
      "loss": 0.6878,
      "step": 13570
    },
    {
      "epoch": 1.36,
      "grad_norm": 3.3311526775360107,
      "learning_rate": 3.0430358200118413e-05,
      "loss": 0.5787,
      "step": 13580
    },
    {
      "epoch": 1.36,
      "grad_norm": 3.3542001247406006,
      "learning_rate": 3.0411856127886324e-05,
      "loss": 0.6599,
      "step": 13590
    },
    {
      "epoch": 1.36,
      "grad_norm": 4.067678451538086,
      "learning_rate": 3.0393354055654232e-05,
      "loss": 0.6278,
      "step": 13600
    },
    {
      "epoch": 1.36,
      "grad_norm": 2.6868348121643066,
      "learning_rate": 3.0374851983422144e-05,
      "loss": 0.6598,
      "step": 13610
    },
    {
      "epoch": 1.36,
      "grad_norm": 3.830629587173462,
      "learning_rate": 3.035634991119006e-05,
      "loss": 0.7139,
      "step": 13620
    },
    {
      "epoch": 1.36,
      "grad_norm": 3.2874019145965576,
      "learning_rate": 3.0337847838957967e-05,
      "loss": 0.5962,
      "step": 13630
    },
    {
      "epoch": 1.36,
      "grad_norm": 3.3493242263793945,
      "learning_rate": 3.0319345766725875e-05,
      "loss": 0.6537,
      "step": 13640
    },
    {
      "epoch": 1.36,
      "grad_norm": 4.073190212249756,
      "learning_rate": 3.0300843694493786e-05,
      "loss": 0.5816,
      "step": 13650
    },
    {
      "epoch": 1.36,
      "grad_norm": 3.4686529636383057,
      "learning_rate": 3.0282341622261694e-05,
      "loss": 0.6191,
      "step": 13660
    },
    {
      "epoch": 1.37,
      "grad_norm": 2.8003857135772705,
      "learning_rate": 3.0263839550029606e-05,
      "loss": 0.6586,
      "step": 13670
    },
    {
      "epoch": 1.37,
      "grad_norm": 3.809279680252075,
      "learning_rate": 3.0245337477797514e-05,
      "loss": 0.7128,
      "step": 13680
    },
    {
      "epoch": 1.37,
      "grad_norm": 2.5862224102020264,
      "learning_rate": 3.0226835405565422e-05,
      "loss": 0.5372,
      "step": 13690
    },
    {
      "epoch": 1.37,
      "grad_norm": 3.9511868953704834,
      "learning_rate": 3.0208333333333334e-05,
      "loss": 0.6442,
      "step": 13700
    },
    {
      "epoch": 1.37,
      "grad_norm": 2.782960891723633,
      "learning_rate": 3.018983126110124e-05,
      "loss": 0.6891,
      "step": 13710
    },
    {
      "epoch": 1.37,
      "grad_norm": 2.785315752029419,
      "learning_rate": 3.0171329188869156e-05,
      "loss": 0.6927,
      "step": 13720
    },
    {
      "epoch": 1.37,
      "grad_norm": 3.096125841140747,
      "learning_rate": 3.0152827116637068e-05,
      "loss": 0.6067,
      "step": 13730
    },
    {
      "epoch": 1.37,
      "grad_norm": 3.189314842224121,
      "learning_rate": 3.0134325044404976e-05,
      "loss": 0.6206,
      "step": 13740
    },
    {
      "epoch": 1.37,
      "grad_norm": 3.6468803882598877,
      "learning_rate": 3.0115822972172884e-05,
      "loss": 0.6475,
      "step": 13750
    },
    {
      "epoch": 1.37,
      "grad_norm": 3.0183489322662354,
      "learning_rate": 3.0097320899940796e-05,
      "loss": 0.6717,
      "step": 13760
    },
    {
      "epoch": 1.38,
      "grad_norm": 3.099384069442749,
      "learning_rate": 3.0078818827708704e-05,
      "loss": 0.6422,
      "step": 13770
    },
    {
      "epoch": 1.38,
      "grad_norm": 3.895728588104248,
      "learning_rate": 3.0060316755476615e-05,
      "loss": 0.6731,
      "step": 13780
    },
    {
      "epoch": 1.38,
      "grad_norm": 4.065572738647461,
      "learning_rate": 3.0041814683244523e-05,
      "loss": 0.6432,
      "step": 13790
    },
    {
      "epoch": 1.38,
      "grad_norm": 3.1362948417663574,
      "learning_rate": 3.002331261101243e-05,
      "loss": 0.6002,
      "step": 13800
    },
    {
      "epoch": 1.38,
      "grad_norm": 4.629679203033447,
      "learning_rate": 3.0004810538780343e-05,
      "loss": 0.6722,
      "step": 13810
    },
    {
      "epoch": 1.38,
      "grad_norm": 3.0235674381256104,
      "learning_rate": 2.9986308466548258e-05,
      "loss": 0.6816,
      "step": 13820
    },
    {
      "epoch": 1.38,
      "grad_norm": 3.023524761199951,
      "learning_rate": 2.9967806394316166e-05,
      "loss": 0.6203,
      "step": 13830
    },
    {
      "epoch": 1.38,
      "grad_norm": 3.273622512817383,
      "learning_rate": 2.9949304322084077e-05,
      "loss": 0.6942,
      "step": 13840
    },
    {
      "epoch": 1.38,
      "grad_norm": 3.833461284637451,
      "learning_rate": 2.9930802249851985e-05,
      "loss": 0.674,
      "step": 13850
    },
    {
      "epoch": 1.38,
      "grad_norm": 3.0205187797546387,
      "learning_rate": 2.9912300177619897e-05,
      "loss": 0.6016,
      "step": 13860
    },
    {
      "epoch": 1.39,
      "grad_norm": 3.1159608364105225,
      "learning_rate": 2.9893798105387805e-05,
      "loss": 0.5948,
      "step": 13870
    },
    {
      "epoch": 1.39,
      "grad_norm": 3.22696590423584,
      "learning_rate": 2.9875296033155713e-05,
      "loss": 0.6312,
      "step": 13880
    },
    {
      "epoch": 1.39,
      "grad_norm": 3.05232572555542,
      "learning_rate": 2.9856793960923624e-05,
      "loss": 0.6496,
      "step": 13890
    },
    {
      "epoch": 1.39,
      "grad_norm": 5.696198463439941,
      "learning_rate": 2.9838291888691533e-05,
      "loss": 0.6179,
      "step": 13900
    },
    {
      "epoch": 1.39,
      "grad_norm": 2.609588861465454,
      "learning_rate": 2.9819789816459444e-05,
      "loss": 0.6124,
      "step": 13910
    },
    {
      "epoch": 1.39,
      "grad_norm": 4.377770900726318,
      "learning_rate": 2.980128774422736e-05,
      "loss": 0.6533,
      "step": 13920
    },
    {
      "epoch": 1.39,
      "grad_norm": 3.528275489807129,
      "learning_rate": 2.9782785671995267e-05,
      "loss": 0.614,
      "step": 13930
    },
    {
      "epoch": 1.39,
      "grad_norm": 2.868072271347046,
      "learning_rate": 2.9764283599763175e-05,
      "loss": 0.6927,
      "step": 13940
    },
    {
      "epoch": 1.39,
      "grad_norm": 3.05329966545105,
      "learning_rate": 2.9745781527531087e-05,
      "loss": 0.6565,
      "step": 13950
    },
    {
      "epoch": 1.39,
      "grad_norm": 3.8155109882354736,
      "learning_rate": 2.9727279455298995e-05,
      "loss": 0.6823,
      "step": 13960
    },
    {
      "epoch": 1.4,
      "grad_norm": 3.8708720207214355,
      "learning_rate": 2.9708777383066906e-05,
      "loss": 0.6722,
      "step": 13970
    },
    {
      "epoch": 1.4,
      "grad_norm": 3.524395227432251,
      "learning_rate": 2.9690275310834814e-05,
      "loss": 0.655,
      "step": 13980
    },
    {
      "epoch": 1.4,
      "grad_norm": 3.0030322074890137,
      "learning_rate": 2.9671773238602722e-05,
      "loss": 0.6218,
      "step": 13990
    },
    {
      "epoch": 1.4,
      "grad_norm": 5.986409664154053,
      "learning_rate": 2.9653271166370634e-05,
      "loss": 0.6378,
      "step": 14000
    },
    {
      "epoch": 1.4,
      "grad_norm": 4.061030387878418,
      "learning_rate": 2.9634769094138542e-05,
      "loss": 0.7159,
      "step": 14010
    },
    {
      "epoch": 1.4,
      "grad_norm": 2.9929940700531006,
      "learning_rate": 2.9616267021906457e-05,
      "loss": 0.7216,
      "step": 14020
    },
    {
      "epoch": 1.4,
      "grad_norm": 4.175228595733643,
      "learning_rate": 2.9597764949674368e-05,
      "loss": 0.6882,
      "step": 14030
    },
    {
      "epoch": 1.4,
      "grad_norm": 3.1427438259124756,
      "learning_rate": 2.9579262877442276e-05,
      "loss": 0.6306,
      "step": 14040
    },
    {
      "epoch": 1.4,
      "grad_norm": 3.9459612369537354,
      "learning_rate": 2.9560760805210184e-05,
      "loss": 0.6515,
      "step": 14050
    },
    {
      "epoch": 1.4,
      "grad_norm": 5.2847981452941895,
      "learning_rate": 2.9542258732978096e-05,
      "loss": 0.6414,
      "step": 14060
    },
    {
      "epoch": 1.41,
      "grad_norm": 2.7667086124420166,
      "learning_rate": 2.9523756660746004e-05,
      "loss": 0.581,
      "step": 14070
    },
    {
      "epoch": 1.41,
      "grad_norm": 2.9553444385528564,
      "learning_rate": 2.9505254588513915e-05,
      "loss": 0.6403,
      "step": 14080
    },
    {
      "epoch": 1.41,
      "grad_norm": 3.1858294010162354,
      "learning_rate": 2.9486752516281824e-05,
      "loss": 0.6306,
      "step": 14090
    },
    {
      "epoch": 1.41,
      "grad_norm": 3.4651291370391846,
      "learning_rate": 2.946825044404973e-05,
      "loss": 0.6066,
      "step": 14100
    },
    {
      "epoch": 1.41,
      "grad_norm": 3.1303296089172363,
      "learning_rate": 2.9449748371817643e-05,
      "loss": 0.6329,
      "step": 14110
    },
    {
      "epoch": 1.41,
      "grad_norm": 3.4960498809814453,
      "learning_rate": 2.9431246299585558e-05,
      "loss": 0.6002,
      "step": 14120
    },
    {
      "epoch": 1.41,
      "grad_norm": 3.488337755203247,
      "learning_rate": 2.9412744227353466e-05,
      "loss": 0.6238,
      "step": 14130
    },
    {
      "epoch": 1.41,
      "grad_norm": 3.6050703525543213,
      "learning_rate": 2.9394242155121378e-05,
      "loss": 0.6324,
      "step": 14140
    },
    {
      "epoch": 1.41,
      "grad_norm": 3.7158052921295166,
      "learning_rate": 2.9375740082889286e-05,
      "loss": 0.6354,
      "step": 14150
    },
    {
      "epoch": 1.41,
      "grad_norm": 3.3300697803497314,
      "learning_rate": 2.9357238010657194e-05,
      "loss": 0.7304,
      "step": 14160
    },
    {
      "epoch": 1.42,
      "grad_norm": 4.701335430145264,
      "learning_rate": 2.9338735938425105e-05,
      "loss": 0.6847,
      "step": 14170
    },
    {
      "epoch": 1.42,
      "grad_norm": 3.9419004917144775,
      "learning_rate": 2.9320233866193013e-05,
      "loss": 0.6288,
      "step": 14180
    },
    {
      "epoch": 1.42,
      "grad_norm": 4.116246700286865,
      "learning_rate": 2.9301731793960925e-05,
      "loss": 0.6321,
      "step": 14190
    },
    {
      "epoch": 1.42,
      "grad_norm": 4.089929103851318,
      "learning_rate": 2.9283229721728833e-05,
      "loss": 0.6531,
      "step": 14200
    },
    {
      "epoch": 1.42,
      "grad_norm": 4.137900352478027,
      "learning_rate": 2.926472764949674e-05,
      "loss": 0.5995,
      "step": 14210
    },
    {
      "epoch": 1.42,
      "grad_norm": 3.9810638427734375,
      "learning_rate": 2.924622557726466e-05,
      "loss": 0.6679,
      "step": 14220
    },
    {
      "epoch": 1.42,
      "grad_norm": 3.2348437309265137,
      "learning_rate": 2.9227723505032567e-05,
      "loss": 0.5942,
      "step": 14230
    },
    {
      "epoch": 1.42,
      "grad_norm": 3.5690901279449463,
      "learning_rate": 2.9209221432800475e-05,
      "loss": 0.6321,
      "step": 14240
    },
    {
      "epoch": 1.42,
      "grad_norm": 2.941377639770508,
      "learning_rate": 2.9190719360568387e-05,
      "loss": 0.7136,
      "step": 14250
    },
    {
      "epoch": 1.42,
      "grad_norm": 3.2855279445648193,
      "learning_rate": 2.9172217288336295e-05,
      "loss": 0.7095,
      "step": 14260
    },
    {
      "epoch": 1.43,
      "grad_norm": 3.3825418949127197,
      "learning_rate": 2.9153715216104206e-05,
      "loss": 0.641,
      "step": 14270
    },
    {
      "epoch": 1.43,
      "grad_norm": 3.332165479660034,
      "learning_rate": 2.9135213143872115e-05,
      "loss": 0.6722,
      "step": 14280
    },
    {
      "epoch": 1.43,
      "grad_norm": 5.381001949310303,
      "learning_rate": 2.9116711071640023e-05,
      "loss": 0.6607,
      "step": 14290
    },
    {
      "epoch": 1.43,
      "grad_norm": 3.693127155303955,
      "learning_rate": 2.9098208999407934e-05,
      "loss": 0.6119,
      "step": 14300
    },
    {
      "epoch": 1.43,
      "grad_norm": 2.5789573192596436,
      "learning_rate": 2.9079706927175842e-05,
      "loss": 0.6315,
      "step": 14310
    },
    {
      "epoch": 1.43,
      "grad_norm": 3.327151298522949,
      "learning_rate": 2.9061204854943757e-05,
      "loss": 0.6569,
      "step": 14320
    },
    {
      "epoch": 1.43,
      "grad_norm": 3.447211742401123,
      "learning_rate": 2.904270278271167e-05,
      "loss": 0.5756,
      "step": 14330
    },
    {
      "epoch": 1.43,
      "grad_norm": 3.3818063735961914,
      "learning_rate": 2.9024200710479577e-05,
      "loss": 0.6613,
      "step": 14340
    },
    {
      "epoch": 1.43,
      "grad_norm": 3.04866886138916,
      "learning_rate": 2.9005698638247485e-05,
      "loss": 0.5876,
      "step": 14350
    },
    {
      "epoch": 1.43,
      "grad_norm": 3.5327723026275635,
      "learning_rate": 2.8987196566015396e-05,
      "loss": 0.6442,
      "step": 14360
    },
    {
      "epoch": 1.44,
      "grad_norm": 3.556591033935547,
      "learning_rate": 2.8968694493783304e-05,
      "loss": 0.5848,
      "step": 14370
    },
    {
      "epoch": 1.44,
      "grad_norm": 2.9625234603881836,
      "learning_rate": 2.8950192421551216e-05,
      "loss": 0.6188,
      "step": 14380
    },
    {
      "epoch": 1.44,
      "grad_norm": 2.692049026489258,
      "learning_rate": 2.8931690349319124e-05,
      "loss": 0.6331,
      "step": 14390
    },
    {
      "epoch": 1.44,
      "grad_norm": 3.5079855918884277,
      "learning_rate": 2.8913188277087032e-05,
      "loss": 0.6337,
      "step": 14400
    },
    {
      "epoch": 1.44,
      "grad_norm": 3.076469898223877,
      "learning_rate": 2.8894686204854943e-05,
      "loss": 0.6246,
      "step": 14410
    },
    {
      "epoch": 1.44,
      "grad_norm": 4.065064430236816,
      "learning_rate": 2.8876184132622858e-05,
      "loss": 0.6553,
      "step": 14420
    },
    {
      "epoch": 1.44,
      "grad_norm": 3.117957830429077,
      "learning_rate": 2.8857682060390766e-05,
      "loss": 0.5915,
      "step": 14430
    },
    {
      "epoch": 1.44,
      "grad_norm": 2.9776248931884766,
      "learning_rate": 2.8839179988158678e-05,
      "loss": 0.5976,
      "step": 14440
    },
    {
      "epoch": 1.44,
      "grad_norm": 3.7998881340026855,
      "learning_rate": 2.8820677915926586e-05,
      "loss": 0.5779,
      "step": 14450
    },
    {
      "epoch": 1.44,
      "grad_norm": 3.0896852016448975,
      "learning_rate": 2.8802175843694494e-05,
      "loss": 0.6821,
      "step": 14460
    },
    {
      "epoch": 1.45,
      "grad_norm": 3.929121732711792,
      "learning_rate": 2.8783673771462406e-05,
      "loss": 0.5859,
      "step": 14470
    },
    {
      "epoch": 1.45,
      "grad_norm": 3.6816885471343994,
      "learning_rate": 2.8765171699230314e-05,
      "loss": 0.5952,
      "step": 14480
    },
    {
      "epoch": 1.45,
      "grad_norm": 3.1082136631011963,
      "learning_rate": 2.8746669626998225e-05,
      "loss": 0.6529,
      "step": 14490
    },
    {
      "epoch": 1.45,
      "grad_norm": 2.8694887161254883,
      "learning_rate": 2.8728167554766133e-05,
      "loss": 0.6413,
      "step": 14500
    },
    {
      "epoch": 1.45,
      "grad_norm": 3.862856864929199,
      "learning_rate": 2.870966548253404e-05,
      "loss": 0.6067,
      "step": 14510
    },
    {
      "epoch": 1.45,
      "grad_norm": 3.7025742530822754,
      "learning_rate": 2.8691163410301956e-05,
      "loss": 0.6477,
      "step": 14520
    },
    {
      "epoch": 1.45,
      "grad_norm": 2.675658702850342,
      "learning_rate": 2.8672661338069868e-05,
      "loss": 0.5375,
      "step": 14530
    },
    {
      "epoch": 1.45,
      "grad_norm": 3.484572649002075,
      "learning_rate": 2.8654159265837776e-05,
      "loss": 0.6524,
      "step": 14540
    },
    {
      "epoch": 1.45,
      "grad_norm": 2.8847830295562744,
      "learning_rate": 2.8635657193605687e-05,
      "loss": 0.643,
      "step": 14550
    },
    {
      "epoch": 1.45,
      "grad_norm": 2.882570743560791,
      "learning_rate": 2.8617155121373595e-05,
      "loss": 0.6135,
      "step": 14560
    },
    {
      "epoch": 1.46,
      "grad_norm": 2.5736284255981445,
      "learning_rate": 2.8598653049141503e-05,
      "loss": 0.6767,
      "step": 14570
    },
    {
      "epoch": 1.46,
      "grad_norm": 3.026693105697632,
      "learning_rate": 2.8580150976909415e-05,
      "loss": 0.6214,
      "step": 14580
    },
    {
      "epoch": 1.46,
      "grad_norm": 3.2260594367980957,
      "learning_rate": 2.8561648904677323e-05,
      "loss": 0.6668,
      "step": 14590
    },
    {
      "epoch": 1.46,
      "grad_norm": 3.703740119934082,
      "learning_rate": 2.8543146832445234e-05,
      "loss": 0.602,
      "step": 14600
    },
    {
      "epoch": 1.46,
      "grad_norm": 3.378154754638672,
      "learning_rate": 2.8524644760213142e-05,
      "loss": 0.6589,
      "step": 14610
    },
    {
      "epoch": 1.46,
      "grad_norm": 3.065385103225708,
      "learning_rate": 2.8506142687981057e-05,
      "loss": 0.6357,
      "step": 14620
    },
    {
      "epoch": 1.46,
      "grad_norm": 3.2808265686035156,
      "learning_rate": 2.848764061574897e-05,
      "loss": 0.6173,
      "step": 14630
    },
    {
      "epoch": 1.46,
      "grad_norm": 3.257772207260132,
      "learning_rate": 2.8469138543516877e-05,
      "loss": 0.6276,
      "step": 14640
    },
    {
      "epoch": 1.46,
      "grad_norm": 2.9854605197906494,
      "learning_rate": 2.8450636471284785e-05,
      "loss": 0.5551,
      "step": 14650
    },
    {
      "epoch": 1.46,
      "grad_norm": 4.2605977058410645,
      "learning_rate": 2.8432134399052696e-05,
      "loss": 0.6921,
      "step": 14660
    },
    {
      "epoch": 1.47,
      "grad_norm": 3.4441897869110107,
      "learning_rate": 2.8413632326820605e-05,
      "loss": 0.646,
      "step": 14670
    },
    {
      "epoch": 1.47,
      "grad_norm": 4.047048091888428,
      "learning_rate": 2.8395130254588516e-05,
      "loss": 0.5857,
      "step": 14680
    },
    {
      "epoch": 1.47,
      "grad_norm": 3.6308043003082275,
      "learning_rate": 2.8376628182356424e-05,
      "loss": 0.5758,
      "step": 14690
    },
    {
      "epoch": 1.47,
      "grad_norm": 2.999321937561035,
      "learning_rate": 2.8358126110124332e-05,
      "loss": 0.6343,
      "step": 14700
    },
    {
      "epoch": 1.47,
      "grad_norm": 3.770082712173462,
      "learning_rate": 2.8339624037892244e-05,
      "loss": 0.6649,
      "step": 14710
    },
    {
      "epoch": 1.47,
      "grad_norm": 3.175493001937866,
      "learning_rate": 2.832112196566016e-05,
      "loss": 0.6501,
      "step": 14720
    },
    {
      "epoch": 1.47,
      "grad_norm": 3.2744479179382324,
      "learning_rate": 2.8302619893428067e-05,
      "loss": 0.61,
      "step": 14730
    },
    {
      "epoch": 1.47,
      "grad_norm": 3.548309087753296,
      "learning_rate": 2.8284117821195978e-05,
      "loss": 0.6246,
      "step": 14740
    },
    {
      "epoch": 1.47,
      "grad_norm": 3.4020607471466064,
      "learning_rate": 2.8265615748963886e-05,
      "loss": 0.6414,
      "step": 14750
    },
    {
      "epoch": 1.47,
      "grad_norm": 3.7269515991210938,
      "learning_rate": 2.8247113676731794e-05,
      "loss": 0.6567,
      "step": 14760
    },
    {
      "epoch": 1.48,
      "grad_norm": 3.593482255935669,
      "learning_rate": 2.8228611604499706e-05,
      "loss": 0.6472,
      "step": 14770
    },
    {
      "epoch": 1.48,
      "grad_norm": 3.2768938541412354,
      "learning_rate": 2.8210109532267614e-05,
      "loss": 0.6568,
      "step": 14780
    },
    {
      "epoch": 1.48,
      "grad_norm": 3.290922164916992,
      "learning_rate": 2.8191607460035525e-05,
      "loss": 0.6528,
      "step": 14790
    },
    {
      "epoch": 1.48,
      "grad_norm": 2.8530209064483643,
      "learning_rate": 2.8173105387803433e-05,
      "loss": 0.635,
      "step": 14800
    },
    {
      "epoch": 1.48,
      "grad_norm": 2.9608850479125977,
      "learning_rate": 2.815460331557134e-05,
      "loss": 0.6427,
      "step": 14810
    },
    {
      "epoch": 1.48,
      "grad_norm": 3.809969902038574,
      "learning_rate": 2.8136101243339256e-05,
      "loss": 0.7071,
      "step": 14820
    },
    {
      "epoch": 1.48,
      "grad_norm": 3.7781810760498047,
      "learning_rate": 2.8117599171107168e-05,
      "loss": 0.7573,
      "step": 14830
    },
    {
      "epoch": 1.48,
      "grad_norm": 3.5438263416290283,
      "learning_rate": 2.8099097098875076e-05,
      "loss": 0.6365,
      "step": 14840
    },
    {
      "epoch": 1.48,
      "grad_norm": 3.1254079341888428,
      "learning_rate": 2.8080595026642987e-05,
      "loss": 0.6103,
      "step": 14850
    },
    {
      "epoch": 1.48,
      "grad_norm": 3.366231679916382,
      "learning_rate": 2.8062092954410896e-05,
      "loss": 0.6044,
      "step": 14860
    },
    {
      "epoch": 1.49,
      "grad_norm": 3.226290225982666,
      "learning_rate": 2.8043590882178804e-05,
      "loss": 0.6922,
      "step": 14870
    },
    {
      "epoch": 1.49,
      "grad_norm": 2.5911805629730225,
      "learning_rate": 2.8025088809946715e-05,
      "loss": 0.5842,
      "step": 14880
    },
    {
      "epoch": 1.49,
      "grad_norm": 4.222344398498535,
      "learning_rate": 2.8006586737714623e-05,
      "loss": 0.5727,
      "step": 14890
    },
    {
      "epoch": 1.49,
      "grad_norm": 3.392180919647217,
      "learning_rate": 2.7988084665482535e-05,
      "loss": 0.6017,
      "step": 14900
    },
    {
      "epoch": 1.49,
      "grad_norm": 3.34350848197937,
      "learning_rate": 2.7969582593250443e-05,
      "loss": 0.6216,
      "step": 14910
    },
    {
      "epoch": 1.49,
      "grad_norm": 3.3297269344329834,
      "learning_rate": 2.7951080521018358e-05,
      "loss": 0.6245,
      "step": 14920
    },
    {
      "epoch": 1.49,
      "grad_norm": 3.6570334434509277,
      "learning_rate": 2.7932578448786266e-05,
      "loss": 0.6206,
      "step": 14930
    },
    {
      "epoch": 1.49,
      "grad_norm": 3.193589448928833,
      "learning_rate": 2.7914076376554177e-05,
      "loss": 0.6194,
      "step": 14940
    },
    {
      "epoch": 1.49,
      "grad_norm": 3.4561758041381836,
      "learning_rate": 2.7895574304322085e-05,
      "loss": 0.6946,
      "step": 14950
    },
    {
      "epoch": 1.49,
      "grad_norm": 3.145428419113159,
      "learning_rate": 2.7877072232089997e-05,
      "loss": 0.6553,
      "step": 14960
    },
    {
      "epoch": 1.5,
      "grad_norm": 3.6266605854034424,
      "learning_rate": 2.7858570159857905e-05,
      "loss": 0.6565,
      "step": 14970
    },
    {
      "epoch": 1.5,
      "grad_norm": 3.9064838886260986,
      "learning_rate": 2.7840068087625813e-05,
      "loss": 0.6524,
      "step": 14980
    },
    {
      "epoch": 1.5,
      "grad_norm": 3.308026075363159,
      "learning_rate": 2.7821566015393724e-05,
      "loss": 0.5894,
      "step": 14990
    },
    {
      "epoch": 1.5,
      "grad_norm": 3.2246291637420654,
      "learning_rate": 2.7803063943161633e-05,
      "loss": 0.6371,
      "step": 15000
    },
    {
      "epoch": 1.5,
      "grad_norm": 3.9658730030059814,
      "learning_rate": 2.7784561870929544e-05,
      "loss": 0.6259,
      "step": 15010
    },
    {
      "epoch": 1.5,
      "grad_norm": 4.026402950286865,
      "learning_rate": 2.776605979869746e-05,
      "loss": 0.6527,
      "step": 15020
    },
    {
      "epoch": 1.5,
      "grad_norm": 3.0389773845672607,
      "learning_rate": 2.7747557726465367e-05,
      "loss": 0.6335,
      "step": 15030
    },
    {
      "epoch": 1.5,
      "grad_norm": 2.625354290008545,
      "learning_rate": 2.772905565423328e-05,
      "loss": 0.701,
      "step": 15040
    },
    {
      "epoch": 1.5,
      "grad_norm": 2.995311975479126,
      "learning_rate": 2.7710553582001187e-05,
      "loss": 0.7109,
      "step": 15050
    },
    {
      "epoch": 1.5,
      "grad_norm": 3.015831232070923,
      "learning_rate": 2.7692051509769095e-05,
      "loss": 0.662,
      "step": 15060
    },
    {
      "epoch": 1.51,
      "grad_norm": 2.911083698272705,
      "learning_rate": 2.7673549437537006e-05,
      "loss": 0.5961,
      "step": 15070
    },
    {
      "epoch": 1.51,
      "grad_norm": 3.4385855197906494,
      "learning_rate": 2.7655047365304914e-05,
      "loss": 0.6595,
      "step": 15080
    },
    {
      "epoch": 1.51,
      "grad_norm": 3.484557628631592,
      "learning_rate": 2.7636545293072826e-05,
      "loss": 0.5725,
      "step": 15090
    },
    {
      "epoch": 1.51,
      "grad_norm": 3.2317233085632324,
      "learning_rate": 2.7618043220840734e-05,
      "loss": 0.6276,
      "step": 15100
    },
    {
      "epoch": 1.51,
      "grad_norm": 3.841646909713745,
      "learning_rate": 2.7599541148608642e-05,
      "loss": 0.6142,
      "step": 15110
    },
    {
      "epoch": 1.51,
      "grad_norm": 3.7558600902557373,
      "learning_rate": 2.7581039076376557e-05,
      "loss": 0.6063,
      "step": 15120
    },
    {
      "epoch": 1.51,
      "grad_norm": 4.507397651672363,
      "learning_rate": 2.7562537004144468e-05,
      "loss": 0.682,
      "step": 15130
    },
    {
      "epoch": 1.51,
      "grad_norm": 3.259913921356201,
      "learning_rate": 2.7544034931912376e-05,
      "loss": 0.6653,
      "step": 15140
    },
    {
      "epoch": 1.51,
      "grad_norm": 3.347912073135376,
      "learning_rate": 2.7525532859680288e-05,
      "loss": 0.6044,
      "step": 15150
    },
    {
      "epoch": 1.51,
      "grad_norm": 3.967210054397583,
      "learning_rate": 2.7507030787448196e-05,
      "loss": 0.6512,
      "step": 15160
    },
    {
      "epoch": 1.52,
      "grad_norm": 2.8259775638580322,
      "learning_rate": 2.7488528715216104e-05,
      "loss": 0.6545,
      "step": 15170
    },
    {
      "epoch": 1.52,
      "grad_norm": 3.788403034210205,
      "learning_rate": 2.7470026642984015e-05,
      "loss": 0.5787,
      "step": 15180
    },
    {
      "epoch": 1.52,
      "grad_norm": 3.470550060272217,
      "learning_rate": 2.7451524570751923e-05,
      "loss": 0.6217,
      "step": 15190
    },
    {
      "epoch": 1.52,
      "grad_norm": 3.9311118125915527,
      "learning_rate": 2.7433022498519835e-05,
      "loss": 0.645,
      "step": 15200
    },
    {
      "epoch": 1.52,
      "grad_norm": 3.1867947578430176,
      "learning_rate": 2.7414520426287743e-05,
      "loss": 0.6824,
      "step": 15210
    },
    {
      "epoch": 1.52,
      "grad_norm": 4.200204849243164,
      "learning_rate": 2.7396018354055658e-05,
      "loss": 0.6381,
      "step": 15220
    },
    {
      "epoch": 1.52,
      "grad_norm": 3.116236925125122,
      "learning_rate": 2.7377516281823566e-05,
      "loss": 0.6988,
      "step": 15230
    },
    {
      "epoch": 1.52,
      "grad_norm": 2.776932716369629,
      "learning_rate": 2.7359014209591477e-05,
      "loss": 0.6225,
      "step": 15240
    },
    {
      "epoch": 1.52,
      "grad_norm": 2.9258573055267334,
      "learning_rate": 2.7340512137359386e-05,
      "loss": 0.5973,
      "step": 15250
    },
    {
      "epoch": 1.52,
      "grad_norm": 4.298075199127197,
      "learning_rate": 2.7322010065127297e-05,
      "loss": 0.6024,
      "step": 15260
    },
    {
      "epoch": 1.53,
      "grad_norm": 3.4645299911499023,
      "learning_rate": 2.7303507992895205e-05,
      "loss": 0.6405,
      "step": 15270
    },
    {
      "epoch": 1.53,
      "grad_norm": 3.444275379180908,
      "learning_rate": 2.7285005920663113e-05,
      "loss": 0.6259,
      "step": 15280
    },
    {
      "epoch": 1.53,
      "grad_norm": 2.6459248065948486,
      "learning_rate": 2.7266503848431025e-05,
      "loss": 0.6085,
      "step": 15290
    },
    {
      "epoch": 1.53,
      "grad_norm": 3.6467807292938232,
      "learning_rate": 2.7248001776198933e-05,
      "loss": 0.6191,
      "step": 15300
    },
    {
      "epoch": 1.53,
      "grad_norm": 3.0704610347747803,
      "learning_rate": 2.7229499703966844e-05,
      "loss": 0.6819,
      "step": 15310
    },
    {
      "epoch": 1.53,
      "grad_norm": 3.245441436767578,
      "learning_rate": 2.721099763173476e-05,
      "loss": 0.6301,
      "step": 15320
    },
    {
      "epoch": 1.53,
      "grad_norm": 3.734928607940674,
      "learning_rate": 2.7192495559502667e-05,
      "loss": 0.6741,
      "step": 15330
    },
    {
      "epoch": 1.53,
      "grad_norm": 2.8301920890808105,
      "learning_rate": 2.717399348727058e-05,
      "loss": 0.5901,
      "step": 15340
    },
    {
      "epoch": 1.53,
      "grad_norm": 3.63871693611145,
      "learning_rate": 2.7155491415038487e-05,
      "loss": 0.5911,
      "step": 15350
    },
    {
      "epoch": 1.53,
      "grad_norm": 3.6039066314697266,
      "learning_rate": 2.7136989342806395e-05,
      "loss": 0.6168,
      "step": 15360
    },
    {
      "epoch": 1.54,
      "grad_norm": 3.587148904800415,
      "learning_rate": 2.7118487270574306e-05,
      "loss": 0.6762,
      "step": 15370
    },
    {
      "epoch": 1.54,
      "grad_norm": 3.5768487453460693,
      "learning_rate": 2.7099985198342214e-05,
      "loss": 0.6035,
      "step": 15380
    },
    {
      "epoch": 1.54,
      "grad_norm": 3.3628931045532227,
      "learning_rate": 2.7081483126110126e-05,
      "loss": 0.6755,
      "step": 15390
    },
    {
      "epoch": 1.54,
      "grad_norm": 2.9846434593200684,
      "learning_rate": 2.7062981053878034e-05,
      "loss": 0.5934,
      "step": 15400
    },
    {
      "epoch": 1.54,
      "grad_norm": 2.814359664916992,
      "learning_rate": 2.7044478981645942e-05,
      "loss": 0.659,
      "step": 15410
    },
    {
      "epoch": 1.54,
      "grad_norm": 3.1409802436828613,
      "learning_rate": 2.7025976909413857e-05,
      "loss": 0.6077,
      "step": 15420
    },
    {
      "epoch": 1.54,
      "grad_norm": 3.440938949584961,
      "learning_rate": 2.700747483718177e-05,
      "loss": 0.6149,
      "step": 15430
    },
    {
      "epoch": 1.54,
      "grad_norm": 3.122101068496704,
      "learning_rate": 2.6988972764949677e-05,
      "loss": 0.6124,
      "step": 15440
    },
    {
      "epoch": 1.54,
      "grad_norm": 3.0099527835845947,
      "learning_rate": 2.6970470692717588e-05,
      "loss": 0.6253,
      "step": 15450
    },
    {
      "epoch": 1.54,
      "grad_norm": 2.929388999938965,
      "learning_rate": 2.6951968620485496e-05,
      "loss": 0.7168,
      "step": 15460
    },
    {
      "epoch": 1.55,
      "grad_norm": 3.3456127643585205,
      "learning_rate": 2.6933466548253404e-05,
      "loss": 0.55,
      "step": 15470
    },
    {
      "epoch": 1.55,
      "grad_norm": 3.6613051891326904,
      "learning_rate": 2.6914964476021316e-05,
      "loss": 0.6296,
      "step": 15480
    },
    {
      "epoch": 1.55,
      "grad_norm": 3.5128393173217773,
      "learning_rate": 2.6896462403789224e-05,
      "loss": 0.6527,
      "step": 15490
    },
    {
      "epoch": 1.55,
      "grad_norm": 2.096022605895996,
      "learning_rate": 2.6877960331557135e-05,
      "loss": 0.6098,
      "step": 15500
    },
    {
      "epoch": 1.55,
      "grad_norm": 3.323666572570801,
      "learning_rate": 2.6859458259325043e-05,
      "loss": 0.5602,
      "step": 15510
    },
    {
      "epoch": 1.55,
      "grad_norm": 3.251734972000122,
      "learning_rate": 2.6840956187092958e-05,
      "loss": 0.6926,
      "step": 15520
    },
    {
      "epoch": 1.55,
      "grad_norm": 4.035068988800049,
      "learning_rate": 2.6822454114860866e-05,
      "loss": 0.6661,
      "step": 15530
    },
    {
      "epoch": 1.55,
      "grad_norm": 2.8830935955047607,
      "learning_rate": 2.6803952042628778e-05,
      "loss": 0.6589,
      "step": 15540
    },
    {
      "epoch": 1.55,
      "grad_norm": 3.9320175647735596,
      "learning_rate": 2.6785449970396686e-05,
      "loss": 0.6288,
      "step": 15550
    },
    {
      "epoch": 1.55,
      "grad_norm": 3.0678088665008545,
      "learning_rate": 2.6766947898164597e-05,
      "loss": 0.5307,
      "step": 15560
    },
    {
      "epoch": 1.56,
      "grad_norm": 2.598581552505493,
      "learning_rate": 2.6748445825932505e-05,
      "loss": 0.7427,
      "step": 15570
    },
    {
      "epoch": 1.56,
      "grad_norm": 3.2415122985839844,
      "learning_rate": 2.6729943753700414e-05,
      "loss": 0.6382,
      "step": 15580
    },
    {
      "epoch": 1.56,
      "grad_norm": 3.261061429977417,
      "learning_rate": 2.6711441681468325e-05,
      "loss": 0.6607,
      "step": 15590
    },
    {
      "epoch": 1.56,
      "grad_norm": 2.9462711811065674,
      "learning_rate": 2.6692939609236233e-05,
      "loss": 0.604,
      "step": 15600
    },
    {
      "epoch": 1.56,
      "grad_norm": 2.5257608890533447,
      "learning_rate": 2.6674437537004145e-05,
      "loss": 0.6394,
      "step": 15610
    },
    {
      "epoch": 1.56,
      "grad_norm": 3.277787446975708,
      "learning_rate": 2.665593546477206e-05,
      "loss": 0.613,
      "step": 15620
    },
    {
      "epoch": 1.56,
      "grad_norm": 3.7320396900177,
      "learning_rate": 2.6637433392539968e-05,
      "loss": 0.6386,
      "step": 15630
    },
    {
      "epoch": 1.56,
      "grad_norm": 3.180634021759033,
      "learning_rate": 2.6618931320307876e-05,
      "loss": 0.6401,
      "step": 15640
    },
    {
      "epoch": 1.56,
      "grad_norm": 3.141770601272583,
      "learning_rate": 2.6600429248075787e-05,
      "loss": 0.6798,
      "step": 15650
    },
    {
      "epoch": 1.56,
      "grad_norm": 3.966482162475586,
      "learning_rate": 2.6581927175843695e-05,
      "loss": 0.6677,
      "step": 15660
    },
    {
      "epoch": 1.57,
      "grad_norm": 3.987187623977661,
      "learning_rate": 2.6563425103611607e-05,
      "loss": 0.6142,
      "step": 15670
    },
    {
      "epoch": 1.57,
      "grad_norm": 3.449846029281616,
      "learning_rate": 2.6544923031379515e-05,
      "loss": 0.5978,
      "step": 15680
    },
    {
      "epoch": 1.57,
      "grad_norm": 2.631364107131958,
      "learning_rate": 2.6526420959147423e-05,
      "loss": 0.6599,
      "step": 15690
    },
    {
      "epoch": 1.57,
      "grad_norm": 4.93629264831543,
      "learning_rate": 2.6507918886915334e-05,
      "loss": 0.6005,
      "step": 15700
    },
    {
      "epoch": 1.57,
      "grad_norm": 3.6558613777160645,
      "learning_rate": 2.6489416814683242e-05,
      "loss": 0.6409,
      "step": 15710
    },
    {
      "epoch": 1.57,
      "grad_norm": 2.7989542484283447,
      "learning_rate": 2.6470914742451157e-05,
      "loss": 0.6041,
      "step": 15720
    },
    {
      "epoch": 1.57,
      "grad_norm": 2.8120813369750977,
      "learning_rate": 2.645241267021907e-05,
      "loss": 0.5781,
      "step": 15730
    },
    {
      "epoch": 1.57,
      "grad_norm": 3.296369791030884,
      "learning_rate": 2.6433910597986977e-05,
      "loss": 0.5881,
      "step": 15740
    },
    {
      "epoch": 1.57,
      "grad_norm": 3.236032485961914,
      "learning_rate": 2.641540852575489e-05,
      "loss": 0.5876,
      "step": 15750
    },
    {
      "epoch": 1.57,
      "grad_norm": 2.859074592590332,
      "learning_rate": 2.6396906453522796e-05,
      "loss": 0.6265,
      "step": 15760
    },
    {
      "epoch": 1.58,
      "grad_norm": 4.188309669494629,
      "learning_rate": 2.6378404381290705e-05,
      "loss": 0.6807,
      "step": 15770
    },
    {
      "epoch": 1.58,
      "grad_norm": 3.472709894180298,
      "learning_rate": 2.6359902309058616e-05,
      "loss": 0.6848,
      "step": 15780
    },
    {
      "epoch": 1.58,
      "grad_norm": 3.190871238708496,
      "learning_rate": 2.6341400236826524e-05,
      "loss": 0.6201,
      "step": 15790
    },
    {
      "epoch": 1.58,
      "grad_norm": 4.218927383422852,
      "learning_rate": 2.6322898164594436e-05,
      "loss": 0.6288,
      "step": 15800
    },
    {
      "epoch": 1.58,
      "grad_norm": 3.9859812259674072,
      "learning_rate": 2.6304396092362344e-05,
      "loss": 0.6735,
      "step": 15810
    },
    {
      "epoch": 1.58,
      "grad_norm": 3.105686664581299,
      "learning_rate": 2.628589402013026e-05,
      "loss": 0.5898,
      "step": 15820
    },
    {
      "epoch": 1.58,
      "grad_norm": 3.0795061588287354,
      "learning_rate": 2.6267391947898167e-05,
      "loss": 0.6804,
      "step": 15830
    },
    {
      "epoch": 1.58,
      "grad_norm": 2.9400739669799805,
      "learning_rate": 2.6248889875666078e-05,
      "loss": 0.6418,
      "step": 15840
    },
    {
      "epoch": 1.58,
      "grad_norm": 3.3806650638580322,
      "learning_rate": 2.6230387803433986e-05,
      "loss": 0.5907,
      "step": 15850
    },
    {
      "epoch": 1.58,
      "grad_norm": 3.6827099323272705,
      "learning_rate": 2.6211885731201898e-05,
      "loss": 0.6074,
      "step": 15860
    },
    {
      "epoch": 1.59,
      "grad_norm": 3.207658290863037,
      "learning_rate": 2.6193383658969806e-05,
      "loss": 0.6343,
      "step": 15870
    },
    {
      "epoch": 1.59,
      "grad_norm": 3.214779853820801,
      "learning_rate": 2.6174881586737714e-05,
      "loss": 0.6604,
      "step": 15880
    },
    {
      "epoch": 1.59,
      "grad_norm": 2.9560463428497314,
      "learning_rate": 2.6156379514505625e-05,
      "loss": 0.647,
      "step": 15890
    },
    {
      "epoch": 1.59,
      "grad_norm": 3.8387837409973145,
      "learning_rate": 2.6137877442273533e-05,
      "loss": 0.583,
      "step": 15900
    },
    {
      "epoch": 1.59,
      "grad_norm": 2.8855056762695312,
      "learning_rate": 2.6119375370041445e-05,
      "loss": 0.654,
      "step": 15910
    },
    {
      "epoch": 1.59,
      "grad_norm": 3.4603359699249268,
      "learning_rate": 2.610087329780936e-05,
      "loss": 0.6074,
      "step": 15920
    },
    {
      "epoch": 1.59,
      "grad_norm": 3.0164339542388916,
      "learning_rate": 2.6082371225577268e-05,
      "loss": 0.5933,
      "step": 15930
    },
    {
      "epoch": 1.59,
      "grad_norm": 3.1225719451904297,
      "learning_rate": 2.6063869153345176e-05,
      "loss": 0.6157,
      "step": 15940
    },
    {
      "epoch": 1.59,
      "grad_norm": 3.129042148590088,
      "learning_rate": 2.6045367081113087e-05,
      "loss": 0.6426,
      "step": 15950
    },
    {
      "epoch": 1.59,
      "grad_norm": 2.9879655838012695,
      "learning_rate": 2.6026865008880995e-05,
      "loss": 0.6536,
      "step": 15960
    },
    {
      "epoch": 1.6,
      "grad_norm": 3.8819308280944824,
      "learning_rate": 2.6008362936648907e-05,
      "loss": 0.666,
      "step": 15970
    },
    {
      "epoch": 1.6,
      "grad_norm": 3.1760854721069336,
      "learning_rate": 2.5989860864416815e-05,
      "loss": 0.6527,
      "step": 15980
    },
    {
      "epoch": 1.6,
      "grad_norm": 2.9997661113739014,
      "learning_rate": 2.5971358792184723e-05,
      "loss": 0.6606,
      "step": 15990
    },
    {
      "epoch": 1.6,
      "grad_norm": 3.513305187225342,
      "learning_rate": 2.5952856719952635e-05,
      "loss": 0.6337,
      "step": 16000
    },
    {
      "epoch": 1.6,
      "grad_norm": 3.0837759971618652,
      "learning_rate": 2.5934354647720543e-05,
      "loss": 0.6206,
      "step": 16010
    },
    {
      "epoch": 1.6,
      "grad_norm": 3.2593297958374023,
      "learning_rate": 2.5915852575488458e-05,
      "loss": 0.6126,
      "step": 16020
    },
    {
      "epoch": 1.6,
      "grad_norm": 6.5373992919921875,
      "learning_rate": 2.589735050325637e-05,
      "loss": 0.5698,
      "step": 16030
    },
    {
      "epoch": 1.6,
      "grad_norm": 3.326586961746216,
      "learning_rate": 2.5878848431024277e-05,
      "loss": 0.5808,
      "step": 16040
    },
    {
      "epoch": 1.6,
      "grad_norm": 4.473963737487793,
      "learning_rate": 2.5860346358792185e-05,
      "loss": 0.6324,
      "step": 16050
    },
    {
      "epoch": 1.6,
      "grad_norm": 4.624648571014404,
      "learning_rate": 2.5841844286560097e-05,
      "loss": 0.6971,
      "step": 16060
    },
    {
      "epoch": 1.61,
      "grad_norm": 3.1719744205474854,
      "learning_rate": 2.5823342214328005e-05,
      "loss": 0.6574,
      "step": 16070
    },
    {
      "epoch": 1.61,
      "grad_norm": 3.899669647216797,
      "learning_rate": 2.5804840142095916e-05,
      "loss": 0.599,
      "step": 16080
    },
    {
      "epoch": 1.61,
      "grad_norm": 2.219557285308838,
      "learning_rate": 2.5786338069863824e-05,
      "loss": 0.6708,
      "step": 16090
    },
    {
      "epoch": 1.61,
      "grad_norm": 3.4993855953216553,
      "learning_rate": 2.5767835997631732e-05,
      "loss": 0.5899,
      "step": 16100
    },
    {
      "epoch": 1.61,
      "grad_norm": 3.208387851715088,
      "learning_rate": 2.5749333925399644e-05,
      "loss": 0.618,
      "step": 16110
    },
    {
      "epoch": 1.61,
      "grad_norm": 3.4615097045898438,
      "learning_rate": 2.573083185316756e-05,
      "loss": 0.5744,
      "step": 16120
    },
    {
      "epoch": 1.61,
      "grad_norm": 3.709477663040161,
      "learning_rate": 2.5712329780935467e-05,
      "loss": 0.6717,
      "step": 16130
    },
    {
      "epoch": 1.61,
      "grad_norm": 3.2240025997161865,
      "learning_rate": 2.569382770870338e-05,
      "loss": 0.6485,
      "step": 16140
    },
    {
      "epoch": 1.61,
      "grad_norm": 3.330953359603882,
      "learning_rate": 2.5675325636471286e-05,
      "loss": 0.6093,
      "step": 16150
    },
    {
      "epoch": 1.61,
      "grad_norm": 4.21746826171875,
      "learning_rate": 2.5656823564239198e-05,
      "loss": 0.6591,
      "step": 16160
    },
    {
      "epoch": 1.62,
      "grad_norm": 2.9119791984558105,
      "learning_rate": 2.5638321492007106e-05,
      "loss": 0.5908,
      "step": 16170
    },
    {
      "epoch": 1.62,
      "grad_norm": 3.007763147354126,
      "learning_rate": 2.5619819419775014e-05,
      "loss": 0.6123,
      "step": 16180
    },
    {
      "epoch": 1.62,
      "grad_norm": 2.4977409839630127,
      "learning_rate": 2.5601317347542926e-05,
      "loss": 0.6441,
      "step": 16190
    },
    {
      "epoch": 1.62,
      "grad_norm": 3.1036386489868164,
      "learning_rate": 2.5582815275310834e-05,
      "loss": 0.6746,
      "step": 16200
    },
    {
      "epoch": 1.62,
      "grad_norm": 2.716670274734497,
      "learning_rate": 2.5564313203078745e-05,
      "loss": 0.6439,
      "step": 16210
    },
    {
      "epoch": 1.62,
      "grad_norm": 3.8863396644592285,
      "learning_rate": 2.554581113084666e-05,
      "loss": 0.6937,
      "step": 16220
    },
    {
      "epoch": 1.62,
      "grad_norm": 3.6387887001037598,
      "learning_rate": 2.5527309058614568e-05,
      "loss": 0.6132,
      "step": 16230
    },
    {
      "epoch": 1.62,
      "grad_norm": 3.269012689590454,
      "learning_rate": 2.5508806986382476e-05,
      "loss": 0.6763,
      "step": 16240
    },
    {
      "epoch": 1.62,
      "grad_norm": 3.102813959121704,
      "learning_rate": 2.5490304914150388e-05,
      "loss": 0.6495,
      "step": 16250
    },
    {
      "epoch": 1.62,
      "grad_norm": 3.8221096992492676,
      "learning_rate": 2.5471802841918296e-05,
      "loss": 0.673,
      "step": 16260
    },
    {
      "epoch": 1.63,
      "grad_norm": 2.9544031620025635,
      "learning_rate": 2.5453300769686207e-05,
      "loss": 0.6458,
      "step": 16270
    },
    {
      "epoch": 1.63,
      "grad_norm": 3.902676820755005,
      "learning_rate": 2.5434798697454115e-05,
      "loss": 0.632,
      "step": 16280
    },
    {
      "epoch": 1.63,
      "grad_norm": 2.697258710861206,
      "learning_rate": 2.5416296625222023e-05,
      "loss": 0.6441,
      "step": 16290
    },
    {
      "epoch": 1.63,
      "grad_norm": 3.135918378829956,
      "learning_rate": 2.5397794552989935e-05,
      "loss": 0.5454,
      "step": 16300
    },
    {
      "epoch": 1.63,
      "grad_norm": 3.017878770828247,
      "learning_rate": 2.5379292480757843e-05,
      "loss": 0.6321,
      "step": 16310
    },
    {
      "epoch": 1.63,
      "grad_norm": 2.5071253776550293,
      "learning_rate": 2.5360790408525758e-05,
      "loss": 0.6094,
      "step": 16320
    },
    {
      "epoch": 1.63,
      "grad_norm": 3.646655797958374,
      "learning_rate": 2.534228833629367e-05,
      "loss": 0.5942,
      "step": 16330
    },
    {
      "epoch": 1.63,
      "grad_norm": 2.2960689067840576,
      "learning_rate": 2.5323786264061577e-05,
      "loss": 0.64,
      "step": 16340
    },
    {
      "epoch": 1.63,
      "grad_norm": 2.712153673171997,
      "learning_rate": 2.5305284191829486e-05,
      "loss": 0.5687,
      "step": 16350
    },
    {
      "epoch": 1.63,
      "grad_norm": 3.126702308654785,
      "learning_rate": 2.5286782119597397e-05,
      "loss": 0.5831,
      "step": 16360
    },
    {
      "epoch": 1.64,
      "grad_norm": 2.97855281829834,
      "learning_rate": 2.5268280047365305e-05,
      "loss": 0.6294,
      "step": 16370
    },
    {
      "epoch": 1.64,
      "grad_norm": 2.9233744144439697,
      "learning_rate": 2.5249777975133217e-05,
      "loss": 0.6219,
      "step": 16380
    },
    {
      "epoch": 1.64,
      "grad_norm": 3.516036033630371,
      "learning_rate": 2.5231275902901125e-05,
      "loss": 0.6949,
      "step": 16390
    },
    {
      "epoch": 1.64,
      "grad_norm": 4.194035053253174,
      "learning_rate": 2.5212773830669033e-05,
      "loss": 0.7174,
      "step": 16400
    },
    {
      "epoch": 1.64,
      "grad_norm": 3.769399404525757,
      "learning_rate": 2.5194271758436944e-05,
      "loss": 0.6365,
      "step": 16410
    },
    {
      "epoch": 1.64,
      "grad_norm": 3.47116756439209,
      "learning_rate": 2.517576968620486e-05,
      "loss": 0.622,
      "step": 16420
    },
    {
      "epoch": 1.64,
      "grad_norm": 3.7374539375305176,
      "learning_rate": 2.5157267613972767e-05,
      "loss": 0.6678,
      "step": 16430
    },
    {
      "epoch": 1.64,
      "grad_norm": 3.3110930919647217,
      "learning_rate": 2.513876554174068e-05,
      "loss": 0.6563,
      "step": 16440
    },
    {
      "epoch": 1.64,
      "grad_norm": 3.0474507808685303,
      "learning_rate": 2.5120263469508587e-05,
      "loss": 0.6511,
      "step": 16450
    },
    {
      "epoch": 1.64,
      "grad_norm": 4.219615936279297,
      "learning_rate": 2.5101761397276495e-05,
      "loss": 0.6468,
      "step": 16460
    },
    {
      "epoch": 1.65,
      "grad_norm": 3.534513235092163,
      "learning_rate": 2.5083259325044406e-05,
      "loss": 0.6287,
      "step": 16470
    },
    {
      "epoch": 1.65,
      "grad_norm": 4.384838581085205,
      "learning_rate": 2.5064757252812314e-05,
      "loss": 0.6746,
      "step": 16480
    },
    {
      "epoch": 1.65,
      "grad_norm": 3.544214963912964,
      "learning_rate": 2.5046255180580226e-05,
      "loss": 0.6167,
      "step": 16490
    },
    {
      "epoch": 1.65,
      "grad_norm": 3.495208740234375,
      "learning_rate": 2.5027753108348134e-05,
      "loss": 0.6191,
      "step": 16500
    },
    {
      "epoch": 1.65,
      "grad_norm": 3.4189069271087646,
      "learning_rate": 2.5009251036116042e-05,
      "loss": 0.6121,
      "step": 16510
    },
    {
      "epoch": 1.65,
      "grad_norm": 2.929008960723877,
      "learning_rate": 2.4990748963883957e-05,
      "loss": 0.6573,
      "step": 16520
    },
    {
      "epoch": 1.65,
      "grad_norm": 3.4015302658081055,
      "learning_rate": 2.4972246891651865e-05,
      "loss": 0.6475,
      "step": 16530
    },
    {
      "epoch": 1.65,
      "grad_norm": 3.2602555751800537,
      "learning_rate": 2.4953744819419777e-05,
      "loss": 0.6431,
      "step": 16540
    },
    {
      "epoch": 1.65,
      "grad_norm": 2.673567533493042,
      "learning_rate": 2.4935242747187688e-05,
      "loss": 0.6396,
      "step": 16550
    },
    {
      "epoch": 1.65,
      "grad_norm": 3.2815451622009277,
      "learning_rate": 2.4916740674955596e-05,
      "loss": 0.6707,
      "step": 16560
    },
    {
      "epoch": 1.66,
      "grad_norm": 3.4872050285339355,
      "learning_rate": 2.4898238602723508e-05,
      "loss": 0.6307,
      "step": 16570
    },
    {
      "epoch": 1.66,
      "grad_norm": 3.5867302417755127,
      "learning_rate": 2.4879736530491416e-05,
      "loss": 0.6372,
      "step": 16580
    },
    {
      "epoch": 1.66,
      "grad_norm": 3.141064167022705,
      "learning_rate": 2.4861234458259327e-05,
      "loss": 0.6216,
      "step": 16590
    },
    {
      "epoch": 1.66,
      "grad_norm": 3.1664626598358154,
      "learning_rate": 2.484273238602724e-05,
      "loss": 0.6363,
      "step": 16600
    },
    {
      "epoch": 1.66,
      "grad_norm": 3.4262101650238037,
      "learning_rate": 2.4824230313795147e-05,
      "loss": 0.6879,
      "step": 16610
    },
    {
      "epoch": 1.66,
      "grad_norm": 3.1608736515045166,
      "learning_rate": 2.4805728241563055e-05,
      "loss": 0.6737,
      "step": 16620
    },
    {
      "epoch": 1.66,
      "grad_norm": 3.5001676082611084,
      "learning_rate": 2.4787226169330966e-05,
      "loss": 0.6659,
      "step": 16630
    },
    {
      "epoch": 1.66,
      "grad_norm": 3.446577310562134,
      "learning_rate": 2.4768724097098878e-05,
      "loss": 0.6308,
      "step": 16640
    },
    {
      "epoch": 1.66,
      "grad_norm": 3.004865884780884,
      "learning_rate": 2.4750222024866786e-05,
      "loss": 0.6347,
      "step": 16650
    },
    {
      "epoch": 1.66,
      "grad_norm": 4.1924896240234375,
      "learning_rate": 2.4731719952634697e-05,
      "loss": 0.6764,
      "step": 16660
    },
    {
      "epoch": 1.67,
      "grad_norm": 3.1083884239196777,
      "learning_rate": 2.4713217880402605e-05,
      "loss": 0.5629,
      "step": 16670
    },
    {
      "epoch": 1.67,
      "grad_norm": 3.5069215297698975,
      "learning_rate": 2.4694715808170517e-05,
      "loss": 0.5913,
      "step": 16680
    },
    {
      "epoch": 1.67,
      "grad_norm": 3.199601888656616,
      "learning_rate": 2.467621373593843e-05,
      "loss": 0.7272,
      "step": 16690
    },
    {
      "epoch": 1.67,
      "grad_norm": 3.0438294410705566,
      "learning_rate": 2.4657711663706336e-05,
      "loss": 0.6173,
      "step": 16700
    },
    {
      "epoch": 1.67,
      "grad_norm": 3.5073797702789307,
      "learning_rate": 2.4639209591474248e-05,
      "loss": 0.5918,
      "step": 16710
    },
    {
      "epoch": 1.67,
      "grad_norm": 4.163944721221924,
      "learning_rate": 2.4620707519242156e-05,
      "loss": 0.7076,
      "step": 16720
    },
    {
      "epoch": 1.67,
      "grad_norm": 3.5576279163360596,
      "learning_rate": 2.4602205447010064e-05,
      "loss": 0.558,
      "step": 16730
    },
    {
      "epoch": 1.67,
      "grad_norm": 3.969139814376831,
      "learning_rate": 2.458370337477798e-05,
      "loss": 0.6341,
      "step": 16740
    },
    {
      "epoch": 1.67,
      "grad_norm": 2.9431302547454834,
      "learning_rate": 2.4565201302545887e-05,
      "loss": 0.6473,
      "step": 16750
    },
    {
      "epoch": 1.67,
      "grad_norm": 3.5338268280029297,
      "learning_rate": 2.4546699230313795e-05,
      "loss": 0.6276,
      "step": 16760
    },
    {
      "epoch": 1.68,
      "grad_norm": 3.8606081008911133,
      "learning_rate": 2.4528197158081707e-05,
      "loss": 0.6333,
      "step": 16770
    },
    {
      "epoch": 1.68,
      "grad_norm": 3.260563373565674,
      "learning_rate": 2.4509695085849615e-05,
      "loss": 0.5911,
      "step": 16780
    },
    {
      "epoch": 1.68,
      "grad_norm": 4.22351598739624,
      "learning_rate": 2.4491193013617526e-05,
      "loss": 0.6029,
      "step": 16790
    },
    {
      "epoch": 1.68,
      "grad_norm": 3.5826404094696045,
      "learning_rate": 2.4472690941385438e-05,
      "loss": 0.6472,
      "step": 16800
    },
    {
      "epoch": 1.68,
      "grad_norm": 4.523568630218506,
      "learning_rate": 2.4454188869153346e-05,
      "loss": 0.6472,
      "step": 16810
    },
    {
      "epoch": 1.68,
      "grad_norm": 3.3859500885009766,
      "learning_rate": 2.4435686796921257e-05,
      "loss": 0.6971,
      "step": 16820
    },
    {
      "epoch": 1.68,
      "grad_norm": 2.7839231491088867,
      "learning_rate": 2.4417184724689165e-05,
      "loss": 0.6911,
      "step": 16830
    },
    {
      "epoch": 1.68,
      "grad_norm": 3.6733920574188232,
      "learning_rate": 2.4398682652457077e-05,
      "loss": 0.6502,
      "step": 16840
    },
    {
      "epoch": 1.68,
      "grad_norm": 2.783729314804077,
      "learning_rate": 2.4380180580224988e-05,
      "loss": 0.6216,
      "step": 16850
    },
    {
      "epoch": 1.68,
      "grad_norm": 3.532646656036377,
      "learning_rate": 2.4361678507992896e-05,
      "loss": 0.614,
      "step": 16860
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.1128039360046387,
      "learning_rate": 2.4343176435760804e-05,
      "loss": 0.632,
      "step": 16870
    },
    {
      "epoch": 1.69,
      "grad_norm": 4.215907096862793,
      "learning_rate": 2.4324674363528716e-05,
      "loss": 0.7031,
      "step": 16880
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.1620032787323,
      "learning_rate": 2.4306172291296627e-05,
      "loss": 0.5724,
      "step": 16890
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.0799546241760254,
      "learning_rate": 2.428767021906454e-05,
      "loss": 0.6512,
      "step": 16900
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.169516086578369,
      "learning_rate": 2.4269168146832447e-05,
      "loss": 0.669,
      "step": 16910
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.5437521934509277,
      "learning_rate": 2.4250666074600355e-05,
      "loss": 0.6617,
      "step": 16920
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.6561810970306396,
      "learning_rate": 2.4232164002368267e-05,
      "loss": 0.6105,
      "step": 16930
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.926508665084839,
      "learning_rate": 2.4213661930136178e-05,
      "loss": 0.6224,
      "step": 16940
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.632533073425293,
      "learning_rate": 2.4195159857904086e-05,
      "loss": 0.6394,
      "step": 16950
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.3401787281036377,
      "learning_rate": 2.4176657785671998e-05,
      "loss": 0.5694,
      "step": 16960
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.4223954677581787,
      "learning_rate": 2.4158155713439906e-05,
      "loss": 0.6094,
      "step": 16970
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.166285991668701,
      "learning_rate": 2.4139653641207817e-05,
      "loss": 0.6324,
      "step": 16980
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.8516833782196045,
      "learning_rate": 2.412115156897573e-05,
      "loss": 0.6695,
      "step": 16990
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.166186571121216,
      "learning_rate": 2.4102649496743637e-05,
      "loss": 0.6563,
      "step": 17000
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.4627861976623535,
      "learning_rate": 2.4084147424511548e-05,
      "loss": 0.6908,
      "step": 17010
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.775359869003296,
      "learning_rate": 2.4065645352279456e-05,
      "loss": 0.7159,
      "step": 17020
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.7304036617279053,
      "learning_rate": 2.4047143280047364e-05,
      "loss": 0.6383,
      "step": 17030
    },
    {
      "epoch": 1.7,
      "grad_norm": 2.777420997619629,
      "learning_rate": 2.402864120781528e-05,
      "loss": 0.6009,
      "step": 17040
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.074267864227295,
      "learning_rate": 2.4010139135583187e-05,
      "loss": 0.6516,
      "step": 17050
    },
    {
      "epoch": 1.7,
      "grad_norm": 3.1762382984161377,
      "learning_rate": 2.3991637063351095e-05,
      "loss": 0.6907,
      "step": 17060
    },
    {
      "epoch": 1.71,
      "grad_norm": 3.4951138496398926,
      "learning_rate": 2.3973134991119007e-05,
      "loss": 0.6501,
      "step": 17070
    },
    {
      "epoch": 1.71,
      "grad_norm": 2.849311590194702,
      "learning_rate": 2.3954632918886915e-05,
      "loss": 0.5332,
      "step": 17080
    },
    {
      "epoch": 1.71,
      "grad_norm": 3.3340003490448,
      "learning_rate": 2.3936130846654826e-05,
      "loss": 0.6486,
      "step": 17090
    },
    {
      "epoch": 1.71,
      "grad_norm": 3.3209588527679443,
      "learning_rate": 2.3917628774422738e-05,
      "loss": 0.6579,
      "step": 17100
    },
    {
      "epoch": 1.71,
      "grad_norm": 3.2690935134887695,
      "learning_rate": 2.3899126702190646e-05,
      "loss": 0.6914,
      "step": 17110
    },
    {
      "epoch": 1.71,
      "grad_norm": 3.7285611629486084,
      "learning_rate": 2.3880624629958558e-05,
      "loss": 0.672,
      "step": 17120
    },
    {
      "epoch": 1.71,
      "grad_norm": 2.8912575244903564,
      "learning_rate": 2.3862122557726466e-05,
      "loss": 0.6749,
      "step": 17130
    },
    {
      "epoch": 1.71,
      "grad_norm": 3.042750120162964,
      "learning_rate": 2.3843620485494377e-05,
      "loss": 0.6092,
      "step": 17140
    },
    {
      "epoch": 1.71,
      "grad_norm": 3.4700465202331543,
      "learning_rate": 2.382511841326229e-05,
      "loss": 0.6355,
      "step": 17150
    },
    {
      "epoch": 1.71,
      "grad_norm": 3.32694673538208,
      "learning_rate": 2.3806616341030197e-05,
      "loss": 0.6432,
      "step": 17160
    },
    {
      "epoch": 1.72,
      "grad_norm": 3.513951539993286,
      "learning_rate": 2.3788114268798105e-05,
      "loss": 0.6567,
      "step": 17170
    },
    {
      "epoch": 1.72,
      "grad_norm": 3.509215831756592,
      "learning_rate": 2.3769612196566016e-05,
      "loss": 0.5828,
      "step": 17180
    },
    {
      "epoch": 1.72,
      "grad_norm": 2.694063901901245,
      "learning_rate": 2.3751110124333928e-05,
      "loss": 0.6692,
      "step": 17190
    },
    {
      "epoch": 1.72,
      "grad_norm": 3.2946226596832275,
      "learning_rate": 2.3732608052101836e-05,
      "loss": 0.6439,
      "step": 17200
    },
    {
      "epoch": 1.72,
      "grad_norm": 2.923196792602539,
      "learning_rate": 2.3714105979869747e-05,
      "loss": 0.6543,
      "step": 17210
    },
    {
      "epoch": 1.72,
      "grad_norm": 3.5868637561798096,
      "learning_rate": 2.3695603907637655e-05,
      "loss": 0.6406,
      "step": 17220
    },
    {
      "epoch": 1.72,
      "grad_norm": 2.8506035804748535,
      "learning_rate": 2.3677101835405567e-05,
      "loss": 0.6271,
      "step": 17230
    },
    {
      "epoch": 1.72,
      "grad_norm": 2.893843650817871,
      "learning_rate": 2.365859976317348e-05,
      "loss": 0.6249,
      "step": 17240
    },
    {
      "epoch": 1.72,
      "grad_norm": 2.8041350841522217,
      "learning_rate": 2.3640097690941386e-05,
      "loss": 0.6098,
      "step": 17250
    },
    {
      "epoch": 1.72,
      "grad_norm": 2.6669087409973145,
      "learning_rate": 2.3621595618709298e-05,
      "loss": 0.5945,
      "step": 17260
    },
    {
      "epoch": 1.73,
      "grad_norm": 2.5618834495544434,
      "learning_rate": 2.3603093546477206e-05,
      "loss": 0.669,
      "step": 17270
    },
    {
      "epoch": 1.73,
      "grad_norm": 3.916658639907837,
      "learning_rate": 2.3584591474245114e-05,
      "loss": 0.6293,
      "step": 17280
    },
    {
      "epoch": 1.73,
      "grad_norm": 3.776689291000366,
      "learning_rate": 2.356608940201303e-05,
      "loss": 0.5957,
      "step": 17290
    },
    {
      "epoch": 1.73,
      "grad_norm": 3.1183714866638184,
      "learning_rate": 2.3547587329780937e-05,
      "loss": 0.6756,
      "step": 17300
    },
    {
      "epoch": 1.73,
      "grad_norm": 3.512741804122925,
      "learning_rate": 2.352908525754885e-05,
      "loss": 0.7051,
      "step": 17310
    },
    {
      "epoch": 1.73,
      "grad_norm": 3.3107879161834717,
      "learning_rate": 2.3510583185316757e-05,
      "loss": 0.6498,
      "step": 17320
    },
    {
      "epoch": 1.73,
      "grad_norm": 3.5546376705169678,
      "learning_rate": 2.3492081113084665e-05,
      "loss": 0.7449,
      "step": 17330
    },
    {
      "epoch": 1.73,
      "grad_norm": 2.946650981903076,
      "learning_rate": 2.347357904085258e-05,
      "loss": 0.6333,
      "step": 17340
    },
    {
      "epoch": 1.73,
      "grad_norm": 2.752509117126465,
      "learning_rate": 2.3455076968620488e-05,
      "loss": 0.6358,
      "step": 17350
    },
    {
      "epoch": 1.73,
      "grad_norm": 3.425694465637207,
      "learning_rate": 2.3436574896388396e-05,
      "loss": 0.6066,
      "step": 17360
    },
    {
      "epoch": 1.74,
      "grad_norm": 3.092317581176758,
      "learning_rate": 2.3418072824156307e-05,
      "loss": 0.6285,
      "step": 17370
    },
    {
      "epoch": 1.74,
      "grad_norm": 4.2487030029296875,
      "learning_rate": 2.3399570751924215e-05,
      "loss": 0.6299,
      "step": 17380
    },
    {
      "epoch": 1.74,
      "grad_norm": 3.0511341094970703,
      "learning_rate": 2.3381068679692127e-05,
      "loss": 0.7307,
      "step": 17390
    },
    {
      "epoch": 1.74,
      "grad_norm": 3.415585994720459,
      "learning_rate": 2.3362566607460038e-05,
      "loss": 0.5916,
      "step": 17400
    },
    {
      "epoch": 1.74,
      "grad_norm": 2.727353811264038,
      "learning_rate": 2.3344064535227946e-05,
      "loss": 0.6713,
      "step": 17410
    },
    {
      "epoch": 1.74,
      "grad_norm": 2.172192335128784,
      "learning_rate": 2.3325562462995858e-05,
      "loss": 0.6284,
      "step": 17420
    },
    {
      "epoch": 1.74,
      "grad_norm": 2.3069839477539062,
      "learning_rate": 2.3307060390763766e-05,
      "loss": 0.5618,
      "step": 17430
    },
    {
      "epoch": 1.74,
      "grad_norm": 3.7329227924346924,
      "learning_rate": 2.3288558318531677e-05,
      "loss": 0.6575,
      "step": 17440
    },
    {
      "epoch": 1.74,
      "grad_norm": 3.0141286849975586,
      "learning_rate": 2.327005624629959e-05,
      "loss": 0.5418,
      "step": 17450
    },
    {
      "epoch": 1.74,
      "grad_norm": 3.187908172607422,
      "learning_rate": 2.3251554174067497e-05,
      "loss": 0.6047,
      "step": 17460
    },
    {
      "epoch": 1.75,
      "grad_norm": 3.6053099632263184,
      "learning_rate": 2.3233052101835405e-05,
      "loss": 0.6741,
      "step": 17470
    },
    {
      "epoch": 1.75,
      "grad_norm": 3.908205270767212,
      "learning_rate": 2.3214550029603317e-05,
      "loss": 0.6431,
      "step": 17480
    },
    {
      "epoch": 1.75,
      "grad_norm": 3.5523488521575928,
      "learning_rate": 2.3196047957371228e-05,
      "loss": 0.6045,
      "step": 17490
    },
    {
      "epoch": 1.75,
      "grad_norm": 4.057450294494629,
      "learning_rate": 2.3177545885139136e-05,
      "loss": 0.6742,
      "step": 17500
    },
    {
      "epoch": 1.75,
      "grad_norm": 3.2568554878234863,
      "learning_rate": 2.3159043812907048e-05,
      "loss": 0.6407,
      "step": 17510
    },
    {
      "epoch": 1.75,
      "grad_norm": 2.9201622009277344,
      "learning_rate": 2.3140541740674956e-05,
      "loss": 0.5282,
      "step": 17520
    },
    {
      "epoch": 1.75,
      "grad_norm": 3.395078182220459,
      "learning_rate": 2.3122039668442867e-05,
      "loss": 0.6489,
      "step": 17530
    },
    {
      "epoch": 1.75,
      "grad_norm": 3.759207248687744,
      "learning_rate": 2.310353759621078e-05,
      "loss": 0.6568,
      "step": 17540
    },
    {
      "epoch": 1.75,
      "grad_norm": 3.4561386108398438,
      "learning_rate": 2.3085035523978687e-05,
      "loss": 0.5917,
      "step": 17550
    },
    {
      "epoch": 1.75,
      "grad_norm": 3.0025153160095215,
      "learning_rate": 2.3066533451746598e-05,
      "loss": 0.5648,
      "step": 17560
    },
    {
      "epoch": 1.76,
      "grad_norm": 3.064789295196533,
      "learning_rate": 2.3048031379514506e-05,
      "loss": 0.6366,
      "step": 17570
    },
    {
      "epoch": 1.76,
      "grad_norm": 3.09324312210083,
      "learning_rate": 2.3029529307282414e-05,
      "loss": 0.5649,
      "step": 17580
    },
    {
      "epoch": 1.76,
      "grad_norm": 3.1788511276245117,
      "learning_rate": 2.301102723505033e-05,
      "loss": 0.6224,
      "step": 17590
    },
    {
      "epoch": 1.76,
      "grad_norm": 3.1639931201934814,
      "learning_rate": 2.2992525162818237e-05,
      "loss": 0.6044,
      "step": 17600
    },
    {
      "epoch": 1.76,
      "grad_norm": 3.2015233039855957,
      "learning_rate": 2.2974023090586145e-05,
      "loss": 0.6793,
      "step": 17610
    },
    {
      "epoch": 1.76,
      "grad_norm": 2.9975974559783936,
      "learning_rate": 2.2955521018354057e-05,
      "loss": 0.6832,
      "step": 17620
    },
    {
      "epoch": 1.76,
      "grad_norm": 3.7078025341033936,
      "learning_rate": 2.2937018946121965e-05,
      "loss": 0.6961,
      "step": 17630
    },
    {
      "epoch": 1.76,
      "grad_norm": 3.397763967514038,
      "learning_rate": 2.2918516873889876e-05,
      "loss": 0.5918,
      "step": 17640
    },
    {
      "epoch": 1.76,
      "grad_norm": 5.08843469619751,
      "learning_rate": 2.2900014801657788e-05,
      "loss": 0.584,
      "step": 17650
    },
    {
      "epoch": 1.76,
      "grad_norm": 2.9990899562835693,
      "learning_rate": 2.2881512729425696e-05,
      "loss": 0.5707,
      "step": 17660
    },
    {
      "epoch": 1.77,
      "grad_norm": 4.052567481994629,
      "learning_rate": 2.2863010657193607e-05,
      "loss": 0.6774,
      "step": 17670
    },
    {
      "epoch": 1.77,
      "grad_norm": 3.3060288429260254,
      "learning_rate": 2.2844508584961516e-05,
      "loss": 0.5427,
      "step": 17680
    },
    {
      "epoch": 1.77,
      "grad_norm": 4.209826469421387,
      "learning_rate": 2.2826006512729427e-05,
      "loss": 0.6858,
      "step": 17690
    },
    {
      "epoch": 1.77,
      "grad_norm": 3.3832712173461914,
      "learning_rate": 2.280750444049734e-05,
      "loss": 0.6249,
      "step": 17700
    },
    {
      "epoch": 1.77,
      "grad_norm": 3.132986307144165,
      "learning_rate": 2.2789002368265247e-05,
      "loss": 0.7053,
      "step": 17710
    },
    {
      "epoch": 1.77,
      "grad_norm": 3.0386669635772705,
      "learning_rate": 2.2770500296033158e-05,
      "loss": 0.6374,
      "step": 17720
    },
    {
      "epoch": 1.77,
      "grad_norm": 2.939049482345581,
      "learning_rate": 2.2751998223801066e-05,
      "loss": 0.6011,
      "step": 17730
    },
    {
      "epoch": 1.77,
      "grad_norm": 3.3105106353759766,
      "learning_rate": 2.2733496151568978e-05,
      "loss": 0.6623,
      "step": 17740
    },
    {
      "epoch": 1.77,
      "grad_norm": 3.0556633472442627,
      "learning_rate": 2.271499407933689e-05,
      "loss": 0.6131,
      "step": 17750
    },
    {
      "epoch": 1.77,
      "grad_norm": 2.952728509902954,
      "learning_rate": 2.2696492007104797e-05,
      "loss": 0.6578,
      "step": 17760
    },
    {
      "epoch": 1.78,
      "grad_norm": 3.536350965499878,
      "learning_rate": 2.2677989934872705e-05,
      "loss": 0.6758,
      "step": 17770
    },
    {
      "epoch": 1.78,
      "grad_norm": 3.27036190032959,
      "learning_rate": 2.2659487862640617e-05,
      "loss": 0.6564,
      "step": 17780
    },
    {
      "epoch": 1.78,
      "grad_norm": 2.6760430335998535,
      "learning_rate": 2.2640985790408528e-05,
      "loss": 0.5847,
      "step": 17790
    },
    {
      "epoch": 1.78,
      "grad_norm": 3.4323177337646484,
      "learning_rate": 2.2622483718176436e-05,
      "loss": 0.6175,
      "step": 17800
    },
    {
      "epoch": 1.78,
      "grad_norm": 3.0789096355438232,
      "learning_rate": 2.2603981645944348e-05,
      "loss": 0.6562,
      "step": 17810
    },
    {
      "epoch": 1.78,
      "grad_norm": 4.692245960235596,
      "learning_rate": 2.2585479573712256e-05,
      "loss": 0.5895,
      "step": 17820
    },
    {
      "epoch": 1.78,
      "grad_norm": 3.9655323028564453,
      "learning_rate": 2.2566977501480167e-05,
      "loss": 0.6674,
      "step": 17830
    },
    {
      "epoch": 1.78,
      "grad_norm": 3.4806530475616455,
      "learning_rate": 2.254847542924808e-05,
      "loss": 0.6576,
      "step": 17840
    },
    {
      "epoch": 1.78,
      "grad_norm": 3.28181791305542,
      "learning_rate": 2.2529973357015987e-05,
      "loss": 0.601,
      "step": 17850
    },
    {
      "epoch": 1.78,
      "grad_norm": 4.179450988769531,
      "learning_rate": 2.25114712847839e-05,
      "loss": 0.63,
      "step": 17860
    },
    {
      "epoch": 1.79,
      "grad_norm": 3.6632702350616455,
      "learning_rate": 2.2492969212551807e-05,
      "loss": 0.5913,
      "step": 17870
    },
    {
      "epoch": 1.79,
      "grad_norm": 3.3140575885772705,
      "learning_rate": 2.2474467140319715e-05,
      "loss": 0.5808,
      "step": 17880
    },
    {
      "epoch": 1.79,
      "grad_norm": 4.091827869415283,
      "learning_rate": 2.245596506808763e-05,
      "loss": 0.5699,
      "step": 17890
    },
    {
      "epoch": 1.79,
      "grad_norm": 2.0456020832061768,
      "learning_rate": 2.2437462995855538e-05,
      "loss": 0.67,
      "step": 17900
    },
    {
      "epoch": 1.79,
      "grad_norm": 2.785784959793091,
      "learning_rate": 2.2418960923623446e-05,
      "loss": 0.5942,
      "step": 17910
    },
    {
      "epoch": 1.79,
      "grad_norm": 3.666910171508789,
      "learning_rate": 2.2400458851391357e-05,
      "loss": 0.6399,
      "step": 17920
    },
    {
      "epoch": 1.79,
      "grad_norm": 3.588087320327759,
      "learning_rate": 2.2381956779159265e-05,
      "loss": 0.6372,
      "step": 17930
    },
    {
      "epoch": 1.79,
      "grad_norm": 5.037317752838135,
      "learning_rate": 2.2363454706927177e-05,
      "loss": 0.6071,
      "step": 17940
    },
    {
      "epoch": 1.79,
      "grad_norm": 3.1187963485717773,
      "learning_rate": 2.2344952634695088e-05,
      "loss": 0.6206,
      "step": 17950
    },
    {
      "epoch": 1.79,
      "grad_norm": 2.538377523422241,
      "learning_rate": 2.2326450562462996e-05,
      "loss": 0.5892,
      "step": 17960
    },
    {
      "epoch": 1.8,
      "grad_norm": 3.322782039642334,
      "learning_rate": 2.2307948490230908e-05,
      "loss": 0.6164,
      "step": 17970
    },
    {
      "epoch": 1.8,
      "grad_norm": 3.1430697441101074,
      "learning_rate": 2.2289446417998816e-05,
      "loss": 0.6301,
      "step": 17980
    },
    {
      "epoch": 1.8,
      "grad_norm": 6.736660480499268,
      "learning_rate": 2.2270944345766727e-05,
      "loss": 0.6036,
      "step": 17990
    },
    {
      "epoch": 1.8,
      "grad_norm": 4.06500768661499,
      "learning_rate": 2.225244227353464e-05,
      "loss": 0.6356,
      "step": 18000
    },
    {
      "epoch": 1.8,
      "grad_norm": 3.678842782974243,
      "learning_rate": 2.2233940201302547e-05,
      "loss": 0.6587,
      "step": 18010
    },
    {
      "epoch": 1.8,
      "grad_norm": 2.708059310913086,
      "learning_rate": 2.2215438129070455e-05,
      "loss": 0.6031,
      "step": 18020
    },
    {
      "epoch": 1.8,
      "grad_norm": 2.4387731552124023,
      "learning_rate": 2.2196936056838366e-05,
      "loss": 0.6665,
      "step": 18030
    },
    {
      "epoch": 1.8,
      "grad_norm": 3.2379555702209473,
      "learning_rate": 2.2178433984606278e-05,
      "loss": 0.7064,
      "step": 18040
    },
    {
      "epoch": 1.8,
      "grad_norm": 3.5404021739959717,
      "learning_rate": 2.215993191237419e-05,
      "loss": 0.625,
      "step": 18050
    },
    {
      "epoch": 1.8,
      "grad_norm": 2.967968225479126,
      "learning_rate": 2.2141429840142098e-05,
      "loss": 0.6705,
      "step": 18060
    },
    {
      "epoch": 1.81,
      "grad_norm": 2.7794976234436035,
      "learning_rate": 2.2122927767910006e-05,
      "loss": 0.6189,
      "step": 18070
    },
    {
      "epoch": 1.81,
      "grad_norm": 3.3744771480560303,
      "learning_rate": 2.2104425695677917e-05,
      "loss": 0.6231,
      "step": 18080
    },
    {
      "epoch": 1.81,
      "grad_norm": 3.098611354827881,
      "learning_rate": 2.208592362344583e-05,
      "loss": 0.6175,
      "step": 18090
    },
    {
      "epoch": 1.81,
      "grad_norm": 3.6500062942504883,
      "learning_rate": 2.2067421551213737e-05,
      "loss": 0.7254,
      "step": 18100
    },
    {
      "epoch": 1.81,
      "grad_norm": 2.7684166431427,
      "learning_rate": 2.2048919478981648e-05,
      "loss": 0.6459,
      "step": 18110
    },
    {
      "epoch": 1.81,
      "grad_norm": 2.7938060760498047,
      "learning_rate": 2.2030417406749556e-05,
      "loss": 0.672,
      "step": 18120
    },
    {
      "epoch": 1.81,
      "grad_norm": 3.1306052207946777,
      "learning_rate": 2.2011915334517468e-05,
      "loss": 0.6419,
      "step": 18130
    },
    {
      "epoch": 1.81,
      "grad_norm": 5.03564453125,
      "learning_rate": 2.199341326228538e-05,
      "loss": 0.5749,
      "step": 18140
    },
    {
      "epoch": 1.81,
      "grad_norm": 2.90617299079895,
      "learning_rate": 2.1974911190053287e-05,
      "loss": 0.6479,
      "step": 18150
    },
    {
      "epoch": 1.81,
      "grad_norm": 3.213721990585327,
      "learning_rate": 2.19564091178212e-05,
      "loss": 0.6104,
      "step": 18160
    },
    {
      "epoch": 1.82,
      "grad_norm": 2.805443286895752,
      "learning_rate": 2.1937907045589107e-05,
      "loss": 0.674,
      "step": 18170
    },
    {
      "epoch": 1.82,
      "grad_norm": 2.8747847080230713,
      "learning_rate": 2.1919404973357015e-05,
      "loss": 0.6017,
      "step": 18180
    },
    {
      "epoch": 1.82,
      "grad_norm": 2.992891788482666,
      "learning_rate": 2.190090290112493e-05,
      "loss": 0.6104,
      "step": 18190
    },
    {
      "epoch": 1.82,
      "grad_norm": 2.8754642009735107,
      "learning_rate": 2.1882400828892838e-05,
      "loss": 0.6146,
      "step": 18200
    },
    {
      "epoch": 1.82,
      "grad_norm": 3.0705952644348145,
      "learning_rate": 2.1863898756660746e-05,
      "loss": 0.5841,
      "step": 18210
    },
    {
      "epoch": 1.82,
      "grad_norm": 3.5956220626831055,
      "learning_rate": 2.1845396684428657e-05,
      "loss": 0.6334,
      "step": 18220
    },
    {
      "epoch": 1.82,
      "grad_norm": 2.9988927841186523,
      "learning_rate": 2.1826894612196566e-05,
      "loss": 0.7128,
      "step": 18230
    },
    {
      "epoch": 1.82,
      "grad_norm": 3.06381893157959,
      "learning_rate": 2.1808392539964477e-05,
      "loss": 0.6062,
      "step": 18240
    },
    {
      "epoch": 1.82,
      "grad_norm": 3.114079236984253,
      "learning_rate": 2.178989046773239e-05,
      "loss": 0.6014,
      "step": 18250
    },
    {
      "epoch": 1.82,
      "grad_norm": 3.0848381519317627,
      "learning_rate": 2.1771388395500297e-05,
      "loss": 0.5951,
      "step": 18260
    },
    {
      "epoch": 1.83,
      "grad_norm": 3.010852575302124,
      "learning_rate": 2.1752886323268208e-05,
      "loss": 0.6775,
      "step": 18270
    },
    {
      "epoch": 1.83,
      "grad_norm": 3.7018775939941406,
      "learning_rate": 2.1734384251036116e-05,
      "loss": 0.6397,
      "step": 18280
    },
    {
      "epoch": 1.83,
      "grad_norm": 2.9077441692352295,
      "learning_rate": 2.1715882178804028e-05,
      "loss": 0.5373,
      "step": 18290
    },
    {
      "epoch": 1.83,
      "grad_norm": 2.6129403114318848,
      "learning_rate": 2.169738010657194e-05,
      "loss": 0.6336,
      "step": 18300
    },
    {
      "epoch": 1.83,
      "grad_norm": 2.8067963123321533,
      "learning_rate": 2.1678878034339847e-05,
      "loss": 0.5889,
      "step": 18310
    },
    {
      "epoch": 1.83,
      "grad_norm": 3.805652618408203,
      "learning_rate": 2.1660375962107755e-05,
      "loss": 0.6621,
      "step": 18320
    },
    {
      "epoch": 1.83,
      "grad_norm": 3.079803705215454,
      "learning_rate": 2.1641873889875667e-05,
      "loss": 0.6494,
      "step": 18330
    },
    {
      "epoch": 1.83,
      "grad_norm": 3.855053663253784,
      "learning_rate": 2.1623371817643578e-05,
      "loss": 0.5845,
      "step": 18340
    },
    {
      "epoch": 1.83,
      "grad_norm": 3.5984444618225098,
      "learning_rate": 2.1604869745411486e-05,
      "loss": 0.6429,
      "step": 18350
    },
    {
      "epoch": 1.83,
      "grad_norm": 2.3511641025543213,
      "learning_rate": 2.1586367673179398e-05,
      "loss": 0.6031,
      "step": 18360
    },
    {
      "epoch": 1.84,
      "grad_norm": 3.8672046661376953,
      "learning_rate": 2.1567865600947306e-05,
      "loss": 0.6662,
      "step": 18370
    },
    {
      "epoch": 1.84,
      "grad_norm": 2.772054433822632,
      "learning_rate": 2.1549363528715217e-05,
      "loss": 0.6277,
      "step": 18380
    },
    {
      "epoch": 1.84,
      "grad_norm": 2.4285407066345215,
      "learning_rate": 2.153086145648313e-05,
      "loss": 0.5817,
      "step": 18390
    },
    {
      "epoch": 1.84,
      "grad_norm": 3.777642250061035,
      "learning_rate": 2.1512359384251037e-05,
      "loss": 0.616,
      "step": 18400
    },
    {
      "epoch": 1.84,
      "grad_norm": 2.9526593685150146,
      "learning_rate": 2.149385731201895e-05,
      "loss": 0.556,
      "step": 18410
    },
    {
      "epoch": 1.84,
      "grad_norm": 3.13574481010437,
      "learning_rate": 2.1475355239786857e-05,
      "loss": 0.6506,
      "step": 18420
    },
    {
      "epoch": 1.84,
      "grad_norm": 3.0836403369903564,
      "learning_rate": 2.1456853167554765e-05,
      "loss": 0.6548,
      "step": 18430
    },
    {
      "epoch": 1.84,
      "grad_norm": 2.770153045654297,
      "learning_rate": 2.143835109532268e-05,
      "loss": 0.5994,
      "step": 18440
    },
    {
      "epoch": 1.84,
      "grad_norm": 4.220211505889893,
      "learning_rate": 2.1419849023090588e-05,
      "loss": 0.6795,
      "step": 18450
    },
    {
      "epoch": 1.84,
      "grad_norm": 5.014622688293457,
      "learning_rate": 2.14013469508585e-05,
      "loss": 0.6865,
      "step": 18460
    },
    {
      "epoch": 1.85,
      "grad_norm": 3.4851267337799072,
      "learning_rate": 2.1382844878626407e-05,
      "loss": 0.6646,
      "step": 18470
    },
    {
      "epoch": 1.85,
      "grad_norm": 3.4021031856536865,
      "learning_rate": 2.1364342806394315e-05,
      "loss": 0.5533,
      "step": 18480
    },
    {
      "epoch": 1.85,
      "grad_norm": 2.5041728019714355,
      "learning_rate": 2.134584073416223e-05,
      "loss": 0.6078,
      "step": 18490
    },
    {
      "epoch": 1.85,
      "grad_norm": 3.020703077316284,
      "learning_rate": 2.1327338661930138e-05,
      "loss": 0.5938,
      "step": 18500
    },
    {
      "epoch": 1.85,
      "grad_norm": 3.872654438018799,
      "learning_rate": 2.1308836589698046e-05,
      "loss": 0.7081,
      "step": 18510
    },
    {
      "epoch": 1.85,
      "grad_norm": 3.579245090484619,
      "learning_rate": 2.1290334517465958e-05,
      "loss": 0.5887,
      "step": 18520
    },
    {
      "epoch": 1.85,
      "grad_norm": 2.24948787689209,
      "learning_rate": 2.1271832445233866e-05,
      "loss": 0.6479,
      "step": 18530
    },
    {
      "epoch": 1.85,
      "grad_norm": 3.676558494567871,
      "learning_rate": 2.1253330373001777e-05,
      "loss": 0.6585,
      "step": 18540
    },
    {
      "epoch": 1.85,
      "grad_norm": 2.989219903945923,
      "learning_rate": 2.123482830076969e-05,
      "loss": 0.5925,
      "step": 18550
    },
    {
      "epoch": 1.85,
      "grad_norm": 3.709338426589966,
      "learning_rate": 2.1216326228537597e-05,
      "loss": 0.5961,
      "step": 18560
    },
    {
      "epoch": 1.86,
      "grad_norm": 2.9349420070648193,
      "learning_rate": 2.119782415630551e-05,
      "loss": 0.5989,
      "step": 18570
    },
    {
      "epoch": 1.86,
      "grad_norm": 3.4871468544006348,
      "learning_rate": 2.1179322084073416e-05,
      "loss": 0.5738,
      "step": 18580
    },
    {
      "epoch": 1.86,
      "grad_norm": 3.327725410461426,
      "learning_rate": 2.1160820011841328e-05,
      "loss": 0.6551,
      "step": 18590
    },
    {
      "epoch": 1.86,
      "grad_norm": 3.3820629119873047,
      "learning_rate": 2.114231793960924e-05,
      "loss": 0.701,
      "step": 18600
    },
    {
      "epoch": 1.86,
      "grad_norm": 3.388821601867676,
      "learning_rate": 2.1123815867377148e-05,
      "loss": 0.6266,
      "step": 18610
    },
    {
      "epoch": 1.86,
      "grad_norm": 3.772409200668335,
      "learning_rate": 2.1105313795145056e-05,
      "loss": 0.6361,
      "step": 18620
    },
    {
      "epoch": 1.86,
      "grad_norm": 3.282630205154419,
      "learning_rate": 2.1086811722912967e-05,
      "loss": 0.6515,
      "step": 18630
    },
    {
      "epoch": 1.86,
      "grad_norm": 3.228290319442749,
      "learning_rate": 2.106830965068088e-05,
      "loss": 0.6457,
      "step": 18640
    },
    {
      "epoch": 1.86,
      "grad_norm": 2.8694562911987305,
      "learning_rate": 2.1049807578448787e-05,
      "loss": 0.599,
      "step": 18650
    },
    {
      "epoch": 1.86,
      "grad_norm": 2.9931204319000244,
      "learning_rate": 2.1031305506216698e-05,
      "loss": 0.6417,
      "step": 18660
    },
    {
      "epoch": 1.87,
      "grad_norm": 2.9225785732269287,
      "learning_rate": 2.1012803433984606e-05,
      "loss": 0.6042,
      "step": 18670
    },
    {
      "epoch": 1.87,
      "grad_norm": 3.4286580085754395,
      "learning_rate": 2.0994301361752518e-05,
      "loss": 0.596,
      "step": 18680
    },
    {
      "epoch": 1.87,
      "grad_norm": 2.656994581222534,
      "learning_rate": 2.097579928952043e-05,
      "loss": 0.6401,
      "step": 18690
    },
    {
      "epoch": 1.87,
      "grad_norm": 3.598640203475952,
      "learning_rate": 2.0957297217288337e-05,
      "loss": 0.6897,
      "step": 18700
    },
    {
      "epoch": 1.87,
      "grad_norm": 2.830522298812866,
      "learning_rate": 2.093879514505625e-05,
      "loss": 0.6432,
      "step": 18710
    },
    {
      "epoch": 1.87,
      "grad_norm": 2.8894360065460205,
      "learning_rate": 2.0920293072824157e-05,
      "loss": 0.5604,
      "step": 18720
    },
    {
      "epoch": 1.87,
      "grad_norm": 3.0133883953094482,
      "learning_rate": 2.0901791000592065e-05,
      "loss": 0.6119,
      "step": 18730
    },
    {
      "epoch": 1.87,
      "grad_norm": 3.6639156341552734,
      "learning_rate": 2.088328892835998e-05,
      "loss": 0.7035,
      "step": 18740
    },
    {
      "epoch": 1.87,
      "grad_norm": 3.0573573112487793,
      "learning_rate": 2.0864786856127888e-05,
      "loss": 0.6483,
      "step": 18750
    },
    {
      "epoch": 1.87,
      "grad_norm": 3.1231207847595215,
      "learning_rate": 2.0846284783895796e-05,
      "loss": 0.5613,
      "step": 18760
    },
    {
      "epoch": 1.88,
      "grad_norm": 2.813401699066162,
      "learning_rate": 2.0827782711663707e-05,
      "loss": 0.5939,
      "step": 18770
    },
    {
      "epoch": 1.88,
      "grad_norm": 3.7195239067077637,
      "learning_rate": 2.0809280639431616e-05,
      "loss": 0.6443,
      "step": 18780
    },
    {
      "epoch": 1.88,
      "grad_norm": 3.9889800548553467,
      "learning_rate": 2.0790778567199527e-05,
      "loss": 0.608,
      "step": 18790
    },
    {
      "epoch": 1.88,
      "grad_norm": 3.451378107070923,
      "learning_rate": 2.077227649496744e-05,
      "loss": 0.6477,
      "step": 18800
    },
    {
      "epoch": 1.88,
      "grad_norm": 3.892709732055664,
      "learning_rate": 2.0753774422735347e-05,
      "loss": 0.6649,
      "step": 18810
    },
    {
      "epoch": 1.88,
      "grad_norm": 3.8308663368225098,
      "learning_rate": 2.0735272350503258e-05,
      "loss": 0.5743,
      "step": 18820
    },
    {
      "epoch": 1.88,
      "grad_norm": 3.1581954956054688,
      "learning_rate": 2.0716770278271166e-05,
      "loss": 0.6142,
      "step": 18830
    },
    {
      "epoch": 1.88,
      "grad_norm": 2.7964038848876953,
      "learning_rate": 2.0698268206039078e-05,
      "loss": 0.6185,
      "step": 18840
    },
    {
      "epoch": 1.88,
      "grad_norm": 3.4126856327056885,
      "learning_rate": 2.067976613380699e-05,
      "loss": 0.6292,
      "step": 18850
    },
    {
      "epoch": 1.88,
      "grad_norm": 3.231001615524292,
      "learning_rate": 2.0661264061574897e-05,
      "loss": 0.6489,
      "step": 18860
    },
    {
      "epoch": 1.89,
      "grad_norm": 3.79028058052063,
      "learning_rate": 2.064276198934281e-05,
      "loss": 0.6538,
      "step": 18870
    },
    {
      "epoch": 1.89,
      "grad_norm": 2.938647508621216,
      "learning_rate": 2.0624259917110717e-05,
      "loss": 0.6032,
      "step": 18880
    },
    {
      "epoch": 1.89,
      "grad_norm": 3.2579691410064697,
      "learning_rate": 2.0605757844878628e-05,
      "loss": 0.5566,
      "step": 18890
    },
    {
      "epoch": 1.89,
      "grad_norm": 2.7796127796173096,
      "learning_rate": 2.058725577264654e-05,
      "loss": 0.5902,
      "step": 18900
    },
    {
      "epoch": 1.89,
      "grad_norm": 3.662684440612793,
      "learning_rate": 2.0568753700414448e-05,
      "loss": 0.6957,
      "step": 18910
    },
    {
      "epoch": 1.89,
      "grad_norm": 6.151931285858154,
      "learning_rate": 2.0550251628182356e-05,
      "loss": 0.6206,
      "step": 18920
    },
    {
      "epoch": 1.89,
      "grad_norm": 3.0890886783599854,
      "learning_rate": 2.0531749555950267e-05,
      "loss": 0.6389,
      "step": 18930
    },
    {
      "epoch": 1.89,
      "grad_norm": 3.7684011459350586,
      "learning_rate": 2.051324748371818e-05,
      "loss": 0.6321,
      "step": 18940
    },
    {
      "epoch": 1.89,
      "grad_norm": 3.198848247528076,
      "learning_rate": 2.0494745411486087e-05,
      "loss": 0.6583,
      "step": 18950
    },
    {
      "epoch": 1.89,
      "grad_norm": 4.140646934509277,
      "learning_rate": 2.0476243339254e-05,
      "loss": 0.64,
      "step": 18960
    },
    {
      "epoch": 1.9,
      "grad_norm": 3.9673984050750732,
      "learning_rate": 2.0457741267021907e-05,
      "loss": 0.6305,
      "step": 18970
    },
    {
      "epoch": 1.9,
      "grad_norm": 3.2170352935791016,
      "learning_rate": 2.0439239194789818e-05,
      "loss": 0.6537,
      "step": 18980
    },
    {
      "epoch": 1.9,
      "grad_norm": 2.8783633708953857,
      "learning_rate": 2.042073712255773e-05,
      "loss": 0.6369,
      "step": 18990
    },
    {
      "epoch": 1.9,
      "grad_norm": 5.75380277633667,
      "learning_rate": 2.0402235050325638e-05,
      "loss": 0.6512,
      "step": 19000
    },
    {
      "epoch": 1.9,
      "grad_norm": 3.375437021255493,
      "learning_rate": 2.038373297809355e-05,
      "loss": 0.5875,
      "step": 19010
    },
    {
      "epoch": 1.9,
      "grad_norm": 3.091188907623291,
      "learning_rate": 2.0365230905861457e-05,
      "loss": 0.6515,
      "step": 19020
    },
    {
      "epoch": 1.9,
      "grad_norm": 3.110684871673584,
      "learning_rate": 2.0346728833629365e-05,
      "loss": 0.6357,
      "step": 19030
    },
    {
      "epoch": 1.9,
      "grad_norm": 2.920480251312256,
      "learning_rate": 2.032822676139728e-05,
      "loss": 0.5808,
      "step": 19040
    },
    {
      "epoch": 1.9,
      "grad_norm": 2.6850204467773438,
      "learning_rate": 2.0309724689165188e-05,
      "loss": 0.5847,
      "step": 19050
    },
    {
      "epoch": 1.9,
      "grad_norm": 4.582999229431152,
      "learning_rate": 2.0291222616933096e-05,
      "loss": 0.6342,
      "step": 19060
    },
    {
      "epoch": 1.91,
      "grad_norm": 4.041107177734375,
      "learning_rate": 2.0272720544701008e-05,
      "loss": 0.6142,
      "step": 19070
    },
    {
      "epoch": 1.91,
      "grad_norm": 2.9148614406585693,
      "learning_rate": 2.0254218472468916e-05,
      "loss": 0.6411,
      "step": 19080
    },
    {
      "epoch": 1.91,
      "grad_norm": 3.8912627696990967,
      "learning_rate": 2.0235716400236827e-05,
      "loss": 0.6415,
      "step": 19090
    },
    {
      "epoch": 1.91,
      "grad_norm": 3.3743844032287598,
      "learning_rate": 2.021721432800474e-05,
      "loss": 0.7025,
      "step": 19100
    },
    {
      "epoch": 1.91,
      "grad_norm": 2.8115546703338623,
      "learning_rate": 2.0198712255772647e-05,
      "loss": 0.6312,
      "step": 19110
    },
    {
      "epoch": 1.91,
      "grad_norm": 3.183932304382324,
      "learning_rate": 2.018021018354056e-05,
      "loss": 0.6008,
      "step": 19120
    },
    {
      "epoch": 1.91,
      "grad_norm": 3.044037342071533,
      "learning_rate": 2.0161708111308466e-05,
      "loss": 0.6391,
      "step": 19130
    },
    {
      "epoch": 1.91,
      "grad_norm": 3.2532005310058594,
      "learning_rate": 2.0143206039076378e-05,
      "loss": 0.6436,
      "step": 19140
    },
    {
      "epoch": 1.91,
      "grad_norm": 3.4536221027374268,
      "learning_rate": 2.012470396684429e-05,
      "loss": 0.5836,
      "step": 19150
    },
    {
      "epoch": 1.91,
      "grad_norm": 2.510533571243286,
      "learning_rate": 2.0106201894612197e-05,
      "loss": 0.649,
      "step": 19160
    },
    {
      "epoch": 1.92,
      "grad_norm": 3.5420331954956055,
      "learning_rate": 2.0087699822380106e-05,
      "loss": 0.6576,
      "step": 19170
    },
    {
      "epoch": 1.92,
      "grad_norm": 3.9381961822509766,
      "learning_rate": 2.0069197750148017e-05,
      "loss": 0.6104,
      "step": 19180
    },
    {
      "epoch": 1.92,
      "grad_norm": 3.1539785861968994,
      "learning_rate": 2.005069567791593e-05,
      "loss": 0.61,
      "step": 19190
    },
    {
      "epoch": 1.92,
      "grad_norm": 3.139460325241089,
      "learning_rate": 2.0032193605683837e-05,
      "loss": 0.5844,
      "step": 19200
    },
    {
      "epoch": 1.92,
      "grad_norm": 2.657799005508423,
      "learning_rate": 2.0013691533451748e-05,
      "loss": 0.6351,
      "step": 19210
    },
    {
      "epoch": 1.92,
      "grad_norm": 3.6116106510162354,
      "learning_rate": 1.9995189461219656e-05,
      "loss": 0.4978,
      "step": 19220
    },
    {
      "epoch": 1.92,
      "grad_norm": 4.246761322021484,
      "learning_rate": 1.9976687388987568e-05,
      "loss": 0.5986,
      "step": 19230
    },
    {
      "epoch": 1.92,
      "grad_norm": 2.1695616245269775,
      "learning_rate": 1.995818531675548e-05,
      "loss": 0.5609,
      "step": 19240
    },
    {
      "epoch": 1.92,
      "grad_norm": 3.4625086784362793,
      "learning_rate": 1.9939683244523387e-05,
      "loss": 0.6848,
      "step": 19250
    },
    {
      "epoch": 1.92,
      "grad_norm": 2.5349905490875244,
      "learning_rate": 1.99211811722913e-05,
      "loss": 0.6262,
      "step": 19260
    },
    {
      "epoch": 1.93,
      "grad_norm": 3.2519803047180176,
      "learning_rate": 1.9902679100059207e-05,
      "loss": 0.6443,
      "step": 19270
    },
    {
      "epoch": 1.93,
      "grad_norm": 3.710763931274414,
      "learning_rate": 1.9884177027827118e-05,
      "loss": 0.6374,
      "step": 19280
    },
    {
      "epoch": 1.93,
      "grad_norm": 3.0970044136047363,
      "learning_rate": 1.986567495559503e-05,
      "loss": 0.5257,
      "step": 19290
    },
    {
      "epoch": 1.93,
      "grad_norm": 3.444639205932617,
      "learning_rate": 1.9847172883362938e-05,
      "loss": 0.6037,
      "step": 19300
    },
    {
      "epoch": 1.93,
      "grad_norm": 3.7483317852020264,
      "learning_rate": 1.982867081113085e-05,
      "loss": 0.6306,
      "step": 19310
    },
    {
      "epoch": 1.93,
      "grad_norm": 2.5374577045440674,
      "learning_rate": 1.9810168738898757e-05,
      "loss": 0.6608,
      "step": 19320
    },
    {
      "epoch": 1.93,
      "grad_norm": 3.555938720703125,
      "learning_rate": 1.9791666666666665e-05,
      "loss": 0.6305,
      "step": 19330
    },
    {
      "epoch": 1.93,
      "grad_norm": 3.0718846321105957,
      "learning_rate": 1.977316459443458e-05,
      "loss": 0.5822,
      "step": 19340
    },
    {
      "epoch": 1.93,
      "grad_norm": 3.29057240486145,
      "learning_rate": 1.975466252220249e-05,
      "loss": 0.6882,
      "step": 19350
    },
    {
      "epoch": 1.93,
      "grad_norm": 2.914990186691284,
      "learning_rate": 1.9736160449970397e-05,
      "loss": 0.6265,
      "step": 19360
    },
    {
      "epoch": 1.94,
      "grad_norm": 3.319035768508911,
      "learning_rate": 1.9717658377738308e-05,
      "loss": 0.6626,
      "step": 19370
    },
    {
      "epoch": 1.94,
      "grad_norm": 3.1067147254943848,
      "learning_rate": 1.9699156305506216e-05,
      "loss": 0.6099,
      "step": 19380
    },
    {
      "epoch": 1.94,
      "grad_norm": 3.668294906616211,
      "learning_rate": 1.9680654233274128e-05,
      "loss": 0.6284,
      "step": 19390
    },
    {
      "epoch": 1.94,
      "grad_norm": 2.223597526550293,
      "learning_rate": 1.966215216104204e-05,
      "loss": 0.6708,
      "step": 19400
    },
    {
      "epoch": 1.94,
      "grad_norm": 2.9810898303985596,
      "learning_rate": 1.9643650088809947e-05,
      "loss": 0.629,
      "step": 19410
    },
    {
      "epoch": 1.94,
      "grad_norm": 2.6688690185546875,
      "learning_rate": 1.962514801657786e-05,
      "loss": 0.6072,
      "step": 19420
    },
    {
      "epoch": 1.94,
      "grad_norm": 3.294456720352173,
      "learning_rate": 1.9606645944345767e-05,
      "loss": 0.6204,
      "step": 19430
    },
    {
      "epoch": 1.94,
      "grad_norm": 2.798231363296509,
      "learning_rate": 1.9588143872113678e-05,
      "loss": 0.6872,
      "step": 19440
    },
    {
      "epoch": 1.94,
      "grad_norm": 3.078711986541748,
      "learning_rate": 1.956964179988159e-05,
      "loss": 0.6811,
      "step": 19450
    },
    {
      "epoch": 1.94,
      "grad_norm": 3.3145382404327393,
      "learning_rate": 1.9551139727649498e-05,
      "loss": 0.6394,
      "step": 19460
    },
    {
      "epoch": 1.95,
      "grad_norm": 3.4163124561309814,
      "learning_rate": 1.9532637655417406e-05,
      "loss": 0.5938,
      "step": 19470
    },
    {
      "epoch": 1.95,
      "grad_norm": 4.129754066467285,
      "learning_rate": 1.9514135583185317e-05,
      "loss": 0.6882,
      "step": 19480
    },
    {
      "epoch": 1.95,
      "grad_norm": 3.266282320022583,
      "learning_rate": 1.949563351095323e-05,
      "loss": 0.58,
      "step": 19490
    },
    {
      "epoch": 1.95,
      "grad_norm": 3.020440101623535,
      "learning_rate": 1.9477131438721137e-05,
      "loss": 0.635,
      "step": 19500
    },
    {
      "epoch": 1.95,
      "grad_norm": 3.1650097370147705,
      "learning_rate": 1.945862936648905e-05,
      "loss": 0.6499,
      "step": 19510
    },
    {
      "epoch": 1.95,
      "grad_norm": 3.116260528564453,
      "learning_rate": 1.9440127294256956e-05,
      "loss": 0.6347,
      "step": 19520
    },
    {
      "epoch": 1.95,
      "grad_norm": 3.2082977294921875,
      "learning_rate": 1.9421625222024868e-05,
      "loss": 0.5889,
      "step": 19530
    },
    {
      "epoch": 1.95,
      "grad_norm": 3.2177581787109375,
      "learning_rate": 1.940312314979278e-05,
      "loss": 0.6525,
      "step": 19540
    },
    {
      "epoch": 1.95,
      "grad_norm": 2.8823091983795166,
      "learning_rate": 1.9384621077560688e-05,
      "loss": 0.6162,
      "step": 19550
    },
    {
      "epoch": 1.95,
      "grad_norm": 3.928098678588867,
      "learning_rate": 1.93661190053286e-05,
      "loss": 0.6774,
      "step": 19560
    },
    {
      "epoch": 1.96,
      "grad_norm": 3.4849352836608887,
      "learning_rate": 1.9347616933096507e-05,
      "loss": 0.6905,
      "step": 19570
    },
    {
      "epoch": 1.96,
      "grad_norm": 3.115635633468628,
      "learning_rate": 1.9329114860864415e-05,
      "loss": 0.6099,
      "step": 19580
    },
    {
      "epoch": 1.96,
      "grad_norm": 3.6320478916168213,
      "learning_rate": 1.931061278863233e-05,
      "loss": 0.6453,
      "step": 19590
    },
    {
      "epoch": 1.96,
      "grad_norm": 3.425997734069824,
      "learning_rate": 1.9292110716400238e-05,
      "loss": 0.632,
      "step": 19600
    },
    {
      "epoch": 1.96,
      "grad_norm": 2.986318826675415,
      "learning_rate": 1.927360864416815e-05,
      "loss": 0.635,
      "step": 19610
    },
    {
      "epoch": 1.96,
      "grad_norm": 2.80584454536438,
      "learning_rate": 1.9255106571936058e-05,
      "loss": 0.5634,
      "step": 19620
    },
    {
      "epoch": 1.96,
      "grad_norm": 7.857101917266846,
      "learning_rate": 1.9236604499703966e-05,
      "loss": 0.6295,
      "step": 19630
    },
    {
      "epoch": 1.96,
      "grad_norm": 2.665527820587158,
      "learning_rate": 1.921810242747188e-05,
      "loss": 0.6322,
      "step": 19640
    },
    {
      "epoch": 1.96,
      "grad_norm": 3.159198522567749,
      "learning_rate": 1.919960035523979e-05,
      "loss": 0.5796,
      "step": 19650
    },
    {
      "epoch": 1.96,
      "grad_norm": 4.042514324188232,
      "learning_rate": 1.9181098283007697e-05,
      "loss": 0.73,
      "step": 19660
    },
    {
      "epoch": 1.97,
      "grad_norm": 2.375420331954956,
      "learning_rate": 1.916259621077561e-05,
      "loss": 0.6535,
      "step": 19670
    },
    {
      "epoch": 1.97,
      "grad_norm": 3.3954219818115234,
      "learning_rate": 1.9144094138543516e-05,
      "loss": 0.6902,
      "step": 19680
    },
    {
      "epoch": 1.97,
      "grad_norm": 2.8890135288238525,
      "learning_rate": 1.9125592066311428e-05,
      "loss": 0.6742,
      "step": 19690
    },
    {
      "epoch": 1.97,
      "grad_norm": 2.9388785362243652,
      "learning_rate": 1.910708999407934e-05,
      "loss": 0.6673,
      "step": 19700
    },
    {
      "epoch": 1.97,
      "grad_norm": 2.4611382484436035,
      "learning_rate": 1.9088587921847247e-05,
      "loss": 0.578,
      "step": 19710
    },
    {
      "epoch": 1.97,
      "grad_norm": 2.9966416358947754,
      "learning_rate": 1.907008584961516e-05,
      "loss": 0.5963,
      "step": 19720
    },
    {
      "epoch": 1.97,
      "grad_norm": 2.5430736541748047,
      "learning_rate": 1.9051583777383067e-05,
      "loss": 0.5746,
      "step": 19730
    },
    {
      "epoch": 1.97,
      "grad_norm": 2.895747423171997,
      "learning_rate": 1.903308170515098e-05,
      "loss": 0.5922,
      "step": 19740
    },
    {
      "epoch": 1.97,
      "grad_norm": 3.266447067260742,
      "learning_rate": 1.901457963291889e-05,
      "loss": 0.5934,
      "step": 19750
    },
    {
      "epoch": 1.97,
      "grad_norm": 3.699895143508911,
      "learning_rate": 1.8996077560686798e-05,
      "loss": 0.5959,
      "step": 19760
    },
    {
      "epoch": 1.98,
      "grad_norm": 2.6187021732330322,
      "learning_rate": 1.8977575488454706e-05,
      "loss": 0.6223,
      "step": 19770
    },
    {
      "epoch": 1.98,
      "grad_norm": 3.015065908432007,
      "learning_rate": 1.8959073416222618e-05,
      "loss": 0.6401,
      "step": 19780
    },
    {
      "epoch": 1.98,
      "grad_norm": 3.9085283279418945,
      "learning_rate": 1.894057134399053e-05,
      "loss": 0.6138,
      "step": 19790
    },
    {
      "epoch": 1.98,
      "grad_norm": 3.409486770629883,
      "learning_rate": 1.8922069271758437e-05,
      "loss": 0.6404,
      "step": 19800
    },
    {
      "epoch": 1.98,
      "grad_norm": 3.892045259475708,
      "learning_rate": 1.890356719952635e-05,
      "loss": 0.6414,
      "step": 19810
    },
    {
      "epoch": 1.98,
      "grad_norm": 3.35483455657959,
      "learning_rate": 1.8885065127294257e-05,
      "loss": 0.6652,
      "step": 19820
    },
    {
      "epoch": 1.98,
      "grad_norm": 3.1806445121765137,
      "learning_rate": 1.8866563055062168e-05,
      "loss": 0.6036,
      "step": 19830
    },
    {
      "epoch": 1.98,
      "grad_norm": 2.960616111755371,
      "learning_rate": 1.884806098283008e-05,
      "loss": 0.583,
      "step": 19840
    },
    {
      "epoch": 1.98,
      "grad_norm": 2.7652571201324463,
      "learning_rate": 1.8829558910597988e-05,
      "loss": 0.553,
      "step": 19850
    },
    {
      "epoch": 1.98,
      "grad_norm": 2.7679052352905273,
      "learning_rate": 1.88110568383659e-05,
      "loss": 0.6593,
      "step": 19860
    },
    {
      "epoch": 1.99,
      "grad_norm": 3.719996213912964,
      "learning_rate": 1.8792554766133807e-05,
      "loss": 0.597,
      "step": 19870
    },
    {
      "epoch": 1.99,
      "grad_norm": 3.409412145614624,
      "learning_rate": 1.8774052693901715e-05,
      "loss": 0.5759,
      "step": 19880
    },
    {
      "epoch": 1.99,
      "grad_norm": 2.9994258880615234,
      "learning_rate": 1.875555062166963e-05,
      "loss": 0.6425,
      "step": 19890
    },
    {
      "epoch": 1.99,
      "grad_norm": 3.1842894554138184,
      "learning_rate": 1.873704854943754e-05,
      "loss": 0.5935,
      "step": 19900
    },
    {
      "epoch": 1.99,
      "grad_norm": 3.066002607345581,
      "learning_rate": 1.8718546477205447e-05,
      "loss": 0.641,
      "step": 19910
    },
    {
      "epoch": 1.99,
      "grad_norm": 3.670834541320801,
      "learning_rate": 1.8700044404973358e-05,
      "loss": 0.5981,
      "step": 19920
    },
    {
      "epoch": 1.99,
      "grad_norm": 3.342106580734253,
      "learning_rate": 1.8681542332741266e-05,
      "loss": 0.5558,
      "step": 19930
    },
    {
      "epoch": 1.99,
      "grad_norm": 4.044973373413086,
      "learning_rate": 1.8663040260509178e-05,
      "loss": 0.5873,
      "step": 19940
    },
    {
      "epoch": 1.99,
      "grad_norm": 3.243262529373169,
      "learning_rate": 1.864453818827709e-05,
      "loss": 0.6705,
      "step": 19950
    },
    {
      "epoch": 1.99,
      "grad_norm": 4.688439846038818,
      "learning_rate": 1.8626036116044997e-05,
      "loss": 0.6221,
      "step": 19960
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.004040002822876,
      "learning_rate": 1.860753404381291e-05,
      "loss": 0.5618,
      "step": 19970
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.123401165008545,
      "learning_rate": 1.8589031971580817e-05,
      "loss": 0.602,
      "step": 19980
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.6525521278381348,
      "learning_rate": 1.8570529899348728e-05,
      "loss": 0.6074,
      "step": 19990
    },
    {
      "epoch": 2.0,
      "grad_norm": 2.9092676639556885,
      "learning_rate": 1.855202782711664e-05,
      "loss": 0.5544,
      "step": 20000
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.4789297580718994,
      "learning_rate": 1.8533525754884548e-05,
      "loss": 0.6591,
      "step": 20010
    },
    {
      "epoch": 2.0,
      "eval_accuracy": 0.8132,
      "eval_loss": 0.7097489237785339,
      "eval_runtime": 1109.8344,
      "eval_samples_per_second": 45.052,
      "eval_steps_per_second": 1.408,
      "step": 20018
    },
    {
      "epoch": 2.0,
      "grad_norm": 2.7406976222991943,
      "learning_rate": 1.851502368265246e-05,
      "loss": 0.5027,
      "step": 20020
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.117553234100342,
      "learning_rate": 1.8496521610420367e-05,
      "loss": 0.6328,
      "step": 20030
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.45938777923584,
      "learning_rate": 1.847801953818828e-05,
      "loss": 0.569,
      "step": 20040
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.341580867767334,
      "learning_rate": 1.845951746595619e-05,
      "loss": 0.5027,
      "step": 20050
    },
    {
      "epoch": 2.0,
      "grad_norm": 3.8611233234405518,
      "learning_rate": 1.84410153937241e-05,
      "loss": 0.68,
      "step": 20060
    },
    {
      "epoch": 2.01,
      "grad_norm": 3.270777463912964,
      "learning_rate": 1.8422513321492006e-05,
      "loss": 0.6008,
      "step": 20070
    },
    {
      "epoch": 2.01,
      "grad_norm": 3.402895450592041,
      "learning_rate": 1.8404011249259918e-05,
      "loss": 0.6238,
      "step": 20080
    },
    {
      "epoch": 2.01,
      "grad_norm": 2.988255023956299,
      "learning_rate": 1.838550917702783e-05,
      "loss": 0.6046,
      "step": 20090
    },
    {
      "epoch": 2.01,
      "grad_norm": 2.361050605773926,
      "learning_rate": 1.8367007104795737e-05,
      "loss": 0.5814,
      "step": 20100
    },
    {
      "epoch": 2.01,
      "grad_norm": 2.4968068599700928,
      "learning_rate": 1.834850503256365e-05,
      "loss": 0.5353,
      "step": 20110
    },
    {
      "epoch": 2.01,
      "grad_norm": 2.914957284927368,
      "learning_rate": 1.8330002960331557e-05,
      "loss": 0.5706,
      "step": 20120
    },
    {
      "epoch": 2.01,
      "grad_norm": 1.924233317375183,
      "learning_rate": 1.831150088809947e-05,
      "loss": 0.5734,
      "step": 20130
    },
    {
      "epoch": 2.01,
      "grad_norm": 3.1444201469421387,
      "learning_rate": 1.829299881586738e-05,
      "loss": 0.5509,
      "step": 20140
    },
    {
      "epoch": 2.01,
      "grad_norm": 2.8405425548553467,
      "learning_rate": 1.8274496743635288e-05,
      "loss": 0.5954,
      "step": 20150
    },
    {
      "epoch": 2.01,
      "grad_norm": 3.62290096282959,
      "learning_rate": 1.82559946714032e-05,
      "loss": 0.6077,
      "step": 20160
    },
    {
      "epoch": 2.02,
      "grad_norm": 2.4513847827911377,
      "learning_rate": 1.8237492599171108e-05,
      "loss": 0.5306,
      "step": 20170
    },
    {
      "epoch": 2.02,
      "grad_norm": 3.656266212463379,
      "learning_rate": 1.8218990526939016e-05,
      "loss": 0.5555,
      "step": 20180
    },
    {
      "epoch": 2.02,
      "grad_norm": 3.048502206802368,
      "learning_rate": 1.820048845470693e-05,
      "loss": 0.5367,
      "step": 20190
    },
    {
      "epoch": 2.02,
      "grad_norm": 3.4503650665283203,
      "learning_rate": 1.818198638247484e-05,
      "loss": 0.648,
      "step": 20200
    },
    {
      "epoch": 2.02,
      "grad_norm": 2.5833780765533447,
      "learning_rate": 1.8163484310242747e-05,
      "loss": 0.5914,
      "step": 20210
    },
    {
      "epoch": 2.02,
      "grad_norm": 3.1657299995422363,
      "learning_rate": 1.8144982238010658e-05,
      "loss": 0.6306,
      "step": 20220
    },
    {
      "epoch": 2.02,
      "grad_norm": 4.301156520843506,
      "learning_rate": 1.8126480165778566e-05,
      "loss": 0.5816,
      "step": 20230
    },
    {
      "epoch": 2.02,
      "grad_norm": 2.986473798751831,
      "learning_rate": 1.8107978093546478e-05,
      "loss": 0.5161,
      "step": 20240
    },
    {
      "epoch": 2.02,
      "grad_norm": 2.9761691093444824,
      "learning_rate": 1.808947602131439e-05,
      "loss": 0.5891,
      "step": 20250
    },
    {
      "epoch": 2.02,
      "grad_norm": 2.9867188930511475,
      "learning_rate": 1.8070973949082297e-05,
      "loss": 0.5956,
      "step": 20260
    },
    {
      "epoch": 2.03,
      "grad_norm": 2.4175643920898438,
      "learning_rate": 1.805247187685021e-05,
      "loss": 0.6382,
      "step": 20270
    },
    {
      "epoch": 2.03,
      "grad_norm": 3.1770236492156982,
      "learning_rate": 1.8033969804618117e-05,
      "loss": 0.5862,
      "step": 20280
    },
    {
      "epoch": 2.03,
      "grad_norm": 2.5590670108795166,
      "learning_rate": 1.801546773238603e-05,
      "loss": 0.5646,
      "step": 20290
    },
    {
      "epoch": 2.03,
      "grad_norm": 3.5344817638397217,
      "learning_rate": 1.799696566015394e-05,
      "loss": 0.5577,
      "step": 20300
    },
    {
      "epoch": 2.03,
      "grad_norm": 3.1829769611358643,
      "learning_rate": 1.7978463587921848e-05,
      "loss": 0.6242,
      "step": 20310
    },
    {
      "epoch": 2.03,
      "grad_norm": 3.2411715984344482,
      "learning_rate": 1.7959961515689756e-05,
      "loss": 0.6527,
      "step": 20320
    },
    {
      "epoch": 2.03,
      "grad_norm": 3.6532130241394043,
      "learning_rate": 1.7941459443457668e-05,
      "loss": 0.5163,
      "step": 20330
    },
    {
      "epoch": 2.03,
      "grad_norm": 3.158367156982422,
      "learning_rate": 1.792295737122558e-05,
      "loss": 0.6,
      "step": 20340
    },
    {
      "epoch": 2.03,
      "grad_norm": 2.625081777572632,
      "learning_rate": 1.7904455298993487e-05,
      "loss": 0.6236,
      "step": 20350
    },
    {
      "epoch": 2.03,
      "grad_norm": 4.238248348236084,
      "learning_rate": 1.78859532267614e-05,
      "loss": 0.5837,
      "step": 20360
    },
    {
      "epoch": 2.04,
      "grad_norm": 3.021761655807495,
      "learning_rate": 1.7867451154529307e-05,
      "loss": 0.5524,
      "step": 20370
    },
    {
      "epoch": 2.04,
      "grad_norm": 3.4332127571105957,
      "learning_rate": 1.7848949082297218e-05,
      "loss": 0.5564,
      "step": 20380
    },
    {
      "epoch": 2.04,
      "grad_norm": 3.4759280681610107,
      "learning_rate": 1.783044701006513e-05,
      "loss": 0.515,
      "step": 20390
    },
    {
      "epoch": 2.04,
      "grad_norm": 3.412832736968994,
      "learning_rate": 1.7811944937833038e-05,
      "loss": 0.5492,
      "step": 20400
    },
    {
      "epoch": 2.04,
      "grad_norm": 3.0740466117858887,
      "learning_rate": 1.779344286560095e-05,
      "loss": 0.5991,
      "step": 20410
    },
    {
      "epoch": 2.04,
      "grad_norm": 2.852558135986328,
      "learning_rate": 1.7774940793368857e-05,
      "loss": 0.5224,
      "step": 20420
    },
    {
      "epoch": 2.04,
      "grad_norm": 3.448005199432373,
      "learning_rate": 1.775643872113677e-05,
      "loss": 0.5664,
      "step": 20430
    },
    {
      "epoch": 2.04,
      "grad_norm": 2.9932594299316406,
      "learning_rate": 1.773793664890468e-05,
      "loss": 0.592,
      "step": 20440
    },
    {
      "epoch": 2.04,
      "grad_norm": 3.7160000801086426,
      "learning_rate": 1.771943457667259e-05,
      "loss": 0.6357,
      "step": 20450
    },
    {
      "epoch": 2.04,
      "grad_norm": 3.767098903656006,
      "learning_rate": 1.77009325044405e-05,
      "loss": 0.4777,
      "step": 20460
    },
    {
      "epoch": 2.05,
      "grad_norm": 3.0025742053985596,
      "learning_rate": 1.7682430432208408e-05,
      "loss": 0.645,
      "step": 20470
    },
    {
      "epoch": 2.05,
      "grad_norm": 3.272557258605957,
      "learning_rate": 1.7663928359976316e-05,
      "loss": 0.5067,
      "step": 20480
    },
    {
      "epoch": 2.05,
      "grad_norm": 2.7762091159820557,
      "learning_rate": 1.764542628774423e-05,
      "loss": 0.5611,
      "step": 20490
    },
    {
      "epoch": 2.05,
      "grad_norm": 3.262763023376465,
      "learning_rate": 1.762692421551214e-05,
      "loss": 0.596,
      "step": 20500
    },
    {
      "epoch": 2.05,
      "grad_norm": 3.543820381164551,
      "learning_rate": 1.7608422143280047e-05,
      "loss": 0.5291,
      "step": 20510
    },
    {
      "epoch": 2.05,
      "grad_norm": 3.0718300342559814,
      "learning_rate": 1.758992007104796e-05,
      "loss": 0.5553,
      "step": 20520
    },
    {
      "epoch": 2.05,
      "grad_norm": 3.5667884349823,
      "learning_rate": 1.7571417998815867e-05,
      "loss": 0.5907,
      "step": 20530
    },
    {
      "epoch": 2.05,
      "grad_norm": 3.6550326347351074,
      "learning_rate": 1.7552915926583778e-05,
      "loss": 0.5727,
      "step": 20540
    },
    {
      "epoch": 2.05,
      "grad_norm": 3.309018850326538,
      "learning_rate": 1.753441385435169e-05,
      "loss": 0.6089,
      "step": 20550
    },
    {
      "epoch": 2.05,
      "grad_norm": 2.953646421432495,
      "learning_rate": 1.7515911782119598e-05,
      "loss": 0.5595,
      "step": 20560
    },
    {
      "epoch": 2.06,
      "grad_norm": 3.8685264587402344,
      "learning_rate": 1.749740970988751e-05,
      "loss": 0.6288,
      "step": 20570
    },
    {
      "epoch": 2.06,
      "grad_norm": 3.3729140758514404,
      "learning_rate": 1.7478907637655417e-05,
      "loss": 0.4864,
      "step": 20580
    },
    {
      "epoch": 2.06,
      "grad_norm": 2.628549337387085,
      "learning_rate": 1.746040556542333e-05,
      "loss": 0.5748,
      "step": 20590
    },
    {
      "epoch": 2.06,
      "grad_norm": 3.0334322452545166,
      "learning_rate": 1.744190349319124e-05,
      "loss": 0.4906,
      "step": 20600
    },
    {
      "epoch": 2.06,
      "grad_norm": 4.484086513519287,
      "learning_rate": 1.742340142095915e-05,
      "loss": 0.6065,
      "step": 20610
    },
    {
      "epoch": 2.06,
      "grad_norm": 3.036621570587158,
      "learning_rate": 1.7404899348727056e-05,
      "loss": 0.5605,
      "step": 20620
    },
    {
      "epoch": 2.06,
      "grad_norm": 3.0675835609436035,
      "learning_rate": 1.7386397276494968e-05,
      "loss": 0.5906,
      "step": 20630
    },
    {
      "epoch": 2.06,
      "grad_norm": 3.4959983825683594,
      "learning_rate": 1.736789520426288e-05,
      "loss": 0.5768,
      "step": 20640
    },
    {
      "epoch": 2.06,
      "grad_norm": 4.214682102203369,
      "learning_rate": 1.7349393132030787e-05,
      "loss": 0.5499,
      "step": 20650
    },
    {
      "epoch": 2.06,
      "grad_norm": 3.427672863006592,
      "learning_rate": 1.73308910597987e-05,
      "loss": 0.5542,
      "step": 20660
    },
    {
      "epoch": 2.07,
      "grad_norm": 3.682155132293701,
      "learning_rate": 1.7312388987566607e-05,
      "loss": 0.4571,
      "step": 20670
    },
    {
      "epoch": 2.07,
      "grad_norm": 2.615424633026123,
      "learning_rate": 1.729388691533452e-05,
      "loss": 0.5538,
      "step": 20680
    },
    {
      "epoch": 2.07,
      "grad_norm": 3.479808807373047,
      "learning_rate": 1.727538484310243e-05,
      "loss": 0.5982,
      "step": 20690
    },
    {
      "epoch": 2.07,
      "grad_norm": 3.955366611480713,
      "learning_rate": 1.7256882770870338e-05,
      "loss": 0.5282,
      "step": 20700
    },
    {
      "epoch": 2.07,
      "grad_norm": 3.979743242263794,
      "learning_rate": 1.723838069863825e-05,
      "loss": 0.6054,
      "step": 20710
    },
    {
      "epoch": 2.07,
      "grad_norm": 5.0725555419921875,
      "learning_rate": 1.7219878626406158e-05,
      "loss": 0.563,
      "step": 20720
    },
    {
      "epoch": 2.07,
      "grad_norm": 2.887803077697754,
      "learning_rate": 1.7201376554174066e-05,
      "loss": 0.5584,
      "step": 20730
    },
    {
      "epoch": 2.07,
      "grad_norm": 2.7179203033447266,
      "learning_rate": 1.718287448194198e-05,
      "loss": 0.6004,
      "step": 20740
    },
    {
      "epoch": 2.07,
      "grad_norm": 2.847245216369629,
      "learning_rate": 1.716437240970989e-05,
      "loss": 0.5944,
      "step": 20750
    },
    {
      "epoch": 2.07,
      "grad_norm": 2.92793869972229,
      "learning_rate": 1.71458703374778e-05,
      "loss": 0.6168,
      "step": 20760
    },
    {
      "epoch": 2.08,
      "grad_norm": 3.6380293369293213,
      "learning_rate": 1.7127368265245708e-05,
      "loss": 0.6112,
      "step": 20770
    },
    {
      "epoch": 2.08,
      "grad_norm": 3.300769805908203,
      "learning_rate": 1.7108866193013616e-05,
      "loss": 0.6218,
      "step": 20780
    },
    {
      "epoch": 2.08,
      "grad_norm": 2.637331247329712,
      "learning_rate": 1.709036412078153e-05,
      "loss": 0.4933,
      "step": 20790
    },
    {
      "epoch": 2.08,
      "grad_norm": 2.3563392162323,
      "learning_rate": 1.707186204854944e-05,
      "loss": 0.499,
      "step": 20800
    },
    {
      "epoch": 2.08,
      "grad_norm": 3.8108131885528564,
      "learning_rate": 1.7053359976317347e-05,
      "loss": 0.5685,
      "step": 20810
    },
    {
      "epoch": 2.08,
      "grad_norm": 2.561042070388794,
      "learning_rate": 1.703485790408526e-05,
      "loss": 0.5153,
      "step": 20820
    },
    {
      "epoch": 2.08,
      "grad_norm": 3.4575064182281494,
      "learning_rate": 1.7016355831853167e-05,
      "loss": 0.563,
      "step": 20830
    },
    {
      "epoch": 2.08,
      "grad_norm": 3.7959954738616943,
      "learning_rate": 1.699785375962108e-05,
      "loss": 0.6497,
      "step": 20840
    },
    {
      "epoch": 2.08,
      "grad_norm": 3.2535693645477295,
      "learning_rate": 1.697935168738899e-05,
      "loss": 0.4946,
      "step": 20850
    },
    {
      "epoch": 2.08,
      "grad_norm": 2.231682062149048,
      "learning_rate": 1.6960849615156898e-05,
      "loss": 0.563,
      "step": 20860
    },
    {
      "epoch": 2.09,
      "grad_norm": 3.2395451068878174,
      "learning_rate": 1.694234754292481e-05,
      "loss": 0.5266,
      "step": 20870
    },
    {
      "epoch": 2.09,
      "grad_norm": 5.185677528381348,
      "learning_rate": 1.6923845470692718e-05,
      "loss": 0.553,
      "step": 20880
    },
    {
      "epoch": 2.09,
      "grad_norm": 3.844491720199585,
      "learning_rate": 1.690534339846063e-05,
      "loss": 0.5536,
      "step": 20890
    },
    {
      "epoch": 2.09,
      "grad_norm": 2.421461343765259,
      "learning_rate": 1.688684132622854e-05,
      "loss": 0.5652,
      "step": 20900
    },
    {
      "epoch": 2.09,
      "grad_norm": 2.9015700817108154,
      "learning_rate": 1.686833925399645e-05,
      "loss": 0.5562,
      "step": 20910
    },
    {
      "epoch": 2.09,
      "grad_norm": 4.310763835906982,
      "learning_rate": 1.6849837181764357e-05,
      "loss": 0.581,
      "step": 20920
    },
    {
      "epoch": 2.09,
      "grad_norm": 2.5326449871063232,
      "learning_rate": 1.6831335109532268e-05,
      "loss": 0.6232,
      "step": 20930
    },
    {
      "epoch": 2.09,
      "grad_norm": 3.8233695030212402,
      "learning_rate": 1.681283303730018e-05,
      "loss": 0.5584,
      "step": 20940
    },
    {
      "epoch": 2.09,
      "grad_norm": 2.6582889556884766,
      "learning_rate": 1.6794330965068088e-05,
      "loss": 0.5622,
      "step": 20950
    },
    {
      "epoch": 2.09,
      "grad_norm": 3.6611180305480957,
      "learning_rate": 1.6775828892836e-05,
      "loss": 0.5609,
      "step": 20960
    },
    {
      "epoch": 2.1,
      "grad_norm": 3.5423426628112793,
      "learning_rate": 1.6757326820603907e-05,
      "loss": 0.5684,
      "step": 20970
    },
    {
      "epoch": 2.1,
      "grad_norm": 3.4048988819122314,
      "learning_rate": 1.673882474837182e-05,
      "loss": 0.6196,
      "step": 20980
    },
    {
      "epoch": 2.1,
      "grad_norm": 3.7882697582244873,
      "learning_rate": 1.672032267613973e-05,
      "loss": 0.6016,
      "step": 20990
    },
    {
      "epoch": 2.1,
      "grad_norm": 3.0301144123077393,
      "learning_rate": 1.670182060390764e-05,
      "loss": 0.567,
      "step": 21000
    },
    {
      "epoch": 2.1,
      "grad_norm": 3.470283269882202,
      "learning_rate": 1.668331853167555e-05,
      "loss": 0.6354,
      "step": 21010
    },
    {
      "epoch": 2.1,
      "grad_norm": 3.4017648696899414,
      "learning_rate": 1.6664816459443458e-05,
      "loss": 0.6208,
      "step": 21020
    },
    {
      "epoch": 2.1,
      "grad_norm": 3.2402615547180176,
      "learning_rate": 1.6646314387211366e-05,
      "loss": 0.5922,
      "step": 21030
    },
    {
      "epoch": 2.1,
      "grad_norm": 3.027789831161499,
      "learning_rate": 1.662781231497928e-05,
      "loss": 0.6209,
      "step": 21040
    },
    {
      "epoch": 2.1,
      "grad_norm": 2.9463653564453125,
      "learning_rate": 1.660931024274719e-05,
      "loss": 0.5521,
      "step": 21050
    },
    {
      "epoch": 2.1,
      "grad_norm": 3.6216864585876465,
      "learning_rate": 1.6590808170515097e-05,
      "loss": 0.6062,
      "step": 21060
    },
    {
      "epoch": 2.11,
      "grad_norm": 3.0808463096618652,
      "learning_rate": 1.657230609828301e-05,
      "loss": 0.5616,
      "step": 21070
    },
    {
      "epoch": 2.11,
      "grad_norm": 2.7734246253967285,
      "learning_rate": 1.6553804026050917e-05,
      "loss": 0.6166,
      "step": 21080
    },
    {
      "epoch": 2.11,
      "grad_norm": 3.702036142349243,
      "learning_rate": 1.6535301953818828e-05,
      "loss": 0.6301,
      "step": 21090
    },
    {
      "epoch": 2.11,
      "grad_norm": 2.896557569503784,
      "learning_rate": 1.651679988158674e-05,
      "loss": 0.5612,
      "step": 21100
    },
    {
      "epoch": 2.11,
      "grad_norm": 3.9850411415100098,
      "learning_rate": 1.6498297809354648e-05,
      "loss": 0.5663,
      "step": 21110
    },
    {
      "epoch": 2.11,
      "grad_norm": 3.8010005950927734,
      "learning_rate": 1.647979573712256e-05,
      "loss": 0.5539,
      "step": 21120
    },
    {
      "epoch": 2.11,
      "grad_norm": 2.7382419109344482,
      "learning_rate": 1.6461293664890467e-05,
      "loss": 0.593,
      "step": 21130
    },
    {
      "epoch": 2.11,
      "grad_norm": 3.8176369667053223,
      "learning_rate": 1.644279159265838e-05,
      "loss": 0.5368,
      "step": 21140
    },
    {
      "epoch": 2.11,
      "grad_norm": 2.432932138442993,
      "learning_rate": 1.642428952042629e-05,
      "loss": 0.5321,
      "step": 21150
    },
    {
      "epoch": 2.11,
      "grad_norm": 3.195308208465576,
      "learning_rate": 1.6405787448194198e-05,
      "loss": 0.592,
      "step": 21160
    },
    {
      "epoch": 2.12,
      "grad_norm": 2.888026475906372,
      "learning_rate": 1.638728537596211e-05,
      "loss": 0.4962,
      "step": 21170
    },
    {
      "epoch": 2.12,
      "grad_norm": 2.778398275375366,
      "learning_rate": 1.6368783303730018e-05,
      "loss": 0.6028,
      "step": 21180
    },
    {
      "epoch": 2.12,
      "grad_norm": 3.339989423751831,
      "learning_rate": 1.635028123149793e-05,
      "loss": 0.5192,
      "step": 21190
    },
    {
      "epoch": 2.12,
      "grad_norm": 3.916900634765625,
      "learning_rate": 1.633177915926584e-05,
      "loss": 0.6427,
      "step": 21200
    },
    {
      "epoch": 2.12,
      "grad_norm": 3.741588592529297,
      "learning_rate": 1.631327708703375e-05,
      "loss": 0.5466,
      "step": 21210
    },
    {
      "epoch": 2.12,
      "grad_norm": 3.6195733547210693,
      "learning_rate": 1.6294775014801657e-05,
      "loss": 0.6102,
      "step": 21220
    },
    {
      "epoch": 2.12,
      "grad_norm": 3.5973892211914062,
      "learning_rate": 1.627627294256957e-05,
      "loss": 0.5721,
      "step": 21230
    },
    {
      "epoch": 2.12,
      "grad_norm": 3.4016566276550293,
      "learning_rate": 1.625777087033748e-05,
      "loss": 0.5727,
      "step": 21240
    },
    {
      "epoch": 2.12,
      "grad_norm": 3.783888101577759,
      "learning_rate": 1.6239268798105388e-05,
      "loss": 0.5734,
      "step": 21250
    },
    {
      "epoch": 2.12,
      "grad_norm": 2.9430973529815674,
      "learning_rate": 1.62207667258733e-05,
      "loss": 0.5573,
      "step": 21260
    },
    {
      "epoch": 2.13,
      "grad_norm": 3.306252956390381,
      "learning_rate": 1.6202264653641208e-05,
      "loss": 0.5505,
      "step": 21270
    },
    {
      "epoch": 2.13,
      "grad_norm": 2.3481242656707764,
      "learning_rate": 1.618376258140912e-05,
      "loss": 0.4864,
      "step": 21280
    },
    {
      "epoch": 2.13,
      "grad_norm": 3.1916396617889404,
      "learning_rate": 1.616526050917703e-05,
      "loss": 0.6432,
      "step": 21290
    },
    {
      "epoch": 2.13,
      "grad_norm": 2.9165279865264893,
      "learning_rate": 1.614675843694494e-05,
      "loss": 0.5481,
      "step": 21300
    },
    {
      "epoch": 2.13,
      "grad_norm": 3.4435129165649414,
      "learning_rate": 1.612825636471285e-05,
      "loss": 0.598,
      "step": 21310
    },
    {
      "epoch": 2.13,
      "grad_norm": 3.010394811630249,
      "learning_rate": 1.6109754292480758e-05,
      "loss": 0.5248,
      "step": 21320
    },
    {
      "epoch": 2.13,
      "grad_norm": 2.912707805633545,
      "learning_rate": 1.6091252220248666e-05,
      "loss": 0.609,
      "step": 21330
    },
    {
      "epoch": 2.13,
      "grad_norm": 2.8800694942474365,
      "learning_rate": 1.607275014801658e-05,
      "loss": 0.5656,
      "step": 21340
    },
    {
      "epoch": 2.13,
      "grad_norm": 2.974383592605591,
      "learning_rate": 1.605424807578449e-05,
      "loss": 0.5354,
      "step": 21350
    },
    {
      "epoch": 2.13,
      "grad_norm": 2.848024606704712,
      "learning_rate": 1.6035746003552397e-05,
      "loss": 0.5666,
      "step": 21360
    },
    {
      "epoch": 2.14,
      "grad_norm": 3.0119950771331787,
      "learning_rate": 1.601724393132031e-05,
      "loss": 0.5754,
      "step": 21370
    },
    {
      "epoch": 2.14,
      "grad_norm": 2.9532952308654785,
      "learning_rate": 1.5998741859088217e-05,
      "loss": 0.5531,
      "step": 21380
    },
    {
      "epoch": 2.14,
      "grad_norm": 3.4589502811431885,
      "learning_rate": 1.598023978685613e-05,
      "loss": 0.5517,
      "step": 21390
    },
    {
      "epoch": 2.14,
      "grad_norm": 3.4026899337768555,
      "learning_rate": 1.596173771462404e-05,
      "loss": 0.5779,
      "step": 21400
    },
    {
      "epoch": 2.14,
      "grad_norm": 3.275451421737671,
      "learning_rate": 1.5943235642391948e-05,
      "loss": 0.551,
      "step": 21410
    },
    {
      "epoch": 2.14,
      "grad_norm": 3.979843854904175,
      "learning_rate": 1.592473357015986e-05,
      "loss": 0.5814,
      "step": 21420
    },
    {
      "epoch": 2.14,
      "grad_norm": 2.8944175243377686,
      "learning_rate": 1.5906231497927768e-05,
      "loss": 0.5902,
      "step": 21430
    },
    {
      "epoch": 2.14,
      "grad_norm": 4.116698265075684,
      "learning_rate": 1.588772942569568e-05,
      "loss": 0.5576,
      "step": 21440
    },
    {
      "epoch": 2.14,
      "grad_norm": 2.839024305343628,
      "learning_rate": 1.586922735346359e-05,
      "loss": 0.6057,
      "step": 21450
    },
    {
      "epoch": 2.14,
      "grad_norm": 3.3337278366088867,
      "learning_rate": 1.58507252812315e-05,
      "loss": 0.5503,
      "step": 21460
    },
    {
      "epoch": 2.15,
      "grad_norm": 3.3276760578155518,
      "learning_rate": 1.5832223208999407e-05,
      "loss": 0.6096,
      "step": 21470
    },
    {
      "epoch": 2.15,
      "grad_norm": 2.9976699352264404,
      "learning_rate": 1.5813721136767318e-05,
      "loss": 0.6211,
      "step": 21480
    },
    {
      "epoch": 2.15,
      "grad_norm": 2.6843364238739014,
      "learning_rate": 1.579521906453523e-05,
      "loss": 0.5887,
      "step": 21490
    },
    {
      "epoch": 2.15,
      "grad_norm": 2.834441900253296,
      "learning_rate": 1.5776716992303138e-05,
      "loss": 0.5419,
      "step": 21500
    },
    {
      "epoch": 2.15,
      "grad_norm": 3.2290799617767334,
      "learning_rate": 1.575821492007105e-05,
      "loss": 0.6175,
      "step": 21510
    },
    {
      "epoch": 2.15,
      "grad_norm": 3.130596399307251,
      "learning_rate": 1.5739712847838957e-05,
      "loss": 0.5451,
      "step": 21520
    },
    {
      "epoch": 2.15,
      "grad_norm": 4.115631103515625,
      "learning_rate": 1.572121077560687e-05,
      "loss": 0.6062,
      "step": 21530
    },
    {
      "epoch": 2.15,
      "grad_norm": 3.331172227859497,
      "learning_rate": 1.570270870337478e-05,
      "loss": 0.5829,
      "step": 21540
    },
    {
      "epoch": 2.15,
      "grad_norm": 3.688483715057373,
      "learning_rate": 1.568420663114269e-05,
      "loss": 0.5176,
      "step": 21550
    },
    {
      "epoch": 2.15,
      "grad_norm": 2.977609395980835,
      "learning_rate": 1.56657045589106e-05,
      "loss": 0.535,
      "step": 21560
    },
    {
      "epoch": 2.16,
      "grad_norm": 3.377237319946289,
      "learning_rate": 1.5647202486678508e-05,
      "loss": 0.6004,
      "step": 21570
    },
    {
      "epoch": 2.16,
      "grad_norm": 3.257822275161743,
      "learning_rate": 1.562870041444642e-05,
      "loss": 0.6042,
      "step": 21580
    },
    {
      "epoch": 2.16,
      "grad_norm": 3.064870834350586,
      "learning_rate": 1.561019834221433e-05,
      "loss": 0.6299,
      "step": 21590
    },
    {
      "epoch": 2.16,
      "grad_norm": 3.2744243144989014,
      "learning_rate": 1.559169626998224e-05,
      "loss": 0.6232,
      "step": 21600
    },
    {
      "epoch": 2.16,
      "grad_norm": 2.3407034873962402,
      "learning_rate": 1.557319419775015e-05,
      "loss": 0.5577,
      "step": 21610
    },
    {
      "epoch": 2.16,
      "grad_norm": 4.312080383300781,
      "learning_rate": 1.555469212551806e-05,
      "loss": 0.5528,
      "step": 21620
    },
    {
      "epoch": 2.16,
      "grad_norm": 2.3229799270629883,
      "learning_rate": 1.5536190053285967e-05,
      "loss": 0.6261,
      "step": 21630
    },
    {
      "epoch": 2.16,
      "grad_norm": 3.203993797302246,
      "learning_rate": 1.551768798105388e-05,
      "loss": 0.6084,
      "step": 21640
    },
    {
      "epoch": 2.16,
      "grad_norm": 2.9499504566192627,
      "learning_rate": 1.549918590882179e-05,
      "loss": 0.5927,
      "step": 21650
    },
    {
      "epoch": 2.16,
      "grad_norm": 4.303834915161133,
      "learning_rate": 1.5480683836589698e-05,
      "loss": 0.6041,
      "step": 21660
    },
    {
      "epoch": 2.16,
      "grad_norm": 3.5205230712890625,
      "learning_rate": 1.546218176435761e-05,
      "loss": 0.567,
      "step": 21670
    },
    {
      "epoch": 2.17,
      "grad_norm": 3.3858444690704346,
      "learning_rate": 1.5443679692125517e-05,
      "loss": 0.5422,
      "step": 21680
    },
    {
      "epoch": 2.17,
      "grad_norm": 2.8853025436401367,
      "learning_rate": 1.542517761989343e-05,
      "loss": 0.5568,
      "step": 21690
    },
    {
      "epoch": 2.17,
      "grad_norm": 2.955230236053467,
      "learning_rate": 1.540667554766134e-05,
      "loss": 0.595,
      "step": 21700
    },
    {
      "epoch": 2.17,
      "grad_norm": 3.3971872329711914,
      "learning_rate": 1.5388173475429248e-05,
      "loss": 0.6043,
      "step": 21710
    },
    {
      "epoch": 2.17,
      "grad_norm": 3.086496591567993,
      "learning_rate": 1.536967140319716e-05,
      "loss": 0.5477,
      "step": 21720
    },
    {
      "epoch": 2.17,
      "grad_norm": 3.8846988677978516,
      "learning_rate": 1.5351169330965068e-05,
      "loss": 0.5441,
      "step": 21730
    },
    {
      "epoch": 2.17,
      "grad_norm": 3.3055412769317627,
      "learning_rate": 1.533266725873298e-05,
      "loss": 0.5888,
      "step": 21740
    },
    {
      "epoch": 2.17,
      "grad_norm": 3.4728121757507324,
      "learning_rate": 1.531416518650089e-05,
      "loss": 0.6306,
      "step": 21750
    },
    {
      "epoch": 2.17,
      "grad_norm": 4.00685453414917,
      "learning_rate": 1.52956631142688e-05,
      "loss": 0.5946,
      "step": 21760
    },
    {
      "epoch": 2.17,
      "grad_norm": 7.787179946899414,
      "learning_rate": 1.5277161042036707e-05,
      "loss": 0.5853,
      "step": 21770
    },
    {
      "epoch": 2.18,
      "grad_norm": 3.3887293338775635,
      "learning_rate": 1.5258658969804618e-05,
      "loss": 0.5257,
      "step": 21780
    },
    {
      "epoch": 2.18,
      "grad_norm": 2.7653768062591553,
      "learning_rate": 1.524015689757253e-05,
      "loss": 0.5774,
      "step": 21790
    },
    {
      "epoch": 2.18,
      "grad_norm": 2.8996164798736572,
      "learning_rate": 1.522165482534044e-05,
      "loss": 0.5612,
      "step": 21800
    },
    {
      "epoch": 2.18,
      "grad_norm": 2.924781560897827,
      "learning_rate": 1.520315275310835e-05,
      "loss": 0.6342,
      "step": 21810
    },
    {
      "epoch": 2.18,
      "grad_norm": 2.6849799156188965,
      "learning_rate": 1.5184650680876258e-05,
      "loss": 0.6457,
      "step": 21820
    },
    {
      "epoch": 2.18,
      "grad_norm": 2.928683280944824,
      "learning_rate": 1.5166148608644167e-05,
      "loss": 0.5613,
      "step": 21830
    },
    {
      "epoch": 2.18,
      "grad_norm": 3.300615072250366,
      "learning_rate": 1.514764653641208e-05,
      "loss": 0.5562,
      "step": 21840
    },
    {
      "epoch": 2.18,
      "grad_norm": 3.343679189682007,
      "learning_rate": 1.512914446417999e-05,
      "loss": 0.5897,
      "step": 21850
    },
    {
      "epoch": 2.18,
      "grad_norm": 2.199127435684204,
      "learning_rate": 1.5110642391947898e-05,
      "loss": 0.6067,
      "step": 21860
    },
    {
      "epoch": 2.18,
      "grad_norm": 3.7353882789611816,
      "learning_rate": 1.5092140319715808e-05,
      "loss": 0.5697,
      "step": 21870
    },
    {
      "epoch": 2.19,
      "grad_norm": 2.802708148956299,
      "learning_rate": 1.5073638247483718e-05,
      "loss": 0.5847,
      "step": 21880
    },
    {
      "epoch": 2.19,
      "grad_norm": 4.117039680480957,
      "learning_rate": 1.505513617525163e-05,
      "loss": 0.5324,
      "step": 21890
    },
    {
      "epoch": 2.19,
      "grad_norm": 3.8175606727600098,
      "learning_rate": 1.503663410301954e-05,
      "loss": 0.5689,
      "step": 21900
    },
    {
      "epoch": 2.19,
      "grad_norm": 3.392909049987793,
      "learning_rate": 1.5018132030787449e-05,
      "loss": 0.5898,
      "step": 21910
    },
    {
      "epoch": 2.19,
      "grad_norm": 3.4845798015594482,
      "learning_rate": 1.4999629958555359e-05,
      "loss": 0.6012,
      "step": 21920
    },
    {
      "epoch": 2.19,
      "grad_norm": 3.5220205783843994,
      "learning_rate": 1.4981127886323269e-05,
      "loss": 0.6376,
      "step": 21930
    },
    {
      "epoch": 2.19,
      "grad_norm": 3.2808966636657715,
      "learning_rate": 1.496262581409118e-05,
      "loss": 0.5264,
      "step": 21940
    },
    {
      "epoch": 2.19,
      "grad_norm": 3.127232074737549,
      "learning_rate": 1.494412374185909e-05,
      "loss": 0.503,
      "step": 21950
    },
    {
      "epoch": 2.19,
      "grad_norm": 2.8473622798919678,
      "learning_rate": 1.4925621669627e-05,
      "loss": 0.5755,
      "step": 21960
    },
    {
      "epoch": 2.19,
      "grad_norm": 3.0820059776306152,
      "learning_rate": 1.4907119597394908e-05,
      "loss": 0.5477,
      "step": 21970
    },
    {
      "epoch": 2.2,
      "grad_norm": 3.7432496547698975,
      "learning_rate": 1.4888617525162818e-05,
      "loss": 0.539,
      "step": 21980
    },
    {
      "epoch": 2.2,
      "grad_norm": 2.8907270431518555,
      "learning_rate": 1.487011545293073e-05,
      "loss": 0.5983,
      "step": 21990
    },
    {
      "epoch": 2.2,
      "grad_norm": 2.247722625732422,
      "learning_rate": 1.4851613380698639e-05,
      "loss": 0.5418,
      "step": 22000
    },
    {
      "epoch": 2.2,
      "grad_norm": 3.260282516479492,
      "learning_rate": 1.4833111308466549e-05,
      "loss": 0.582,
      "step": 22010
    },
    {
      "epoch": 2.2,
      "grad_norm": 3.133117914199829,
      "learning_rate": 1.4814609236234458e-05,
      "loss": 0.5905,
      "step": 22020
    },
    {
      "epoch": 2.2,
      "grad_norm": 3.1722538471221924,
      "learning_rate": 1.4796107164002368e-05,
      "loss": 0.5994,
      "step": 22030
    },
    {
      "epoch": 2.2,
      "grad_norm": 2.620502233505249,
      "learning_rate": 1.477760509177028e-05,
      "loss": 0.5489,
      "step": 22040
    },
    {
      "epoch": 2.2,
      "grad_norm": 2.430696964263916,
      "learning_rate": 1.475910301953819e-05,
      "loss": 0.5212,
      "step": 22050
    },
    {
      "epoch": 2.2,
      "grad_norm": 19.67026710510254,
      "learning_rate": 1.47406009473061e-05,
      "loss": 0.5232,
      "step": 22060
    },
    {
      "epoch": 2.2,
      "grad_norm": 3.671766519546509,
      "learning_rate": 1.4722098875074009e-05,
      "loss": 0.5606,
      "step": 22070
    },
    {
      "epoch": 2.21,
      "grad_norm": 3.505337953567505,
      "learning_rate": 1.4703596802841919e-05,
      "loss": 0.6518,
      "step": 22080
    },
    {
      "epoch": 2.21,
      "grad_norm": 3.540677547454834,
      "learning_rate": 1.468509473060983e-05,
      "loss": 0.5416,
      "step": 22090
    },
    {
      "epoch": 2.21,
      "grad_norm": 3.234553575515747,
      "learning_rate": 1.466659265837774e-05,
      "loss": 0.5402,
      "step": 22100
    },
    {
      "epoch": 2.21,
      "grad_norm": 2.642730474472046,
      "learning_rate": 1.464809058614565e-05,
      "loss": 0.5625,
      "step": 22110
    },
    {
      "epoch": 2.21,
      "grad_norm": 3.7630977630615234,
      "learning_rate": 1.4629588513913558e-05,
      "loss": 0.5307,
      "step": 22120
    },
    {
      "epoch": 2.21,
      "grad_norm": 2.5280964374542236,
      "learning_rate": 1.4611086441681468e-05,
      "loss": 0.5351,
      "step": 22130
    },
    {
      "epoch": 2.21,
      "grad_norm": 4.45945405960083,
      "learning_rate": 1.459258436944938e-05,
      "loss": 0.5864,
      "step": 22140
    },
    {
      "epoch": 2.21,
      "grad_norm": 4.0256571769714355,
      "learning_rate": 1.4574082297217289e-05,
      "loss": 0.5514,
      "step": 22150
    },
    {
      "epoch": 2.21,
      "grad_norm": 2.8239731788635254,
      "learning_rate": 1.4555580224985199e-05,
      "loss": 0.5553,
      "step": 22160
    },
    {
      "epoch": 2.21,
      "grad_norm": 4.247115612030029,
      "learning_rate": 1.4537078152753108e-05,
      "loss": 0.6226,
      "step": 22170
    },
    {
      "epoch": 2.22,
      "grad_norm": 3.095827579498291,
      "learning_rate": 1.4518576080521018e-05,
      "loss": 0.5767,
      "step": 22180
    },
    {
      "epoch": 2.22,
      "grad_norm": 3.0563082695007324,
      "learning_rate": 1.450007400828893e-05,
      "loss": 0.5569,
      "step": 22190
    },
    {
      "epoch": 2.22,
      "grad_norm": 3.3566272258758545,
      "learning_rate": 1.448157193605684e-05,
      "loss": 0.5596,
      "step": 22200
    },
    {
      "epoch": 2.22,
      "grad_norm": 3.909785747528076,
      "learning_rate": 1.446306986382475e-05,
      "loss": 0.5435,
      "step": 22210
    },
    {
      "epoch": 2.22,
      "grad_norm": 3.293757438659668,
      "learning_rate": 1.4444567791592659e-05,
      "loss": 0.6406,
      "step": 22220
    },
    {
      "epoch": 2.22,
      "grad_norm": 2.7745368480682373,
      "learning_rate": 1.4426065719360569e-05,
      "loss": 0.5375,
      "step": 22230
    },
    {
      "epoch": 2.22,
      "grad_norm": 3.4462826251983643,
      "learning_rate": 1.440756364712848e-05,
      "loss": 0.5677,
      "step": 22240
    },
    {
      "epoch": 2.22,
      "grad_norm": 3.5789735317230225,
      "learning_rate": 1.438906157489639e-05,
      "loss": 0.58,
      "step": 22250
    },
    {
      "epoch": 2.22,
      "grad_norm": 2.8514811992645264,
      "learning_rate": 1.43705595026643e-05,
      "loss": 0.5497,
      "step": 22260
    },
    {
      "epoch": 2.22,
      "grad_norm": 2.005276679992676,
      "learning_rate": 1.4352057430432208e-05,
      "loss": 0.5228,
      "step": 22270
    },
    {
      "epoch": 2.23,
      "grad_norm": 3.3943064212799072,
      "learning_rate": 1.4333555358200118e-05,
      "loss": 0.6017,
      "step": 22280
    },
    {
      "epoch": 2.23,
      "grad_norm": 2.405921459197998,
      "learning_rate": 1.4315053285968031e-05,
      "loss": 0.5327,
      "step": 22290
    },
    {
      "epoch": 2.23,
      "grad_norm": 3.1621041297912598,
      "learning_rate": 1.4296551213735939e-05,
      "loss": 0.5767,
      "step": 22300
    },
    {
      "epoch": 2.23,
      "grad_norm": 4.923781394958496,
      "learning_rate": 1.4278049141503849e-05,
      "loss": 0.6445,
      "step": 22310
    },
    {
      "epoch": 2.23,
      "grad_norm": 2.896899461746216,
      "learning_rate": 1.4259547069271759e-05,
      "loss": 0.561,
      "step": 22320
    },
    {
      "epoch": 2.23,
      "grad_norm": 2.910583734512329,
      "learning_rate": 1.4241044997039668e-05,
      "loss": 0.558,
      "step": 22330
    },
    {
      "epoch": 2.23,
      "grad_norm": 2.9224703311920166,
      "learning_rate": 1.422254292480758e-05,
      "loss": 0.6392,
      "step": 22340
    },
    {
      "epoch": 2.23,
      "grad_norm": 3.2415871620178223,
      "learning_rate": 1.420404085257549e-05,
      "loss": 0.5323,
      "step": 22350
    },
    {
      "epoch": 2.23,
      "grad_norm": 2.8585174083709717,
      "learning_rate": 1.41855387803434e-05,
      "loss": 0.4971,
      "step": 22360
    },
    {
      "epoch": 2.23,
      "grad_norm": 3.584977865219116,
      "learning_rate": 1.416703670811131e-05,
      "loss": 0.6269,
      "step": 22370
    },
    {
      "epoch": 2.24,
      "grad_norm": 2.691962242126465,
      "learning_rate": 1.4148534635879217e-05,
      "loss": 0.5294,
      "step": 22380
    },
    {
      "epoch": 2.24,
      "grad_norm": 2.9570977687835693,
      "learning_rate": 1.413003256364713e-05,
      "loss": 0.5783,
      "step": 22390
    },
    {
      "epoch": 2.24,
      "grad_norm": 3.573073148727417,
      "learning_rate": 1.411153049141504e-05,
      "loss": 0.5474,
      "step": 22400
    },
    {
      "epoch": 2.24,
      "grad_norm": 3.580034017562866,
      "learning_rate": 1.409302841918295e-05,
      "loss": 0.5883,
      "step": 22410
    },
    {
      "epoch": 2.24,
      "grad_norm": 4.273467540740967,
      "learning_rate": 1.4074526346950858e-05,
      "loss": 0.5537,
      "step": 22420
    },
    {
      "epoch": 2.24,
      "grad_norm": 2.580857276916504,
      "learning_rate": 1.4056024274718768e-05,
      "loss": 0.4998,
      "step": 22430
    },
    {
      "epoch": 2.24,
      "grad_norm": 3.3063392639160156,
      "learning_rate": 1.4037522202486681e-05,
      "loss": 0.526,
      "step": 22440
    },
    {
      "epoch": 2.24,
      "grad_norm": 3.443758249282837,
      "learning_rate": 1.401902013025459e-05,
      "loss": 0.5639,
      "step": 22450
    },
    {
      "epoch": 2.24,
      "grad_norm": 3.4349398612976074,
      "learning_rate": 1.4000518058022499e-05,
      "loss": 0.6519,
      "step": 22460
    },
    {
      "epoch": 2.24,
      "grad_norm": 3.2190022468566895,
      "learning_rate": 1.3982015985790409e-05,
      "loss": 0.5647,
      "step": 22470
    },
    {
      "epoch": 2.25,
      "grad_norm": 3.7437634468078613,
      "learning_rate": 1.3963513913558319e-05,
      "loss": 0.5101,
      "step": 22480
    },
    {
      "epoch": 2.25,
      "grad_norm": 3.4602479934692383,
      "learning_rate": 1.394501184132623e-05,
      "loss": 0.5719,
      "step": 22490
    },
    {
      "epoch": 2.25,
      "grad_norm": 2.752408742904663,
      "learning_rate": 1.392650976909414e-05,
      "loss": 0.5136,
      "step": 22500
    },
    {
      "epoch": 2.25,
      "grad_norm": 2.932166814804077,
      "learning_rate": 1.390800769686205e-05,
      "loss": 0.5186,
      "step": 22510
    },
    {
      "epoch": 2.25,
      "grad_norm": 3.4827780723571777,
      "learning_rate": 1.388950562462996e-05,
      "loss": 0.5385,
      "step": 22520
    },
    {
      "epoch": 2.25,
      "grad_norm": 3.7616219520568848,
      "learning_rate": 1.3871003552397867e-05,
      "loss": 0.6664,
      "step": 22530
    },
    {
      "epoch": 2.25,
      "grad_norm": 3.14009952545166,
      "learning_rate": 1.385250148016578e-05,
      "loss": 0.5126,
      "step": 22540
    },
    {
      "epoch": 2.25,
      "grad_norm": 2.852724552154541,
      "learning_rate": 1.383399940793369e-05,
      "loss": 0.5735,
      "step": 22550
    },
    {
      "epoch": 2.25,
      "grad_norm": 2.807368278503418,
      "learning_rate": 1.3815497335701599e-05,
      "loss": 0.5429,
      "step": 22560
    },
    {
      "epoch": 2.25,
      "grad_norm": 2.907514810562134,
      "learning_rate": 1.3796995263469508e-05,
      "loss": 0.6055,
      "step": 22570
    },
    {
      "epoch": 2.26,
      "grad_norm": 3.542348861694336,
      "learning_rate": 1.3778493191237418e-05,
      "loss": 0.5986,
      "step": 22580
    },
    {
      "epoch": 2.26,
      "grad_norm": 3.7113091945648193,
      "learning_rate": 1.3759991119005331e-05,
      "loss": 0.5817,
      "step": 22590
    },
    {
      "epoch": 2.26,
      "grad_norm": 2.669135332107544,
      "learning_rate": 1.374148904677324e-05,
      "loss": 0.6173,
      "step": 22600
    },
    {
      "epoch": 2.26,
      "grad_norm": 2.8686771392822266,
      "learning_rate": 1.3722986974541149e-05,
      "loss": 0.5747,
      "step": 22610
    },
    {
      "epoch": 2.26,
      "grad_norm": 3.8776791095733643,
      "learning_rate": 1.3704484902309059e-05,
      "loss": 0.5823,
      "step": 22620
    },
    {
      "epoch": 2.26,
      "grad_norm": 2.008669853210449,
      "learning_rate": 1.3685982830076969e-05,
      "loss": 0.4995,
      "step": 22630
    },
    {
      "epoch": 2.26,
      "grad_norm": 3.4271175861358643,
      "learning_rate": 1.366748075784488e-05,
      "loss": 0.532,
      "step": 22640
    },
    {
      "epoch": 2.26,
      "grad_norm": 3.593259572982788,
      "learning_rate": 1.364897868561279e-05,
      "loss": 0.5121,
      "step": 22650
    },
    {
      "epoch": 2.26,
      "grad_norm": 3.330824136734009,
      "learning_rate": 1.36304766133807e-05,
      "loss": 0.536,
      "step": 22660
    },
    {
      "epoch": 2.26,
      "grad_norm": 3.5004959106445312,
      "learning_rate": 1.361197454114861e-05,
      "loss": 0.5663,
      "step": 22670
    },
    {
      "epoch": 2.27,
      "grad_norm": 2.812399387359619,
      "learning_rate": 1.3593472468916518e-05,
      "loss": 0.6172,
      "step": 22680
    },
    {
      "epoch": 2.27,
      "grad_norm": 2.6446547508239746,
      "learning_rate": 1.357497039668443e-05,
      "loss": 0.5828,
      "step": 22690
    },
    {
      "epoch": 2.27,
      "grad_norm": 3.013423442840576,
      "learning_rate": 1.355646832445234e-05,
      "loss": 0.5408,
      "step": 22700
    },
    {
      "epoch": 2.27,
      "grad_norm": 2.8857696056365967,
      "learning_rate": 1.3537966252220249e-05,
      "loss": 0.5417,
      "step": 22710
    },
    {
      "epoch": 2.27,
      "grad_norm": 2.5288329124450684,
      "learning_rate": 1.3519464179988158e-05,
      "loss": 0.5576,
      "step": 22720
    },
    {
      "epoch": 2.27,
      "grad_norm": 3.0753514766693115,
      "learning_rate": 1.3500962107756068e-05,
      "loss": 0.5393,
      "step": 22730
    },
    {
      "epoch": 2.27,
      "grad_norm": 3.3425142765045166,
      "learning_rate": 1.348246003552398e-05,
      "loss": 0.5665,
      "step": 22740
    },
    {
      "epoch": 2.27,
      "grad_norm": 3.682692766189575,
      "learning_rate": 1.346395796329189e-05,
      "loss": 0.5726,
      "step": 22750
    },
    {
      "epoch": 2.27,
      "grad_norm": 2.882310152053833,
      "learning_rate": 1.34454558910598e-05,
      "loss": 0.5887,
      "step": 22760
    },
    {
      "epoch": 2.27,
      "grad_norm": 2.6433181762695312,
      "learning_rate": 1.3426953818827709e-05,
      "loss": 0.5373,
      "step": 22770
    },
    {
      "epoch": 2.28,
      "grad_norm": 2.905914306640625,
      "learning_rate": 1.3408451746595619e-05,
      "loss": 0.5318,
      "step": 22780
    },
    {
      "epoch": 2.28,
      "grad_norm": 3.376765489578247,
      "learning_rate": 1.338994967436353e-05,
      "loss": 0.5774,
      "step": 22790
    },
    {
      "epoch": 2.28,
      "grad_norm": 2.333975315093994,
      "learning_rate": 1.337144760213144e-05,
      "loss": 0.5434,
      "step": 22800
    },
    {
      "epoch": 2.28,
      "grad_norm": 3.1327147483825684,
      "learning_rate": 1.335294552989935e-05,
      "loss": 0.5857,
      "step": 22810
    },
    {
      "epoch": 2.28,
      "grad_norm": 3.3909409046173096,
      "learning_rate": 1.333444345766726e-05,
      "loss": 0.5761,
      "step": 22820
    },
    {
      "epoch": 2.28,
      "grad_norm": 7.834465503692627,
      "learning_rate": 1.3315941385435168e-05,
      "loss": 0.4923,
      "step": 22830
    },
    {
      "epoch": 2.28,
      "grad_norm": 3.3110432624816895,
      "learning_rate": 1.3297439313203081e-05,
      "loss": 0.5419,
      "step": 22840
    },
    {
      "epoch": 2.28,
      "grad_norm": 3.604597568511963,
      "learning_rate": 1.327893724097099e-05,
      "loss": 0.5903,
      "step": 22850
    },
    {
      "epoch": 2.28,
      "grad_norm": 3.451906204223633,
      "learning_rate": 1.3260435168738899e-05,
      "loss": 0.6292,
      "step": 22860
    },
    {
      "epoch": 2.28,
      "grad_norm": 3.4810218811035156,
      "learning_rate": 1.3241933096506809e-05,
      "loss": 0.6155,
      "step": 22870
    },
    {
      "epoch": 2.29,
      "grad_norm": 4.153844833374023,
      "learning_rate": 1.3223431024274718e-05,
      "loss": 0.5682,
      "step": 22880
    },
    {
      "epoch": 2.29,
      "grad_norm": 4.804937362670898,
      "learning_rate": 1.320492895204263e-05,
      "loss": 0.5905,
      "step": 22890
    },
    {
      "epoch": 2.29,
      "grad_norm": 3.732020616531372,
      "learning_rate": 1.318642687981054e-05,
      "loss": 0.5239,
      "step": 22900
    },
    {
      "epoch": 2.29,
      "grad_norm": 3.318005323410034,
      "learning_rate": 1.316792480757845e-05,
      "loss": 0.5504,
      "step": 22910
    },
    {
      "epoch": 2.29,
      "grad_norm": 3.8611977100372314,
      "learning_rate": 1.314942273534636e-05,
      "loss": 0.5561,
      "step": 22920
    },
    {
      "epoch": 2.29,
      "grad_norm": 3.415754556655884,
      "learning_rate": 1.3130920663114269e-05,
      "loss": 0.5887,
      "step": 22930
    },
    {
      "epoch": 2.29,
      "grad_norm": 2.6995785236358643,
      "learning_rate": 1.311241859088218e-05,
      "loss": 0.6216,
      "step": 22940
    },
    {
      "epoch": 2.29,
      "grad_norm": 3.9360191822052,
      "learning_rate": 1.309391651865009e-05,
      "loss": 0.5851,
      "step": 22950
    },
    {
      "epoch": 2.29,
      "grad_norm": 4.055316925048828,
      "learning_rate": 1.3075414446418e-05,
      "loss": 0.6608,
      "step": 22960
    },
    {
      "epoch": 2.29,
      "grad_norm": 2.9977500438690186,
      "learning_rate": 1.3056912374185908e-05,
      "loss": 0.5472,
      "step": 22970
    },
    {
      "epoch": 2.3,
      "grad_norm": 2.699622392654419,
      "learning_rate": 1.3038410301953818e-05,
      "loss": 0.6229,
      "step": 22980
    },
    {
      "epoch": 2.3,
      "grad_norm": 3.2013094425201416,
      "learning_rate": 1.3019908229721731e-05,
      "loss": 0.5645,
      "step": 22990
    },
    {
      "epoch": 2.3,
      "grad_norm": 2.8285443782806396,
      "learning_rate": 1.3001406157489641e-05,
      "loss": 0.5859,
      "step": 23000
    },
    {
      "epoch": 2.3,
      "grad_norm": 3.944581985473633,
      "learning_rate": 1.2982904085257549e-05,
      "loss": 0.5987,
      "step": 23010
    },
    {
      "epoch": 2.3,
      "grad_norm": 2.4679505825042725,
      "learning_rate": 1.2964402013025459e-05,
      "loss": 0.5402,
      "step": 23020
    },
    {
      "epoch": 2.3,
      "grad_norm": 3.1068825721740723,
      "learning_rate": 1.2945899940793369e-05,
      "loss": 0.5731,
      "step": 23030
    },
    {
      "epoch": 2.3,
      "grad_norm": 3.2176780700683594,
      "learning_rate": 1.292739786856128e-05,
      "loss": 0.59,
      "step": 23040
    },
    {
      "epoch": 2.3,
      "grad_norm": 3.8526079654693604,
      "learning_rate": 1.290889579632919e-05,
      "loss": 0.5006,
      "step": 23050
    },
    {
      "epoch": 2.3,
      "grad_norm": 3.0202670097351074,
      "learning_rate": 1.28903937240971e-05,
      "loss": 0.5951,
      "step": 23060
    },
    {
      "epoch": 2.3,
      "grad_norm": 4.068789482116699,
      "learning_rate": 1.287189165186501e-05,
      "loss": 0.5094,
      "step": 23070
    },
    {
      "epoch": 2.31,
      "grad_norm": 3.230842113494873,
      "learning_rate": 1.285338957963292e-05,
      "loss": 0.5428,
      "step": 23080
    },
    {
      "epoch": 2.31,
      "grad_norm": 3.654794454574585,
      "learning_rate": 1.283488750740083e-05,
      "loss": 0.6074,
      "step": 23090
    },
    {
      "epoch": 2.31,
      "grad_norm": 3.6733217239379883,
      "learning_rate": 1.281638543516874e-05,
      "loss": 0.5634,
      "step": 23100
    },
    {
      "epoch": 2.31,
      "grad_norm": 2.603198289871216,
      "learning_rate": 1.279788336293665e-05,
      "loss": 0.5596,
      "step": 23110
    },
    {
      "epoch": 2.31,
      "grad_norm": 2.9924986362457275,
      "learning_rate": 1.2779381290704558e-05,
      "loss": 0.549,
      "step": 23120
    },
    {
      "epoch": 2.31,
      "grad_norm": 3.488654851913452,
      "learning_rate": 1.2760879218472468e-05,
      "loss": 0.5395,
      "step": 23130
    },
    {
      "epoch": 2.31,
      "grad_norm": 3.5052270889282227,
      "learning_rate": 1.2742377146240381e-05,
      "loss": 0.5657,
      "step": 23140
    },
    {
      "epoch": 2.31,
      "grad_norm": 3.47717022895813,
      "learning_rate": 1.272387507400829e-05,
      "loss": 0.6523,
      "step": 23150
    },
    {
      "epoch": 2.31,
      "grad_norm": 2.887725353240967,
      "learning_rate": 1.2705373001776199e-05,
      "loss": 0.604,
      "step": 23160
    },
    {
      "epoch": 2.31,
      "grad_norm": 3.3983893394470215,
      "learning_rate": 1.2686870929544109e-05,
      "loss": 0.5815,
      "step": 23170
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.7236456871032715,
      "learning_rate": 1.2668368857312019e-05,
      "loss": 0.5932,
      "step": 23180
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.3063578605651855,
      "learning_rate": 1.264986678507993e-05,
      "loss": 0.543,
      "step": 23190
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.373842716217041,
      "learning_rate": 1.263136471284784e-05,
      "loss": 0.5366,
      "step": 23200
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.513066053390503,
      "learning_rate": 1.261286264061575e-05,
      "loss": 0.536,
      "step": 23210
    },
    {
      "epoch": 2.32,
      "grad_norm": 2.555655002593994,
      "learning_rate": 1.259436056838366e-05,
      "loss": 0.5839,
      "step": 23220
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.6596732139587402,
      "learning_rate": 1.257585849615157e-05,
      "loss": 0.557,
      "step": 23230
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.452152729034424,
      "learning_rate": 1.255735642391948e-05,
      "loss": 0.5406,
      "step": 23240
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.0891273021698,
      "learning_rate": 1.253885435168739e-05,
      "loss": 0.5641,
      "step": 23250
    },
    {
      "epoch": 2.32,
      "grad_norm": 2.939838171005249,
      "learning_rate": 1.25203522794553e-05,
      "loss": 0.61,
      "step": 23260
    },
    {
      "epoch": 2.32,
      "grad_norm": 3.115961790084839,
      "learning_rate": 1.2501850207223208e-05,
      "loss": 0.5476,
      "step": 23270
    },
    {
      "epoch": 2.33,
      "grad_norm": 3.5192148685455322,
      "learning_rate": 1.248334813499112e-05,
      "loss": 0.542,
      "step": 23280
    },
    {
      "epoch": 2.33,
      "grad_norm": 3.371436357498169,
      "learning_rate": 1.246484606275903e-05,
      "loss": 0.5906,
      "step": 23290
    },
    {
      "epoch": 2.33,
      "grad_norm": 3.079190969467163,
      "learning_rate": 1.244634399052694e-05,
      "loss": 0.588,
      "step": 23300
    },
    {
      "epoch": 2.33,
      "grad_norm": 3.2543084621429443,
      "learning_rate": 1.242784191829485e-05,
      "loss": 0.4952,
      "step": 23310
    },
    {
      "epoch": 2.33,
      "grad_norm": 3.610985279083252,
      "learning_rate": 1.2409339846062759e-05,
      "loss": 0.5731,
      "step": 23320
    },
    {
      "epoch": 2.33,
      "grad_norm": 3.204221725463867,
      "learning_rate": 1.239083777383067e-05,
      "loss": 0.5402,
      "step": 23330
    },
    {
      "epoch": 2.33,
      "grad_norm": 3.36503529548645,
      "learning_rate": 1.2372335701598579e-05,
      "loss": 0.5984,
      "step": 23340
    },
    {
      "epoch": 2.33,
      "grad_norm": 3.9499635696411133,
      "learning_rate": 1.235383362936649e-05,
      "loss": 0.5395,
      "step": 23350
    },
    {
      "epoch": 2.33,
      "grad_norm": 3.405925989151001,
      "learning_rate": 1.23353315571344e-05,
      "loss": 0.6403,
      "step": 23360
    },
    {
      "epoch": 2.33,
      "grad_norm": 2.894928455352783,
      "learning_rate": 1.231682948490231e-05,
      "loss": 0.5311,
      "step": 23370
    },
    {
      "epoch": 2.34,
      "grad_norm": 3.024656295776367,
      "learning_rate": 1.229832741267022e-05,
      "loss": 0.5452,
      "step": 23380
    },
    {
      "epoch": 2.34,
      "grad_norm": 3.5622177124023438,
      "learning_rate": 1.227982534043813e-05,
      "loss": 0.4967,
      "step": 23390
    },
    {
      "epoch": 2.34,
      "grad_norm": 3.1419341564178467,
      "learning_rate": 1.226132326820604e-05,
      "loss": 0.6099,
      "step": 23400
    },
    {
      "epoch": 2.34,
      "grad_norm": 3.5530667304992676,
      "learning_rate": 1.224282119597395e-05,
      "loss": 0.5501,
      "step": 23410
    },
    {
      "epoch": 2.34,
      "grad_norm": 3.0397214889526367,
      "learning_rate": 1.2224319123741859e-05,
      "loss": 0.5935,
      "step": 23420
    },
    {
      "epoch": 2.34,
      "grad_norm": 4.5598907470703125,
      "learning_rate": 1.220581705150977e-05,
      "loss": 0.5506,
      "step": 23430
    },
    {
      "epoch": 2.34,
      "grad_norm": 3.4422028064727783,
      "learning_rate": 1.218731497927768e-05,
      "loss": 0.5704,
      "step": 23440
    },
    {
      "epoch": 2.34,
      "grad_norm": 2.5864624977111816,
      "learning_rate": 1.216881290704559e-05,
      "loss": 0.5309,
      "step": 23450
    },
    {
      "epoch": 2.34,
      "grad_norm": 3.5142829418182373,
      "learning_rate": 1.21503108348135e-05,
      "loss": 0.6402,
      "step": 23460
    },
    {
      "epoch": 2.34,
      "grad_norm": 3.1254522800445557,
      "learning_rate": 1.213180876258141e-05,
      "loss": 0.5234,
      "step": 23470
    },
    {
      "epoch": 2.35,
      "grad_norm": 3.0382299423217773,
      "learning_rate": 1.211330669034932e-05,
      "loss": 0.592,
      "step": 23480
    },
    {
      "epoch": 2.35,
      "grad_norm": 2.586448907852173,
      "learning_rate": 1.2094804618117229e-05,
      "loss": 0.5072,
      "step": 23490
    },
    {
      "epoch": 2.35,
      "grad_norm": 2.974513053894043,
      "learning_rate": 1.207630254588514e-05,
      "loss": 0.6189,
      "step": 23500
    },
    {
      "epoch": 2.35,
      "grad_norm": 3.1200907230377197,
      "learning_rate": 1.205780047365305e-05,
      "loss": 0.5224,
      "step": 23510
    },
    {
      "epoch": 2.35,
      "grad_norm": 3.247856378555298,
      "learning_rate": 1.203929840142096e-05,
      "loss": 0.5019,
      "step": 23520
    },
    {
      "epoch": 2.35,
      "grad_norm": 3.1960415840148926,
      "learning_rate": 1.202079632918887e-05,
      "loss": 0.516,
      "step": 23530
    },
    {
      "epoch": 2.35,
      "grad_norm": 3.936072826385498,
      "learning_rate": 1.200229425695678e-05,
      "loss": 0.5405,
      "step": 23540
    },
    {
      "epoch": 2.35,
      "grad_norm": 3.61716365814209,
      "learning_rate": 1.1983792184724691e-05,
      "loss": 0.5956,
      "step": 23550
    },
    {
      "epoch": 2.35,
      "grad_norm": 3.3832859992980957,
      "learning_rate": 1.19652901124926e-05,
      "loss": 0.6049,
      "step": 23560
    },
    {
      "epoch": 2.35,
      "grad_norm": 3.562931537628174,
      "learning_rate": 1.1946788040260509e-05,
      "loss": 0.5682,
      "step": 23570
    },
    {
      "epoch": 2.36,
      "grad_norm": 3.500067949295044,
      "learning_rate": 1.192828596802842e-05,
      "loss": 0.6084,
      "step": 23580
    },
    {
      "epoch": 2.36,
      "grad_norm": 3.1120660305023193,
      "learning_rate": 1.190978389579633e-05,
      "loss": 0.5854,
      "step": 23590
    },
    {
      "epoch": 2.36,
      "grad_norm": 2.992297887802124,
      "learning_rate": 1.189128182356424e-05,
      "loss": 0.5535,
      "step": 23600
    },
    {
      "epoch": 2.36,
      "grad_norm": 3.230386257171631,
      "learning_rate": 1.187277975133215e-05,
      "loss": 0.5655,
      "step": 23610
    },
    {
      "epoch": 2.36,
      "grad_norm": 3.392548084259033,
      "learning_rate": 1.185427767910006e-05,
      "loss": 0.5657,
      "step": 23620
    },
    {
      "epoch": 2.36,
      "grad_norm": 3.1854090690612793,
      "learning_rate": 1.183577560686797e-05,
      "loss": 0.5825,
      "step": 23630
    },
    {
      "epoch": 2.36,
      "grad_norm": 3.0409059524536133,
      "learning_rate": 1.1817273534635879e-05,
      "loss": 0.5214,
      "step": 23640
    },
    {
      "epoch": 2.36,
      "grad_norm": 2.5506138801574707,
      "learning_rate": 1.179877146240379e-05,
      "loss": 0.5379,
      "step": 23650
    },
    {
      "epoch": 2.36,
      "grad_norm": 2.772254705429077,
      "learning_rate": 1.17802693901717e-05,
      "loss": 0.5476,
      "step": 23660
    },
    {
      "epoch": 2.36,
      "grad_norm": 3.243759870529175,
      "learning_rate": 1.176176731793961e-05,
      "loss": 0.5424,
      "step": 23670
    },
    {
      "epoch": 2.37,
      "grad_norm": 3.520259141921997,
      "learning_rate": 1.174326524570752e-05,
      "loss": 0.5508,
      "step": 23680
    },
    {
      "epoch": 2.37,
      "grad_norm": 2.469557285308838,
      "learning_rate": 1.172476317347543e-05,
      "loss": 0.5302,
      "step": 23690
    },
    {
      "epoch": 2.37,
      "grad_norm": 2.4618053436279297,
      "learning_rate": 1.1706261101243341e-05,
      "loss": 0.4632,
      "step": 23700
    },
    {
      "epoch": 2.37,
      "grad_norm": 2.821223020553589,
      "learning_rate": 1.1687759029011249e-05,
      "loss": 0.5618,
      "step": 23710
    },
    {
      "epoch": 2.37,
      "grad_norm": 3.8677239418029785,
      "learning_rate": 1.1669256956779159e-05,
      "loss": 0.5698,
      "step": 23720
    },
    {
      "epoch": 2.37,
      "grad_norm": 3.2417211532592773,
      "learning_rate": 1.165075488454707e-05,
      "loss": 0.5393,
      "step": 23730
    },
    {
      "epoch": 2.37,
      "grad_norm": 3.945681095123291,
      "learning_rate": 1.163225281231498e-05,
      "loss": 0.5923,
      "step": 23740
    },
    {
      "epoch": 2.37,
      "grad_norm": 2.9967074394226074,
      "learning_rate": 1.161375074008289e-05,
      "loss": 0.5594,
      "step": 23750
    },
    {
      "epoch": 2.37,
      "grad_norm": 2.4127211570739746,
      "learning_rate": 1.15952486678508e-05,
      "loss": 0.5917,
      "step": 23760
    },
    {
      "epoch": 2.37,
      "grad_norm": 4.151562690734863,
      "learning_rate": 1.157674659561871e-05,
      "loss": 0.5538,
      "step": 23770
    },
    {
      "epoch": 2.38,
      "grad_norm": 4.2110915184021,
      "learning_rate": 1.1558244523386621e-05,
      "loss": 0.6423,
      "step": 23780
    },
    {
      "epoch": 2.38,
      "grad_norm": 3.596792459487915,
      "learning_rate": 1.1539742451154529e-05,
      "loss": 0.6272,
      "step": 23790
    },
    {
      "epoch": 2.38,
      "grad_norm": 2.9213902950286865,
      "learning_rate": 1.152124037892244e-05,
      "loss": 0.605,
      "step": 23800
    },
    {
      "epoch": 2.38,
      "grad_norm": 3.312856435775757,
      "learning_rate": 1.150273830669035e-05,
      "loss": 0.5593,
      "step": 23810
    },
    {
      "epoch": 2.38,
      "grad_norm": 3.1855597496032715,
      "learning_rate": 1.148423623445826e-05,
      "loss": 0.573,
      "step": 23820
    },
    {
      "epoch": 2.38,
      "grad_norm": 2.676041841506958,
      "learning_rate": 1.146573416222617e-05,
      "loss": 0.5841,
      "step": 23830
    },
    {
      "epoch": 2.38,
      "grad_norm": 3.483309507369995,
      "learning_rate": 1.144723208999408e-05,
      "loss": 0.5654,
      "step": 23840
    },
    {
      "epoch": 2.38,
      "grad_norm": 3.3855276107788086,
      "learning_rate": 1.1428730017761991e-05,
      "loss": 0.559,
      "step": 23850
    },
    {
      "epoch": 2.38,
      "grad_norm": 3.0066230297088623,
      "learning_rate": 1.14102279455299e-05,
      "loss": 0.5058,
      "step": 23860
    },
    {
      "epoch": 2.38,
      "grad_norm": 3.4634158611297607,
      "learning_rate": 1.1391725873297809e-05,
      "loss": 0.6163,
      "step": 23870
    },
    {
      "epoch": 2.39,
      "grad_norm": 2.5996620655059814,
      "learning_rate": 1.137322380106572e-05,
      "loss": 0.5473,
      "step": 23880
    },
    {
      "epoch": 2.39,
      "grad_norm": 3.9300994873046875,
      "learning_rate": 1.135472172883363e-05,
      "loss": 0.6648,
      "step": 23890
    },
    {
      "epoch": 2.39,
      "grad_norm": 2.9560983180999756,
      "learning_rate": 1.133621965660154e-05,
      "loss": 0.5464,
      "step": 23900
    },
    {
      "epoch": 2.39,
      "grad_norm": 3.8230342864990234,
      "learning_rate": 1.131771758436945e-05,
      "loss": 0.6027,
      "step": 23910
    },
    {
      "epoch": 2.39,
      "grad_norm": 3.0006518363952637,
      "learning_rate": 1.129921551213736e-05,
      "loss": 0.6255,
      "step": 23920
    },
    {
      "epoch": 2.39,
      "grad_norm": 3.3944900035858154,
      "learning_rate": 1.128071343990527e-05,
      "loss": 0.5823,
      "step": 23930
    },
    {
      "epoch": 2.39,
      "grad_norm": 2.78804874420166,
      "learning_rate": 1.126221136767318e-05,
      "loss": 0.5321,
      "step": 23940
    },
    {
      "epoch": 2.39,
      "grad_norm": 3.0228281021118164,
      "learning_rate": 1.124370929544109e-05,
      "loss": 0.6233,
      "step": 23950
    },
    {
      "epoch": 2.39,
      "grad_norm": 2.4347097873687744,
      "learning_rate": 1.1225207223209e-05,
      "loss": 0.5964,
      "step": 23960
    },
    {
      "epoch": 2.39,
      "grad_norm": 3.660358190536499,
      "learning_rate": 1.120670515097691e-05,
      "loss": 0.5678,
      "step": 23970
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.3705530166625977,
      "learning_rate": 1.118820307874482e-05,
      "loss": 0.5831,
      "step": 23980
    },
    {
      "epoch": 2.4,
      "grad_norm": 4.024319171905518,
      "learning_rate": 1.116970100651273e-05,
      "loss": 0.5969,
      "step": 23990
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.665008544921875,
      "learning_rate": 1.1151198934280641e-05,
      "loss": 0.5192,
      "step": 24000
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.161098003387451,
      "learning_rate": 1.113269686204855e-05,
      "loss": 0.6124,
      "step": 24010
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.083664655685425,
      "learning_rate": 1.111419478981646e-05,
      "loss": 0.5905,
      "step": 24020
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.379136085510254,
      "learning_rate": 1.109569271758437e-05,
      "loss": 0.5577,
      "step": 24030
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.9874155521392822,
      "learning_rate": 1.107719064535228e-05,
      "loss": 0.6387,
      "step": 24040
    },
    {
      "epoch": 2.4,
      "grad_norm": 2.8583736419677734,
      "learning_rate": 1.105868857312019e-05,
      "loss": 0.4885,
      "step": 24050
    },
    {
      "epoch": 2.4,
      "grad_norm": 2.7948696613311768,
      "learning_rate": 1.10401865008881e-05,
      "loss": 0.6662,
      "step": 24060
    },
    {
      "epoch": 2.4,
      "grad_norm": 3.802201509475708,
      "learning_rate": 1.102168442865601e-05,
      "loss": 0.5811,
      "step": 24070
    },
    {
      "epoch": 2.41,
      "grad_norm": 3.216026782989502,
      "learning_rate": 1.100318235642392e-05,
      "loss": 0.5562,
      "step": 24080
    },
    {
      "epoch": 2.41,
      "grad_norm": 3.2811050415039062,
      "learning_rate": 1.098468028419183e-05,
      "loss": 0.535,
      "step": 24090
    },
    {
      "epoch": 2.41,
      "grad_norm": 3.870727777481079,
      "learning_rate": 1.096617821195974e-05,
      "loss": 0.5035,
      "step": 24100
    },
    {
      "epoch": 2.41,
      "grad_norm": 3.104823112487793,
      "learning_rate": 1.094767613972765e-05,
      "loss": 0.5418,
      "step": 24110
    },
    {
      "epoch": 2.41,
      "grad_norm": 2.4370927810668945,
      "learning_rate": 1.0929174067495559e-05,
      "loss": 0.512,
      "step": 24120
    },
    {
      "epoch": 2.41,
      "grad_norm": 4.180038928985596,
      "learning_rate": 1.091067199526347e-05,
      "loss": 0.5827,
      "step": 24130
    },
    {
      "epoch": 2.41,
      "grad_norm": 2.9483118057250977,
      "learning_rate": 1.089216992303138e-05,
      "loss": 0.5421,
      "step": 24140
    },
    {
      "epoch": 2.41,
      "grad_norm": 3.941795825958252,
      "learning_rate": 1.0873667850799291e-05,
      "loss": 0.6546,
      "step": 24150
    },
    {
      "epoch": 2.41,
      "grad_norm": 3.2821884155273438,
      "learning_rate": 1.08551657785672e-05,
      "loss": 0.5133,
      "step": 24160
    },
    {
      "epoch": 2.41,
      "grad_norm": 2.6419219970703125,
      "learning_rate": 1.083666370633511e-05,
      "loss": 0.549,
      "step": 24170
    },
    {
      "epoch": 2.42,
      "grad_norm": 4.354560375213623,
      "learning_rate": 1.081816163410302e-05,
      "loss": 0.5559,
      "step": 24180
    },
    {
      "epoch": 2.42,
      "grad_norm": 3.220445156097412,
      "learning_rate": 1.079965956187093e-05,
      "loss": 0.5575,
      "step": 24190
    },
    {
      "epoch": 2.42,
      "grad_norm": 3.2193405628204346,
      "learning_rate": 1.078115748963884e-05,
      "loss": 0.5824,
      "step": 24200
    },
    {
      "epoch": 2.42,
      "grad_norm": 3.53043532371521,
      "learning_rate": 1.076265541740675e-05,
      "loss": 0.5522,
      "step": 24210
    },
    {
      "epoch": 2.42,
      "grad_norm": 3.2469396591186523,
      "learning_rate": 1.074415334517466e-05,
      "loss": 0.5073,
      "step": 24220
    },
    {
      "epoch": 2.42,
      "grad_norm": 3.674611806869507,
      "learning_rate": 1.072565127294257e-05,
      "loss": 0.6474,
      "step": 24230
    },
    {
      "epoch": 2.42,
      "grad_norm": 3.4825499057769775,
      "learning_rate": 1.070714920071048e-05,
      "loss": 0.586,
      "step": 24240
    },
    {
      "epoch": 2.42,
      "grad_norm": 3.0323469638824463,
      "learning_rate": 1.0688647128478391e-05,
      "loss": 0.5347,
      "step": 24250
    },
    {
      "epoch": 2.42,
      "grad_norm": 3.232475519180298,
      "learning_rate": 1.06701450562463e-05,
      "loss": 0.5595,
      "step": 24260
    },
    {
      "epoch": 2.42,
      "grad_norm": 3.3085689544677734,
      "learning_rate": 1.0651642984014209e-05,
      "loss": 0.5612,
      "step": 24270
    },
    {
      "epoch": 2.43,
      "grad_norm": 2.726720094680786,
      "learning_rate": 1.063314091178212e-05,
      "loss": 0.6132,
      "step": 24280
    },
    {
      "epoch": 2.43,
      "grad_norm": 5.687676429748535,
      "learning_rate": 1.061463883955003e-05,
      "loss": 0.5567,
      "step": 24290
    },
    {
      "epoch": 2.43,
      "grad_norm": 2.7352378368377686,
      "learning_rate": 1.059613676731794e-05,
      "loss": 0.612,
      "step": 24300
    },
    {
      "epoch": 2.43,
      "grad_norm": 2.829709053039551,
      "learning_rate": 1.057763469508585e-05,
      "loss": 0.5659,
      "step": 24310
    },
    {
      "epoch": 2.43,
      "grad_norm": 2.9283571243286133,
      "learning_rate": 1.055913262285376e-05,
      "loss": 0.5668,
      "step": 24320
    },
    {
      "epoch": 2.43,
      "grad_norm": 3.2305397987365723,
      "learning_rate": 1.0540630550621671e-05,
      "loss": 0.5629,
      "step": 24330
    },
    {
      "epoch": 2.43,
      "grad_norm": 10.468515396118164,
      "learning_rate": 1.052212847838958e-05,
      "loss": 0.5671,
      "step": 24340
    },
    {
      "epoch": 2.43,
      "grad_norm": 2.890103340148926,
      "learning_rate": 1.050362640615749e-05,
      "loss": 0.5333,
      "step": 24350
    },
    {
      "epoch": 2.43,
      "grad_norm": 2.931273937225342,
      "learning_rate": 1.04851243339254e-05,
      "loss": 0.552,
      "step": 24360
    },
    {
      "epoch": 2.43,
      "grad_norm": 3.478851795196533,
      "learning_rate": 1.046662226169331e-05,
      "loss": 0.6509,
      "step": 24370
    },
    {
      "epoch": 2.44,
      "grad_norm": 3.055852174758911,
      "learning_rate": 1.044812018946122e-05,
      "loss": 0.6118,
      "step": 24380
    },
    {
      "epoch": 2.44,
      "grad_norm": 3.003966808319092,
      "learning_rate": 1.042961811722913e-05,
      "loss": 0.5736,
      "step": 24390
    },
    {
      "epoch": 2.44,
      "grad_norm": 3.122061014175415,
      "learning_rate": 1.0411116044997041e-05,
      "loss": 0.5583,
      "step": 24400
    },
    {
      "epoch": 2.44,
      "grad_norm": 3.9861385822296143,
      "learning_rate": 1.0392613972764951e-05,
      "loss": 0.6423,
      "step": 24410
    },
    {
      "epoch": 2.44,
      "grad_norm": 2.9883432388305664,
      "learning_rate": 1.0374111900532859e-05,
      "loss": 0.614,
      "step": 24420
    },
    {
      "epoch": 2.44,
      "grad_norm": 2.8311607837677,
      "learning_rate": 1.035560982830077e-05,
      "loss": 0.5872,
      "step": 24430
    },
    {
      "epoch": 2.44,
      "grad_norm": 2.5589354038238525,
      "learning_rate": 1.033710775606868e-05,
      "loss": 0.5847,
      "step": 24440
    },
    {
      "epoch": 2.44,
      "grad_norm": 3.2478222846984863,
      "learning_rate": 1.031860568383659e-05,
      "loss": 0.5376,
      "step": 24450
    },
    {
      "epoch": 2.44,
      "grad_norm": 3.6319937705993652,
      "learning_rate": 1.03001036116045e-05,
      "loss": 0.586,
      "step": 24460
    },
    {
      "epoch": 2.44,
      "grad_norm": 2.3411569595336914,
      "learning_rate": 1.028160153937241e-05,
      "loss": 0.5523,
      "step": 24470
    },
    {
      "epoch": 2.45,
      "grad_norm": 3.553896903991699,
      "learning_rate": 1.0263099467140321e-05,
      "loss": 0.5635,
      "step": 24480
    },
    {
      "epoch": 2.45,
      "grad_norm": 2.669583797454834,
      "learning_rate": 1.024459739490823e-05,
      "loss": 0.5147,
      "step": 24490
    },
    {
      "epoch": 2.45,
      "grad_norm": 2.728782892227173,
      "learning_rate": 1.022609532267614e-05,
      "loss": 0.4952,
      "step": 24500
    },
    {
      "epoch": 2.45,
      "grad_norm": 3.582991123199463,
      "learning_rate": 1.020759325044405e-05,
      "loss": 0.5937,
      "step": 24510
    },
    {
      "epoch": 2.45,
      "grad_norm": 2.707197904586792,
      "learning_rate": 1.018909117821196e-05,
      "loss": 0.561,
      "step": 24520
    },
    {
      "epoch": 2.45,
      "grad_norm": 3.7716267108917236,
      "learning_rate": 1.017058910597987e-05,
      "loss": 0.5341,
      "step": 24530
    },
    {
      "epoch": 2.45,
      "grad_norm": 3.744257688522339,
      "learning_rate": 1.015208703374778e-05,
      "loss": 0.6003,
      "step": 24540
    },
    {
      "epoch": 2.45,
      "grad_norm": 3.4768216609954834,
      "learning_rate": 1.0133584961515691e-05,
      "loss": 0.5187,
      "step": 24550
    },
    {
      "epoch": 2.45,
      "grad_norm": 3.3467061519622803,
      "learning_rate": 1.0115082889283601e-05,
      "loss": 0.5406,
      "step": 24560
    },
    {
      "epoch": 2.45,
      "grad_norm": 3.1804091930389404,
      "learning_rate": 1.0096580817051509e-05,
      "loss": 0.5427,
      "step": 24570
    },
    {
      "epoch": 2.46,
      "grad_norm": 3.0154659748077393,
      "learning_rate": 1.007807874481942e-05,
      "loss": 0.6295,
      "step": 24580
    },
    {
      "epoch": 2.46,
      "grad_norm": 3.0957794189453125,
      "learning_rate": 1.005957667258733e-05,
      "loss": 0.5399,
      "step": 24590
    },
    {
      "epoch": 2.46,
      "grad_norm": 3.4250173568725586,
      "learning_rate": 1.004107460035524e-05,
      "loss": 0.5582,
      "step": 24600
    },
    {
      "epoch": 2.46,
      "grad_norm": 3.0043838024139404,
      "learning_rate": 1.002257252812315e-05,
      "loss": 0.6073,
      "step": 24610
    },
    {
      "epoch": 2.46,
      "grad_norm": 2.697725534439087,
      "learning_rate": 1.000407045589106e-05,
      "loss": 0.5473,
      "step": 24620
    },
    {
      "epoch": 2.46,
      "grad_norm": 2.630540132522583,
      "learning_rate": 9.985568383658971e-06,
      "loss": 0.5208,
      "step": 24630
    },
    {
      "epoch": 2.46,
      "grad_norm": 2.6161282062530518,
      "learning_rate": 9.96706631142688e-06,
      "loss": 0.5375,
      "step": 24640
    },
    {
      "epoch": 2.46,
      "grad_norm": 2.3835248947143555,
      "learning_rate": 9.94856423919479e-06,
      "loss": 0.5824,
      "step": 24650
    },
    {
      "epoch": 2.46,
      "grad_norm": 3.8210608959198,
      "learning_rate": 9.9300621669627e-06,
      "loss": 0.62,
      "step": 24660
    },
    {
      "epoch": 2.46,
      "grad_norm": 4.8844380378723145,
      "learning_rate": 9.91156009473061e-06,
      "loss": 0.5541,
      "step": 24670
    },
    {
      "epoch": 2.47,
      "grad_norm": 2.5374062061309814,
      "learning_rate": 9.89305802249852e-06,
      "loss": 0.606,
      "step": 24680
    },
    {
      "epoch": 2.47,
      "grad_norm": 3.132340669631958,
      "learning_rate": 9.87455595026643e-06,
      "loss": 0.6165,
      "step": 24690
    },
    {
      "epoch": 2.47,
      "grad_norm": 2.836580991744995,
      "learning_rate": 9.856053878034341e-06,
      "loss": 0.5501,
      "step": 24700
    },
    {
      "epoch": 2.47,
      "grad_norm": 2.975069046020508,
      "learning_rate": 9.83755180580225e-06,
      "loss": 0.5209,
      "step": 24710
    },
    {
      "epoch": 2.47,
      "grad_norm": 3.7744696140289307,
      "learning_rate": 9.81904973357016e-06,
      "loss": 0.561,
      "step": 24720
    },
    {
      "epoch": 2.47,
      "grad_norm": 3.1335318088531494,
      "learning_rate": 9.80054766133807e-06,
      "loss": 0.5443,
      "step": 24730
    },
    {
      "epoch": 2.47,
      "grad_norm": 2.9157259464263916,
      "learning_rate": 9.78204558910598e-06,
      "loss": 0.57,
      "step": 24740
    },
    {
      "epoch": 2.47,
      "grad_norm": 2.9462318420410156,
      "learning_rate": 9.76354351687389e-06,
      "loss": 0.4704,
      "step": 24750
    },
    {
      "epoch": 2.47,
      "grad_norm": 2.9832234382629395,
      "learning_rate": 9.7450414446418e-06,
      "loss": 0.5467,
      "step": 24760
    },
    {
      "epoch": 2.47,
      "grad_norm": 4.041994094848633,
      "learning_rate": 9.72653937240971e-06,
      "loss": 0.5606,
      "step": 24770
    },
    {
      "epoch": 2.48,
      "grad_norm": 3.56347918510437,
      "learning_rate": 9.708037300177621e-06,
      "loss": 0.5995,
      "step": 24780
    },
    {
      "epoch": 2.48,
      "grad_norm": 2.9838387966156006,
      "learning_rate": 9.68953522794553e-06,
      "loss": 0.5314,
      "step": 24790
    },
    {
      "epoch": 2.48,
      "grad_norm": 3.701677083969116,
      "learning_rate": 9.671033155713441e-06,
      "loss": 0.606,
      "step": 24800
    },
    {
      "epoch": 2.48,
      "grad_norm": 3.6666693687438965,
      "learning_rate": 9.65253108348135e-06,
      "loss": 0.6413,
      "step": 24810
    },
    {
      "epoch": 2.48,
      "grad_norm": 4.192237854003906,
      "learning_rate": 9.63402901124926e-06,
      "loss": 0.5821,
      "step": 24820
    },
    {
      "epoch": 2.48,
      "grad_norm": 2.6987717151641846,
      "learning_rate": 9.61552693901717e-06,
      "loss": 0.6102,
      "step": 24830
    },
    {
      "epoch": 2.48,
      "grad_norm": 4.222761631011963,
      "learning_rate": 9.59702486678508e-06,
      "loss": 0.5649,
      "step": 24840
    },
    {
      "epoch": 2.48,
      "grad_norm": 3.2078781127929688,
      "learning_rate": 9.578522794552992e-06,
      "loss": 0.5757,
      "step": 24850
    },
    {
      "epoch": 2.48,
      "grad_norm": 3.490685224533081,
      "learning_rate": 9.5600207223209e-06,
      "loss": 0.5904,
      "step": 24860
    },
    {
      "epoch": 2.48,
      "grad_norm": 3.2053797245025635,
      "learning_rate": 9.54151865008881e-06,
      "loss": 0.5817,
      "step": 24870
    },
    {
      "epoch": 2.49,
      "grad_norm": 3.8922390937805176,
      "learning_rate": 9.523016577856721e-06,
      "loss": 0.6178,
      "step": 24880
    },
    {
      "epoch": 2.49,
      "grad_norm": 3.147918701171875,
      "learning_rate": 9.50451450562463e-06,
      "loss": 0.4514,
      "step": 24890
    },
    {
      "epoch": 2.49,
      "grad_norm": 3.056732177734375,
      "learning_rate": 9.48601243339254e-06,
      "loss": 0.5353,
      "step": 24900
    },
    {
      "epoch": 2.49,
      "grad_norm": 3.3088135719299316,
      "learning_rate": 9.46751036116045e-06,
      "loss": 0.5368,
      "step": 24910
    },
    {
      "epoch": 2.49,
      "grad_norm": 4.106780052185059,
      "learning_rate": 9.44900828892836e-06,
      "loss": 0.5623,
      "step": 24920
    },
    {
      "epoch": 2.49,
      "grad_norm": 3.061652660369873,
      "learning_rate": 9.430506216696272e-06,
      "loss": 0.5589,
      "step": 24930
    },
    {
      "epoch": 2.49,
      "grad_norm": 2.6012165546417236,
      "learning_rate": 9.41200414446418e-06,
      "loss": 0.5527,
      "step": 24940
    },
    {
      "epoch": 2.49,
      "grad_norm": 3.2912662029266357,
      "learning_rate": 9.393502072232091e-06,
      "loss": 0.6623,
      "step": 24950
    },
    {
      "epoch": 2.49,
      "grad_norm": 3.0020194053649902,
      "learning_rate": 9.375000000000001e-06,
      "loss": 0.5536,
      "step": 24960
    },
    {
      "epoch": 2.49,
      "grad_norm": 3.32863450050354,
      "learning_rate": 9.35649792776791e-06,
      "loss": 0.6214,
      "step": 24970
    },
    {
      "epoch": 2.5,
      "grad_norm": 2.293135643005371,
      "learning_rate": 9.33799585553582e-06,
      "loss": 0.5154,
      "step": 24980
    },
    {
      "epoch": 2.5,
      "grad_norm": 4.52816104888916,
      "learning_rate": 9.31949378330373e-06,
      "loss": 0.5397,
      "step": 24990
    },
    {
      "epoch": 2.5,
      "grad_norm": 3.3226304054260254,
      "learning_rate": 9.300991711071642e-06,
      "loss": 0.5293,
      "step": 25000
    },
    {
      "epoch": 2.5,
      "grad_norm": 3.3344058990478516,
      "learning_rate": 9.28248963883955e-06,
      "loss": 0.6004,
      "step": 25010
    },
    {
      "epoch": 2.5,
      "grad_norm": 4.360971927642822,
      "learning_rate": 9.26398756660746e-06,
      "loss": 0.5317,
      "step": 25020
    },
    {
      "epoch": 2.5,
      "grad_norm": 3.256953716278076,
      "learning_rate": 9.245485494375371e-06,
      "loss": 0.5528,
      "step": 25030
    },
    {
      "epoch": 2.5,
      "grad_norm": 3.612104892730713,
      "learning_rate": 9.22698342214328e-06,
      "loss": 0.57,
      "step": 25040
    },
    {
      "epoch": 2.5,
      "grad_norm": 2.8854849338531494,
      "learning_rate": 9.20848134991119e-06,
      "loss": 0.6224,
      "step": 25050
    },
    {
      "epoch": 2.5,
      "grad_norm": 3.1677563190460205,
      "learning_rate": 9.1899792776791e-06,
      "loss": 0.5726,
      "step": 25060
    },
    {
      "epoch": 2.5,
      "grad_norm": 3.8293044567108154,
      "learning_rate": 9.17147720544701e-06,
      "loss": 0.5113,
      "step": 25070
    },
    {
      "epoch": 2.51,
      "grad_norm": 2.789177894592285,
      "learning_rate": 9.15297513321492e-06,
      "loss": 0.5345,
      "step": 25080
    },
    {
      "epoch": 2.51,
      "grad_norm": 3.8181345462799072,
      "learning_rate": 9.13447306098283e-06,
      "loss": 0.5663,
      "step": 25090
    },
    {
      "epoch": 2.51,
      "grad_norm": 2.9476327896118164,
      "learning_rate": 9.115970988750741e-06,
      "loss": 0.5801,
      "step": 25100
    },
    {
      "epoch": 2.51,
      "grad_norm": 3.1383121013641357,
      "learning_rate": 9.097468916518651e-06,
      "loss": 0.5848,
      "step": 25110
    },
    {
      "epoch": 2.51,
      "grad_norm": 3.745450258255005,
      "learning_rate": 9.07896684428656e-06,
      "loss": 0.5784,
      "step": 25120
    },
    {
      "epoch": 2.51,
      "grad_norm": 3.0007033348083496,
      "learning_rate": 9.06046477205447e-06,
      "loss": 0.5775,
      "step": 25130
    },
    {
      "epoch": 2.51,
      "grad_norm": 4.461668968200684,
      "learning_rate": 9.04196269982238e-06,
      "loss": 0.517,
      "step": 25140
    },
    {
      "epoch": 2.51,
      "grad_norm": 2.994274616241455,
      "learning_rate": 9.023460627590292e-06,
      "loss": 0.5242,
      "step": 25150
    },
    {
      "epoch": 2.51,
      "grad_norm": 3.3361027240753174,
      "learning_rate": 9.0049585553582e-06,
      "loss": 0.5877,
      "step": 25160
    },
    {
      "epoch": 2.51,
      "grad_norm": 2.5413901805877686,
      "learning_rate": 8.98645648312611e-06,
      "loss": 0.5253,
      "step": 25170
    },
    {
      "epoch": 2.52,
      "grad_norm": 2.504910945892334,
      "learning_rate": 8.967954410894021e-06,
      "loss": 0.5888,
      "step": 25180
    },
    {
      "epoch": 2.52,
      "grad_norm": 2.9765844345092773,
      "learning_rate": 8.949452338661931e-06,
      "loss": 0.6093,
      "step": 25190
    },
    {
      "epoch": 2.52,
      "grad_norm": 3.3030166625976562,
      "learning_rate": 8.93095026642984e-06,
      "loss": 0.583,
      "step": 25200
    },
    {
      "epoch": 2.52,
      "grad_norm": 3.5748531818389893,
      "learning_rate": 8.91244819419775e-06,
      "loss": 0.4913,
      "step": 25210
    },
    {
      "epoch": 2.52,
      "grad_norm": 2.9019627571105957,
      "learning_rate": 8.89394612196566e-06,
      "loss": 0.5066,
      "step": 25220
    },
    {
      "epoch": 2.52,
      "grad_norm": 2.259467601776123,
      "learning_rate": 8.87544404973357e-06,
      "loss": 0.5301,
      "step": 25230
    },
    {
      "epoch": 2.52,
      "grad_norm": 3.159714937210083,
      "learning_rate": 8.85694197750148e-06,
      "loss": 0.5761,
      "step": 25240
    },
    {
      "epoch": 2.52,
      "grad_norm": 3.535992383956909,
      "learning_rate": 8.838439905269391e-06,
      "loss": 0.6261,
      "step": 25250
    },
    {
      "epoch": 2.52,
      "grad_norm": 3.6953518390655518,
      "learning_rate": 8.819937833037301e-06,
      "loss": 0.5922,
      "step": 25260
    },
    {
      "epoch": 2.52,
      "grad_norm": 4.060038089752197,
      "learning_rate": 8.80143576080521e-06,
      "loss": 0.5649,
      "step": 25270
    },
    {
      "epoch": 2.53,
      "grad_norm": 3.0051279067993164,
      "learning_rate": 8.78293368857312e-06,
      "loss": 0.593,
      "step": 25280
    },
    {
      "epoch": 2.53,
      "grad_norm": 3.190420627593994,
      "learning_rate": 8.76443161634103e-06,
      "loss": 0.6173,
      "step": 25290
    },
    {
      "epoch": 2.53,
      "grad_norm": 3.383397102355957,
      "learning_rate": 8.745929544108942e-06,
      "loss": 0.4956,
      "step": 25300
    },
    {
      "epoch": 2.53,
      "grad_norm": 3.0134222507476807,
      "learning_rate": 8.72742747187685e-06,
      "loss": 0.5524,
      "step": 25310
    },
    {
      "epoch": 2.53,
      "grad_norm": 3.87131667137146,
      "learning_rate": 8.70892539964476e-06,
      "loss": 0.5703,
      "step": 25320
    },
    {
      "epoch": 2.53,
      "grad_norm": 2.815256357192993,
      "learning_rate": 8.690423327412671e-06,
      "loss": 0.5533,
      "step": 25330
    },
    {
      "epoch": 2.53,
      "grad_norm": 3.3833670616149902,
      "learning_rate": 8.671921255180581e-06,
      "loss": 0.5959,
      "step": 25340
    },
    {
      "epoch": 2.53,
      "grad_norm": 3.52891206741333,
      "learning_rate": 8.653419182948491e-06,
      "loss": 0.5656,
      "step": 25350
    },
    {
      "epoch": 2.53,
      "grad_norm": 3.885620355606079,
      "learning_rate": 8.6349171107164e-06,
      "loss": 0.4968,
      "step": 25360
    },
    {
      "epoch": 2.53,
      "grad_norm": 4.1946702003479,
      "learning_rate": 8.61641503848431e-06,
      "loss": 0.5365,
      "step": 25370
    },
    {
      "epoch": 2.54,
      "grad_norm": 3.7545864582061768,
      "learning_rate": 8.59791296625222e-06,
      "loss": 0.5007,
      "step": 25380
    },
    {
      "epoch": 2.54,
      "grad_norm": 3.6530182361602783,
      "learning_rate": 8.57941089402013e-06,
      "loss": 0.5241,
      "step": 25390
    },
    {
      "epoch": 2.54,
      "grad_norm": 3.1736557483673096,
      "learning_rate": 8.560908821788042e-06,
      "loss": 0.6026,
      "step": 25400
    },
    {
      "epoch": 2.54,
      "grad_norm": 3.489518165588379,
      "learning_rate": 8.542406749555951e-06,
      "loss": 0.572,
      "step": 25410
    },
    {
      "epoch": 2.54,
      "grad_norm": 2.8517699241638184,
      "learning_rate": 8.52390467732386e-06,
      "loss": 0.5943,
      "step": 25420
    },
    {
      "epoch": 2.54,
      "grad_norm": 3.307178258895874,
      "learning_rate": 8.505402605091771e-06,
      "loss": 0.5678,
      "step": 25430
    },
    {
      "epoch": 2.54,
      "grad_norm": 2.657589912414551,
      "learning_rate": 8.48690053285968e-06,
      "loss": 0.5277,
      "step": 25440
    },
    {
      "epoch": 2.54,
      "grad_norm": 3.4835028648376465,
      "learning_rate": 8.46839846062759e-06,
      "loss": 0.5669,
      "step": 25450
    },
    {
      "epoch": 2.54,
      "grad_norm": 3.3368163108825684,
      "learning_rate": 8.4498963883955e-06,
      "loss": 0.5559,
      "step": 25460
    },
    {
      "epoch": 2.54,
      "grad_norm": 3.1765081882476807,
      "learning_rate": 8.43139431616341e-06,
      "loss": 0.5597,
      "step": 25470
    },
    {
      "epoch": 2.55,
      "grad_norm": 3.674867630004883,
      "learning_rate": 8.412892243931321e-06,
      "loss": 0.4997,
      "step": 25480
    },
    {
      "epoch": 2.55,
      "grad_norm": 3.226372241973877,
      "learning_rate": 8.39439017169923e-06,
      "loss": 0.6197,
      "step": 25490
    },
    {
      "epoch": 2.55,
      "grad_norm": 3.057518243789673,
      "learning_rate": 8.375888099467141e-06,
      "loss": 0.5663,
      "step": 25500
    },
    {
      "epoch": 2.55,
      "grad_norm": 2.9695799350738525,
      "learning_rate": 8.35738602723505e-06,
      "loss": 0.5382,
      "step": 25510
    },
    {
      "epoch": 2.55,
      "grad_norm": 3.7693030834198,
      "learning_rate": 8.33888395500296e-06,
      "loss": 0.5299,
      "step": 25520
    },
    {
      "epoch": 2.55,
      "grad_norm": 2.2227981090545654,
      "learning_rate": 8.32038188277087e-06,
      "loss": 0.5098,
      "step": 25530
    },
    {
      "epoch": 2.55,
      "grad_norm": 3.2197036743164062,
      "learning_rate": 8.30187981053878e-06,
      "loss": 0.5293,
      "step": 25540
    },
    {
      "epoch": 2.55,
      "grad_norm": 3.3581385612487793,
      "learning_rate": 8.283377738306692e-06,
      "loss": 0.5429,
      "step": 25550
    },
    {
      "epoch": 2.55,
      "grad_norm": 2.9049882888793945,
      "learning_rate": 8.264875666074601e-06,
      "loss": 0.6445,
      "step": 25560
    },
    {
      "epoch": 2.55,
      "grad_norm": 3.3218815326690674,
      "learning_rate": 8.24637359384251e-06,
      "loss": 0.5125,
      "step": 25570
    },
    {
      "epoch": 2.56,
      "grad_norm": 3.9538540840148926,
      "learning_rate": 8.227871521610421e-06,
      "loss": 0.47,
      "step": 25580
    },
    {
      "epoch": 2.56,
      "grad_norm": 2.812405586242676,
      "learning_rate": 8.20936944937833e-06,
      "loss": 0.5133,
      "step": 25590
    },
    {
      "epoch": 2.56,
      "grad_norm": 2.494854211807251,
      "learning_rate": 8.19086737714624e-06,
      "loss": 0.5523,
      "step": 25600
    },
    {
      "epoch": 2.56,
      "grad_norm": 3.413912773132324,
      "learning_rate": 8.17236530491415e-06,
      "loss": 0.5546,
      "step": 25610
    },
    {
      "epoch": 2.56,
      "grad_norm": 3.511695623397827,
      "learning_rate": 8.15386323268206e-06,
      "loss": 0.5467,
      "step": 25620
    },
    {
      "epoch": 2.56,
      "grad_norm": 3.365328311920166,
      "learning_rate": 8.135361160449972e-06,
      "loss": 0.5893,
      "step": 25630
    },
    {
      "epoch": 2.56,
      "grad_norm": 3.0096378326416016,
      "learning_rate": 8.11685908821788e-06,
      "loss": 0.5361,
      "step": 25640
    },
    {
      "epoch": 2.56,
      "grad_norm": 3.0597057342529297,
      "learning_rate": 8.098357015985791e-06,
      "loss": 0.6462,
      "step": 25650
    },
    {
      "epoch": 2.56,
      "grad_norm": 3.094532012939453,
      "learning_rate": 8.079854943753701e-06,
      "loss": 0.5594,
      "step": 25660
    },
    {
      "epoch": 2.56,
      "grad_norm": 3.690444231033325,
      "learning_rate": 8.06135287152161e-06,
      "loss": 0.5548,
      "step": 25670
    },
    {
      "epoch": 2.57,
      "grad_norm": 3.913206100463867,
      "learning_rate": 8.04285079928952e-06,
      "loss": 0.6055,
      "step": 25680
    },
    {
      "epoch": 2.57,
      "grad_norm": 3.388603925704956,
      "learning_rate": 8.02434872705743e-06,
      "loss": 0.5404,
      "step": 25690
    },
    {
      "epoch": 2.57,
      "grad_norm": 2.9104251861572266,
      "learning_rate": 8.005846654825342e-06,
      "loss": 0.5878,
      "step": 25700
    },
    {
      "epoch": 2.57,
      "grad_norm": 3.0910804271698,
      "learning_rate": 7.987344582593252e-06,
      "loss": 0.594,
      "step": 25710
    },
    {
      "epoch": 2.57,
      "grad_norm": 4.089287757873535,
      "learning_rate": 7.96884251036116e-06,
      "loss": 0.5722,
      "step": 25720
    },
    {
      "epoch": 2.57,
      "grad_norm": 2.9210596084594727,
      "learning_rate": 7.950340438129071e-06,
      "loss": 0.5131,
      "step": 25730
    },
    {
      "epoch": 2.57,
      "grad_norm": 12.361225128173828,
      "learning_rate": 7.931838365896981e-06,
      "loss": 0.5727,
      "step": 25740
    },
    {
      "epoch": 2.57,
      "grad_norm": 2.9634580612182617,
      "learning_rate": 7.91333629366489e-06,
      "loss": 0.5317,
      "step": 25750
    },
    {
      "epoch": 2.57,
      "grad_norm": 3.33109974861145,
      "learning_rate": 7.8948342214328e-06,
      "loss": 0.5847,
      "step": 25760
    },
    {
      "epoch": 2.57,
      "grad_norm": 3.2952687740325928,
      "learning_rate": 7.87633214920071e-06,
      "loss": 0.5743,
      "step": 25770
    },
    {
      "epoch": 2.58,
      "grad_norm": 3.9009904861450195,
      "learning_rate": 7.857830076968622e-06,
      "loss": 0.5999,
      "step": 25780
    },
    {
      "epoch": 2.58,
      "grad_norm": 3.506558895111084,
      "learning_rate": 7.83932800473653e-06,
      "loss": 0.5389,
      "step": 25790
    },
    {
      "epoch": 2.58,
      "grad_norm": 3.4939076900482178,
      "learning_rate": 7.820825932504441e-06,
      "loss": 0.6209,
      "step": 25800
    },
    {
      "epoch": 2.58,
      "grad_norm": 3.771444320678711,
      "learning_rate": 7.802323860272351e-06,
      "loss": 0.5489,
      "step": 25810
    },
    {
      "epoch": 2.58,
      "grad_norm": 3.1800131797790527,
      "learning_rate": 7.783821788040261e-06,
      "loss": 0.5105,
      "step": 25820
    },
    {
      "epoch": 2.58,
      "grad_norm": 3.201542615890503,
      "learning_rate": 7.76531971580817e-06,
      "loss": 0.5643,
      "step": 25830
    },
    {
      "epoch": 2.58,
      "grad_norm": 3.489363193511963,
      "learning_rate": 7.74681764357608e-06,
      "loss": 0.5038,
      "step": 25840
    },
    {
      "epoch": 2.58,
      "grad_norm": 3.4664695262908936,
      "learning_rate": 7.728315571343992e-06,
      "loss": 0.5614,
      "step": 25850
    },
    {
      "epoch": 2.58,
      "grad_norm": 3.155233144760132,
      "learning_rate": 7.7098134991119e-06,
      "loss": 0.5733,
      "step": 25860
    },
    {
      "epoch": 2.58,
      "grad_norm": 2.340384006500244,
      "learning_rate": 7.69131142687981e-06,
      "loss": 0.5831,
      "step": 25870
    },
    {
      "epoch": 2.59,
      "grad_norm": 3.026564836502075,
      "learning_rate": 7.672809354647721e-06,
      "loss": 0.5865,
      "step": 25880
    },
    {
      "epoch": 2.59,
      "grad_norm": 3.1398000717163086,
      "learning_rate": 7.654307282415631e-06,
      "loss": 0.5278,
      "step": 25890
    },
    {
      "epoch": 2.59,
      "grad_norm": 2.956977367401123,
      "learning_rate": 7.635805210183541e-06,
      "loss": 0.4913,
      "step": 25900
    },
    {
      "epoch": 2.59,
      "grad_norm": 2.1958723068237305,
      "learning_rate": 7.617303137951451e-06,
      "loss": 0.5049,
      "step": 25910
    },
    {
      "epoch": 2.59,
      "grad_norm": 3.2405662536621094,
      "learning_rate": 7.5988010657193605e-06,
      "loss": 0.5712,
      "step": 25920
    },
    {
      "epoch": 2.59,
      "grad_norm": 3.4755823612213135,
      "learning_rate": 7.580298993487271e-06,
      "loss": 0.5899,
      "step": 25930
    },
    {
      "epoch": 2.59,
      "grad_norm": 3.074146032333374,
      "learning_rate": 7.561796921255181e-06,
      "loss": 0.503,
      "step": 25940
    },
    {
      "epoch": 2.59,
      "grad_norm": 3.1924264430999756,
      "learning_rate": 7.5432948490230915e-06,
      "loss": 0.6027,
      "step": 25950
    },
    {
      "epoch": 2.59,
      "grad_norm": 3.826465129852295,
      "learning_rate": 7.524792776791001e-06,
      "loss": 0.5653,
      "step": 25960
    },
    {
      "epoch": 2.59,
      "grad_norm": 3.2328953742980957,
      "learning_rate": 7.50629070455891e-06,
      "loss": 0.5569,
      "step": 25970
    },
    {
      "epoch": 2.6,
      "grad_norm": 2.801607131958008,
      "learning_rate": 7.487788632326821e-06,
      "loss": 0.5737,
      "step": 25980
    },
    {
      "epoch": 2.6,
      "grad_norm": 3.8851187229156494,
      "learning_rate": 7.469286560094731e-06,
      "loss": 0.5671,
      "step": 25990
    },
    {
      "epoch": 2.6,
      "grad_norm": 3.5841262340545654,
      "learning_rate": 7.450784487862641e-06,
      "loss": 0.5894,
      "step": 26000
    },
    {
      "epoch": 2.6,
      "grad_norm": 2.6441843509674072,
      "learning_rate": 7.432282415630551e-06,
      "loss": 0.5669,
      "step": 26010
    },
    {
      "epoch": 2.6,
      "grad_norm": 3.7560575008392334,
      "learning_rate": 7.41378034339846e-06,
      "loss": 0.5814,
      "step": 26020
    },
    {
      "epoch": 2.6,
      "grad_norm": 3.8753507137298584,
      "learning_rate": 7.3952782711663715e-06,
      "loss": 0.5888,
      "step": 26030
    },
    {
      "epoch": 2.6,
      "grad_norm": 2.8476853370666504,
      "learning_rate": 7.37677619893428e-06,
      "loss": 0.5996,
      "step": 26040
    },
    {
      "epoch": 2.6,
      "grad_norm": 2.547043800354004,
      "learning_rate": 7.358274126702192e-06,
      "loss": 0.5463,
      "step": 26050
    },
    {
      "epoch": 2.6,
      "grad_norm": 3.8283557891845703,
      "learning_rate": 7.339772054470101e-06,
      "loss": 0.5574,
      "step": 26060
    },
    {
      "epoch": 2.6,
      "grad_norm": 4.148817539215088,
      "learning_rate": 7.321269982238011e-06,
      "loss": 0.5764,
      "step": 26070
    },
    {
      "epoch": 2.61,
      "grad_norm": 2.9140543937683105,
      "learning_rate": 7.302767910005921e-06,
      "loss": 0.5435,
      "step": 26080
    },
    {
      "epoch": 2.61,
      "grad_norm": 3.0009758472442627,
      "learning_rate": 7.284265837773831e-06,
      "loss": 0.5906,
      "step": 26090
    },
    {
      "epoch": 2.61,
      "grad_norm": 2.8201489448547363,
      "learning_rate": 7.265763765541742e-06,
      "loss": 0.5824,
      "step": 26100
    },
    {
      "epoch": 2.61,
      "grad_norm": 3.654592990875244,
      "learning_rate": 7.247261693309651e-06,
      "loss": 0.5847,
      "step": 26110
    },
    {
      "epoch": 2.61,
      "grad_norm": 3.3171515464782715,
      "learning_rate": 7.22875962107756e-06,
      "loss": 0.571,
      "step": 26120
    },
    {
      "epoch": 2.61,
      "grad_norm": 3.0198771953582764,
      "learning_rate": 7.210257548845471e-06,
      "loss": 0.5006,
      "step": 26130
    },
    {
      "epoch": 2.61,
      "grad_norm": 3.9099082946777344,
      "learning_rate": 7.191755476613381e-06,
      "loss": 0.5744,
      "step": 26140
    },
    {
      "epoch": 2.61,
      "grad_norm": 3.3529632091522217,
      "learning_rate": 7.173253404381291e-06,
      "loss": 0.5653,
      "step": 26150
    },
    {
      "epoch": 2.61,
      "grad_norm": 3.3477766513824463,
      "learning_rate": 7.154751332149201e-06,
      "loss": 0.5483,
      "step": 26160
    },
    {
      "epoch": 2.61,
      "grad_norm": 2.840928792953491,
      "learning_rate": 7.13624925991711e-06,
      "loss": 0.5719,
      "step": 26170
    },
    {
      "epoch": 2.62,
      "grad_norm": 3.8680920600891113,
      "learning_rate": 7.117747187685022e-06,
      "loss": 0.5462,
      "step": 26180
    },
    {
      "epoch": 2.62,
      "grad_norm": 2.7838990688323975,
      "learning_rate": 7.0992451154529305e-06,
      "loss": 0.5641,
      "step": 26190
    },
    {
      "epoch": 2.62,
      "grad_norm": 4.129324436187744,
      "learning_rate": 7.080743043220841e-06,
      "loss": 0.5457,
      "step": 26200
    },
    {
      "epoch": 2.62,
      "grad_norm": 3.1618828773498535,
      "learning_rate": 7.062240970988751e-06,
      "loss": 0.5496,
      "step": 26210
    },
    {
      "epoch": 2.62,
      "grad_norm": 3.169809341430664,
      "learning_rate": 7.043738898756661e-06,
      "loss": 0.5527,
      "step": 26220
    },
    {
      "epoch": 2.62,
      "grad_norm": 3.0610504150390625,
      "learning_rate": 7.025236826524571e-06,
      "loss": 0.5875,
      "step": 26230
    },
    {
      "epoch": 2.62,
      "grad_norm": 2.955848455429077,
      "learning_rate": 7.006734754292481e-06,
      "loss": 0.5119,
      "step": 26240
    },
    {
      "epoch": 2.62,
      "grad_norm": 2.814960479736328,
      "learning_rate": 6.988232682060392e-06,
      "loss": 0.6063,
      "step": 26250
    },
    {
      "epoch": 2.62,
      "grad_norm": 3.2901241779327393,
      "learning_rate": 6.969730609828301e-06,
      "loss": 0.5908,
      "step": 26260
    },
    {
      "epoch": 2.62,
      "grad_norm": 3.7078866958618164,
      "learning_rate": 6.9512285375962105e-06,
      "loss": 0.596,
      "step": 26270
    },
    {
      "epoch": 2.63,
      "grad_norm": 3.9651973247528076,
      "learning_rate": 6.932726465364121e-06,
      "loss": 0.5177,
      "step": 26280
    },
    {
      "epoch": 2.63,
      "grad_norm": 2.3311619758605957,
      "learning_rate": 6.914224393132031e-06,
      "loss": 0.5043,
      "step": 26290
    },
    {
      "epoch": 2.63,
      "grad_norm": 3.2758660316467285,
      "learning_rate": 6.8957223208999416e-06,
      "loss": 0.5799,
      "step": 26300
    },
    {
      "epoch": 2.63,
      "grad_norm": 3.088883638381958,
      "learning_rate": 6.877220248667851e-06,
      "loss": 0.602,
      "step": 26310
    },
    {
      "epoch": 2.63,
      "grad_norm": 3.258539915084839,
      "learning_rate": 6.85871817643576e-06,
      "loss": 0.5554,
      "step": 26320
    },
    {
      "epoch": 2.63,
      "grad_norm": 2.877171039581299,
      "learning_rate": 6.840216104203672e-06,
      "loss": 0.5405,
      "step": 26330
    },
    {
      "epoch": 2.63,
      "grad_norm": 3.5023624897003174,
      "learning_rate": 6.821714031971581e-06,
      "loss": 0.5621,
      "step": 26340
    },
    {
      "epoch": 2.63,
      "grad_norm": 3.0098636150360107,
      "learning_rate": 6.803211959739491e-06,
      "loss": 0.5575,
      "step": 26350
    },
    {
      "epoch": 2.63,
      "grad_norm": 4.023981094360352,
      "learning_rate": 6.784709887507401e-06,
      "loss": 0.5009,
      "step": 26360
    },
    {
      "epoch": 2.63,
      "grad_norm": 3.4113147258758545,
      "learning_rate": 6.766207815275311e-06,
      "loss": 0.5415,
      "step": 26370
    },
    {
      "epoch": 2.64,
      "grad_norm": 4.2428693771362305,
      "learning_rate": 6.7477057430432215e-06,
      "loss": 0.5765,
      "step": 26380
    },
    {
      "epoch": 2.64,
      "grad_norm": 3.26918625831604,
      "learning_rate": 6.7292036708111305e-06,
      "loss": 0.5957,
      "step": 26390
    },
    {
      "epoch": 2.64,
      "grad_norm": 3.6185860633850098,
      "learning_rate": 6.710701598579042e-06,
      "loss": 0.5369,
      "step": 26400
    },
    {
      "epoch": 2.64,
      "grad_norm": 3.6654717922210693,
      "learning_rate": 6.692199526346951e-06,
      "loss": 0.549,
      "step": 26410
    },
    {
      "epoch": 2.64,
      "grad_norm": 3.3767788410186768,
      "learning_rate": 6.673697454114861e-06,
      "loss": 0.5874,
      "step": 26420
    },
    {
      "epoch": 2.64,
      "grad_norm": 4.225510597229004,
      "learning_rate": 6.655195381882771e-06,
      "loss": 0.5749,
      "step": 26430
    },
    {
      "epoch": 2.64,
      "grad_norm": 3.8990478515625,
      "learning_rate": 6.636693309650681e-06,
      "loss": 0.5565,
      "step": 26440
    },
    {
      "epoch": 2.64,
      "grad_norm": 3.7963085174560547,
      "learning_rate": 6.618191237418592e-06,
      "loss": 0.6373,
      "step": 26450
    },
    {
      "epoch": 2.64,
      "grad_norm": 3.5043044090270996,
      "learning_rate": 6.5996891651865015e-06,
      "loss": 0.5446,
      "step": 26460
    },
    {
      "epoch": 2.64,
      "grad_norm": 3.304196834564209,
      "learning_rate": 6.5811870929544104e-06,
      "loss": 0.5629,
      "step": 26470
    },
    {
      "epoch": 2.65,
      "grad_norm": 3.1676554679870605,
      "learning_rate": 6.562685020722321e-06,
      "loss": 0.5117,
      "step": 26480
    },
    {
      "epoch": 2.65,
      "grad_norm": 2.5894317626953125,
      "learning_rate": 6.544182948490231e-06,
      "loss": 0.5959,
      "step": 26490
    },
    {
      "epoch": 2.65,
      "grad_norm": 3.035053253173828,
      "learning_rate": 6.5256808762581415e-06,
      "loss": 0.5257,
      "step": 26500
    },
    {
      "epoch": 2.65,
      "grad_norm": 4.193048477172852,
      "learning_rate": 6.507178804026051e-06,
      "loss": 0.5843,
      "step": 26510
    },
    {
      "epoch": 2.65,
      "grad_norm": 4.784292697906494,
      "learning_rate": 6.488676731793961e-06,
      "loss": 0.564,
      "step": 26520
    },
    {
      "epoch": 2.65,
      "grad_norm": 2.7637243270874023,
      "learning_rate": 6.470174659561872e-06,
      "loss": 0.5412,
      "step": 26530
    },
    {
      "epoch": 2.65,
      "grad_norm": 3.381244659423828,
      "learning_rate": 6.451672587329781e-06,
      "loss": 0.5253,
      "step": 26540
    },
    {
      "epoch": 2.65,
      "grad_norm": 4.031267166137695,
      "learning_rate": 6.433170515097692e-06,
      "loss": 0.5788,
      "step": 26550
    },
    {
      "epoch": 2.65,
      "grad_norm": 4.247057914733887,
      "learning_rate": 6.414668442865601e-06,
      "loss": 0.5878,
      "step": 26560
    },
    {
      "epoch": 2.65,
      "grad_norm": 3.130873203277588,
      "learning_rate": 6.396166370633511e-06,
      "loss": 0.5889,
      "step": 26570
    },
    {
      "epoch": 2.66,
      "grad_norm": 3.0542993545532227,
      "learning_rate": 6.3776642984014214e-06,
      "loss": 0.5927,
      "step": 26580
    },
    {
      "epoch": 2.66,
      "grad_norm": 3.083531379699707,
      "learning_rate": 6.359162226169331e-06,
      "loss": 0.5988,
      "step": 26590
    },
    {
      "epoch": 2.66,
      "grad_norm": 3.194038152694702,
      "learning_rate": 6.340660153937242e-06,
      "loss": 0.624,
      "step": 26600
    },
    {
      "epoch": 2.66,
      "grad_norm": 2.361732244491577,
      "learning_rate": 6.322158081705152e-06,
      "loss": 0.5502,
      "step": 26610
    },
    {
      "epoch": 2.66,
      "grad_norm": 3.3856542110443115,
      "learning_rate": 6.3036560094730606e-06,
      "loss": 0.5995,
      "step": 26620
    },
    {
      "epoch": 2.66,
      "grad_norm": 3.163172960281372,
      "learning_rate": 6.285153937240971e-06,
      "loss": 0.5896,
      "step": 26630
    },
    {
      "epoch": 2.66,
      "grad_norm": 3.1809279918670654,
      "learning_rate": 6.266651865008881e-06,
      "loss": 0.6014,
      "step": 26640
    },
    {
      "epoch": 2.66,
      "grad_norm": 3.088164806365967,
      "learning_rate": 6.248149792776791e-06,
      "loss": 0.5578,
      "step": 26650
    },
    {
      "epoch": 2.66,
      "grad_norm": 2.6041367053985596,
      "learning_rate": 6.229647720544701e-06,
      "loss": 0.6072,
      "step": 26660
    },
    {
      "epoch": 2.66,
      "grad_norm": 3.172990322113037,
      "learning_rate": 6.211145648312611e-06,
      "loss": 0.5929,
      "step": 26670
    },
    {
      "epoch": 2.67,
      "grad_norm": 3.215237617492676,
      "learning_rate": 6.192643576080522e-06,
      "loss": 0.6016,
      "step": 26680
    },
    {
      "epoch": 2.67,
      "grad_norm": 4.229470729827881,
      "learning_rate": 6.174141503848431e-06,
      "loss": 0.6306,
      "step": 26690
    },
    {
      "epoch": 2.67,
      "grad_norm": 2.599127769470215,
      "learning_rate": 6.155639431616341e-06,
      "loss": 0.5993,
      "step": 26700
    },
    {
      "epoch": 2.67,
      "grad_norm": 1.8504549264907837,
      "learning_rate": 6.137137359384251e-06,
      "loss": 0.4961,
      "step": 26710
    },
    {
      "epoch": 2.67,
      "grad_norm": 3.6476807594299316,
      "learning_rate": 6.118635287152162e-06,
      "loss": 0.5392,
      "step": 26720
    },
    {
      "epoch": 2.67,
      "grad_norm": 3.37979793548584,
      "learning_rate": 6.100133214920072e-06,
      "loss": 0.5614,
      "step": 26730
    },
    {
      "epoch": 2.67,
      "grad_norm": 2.978710889816284,
      "learning_rate": 6.081631142687981e-06,
      "loss": 0.5742,
      "step": 26740
    },
    {
      "epoch": 2.67,
      "grad_norm": 2.361764669418335,
      "learning_rate": 6.063129070455891e-06,
      "loss": 0.612,
      "step": 26750
    },
    {
      "epoch": 2.67,
      "grad_norm": 3.1743178367614746,
      "learning_rate": 6.044626998223801e-06,
      "loss": 0.6275,
      "step": 26760
    },
    {
      "epoch": 2.67,
      "grad_norm": 2.8966100215911865,
      "learning_rate": 6.0261249259917116e-06,
      "loss": 0.4872,
      "step": 26770
    },
    {
      "epoch": 2.68,
      "grad_norm": 3.509962320327759,
      "learning_rate": 6.007622853759621e-06,
      "loss": 0.5887,
      "step": 26780
    },
    {
      "epoch": 2.68,
      "grad_norm": 3.1014108657836914,
      "learning_rate": 5.989120781527531e-06,
      "loss": 0.5351,
      "step": 26790
    },
    {
      "epoch": 2.68,
      "grad_norm": 3.736280679702759,
      "learning_rate": 5.970618709295441e-06,
      "loss": 0.5394,
      "step": 26800
    },
    {
      "epoch": 2.68,
      "grad_norm": 3.2285068035125732,
      "learning_rate": 5.9521166370633515e-06,
      "loss": 0.5916,
      "step": 26810
    },
    {
      "epoch": 2.68,
      "grad_norm": 2.1030142307281494,
      "learning_rate": 5.933614564831261e-06,
      "loss": 0.5502,
      "step": 26820
    },
    {
      "epoch": 2.68,
      "grad_norm": 3.8709380626678467,
      "learning_rate": 5.915112492599172e-06,
      "loss": 0.5704,
      "step": 26830
    },
    {
      "epoch": 2.68,
      "grad_norm": 3.3869569301605225,
      "learning_rate": 5.896610420367081e-06,
      "loss": 0.6076,
      "step": 26840
    },
    {
      "epoch": 2.68,
      "grad_norm": 2.8991243839263916,
      "learning_rate": 5.8781083481349915e-06,
      "loss": 0.4999,
      "step": 26850
    },
    {
      "epoch": 2.68,
      "grad_norm": 2.551785469055176,
      "learning_rate": 5.859606275902901e-06,
      "loss": 0.5805,
      "step": 26860
    },
    {
      "epoch": 2.68,
      "grad_norm": 3.0259742736816406,
      "learning_rate": 5.841104203670811e-06,
      "loss": 0.5107,
      "step": 26870
    },
    {
      "epoch": 2.69,
      "grad_norm": 2.835322856903076,
      "learning_rate": 5.822602131438722e-06,
      "loss": 0.5451,
      "step": 26880
    },
    {
      "epoch": 2.69,
      "grad_norm": 2.979400157928467,
      "learning_rate": 5.804100059206631e-06,
      "loss": 0.5538,
      "step": 26890
    },
    {
      "epoch": 2.69,
      "grad_norm": 3.1090664863586426,
      "learning_rate": 5.785597986974541e-06,
      "loss": 0.6153,
      "step": 26900
    },
    {
      "epoch": 2.69,
      "grad_norm": 3.316776752471924,
      "learning_rate": 5.767095914742451e-06,
      "loss": 0.547,
      "step": 26910
    },
    {
      "epoch": 2.69,
      "grad_norm": 2.8388001918792725,
      "learning_rate": 5.748593842510362e-06,
      "loss": 0.5607,
      "step": 26920
    },
    {
      "epoch": 2.69,
      "grad_norm": 3.093498706817627,
      "learning_rate": 5.7300917702782715e-06,
      "loss": 0.5355,
      "step": 26930
    },
    {
      "epoch": 2.69,
      "grad_norm": 4.143712520599365,
      "learning_rate": 5.711589698046181e-06,
      "loss": 0.5817,
      "step": 26940
    },
    {
      "epoch": 2.69,
      "grad_norm": 3.7694435119628906,
      "learning_rate": 5.693087625814091e-06,
      "loss": 0.5943,
      "step": 26950
    },
    {
      "epoch": 2.69,
      "grad_norm": 2.622295379638672,
      "learning_rate": 5.674585553582002e-06,
      "loss": 0.526,
      "step": 26960
    },
    {
      "epoch": 2.69,
      "grad_norm": 3.087421417236328,
      "learning_rate": 5.6560834813499115e-06,
      "loss": 0.5295,
      "step": 26970
    },
    {
      "epoch": 2.7,
      "grad_norm": 3.1902151107788086,
      "learning_rate": 5.637581409117821e-06,
      "loss": 0.5513,
      "step": 26980
    },
    {
      "epoch": 2.7,
      "grad_norm": 2.7657337188720703,
      "learning_rate": 5.619079336885731e-06,
      "loss": 0.5645,
      "step": 26990
    },
    {
      "epoch": 2.7,
      "grad_norm": 3.879848003387451,
      "learning_rate": 5.600577264653642e-06,
      "loss": 0.5349,
      "step": 27000
    },
    {
      "epoch": 2.7,
      "grad_norm": 3.285062551498413,
      "learning_rate": 5.5820751924215515e-06,
      "loss": 0.6297,
      "step": 27010
    },
    {
      "epoch": 2.7,
      "grad_norm": 2.9430508613586426,
      "learning_rate": 5.563573120189461e-06,
      "loss": 0.61,
      "step": 27020
    },
    {
      "epoch": 2.7,
      "grad_norm": 3.071153163909912,
      "learning_rate": 5.545071047957372e-06,
      "loss": 0.531,
      "step": 27030
    },
    {
      "epoch": 2.7,
      "grad_norm": 4.607812881469727,
      "learning_rate": 5.526568975725281e-06,
      "loss": 0.5928,
      "step": 27040
    },
    {
      "epoch": 2.7,
      "grad_norm": 2.63329815864563,
      "learning_rate": 5.5080669034931914e-06,
      "loss": 0.5159,
      "step": 27050
    },
    {
      "epoch": 2.7,
      "grad_norm": 3.053818941116333,
      "learning_rate": 5.489564831261101e-06,
      "loss": 0.5476,
      "step": 27060
    },
    {
      "epoch": 2.7,
      "grad_norm": 3.4998152256011963,
      "learning_rate": 5.471062759029012e-06,
      "loss": 0.5953,
      "step": 27070
    },
    {
      "epoch": 2.71,
      "grad_norm": 3.4721643924713135,
      "learning_rate": 5.452560686796922e-06,
      "loss": 0.5319,
      "step": 27080
    },
    {
      "epoch": 2.71,
      "grad_norm": 2.527315855026245,
      "learning_rate": 5.434058614564832e-06,
      "loss": 0.5723,
      "step": 27090
    },
    {
      "epoch": 2.71,
      "grad_norm": 3.447371244430542,
      "learning_rate": 5.415556542332741e-06,
      "loss": 0.5658,
      "step": 27100
    },
    {
      "epoch": 2.71,
      "grad_norm": 3.0397541522979736,
      "learning_rate": 5.397054470100652e-06,
      "loss": 0.523,
      "step": 27110
    },
    {
      "epoch": 2.71,
      "grad_norm": 2.892989158630371,
      "learning_rate": 5.378552397868562e-06,
      "loss": 0.5441,
      "step": 27120
    },
    {
      "epoch": 2.71,
      "grad_norm": 3.9948079586029053,
      "learning_rate": 5.360050325636471e-06,
      "loss": 0.5819,
      "step": 27130
    },
    {
      "epoch": 2.71,
      "grad_norm": 4.218408584594727,
      "learning_rate": 5.341548253404382e-06,
      "loss": 0.5623,
      "step": 27140
    },
    {
      "epoch": 2.71,
      "grad_norm": 2.8240251541137695,
      "learning_rate": 5.323046181172291e-06,
      "loss": 0.5378,
      "step": 27150
    },
    {
      "epoch": 2.71,
      "grad_norm": 3.392909288406372,
      "learning_rate": 5.304544108940202e-06,
      "loss": 0.5466,
      "step": 27160
    },
    {
      "epoch": 2.71,
      "grad_norm": 2.961616039276123,
      "learning_rate": 5.286042036708111e-06,
      "loss": 0.5638,
      "step": 27170
    },
    {
      "epoch": 2.72,
      "grad_norm": 3.532426595687866,
      "learning_rate": 5.267539964476022e-06,
      "loss": 0.5145,
      "step": 27180
    },
    {
      "epoch": 2.72,
      "grad_norm": 3.716313362121582,
      "learning_rate": 5.249037892243932e-06,
      "loss": 0.5902,
      "step": 27190
    },
    {
      "epoch": 2.72,
      "grad_norm": 2.5971438884735107,
      "learning_rate": 5.230535820011842e-06,
      "loss": 0.5448,
      "step": 27200
    },
    {
      "epoch": 2.72,
      "grad_norm": 7.8529486656188965,
      "learning_rate": 5.212033747779751e-06,
      "loss": 0.5891,
      "step": 27210
    },
    {
      "epoch": 2.72,
      "grad_norm": 3.065851926803589,
      "learning_rate": 5.193531675547662e-06,
      "loss": 0.5586,
      "step": 27220
    },
    {
      "epoch": 2.72,
      "grad_norm": 3.861433506011963,
      "learning_rate": 5.175029603315572e-06,
      "loss": 0.5804,
      "step": 27230
    },
    {
      "epoch": 2.72,
      "grad_norm": 3.2328124046325684,
      "learning_rate": 5.1565275310834816e-06,
      "loss": 0.5608,
      "step": 27240
    },
    {
      "epoch": 2.72,
      "grad_norm": 3.1082425117492676,
      "learning_rate": 5.138025458851391e-06,
      "loss": 0.4963,
      "step": 27250
    },
    {
      "epoch": 2.72,
      "grad_norm": 3.445730209350586,
      "learning_rate": 5.119523386619301e-06,
      "loss": 0.5177,
      "step": 27260
    },
    {
      "epoch": 2.72,
      "grad_norm": 2.642772674560547,
      "learning_rate": 5.101021314387212e-06,
      "loss": 0.4979,
      "step": 27270
    },
    {
      "epoch": 2.73,
      "grad_norm": 3.0550854206085205,
      "learning_rate": 5.0825192421551216e-06,
      "loss": 0.5851,
      "step": 27280
    },
    {
      "epoch": 2.73,
      "grad_norm": 2.91115140914917,
      "learning_rate": 5.064017169923032e-06,
      "loss": 0.5629,
      "step": 27290
    },
    {
      "epoch": 2.73,
      "grad_norm": 4.068423748016357,
      "learning_rate": 5.045515097690941e-06,
      "loss": 0.5602,
      "step": 27300
    },
    {
      "epoch": 2.73,
      "grad_norm": 2.9939303398132324,
      "learning_rate": 5.027013025458852e-06,
      "loss": 0.5594,
      "step": 27310
    },
    {
      "epoch": 2.73,
      "grad_norm": 3.7728397846221924,
      "learning_rate": 5.0085109532267615e-06,
      "loss": 0.5773,
      "step": 27320
    },
    {
      "epoch": 2.73,
      "grad_norm": 3.791283369064331,
      "learning_rate": 4.990008880994672e-06,
      "loss": 0.6084,
      "step": 27330
    },
    {
      "epoch": 2.73,
      "grad_norm": 3.502645969390869,
      "learning_rate": 4.971506808762582e-06,
      "loss": 0.5997,
      "step": 27340
    },
    {
      "epoch": 2.73,
      "grad_norm": 3.3492789268493652,
      "learning_rate": 4.953004736530492e-06,
      "loss": 0.5798,
      "step": 27350
    },
    {
      "epoch": 2.73,
      "grad_norm": 4.306943416595459,
      "learning_rate": 4.9345026642984015e-06,
      "loss": 0.6715,
      "step": 27360
    },
    {
      "epoch": 2.73,
      "grad_norm": 3.562544584274292,
      "learning_rate": 4.916000592066311e-06,
      "loss": 0.5532,
      "step": 27370
    },
    {
      "epoch": 2.74,
      "grad_norm": 3.3399999141693115,
      "learning_rate": 4.897498519834222e-06,
      "loss": 0.5835,
      "step": 27380
    },
    {
      "epoch": 2.74,
      "grad_norm": 4.306583881378174,
      "learning_rate": 4.878996447602132e-06,
      "loss": 0.5085,
      "step": 27390
    },
    {
      "epoch": 2.74,
      "grad_norm": 3.501093626022339,
      "learning_rate": 4.8604943753700415e-06,
      "loss": 0.5733,
      "step": 27400
    },
    {
      "epoch": 2.74,
      "grad_norm": 3.3360066413879395,
      "learning_rate": 4.841992303137951e-06,
      "loss": 0.5632,
      "step": 27410
    },
    {
      "epoch": 2.74,
      "grad_norm": 2.8203577995300293,
      "learning_rate": 4.823490230905862e-06,
      "loss": 0.5435,
      "step": 27420
    },
    {
      "epoch": 2.74,
      "grad_norm": 3.641493558883667,
      "learning_rate": 4.804988158673772e-06,
      "loss": 0.5524,
      "step": 27430
    },
    {
      "epoch": 2.74,
      "grad_norm": 3.001215696334839,
      "learning_rate": 4.786486086441682e-06,
      "loss": 0.4996,
      "step": 27440
    },
    {
      "epoch": 2.74,
      "grad_norm": 3.330880641937256,
      "learning_rate": 4.767984014209591e-06,
      "loss": 0.6063,
      "step": 27450
    },
    {
      "epoch": 2.74,
      "grad_norm": 3.620190143585205,
      "learning_rate": 4.749481941977502e-06,
      "loss": 0.591,
      "step": 27460
    },
    {
      "epoch": 2.74,
      "grad_norm": 3.3026154041290283,
      "learning_rate": 4.730979869745412e-06,
      "loss": 0.5524,
      "step": 27470
    },
    {
      "epoch": 2.75,
      "grad_norm": 2.937747001647949,
      "learning_rate": 4.712477797513322e-06,
      "loss": 0.4687,
      "step": 27480
    },
    {
      "epoch": 2.75,
      "grad_norm": 3.6539242267608643,
      "learning_rate": 4.693975725281232e-06,
      "loss": 0.5798,
      "step": 27490
    },
    {
      "epoch": 2.75,
      "grad_norm": 3.3757693767547607,
      "learning_rate": 4.675473653049142e-06,
      "loss": 0.5186,
      "step": 27500
    },
    {
      "epoch": 2.75,
      "grad_norm": 3.7013185024261475,
      "learning_rate": 4.656971580817052e-06,
      "loss": 0.5426,
      "step": 27510
    },
    {
      "epoch": 2.75,
      "grad_norm": 2.6691911220550537,
      "learning_rate": 4.6384695085849614e-06,
      "loss": 0.5663,
      "step": 27520
    },
    {
      "epoch": 2.75,
      "grad_norm": 2.076962471008301,
      "learning_rate": 4.619967436352872e-06,
      "loss": 0.6189,
      "step": 27530
    },
    {
      "epoch": 2.75,
      "grad_norm": 4.429849147796631,
      "learning_rate": 4.601465364120782e-06,
      "loss": 0.5696,
      "step": 27540
    },
    {
      "epoch": 2.75,
      "grad_norm": 2.9713289737701416,
      "learning_rate": 4.582963291888692e-06,
      "loss": 0.5682,
      "step": 27550
    },
    {
      "epoch": 2.75,
      "grad_norm": 3.0838396549224854,
      "learning_rate": 4.5644612196566014e-06,
      "loss": 0.6116,
      "step": 27560
    },
    {
      "epoch": 2.75,
      "grad_norm": 4.463494777679443,
      "learning_rate": 4.545959147424512e-06,
      "loss": 0.5193,
      "step": 27570
    },
    {
      "epoch": 2.76,
      "grad_norm": 3.284961700439453,
      "learning_rate": 4.527457075192422e-06,
      "loss": 0.5807,
      "step": 27580
    },
    {
      "epoch": 2.76,
      "grad_norm": 2.5213987827301025,
      "learning_rate": 4.5089550029603325e-06,
      "loss": 0.58,
      "step": 27590
    },
    {
      "epoch": 2.76,
      "grad_norm": 3.525006055831909,
      "learning_rate": 4.490452930728241e-06,
      "loss": 0.6237,
      "step": 27600
    },
    {
      "epoch": 2.76,
      "grad_norm": 4.3220133781433105,
      "learning_rate": 4.471950858496152e-06,
      "loss": 0.5635,
      "step": 27610
    },
    {
      "epoch": 2.76,
      "grad_norm": 3.0292460918426514,
      "learning_rate": 4.453448786264062e-06,
      "loss": 0.53,
      "step": 27620
    },
    {
      "epoch": 2.76,
      "grad_norm": 3.428022861480713,
      "learning_rate": 4.434946714031972e-06,
      "loss": 0.505,
      "step": 27630
    },
    {
      "epoch": 2.76,
      "grad_norm": 3.2871081829071045,
      "learning_rate": 4.416444641799882e-06,
      "loss": 0.5908,
      "step": 27640
    },
    {
      "epoch": 2.76,
      "grad_norm": 3.8746771812438965,
      "learning_rate": 4.397942569567791e-06,
      "loss": 0.5935,
      "step": 27650
    },
    {
      "epoch": 2.76,
      "grad_norm": 3.711358070373535,
      "learning_rate": 4.379440497335702e-06,
      "loss": 0.5864,
      "step": 27660
    },
    {
      "epoch": 2.76,
      "grad_norm": 3.1249632835388184,
      "learning_rate": 4.360938425103612e-06,
      "loss": 0.568,
      "step": 27670
    },
    {
      "epoch": 2.77,
      "grad_norm": 3.1618144512176514,
      "learning_rate": 4.342436352871522e-06,
      "loss": 0.6065,
      "step": 27680
    },
    {
      "epoch": 2.77,
      "grad_norm": 3.2741153240203857,
      "learning_rate": 4.323934280639432e-06,
      "loss": 0.5104,
      "step": 27690
    },
    {
      "epoch": 2.77,
      "grad_norm": 3.6882309913635254,
      "learning_rate": 4.305432208407342e-06,
      "loss": 0.5953,
      "step": 27700
    },
    {
      "epoch": 2.77,
      "grad_norm": 2.681621551513672,
      "learning_rate": 4.286930136175252e-06,
      "loss": 0.5372,
      "step": 27710
    },
    {
      "epoch": 2.77,
      "grad_norm": 3.2480862140655518,
      "learning_rate": 4.268428063943162e-06,
      "loss": 0.5972,
      "step": 27720
    },
    {
      "epoch": 2.77,
      "grad_norm": 2.820051908493042,
      "learning_rate": 4.249925991711072e-06,
      "loss": 0.5591,
      "step": 27730
    },
    {
      "epoch": 2.77,
      "grad_norm": 2.900400400161743,
      "learning_rate": 4.231423919478982e-06,
      "loss": 0.6347,
      "step": 27740
    },
    {
      "epoch": 2.77,
      "grad_norm": 2.9028306007385254,
      "learning_rate": 4.2129218472468916e-06,
      "loss": 0.5372,
      "step": 27750
    },
    {
      "epoch": 2.77,
      "grad_norm": 3.0824716091156006,
      "learning_rate": 4.194419775014801e-06,
      "loss": 0.5185,
      "step": 27760
    },
    {
      "epoch": 2.77,
      "grad_norm": 2.866525650024414,
      "learning_rate": 4.175917702782712e-06,
      "loss": 0.5972,
      "step": 27770
    },
    {
      "epoch": 2.78,
      "grad_norm": 3.0331990718841553,
      "learning_rate": 4.157415630550622e-06,
      "loss": 0.613,
      "step": 27780
    },
    {
      "epoch": 2.78,
      "grad_norm": 3.8533267974853516,
      "learning_rate": 4.138913558318532e-06,
      "loss": 0.5532,
      "step": 27790
    },
    {
      "epoch": 2.78,
      "grad_norm": 3.857520580291748,
      "learning_rate": 4.120411486086441e-06,
      "loss": 0.5749,
      "step": 27800
    },
    {
      "epoch": 2.78,
      "grad_norm": 3.0631749629974365,
      "learning_rate": 4.101909413854352e-06,
      "loss": 0.5857,
      "step": 27810
    },
    {
      "epoch": 2.78,
      "grad_norm": 3.1405446529388428,
      "learning_rate": 4.083407341622262e-06,
      "loss": 0.5675,
      "step": 27820
    },
    {
      "epoch": 2.78,
      "grad_norm": 2.3768272399902344,
      "learning_rate": 4.064905269390172e-06,
      "loss": 0.5352,
      "step": 27830
    },
    {
      "epoch": 2.78,
      "grad_norm": 3.220402479171753,
      "learning_rate": 4.046403197158082e-06,
      "loss": 0.5441,
      "step": 27840
    },
    {
      "epoch": 2.78,
      "grad_norm": 3.2297418117523193,
      "learning_rate": 4.027901124925992e-06,
      "loss": 0.5792,
      "step": 27850
    },
    {
      "epoch": 2.78,
      "grad_norm": 3.2671566009521484,
      "learning_rate": 4.009399052693902e-06,
      "loss": 0.5676,
      "step": 27860
    },
    {
      "epoch": 2.78,
      "grad_norm": 2.9713900089263916,
      "learning_rate": 3.990896980461812e-06,
      "loss": 0.5744,
      "step": 27870
    },
    {
      "epoch": 2.79,
      "grad_norm": 2.7462124824523926,
      "learning_rate": 3.972394908229722e-06,
      "loss": 0.5063,
      "step": 27880
    },
    {
      "epoch": 2.79,
      "grad_norm": 2.8987014293670654,
      "learning_rate": 3.953892835997632e-06,
      "loss": 0.5516,
      "step": 27890
    },
    {
      "epoch": 2.79,
      "grad_norm": 3.6947383880615234,
      "learning_rate": 3.935390763765542e-06,
      "loss": 0.523,
      "step": 27900
    },
    {
      "epoch": 2.79,
      "grad_norm": 3.5398778915405273,
      "learning_rate": 3.9168886915334515e-06,
      "loss": 0.5228,
      "step": 27910
    },
    {
      "epoch": 2.79,
      "grad_norm": 3.5006680488586426,
      "learning_rate": 3.898386619301362e-06,
      "loss": 0.5561,
      "step": 27920
    },
    {
      "epoch": 2.79,
      "grad_norm": 3.7354869842529297,
      "learning_rate": 3.879884547069272e-06,
      "loss": 0.5795,
      "step": 27930
    },
    {
      "epoch": 2.79,
      "grad_norm": 2.834641218185425,
      "learning_rate": 3.8613824748371825e-06,
      "loss": 0.5188,
      "step": 27940
    },
    {
      "epoch": 2.79,
      "grad_norm": 3.6725919246673584,
      "learning_rate": 3.8428804026050915e-06,
      "loss": 0.4972,
      "step": 27950
    },
    {
      "epoch": 2.79,
      "grad_norm": 3.091046094894409,
      "learning_rate": 3.824378330373002e-06,
      "loss": 0.6149,
      "step": 27960
    },
    {
      "epoch": 2.79,
      "grad_norm": 3.764375686645508,
      "learning_rate": 3.805876258140912e-06,
      "loss": 0.5152,
      "step": 27970
    },
    {
      "epoch": 2.8,
      "grad_norm": 3.3677291870117188,
      "learning_rate": 3.787374185908822e-06,
      "loss": 0.5444,
      "step": 27980
    },
    {
      "epoch": 2.8,
      "grad_norm": 2.855714797973633,
      "learning_rate": 3.7688721136767323e-06,
      "loss": 0.4912,
      "step": 27990
    },
    {
      "epoch": 2.8,
      "grad_norm": 2.9654417037963867,
      "learning_rate": 3.7503700414446417e-06,
      "loss": 0.5333,
      "step": 28000
    },
    {
      "epoch": 2.8,
      "grad_norm": 2.792783737182617,
      "learning_rate": 3.731867969212552e-06,
      "loss": 0.6073,
      "step": 28010
    },
    {
      "epoch": 2.8,
      "grad_norm": 2.282045602798462,
      "learning_rate": 3.713365896980462e-06,
      "loss": 0.5843,
      "step": 28020
    },
    {
      "epoch": 2.8,
      "grad_norm": 2.534376859664917,
      "learning_rate": 3.6948638247483723e-06,
      "loss": 0.4782,
      "step": 28030
    },
    {
      "epoch": 2.8,
      "grad_norm": 4.7877984046936035,
      "learning_rate": 3.6763617525162825e-06,
      "loss": 0.4957,
      "step": 28040
    },
    {
      "epoch": 2.8,
      "grad_norm": 3.467747449874878,
      "learning_rate": 3.657859680284192e-06,
      "loss": 0.544,
      "step": 28050
    },
    {
      "epoch": 2.8,
      "grad_norm": 2.8969902992248535,
      "learning_rate": 3.639357608052102e-06,
      "loss": 0.5265,
      "step": 28060
    },
    {
      "epoch": 2.8,
      "grad_norm": 3.7099194526672363,
      "learning_rate": 3.620855535820012e-06,
      "loss": 0.5415,
      "step": 28070
    },
    {
      "epoch": 2.81,
      "grad_norm": 3.290498971939087,
      "learning_rate": 3.602353463587922e-06,
      "loss": 0.6075,
      "step": 28080
    },
    {
      "epoch": 2.81,
      "grad_norm": 2.315286874771118,
      "learning_rate": 3.5838513913558323e-06,
      "loss": 0.5554,
      "step": 28090
    },
    {
      "epoch": 2.81,
      "grad_norm": 3.5419013500213623,
      "learning_rate": 3.5653493191237416e-06,
      "loss": 0.5858,
      "step": 28100
    },
    {
      "epoch": 2.81,
      "grad_norm": 3.771644353866577,
      "learning_rate": 3.546847246891652e-06,
      "loss": 0.6199,
      "step": 28110
    },
    {
      "epoch": 2.81,
      "grad_norm": 3.032865047454834,
      "learning_rate": 3.528345174659562e-06,
      "loss": 0.5279,
      "step": 28120
    },
    {
      "epoch": 2.81,
      "grad_norm": 2.7937371730804443,
      "learning_rate": 3.5098431024274722e-06,
      "loss": 0.4914,
      "step": 28130
    },
    {
      "epoch": 2.81,
      "grad_norm": 4.70415735244751,
      "learning_rate": 3.4913410301953824e-06,
      "loss": 0.5171,
      "step": 28140
    },
    {
      "epoch": 2.81,
      "grad_norm": 3.2561168670654297,
      "learning_rate": 3.472838957963292e-06,
      "loss": 0.5248,
      "step": 28150
    },
    {
      "epoch": 2.81,
      "grad_norm": 2.8294832706451416,
      "learning_rate": 3.454336885731202e-06,
      "loss": 0.5983,
      "step": 28160
    },
    {
      "epoch": 2.81,
      "grad_norm": 2.699571132659912,
      "learning_rate": 3.4358348134991122e-06,
      "loss": 0.5407,
      "step": 28170
    },
    {
      "epoch": 2.82,
      "grad_norm": 3.1832852363586426,
      "learning_rate": 3.4173327412670224e-06,
      "loss": 0.5991,
      "step": 28180
    },
    {
      "epoch": 2.82,
      "grad_norm": 3.115133762359619,
      "learning_rate": 3.3988306690349322e-06,
      "loss": 0.5628,
      "step": 28190
    },
    {
      "epoch": 2.82,
      "grad_norm": 2.383594036102295,
      "learning_rate": 3.380328596802842e-06,
      "loss": 0.5728,
      "step": 28200
    },
    {
      "epoch": 2.82,
      "grad_norm": 4.030295372009277,
      "learning_rate": 3.3618265245707518e-06,
      "loss": 0.6071,
      "step": 28210
    },
    {
      "epoch": 2.82,
      "grad_norm": 4.004485607147217,
      "learning_rate": 3.343324452338662e-06,
      "loss": 0.5509,
      "step": 28220
    },
    {
      "epoch": 2.82,
      "grad_norm": 3.771005392074585,
      "learning_rate": 3.324822380106572e-06,
      "loss": 0.5695,
      "step": 28230
    },
    {
      "epoch": 2.82,
      "grad_norm": 3.7799220085144043,
      "learning_rate": 3.3063203078744824e-06,
      "loss": 0.558,
      "step": 28240
    },
    {
      "epoch": 2.82,
      "grad_norm": 3.242589235305786,
      "learning_rate": 3.2878182356423918e-06,
      "loss": 0.5581,
      "step": 28250
    },
    {
      "epoch": 2.82,
      "grad_norm": 4.310880184173584,
      "learning_rate": 3.269316163410302e-06,
      "loss": 0.6033,
      "step": 28260
    },
    {
      "epoch": 2.82,
      "grad_norm": 3.722820997238159,
      "learning_rate": 3.250814091178212e-06,
      "loss": 0.5937,
      "step": 28270
    },
    {
      "epoch": 2.83,
      "grad_norm": 2.699526309967041,
      "learning_rate": 3.2323120189461224e-06,
      "loss": 0.563,
      "step": 28280
    },
    {
      "epoch": 2.83,
      "grad_norm": 3.8534903526306152,
      "learning_rate": 3.2138099467140326e-06,
      "loss": 0.5963,
      "step": 28290
    },
    {
      "epoch": 2.83,
      "grad_norm": 3.474874973297119,
      "learning_rate": 3.195307874481942e-06,
      "loss": 0.678,
      "step": 28300
    },
    {
      "epoch": 2.83,
      "grad_norm": 3.3504650592803955,
      "learning_rate": 3.176805802249852e-06,
      "loss": 0.4839,
      "step": 28310
    },
    {
      "epoch": 2.83,
      "grad_norm": 2.815619468688965,
      "learning_rate": 3.1583037300177624e-06,
      "loss": 0.5726,
      "step": 28320
    },
    {
      "epoch": 2.83,
      "grad_norm": 3.0243473052978516,
      "learning_rate": 3.139801657785672e-06,
      "loss": 0.5432,
      "step": 28330
    },
    {
      "epoch": 2.83,
      "grad_norm": 2.5949864387512207,
      "learning_rate": 3.121299585553582e-06,
      "loss": 0.5542,
      "step": 28340
    },
    {
      "epoch": 2.83,
      "grad_norm": 3.359830617904663,
      "learning_rate": 3.102797513321492e-06,
      "loss": 0.5309,
      "step": 28350
    },
    {
      "epoch": 2.83,
      "grad_norm": 3.0491552352905273,
      "learning_rate": 3.084295441089402e-06,
      "loss": 0.5996,
      "step": 28360
    },
    {
      "epoch": 2.83,
      "grad_norm": 3.1957924365997314,
      "learning_rate": 3.065793368857312e-06,
      "loss": 0.5407,
      "step": 28370
    },
    {
      "epoch": 2.84,
      "grad_norm": 2.9265825748443604,
      "learning_rate": 3.0472912966252223e-06,
      "loss": 0.5505,
      "step": 28380
    },
    {
      "epoch": 2.84,
      "grad_norm": 3.3011183738708496,
      "learning_rate": 3.028789224393132e-06,
      "loss": 0.5442,
      "step": 28390
    },
    {
      "epoch": 2.84,
      "grad_norm": 2.599510669708252,
      "learning_rate": 3.0102871521610423e-06,
      "loss": 0.5333,
      "step": 28400
    },
    {
      "epoch": 2.84,
      "grad_norm": 3.967794895172119,
      "learning_rate": 2.991785079928952e-06,
      "loss": 0.5679,
      "step": 28410
    },
    {
      "epoch": 2.84,
      "grad_norm": 2.720191478729248,
      "learning_rate": 2.9732830076968623e-06,
      "loss": 0.5338,
      "step": 28420
    },
    {
      "epoch": 2.84,
      "grad_norm": 3.4771623611450195,
      "learning_rate": 2.9547809354647725e-06,
      "loss": 0.622,
      "step": 28430
    },
    {
      "epoch": 2.84,
      "grad_norm": 2.8949389457702637,
      "learning_rate": 2.9362788632326823e-06,
      "loss": 0.5045,
      "step": 28440
    },
    {
      "epoch": 2.84,
      "grad_norm": 2.278824806213379,
      "learning_rate": 2.917776791000592e-06,
      "loss": 0.5684,
      "step": 28450
    },
    {
      "epoch": 2.84,
      "grad_norm": 2.7764062881469727,
      "learning_rate": 2.899274718768502e-06,
      "loss": 0.6201,
      "step": 28460
    },
    {
      "epoch": 2.84,
      "grad_norm": 3.11396861076355,
      "learning_rate": 2.880772646536412e-06,
      "loss": 0.5462,
      "step": 28470
    },
    {
      "epoch": 2.85,
      "grad_norm": 3.604015350341797,
      "learning_rate": 2.8622705743043223e-06,
      "loss": 0.5774,
      "step": 28480
    },
    {
      "epoch": 2.85,
      "grad_norm": 2.857684850692749,
      "learning_rate": 2.843768502072232e-06,
      "loss": 0.5217,
      "step": 28490
    },
    {
      "epoch": 2.85,
      "grad_norm": 4.064122676849365,
      "learning_rate": 2.8252664298401423e-06,
      "loss": 0.5738,
      "step": 28500
    },
    {
      "epoch": 2.85,
      "grad_norm": 3.131309986114502,
      "learning_rate": 2.806764357608052e-06,
      "loss": 0.5659,
      "step": 28510
    },
    {
      "epoch": 2.85,
      "grad_norm": 3.489208221435547,
      "learning_rate": 2.7882622853759623e-06,
      "loss": 0.5562,
      "step": 28520
    },
    {
      "epoch": 2.85,
      "grad_norm": 4.052330017089844,
      "learning_rate": 2.7697602131438725e-06,
      "loss": 0.6151,
      "step": 28530
    },
    {
      "epoch": 2.85,
      "grad_norm": 3.254016637802124,
      "learning_rate": 2.7512581409117823e-06,
      "loss": 0.5605,
      "step": 28540
    },
    {
      "epoch": 2.85,
      "grad_norm": 3.4897289276123047,
      "learning_rate": 2.7327560686796925e-06,
      "loss": 0.5828,
      "step": 28550
    },
    {
      "epoch": 2.85,
      "grad_norm": 2.8420345783233643,
      "learning_rate": 2.7142539964476023e-06,
      "loss": 0.5134,
      "step": 28560
    },
    {
      "epoch": 2.85,
      "grad_norm": 3.436392307281494,
      "learning_rate": 2.6957519242155125e-06,
      "loss": 0.4901,
      "step": 28570
    },
    {
      "epoch": 2.86,
      "grad_norm": 3.7234725952148438,
      "learning_rate": 2.6772498519834223e-06,
      "loss": 0.5634,
      "step": 28580
    },
    {
      "epoch": 2.86,
      "grad_norm": 3.439964771270752,
      "learning_rate": 2.658747779751332e-06,
      "loss": 0.5932,
      "step": 28590
    },
    {
      "epoch": 2.86,
      "grad_norm": 2.9818592071533203,
      "learning_rate": 2.6402457075192422e-06,
      "loss": 0.5745,
      "step": 28600
    },
    {
      "epoch": 2.86,
      "grad_norm": 3.1070263385772705,
      "learning_rate": 2.621743635287152e-06,
      "loss": 0.5699,
      "step": 28610
    },
    {
      "epoch": 2.86,
      "grad_norm": 3.895922899246216,
      "learning_rate": 2.6032415630550622e-06,
      "loss": 0.591,
      "step": 28620
    },
    {
      "epoch": 2.86,
      "grad_norm": 3.6539437770843506,
      "learning_rate": 2.5847394908229724e-06,
      "loss": 0.5078,
      "step": 28630
    },
    {
      "epoch": 2.86,
      "grad_norm": 3.4446237087249756,
      "learning_rate": 2.5662374185908822e-06,
      "loss": 0.4682,
      "step": 28640
    },
    {
      "epoch": 2.86,
      "grad_norm": 3.932724952697754,
      "learning_rate": 2.5477353463587924e-06,
      "loss": 0.522,
      "step": 28650
    },
    {
      "epoch": 2.86,
      "grad_norm": 2.5305283069610596,
      "learning_rate": 2.5292332741267022e-06,
      "loss": 0.5637,
      "step": 28660
    },
    {
      "epoch": 2.86,
      "grad_norm": 2.8786044120788574,
      "learning_rate": 2.5107312018946124e-06,
      "loss": 0.4967,
      "step": 28670
    },
    {
      "epoch": 2.87,
      "grad_norm": 3.728349208831787,
      "learning_rate": 2.4922291296625226e-06,
      "loss": 0.5575,
      "step": 28680
    },
    {
      "epoch": 2.87,
      "grad_norm": 2.8466265201568604,
      "learning_rate": 2.4737270574304324e-06,
      "loss": 0.5301,
      "step": 28690
    },
    {
      "epoch": 2.87,
      "grad_norm": 2.7398605346679688,
      "learning_rate": 2.4552249851983426e-06,
      "loss": 0.5371,
      "step": 28700
    },
    {
      "epoch": 2.87,
      "grad_norm": 3.105998992919922,
      "learning_rate": 2.4367229129662524e-06,
      "loss": 0.5476,
      "step": 28710
    },
    {
      "epoch": 2.87,
      "grad_norm": 3.782590389251709,
      "learning_rate": 2.418220840734162e-06,
      "loss": 0.5551,
      "step": 28720
    },
    {
      "epoch": 2.87,
      "grad_norm": 2.6822972297668457,
      "learning_rate": 2.3997187685020724e-06,
      "loss": 0.6102,
      "step": 28730
    },
    {
      "epoch": 2.87,
      "grad_norm": 4.355051517486572,
      "learning_rate": 2.381216696269982e-06,
      "loss": 0.6245,
      "step": 28740
    },
    {
      "epoch": 2.87,
      "grad_norm": 2.9540534019470215,
      "learning_rate": 2.3627146240378924e-06,
      "loss": 0.6161,
      "step": 28750
    },
    {
      "epoch": 2.87,
      "grad_norm": 3.499239683151245,
      "learning_rate": 2.344212551805802e-06,
      "loss": 0.4923,
      "step": 28760
    },
    {
      "epoch": 2.87,
      "grad_norm": 3.2809338569641113,
      "learning_rate": 2.3257104795737124e-06,
      "loss": 0.6053,
      "step": 28770
    },
    {
      "epoch": 2.88,
      "grad_norm": 3.178919792175293,
      "learning_rate": 2.3072084073416226e-06,
      "loss": 0.5592,
      "step": 28780
    },
    {
      "epoch": 2.88,
      "grad_norm": 3.4876813888549805,
      "learning_rate": 2.2887063351095324e-06,
      "loss": 0.6305,
      "step": 28790
    },
    {
      "epoch": 2.88,
      "grad_norm": 16.38173484802246,
      "learning_rate": 2.2702042628774426e-06,
      "loss": 0.6033,
      "step": 28800
    },
    {
      "epoch": 2.88,
      "grad_norm": 3.10072660446167,
      "learning_rate": 2.2517021906453524e-06,
      "loss": 0.6052,
      "step": 28810
    },
    {
      "epoch": 2.88,
      "grad_norm": 2.986107110977173,
      "learning_rate": 2.2332001184132626e-06,
      "loss": 0.576,
      "step": 28820
    },
    {
      "epoch": 2.88,
      "grad_norm": 2.915149450302124,
      "learning_rate": 2.2146980461811724e-06,
      "loss": 0.5739,
      "step": 28830
    },
    {
      "epoch": 2.88,
      "grad_norm": 2.7382044792175293,
      "learning_rate": 2.196195973949082e-06,
      "loss": 0.4862,
      "step": 28840
    },
    {
      "epoch": 2.88,
      "grad_norm": 2.577540874481201,
      "learning_rate": 2.1776939017169923e-06,
      "loss": 0.511,
      "step": 28850
    },
    {
      "epoch": 2.88,
      "grad_norm": 3.5669684410095215,
      "learning_rate": 2.159191829484902e-06,
      "loss": 0.6004,
      "step": 28860
    },
    {
      "epoch": 2.88,
      "grad_norm": 2.81742525100708,
      "learning_rate": 2.1406897572528123e-06,
      "loss": 0.5287,
      "step": 28870
    },
    {
      "epoch": 2.89,
      "grad_norm": 3.0893514156341553,
      "learning_rate": 2.1221876850207225e-06,
      "loss": 0.614,
      "step": 28880
    },
    {
      "epoch": 2.89,
      "grad_norm": 3.1244475841522217,
      "learning_rate": 2.1036856127886323e-06,
      "loss": 0.5945,
      "step": 28890
    },
    {
      "epoch": 2.89,
      "grad_norm": 2.9727776050567627,
      "learning_rate": 2.0851835405565425e-06,
      "loss": 0.4705,
      "step": 28900
    },
    {
      "epoch": 2.89,
      "grad_norm": 4.428110122680664,
      "learning_rate": 2.0666814683244523e-06,
      "loss": 0.5811,
      "step": 28910
    },
    {
      "epoch": 2.89,
      "grad_norm": 4.64014196395874,
      "learning_rate": 2.0481793960923625e-06,
      "loss": 0.6057,
      "step": 28920
    },
    {
      "epoch": 2.89,
      "grad_norm": 4.022854804992676,
      "learning_rate": 2.0296773238602727e-06,
      "loss": 0.5788,
      "step": 28930
    },
    {
      "epoch": 2.89,
      "grad_norm": 3.7812788486480713,
      "learning_rate": 2.0111752516281825e-06,
      "loss": 0.5896,
      "step": 28940
    },
    {
      "epoch": 2.89,
      "grad_norm": 3.083404541015625,
      "learning_rate": 1.9926731793960927e-06,
      "loss": 0.4941,
      "step": 28950
    },
    {
      "epoch": 2.89,
      "grad_norm": 3.276925563812256,
      "learning_rate": 1.9741711071640025e-06,
      "loss": 0.5937,
      "step": 28960
    },
    {
      "epoch": 2.89,
      "grad_norm": 3.8519394397735596,
      "learning_rate": 1.9556690349319123e-06,
      "loss": 0.5734,
      "step": 28970
    },
    {
      "epoch": 2.9,
      "grad_norm": 4.452923774719238,
      "learning_rate": 1.9371669626998225e-06,
      "loss": 0.5611,
      "step": 28980
    },
    {
      "epoch": 2.9,
      "grad_norm": 2.803858518600464,
      "learning_rate": 1.9186648904677323e-06,
      "loss": 0.5503,
      "step": 28990
    },
    {
      "epoch": 2.9,
      "grad_norm": 4.093786716461182,
      "learning_rate": 1.9001628182356425e-06,
      "loss": 0.5467,
      "step": 29000
    },
    {
      "epoch": 2.9,
      "grad_norm": 2.7042481899261475,
      "learning_rate": 1.8816607460035523e-06,
      "loss": 0.5715,
      "step": 29010
    },
    {
      "epoch": 2.9,
      "grad_norm": 3.4872679710388184,
      "learning_rate": 1.8631586737714625e-06,
      "loss": 0.6561,
      "step": 29020
    },
    {
      "epoch": 2.9,
      "grad_norm": 4.057846546173096,
      "learning_rate": 1.8446566015393727e-06,
      "loss": 0.5934,
      "step": 29030
    },
    {
      "epoch": 2.9,
      "grad_norm": 3.0304412841796875,
      "learning_rate": 1.8261545293072825e-06,
      "loss": 0.5622,
      "step": 29040
    },
    {
      "epoch": 2.9,
      "grad_norm": 2.543921947479248,
      "learning_rate": 1.8076524570751927e-06,
      "loss": 0.5732,
      "step": 29050
    },
    {
      "epoch": 2.9,
      "grad_norm": 3.6902146339416504,
      "learning_rate": 1.7891503848431025e-06,
      "loss": 0.5672,
      "step": 29060
    },
    {
      "epoch": 2.9,
      "grad_norm": 2.9483702182769775,
      "learning_rate": 1.7706483126110125e-06,
      "loss": 0.5889,
      "step": 29070
    },
    {
      "epoch": 2.91,
      "grad_norm": 2.84744930267334,
      "learning_rate": 1.7521462403789227e-06,
      "loss": 0.5865,
      "step": 29080
    },
    {
      "epoch": 2.91,
      "grad_norm": 2.9900035858154297,
      "learning_rate": 1.7336441681468325e-06,
      "loss": 0.5443,
      "step": 29090
    },
    {
      "epoch": 2.91,
      "grad_norm": 2.3069632053375244,
      "learning_rate": 1.7151420959147427e-06,
      "loss": 0.5557,
      "step": 29100
    },
    {
      "epoch": 2.91,
      "grad_norm": 3.135707139968872,
      "learning_rate": 1.6966400236826524e-06,
      "loss": 0.5292,
      "step": 29110
    },
    {
      "epoch": 2.91,
      "grad_norm": 3.350832223892212,
      "learning_rate": 1.6781379514505624e-06,
      "loss": 0.4979,
      "step": 29120
    },
    {
      "epoch": 2.91,
      "grad_norm": 3.1372385025024414,
      "learning_rate": 1.6596358792184727e-06,
      "loss": 0.5713,
      "step": 29130
    },
    {
      "epoch": 2.91,
      "grad_norm": 3.551556348800659,
      "learning_rate": 1.6411338069863824e-06,
      "loss": 0.563,
      "step": 29140
    },
    {
      "epoch": 2.91,
      "grad_norm": 2.9345645904541016,
      "learning_rate": 1.6226317347542926e-06,
      "loss": 0.5499,
      "step": 29150
    },
    {
      "epoch": 2.91,
      "grad_norm": 3.6072463989257812,
      "learning_rate": 1.6041296625222024e-06,
      "loss": 0.6116,
      "step": 29160
    },
    {
      "epoch": 2.91,
      "grad_norm": 2.5939788818359375,
      "learning_rate": 1.5856275902901126e-06,
      "loss": 0.5615,
      "step": 29170
    },
    {
      "epoch": 2.92,
      "grad_norm": 2.5348172187805176,
      "learning_rate": 1.5671255180580226e-06,
      "loss": 0.532,
      "step": 29180
    },
    {
      "epoch": 2.92,
      "grad_norm": 4.3686604499816895,
      "learning_rate": 1.5486234458259324e-06,
      "loss": 0.5513,
      "step": 29190
    },
    {
      "epoch": 2.92,
      "grad_norm": 2.8411006927490234,
      "learning_rate": 1.5301213735938426e-06,
      "loss": 0.5929,
      "step": 29200
    },
    {
      "epoch": 2.92,
      "grad_norm": 3.0201523303985596,
      "learning_rate": 1.5116193013617526e-06,
      "loss": 0.5332,
      "step": 29210
    },
    {
      "epoch": 2.92,
      "grad_norm": 2.9701757431030273,
      "learning_rate": 1.4931172291296626e-06,
      "loss": 0.585,
      "step": 29220
    },
    {
      "epoch": 2.92,
      "grad_norm": 2.5740089416503906,
      "learning_rate": 1.4746151568975726e-06,
      "loss": 0.5378,
      "step": 29230
    },
    {
      "epoch": 2.92,
      "grad_norm": 4.04636287689209,
      "learning_rate": 1.4561130846654826e-06,
      "loss": 0.5664,
      "step": 29240
    },
    {
      "epoch": 2.92,
      "grad_norm": 2.852648973464966,
      "learning_rate": 1.4376110124333926e-06,
      "loss": 0.486,
      "step": 29250
    },
    {
      "epoch": 2.92,
      "grad_norm": 3.392448663711548,
      "learning_rate": 1.4191089402013026e-06,
      "loss": 0.5464,
      "step": 29260
    },
    {
      "epoch": 2.92,
      "grad_norm": 4.216588973999023,
      "learning_rate": 1.4006068679692126e-06,
      "loss": 0.5191,
      "step": 29270
    },
    {
      "epoch": 2.93,
      "grad_norm": 2.625102996826172,
      "learning_rate": 1.3821047957371226e-06,
      "loss": 0.5199,
      "step": 29280
    },
    {
      "epoch": 2.93,
      "grad_norm": 2.171529769897461,
      "learning_rate": 1.3636027235050326e-06,
      "loss": 0.5497,
      "step": 29290
    },
    {
      "epoch": 2.93,
      "grad_norm": 3.0166802406311035,
      "learning_rate": 1.3451006512729428e-06,
      "loss": 0.4688,
      "step": 29300
    },
    {
      "epoch": 2.93,
      "grad_norm": 3.053800106048584,
      "learning_rate": 1.3265985790408526e-06,
      "loss": 0.5617,
      "step": 29310
    },
    {
      "epoch": 2.93,
      "grad_norm": 3.2700724601745605,
      "learning_rate": 1.3080965068087626e-06,
      "loss": 0.5537,
      "step": 29320
    },
    {
      "epoch": 2.93,
      "grad_norm": 2.9421005249023438,
      "learning_rate": 1.2895944345766726e-06,
      "loss": 0.5557,
      "step": 29330
    },
    {
      "epoch": 2.93,
      "grad_norm": 2.456186056137085,
      "learning_rate": 1.2710923623445826e-06,
      "loss": 0.5707,
      "step": 29340
    },
    {
      "epoch": 2.93,
      "grad_norm": 3.210233449935913,
      "learning_rate": 1.2525902901124928e-06,
      "loss": 0.5299,
      "step": 29350
    },
    {
      "epoch": 2.93,
      "grad_norm": 3.3883771896362305,
      "learning_rate": 1.2340882178804028e-06,
      "loss": 0.5202,
      "step": 29360
    },
    {
      "epoch": 2.93,
      "grad_norm": 2.127387762069702,
      "learning_rate": 1.2155861456483128e-06,
      "loss": 0.5814,
      "step": 29370
    },
    {
      "epoch": 2.94,
      "grad_norm": 2.667032480239868,
      "learning_rate": 1.1970840734162225e-06,
      "loss": 0.5073,
      "step": 29380
    },
    {
      "epoch": 2.94,
      "grad_norm": 2.450608730316162,
      "learning_rate": 1.1785820011841325e-06,
      "loss": 0.5034,
      "step": 29390
    },
    {
      "epoch": 2.94,
      "grad_norm": 2.785144329071045,
      "learning_rate": 1.1600799289520427e-06,
      "loss": 0.614,
      "step": 29400
    },
    {
      "epoch": 2.94,
      "grad_norm": 3.0071463584899902,
      "learning_rate": 1.1415778567199527e-06,
      "loss": 0.522,
      "step": 29410
    },
    {
      "epoch": 2.94,
      "grad_norm": 2.640446424484253,
      "learning_rate": 1.1230757844878627e-06,
      "loss": 0.6057,
      "step": 29420
    },
    {
      "epoch": 2.94,
      "grad_norm": 2.4888813495635986,
      "learning_rate": 1.1045737122557727e-06,
      "loss": 0.5299,
      "step": 29430
    },
    {
      "epoch": 2.94,
      "grad_norm": 3.5701792240142822,
      "learning_rate": 1.0860716400236827e-06,
      "loss": 0.552,
      "step": 29440
    },
    {
      "epoch": 2.94,
      "grad_norm": 3.9599952697753906,
      "learning_rate": 1.0675695677915927e-06,
      "loss": 0.5475,
      "step": 29450
    },
    {
      "epoch": 2.94,
      "grad_norm": 2.8507039546966553,
      "learning_rate": 1.0490674955595027e-06,
      "loss": 0.5746,
      "step": 29460
    },
    {
      "epoch": 2.94,
      "grad_norm": 5.745038032531738,
      "learning_rate": 1.0305654233274127e-06,
      "loss": 0.6117,
      "step": 29470
    },
    {
      "epoch": 2.95,
      "grad_norm": 3.1293258666992188,
      "learning_rate": 1.0120633510953227e-06,
      "loss": 0.589,
      "step": 29480
    },
    {
      "epoch": 2.95,
      "grad_norm": 2.412017345428467,
      "learning_rate": 9.935612788632327e-07,
      "loss": 0.5288,
      "step": 29490
    },
    {
      "epoch": 2.95,
      "grad_norm": 3.1394646167755127,
      "learning_rate": 9.750592066311427e-07,
      "loss": 0.5868,
      "step": 29500
    },
    {
      "epoch": 2.95,
      "grad_norm": 2.9145164489746094,
      "learning_rate": 9.565571343990527e-07,
      "loss": 0.5403,
      "step": 29510
    },
    {
      "epoch": 2.95,
      "grad_norm": 3.2530276775360107,
      "learning_rate": 9.380550621669627e-07,
      "loss": 0.5352,
      "step": 29520
    },
    {
      "epoch": 2.95,
      "grad_norm": 3.6646273136138916,
      "learning_rate": 9.195529899348727e-07,
      "loss": 0.4975,
      "step": 29530
    },
    {
      "epoch": 2.95,
      "grad_norm": 4.02433443069458,
      "learning_rate": 9.010509177027827e-07,
      "loss": 0.5199,
      "step": 29540
    },
    {
      "epoch": 2.95,
      "grad_norm": 2.9803898334503174,
      "learning_rate": 8.825488454706928e-07,
      "loss": 0.6311,
      "step": 29550
    },
    {
      "epoch": 2.95,
      "grad_norm": 3.4152750968933105,
      "learning_rate": 8.640467732386028e-07,
      "loss": 0.511,
      "step": 29560
    },
    {
      "epoch": 2.95,
      "grad_norm": 2.8629326820373535,
      "learning_rate": 8.455447010065128e-07,
      "loss": 0.543,
      "step": 29570
    },
    {
      "epoch": 2.96,
      "grad_norm": 2.590251922607422,
      "learning_rate": 8.270426287744228e-07,
      "loss": 0.5505,
      "step": 29580
    },
    {
      "epoch": 2.96,
      "grad_norm": 5.120983600616455,
      "learning_rate": 8.085405565423327e-07,
      "loss": 0.6253,
      "step": 29590
    },
    {
      "epoch": 2.96,
      "grad_norm": 3.2384049892425537,
      "learning_rate": 7.900384843102429e-07,
      "loss": 0.5673,
      "step": 29600
    },
    {
      "epoch": 2.96,
      "grad_norm": 2.2535436153411865,
      "learning_rate": 7.715364120781528e-07,
      "loss": 0.5651,
      "step": 29610
    },
    {
      "epoch": 2.96,
      "grad_norm": 3.343949556350708,
      "learning_rate": 7.530343398460628e-07,
      "loss": 0.5665,
      "step": 29620
    },
    {
      "epoch": 2.96,
      "grad_norm": 3.207894802093506,
      "learning_rate": 7.345322676139729e-07,
      "loss": 0.5495,
      "step": 29630
    },
    {
      "epoch": 2.96,
      "grad_norm": 2.7737276554107666,
      "learning_rate": 7.160301953818829e-07,
      "loss": 0.5595,
      "step": 29640
    },
    {
      "epoch": 2.96,
      "grad_norm": 3.3772759437561035,
      "learning_rate": 6.975281231497927e-07,
      "loss": 0.4944,
      "step": 29650
    },
    {
      "epoch": 2.96,
      "grad_norm": 2.4365410804748535,
      "learning_rate": 6.790260509177028e-07,
      "loss": 0.5723,
      "step": 29660
    },
    {
      "epoch": 2.96,
      "grad_norm": 3.463791847229004,
      "learning_rate": 6.605239786856128e-07,
      "loss": 0.484,
      "step": 29670
    },
    {
      "epoch": 2.97,
      "grad_norm": 3.4339897632598877,
      "learning_rate": 6.420219064535228e-07,
      "loss": 0.5844,
      "step": 29680
    },
    {
      "epoch": 2.97,
      "grad_norm": 2.185894250869751,
      "learning_rate": 6.235198342214328e-07,
      "loss": 0.5574,
      "step": 29690
    },
    {
      "epoch": 2.97,
      "grad_norm": 2.930920362472534,
      "learning_rate": 6.050177619893428e-07,
      "loss": 0.5247,
      "step": 29700
    },
    {
      "epoch": 2.97,
      "grad_norm": 3.1331474781036377,
      "learning_rate": 5.865156897572528e-07,
      "loss": 0.59,
      "step": 29710
    },
    {
      "epoch": 2.97,
      "grad_norm": 3.0164642333984375,
      "learning_rate": 5.680136175251628e-07,
      "loss": 0.5266,
      "step": 29720
    },
    {
      "epoch": 2.97,
      "grad_norm": 2.942150354385376,
      "learning_rate": 5.495115452930729e-07,
      "loss": 0.5521,
      "step": 29730
    },
    {
      "epoch": 2.97,
      "grad_norm": 3.3103702068328857,
      "learning_rate": 5.310094730609828e-07,
      "loss": 0.5743,
      "step": 29740
    },
    {
      "epoch": 2.97,
      "grad_norm": 4.492138862609863,
      "learning_rate": 5.125074008288928e-07,
      "loss": 0.5424,
      "step": 29750
    },
    {
      "epoch": 2.97,
      "grad_norm": 3.773301601409912,
      "learning_rate": 4.940053285968029e-07,
      "loss": 0.5172,
      "step": 29760
    },
    {
      "epoch": 2.97,
      "grad_norm": 3.19899845123291,
      "learning_rate": 4.7550325636471285e-07,
      "loss": 0.5887,
      "step": 29770
    },
    {
      "epoch": 2.98,
      "grad_norm": 3.3750338554382324,
      "learning_rate": 4.570011841326229e-07,
      "loss": 0.5877,
      "step": 29780
    },
    {
      "epoch": 2.98,
      "grad_norm": 3.9007582664489746,
      "learning_rate": 4.384991119005329e-07,
      "loss": 0.5078,
      "step": 29790
    },
    {
      "epoch": 2.98,
      "grad_norm": 2.9583516120910645,
      "learning_rate": 4.1999703966844283e-07,
      "loss": 0.5261,
      "step": 29800
    },
    {
      "epoch": 2.98,
      "grad_norm": 2.3976173400878906,
      "learning_rate": 4.014949674363529e-07,
      "loss": 0.5402,
      "step": 29810
    },
    {
      "epoch": 2.98,
      "grad_norm": 3.6473300457000732,
      "learning_rate": 3.829928952042629e-07,
      "loss": 0.5848,
      "step": 29820
    },
    {
      "epoch": 2.98,
      "grad_norm": 3.3625762462615967,
      "learning_rate": 3.644908229721729e-07,
      "loss": 0.5117,
      "step": 29830
    },
    {
      "epoch": 2.98,
      "grad_norm": 3.117249011993408,
      "learning_rate": 3.459887507400829e-07,
      "loss": 0.586,
      "step": 29840
    },
    {
      "epoch": 2.98,
      "grad_norm": 3.216273784637451,
      "learning_rate": 3.274866785079929e-07,
      "loss": 0.5393,
      "step": 29850
    },
    {
      "epoch": 2.98,
      "grad_norm": 3.173656463623047,
      "learning_rate": 3.089846062759029e-07,
      "loss": 0.5881,
      "step": 29860
    },
    {
      "epoch": 2.98,
      "grad_norm": 2.419682741165161,
      "learning_rate": 2.9048253404381296e-07,
      "loss": 0.5202,
      "step": 29870
    },
    {
      "epoch": 2.99,
      "grad_norm": 2.6127943992614746,
      "learning_rate": 2.719804618117229e-07,
      "loss": 0.6043,
      "step": 29880
    },
    {
      "epoch": 2.99,
      "grad_norm": 3.7520322799682617,
      "learning_rate": 2.534783895796329e-07,
      "loss": 0.5342,
      "step": 29890
    },
    {
      "epoch": 2.99,
      "grad_norm": 2.980217456817627,
      "learning_rate": 2.3497631734754295e-07,
      "loss": 0.4933,
      "step": 29900
    },
    {
      "epoch": 2.99,
      "grad_norm": 2.855807065963745,
      "learning_rate": 2.1647424511545295e-07,
      "loss": 0.5584,
      "step": 29910
    },
    {
      "epoch": 2.99,
      "grad_norm": 4.12361478805542,
      "learning_rate": 1.9797217288336297e-07,
      "loss": 0.5633,
      "step": 29920
    },
    {
      "epoch": 2.99,
      "grad_norm": 2.9975104331970215,
      "learning_rate": 1.7947010065127296e-07,
      "loss": 0.559,
      "step": 29930
    },
    {
      "epoch": 2.99,
      "grad_norm": 2.586752414703369,
      "learning_rate": 1.6096802841918296e-07,
      "loss": 0.5726,
      "step": 29940
    },
    {
      "epoch": 2.99,
      "grad_norm": 3.352992534637451,
      "learning_rate": 1.4246595618709295e-07,
      "loss": 0.5709,
      "step": 29950
    },
    {
      "epoch": 2.99,
      "grad_norm": 3.1259593963623047,
      "learning_rate": 1.2396388395500298e-07,
      "loss": 0.5755,
      "step": 29960
    },
    {
      "epoch": 2.99,
      "grad_norm": 2.7503414154052734,
      "learning_rate": 1.0546181172291297e-07,
      "loss": 0.586,
      "step": 29970
    },
    {
      "epoch": 3.0,
      "grad_norm": 3.0592668056488037,
      "learning_rate": 8.695973949082298e-08,
      "loss": 0.5687,
      "step": 29980
    },
    {
      "epoch": 3.0,
      "grad_norm": 5.0297064781188965,
      "learning_rate": 6.845766725873298e-08,
      "loss": 0.5856,
      "step": 29990
    },
    {
      "epoch": 3.0,
      "grad_norm": 3.7029261589050293,
      "learning_rate": 4.9955595026642985e-08,
      "loss": 0.542,
      "step": 30000
    },
    {
      "epoch": 3.0,
      "grad_norm": 3.1853909492492676,
      "learning_rate": 3.1453522794552994e-08,
      "loss": 0.5209,
      "step": 30010
    },
    {
      "epoch": 3.0,
      "grad_norm": 2.7676422595977783,
      "learning_rate": 1.2951450562462996e-08,
      "loss": 0.562,
      "step": 30020
    },
    {
      "epoch": 3.0,
      "eval_accuracy": 0.817,
      "eval_loss": 0.6981079578399658,
      "eval_runtime": 1268.4364,
      "eval_samples_per_second": 39.419,
      "eval_steps_per_second": 1.232,
      "step": 30027
    },
    {
      "epoch": 3.0,
      "step": 30027,
      "total_flos": 3.004984745972632e+20,
      "train_loss": 0.6298189749666737,
      "train_runtime": 160475.3567,
      "train_samples_per_second": 23.951,
      "train_steps_per_second": 0.187
    }
  ],
  "logging_steps": 10,
  "max_steps": 30027,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "total_flos": 3.004984745972632e+20,
  "train_batch_size": 32,
  "trial_name": null,
  "trial_params": null
}