{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.20004074149521286,
  "eval_steps": 500,
  "global_step": 1964,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.00010185373803218578,
      "grad_norm": 12610.728515625,
      "learning_rate": 1e-05,
      "loss": 0.7328,
      "step": 1
    },
    {
      "epoch": 0.00020370747606437156,
      "grad_norm": 14.471967697143555,
      "learning_rate": 1e-05,
      "loss": 0.8028,
      "step": 2
    },
    {
      "epoch": 0.00030556121409655736,
      "grad_norm": 13.004044532775879,
      "learning_rate": 1e-05,
      "loss": 0.8217,
      "step": 3
    },
    {
      "epoch": 0.00040741495212874313,
      "grad_norm": 8.225481986999512,
      "learning_rate": 1e-05,
      "loss": 0.7045,
      "step": 4
    },
    {
      "epoch": 0.000509268690160929,
      "grad_norm": 6.355350494384766,
      "learning_rate": 1e-05,
      "loss": 0.7178,
      "step": 5
    },
    {
      "epoch": 0.0006111224281931147,
      "grad_norm": 2.3789596557617188,
      "learning_rate": 1e-05,
      "loss": 0.7514,
      "step": 6
    },
    {
      "epoch": 0.0007129761662253005,
      "grad_norm": 4.038780212402344,
      "learning_rate": 1e-05,
      "loss": 0.7027,
      "step": 7
    },
    {
      "epoch": 0.0008148299042574863,
      "grad_norm": 4.076998710632324,
      "learning_rate": 1e-05,
      "loss": 0.6696,
      "step": 8
    },
    {
      "epoch": 0.000916683642289672,
      "grad_norm": 3.9496796131134033,
      "learning_rate": 1e-05,
      "loss": 0.6945,
      "step": 9
    },
    {
      "epoch": 0.001018537380321858,
      "grad_norm": 2.247884511947632,
      "learning_rate": 1e-05,
      "loss": 0.6864,
      "step": 10
    },
    {
      "epoch": 0.0011203911183540437,
      "grad_norm": 5.118582725524902,
      "learning_rate": 1e-05,
      "loss": 0.6492,
      "step": 11
    },
    {
      "epoch": 0.0012222448563862294,
      "grad_norm": 5.5930304527282715,
      "learning_rate": 1e-05,
      "loss": 0.7122,
      "step": 12
    },
    {
      "epoch": 0.0013240985944184152,
      "grad_norm": 309.58465576171875,
      "learning_rate": 1e-05,
      "loss": 0.8818,
      "step": 13
    },
    {
      "epoch": 0.001425952332450601,
      "grad_norm": 9790.515625,
      "learning_rate": 1e-05,
      "loss": 0.7445,
      "step": 14
    },
    {
      "epoch": 0.0015278060704827868,
      "grad_norm": 431.43804931640625,
      "learning_rate": 1e-05,
      "loss": 0.7248,
      "step": 15
    },
    {
      "epoch": 0.0016296598085149725,
      "grad_norm": 50.08370590209961,
      "learning_rate": 1e-05,
      "loss": 0.6785,
      "step": 16
    },
    {
      "epoch": 0.0017315135465471583,
      "grad_norm": 23.15427017211914,
      "learning_rate": 1e-05,
      "loss": 0.6461,
      "step": 17
    },
    {
      "epoch": 0.001833367284579344,
      "grad_norm": 4.00063419342041,
      "learning_rate": 1e-05,
      "loss": 0.7237,
      "step": 18
    },
    {
      "epoch": 0.0019352210226115298,
      "grad_norm": 9.830622673034668,
      "learning_rate": 1e-05,
      "loss": 0.8122,
      "step": 19
    },
    {
      "epoch": 0.002037074760643716,
      "grad_norm": 9.490591049194336,
      "learning_rate": 1e-05,
      "loss": 0.7419,
      "step": 20
    },
    {
      "epoch": 0.0021389284986759014,
      "grad_norm": 1.0061068534851074,
      "learning_rate": 1e-05,
      "loss": 0.5338,
      "step": 21
    },
    {
      "epoch": 0.0022407822367080873,
      "grad_norm": 9.614782333374023,
      "learning_rate": 1e-05,
      "loss": 0.6371,
      "step": 22
    },
    {
      "epoch": 0.002342635974740273,
      "grad_norm": 1.380859375,
      "learning_rate": 1e-05,
      "loss": 0.6381,
      "step": 23
    },
    {
      "epoch": 0.002444489712772459,
      "grad_norm": 58.96141815185547,
      "learning_rate": 1e-05,
      "loss": 0.68,
      "step": 24
    },
    {
      "epoch": 0.0025463434508046444,
      "grad_norm": 5.625697612762451,
      "learning_rate": 1e-05,
      "loss": 0.7695,
      "step": 25
    },
    {
      "epoch": 0.0026481971888368304,
      "grad_norm": 1.3962339162826538,
      "learning_rate": 1e-05,
      "loss": 0.6499,
      "step": 26
    },
    {
      "epoch": 0.002750050926869016,
      "grad_norm": 8.060663223266602,
      "learning_rate": 1e-05,
      "loss": 0.6202,
      "step": 27
    },
    {
      "epoch": 0.002851904664901202,
      "grad_norm": 14.691725730895996,
      "learning_rate": 1e-05,
      "loss": 0.5845,
      "step": 28
    },
    {
      "epoch": 0.0029537584029333875,
      "grad_norm": 2.1490907669067383,
      "learning_rate": 1e-05,
      "loss": 0.7813,
      "step": 29
    },
    {
      "epoch": 0.0030556121409655735,
      "grad_norm": 28.812545776367188,
      "learning_rate": 1e-05,
      "loss": 0.7187,
      "step": 30
    },
    {
      "epoch": 0.003157465878997759,
      "grad_norm": 169.79360961914062,
      "learning_rate": 1e-05,
      "loss": 0.7021,
      "step": 31
    },
    {
      "epoch": 0.003259319617029945,
      "grad_norm": 61.43861770629883,
      "learning_rate": 1e-05,
      "loss": 0.735,
      "step": 32
    },
    {
      "epoch": 0.0033611733550621306,
      "grad_norm": 164.4089813232422,
      "learning_rate": 1e-05,
      "loss": 0.669,
      "step": 33
    },
    {
      "epoch": 0.0034630270930943166,
      "grad_norm": 2.642670154571533,
      "learning_rate": 1e-05,
      "loss": 0.646,
      "step": 34
    },
    {
      "epoch": 0.003564880831126502,
      "grad_norm": 3.438150405883789,
      "learning_rate": 1e-05,
      "loss": 0.6947,
      "step": 35
    },
    {
      "epoch": 0.003666734569158688,
      "grad_norm": 0.767279863357544,
      "learning_rate": 1e-05,
      "loss": 0.7704,
      "step": 36
    },
    {
      "epoch": 0.003768588307190874,
      "grad_norm": 1.9423552751541138,
      "learning_rate": 1e-05,
      "loss": 0.6713,
      "step": 37
    },
    {
      "epoch": 0.0038704420452230597,
      "grad_norm": 1.0111401081085205,
      "learning_rate": 1e-05,
      "loss": 0.5527,
      "step": 38
    },
    {
      "epoch": 0.003972295783255245,
      "grad_norm": 0.8828579783439636,
      "learning_rate": 1e-05,
      "loss": 0.6439,
      "step": 39
    },
    {
      "epoch": 0.004074149521287432,
      "grad_norm": 1.153768539428711,
      "learning_rate": 1e-05,
      "loss": 0.604,
      "step": 40
    },
    {
      "epoch": 0.004176003259319617,
      "grad_norm": 0.8564895987510681,
      "learning_rate": 1e-05,
      "loss": 0.5865,
      "step": 41
    },
    {
      "epoch": 0.004277856997351803,
      "grad_norm": 5.775850772857666,
      "learning_rate": 1e-05,
      "loss": 0.5968,
      "step": 42
    },
    {
      "epoch": 0.004379710735383988,
      "grad_norm": 4.856806755065918,
      "learning_rate": 1e-05,
      "loss": 0.6582,
      "step": 43
    },
    {
      "epoch": 0.004481564473416175,
      "grad_norm": 1.215474009513855,
      "learning_rate": 1e-05,
      "loss": 0.6342,
      "step": 44
    },
    {
      "epoch": 0.00458341821144836,
      "grad_norm": 2.2078816890716553,
      "learning_rate": 1e-05,
      "loss": 0.7297,
      "step": 45
    },
    {
      "epoch": 0.004685271949480546,
      "grad_norm": 7.799239635467529,
      "learning_rate": 1e-05,
      "loss": 0.7408,
      "step": 46
    },
    {
      "epoch": 0.004787125687512731,
      "grad_norm": 1.1369922161102295,
      "learning_rate": 1e-05,
      "loss": 0.6108,
      "step": 47
    },
    {
      "epoch": 0.004888979425544918,
      "grad_norm": 5.192207336425781,
      "learning_rate": 1e-05,
      "loss": 0.6863,
      "step": 48
    },
    {
      "epoch": 0.004990833163577103,
      "grad_norm": 3.2989015579223633,
      "learning_rate": 1e-05,
      "loss": 0.7547,
      "step": 49
    },
    {
      "epoch": 0.005092686901609289,
      "grad_norm": 1.3840556144714355,
      "learning_rate": 1e-05,
      "loss": 0.6213,
      "step": 50
    },
    {
      "epoch": 0.005194540639641474,
      "grad_norm": 0.9112766981124878,
      "learning_rate": 1e-05,
      "loss": 0.5573,
      "step": 51
    },
    {
      "epoch": 0.005296394377673661,
      "grad_norm": 3.07917857170105,
      "learning_rate": 1e-05,
      "loss": 0.5893,
      "step": 52
    },
    {
      "epoch": 0.005398248115705846,
      "grad_norm": 1.6646569967269897,
      "learning_rate": 1e-05,
      "loss": 0.7143,
      "step": 53
    },
    {
      "epoch": 0.005500101853738032,
      "grad_norm": 1.115686297416687,
      "learning_rate": 1e-05,
      "loss": 0.7481,
      "step": 54
    },
    {
      "epoch": 0.005601955591770218,
      "grad_norm": 0.8796848654747009,
      "learning_rate": 1e-05,
      "loss": 0.7151,
      "step": 55
    },
    {
      "epoch": 0.005703809329802404,
      "grad_norm": 0.7320218086242676,
      "learning_rate": 1e-05,
      "loss": 0.6505,
      "step": 56
    },
    {
      "epoch": 0.0058056630678345895,
      "grad_norm": 0.7863436341285706,
      "learning_rate": 1e-05,
      "loss": 0.6312,
      "step": 57
    },
    {
      "epoch": 0.005907516805866775,
      "grad_norm": 0.8781784176826477,
      "learning_rate": 1e-05,
      "loss": 0.6951,
      "step": 58
    },
    {
      "epoch": 0.0060093705438989614,
      "grad_norm": 1.347891092300415,
      "learning_rate": 1e-05,
      "loss": 0.6486,
      "step": 59
    },
    {
      "epoch": 0.006111224281931147,
      "grad_norm": 0.7465260028839111,
      "learning_rate": 1e-05,
      "loss": 0.6303,
      "step": 60
    },
    {
      "epoch": 0.0062130780199633326,
      "grad_norm": 0.7596818804740906,
      "learning_rate": 1e-05,
      "loss": 0.6784,
      "step": 61
    },
    {
      "epoch": 0.006314931757995518,
      "grad_norm": 0.7835193276405334,
      "learning_rate": 1e-05,
      "loss": 0.639,
      "step": 62
    },
    {
      "epoch": 0.0064167854960277045,
      "grad_norm": 1.3976199626922607,
      "learning_rate": 1e-05,
      "loss": 0.7337,
      "step": 63
    },
    {
      "epoch": 0.00651863923405989,
      "grad_norm": 1.5329099893569946,
      "learning_rate": 1e-05,
      "loss": 0.6214,
      "step": 64
    },
    {
      "epoch": 0.006620492972092076,
      "grad_norm": 0.8071589469909668,
      "learning_rate": 1e-05,
      "loss": 0.628,
      "step": 65
    },
    {
      "epoch": 0.006722346710124261,
      "grad_norm": 1.5339531898498535,
      "learning_rate": 1e-05,
      "loss": 0.6213,
      "step": 66
    },
    {
      "epoch": 0.006824200448156448,
      "grad_norm": 1.0251972675323486,
      "learning_rate": 1e-05,
      "loss": 0.6388,
      "step": 67
    },
    {
      "epoch": 0.006926054186188633,
      "grad_norm": 1.865662693977356,
      "learning_rate": 1e-05,
      "loss": 0.7454,
      "step": 68
    },
    {
      "epoch": 0.007027907924220819,
      "grad_norm": 0.94582200050354,
      "learning_rate": 1e-05,
      "loss": 0.5899,
      "step": 69
    },
    {
      "epoch": 0.007129761662253004,
      "grad_norm": 1.0621520280838013,
      "learning_rate": 1e-05,
      "loss": 0.6258,
      "step": 70
    },
    {
      "epoch": 0.007231615400285191,
      "grad_norm": 0.8011901378631592,
      "learning_rate": 1e-05,
      "loss": 0.7206,
      "step": 71
    },
    {
      "epoch": 0.007333469138317376,
      "grad_norm": 1.0321247577667236,
      "learning_rate": 1e-05,
      "loss": 0.6416,
      "step": 72
    },
    {
      "epoch": 0.007435322876349562,
      "grad_norm": 0.8012139201164246,
      "learning_rate": 1e-05,
      "loss": 0.6934,
      "step": 73
    },
    {
      "epoch": 0.007537176614381748,
      "grad_norm": 0.8603199124336243,
      "learning_rate": 1e-05,
      "loss": 0.6483,
      "step": 74
    },
    {
      "epoch": 0.007639030352413934,
      "grad_norm": 0.7118842601776123,
      "learning_rate": 1e-05,
      "loss": 0.6085,
      "step": 75
    },
    {
      "epoch": 0.007740884090446119,
      "grad_norm": 0.7828629612922668,
      "learning_rate": 1e-05,
      "loss": 0.6696,
      "step": 76
    },
    {
      "epoch": 0.007842737828478306,
      "grad_norm": 0.7653829455375671,
      "learning_rate": 1e-05,
      "loss": 0.6101,
      "step": 77
    },
    {
      "epoch": 0.00794459156651049,
      "grad_norm": 0.775439441204071,
      "learning_rate": 1e-05,
      "loss": 0.7079,
      "step": 78
    },
    {
      "epoch": 0.008046445304542677,
      "grad_norm": 0.8008677959442139,
      "learning_rate": 1e-05,
      "loss": 0.6219,
      "step": 79
    },
    {
      "epoch": 0.008148299042574863,
      "grad_norm": 0.7772924304008484,
      "learning_rate": 1e-05,
      "loss": 0.697,
      "step": 80
    },
    {
      "epoch": 0.008250152780607048,
      "grad_norm": 1.6409274339675903,
      "learning_rate": 1e-05,
      "loss": 0.6678,
      "step": 81
    },
    {
      "epoch": 0.008352006518639234,
      "grad_norm": 0.6525459885597229,
      "learning_rate": 1e-05,
      "loss": 0.5335,
      "step": 82
    },
    {
      "epoch": 0.008453860256671419,
      "grad_norm": 0.7116015553474426,
      "learning_rate": 1e-05,
      "loss": 0.6725,
      "step": 83
    },
    {
      "epoch": 0.008555713994703605,
      "grad_norm": 0.6567236185073853,
      "learning_rate": 1e-05,
      "loss": 0.5758,
      "step": 84
    },
    {
      "epoch": 0.008657567732735792,
      "grad_norm": 0.6985763907432556,
      "learning_rate": 1e-05,
      "loss": 0.6445,
      "step": 85
    },
    {
      "epoch": 0.008759421470767977,
      "grad_norm": 0.7583510279655457,
      "learning_rate": 1e-05,
      "loss": 0.6755,
      "step": 86
    },
    {
      "epoch": 0.008861275208800163,
      "grad_norm": 0.8382185101509094,
      "learning_rate": 1e-05,
      "loss": 0.7082,
      "step": 87
    },
    {
      "epoch": 0.00896312894683235,
      "grad_norm": 0.8686456084251404,
      "learning_rate": 1e-05,
      "loss": 0.6222,
      "step": 88
    },
    {
      "epoch": 0.009064982684864534,
      "grad_norm": 0.7377558946609497,
      "learning_rate": 1e-05,
      "loss": 0.6342,
      "step": 89
    },
    {
      "epoch": 0.00916683642289672,
      "grad_norm": 0.8516892790794373,
      "learning_rate": 1e-05,
      "loss": 0.5892,
      "step": 90
    },
    {
      "epoch": 0.009268690160928907,
      "grad_norm": 0.7434036135673523,
      "learning_rate": 1e-05,
      "loss": 0.6223,
      "step": 91
    },
    {
      "epoch": 0.009370543898961092,
      "grad_norm": 0.734371542930603,
      "learning_rate": 1e-05,
      "loss": 0.616,
      "step": 92
    },
    {
      "epoch": 0.009472397636993278,
      "grad_norm": 0.8091976642608643,
      "learning_rate": 1e-05,
      "loss": 0.624,
      "step": 93
    },
    {
      "epoch": 0.009574251375025463,
      "grad_norm": 6.00289249420166,
      "learning_rate": 1e-05,
      "loss": 0.7483,
      "step": 94
    },
    {
      "epoch": 0.009676105113057649,
      "grad_norm": 0.7124324440956116,
      "learning_rate": 1e-05,
      "loss": 0.5269,
      "step": 95
    },
    {
      "epoch": 0.009777958851089836,
      "grad_norm": 1.1696999073028564,
      "learning_rate": 1e-05,
      "loss": 0.7345,
      "step": 96
    },
    {
      "epoch": 0.00987981258912202,
      "grad_norm": 0.7794660925865173,
      "learning_rate": 1e-05,
      "loss": 0.6035,
      "step": 97
    },
    {
      "epoch": 0.009981666327154207,
      "grad_norm": 0.7304438948631287,
      "learning_rate": 1e-05,
      "loss": 0.5495,
      "step": 98
    },
    {
      "epoch": 0.010083520065186393,
      "grad_norm": 0.7008278965950012,
      "learning_rate": 1e-05,
      "loss": 0.5929,
      "step": 99
    },
    {
      "epoch": 0.010185373803218578,
      "grad_norm": 0.7164067029953003,
      "learning_rate": 1e-05,
      "loss": 0.5861,
      "step": 100
    },
    {
      "epoch": 0.010287227541250764,
      "grad_norm": 1.006693720817566,
      "learning_rate": 1e-05,
      "loss": 0.6623,
      "step": 101
    },
    {
      "epoch": 0.010389081279282949,
      "grad_norm": 0.7796070575714111,
      "learning_rate": 1e-05,
      "loss": 0.6576,
      "step": 102
    },
    {
      "epoch": 0.010490935017315135,
      "grad_norm": 1.6452319622039795,
      "learning_rate": 1e-05,
      "loss": 0.5254,
      "step": 103
    },
    {
      "epoch": 0.010592788755347322,
      "grad_norm": 0.8213658928871155,
      "learning_rate": 1e-05,
      "loss": 0.7414,
      "step": 104
    },
    {
      "epoch": 0.010694642493379506,
      "grad_norm": 1.0115694999694824,
      "learning_rate": 1e-05,
      "loss": 0.69,
      "step": 105
    },
    {
      "epoch": 0.010796496231411693,
      "grad_norm": 1.8766635656356812,
      "learning_rate": 1e-05,
      "loss": 0.6048,
      "step": 106
    },
    {
      "epoch": 0.01089834996944388,
      "grad_norm": 0.9741010069847107,
      "learning_rate": 1e-05,
      "loss": 0.7542,
      "step": 107
    },
    {
      "epoch": 0.011000203707476064,
      "grad_norm": 0.7494999170303345,
      "learning_rate": 1e-05,
      "loss": 0.6675,
      "step": 108
    },
    {
      "epoch": 0.01110205744550825,
      "grad_norm": 0.6901335120201111,
      "learning_rate": 1e-05,
      "loss": 0.6008,
      "step": 109
    },
    {
      "epoch": 0.011203911183540437,
      "grad_norm": 0.7829835414886475,
      "learning_rate": 1e-05,
      "loss": 0.5737,
      "step": 110
    },
    {
      "epoch": 0.011305764921572621,
      "grad_norm": 0.703410267829895,
      "learning_rate": 1e-05,
      "loss": 0.6567,
      "step": 111
    },
    {
      "epoch": 0.011407618659604808,
      "grad_norm": 0.8529506921768188,
      "learning_rate": 1e-05,
      "loss": 0.6986,
      "step": 112
    },
    {
      "epoch": 0.011509472397636993,
      "grad_norm": 0.9783811569213867,
      "learning_rate": 1e-05,
      "loss": 0.6256,
      "step": 113
    },
    {
      "epoch": 0.011611326135669179,
      "grad_norm": 0.6947956681251526,
      "learning_rate": 1e-05,
      "loss": 0.6248,
      "step": 114
    },
    {
      "epoch": 0.011713179873701365,
      "grad_norm": 0.8019235134124756,
      "learning_rate": 1e-05,
      "loss": 0.697,
      "step": 115
    },
    {
      "epoch": 0.01181503361173355,
      "grad_norm": 0.8122947216033936,
      "learning_rate": 1e-05,
      "loss": 0.718,
      "step": 116
    },
    {
      "epoch": 0.011916887349765736,
      "grad_norm": 1.0324422121047974,
      "learning_rate": 1e-05,
      "loss": 0.7632,
      "step": 117
    },
    {
      "epoch": 0.012018741087797923,
      "grad_norm": 0.9706213474273682,
      "learning_rate": 1e-05,
      "loss": 0.7013,
      "step": 118
    },
    {
      "epoch": 0.012120594825830108,
      "grad_norm": 1.2155436277389526,
      "learning_rate": 1e-05,
      "loss": 0.7138,
      "step": 119
    },
    {
      "epoch": 0.012222448563862294,
      "grad_norm": 0.7045034766197205,
      "learning_rate": 1e-05,
      "loss": 0.6119,
      "step": 120
    },
    {
      "epoch": 0.012324302301894479,
      "grad_norm": 0.8093136548995972,
      "learning_rate": 1e-05,
      "loss": 0.685,
      "step": 121
    },
    {
      "epoch": 0.012426156039926665,
      "grad_norm": 0.8622587323188782,
      "learning_rate": 1e-05,
      "loss": 0.6678,
      "step": 122
    },
    {
      "epoch": 0.012528009777958852,
      "grad_norm": 1.5155493021011353,
      "learning_rate": 1e-05,
      "loss": 0.651,
      "step": 123
    },
    {
      "epoch": 0.012629863515991036,
      "grad_norm": 0.7853415608406067,
      "learning_rate": 1e-05,
      "loss": 0.6657,
      "step": 124
    },
    {
      "epoch": 0.012731717254023223,
      "grad_norm": 0.8519205451011658,
      "learning_rate": 1e-05,
      "loss": 0.6047,
      "step": 125
    },
    {
      "epoch": 0.012833570992055409,
      "grad_norm": 0.8238124251365662,
      "learning_rate": 1e-05,
      "loss": 0.7442,
      "step": 126
    },
    {
      "epoch": 0.012935424730087594,
      "grad_norm": 1.3068904876708984,
      "learning_rate": 1e-05,
      "loss": 0.6033,
      "step": 127
    },
    {
      "epoch": 0.01303727846811978,
      "grad_norm": 0.7886245250701904,
      "learning_rate": 1e-05,
      "loss": 0.7195,
      "step": 128
    },
    {
      "epoch": 0.013139132206151967,
      "grad_norm": 1.0109678506851196,
      "learning_rate": 1e-05,
      "loss": 0.5946,
      "step": 129
    },
    {
      "epoch": 0.013240985944184151,
      "grad_norm": 0.8140949010848999,
      "learning_rate": 1e-05,
      "loss": 0.684,
      "step": 130
    },
    {
      "epoch": 0.013342839682216338,
      "grad_norm": 0.6924501657485962,
      "learning_rate": 1e-05,
      "loss": 0.576,
      "step": 131
    },
    {
      "epoch": 0.013444693420248522,
      "grad_norm": 0.7656324505805969,
      "learning_rate": 1e-05,
      "loss": 0.5223,
      "step": 132
    },
    {
      "epoch": 0.013546547158280709,
      "grad_norm": 0.7586893439292908,
      "learning_rate": 1e-05,
      "loss": 0.6739,
      "step": 133
    },
    {
      "epoch": 0.013648400896312895,
      "grad_norm": 0.7636433243751526,
      "learning_rate": 1e-05,
      "loss": 0.587,
      "step": 134
    },
    {
      "epoch": 0.01375025463434508,
      "grad_norm": 0.7914572954177856,
      "learning_rate": 1e-05,
      "loss": 0.5974,
      "step": 135
    },
    {
      "epoch": 0.013852108372377266,
      "grad_norm": 2.531299591064453,
      "learning_rate": 1e-05,
      "loss": 0.6051,
      "step": 136
    },
    {
      "epoch": 0.013953962110409453,
      "grad_norm": 0.664414644241333,
      "learning_rate": 1e-05,
      "loss": 0.6879,
      "step": 137
    },
    {
      "epoch": 0.014055815848441637,
      "grad_norm": 0.8657525181770325,
      "learning_rate": 1e-05,
      "loss": 0.685,
      "step": 138
    },
    {
      "epoch": 0.014157669586473824,
      "grad_norm": 1.1910099983215332,
      "learning_rate": 1e-05,
      "loss": 0.5841,
      "step": 139
    },
    {
      "epoch": 0.014259523324506009,
      "grad_norm": 0.8012441992759705,
      "learning_rate": 1e-05,
      "loss": 0.6632,
      "step": 140
    },
    {
      "epoch": 0.014361377062538195,
      "grad_norm": 0.7429513931274414,
      "learning_rate": 1e-05,
      "loss": 0.5642,
      "step": 141
    },
    {
      "epoch": 0.014463230800570381,
      "grad_norm": 0.8318994045257568,
      "learning_rate": 1e-05,
      "loss": 0.5862,
      "step": 142
    },
    {
      "epoch": 0.014565084538602566,
      "grad_norm": 0.6946913003921509,
      "learning_rate": 1e-05,
      "loss": 0.5466,
      "step": 143
    },
    {
      "epoch": 0.014666938276634752,
      "grad_norm": 1.488000512123108,
      "learning_rate": 1e-05,
      "loss": 0.687,
      "step": 144
    },
    {
      "epoch": 0.014768792014666939,
      "grad_norm": 1.221524715423584,
      "learning_rate": 1e-05,
      "loss": 0.646,
      "step": 145
    },
    {
      "epoch": 0.014870645752699124,
      "grad_norm": 0.9125781059265137,
      "learning_rate": 1e-05,
      "loss": 0.6055,
      "step": 146
    },
    {
      "epoch": 0.01497249949073131,
      "grad_norm": 0.7112661004066467,
      "learning_rate": 1e-05,
      "loss": 0.6506,
      "step": 147
    },
    {
      "epoch": 0.015074353228763496,
      "grad_norm": 0.8351877927780151,
      "learning_rate": 1e-05,
      "loss": 0.5878,
      "step": 148
    },
    {
      "epoch": 0.015176206966795681,
      "grad_norm": 0.7170542478561401,
      "learning_rate": 1e-05,
      "loss": 0.6561,
      "step": 149
    },
    {
      "epoch": 0.015278060704827868,
      "grad_norm": 2.6715877056121826,
      "learning_rate": 1e-05,
      "loss": 0.6251,
      "step": 150
    },
    {
      "epoch": 0.015379914442860052,
      "grad_norm": 1.4009124040603638,
      "learning_rate": 1e-05,
      "loss": 0.6495,
      "step": 151
    },
    {
      "epoch": 0.015481768180892239,
      "grad_norm": 0.7919671535491943,
      "learning_rate": 1e-05,
      "loss": 0.653,
      "step": 152
    },
    {
      "epoch": 0.015583621918924425,
      "grad_norm": 0.8348219990730286,
      "learning_rate": 1e-05,
      "loss": 0.6352,
      "step": 153
    },
    {
      "epoch": 0.01568547565695661,
      "grad_norm": 0.7283215522766113,
      "learning_rate": 1e-05,
      "loss": 0.6067,
      "step": 154
    },
    {
      "epoch": 0.015787329394988794,
      "grad_norm": 0.6840522289276123,
      "learning_rate": 1e-05,
      "loss": 0.6725,
      "step": 155
    },
    {
      "epoch": 0.01588918313302098,
      "grad_norm": 0.7196663022041321,
      "learning_rate": 1e-05,
      "loss": 0.5948,
      "step": 156
    },
    {
      "epoch": 0.015991036871053167,
      "grad_norm": 0.8176289796829224,
      "learning_rate": 1e-05,
      "loss": 0.6211,
      "step": 157
    },
    {
      "epoch": 0.016092890609085354,
      "grad_norm": 0.7654233574867249,
      "learning_rate": 1e-05,
      "loss": 0.6406,
      "step": 158
    },
    {
      "epoch": 0.01619474434711754,
      "grad_norm": 0.7709569931030273,
      "learning_rate": 1e-05,
      "loss": 0.7553,
      "step": 159
    },
    {
      "epoch": 0.016296598085149726,
      "grad_norm": 0.720740556716919,
      "learning_rate": 1e-05,
      "loss": 0.447,
      "step": 160
    },
    {
      "epoch": 0.01639845182318191,
      "grad_norm": 1.0640588998794556,
      "learning_rate": 1e-05,
      "loss": 0.6072,
      "step": 161
    },
    {
      "epoch": 0.016500305561214096,
      "grad_norm": 0.8106371760368347,
      "learning_rate": 1e-05,
      "loss": 0.6516,
      "step": 162
    },
    {
      "epoch": 0.016602159299246282,
      "grad_norm": 1.0884299278259277,
      "learning_rate": 1e-05,
      "loss": 0.7137,
      "step": 163
    },
    {
      "epoch": 0.01670401303727847,
      "grad_norm": 0.693871796131134,
      "learning_rate": 1e-05,
      "loss": 0.6066,
      "step": 164
    },
    {
      "epoch": 0.016805866775310655,
      "grad_norm": 0.7451905608177185,
      "learning_rate": 1e-05,
      "loss": 0.5447,
      "step": 165
    },
    {
      "epoch": 0.016907720513342838,
      "grad_norm": 0.8603605031967163,
      "learning_rate": 1e-05,
      "loss": 0.5034,
      "step": 166
    },
    {
      "epoch": 0.017009574251375024,
      "grad_norm": 0.7907921075820923,
      "learning_rate": 1e-05,
      "loss": 0.6435,
      "step": 167
    },
    {
      "epoch": 0.01711142798940721,
      "grad_norm": 0.7101093530654907,
      "learning_rate": 1e-05,
      "loss": 0.6033,
      "step": 168
    },
    {
      "epoch": 0.017213281727439397,
      "grad_norm": 0.722674548625946,
      "learning_rate": 1e-05,
      "loss": 0.6274,
      "step": 169
    },
    {
      "epoch": 0.017315135465471584,
      "grad_norm": 0.8815941214561462,
      "learning_rate": 1e-05,
      "loss": 0.6815,
      "step": 170
    },
    {
      "epoch": 0.01741698920350377,
      "grad_norm": 0.7409526109695435,
      "learning_rate": 1e-05,
      "loss": 0.5702,
      "step": 171
    },
    {
      "epoch": 0.017518842941535953,
      "grad_norm": 0.9410927891731262,
      "learning_rate": 1e-05,
      "loss": 0.6175,
      "step": 172
    },
    {
      "epoch": 0.01762069667956814,
      "grad_norm": 0.931002676486969,
      "learning_rate": 1e-05,
      "loss": 0.668,
      "step": 173
    },
    {
      "epoch": 0.017722550417600326,
      "grad_norm": 0.755597710609436,
      "learning_rate": 1e-05,
      "loss": 0.6451,
      "step": 174
    },
    {
      "epoch": 0.017824404155632512,
      "grad_norm": 0.7514654397964478,
      "learning_rate": 1e-05,
      "loss": 0.5443,
      "step": 175
    },
    {
      "epoch": 0.0179262578936647,
      "grad_norm": 0.8526032567024231,
      "learning_rate": 1e-05,
      "loss": 0.7071,
      "step": 176
    },
    {
      "epoch": 0.018028111631696882,
      "grad_norm": 0.6936739087104797,
      "learning_rate": 1e-05,
      "loss": 0.5703,
      "step": 177
    },
    {
      "epoch": 0.018129965369729068,
      "grad_norm": 0.8015168905258179,
      "learning_rate": 1e-05,
      "loss": 0.6846,
      "step": 178
    },
    {
      "epoch": 0.018231819107761255,
      "grad_norm": 0.7100470066070557,
      "learning_rate": 1e-05,
      "loss": 0.6368,
      "step": 179
    },
    {
      "epoch": 0.01833367284579344,
      "grad_norm": 0.814242422580719,
      "learning_rate": 1e-05,
      "loss": 0.6185,
      "step": 180
    },
    {
      "epoch": 0.018435526583825627,
      "grad_norm": 0.7863835692405701,
      "learning_rate": 1e-05,
      "loss": 0.7278,
      "step": 181
    },
    {
      "epoch": 0.018537380321857814,
      "grad_norm": 2.1091620922088623,
      "learning_rate": 1e-05,
      "loss": 0.6781,
      "step": 182
    },
    {
      "epoch": 0.018639234059889997,
      "grad_norm": 0.829468846321106,
      "learning_rate": 1e-05,
      "loss": 0.5508,
      "step": 183
    },
    {
      "epoch": 0.018741087797922183,
      "grad_norm": 1.3892536163330078,
      "learning_rate": 1e-05,
      "loss": 0.614,
      "step": 184
    },
    {
      "epoch": 0.01884294153595437,
      "grad_norm": 1.2029712200164795,
      "learning_rate": 1e-05,
      "loss": 0.5911,
      "step": 185
    },
    {
      "epoch": 0.018944795273986556,
      "grad_norm": 0.7936339378356934,
      "learning_rate": 1e-05,
      "loss": 0.5236,
      "step": 186
    },
    {
      "epoch": 0.019046649012018742,
      "grad_norm": 0.8358895778656006,
      "learning_rate": 1e-05,
      "loss": 0.6723,
      "step": 187
    },
    {
      "epoch": 0.019148502750050925,
      "grad_norm": 1.074989676475525,
      "learning_rate": 1e-05,
      "loss": 0.701,
      "step": 188
    },
    {
      "epoch": 0.019250356488083112,
      "grad_norm": 0.8932434320449829,
      "learning_rate": 1e-05,
      "loss": 0.6075,
      "step": 189
    },
    {
      "epoch": 0.019352210226115298,
      "grad_norm": 0.8578760623931885,
      "learning_rate": 1e-05,
      "loss": 0.6391,
      "step": 190
    },
    {
      "epoch": 0.019454063964147485,
      "grad_norm": 1.421859860420227,
      "learning_rate": 1e-05,
      "loss": 0.6133,
      "step": 191
    },
    {
      "epoch": 0.01955591770217967,
      "grad_norm": 0.8115224242210388,
      "learning_rate": 1e-05,
      "loss": 0.6417,
      "step": 192
    },
    {
      "epoch": 0.019657771440211854,
      "grad_norm": 1.2554569244384766,
      "learning_rate": 1e-05,
      "loss": 0.5653,
      "step": 193
    },
    {
      "epoch": 0.01975962517824404,
      "grad_norm": 0.7907059192657471,
      "learning_rate": 1e-05,
      "loss": 0.6184,
      "step": 194
    },
    {
      "epoch": 0.019861478916276227,
      "grad_norm": 0.877109169960022,
      "learning_rate": 1e-05,
      "loss": 0.666,
      "step": 195
    },
    {
      "epoch": 0.019963332654308413,
      "grad_norm": 0.7310389876365662,
      "learning_rate": 1e-05,
      "loss": 0.6254,
      "step": 196
    },
    {
      "epoch": 0.0200651863923406,
      "grad_norm": 0.7492273449897766,
      "learning_rate": 1e-05,
      "loss": 0.689,
      "step": 197
    },
    {
      "epoch": 0.020167040130372786,
      "grad_norm": 0.7816500067710876,
      "learning_rate": 1e-05,
      "loss": 0.5939,
      "step": 198
    },
    {
      "epoch": 0.02026889386840497,
      "grad_norm": 0.7543092370033264,
      "learning_rate": 1e-05,
      "loss": 0.5694,
      "step": 199
    },
    {
      "epoch": 0.020370747606437156,
      "grad_norm": 0.7257562279701233,
      "learning_rate": 1e-05,
      "loss": 0.5967,
      "step": 200
    },
    {
      "epoch": 0.020472601344469342,
      "grad_norm": 0.7277064323425293,
      "learning_rate": 1e-05,
      "loss": 0.5785,
      "step": 201
    },
    {
      "epoch": 0.02057445508250153,
      "grad_norm": 0.744244396686554,
      "learning_rate": 1e-05,
      "loss": 0.6988,
      "step": 202
    },
    {
      "epoch": 0.020676308820533715,
      "grad_norm": 0.7893126606941223,
      "learning_rate": 1e-05,
      "loss": 0.6186,
      "step": 203
    },
    {
      "epoch": 0.020778162558565898,
      "grad_norm": 0.8711054921150208,
      "learning_rate": 1e-05,
      "loss": 0.6489,
      "step": 204
    },
    {
      "epoch": 0.020880016296598084,
      "grad_norm": 0.7919479608535767,
      "learning_rate": 1e-05,
      "loss": 0.5721,
      "step": 205
    },
    {
      "epoch": 0.02098187003463027,
      "grad_norm": 0.7361835241317749,
      "learning_rate": 1e-05,
      "loss": 0.5336,
      "step": 206
    },
    {
      "epoch": 0.021083723772662457,
      "grad_norm": 0.8457374572753906,
      "learning_rate": 1e-05,
      "loss": 0.6602,
      "step": 207
    },
    {
      "epoch": 0.021185577510694643,
      "grad_norm": 0.8585442900657654,
      "learning_rate": 1e-05,
      "loss": 0.5928,
      "step": 208
    },
    {
      "epoch": 0.02128743124872683,
      "grad_norm": 0.7903105616569519,
      "learning_rate": 1e-05,
      "loss": 0.6471,
      "step": 209
    },
    {
      "epoch": 0.021389284986759013,
      "grad_norm": 0.8327987194061279,
      "learning_rate": 1e-05,
      "loss": 0.5996,
      "step": 210
    },
    {
      "epoch": 0.0214911387247912,
      "grad_norm": 0.8903084993362427,
      "learning_rate": 1e-05,
      "loss": 0.6606,
      "step": 211
    },
    {
      "epoch": 0.021592992462823386,
      "grad_norm": 0.7285277843475342,
      "learning_rate": 1e-05,
      "loss": 0.5745,
      "step": 212
    },
    {
      "epoch": 0.021694846200855572,
      "grad_norm": 0.8476149439811707,
      "learning_rate": 1e-05,
      "loss": 0.5831,
      "step": 213
    },
    {
      "epoch": 0.02179669993888776,
      "grad_norm": 0.7123770713806152,
      "learning_rate": 1e-05,
      "loss": 0.5757,
      "step": 214
    },
    {
      "epoch": 0.02189855367691994,
      "grad_norm": 1.1804066896438599,
      "learning_rate": 1e-05,
      "loss": 0.6346,
      "step": 215
    },
    {
      "epoch": 0.022000407414952128,
      "grad_norm": 0.7264906167984009,
      "learning_rate": 1e-05,
      "loss": 0.6758,
      "step": 216
    },
    {
      "epoch": 0.022102261152984314,
      "grad_norm": 0.7813764810562134,
      "learning_rate": 1e-05,
      "loss": 0.5739,
      "step": 217
    },
    {
      "epoch": 0.0222041148910165,
      "grad_norm": 0.9157280325889587,
      "learning_rate": 1e-05,
      "loss": 0.7707,
      "step": 218
    },
    {
      "epoch": 0.022305968629048687,
      "grad_norm": 0.7615137696266174,
      "learning_rate": 1e-05,
      "loss": 0.7383,
      "step": 219
    },
    {
      "epoch": 0.022407822367080873,
      "grad_norm": 0.7049786448478699,
      "learning_rate": 1e-05,
      "loss": 0.5837,
      "step": 220
    },
    {
      "epoch": 0.022509676105113056,
      "grad_norm": 0.7532627582550049,
      "learning_rate": 1e-05,
      "loss": 0.6447,
      "step": 221
    },
    {
      "epoch": 0.022611529843145243,
      "grad_norm": 0.6851832270622253,
      "learning_rate": 1e-05,
      "loss": 0.6122,
      "step": 222
    },
    {
      "epoch": 0.02271338358117743,
      "grad_norm": 0.7924888134002686,
      "learning_rate": 1e-05,
      "loss": 0.6087,
      "step": 223
    },
    {
      "epoch": 0.022815237319209616,
      "grad_norm": 0.741143524646759,
      "learning_rate": 1e-05,
      "loss": 0.6131,
      "step": 224
    },
    {
      "epoch": 0.022917091057241802,
      "grad_norm": 0.6681298613548279,
      "learning_rate": 1e-05,
      "loss": 0.6115,
      "step": 225
    },
    {
      "epoch": 0.023018944795273985,
      "grad_norm": 0.7450506687164307,
      "learning_rate": 1e-05,
      "loss": 0.6577,
      "step": 226
    },
    {
      "epoch": 0.02312079853330617,
      "grad_norm": 0.7200204730033875,
      "learning_rate": 1e-05,
      "loss": 0.6468,
      "step": 227
    },
    {
      "epoch": 0.023222652271338358,
      "grad_norm": 0.7523159384727478,
      "learning_rate": 1e-05,
      "loss": 0.5804,
      "step": 228
    },
    {
      "epoch": 0.023324506009370544,
      "grad_norm": 2.9711811542510986,
      "learning_rate": 1e-05,
      "loss": 0.5728,
      "step": 229
    },
    {
      "epoch": 0.02342635974740273,
      "grad_norm": 0.7326246500015259,
      "learning_rate": 1e-05,
      "loss": 0.6162,
      "step": 230
    },
    {
      "epoch": 0.023528213485434917,
      "grad_norm": 0.8297001123428345,
      "learning_rate": 1e-05,
      "loss": 0.6505,
      "step": 231
    },
    {
      "epoch": 0.0236300672234671,
      "grad_norm": 0.6766908168792725,
      "learning_rate": 1e-05,
      "loss": 0.597,
      "step": 232
    },
    {
      "epoch": 0.023731920961499287,
      "grad_norm": 0.6946976184844971,
      "learning_rate": 1e-05,
      "loss": 0.6398,
      "step": 233
    },
    {
      "epoch": 0.023833774699531473,
      "grad_norm": 0.736839234828949,
      "learning_rate": 1e-05,
      "loss": 0.6399,
      "step": 234
    },
    {
      "epoch": 0.02393562843756366,
      "grad_norm": 0.9904949069023132,
      "learning_rate": 1e-05,
      "loss": 0.6618,
      "step": 235
    },
    {
      "epoch": 0.024037482175595846,
      "grad_norm": 0.8295114636421204,
      "learning_rate": 1e-05,
      "loss": 0.6072,
      "step": 236
    },
    {
      "epoch": 0.02413933591362803,
      "grad_norm": 0.7822363376617432,
      "learning_rate": 1e-05,
      "loss": 0.6591,
      "step": 237
    },
    {
      "epoch": 0.024241189651660215,
      "grad_norm": 0.7291380167007446,
      "learning_rate": 1e-05,
      "loss": 0.6223,
      "step": 238
    },
    {
      "epoch": 0.0243430433896924,
      "grad_norm": 0.7201743125915527,
      "learning_rate": 1e-05,
      "loss": 0.5037,
      "step": 239
    },
    {
      "epoch": 0.024444897127724588,
      "grad_norm": 0.908179521560669,
      "learning_rate": 1e-05,
      "loss": 0.662,
      "step": 240
    },
    {
      "epoch": 0.024546750865756774,
      "grad_norm": 0.8172079920768738,
      "learning_rate": 1e-05,
      "loss": 0.6989,
      "step": 241
    },
    {
      "epoch": 0.024648604603788957,
      "grad_norm": 0.7769279479980469,
      "learning_rate": 1e-05,
      "loss": 0.6399,
      "step": 242
    },
    {
      "epoch": 0.024750458341821144,
      "grad_norm": 0.6861381530761719,
      "learning_rate": 1e-05,
      "loss": 0.6233,
      "step": 243
    },
    {
      "epoch": 0.02485231207985333,
      "grad_norm": 0.7785218358039856,
      "learning_rate": 1e-05,
      "loss": 0.7405,
      "step": 244
    },
    {
      "epoch": 0.024954165817885517,
      "grad_norm": 0.7394468784332275,
      "learning_rate": 1e-05,
      "loss": 0.5666,
      "step": 245
    },
    {
      "epoch": 0.025056019555917703,
      "grad_norm": 0.7275334596633911,
      "learning_rate": 1e-05,
      "loss": 0.6847,
      "step": 246
    },
    {
      "epoch": 0.02515787329394989,
      "grad_norm": 0.709642231464386,
      "learning_rate": 1e-05,
      "loss": 0.5751,
      "step": 247
    },
    {
      "epoch": 0.025259727031982072,
      "grad_norm": 0.8390650749206543,
      "learning_rate": 1e-05,
      "loss": 0.628,
      "step": 248
    },
    {
      "epoch": 0.02536158077001426,
      "grad_norm": 1.4494476318359375,
      "learning_rate": 1e-05,
      "loss": 0.6043,
      "step": 249
    },
    {
      "epoch": 0.025463434508046445,
      "grad_norm": 0.8352144360542297,
      "learning_rate": 1e-05,
      "loss": 0.7346,
      "step": 250
    },
    {
      "epoch": 0.02556528824607863,
      "grad_norm": 0.7427406311035156,
      "learning_rate": 1e-05,
      "loss": 0.5732,
      "step": 251
    },
    {
      "epoch": 0.025667141984110818,
      "grad_norm": 5.808642864227295,
      "learning_rate": 1e-05,
      "loss": 0.825,
      "step": 252
    },
    {
      "epoch": 0.025768995722143,
      "grad_norm": 0.7383471131324768,
      "learning_rate": 1e-05,
      "loss": 0.6308,
      "step": 253
    },
    {
      "epoch": 0.025870849460175187,
      "grad_norm": 0.6996216773986816,
      "learning_rate": 1e-05,
      "loss": 0.6241,
      "step": 254
    },
    {
      "epoch": 0.025972703198207374,
      "grad_norm": 0.8101980090141296,
      "learning_rate": 1e-05,
      "loss": 0.7092,
      "step": 255
    },
    {
      "epoch": 0.02607455693623956,
      "grad_norm": 0.7141795754432678,
      "learning_rate": 1e-05,
      "loss": 0.6586,
      "step": 256
    },
    {
      "epoch": 0.026176410674271747,
      "grad_norm": 1.0128402709960938,
      "learning_rate": 1e-05,
      "loss": 0.7582,
      "step": 257
    },
    {
      "epoch": 0.026278264412303933,
      "grad_norm": 0.8155788779258728,
      "learning_rate": 1e-05,
      "loss": 0.6321,
      "step": 258
    },
    {
      "epoch": 0.026380118150336116,
      "grad_norm": 0.796553909778595,
      "learning_rate": 1e-05,
      "loss": 0.7183,
      "step": 259
    },
    {
      "epoch": 0.026481971888368303,
      "grad_norm": 0.742751955986023,
      "learning_rate": 1e-05,
      "loss": 0.6695,
      "step": 260
    },
    {
      "epoch": 0.02658382562640049,
      "grad_norm": 0.7421090006828308,
      "learning_rate": 1e-05,
      "loss": 0.621,
      "step": 261
    },
    {
      "epoch": 0.026685679364432675,
      "grad_norm": 0.9003134965896606,
      "learning_rate": 1e-05,
      "loss": 0.709,
      "step": 262
    },
    {
      "epoch": 0.026787533102464862,
      "grad_norm": 0.7788957357406616,
      "learning_rate": 1e-05,
      "loss": 0.6137,
      "step": 263
    },
    {
      "epoch": 0.026889386840497045,
      "grad_norm": 0.8069181442260742,
      "learning_rate": 1e-05,
      "loss": 0.6127,
      "step": 264
    },
    {
      "epoch": 0.02699124057852923,
      "grad_norm": 0.7115676403045654,
      "learning_rate": 1e-05,
      "loss": 0.6266,
      "step": 265
    },
    {
      "epoch": 0.027093094316561418,
      "grad_norm": 2.8350605964660645,
      "learning_rate": 1e-05,
      "loss": 0.6012,
      "step": 266
    },
    {
      "epoch": 0.027194948054593604,
      "grad_norm": 0.9879708886146545,
      "learning_rate": 1e-05,
      "loss": 0.6764,
      "step": 267
    },
    {
      "epoch": 0.02729680179262579,
      "grad_norm": 4.938745021820068,
      "learning_rate": 1e-05,
      "loss": 0.7171,
      "step": 268
    },
    {
      "epoch": 0.027398655530657977,
      "grad_norm": 1.0209016799926758,
      "learning_rate": 1e-05,
      "loss": 0.6039,
      "step": 269
    },
    {
      "epoch": 0.02750050926869016,
      "grad_norm": 0.9301048517227173,
      "learning_rate": 1e-05,
      "loss": 0.5959,
      "step": 270
    },
    {
      "epoch": 0.027602363006722346,
      "grad_norm": 2.9877359867095947,
      "learning_rate": 1e-05,
      "loss": 0.6711,
      "step": 271
    },
    {
      "epoch": 0.027704216744754533,
      "grad_norm": 0.6970268487930298,
      "learning_rate": 1e-05,
      "loss": 0.5804,
      "step": 272
    },
    {
      "epoch": 0.02780607048278672,
      "grad_norm": 0.8432291746139526,
      "learning_rate": 1e-05,
      "loss": 0.5558,
      "step": 273
    },
    {
      "epoch": 0.027907924220818905,
      "grad_norm": 0.9287071228027344,
      "learning_rate": 1e-05,
      "loss": 0.609,
      "step": 274
    },
    {
      "epoch": 0.02800977795885109,
      "grad_norm": 0.7452564239501953,
      "learning_rate": 1e-05,
      "loss": 0.6509,
      "step": 275
    },
    {
      "epoch": 0.028111631696883275,
      "grad_norm": 0.68149334192276,
      "learning_rate": 1e-05,
      "loss": 0.5653,
      "step": 276
    },
    {
      "epoch": 0.02821348543491546,
      "grad_norm": 0.8779266476631165,
      "learning_rate": 1e-05,
      "loss": 0.6484,
      "step": 277
    },
    {
      "epoch": 0.028315339172947648,
      "grad_norm": 0.687239944934845,
      "learning_rate": 1e-05,
      "loss": 0.6309,
      "step": 278
    },
    {
      "epoch": 0.028417192910979834,
      "grad_norm": 0.7121841311454773,
      "learning_rate": 1e-05,
      "loss": 0.6943,
      "step": 279
    },
    {
      "epoch": 0.028519046649012017,
      "grad_norm": 0.7714688777923584,
      "learning_rate": 1e-05,
      "loss": 0.6784,
      "step": 280
    },
    {
      "epoch": 0.028620900387044203,
      "grad_norm": 1.211281657218933,
      "learning_rate": 1e-05,
      "loss": 0.737,
      "step": 281
    },
    {
      "epoch": 0.02872275412507639,
      "grad_norm": 0.8463706970214844,
      "learning_rate": 1e-05,
      "loss": 0.6544,
      "step": 282
    },
    {
      "epoch": 0.028824607863108576,
      "grad_norm": 0.8392128944396973,
      "learning_rate": 1e-05,
      "loss": 0.6935,
      "step": 283
    },
    {
      "epoch": 0.028926461601140763,
      "grad_norm": 0.7457103729248047,
      "learning_rate": 1e-05,
      "loss": 0.6493,
      "step": 284
    },
    {
      "epoch": 0.02902831533917295,
      "grad_norm": 0.7767012119293213,
      "learning_rate": 1e-05,
      "loss": 0.5666,
      "step": 285
    },
    {
      "epoch": 0.029130169077205132,
      "grad_norm": 0.8656037449836731,
      "learning_rate": 1e-05,
      "loss": 0.5348,
      "step": 286
    },
    {
      "epoch": 0.02923202281523732,
      "grad_norm": 0.8091086745262146,
      "learning_rate": 1e-05,
      "loss": 0.5242,
      "step": 287
    },
    {
      "epoch": 0.029333876553269505,
      "grad_norm": 0.8119608759880066,
      "learning_rate": 1e-05,
      "loss": 0.644,
      "step": 288
    },
    {
      "epoch": 0.02943573029130169,
      "grad_norm": 1.2761181592941284,
      "learning_rate": 1e-05,
      "loss": 0.5845,
      "step": 289
    },
    {
      "epoch": 0.029537584029333878,
      "grad_norm": 1.0263665914535522,
      "learning_rate": 1e-05,
      "loss": 0.6173,
      "step": 290
    },
    {
      "epoch": 0.02963943776736606,
      "grad_norm": 1.5741636753082275,
      "learning_rate": 1e-05,
      "loss": 0.6901,
      "step": 291
    },
    {
      "epoch": 0.029741291505398247,
      "grad_norm": 1.8625038862228394,
      "learning_rate": 1e-05,
      "loss": 0.7524,
      "step": 292
    },
    {
      "epoch": 0.029843145243430434,
      "grad_norm": 1.1325687170028687,
      "learning_rate": 1e-05,
      "loss": 0.683,
      "step": 293
    },
    {
      "epoch": 0.02994499898146262,
      "grad_norm": 8.209813117980957,
      "learning_rate": 1e-05,
      "loss": 0.6414,
      "step": 294
    },
    {
      "epoch": 0.030046852719494806,
      "grad_norm": 2.9081859588623047,
      "learning_rate": 1e-05,
      "loss": 0.5467,
      "step": 295
    },
    {
      "epoch": 0.030148706457526993,
      "grad_norm": 15.290477752685547,
      "learning_rate": 1e-05,
      "loss": 0.6805,
      "step": 296
    },
    {
      "epoch": 0.030250560195559176,
      "grad_norm": 0.8957488536834717,
      "learning_rate": 1e-05,
      "loss": 0.6289,
      "step": 297
    },
    {
      "epoch": 0.030352413933591362,
      "grad_norm": 0.9674990773200989,
      "learning_rate": 1e-05,
      "loss": 0.6256,
      "step": 298
    },
    {
      "epoch": 0.03045426767162355,
      "grad_norm": 0.8036205172538757,
      "learning_rate": 1e-05,
      "loss": 0.6846,
      "step": 299
    },
    {
      "epoch": 0.030556121409655735,
      "grad_norm": 0.8609041571617126,
      "learning_rate": 1e-05,
      "loss": 0.5999,
      "step": 300
    },
    {
      "epoch": 0.03065797514768792,
      "grad_norm": 0.7007842063903809,
      "learning_rate": 1e-05,
      "loss": 0.591,
      "step": 301
    },
    {
      "epoch": 0.030759828885720104,
      "grad_norm": 2.473060131072998,
      "learning_rate": 1e-05,
      "loss": 0.5591,
      "step": 302
    },
    {
      "epoch": 0.03086168262375229,
      "grad_norm": 0.6998567581176758,
      "learning_rate": 1e-05,
      "loss": 0.5904,
      "step": 303
    },
    {
      "epoch": 0.030963536361784477,
      "grad_norm": 0.8857860565185547,
      "learning_rate": 1e-05,
      "loss": 0.6304,
      "step": 304
    },
    {
      "epoch": 0.031065390099816664,
      "grad_norm": 0.7506779432296753,
      "learning_rate": 1e-05,
      "loss": 0.7039,
      "step": 305
    },
    {
      "epoch": 0.03116724383784885,
      "grad_norm": 0.7997220754623413,
      "learning_rate": 1e-05,
      "loss": 0.6705,
      "step": 306
    },
    {
      "epoch": 0.03126909757588103,
      "grad_norm": 0.7776315212249756,
      "learning_rate": 1e-05,
      "loss": 0.6234,
      "step": 307
    },
    {
      "epoch": 0.03137095131391322,
      "grad_norm": 0.7429510951042175,
      "learning_rate": 1e-05,
      "loss": 0.6261,
      "step": 308
    },
    {
      "epoch": 0.031472805051945406,
      "grad_norm": 0.82254958152771,
      "learning_rate": 1e-05,
      "loss": 0.6433,
      "step": 309
    },
    {
      "epoch": 0.03157465878997759,
      "grad_norm": 0.6449676156044006,
      "learning_rate": 1e-05,
      "loss": 0.5127,
      "step": 310
    },
    {
      "epoch": 0.03167651252800978,
      "grad_norm": 0.7283485531806946,
      "learning_rate": 1e-05,
      "loss": 0.6139,
      "step": 311
    },
    {
      "epoch": 0.03177836626604196,
      "grad_norm": 0.7149266004562378,
      "learning_rate": 1e-05,
      "loss": 0.5933,
      "step": 312
    },
    {
      "epoch": 0.03188022000407415,
      "grad_norm": 0.8850765824317932,
      "learning_rate": 1e-05,
      "loss": 0.7104,
      "step": 313
    },
    {
      "epoch": 0.031982073742106334,
      "grad_norm": 0.744724690914154,
      "learning_rate": 1e-05,
      "loss": 0.6903,
      "step": 314
    },
    {
      "epoch": 0.032083927480138524,
      "grad_norm": 0.8177756071090698,
      "learning_rate": 1e-05,
      "loss": 0.696,
      "step": 315
    },
    {
      "epoch": 0.03218578121817071,
      "grad_norm": 1.2421759366989136,
      "learning_rate": 1e-05,
      "loss": 0.5855,
      "step": 316
    },
    {
      "epoch": 0.03228763495620289,
      "grad_norm": 0.7683358192443848,
      "learning_rate": 1e-05,
      "loss": 0.5058,
      "step": 317
    },
    {
      "epoch": 0.03238948869423508,
      "grad_norm": 0.6950756311416626,
      "learning_rate": 1e-05,
      "loss": 0.5384,
      "step": 318
    },
    {
      "epoch": 0.03249134243226726,
      "grad_norm": 1.07426917552948,
      "learning_rate": 1e-05,
      "loss": 0.6189,
      "step": 319
    },
    {
      "epoch": 0.03259319617029945,
      "grad_norm": 0.736413836479187,
      "learning_rate": 1e-05,
      "loss": 0.6243,
      "step": 320
    },
    {
      "epoch": 0.032695049908331636,
      "grad_norm": 0.7722553610801697,
      "learning_rate": 1e-05,
      "loss": 0.6415,
      "step": 321
    },
    {
      "epoch": 0.03279690364636382,
      "grad_norm": 0.7026001214981079,
      "learning_rate": 1e-05,
      "loss": 0.5585,
      "step": 322
    },
    {
      "epoch": 0.03289875738439601,
      "grad_norm": 0.7390739321708679,
      "learning_rate": 1e-05,
      "loss": 0.6102,
      "step": 323
    },
    {
      "epoch": 0.03300061112242819,
      "grad_norm": 0.841698169708252,
      "learning_rate": 1e-05,
      "loss": 0.6255,
      "step": 324
    },
    {
      "epoch": 0.03310246486046038,
      "grad_norm": 0.8019681572914124,
      "learning_rate": 1e-05,
      "loss": 0.7012,
      "step": 325
    },
    {
      "epoch": 0.033204318598492565,
      "grad_norm": 0.8391836881637573,
      "learning_rate": 1e-05,
      "loss": 0.7281,
      "step": 326
    },
    {
      "epoch": 0.03330617233652475,
      "grad_norm": 0.7784910202026367,
      "learning_rate": 1e-05,
      "loss": 0.7098,
      "step": 327
    },
    {
      "epoch": 0.03340802607455694,
      "grad_norm": 1.9951430559158325,
      "learning_rate": 1e-05,
      "loss": 0.6123,
      "step": 328
    },
    {
      "epoch": 0.03350987981258912,
      "grad_norm": 0.7676467895507812,
      "learning_rate": 1e-05,
      "loss": 0.6652,
      "step": 329
    },
    {
      "epoch": 0.03361173355062131,
      "grad_norm": 0.8367417454719543,
      "learning_rate": 1e-05,
      "loss": 0.6419,
      "step": 330
    },
    {
      "epoch": 0.03371358728865349,
      "grad_norm": 0.806698203086853,
      "learning_rate": 1e-05,
      "loss": 0.5371,
      "step": 331
    },
    {
      "epoch": 0.033815441026685676,
      "grad_norm": 0.7874969244003296,
      "learning_rate": 1e-05,
      "loss": 0.5981,
      "step": 332
    },
    {
      "epoch": 0.033917294764717866,
      "grad_norm": 0.8934038281440735,
      "learning_rate": 1e-05,
      "loss": 0.674,
      "step": 333
    },
    {
      "epoch": 0.03401914850275005,
      "grad_norm": 0.744712769985199,
      "learning_rate": 1e-05,
      "loss": 0.5521,
      "step": 334
    },
    {
      "epoch": 0.03412100224078224,
      "grad_norm": 0.8229150772094727,
      "learning_rate": 1e-05,
      "loss": 0.7191,
      "step": 335
    },
    {
      "epoch": 0.03422285597881442,
      "grad_norm": 0.8248013257980347,
      "learning_rate": 1e-05,
      "loss": 0.6613,
      "step": 336
    },
    {
      "epoch": 0.03432470971684661,
      "grad_norm": 1.0820980072021484,
      "learning_rate": 1e-05,
      "loss": 0.6234,
      "step": 337
    },
    {
      "epoch": 0.034426563454878795,
      "grad_norm": 0.7874535322189331,
      "learning_rate": 1e-05,
      "loss": 0.625,
      "step": 338
    },
    {
      "epoch": 0.03452841719291098,
      "grad_norm": 0.7502294182777405,
      "learning_rate": 1e-05,
      "loss": 0.5525,
      "step": 339
    },
    {
      "epoch": 0.03463027093094317,
      "grad_norm": 0.6945724487304688,
      "learning_rate": 1e-05,
      "loss": 0.6226,
      "step": 340
    },
    {
      "epoch": 0.03473212466897535,
      "grad_norm": 0.7327695488929749,
      "learning_rate": 1e-05,
      "loss": 0.63,
      "step": 341
    },
    {
      "epoch": 0.03483397840700754,
      "grad_norm": 0.7859274744987488,
      "learning_rate": 1e-05,
      "loss": 0.7318,
      "step": 342
    },
    {
      "epoch": 0.03493583214503972,
      "grad_norm": 0.764479398727417,
      "learning_rate": 1e-05,
      "loss": 0.6599,
      "step": 343
    },
    {
      "epoch": 0.035037685883071906,
      "grad_norm": 9.362853050231934,
      "learning_rate": 1e-05,
      "loss": 0.5638,
      "step": 344
    },
    {
      "epoch": 0.035139539621104096,
      "grad_norm": 0.7278593182563782,
      "learning_rate": 1e-05,
      "loss": 0.5877,
      "step": 345
    },
    {
      "epoch": 0.03524139335913628,
      "grad_norm": 0.7378716468811035,
      "learning_rate": 1e-05,
      "loss": 0.6046,
      "step": 346
    },
    {
      "epoch": 0.03534324709716847,
      "grad_norm": 0.9114452600479126,
      "learning_rate": 1e-05,
      "loss": 0.5825,
      "step": 347
    },
    {
      "epoch": 0.03544510083520065,
      "grad_norm": 0.780362069606781,
      "learning_rate": 1e-05,
      "loss": 0.6532,
      "step": 348
    },
    {
      "epoch": 0.035546954573232835,
      "grad_norm": 0.6857213377952576,
      "learning_rate": 1e-05,
      "loss": 0.5208,
      "step": 349
    },
    {
      "epoch": 0.035648808311265025,
      "grad_norm": 0.7500598430633545,
      "learning_rate": 1e-05,
      "loss": 0.7631,
      "step": 350
    },
    {
      "epoch": 0.03575066204929721,
      "grad_norm": 0.7015424370765686,
      "learning_rate": 1e-05,
      "loss": 0.5775,
      "step": 351
    },
    {
      "epoch": 0.0358525157873294,
      "grad_norm": 0.7037370800971985,
      "learning_rate": 1e-05,
      "loss": 0.6048,
      "step": 352
    },
    {
      "epoch": 0.03595436952536158,
      "grad_norm": 0.9005858302116394,
      "learning_rate": 1e-05,
      "loss": 0.5678,
      "step": 353
    },
    {
      "epoch": 0.036056223263393763,
      "grad_norm": 0.8079325556755066,
      "learning_rate": 1e-05,
      "loss": 0.7175,
      "step": 354
    },
    {
      "epoch": 0.03615807700142595,
      "grad_norm": 0.6549964547157288,
      "learning_rate": 1e-05,
      "loss": 0.5558,
      "step": 355
    },
    {
      "epoch": 0.036259930739458136,
      "grad_norm": 0.8143327832221985,
      "learning_rate": 1e-05,
      "loss": 0.6633,
      "step": 356
    },
    {
      "epoch": 0.036361784477490326,
      "grad_norm": 0.7516679763793945,
      "learning_rate": 1e-05,
      "loss": 0.6157,
      "step": 357
    },
    {
      "epoch": 0.03646363821552251,
      "grad_norm": 0.8377848863601685,
      "learning_rate": 1e-05,
      "loss": 0.707,
      "step": 358
    },
    {
      "epoch": 0.03656549195355469,
      "grad_norm": 0.7395724058151245,
      "learning_rate": 1e-05,
      "loss": 0.6008,
      "step": 359
    },
    {
      "epoch": 0.03666734569158688,
      "grad_norm": 0.7139277458190918,
      "learning_rate": 1e-05,
      "loss": 0.5684,
      "step": 360
    },
    {
      "epoch": 0.036769199429619065,
      "grad_norm": 0.6489725112915039,
      "learning_rate": 1e-05,
      "loss": 0.5487,
      "step": 361
    },
    {
      "epoch": 0.036871053167651255,
      "grad_norm": 0.8900223970413208,
      "learning_rate": 1e-05,
      "loss": 0.6291,
      "step": 362
    },
    {
      "epoch": 0.03697290690568344,
      "grad_norm": 0.7020028233528137,
      "learning_rate": 1e-05,
      "loss": 0.5914,
      "step": 363
    },
    {
      "epoch": 0.03707476064371563,
      "grad_norm": 0.7697473168373108,
      "learning_rate": 1e-05,
      "loss": 0.6839,
      "step": 364
    },
    {
      "epoch": 0.03717661438174781,
      "grad_norm": 0.7522200345993042,
      "learning_rate": 1e-05,
      "loss": 0.6083,
      "step": 365
    },
    {
      "epoch": 0.037278468119779994,
      "grad_norm": 1.0330132246017456,
      "learning_rate": 1e-05,
      "loss": 0.6582,
      "step": 366
    },
    {
      "epoch": 0.037380321857812183,
      "grad_norm": 0.7270215153694153,
      "learning_rate": 1e-05,
      "loss": 0.5503,
      "step": 367
    },
    {
      "epoch": 0.037482175595844366,
      "grad_norm": 0.7318791747093201,
      "learning_rate": 1e-05,
      "loss": 0.6726,
      "step": 368
    },
    {
      "epoch": 0.037584029333876556,
      "grad_norm": 0.810580313205719,
      "learning_rate": 1e-05,
      "loss": 0.7391,
      "step": 369
    },
    {
      "epoch": 0.03768588307190874,
      "grad_norm": 0.7426590323448181,
      "learning_rate": 1e-05,
      "loss": 0.5803,
      "step": 370
    },
    {
      "epoch": 0.03778773680994092,
      "grad_norm": 0.6819403767585754,
      "learning_rate": 1e-05,
      "loss": 0.5561,
      "step": 371
    },
    {
      "epoch": 0.03788959054797311,
      "grad_norm": 0.9602141380310059,
      "learning_rate": 1e-05,
      "loss": 0.6405,
      "step": 372
    },
    {
      "epoch": 0.037991444286005295,
      "grad_norm": 0.6930362582206726,
      "learning_rate": 1e-05,
      "loss": 0.5936,
      "step": 373
    },
    {
      "epoch": 0.038093298024037485,
      "grad_norm": 0.7831587791442871,
      "learning_rate": 1e-05,
      "loss": 0.596,
      "step": 374
    },
    {
      "epoch": 0.03819515176206967,
      "grad_norm": 0.755937933921814,
      "learning_rate": 1e-05,
      "loss": 0.6728,
      "step": 375
    },
    {
      "epoch": 0.03829700550010185,
      "grad_norm": 0.7380325198173523,
      "learning_rate": 1e-05,
      "loss": 0.5945,
      "step": 376
    },
    {
      "epoch": 0.03839885923813404,
      "grad_norm": 2.3399720191955566,
      "learning_rate": 1e-05,
      "loss": 0.7089,
      "step": 377
    },
    {
      "epoch": 0.038500712976166224,
      "grad_norm": 0.6555166244506836,
      "learning_rate": 1e-05,
      "loss": 0.5882,
      "step": 378
    },
    {
      "epoch": 0.038602566714198414,
      "grad_norm": 0.810699462890625,
      "learning_rate": 1e-05,
      "loss": 0.7335,
      "step": 379
    },
    {
      "epoch": 0.038704420452230597,
      "grad_norm": 0.7366840839385986,
      "learning_rate": 1e-05,
      "loss": 0.6649,
      "step": 380
    },
    {
      "epoch": 0.03880627419026278,
      "grad_norm": 0.7528915405273438,
      "learning_rate": 1e-05,
      "loss": 0.6803,
      "step": 381
    },
    {
      "epoch": 0.03890812792829497,
      "grad_norm": 0.7181136012077332,
      "learning_rate": 1e-05,
      "loss": 0.6444,
      "step": 382
    },
    {
      "epoch": 0.03900998166632715,
      "grad_norm": 0.7492284178733826,
      "learning_rate": 1e-05,
      "loss": 0.6726,
      "step": 383
    },
    {
      "epoch": 0.03911183540435934,
      "grad_norm": 0.7359021306037903,
      "learning_rate": 1e-05,
      "loss": 0.5877,
      "step": 384
    },
    {
      "epoch": 0.039213689142391525,
      "grad_norm": 0.838108241558075,
      "learning_rate": 1e-05,
      "loss": 0.7596,
      "step": 385
    },
    {
      "epoch": 0.03931554288042371,
      "grad_norm": 0.7858774662017822,
      "learning_rate": 1e-05,
      "loss": 0.7292,
      "step": 386
    },
    {
      "epoch": 0.0394173966184559,
      "grad_norm": 0.7616690397262573,
      "learning_rate": 1e-05,
      "loss": 0.6487,
      "step": 387
    },
    {
      "epoch": 0.03951925035648808,
      "grad_norm": 0.7837768197059631,
      "learning_rate": 1e-05,
      "loss": 0.6471,
      "step": 388
    },
    {
      "epoch": 0.03962110409452027,
      "grad_norm": 0.7073224782943726,
      "learning_rate": 1e-05,
      "loss": 0.6226,
      "step": 389
    },
    {
      "epoch": 0.039722957832552454,
      "grad_norm": 0.7746521830558777,
      "learning_rate": 1e-05,
      "loss": 0.6865,
      "step": 390
    },
    {
      "epoch": 0.039824811570584644,
      "grad_norm": 1.5968422889709473,
      "learning_rate": 1e-05,
      "loss": 0.6101,
      "step": 391
    },
    {
      "epoch": 0.03992666530861683,
      "grad_norm": 0.7338601350784302,
      "learning_rate": 1e-05,
      "loss": 0.5214,
      "step": 392
    },
    {
      "epoch": 0.04002851904664901,
      "grad_norm": 0.9728583693504333,
      "learning_rate": 1e-05,
      "loss": 0.5727,
      "step": 393
    },
    {
      "epoch": 0.0401303727846812,
      "grad_norm": 0.725882351398468,
      "learning_rate": 1e-05,
      "loss": 0.6376,
      "step": 394
    },
    {
      "epoch": 0.04023222652271338,
      "grad_norm": 0.8296990394592285,
      "learning_rate": 1e-05,
      "loss": 0.7249,
      "step": 395
    },
    {
      "epoch": 0.04033408026074557,
      "grad_norm": 0.6983747482299805,
      "learning_rate": 1e-05,
      "loss": 0.476,
      "step": 396
    },
    {
      "epoch": 0.040435933998777755,
      "grad_norm": 0.8164091110229492,
      "learning_rate": 1e-05,
      "loss": 0.6581,
      "step": 397
    },
    {
      "epoch": 0.04053778773680994,
      "grad_norm": 0.7506780624389648,
      "learning_rate": 1e-05,
      "loss": 0.5525,
      "step": 398
    },
    {
      "epoch": 0.04063964147484213,
      "grad_norm": 0.7958248853683472,
      "learning_rate": 1e-05,
      "loss": 0.6624,
      "step": 399
    },
    {
      "epoch": 0.04074149521287431,
      "grad_norm": 0.7557073831558228,
      "learning_rate": 1e-05,
      "loss": 0.6276,
      "step": 400
    },
    {
      "epoch": 0.0408433489509065,
      "grad_norm": 0.7480455040931702,
      "learning_rate": 1e-05,
      "loss": 0.6742,
      "step": 401
    },
    {
      "epoch": 0.040945202688938684,
      "grad_norm": 0.7462876439094543,
      "learning_rate": 1e-05,
      "loss": 0.589,
      "step": 402
    },
    {
      "epoch": 0.04104705642697087,
      "grad_norm": 0.7980563640594482,
      "learning_rate": 1e-05,
      "loss": 0.6857,
      "step": 403
    },
    {
      "epoch": 0.04114891016500306,
      "grad_norm": 0.7151218056678772,
      "learning_rate": 1e-05,
      "loss": 0.6998,
      "step": 404
    },
    {
      "epoch": 0.04125076390303524,
      "grad_norm": 0.7286985516548157,
      "learning_rate": 1e-05,
      "loss": 0.6578,
      "step": 405
    },
    {
      "epoch": 0.04135261764106743,
      "grad_norm": 0.7902917861938477,
      "learning_rate": 1e-05,
      "loss": 0.7041,
      "step": 406
    },
    {
      "epoch": 0.04145447137909961,
      "grad_norm": 0.7132959365844727,
      "learning_rate": 1e-05,
      "loss": 0.5732,
      "step": 407
    },
    {
      "epoch": 0.041556325117131795,
      "grad_norm": 0.7891207933425903,
      "learning_rate": 1e-05,
      "loss": 0.7438,
      "step": 408
    },
    {
      "epoch": 0.041658178855163985,
      "grad_norm": 0.7798872590065002,
      "learning_rate": 1e-05,
      "loss": 0.682,
      "step": 409
    },
    {
      "epoch": 0.04176003259319617,
      "grad_norm": 0.7940645813941956,
      "learning_rate": 1e-05,
      "loss": 0.666,
      "step": 410
    },
    {
      "epoch": 0.04186188633122836,
      "grad_norm": 0.7829149961471558,
      "learning_rate": 1e-05,
      "loss": 0.7085,
      "step": 411
    },
    {
      "epoch": 0.04196374006926054,
      "grad_norm": 0.6741442084312439,
      "learning_rate": 1e-05,
      "loss": 0.506,
      "step": 412
    },
    {
      "epoch": 0.04206559380729273,
      "grad_norm": 0.7241625189781189,
      "learning_rate": 1e-05,
      "loss": 0.5222,
      "step": 413
    },
    {
      "epoch": 0.042167447545324914,
      "grad_norm": 0.6903979778289795,
      "learning_rate": 1e-05,
      "loss": 0.5958,
      "step": 414
    },
    {
      "epoch": 0.0422693012833571,
      "grad_norm": 0.7159783244132996,
      "learning_rate": 1e-05,
      "loss": 0.7185,
      "step": 415
    },
    {
      "epoch": 0.04237115502138929,
      "grad_norm": 1.0275683403015137,
      "learning_rate": 1e-05,
      "loss": 0.6702,
      "step": 416
    },
    {
      "epoch": 0.04247300875942147,
      "grad_norm": 0.6344217658042908,
      "learning_rate": 1e-05,
      "loss": 0.492,
      "step": 417
    },
    {
      "epoch": 0.04257486249745366,
      "grad_norm": 0.7028836607933044,
      "learning_rate": 1e-05,
      "loss": 0.5365,
      "step": 418
    },
    {
      "epoch": 0.04267671623548584,
      "grad_norm": 0.7010725140571594,
      "learning_rate": 1e-05,
      "loss": 0.575,
      "step": 419
    },
    {
      "epoch": 0.042778569973518026,
      "grad_norm": 0.7235288619995117,
      "learning_rate": 1e-05,
      "loss": 0.5896,
      "step": 420
    },
    {
      "epoch": 0.042880423711550215,
      "grad_norm": 0.7026864886283875,
      "learning_rate": 1e-05,
      "loss": 0.6258,
      "step": 421
    },
    {
      "epoch": 0.0429822774495824,
      "grad_norm": 0.7343268990516663,
      "learning_rate": 1e-05,
      "loss": 0.6018,
      "step": 422
    },
    {
      "epoch": 0.04308413118761459,
      "grad_norm": 0.855707585811615,
      "learning_rate": 1e-05,
      "loss": 0.7503,
      "step": 423
    },
    {
      "epoch": 0.04318598492564677,
      "grad_norm": 0.7757086753845215,
      "learning_rate": 1e-05,
      "loss": 0.5609,
      "step": 424
    },
    {
      "epoch": 0.043287838663678954,
      "grad_norm": 0.6998189687728882,
      "learning_rate": 1e-05,
      "loss": 0.6054,
      "step": 425
    },
    {
      "epoch": 0.043389692401711144,
      "grad_norm": 0.902249276638031,
      "learning_rate": 1e-05,
      "loss": 0.5993,
      "step": 426
    },
    {
      "epoch": 0.04349154613974333,
      "grad_norm": 0.7500295639038086,
      "learning_rate": 1e-05,
      "loss": 0.6664,
      "step": 427
    },
    {
      "epoch": 0.04359339987777552,
      "grad_norm": 0.8283237218856812,
      "learning_rate": 1e-05,
      "loss": 0.7174,
      "step": 428
    },
    {
      "epoch": 0.0436952536158077,
      "grad_norm": 0.7441612482070923,
      "learning_rate": 1e-05,
      "loss": 0.6457,
      "step": 429
    },
    {
      "epoch": 0.04379710735383988,
      "grad_norm": 0.6974926590919495,
      "learning_rate": 1e-05,
      "loss": 0.5704,
      "step": 430
    },
    {
      "epoch": 0.04389896109187207,
      "grad_norm": 0.7831506729125977,
      "learning_rate": 1e-05,
      "loss": 0.6132,
      "step": 431
    },
    {
      "epoch": 0.044000814829904256,
      "grad_norm": 0.7434330582618713,
      "learning_rate": 1e-05,
      "loss": 0.5891,
      "step": 432
    },
    {
      "epoch": 0.044102668567936446,
      "grad_norm": 0.8135685324668884,
      "learning_rate": 1e-05,
      "loss": 0.661,
      "step": 433
    },
    {
      "epoch": 0.04420452230596863,
      "grad_norm": 0.8197236061096191,
      "learning_rate": 1e-05,
      "loss": 0.621,
      "step": 434
    },
    {
      "epoch": 0.04430637604400081,
      "grad_norm": 0.8012813925743103,
      "learning_rate": 1e-05,
      "loss": 0.5922,
      "step": 435
    },
    {
      "epoch": 0.044408229782033,
      "grad_norm": 0.8517202734947205,
      "learning_rate": 1e-05,
      "loss": 0.6265,
      "step": 436
    },
    {
      "epoch": 0.044510083520065184,
      "grad_norm": 0.7383777499198914,
      "learning_rate": 1e-05,
      "loss": 0.6104,
      "step": 437
    },
    {
      "epoch": 0.044611937258097374,
      "grad_norm": 0.6916969418525696,
      "learning_rate": 1e-05,
      "loss": 0.6794,
      "step": 438
    },
    {
      "epoch": 0.04471379099612956,
      "grad_norm": 4.077455043792725,
      "learning_rate": 1e-05,
      "loss": 0.5087,
      "step": 439
    },
    {
      "epoch": 0.04481564473416175,
      "grad_norm": 0.7816874980926514,
      "learning_rate": 1e-05,
      "loss": 0.7132,
      "step": 440
    },
    {
      "epoch": 0.04491749847219393,
      "grad_norm": 0.7516278028488159,
      "learning_rate": 1e-05,
      "loss": 0.599,
      "step": 441
    },
    {
      "epoch": 0.04501935221022611,
      "grad_norm": 0.7341572642326355,
      "learning_rate": 1e-05,
      "loss": 0.6309,
      "step": 442
    },
    {
      "epoch": 0.0451212059482583,
      "grad_norm": 0.9668026566505432,
      "learning_rate": 1e-05,
      "loss": 0.5136,
      "step": 443
    },
    {
      "epoch": 0.045223059686290486,
      "grad_norm": 0.898568868637085,
      "learning_rate": 1e-05,
      "loss": 0.5893,
      "step": 444
    },
    {
      "epoch": 0.045324913424322676,
      "grad_norm": 0.7644177079200745,
      "learning_rate": 1e-05,
      "loss": 0.7291,
      "step": 445
    },
    {
      "epoch": 0.04542676716235486,
      "grad_norm": 0.7246875762939453,
      "learning_rate": 1e-05,
      "loss": 0.5875,
      "step": 446
    },
    {
      "epoch": 0.04552862090038704,
      "grad_norm": 0.6755918264389038,
      "learning_rate": 1e-05,
      "loss": 0.5839,
      "step": 447
    },
    {
      "epoch": 0.04563047463841923,
      "grad_norm": 0.8583167195320129,
      "learning_rate": 1e-05,
      "loss": 0.7353,
      "step": 448
    },
    {
      "epoch": 0.045732328376451414,
      "grad_norm": 0.7445988059043884,
      "learning_rate": 1e-05,
      "loss": 0.6268,
      "step": 449
    },
    {
      "epoch": 0.045834182114483604,
      "grad_norm": 0.7732601165771484,
      "learning_rate": 1e-05,
      "loss": 0.6598,
      "step": 450
    },
    {
      "epoch": 0.04593603585251579,
      "grad_norm": 0.7392743229866028,
      "learning_rate": 1e-05,
      "loss": 0.6391,
      "step": 451
    },
    {
      "epoch": 0.04603788959054797,
      "grad_norm": 0.7567221522331238,
      "learning_rate": 1e-05,
      "loss": 0.5898,
      "step": 452
    },
    {
      "epoch": 0.04613974332858016,
      "grad_norm": 2.368332624435425,
      "learning_rate": 1e-05,
      "loss": 0.5872,
      "step": 453
    },
    {
      "epoch": 0.04624159706661234,
      "grad_norm": 0.8172174096107483,
      "learning_rate": 1e-05,
      "loss": 0.6023,
      "step": 454
    },
    {
      "epoch": 0.04634345080464453,
      "grad_norm": 0.711471676826477,
      "learning_rate": 1e-05,
      "loss": 0.5481,
      "step": 455
    },
    {
      "epoch": 0.046445304542676716,
      "grad_norm": 0.7128221392631531,
      "learning_rate": 1e-05,
      "loss": 0.5625,
      "step": 456
    },
    {
      "epoch": 0.0465471582807089,
      "grad_norm": 0.7719621658325195,
      "learning_rate": 1e-05,
      "loss": 0.6503,
      "step": 457
    },
    {
      "epoch": 0.04664901201874109,
      "grad_norm": 0.8100398778915405,
      "learning_rate": 1e-05,
      "loss": 0.704,
      "step": 458
    },
    {
      "epoch": 0.04675086575677327,
      "grad_norm": 0.806964635848999,
      "learning_rate": 1e-05,
      "loss": 0.5378,
      "step": 459
    },
    {
      "epoch": 0.04685271949480546,
      "grad_norm": 0.7961418628692627,
      "learning_rate": 1e-05,
      "loss": 0.6318,
      "step": 460
    },
    {
      "epoch": 0.046954573232837644,
      "grad_norm": 0.7836251854896545,
      "learning_rate": 1e-05,
      "loss": 0.5956,
      "step": 461
    },
    {
      "epoch": 0.047056426970869834,
      "grad_norm": 0.745201587677002,
      "learning_rate": 1e-05,
      "loss": 0.6179,
      "step": 462
    },
    {
      "epoch": 0.04715828070890202,
      "grad_norm": 0.7638078927993774,
      "learning_rate": 1e-05,
      "loss": 0.6223,
      "step": 463
    },
    {
      "epoch": 0.0472601344469342,
      "grad_norm": 0.7731636166572571,
      "learning_rate": 1e-05,
      "loss": 0.7488,
      "step": 464
    },
    {
      "epoch": 0.04736198818496639,
      "grad_norm": 0.8890475034713745,
      "learning_rate": 1e-05,
      "loss": 0.6208,
      "step": 465
    },
    {
      "epoch": 0.04746384192299857,
      "grad_norm": 0.7153001427650452,
      "learning_rate": 1e-05,
      "loss": 0.6023,
      "step": 466
    },
    {
      "epoch": 0.04756569566103076,
      "grad_norm": 0.6713436245918274,
      "learning_rate": 1e-05,
      "loss": 0.5585,
      "step": 467
    },
    {
      "epoch": 0.047667549399062946,
      "grad_norm": 0.8756150603294373,
      "learning_rate": 1e-05,
      "loss": 0.685,
      "step": 468
    },
    {
      "epoch": 0.04776940313709513,
      "grad_norm": 0.720729410648346,
      "learning_rate": 1e-05,
      "loss": 0.5046,
      "step": 469
    },
    {
      "epoch": 0.04787125687512732,
      "grad_norm": 0.9094601273536682,
      "learning_rate": 1e-05,
      "loss": 0.6008,
      "step": 470
    },
    {
      "epoch": 0.0479731106131595,
      "grad_norm": 0.7551120519638062,
      "learning_rate": 1e-05,
      "loss": 0.6769,
      "step": 471
    },
    {
      "epoch": 0.04807496435119169,
      "grad_norm": 0.7266933917999268,
      "learning_rate": 1e-05,
      "loss": 0.648,
      "step": 472
    },
    {
      "epoch": 0.048176818089223875,
      "grad_norm": 0.7329331636428833,
      "learning_rate": 1e-05,
      "loss": 0.675,
      "step": 473
    },
    {
      "epoch": 0.04827867182725606,
      "grad_norm": 0.7094041109085083,
      "learning_rate": 1e-05,
      "loss": 0.6479,
      "step": 474
    },
    {
      "epoch": 0.04838052556528825,
      "grad_norm": 0.7167866826057434,
      "learning_rate": 1e-05,
      "loss": 0.6117,
      "step": 475
    },
    {
      "epoch": 0.04848237930332043,
      "grad_norm": 0.7810445427894592,
      "learning_rate": 1e-05,
      "loss": 0.6801,
      "step": 476
    },
    {
      "epoch": 0.04858423304135262,
      "grad_norm": 0.7028760313987732,
      "learning_rate": 1e-05,
      "loss": 0.6246,
      "step": 477
    },
    {
      "epoch": 0.0486860867793848,
      "grad_norm": 0.7156102657318115,
      "learning_rate": 1e-05,
      "loss": 0.5783,
      "step": 478
    },
    {
      "epoch": 0.048787940517416986,
      "grad_norm": 0.8738715052604675,
      "learning_rate": 1e-05,
      "loss": 0.6454,
      "step": 479
    },
    {
      "epoch": 0.048889794255449176,
      "grad_norm": 0.7908721566200256,
      "learning_rate": 1e-05,
      "loss": 0.6691,
      "step": 480
    },
    {
      "epoch": 0.04899164799348136,
      "grad_norm": 0.886614203453064,
      "learning_rate": 1e-05,
      "loss": 0.6766,
      "step": 481
    },
    {
      "epoch": 0.04909350173151355,
      "grad_norm": 0.7238253951072693,
      "learning_rate": 1e-05,
      "loss": 0.5782,
      "step": 482
    },
    {
      "epoch": 0.04919535546954573,
      "grad_norm": 0.6872912645339966,
      "learning_rate": 1e-05,
      "loss": 0.56,
      "step": 483
    },
    {
      "epoch": 0.049297209207577915,
      "grad_norm": 0.7353894114494324,
      "learning_rate": 1e-05,
      "loss": 0.6162,
      "step": 484
    },
    {
      "epoch": 0.049399062945610105,
      "grad_norm": 0.6821012496948242,
      "learning_rate": 1e-05,
      "loss": 0.5513,
      "step": 485
    },
    {
      "epoch": 0.04950091668364229,
      "grad_norm": 0.7194050550460815,
      "learning_rate": 1e-05,
      "loss": 0.6303,
      "step": 486
    },
    {
      "epoch": 0.04960277042167448,
      "grad_norm": 0.7895317077636719,
      "learning_rate": 1e-05,
      "loss": 0.6576,
      "step": 487
    },
    {
      "epoch": 0.04970462415970666,
      "grad_norm": 0.7318548560142517,
      "learning_rate": 1e-05,
      "loss": 0.564,
      "step": 488
    },
    {
      "epoch": 0.04980647789773885,
      "grad_norm": 0.6984708905220032,
      "learning_rate": 1e-05,
      "loss": 0.5992,
      "step": 489
    },
    {
      "epoch": 0.04990833163577103,
      "grad_norm": 0.7555848956108093,
      "learning_rate": 1e-05,
      "loss": 0.6829,
      "step": 490
    },
    {
      "epoch": 0.050010185373803216,
      "grad_norm": 0.7416736483573914,
      "learning_rate": 1e-05,
      "loss": 0.564,
      "step": 491
    },
    {
      "epoch": 0.050112039111835406,
      "grad_norm": 0.8241677284240723,
      "learning_rate": 1e-05,
      "loss": 0.6334,
      "step": 492
    },
    {
      "epoch": 0.05021389284986759,
      "grad_norm": 0.8836700320243835,
      "learning_rate": 1e-05,
      "loss": 0.7892,
      "step": 493
    },
    {
      "epoch": 0.05031574658789978,
      "grad_norm": 0.7227343320846558,
      "learning_rate": 1e-05,
      "loss": 0.6154,
      "step": 494
    },
    {
      "epoch": 0.05041760032593196,
      "grad_norm": 0.7263377904891968,
      "learning_rate": 1e-05,
      "loss": 0.6054,
      "step": 495
    },
    {
      "epoch": 0.050519454063964145,
      "grad_norm": 0.7381168007850647,
      "learning_rate": 1e-05,
      "loss": 0.5982,
      "step": 496
    },
    {
      "epoch": 0.050621307801996335,
      "grad_norm": 0.7451444864273071,
      "learning_rate": 1e-05,
      "loss": 0.6655,
      "step": 497
    },
    {
      "epoch": 0.05072316154002852,
      "grad_norm": 1.5728209018707275,
      "learning_rate": 1e-05,
      "loss": 0.5298,
      "step": 498
    },
    {
      "epoch": 0.05082501527806071,
      "grad_norm": 0.6922136545181274,
      "learning_rate": 1e-05,
      "loss": 0.5221,
      "step": 499
    },
    {
      "epoch": 0.05092686901609289,
      "grad_norm": 0.7546749711036682,
      "learning_rate": 1e-05,
      "loss": 0.6359,
      "step": 500
    },
    {
      "epoch": 0.05102872275412507,
      "grad_norm": 0.7729528546333313,
      "learning_rate": 1e-05,
      "loss": 0.6673,
      "step": 501
    },
    {
      "epoch": 0.05113057649215726,
      "grad_norm": 0.7529796361923218,
      "learning_rate": 1e-05,
      "loss": 0.6146,
      "step": 502
    },
    {
      "epoch": 0.051232430230189446,
      "grad_norm": 0.6910247802734375,
      "learning_rate": 1e-05,
      "loss": 0.5857,
      "step": 503
    },
    {
      "epoch": 0.051334283968221636,
      "grad_norm": 0.7101589441299438,
      "learning_rate": 1e-05,
      "loss": 0.6235,
      "step": 504
    },
    {
      "epoch": 0.05143613770625382,
      "grad_norm": 0.779156506061554,
      "learning_rate": 1e-05,
      "loss": 0.5898,
      "step": 505
    },
    {
      "epoch": 0.051537991444286,
      "grad_norm": 0.7482103705406189,
      "learning_rate": 1e-05,
      "loss": 0.5538,
      "step": 506
    },
    {
      "epoch": 0.05163984518231819,
      "grad_norm": 0.9656476378440857,
      "learning_rate": 1e-05,
      "loss": 0.526,
      "step": 507
    },
    {
      "epoch": 0.051741698920350375,
      "grad_norm": 0.7707321643829346,
      "learning_rate": 1e-05,
      "loss": 0.5725,
      "step": 508
    },
    {
      "epoch": 0.051843552658382565,
      "grad_norm": 0.7838190197944641,
      "learning_rate": 1e-05,
      "loss": 0.7227,
      "step": 509
    },
    {
      "epoch": 0.05194540639641475,
      "grad_norm": 0.6779224872589111,
      "learning_rate": 1e-05,
      "loss": 0.5904,
      "step": 510
    },
    {
      "epoch": 0.05204726013444694,
      "grad_norm": 0.7499516010284424,
      "learning_rate": 1e-05,
      "loss": 0.6481,
      "step": 511
    },
    {
      "epoch": 0.05214911387247912,
      "grad_norm": 0.7163907289505005,
      "learning_rate": 1e-05,
      "loss": 0.5657,
      "step": 512
    },
    {
      "epoch": 0.052250967610511304,
      "grad_norm": 0.8037077784538269,
      "learning_rate": 1e-05,
      "loss": 0.7013,
      "step": 513
    },
    {
      "epoch": 0.05235282134854349,
      "grad_norm": 0.8257982134819031,
      "learning_rate": 1e-05,
      "loss": 0.6339,
      "step": 514
    },
    {
      "epoch": 0.052454675086575676,
      "grad_norm": 0.7116568088531494,
      "learning_rate": 1e-05,
      "loss": 0.6238,
      "step": 515
    },
    {
      "epoch": 0.052556528824607866,
      "grad_norm": 1.0292752981185913,
      "learning_rate": 1e-05,
      "loss": 0.5647,
      "step": 516
    },
    {
      "epoch": 0.05265838256264005,
      "grad_norm": 0.9340700507164001,
      "learning_rate": 1e-05,
      "loss": 0.6388,
      "step": 517
    },
    {
      "epoch": 0.05276023630067223,
      "grad_norm": 0.6814004778862,
      "learning_rate": 1e-05,
      "loss": 0.6421,
      "step": 518
    },
    {
      "epoch": 0.05286209003870442,
      "grad_norm": 0.7861469388008118,
      "learning_rate": 1e-05,
      "loss": 0.7252,
      "step": 519
    },
    {
      "epoch": 0.052963943776736605,
      "grad_norm": 0.7128333449363708,
      "learning_rate": 1e-05,
      "loss": 0.6153,
      "step": 520
    },
    {
      "epoch": 0.053065797514768795,
      "grad_norm": 1.2404959201812744,
      "learning_rate": 1e-05,
      "loss": 0.5661,
      "step": 521
    },
    {
      "epoch": 0.05316765125280098,
      "grad_norm": 0.7448185682296753,
      "learning_rate": 1e-05,
      "loss": 0.6781,
      "step": 522
    },
    {
      "epoch": 0.05326950499083316,
      "grad_norm": 0.7311963438987732,
      "learning_rate": 1e-05,
      "loss": 0.628,
      "step": 523
    },
    {
      "epoch": 0.05337135872886535,
      "grad_norm": 0.7236087322235107,
      "learning_rate": 1e-05,
      "loss": 0.5671,
      "step": 524
    },
    {
      "epoch": 0.053473212466897534,
      "grad_norm": 0.774717390537262,
      "learning_rate": 1e-05,
      "loss": 0.7425,
      "step": 525
    },
    {
      "epoch": 0.053575066204929724,
      "grad_norm": 0.9496579170227051,
      "learning_rate": 1e-05,
      "loss": 0.5451,
      "step": 526
    },
    {
      "epoch": 0.053676919942961906,
      "grad_norm": 0.7642092108726501,
      "learning_rate": 1e-05,
      "loss": 0.6664,
      "step": 527
    },
    {
      "epoch": 0.05377877368099409,
      "grad_norm": 0.7220472097396851,
      "learning_rate": 1e-05,
      "loss": 0.6649,
      "step": 528
    },
    {
      "epoch": 0.05388062741902628,
      "grad_norm": 0.7064882516860962,
      "learning_rate": 1e-05,
      "loss": 0.5354,
      "step": 529
    },
    {
      "epoch": 0.05398248115705846,
      "grad_norm": 0.761699914932251,
      "learning_rate": 1e-05,
      "loss": 0.6764,
      "step": 530
    },
    {
      "epoch": 0.05408433489509065,
      "grad_norm": 0.6909142732620239,
      "learning_rate": 1e-05,
      "loss": 0.5388,
      "step": 531
    },
    {
      "epoch": 0.054186188633122835,
      "grad_norm": 0.7145403623580933,
      "learning_rate": 1e-05,
      "loss": 0.6704,
      "step": 532
    },
    {
      "epoch": 0.05428804237115502,
      "grad_norm": 0.7044417262077332,
      "learning_rate": 1e-05,
      "loss": 0.5825,
      "step": 533
    },
    {
      "epoch": 0.05438989610918721,
      "grad_norm": 0.7844861149787903,
      "learning_rate": 1e-05,
      "loss": 0.7348,
      "step": 534
    },
    {
      "epoch": 0.05449174984721939,
      "grad_norm": 0.8070138692855835,
      "learning_rate": 1e-05,
      "loss": 0.6271,
      "step": 535
    },
    {
      "epoch": 0.05459360358525158,
      "grad_norm": 0.6849129796028137,
      "learning_rate": 1e-05,
      "loss": 0.5002,
      "step": 536
    },
    {
      "epoch": 0.054695457323283764,
      "grad_norm": 0.6885315179824829,
      "learning_rate": 1e-05,
      "loss": 0.5933,
      "step": 537
    },
    {
      "epoch": 0.054797311061315954,
      "grad_norm": 0.6970610618591309,
      "learning_rate": 1e-05,
      "loss": 0.6096,
      "step": 538
    },
    {
      "epoch": 0.05489916479934814,
      "grad_norm": 0.7177776098251343,
      "learning_rate": 1e-05,
      "loss": 0.6041,
      "step": 539
    },
    {
      "epoch": 0.05500101853738032,
      "grad_norm": 0.8925666213035583,
      "learning_rate": 1e-05,
      "loss": 0.6809,
      "step": 540
    },
    {
      "epoch": 0.05510287227541251,
      "grad_norm": 0.6820278763771057,
      "learning_rate": 1e-05,
      "loss": 0.5832,
      "step": 541
    },
    {
      "epoch": 0.05520472601344469,
      "grad_norm": 0.6698805093765259,
      "learning_rate": 1e-05,
      "loss": 0.5573,
      "step": 542
    },
    {
      "epoch": 0.05530657975147688,
      "grad_norm": 0.7644883990287781,
      "learning_rate": 1e-05,
      "loss": 0.708,
      "step": 543
    },
    {
      "epoch": 0.055408433489509065,
      "grad_norm": 0.7846331596374512,
      "learning_rate": 1e-05,
      "loss": 0.6253,
      "step": 544
    },
    {
      "epoch": 0.05551028722754125,
      "grad_norm": 0.7282045483589172,
      "learning_rate": 1e-05,
      "loss": 0.6042,
      "step": 545
    },
    {
      "epoch": 0.05561214096557344,
      "grad_norm": 0.7057326436042786,
      "learning_rate": 1e-05,
      "loss": 0.5648,
      "step": 546
    },
    {
      "epoch": 0.05571399470360562,
      "grad_norm": 0.7227932214736938,
      "learning_rate": 1e-05,
      "loss": 0.6485,
      "step": 547
    },
    {
      "epoch": 0.05581584844163781,
      "grad_norm": 0.7673505544662476,
      "learning_rate": 1e-05,
      "loss": 0.6206,
      "step": 548
    },
    {
      "epoch": 0.055917702179669994,
      "grad_norm": 0.6773775815963745,
      "learning_rate": 1e-05,
      "loss": 0.5669,
      "step": 549
    },
    {
      "epoch": 0.05601955591770218,
      "grad_norm": 0.7657647728919983,
      "learning_rate": 1e-05,
      "loss": 0.7261,
      "step": 550
    },
    {
      "epoch": 0.05612140965573437,
      "grad_norm": 0.6450330018997192,
      "learning_rate": 1e-05,
      "loss": 0.5739,
      "step": 551
    },
    {
      "epoch": 0.05622326339376655,
      "grad_norm": 0.750368595123291,
      "learning_rate": 1e-05,
      "loss": 0.5052,
      "step": 552
    },
    {
      "epoch": 0.05632511713179874,
      "grad_norm": 0.76057368516922,
      "learning_rate": 1e-05,
      "loss": 0.6078,
      "step": 553
    },
    {
      "epoch": 0.05642697086983092,
      "grad_norm": 0.912309467792511,
      "learning_rate": 1e-05,
      "loss": 0.5799,
      "step": 554
    },
    {
      "epoch": 0.056528824607863105,
      "grad_norm": 0.673689603805542,
      "learning_rate": 1e-05,
      "loss": 0.6055,
      "step": 555
    },
    {
      "epoch": 0.056630678345895295,
      "grad_norm": 0.6946613192558289,
      "learning_rate": 1e-05,
      "loss": 0.5495,
      "step": 556
    },
    {
      "epoch": 0.05673253208392748,
      "grad_norm": 0.8637539148330688,
      "learning_rate": 1e-05,
      "loss": 0.624,
      "step": 557
    },
    {
      "epoch": 0.05683438582195967,
      "grad_norm": 0.7036415338516235,
      "learning_rate": 1e-05,
      "loss": 0.5986,
      "step": 558
    },
    {
      "epoch": 0.05693623955999185,
      "grad_norm": 0.6377863883972168,
      "learning_rate": 1e-05,
      "loss": 0.5801,
      "step": 559
    },
    {
      "epoch": 0.057038093298024034,
      "grad_norm": 0.6772538423538208,
      "learning_rate": 1e-05,
      "loss": 0.5112,
      "step": 560
    },
    {
      "epoch": 0.057139947036056224,
      "grad_norm": 0.6672614812850952,
      "learning_rate": 1e-05,
      "loss": 0.5823,
      "step": 561
    },
    {
      "epoch": 0.05724180077408841,
      "grad_norm": 0.7027597427368164,
      "learning_rate": 1e-05,
      "loss": 0.5543,
      "step": 562
    },
    {
      "epoch": 0.0573436545121206,
      "grad_norm": 1.6164367198944092,
      "learning_rate": 1e-05,
      "loss": 0.5849,
      "step": 563
    },
    {
      "epoch": 0.05744550825015278,
      "grad_norm": 0.7666351795196533,
      "learning_rate": 1e-05,
      "loss": 0.7465,
      "step": 564
    },
    {
      "epoch": 0.05754736198818497,
      "grad_norm": 0.6312459111213684,
      "learning_rate": 1e-05,
      "loss": 0.5532,
      "step": 565
    },
    {
      "epoch": 0.05764921572621715,
      "grad_norm": 0.7464274168014526,
      "learning_rate": 1e-05,
      "loss": 0.6389,
      "step": 566
    },
    {
      "epoch": 0.057751069464249336,
      "grad_norm": 0.7333387732505798,
      "learning_rate": 1e-05,
      "loss": 0.6944,
      "step": 567
    },
    {
      "epoch": 0.057852923202281525,
      "grad_norm": 0.8304552435874939,
      "learning_rate": 1e-05,
      "loss": 0.6107,
      "step": 568
    },
    {
      "epoch": 0.05795477694031371,
      "grad_norm": 0.7694942951202393,
      "learning_rate": 1e-05,
      "loss": 0.6377,
      "step": 569
    },
    {
      "epoch": 0.0580566306783459,
      "grad_norm": 0.764883279800415,
      "learning_rate": 1e-05,
      "loss": 0.5718,
      "step": 570
    },
    {
      "epoch": 0.05815848441637808,
      "grad_norm": 0.7679772973060608,
      "learning_rate": 1e-05,
      "loss": 0.6984,
      "step": 571
    },
    {
      "epoch": 0.058260338154410264,
      "grad_norm": 0.7539413571357727,
      "learning_rate": 1e-05,
      "loss": 0.6786,
      "step": 572
    },
    {
      "epoch": 0.058362191892442454,
      "grad_norm": 0.7158449292182922,
      "learning_rate": 1e-05,
      "loss": 0.6562,
      "step": 573
    },
    {
      "epoch": 0.05846404563047464,
      "grad_norm": 0.7219956517219543,
      "learning_rate": 1e-05,
      "loss": 0.5047,
      "step": 574
    },
    {
      "epoch": 0.05856589936850683,
      "grad_norm": 0.9525351524353027,
      "learning_rate": 1e-05,
      "loss": 0.6878,
      "step": 575
    },
    {
      "epoch": 0.05866775310653901,
      "grad_norm": 0.772043764591217,
      "learning_rate": 1e-05,
      "loss": 0.7012,
      "step": 576
    },
    {
      "epoch": 0.05876960684457119,
      "grad_norm": 0.7443782687187195,
      "learning_rate": 1e-05,
      "loss": 0.6129,
      "step": 577
    },
    {
      "epoch": 0.05887146058260338,
      "grad_norm": 0.7575905323028564,
      "learning_rate": 1e-05,
      "loss": 0.6033,
      "step": 578
    },
    {
      "epoch": 0.058973314320635566,
      "grad_norm": 0.7636941075325012,
      "learning_rate": 1e-05,
      "loss": 0.6076,
      "step": 579
    },
    {
      "epoch": 0.059075168058667755,
      "grad_norm": 0.8673502802848816,
      "learning_rate": 1e-05,
      "loss": 0.6709,
      "step": 580
    },
    {
      "epoch": 0.05917702179669994,
      "grad_norm": 0.7125018835067749,
      "learning_rate": 1e-05,
      "loss": 0.6622,
      "step": 581
    },
    {
      "epoch": 0.05927887553473212,
      "grad_norm": 0.7020215392112732,
      "learning_rate": 1e-05,
      "loss": 0.5556,
      "step": 582
    },
    {
      "epoch": 0.05938072927276431,
      "grad_norm": 0.7484369874000549,
      "learning_rate": 1e-05,
      "loss": 0.6878,
      "step": 583
    },
    {
      "epoch": 0.059482583010796494,
      "grad_norm": 0.7316798567771912,
      "learning_rate": 1e-05,
      "loss": 0.6734,
      "step": 584
    },
    {
      "epoch": 0.059584436748828684,
      "grad_norm": 0.710532546043396,
      "learning_rate": 1e-05,
      "loss": 0.6166,
      "step": 585
    },
    {
      "epoch": 0.05968629048686087,
      "grad_norm": 0.7224223613739014,
      "learning_rate": 1e-05,
      "loss": 0.6638,
      "step": 586
    },
    {
      "epoch": 0.05978814422489306,
      "grad_norm": 0.6720532178878784,
      "learning_rate": 1e-05,
      "loss": 0.6002,
      "step": 587
    },
    {
      "epoch": 0.05988999796292524,
      "grad_norm": 0.6741487383842468,
      "learning_rate": 1e-05,
      "loss": 0.5462,
      "step": 588
    },
    {
      "epoch": 0.05999185170095742,
      "grad_norm": 0.7105123996734619,
      "learning_rate": 1e-05,
      "loss": 0.5508,
      "step": 589
    },
    {
      "epoch": 0.06009370543898961,
      "grad_norm": 0.6789689064025879,
      "learning_rate": 1e-05,
      "loss": 0.5468,
      "step": 590
    },
    {
      "epoch": 0.060195559177021796,
      "grad_norm": 0.7246890068054199,
      "learning_rate": 1e-05,
      "loss": 0.652,
      "step": 591
    },
    {
      "epoch": 0.060297412915053986,
      "grad_norm": 0.7966822385787964,
      "learning_rate": 1e-05,
      "loss": 0.6361,
      "step": 592
    },
    {
      "epoch": 0.06039926665308617,
      "grad_norm": 0.7072921395301819,
      "learning_rate": 1e-05,
      "loss": 0.618,
      "step": 593
    },
    {
      "epoch": 0.06050112039111835,
      "grad_norm": 0.7655470967292786,
      "learning_rate": 1e-05,
      "loss": 0.7003,
      "step": 594
    },
    {
      "epoch": 0.06060297412915054,
      "grad_norm": 1.1187292337417603,
      "learning_rate": 1e-05,
      "loss": 0.6081,
      "step": 595
    },
    {
      "epoch": 0.060704827867182724,
      "grad_norm": 0.8493325114250183,
      "learning_rate": 1e-05,
      "loss": 0.6197,
      "step": 596
    },
    {
      "epoch": 0.060806681605214914,
      "grad_norm": 0.6755363941192627,
      "learning_rate": 1e-05,
      "loss": 0.5677,
      "step": 597
    },
    {
      "epoch": 0.0609085353432471,
      "grad_norm": 0.7231535911560059,
      "learning_rate": 1e-05,
      "loss": 0.653,
      "step": 598
    },
    {
      "epoch": 0.06101038908127928,
      "grad_norm": 0.7403274774551392,
      "learning_rate": 1e-05,
      "loss": 0.6689,
      "step": 599
    },
    {
      "epoch": 0.06111224281931147,
      "grad_norm": 1.0444780588150024,
      "learning_rate": 1e-05,
      "loss": 0.6621,
      "step": 600
    },
    {
      "epoch": 0.06121409655734365,
      "grad_norm": 0.7026321887969971,
      "learning_rate": 1e-05,
      "loss": 0.6243,
      "step": 601
    },
    {
      "epoch": 0.06131595029537584,
      "grad_norm": 0.6608405709266663,
      "learning_rate": 1e-05,
      "loss": 0.5192,
      "step": 602
    },
    {
      "epoch": 0.061417804033408026,
      "grad_norm": 0.705745279788971,
      "learning_rate": 1e-05,
      "loss": 0.6802,
      "step": 603
    },
    {
      "epoch": 0.06151965777144021,
      "grad_norm": 0.6821361184120178,
      "learning_rate": 1e-05,
      "loss": 0.5653,
      "step": 604
    },
    {
      "epoch": 0.0616215115094724,
      "grad_norm": 0.6755514740943909,
      "learning_rate": 1e-05,
      "loss": 0.6111,
      "step": 605
    },
    {
      "epoch": 0.06172336524750458,
      "grad_norm": 0.7504802346229553,
      "learning_rate": 1e-05,
      "loss": 0.6601,
      "step": 606
    },
    {
      "epoch": 0.06182521898553677,
      "grad_norm": 0.6970303654670715,
      "learning_rate": 1e-05,
      "loss": 0.5412,
      "step": 607
    },
    {
      "epoch": 0.061927072723568954,
      "grad_norm": 0.6666893362998962,
      "learning_rate": 1e-05,
      "loss": 0.5587,
      "step": 608
    },
    {
      "epoch": 0.06202892646160114,
      "grad_norm": 0.7341374158859253,
      "learning_rate": 1e-05,
      "loss": 0.5622,
      "step": 609
    },
    {
      "epoch": 0.06213078019963333,
      "grad_norm": 0.8898354172706604,
      "learning_rate": 1e-05,
      "loss": 0.5957,
      "step": 610
    },
    {
      "epoch": 0.06223263393766551,
      "grad_norm": 0.7196444869041443,
      "learning_rate": 1e-05,
      "loss": 0.5568,
      "step": 611
    },
    {
      "epoch": 0.0623344876756977,
      "grad_norm": 0.6985533833503723,
      "learning_rate": 1e-05,
      "loss": 0.7206,
      "step": 612
    },
    {
      "epoch": 0.06243634141372988,
      "grad_norm": 0.7426338195800781,
      "learning_rate": 1e-05,
      "loss": 0.6396,
      "step": 613
    },
    {
      "epoch": 0.06253819515176207,
      "grad_norm": 0.6762636303901672,
      "learning_rate": 1e-05,
      "loss": 0.5934,
      "step": 614
    },
    {
      "epoch": 0.06264004888979426,
      "grad_norm": 0.7870595455169678,
      "learning_rate": 1e-05,
      "loss": 0.6827,
      "step": 615
    },
    {
      "epoch": 0.06274190262782645,
      "grad_norm": 0.7252334952354431,
      "learning_rate": 1e-05,
      "loss": 0.6177,
      "step": 616
    },
    {
      "epoch": 0.06284375636585862,
      "grad_norm": 0.662865400314331,
      "learning_rate": 1e-05,
      "loss": 0.5346,
      "step": 617
    },
    {
      "epoch": 0.06294561010389081,
      "grad_norm": 0.692855715751648,
      "learning_rate": 1e-05,
      "loss": 0.5781,
      "step": 618
    },
    {
      "epoch": 0.063047463841923,
      "grad_norm": 0.8163683414459229,
      "learning_rate": 1e-05,
      "loss": 0.5921,
      "step": 619
    },
    {
      "epoch": 0.06314931757995518,
      "grad_norm": 0.7052851319313049,
      "learning_rate": 1e-05,
      "loss": 0.5854,
      "step": 620
    },
    {
      "epoch": 0.06325117131798737,
      "grad_norm": 0.685494601726532,
      "learning_rate": 1e-05,
      "loss": 0.6088,
      "step": 621
    },
    {
      "epoch": 0.06335302505601956,
      "grad_norm": 0.7548522353172302,
      "learning_rate": 1e-05,
      "loss": 0.5671,
      "step": 622
    },
    {
      "epoch": 0.06345487879405175,
      "grad_norm": 0.6971020698547363,
      "learning_rate": 1e-05,
      "loss": 0.6165,
      "step": 623
    },
    {
      "epoch": 0.06355673253208392,
      "grad_norm": 0.7058514952659607,
      "learning_rate": 1e-05,
      "loss": 0.5692,
      "step": 624
    },
    {
      "epoch": 0.06365858627011611,
      "grad_norm": 0.7239070534706116,
      "learning_rate": 1e-05,
      "loss": 0.5543,
      "step": 625
    },
    {
      "epoch": 0.0637604400081483,
      "grad_norm": 0.7026985287666321,
      "learning_rate": 1e-05,
      "loss": 0.5646,
      "step": 626
    },
    {
      "epoch": 0.06386229374618048,
      "grad_norm": 0.8190436363220215,
      "learning_rate": 1e-05,
      "loss": 0.6342,
      "step": 627
    },
    {
      "epoch": 0.06396414748421267,
      "grad_norm": 0.7632835507392883,
      "learning_rate": 1e-05,
      "loss": 0.6508,
      "step": 628
    },
    {
      "epoch": 0.06406600122224486,
      "grad_norm": 0.6808014512062073,
      "learning_rate": 1e-05,
      "loss": 0.5715,
      "step": 629
    },
    {
      "epoch": 0.06416785496027705,
      "grad_norm": 0.7752991914749146,
      "learning_rate": 1e-05,
      "loss": 0.6391,
      "step": 630
    },
    {
      "epoch": 0.06426970869830922,
      "grad_norm": 0.7241825461387634,
      "learning_rate": 1e-05,
      "loss": 0.596,
      "step": 631
    },
    {
      "epoch": 0.06437156243634141,
      "grad_norm": 0.7044495940208435,
      "learning_rate": 1e-05,
      "loss": 0.5596,
      "step": 632
    },
    {
      "epoch": 0.0644734161743736,
      "grad_norm": 0.7789800763130188,
      "learning_rate": 1e-05,
      "loss": 0.6916,
      "step": 633
    },
    {
      "epoch": 0.06457526991240578,
      "grad_norm": 0.6785197257995605,
      "learning_rate": 1e-05,
      "loss": 0.5855,
      "step": 634
    },
    {
      "epoch": 0.06467712365043797,
      "grad_norm": 0.6997398138046265,
      "learning_rate": 1e-05,
      "loss": 0.5612,
      "step": 635
    },
    {
      "epoch": 0.06477897738847016,
      "grad_norm": 1.11361825466156,
      "learning_rate": 1e-05,
      "loss": 0.68,
      "step": 636
    },
    {
      "epoch": 0.06488083112650234,
      "grad_norm": 0.7493770122528076,
      "learning_rate": 1e-05,
      "loss": 0.6272,
      "step": 637
    },
    {
      "epoch": 0.06498268486453453,
      "grad_norm": 0.7500852346420288,
      "learning_rate": 1e-05,
      "loss": 0.6023,
      "step": 638
    },
    {
      "epoch": 0.06508453860256672,
      "grad_norm": 0.7903890609741211,
      "learning_rate": 1e-05,
      "loss": 0.5767,
      "step": 639
    },
    {
      "epoch": 0.0651863923405989,
      "grad_norm": 0.7364358305931091,
      "learning_rate": 1e-05,
      "loss": 0.6228,
      "step": 640
    },
    {
      "epoch": 0.06528824607863108,
      "grad_norm": 0.707195520401001,
      "learning_rate": 1e-05,
      "loss": 0.5572,
      "step": 641
    },
    {
      "epoch": 0.06539009981666327,
      "grad_norm": 0.7166197896003723,
      "learning_rate": 1e-05,
      "loss": 0.606,
      "step": 642
    },
    {
      "epoch": 0.06549195355469546,
      "grad_norm": 0.7275713682174683,
      "learning_rate": 1e-05,
      "loss": 0.5795,
      "step": 643
    },
    {
      "epoch": 0.06559380729272764,
      "grad_norm": 0.8117378950119019,
      "learning_rate": 1e-05,
      "loss": 0.6304,
      "step": 644
    },
    {
      "epoch": 0.06569566103075983,
      "grad_norm": 0.75478595495224,
      "learning_rate": 1e-05,
      "loss": 0.5948,
      "step": 645
    },
    {
      "epoch": 0.06579751476879202,
      "grad_norm": 0.6975994110107422,
      "learning_rate": 1e-05,
      "loss": 0.5784,
      "step": 646
    },
    {
      "epoch": 0.0658993685068242,
      "grad_norm": 0.7846930623054504,
      "learning_rate": 1e-05,
      "loss": 0.5986,
      "step": 647
    },
    {
      "epoch": 0.06600122224485638,
      "grad_norm": 0.7032250165939331,
      "learning_rate": 1e-05,
      "loss": 0.594,
      "step": 648
    },
    {
      "epoch": 0.06610307598288857,
      "grad_norm": 0.7297284603118896,
      "learning_rate": 1e-05,
      "loss": 0.6732,
      "step": 649
    },
    {
      "epoch": 0.06620492972092076,
      "grad_norm": 0.8764647245407104,
      "learning_rate": 1e-05,
      "loss": 0.456,
      "step": 650
    },
    {
      "epoch": 0.06630678345895294,
      "grad_norm": 0.7096953392028809,
      "learning_rate": 1e-05,
      "loss": 0.5846,
      "step": 651
    },
    {
      "epoch": 0.06640863719698513,
      "grad_norm": 0.816527783870697,
      "learning_rate": 1e-05,
      "loss": 0.6336,
      "step": 652
    },
    {
      "epoch": 0.06651049093501732,
      "grad_norm": 1.0611220598220825,
      "learning_rate": 1e-05,
      "loss": 0.6503,
      "step": 653
    },
    {
      "epoch": 0.0666123446730495,
      "grad_norm": 0.6354724764823914,
      "learning_rate": 1e-05,
      "loss": 0.5242,
      "step": 654
    },
    {
      "epoch": 0.06671419841108168,
      "grad_norm": 0.7468326687812805,
      "learning_rate": 1e-05,
      "loss": 0.6538,
      "step": 655
    },
    {
      "epoch": 0.06681605214911387,
      "grad_norm": 0.8279158473014832,
      "learning_rate": 1e-05,
      "loss": 0.7115,
      "step": 656
    },
    {
      "epoch": 0.06691790588714606,
      "grad_norm": 0.7741518020629883,
      "learning_rate": 1e-05,
      "loss": 0.6062,
      "step": 657
    },
    {
      "epoch": 0.06701975962517824,
      "grad_norm": 0.6897047758102417,
      "learning_rate": 1e-05,
      "loss": 0.5365,
      "step": 658
    },
    {
      "epoch": 0.06712161336321043,
      "grad_norm": 0.7302555441856384,
      "learning_rate": 1e-05,
      "loss": 0.6032,
      "step": 659
    },
    {
      "epoch": 0.06722346710124262,
      "grad_norm": 0.7435541749000549,
      "learning_rate": 1e-05,
      "loss": 0.5398,
      "step": 660
    },
    {
      "epoch": 0.0673253208392748,
      "grad_norm": 0.7214070558547974,
      "learning_rate": 1e-05,
      "loss": 0.6376,
      "step": 661
    },
    {
      "epoch": 0.06742717457730699,
      "grad_norm": 0.7728602290153503,
      "learning_rate": 1e-05,
      "loss": 0.753,
      "step": 662
    },
    {
      "epoch": 0.06752902831533918,
      "grad_norm": 0.7441806197166443,
      "learning_rate": 1e-05,
      "loss": 0.6289,
      "step": 663
    },
    {
      "epoch": 0.06763088205337135,
      "grad_norm": 0.7223537564277649,
      "learning_rate": 1e-05,
      "loss": 0.6466,
      "step": 664
    },
    {
      "epoch": 0.06773273579140354,
      "grad_norm": 0.7302533388137817,
      "learning_rate": 1e-05,
      "loss": 0.588,
      "step": 665
    },
    {
      "epoch": 0.06783458952943573,
      "grad_norm": 0.8083676099777222,
      "learning_rate": 1e-05,
      "loss": 0.6665,
      "step": 666
    },
    {
      "epoch": 0.06793644326746792,
      "grad_norm": 0.7116388082504272,
      "learning_rate": 1e-05,
      "loss": 0.6025,
      "step": 667
    },
    {
      "epoch": 0.0680382970055001,
      "grad_norm": 0.686734676361084,
      "learning_rate": 1e-05,
      "loss": 0.5777,
      "step": 668
    },
    {
      "epoch": 0.06814015074353229,
      "grad_norm": 0.8083436489105225,
      "learning_rate": 1e-05,
      "loss": 0.6174,
      "step": 669
    },
    {
      "epoch": 0.06824200448156448,
      "grad_norm": 0.6912083029747009,
      "learning_rate": 1e-05,
      "loss": 0.5584,
      "step": 670
    },
    {
      "epoch": 0.06834385821959665,
      "grad_norm": 0.7123486399650574,
      "learning_rate": 1e-05,
      "loss": 0.5317,
      "step": 671
    },
    {
      "epoch": 0.06844571195762884,
      "grad_norm": 0.8113628625869751,
      "learning_rate": 1e-05,
      "loss": 0.606,
      "step": 672
    },
    {
      "epoch": 0.06854756569566103,
      "grad_norm": 0.6634164452552795,
      "learning_rate": 1e-05,
      "loss": 0.5978,
      "step": 673
    },
    {
      "epoch": 0.06864941943369322,
      "grad_norm": 0.693616509437561,
      "learning_rate": 1e-05,
      "loss": 0.6085,
      "step": 674
    },
    {
      "epoch": 0.0687512731717254,
      "grad_norm": 0.6732416152954102,
      "learning_rate": 1e-05,
      "loss": 0.6076,
      "step": 675
    },
    {
      "epoch": 0.06885312690975759,
      "grad_norm": 0.7182090282440186,
      "learning_rate": 1e-05,
      "loss": 0.5751,
      "step": 676
    },
    {
      "epoch": 0.06895498064778978,
      "grad_norm": 0.8809561133384705,
      "learning_rate": 1e-05,
      "loss": 0.6326,
      "step": 677
    },
    {
      "epoch": 0.06905683438582196,
      "grad_norm": 0.6651095747947693,
      "learning_rate": 1e-05,
      "loss": 0.5527,
      "step": 678
    },
    {
      "epoch": 0.06915868812385415,
      "grad_norm": 0.7727504968643188,
      "learning_rate": 1e-05,
      "loss": 0.5874,
      "step": 679
    },
    {
      "epoch": 0.06926054186188633,
      "grad_norm": 0.6614055633544922,
      "learning_rate": 1e-05,
      "loss": 0.6051,
      "step": 680
    },
    {
      "epoch": 0.06936239559991851,
      "grad_norm": 0.7317473292350769,
      "learning_rate": 1e-05,
      "loss": 0.6601,
      "step": 681
    },
    {
      "epoch": 0.0694642493379507,
      "grad_norm": 0.6673163771629333,
      "learning_rate": 1e-05,
      "loss": 0.5407,
      "step": 682
    },
    {
      "epoch": 0.06956610307598289,
      "grad_norm": 0.686295747756958,
      "learning_rate": 1e-05,
      "loss": 0.5863,
      "step": 683
    },
    {
      "epoch": 0.06966795681401508,
      "grad_norm": 1.516759991645813,
      "learning_rate": 1e-05,
      "loss": 0.5877,
      "step": 684
    },
    {
      "epoch": 0.06976981055204726,
      "grad_norm": 0.6991841793060303,
      "learning_rate": 1e-05,
      "loss": 0.6114,
      "step": 685
    },
    {
      "epoch": 0.06987166429007945,
      "grad_norm": 0.6783804297447205,
      "learning_rate": 1e-05,
      "loss": 0.441,
      "step": 686
    },
    {
      "epoch": 0.06997351802811164,
      "grad_norm": 0.6947439312934875,
      "learning_rate": 1e-05,
      "loss": 0.6612,
      "step": 687
    },
    {
      "epoch": 0.07007537176614381,
      "grad_norm": 0.727313756942749,
      "learning_rate": 1e-05,
      "loss": 0.6749,
      "step": 688
    },
    {
      "epoch": 0.070177225504176,
      "grad_norm": 0.6679311990737915,
      "learning_rate": 1e-05,
      "loss": 0.6003,
      "step": 689
    },
    {
      "epoch": 0.07027907924220819,
      "grad_norm": 0.7211025953292847,
      "learning_rate": 1e-05,
      "loss": 0.6105,
      "step": 690
    },
    {
      "epoch": 0.07038093298024037,
      "grad_norm": 0.7230275869369507,
      "learning_rate": 1e-05,
      "loss": 0.5848,
      "step": 691
    },
    {
      "epoch": 0.07048278671827256,
      "grad_norm": 0.6931117177009583,
      "learning_rate": 1e-05,
      "loss": 0.5816,
      "step": 692
    },
    {
      "epoch": 0.07058464045630475,
      "grad_norm": 0.7482225298881531,
      "learning_rate": 1e-05,
      "loss": 0.6345,
      "step": 693
    },
    {
      "epoch": 0.07068649419433694,
      "grad_norm": 0.7233554124832153,
      "learning_rate": 1e-05,
      "loss": 0.6268,
      "step": 694
    },
    {
      "epoch": 0.07078834793236911,
      "grad_norm": 0.7946114540100098,
      "learning_rate": 1e-05,
      "loss": 0.5931,
      "step": 695
    },
    {
      "epoch": 0.0708902016704013,
      "grad_norm": 0.7920774221420288,
      "learning_rate": 1e-05,
      "loss": 0.6799,
      "step": 696
    },
    {
      "epoch": 0.0709920554084335,
      "grad_norm": 0.7414889335632324,
      "learning_rate": 1e-05,
      "loss": 0.6276,
      "step": 697
    },
    {
      "epoch": 0.07109390914646567,
      "grad_norm": 0.7191328406333923,
      "learning_rate": 1e-05,
      "loss": 0.5572,
      "step": 698
    },
    {
      "epoch": 0.07119576288449786,
      "grad_norm": 0.7709682583808899,
      "learning_rate": 1e-05,
      "loss": 0.5574,
      "step": 699
    },
    {
      "epoch": 0.07129761662253005,
      "grad_norm": 0.8749160170555115,
      "learning_rate": 1e-05,
      "loss": 0.5628,
      "step": 700
    },
    {
      "epoch": 0.07139947036056224,
      "grad_norm": 0.6752254366874695,
      "learning_rate": 1e-05,
      "loss": 0.504,
      "step": 701
    },
    {
      "epoch": 0.07150132409859442,
      "grad_norm": 0.776978611946106,
      "learning_rate": 1e-05,
      "loss": 0.6211,
      "step": 702
    },
    {
      "epoch": 0.0716031778366266,
      "grad_norm": 0.7091554403305054,
      "learning_rate": 1e-05,
      "loss": 0.6167,
      "step": 703
    },
    {
      "epoch": 0.0717050315746588,
      "grad_norm": 0.7598163485527039,
      "learning_rate": 1e-05,
      "loss": 0.6788,
      "step": 704
    },
    {
      "epoch": 0.07180688531269097,
      "grad_norm": 0.767497718334198,
      "learning_rate": 1e-05,
      "loss": 0.6418,
      "step": 705
    },
    {
      "epoch": 0.07190873905072316,
      "grad_norm": 0.7084411978721619,
      "learning_rate": 1e-05,
      "loss": 0.5359,
      "step": 706
    },
    {
      "epoch": 0.07201059278875535,
      "grad_norm": 3.8051235675811768,
      "learning_rate": 1e-05,
      "loss": 0.6328,
      "step": 707
    },
    {
      "epoch": 0.07211244652678753,
      "grad_norm": 1.0884253978729248,
      "learning_rate": 1e-05,
      "loss": 0.5475,
      "step": 708
    },
    {
      "epoch": 0.07221430026481972,
      "grad_norm": 0.7277860045433044,
      "learning_rate": 1e-05,
      "loss": 0.6,
      "step": 709
    },
    {
      "epoch": 0.0723161540028519,
      "grad_norm": 0.7173706889152527,
      "learning_rate": 1e-05,
      "loss": 0.5435,
      "step": 710
    },
    {
      "epoch": 0.0724180077408841,
      "grad_norm": 0.693960428237915,
      "learning_rate": 1e-05,
      "loss": 0.5751,
      "step": 711
    },
    {
      "epoch": 0.07251986147891627,
      "grad_norm": 1.0744707584381104,
      "learning_rate": 1e-05,
      "loss": 0.6953,
      "step": 712
    },
    {
      "epoch": 0.07262171521694846,
      "grad_norm": 0.7750140428543091,
      "learning_rate": 1e-05,
      "loss": 0.5633,
      "step": 713
    },
    {
      "epoch": 0.07272356895498065,
      "grad_norm": 1.0002121925354004,
      "learning_rate": 1e-05,
      "loss": 0.7047,
      "step": 714
    },
    {
      "epoch": 0.07282542269301283,
      "grad_norm": 0.6369515061378479,
      "learning_rate": 1e-05,
      "loss": 0.5426,
      "step": 715
    },
    {
      "epoch": 0.07292727643104502,
      "grad_norm": 1.0878872871398926,
      "learning_rate": 1e-05,
      "loss": 0.5527,
      "step": 716
    },
    {
      "epoch": 0.07302913016907721,
      "grad_norm": 0.8107817769050598,
      "learning_rate": 1e-05,
      "loss": 0.7103,
      "step": 717
    },
    {
      "epoch": 0.07313098390710938,
      "grad_norm": 0.7020430564880371,
      "learning_rate": 1e-05,
      "loss": 0.6372,
      "step": 718
    },
    {
      "epoch": 0.07323283764514157,
      "grad_norm": 0.7223978638648987,
      "learning_rate": 1e-05,
      "loss": 0.6437,
      "step": 719
    },
    {
      "epoch": 0.07333469138317376,
      "grad_norm": 0.6852601170539856,
      "learning_rate": 1e-05,
      "loss": 0.5655,
      "step": 720
    },
    {
      "epoch": 0.07343654512120595,
      "grad_norm": 0.6854807138442993,
      "learning_rate": 1e-05,
      "loss": 0.6135,
      "step": 721
    },
    {
      "epoch": 0.07353839885923813,
      "grad_norm": 0.8401796817779541,
      "learning_rate": 1e-05,
      "loss": 0.6161,
      "step": 722
    },
    {
      "epoch": 0.07364025259727032,
      "grad_norm": 0.7952378392219543,
      "learning_rate": 1e-05,
      "loss": 0.6709,
      "step": 723
    },
    {
      "epoch": 0.07374210633530251,
      "grad_norm": 0.7345938086509705,
      "learning_rate": 1e-05,
      "loss": 0.5516,
      "step": 724
    },
    {
      "epoch": 0.07384396007333469,
      "grad_norm": 1.215235948562622,
      "learning_rate": 1e-05,
      "loss": 0.5114,
      "step": 725
    },
    {
      "epoch": 0.07394581381136688,
      "grad_norm": 0.9976072907447815,
      "learning_rate": 1e-05,
      "loss": 0.5794,
      "step": 726
    },
    {
      "epoch": 0.07404766754939907,
      "grad_norm": 0.7545852661132812,
      "learning_rate": 1e-05,
      "loss": 0.6324,
      "step": 727
    },
    {
      "epoch": 0.07414952128743126,
      "grad_norm": 0.7423312664031982,
      "learning_rate": 1e-05,
      "loss": 0.6486,
      "step": 728
    },
    {
      "epoch": 0.07425137502546343,
      "grad_norm": 0.7638545632362366,
      "learning_rate": 1e-05,
      "loss": 0.6732,
      "step": 729
    },
    {
      "epoch": 0.07435322876349562,
      "grad_norm": 1.278409719467163,
      "learning_rate": 1e-05,
      "loss": 0.5771,
      "step": 730
    },
    {
      "epoch": 0.07445508250152781,
      "grad_norm": 0.7136393189430237,
      "learning_rate": 1e-05,
      "loss": 0.5791,
      "step": 731
    },
    {
      "epoch": 0.07455693623955999,
      "grad_norm": 0.7511439919471741,
      "learning_rate": 1e-05,
      "loss": 0.6434,
      "step": 732
    },
    {
      "epoch": 0.07465878997759218,
      "grad_norm": 0.6935784220695496,
      "learning_rate": 1e-05,
      "loss": 0.66,
      "step": 733
    },
    {
      "epoch": 0.07476064371562437,
      "grad_norm": 0.6695329546928406,
      "learning_rate": 1e-05,
      "loss": 0.5608,
      "step": 734
    },
    {
      "epoch": 0.07486249745365654,
      "grad_norm": 0.7613467574119568,
      "learning_rate": 1e-05,
      "loss": 0.5797,
      "step": 735
    },
    {
      "epoch": 0.07496435119168873,
      "grad_norm": 0.7380523681640625,
      "learning_rate": 1e-05,
      "loss": 0.5753,
      "step": 736
    },
    {
      "epoch": 0.07506620492972092,
      "grad_norm": 0.6840691566467285,
      "learning_rate": 1e-05,
      "loss": 0.6125,
      "step": 737
    },
    {
      "epoch": 0.07516805866775311,
      "grad_norm": 0.7034599184989929,
      "learning_rate": 1e-05,
      "loss": 0.5694,
      "step": 738
    },
    {
      "epoch": 0.07526991240578529,
      "grad_norm": 0.7014278769493103,
      "learning_rate": 1e-05,
      "loss": 0.648,
      "step": 739
    },
    {
      "epoch": 0.07537176614381748,
      "grad_norm": 0.7148626446723938,
      "learning_rate": 1e-05,
      "loss": 0.6361,
      "step": 740
    },
    {
      "epoch": 0.07547361988184967,
      "grad_norm": 0.6491435766220093,
      "learning_rate": 1e-05,
      "loss": 0.526,
      "step": 741
    },
    {
      "epoch": 0.07557547361988184,
      "grad_norm": 0.6642880439758301,
      "learning_rate": 1e-05,
      "loss": 0.5084,
      "step": 742
    },
    {
      "epoch": 0.07567732735791403,
      "grad_norm": 0.6845027208328247,
      "learning_rate": 1e-05,
      "loss": 0.5229,
      "step": 743
    },
    {
      "epoch": 0.07577918109594622,
      "grad_norm": 0.6960883736610413,
      "learning_rate": 1e-05,
      "loss": 0.5835,
      "step": 744
    },
    {
      "epoch": 0.0758810348339784,
      "grad_norm": 0.8869301080703735,
      "learning_rate": 1e-05,
      "loss": 0.6695,
      "step": 745
    },
    {
      "epoch": 0.07598288857201059,
      "grad_norm": 0.6933504939079285,
      "learning_rate": 1e-05,
      "loss": 0.6064,
      "step": 746
    },
    {
      "epoch": 0.07608474231004278,
      "grad_norm": 0.7039210200309753,
      "learning_rate": 1e-05,
      "loss": 0.6447,
      "step": 747
    },
    {
      "epoch": 0.07618659604807497,
      "grad_norm": 0.7437511086463928,
      "learning_rate": 1e-05,
      "loss": 0.6576,
      "step": 748
    },
    {
      "epoch": 0.07628844978610715,
      "grad_norm": 0.7429072856903076,
      "learning_rate": 1e-05,
      "loss": 0.6298,
      "step": 749
    },
    {
      "epoch": 0.07639030352413934,
      "grad_norm": 0.7851905226707458,
      "learning_rate": 1e-05,
      "loss": 0.6005,
      "step": 750
    },
    {
      "epoch": 0.07649215726217153,
      "grad_norm": 2.3827226161956787,
      "learning_rate": 1e-05,
      "loss": 0.5744,
      "step": 751
    },
    {
      "epoch": 0.0765940110002037,
      "grad_norm": 0.7096601128578186,
      "learning_rate": 1e-05,
      "loss": 0.6324,
      "step": 752
    },
    {
      "epoch": 0.07669586473823589,
      "grad_norm": 0.6615216135978699,
      "learning_rate": 1e-05,
      "loss": 0.5461,
      "step": 753
    },
    {
      "epoch": 0.07679771847626808,
      "grad_norm": 0.7573889493942261,
      "learning_rate": 1e-05,
      "loss": 0.6724,
      "step": 754
    },
    {
      "epoch": 0.07689957221430027,
      "grad_norm": 0.756286084651947,
      "learning_rate": 1e-05,
      "loss": 0.6005,
      "step": 755
    },
    {
      "epoch": 0.07700142595233245,
      "grad_norm": 0.6741827130317688,
      "learning_rate": 1e-05,
      "loss": 0.6035,
      "step": 756
    },
    {
      "epoch": 0.07710327969036464,
      "grad_norm": 0.7743116617202759,
      "learning_rate": 1e-05,
      "loss": 0.6541,
      "step": 757
    },
    {
      "epoch": 0.07720513342839683,
      "grad_norm": 0.6795439720153809,
      "learning_rate": 1e-05,
      "loss": 0.4849,
      "step": 758
    },
    {
      "epoch": 0.077306987166429,
      "grad_norm": 0.7164328694343567,
      "learning_rate": 1e-05,
      "loss": 0.5007,
      "step": 759
    },
    {
      "epoch": 0.07740884090446119,
      "grad_norm": 0.7001290321350098,
      "learning_rate": 1e-05,
      "loss": 0.5254,
      "step": 760
    },
    {
      "epoch": 0.07751069464249338,
      "grad_norm": 1.0124287605285645,
      "learning_rate": 1e-05,
      "loss": 0.6231,
      "step": 761
    },
    {
      "epoch": 0.07761254838052556,
      "grad_norm": 0.7641279697418213,
      "learning_rate": 1e-05,
      "loss": 0.6303,
      "step": 762
    },
    {
      "epoch": 0.07771440211855775,
      "grad_norm": 0.7363667488098145,
      "learning_rate": 1e-05,
      "loss": 0.6283,
      "step": 763
    },
    {
      "epoch": 0.07781625585658994,
      "grad_norm": 0.7412974834442139,
      "learning_rate": 1e-05,
      "loss": 0.6227,
      "step": 764
    },
    {
      "epoch": 0.07791810959462213,
      "grad_norm": 0.8236947059631348,
      "learning_rate": 1e-05,
      "loss": 0.6092,
      "step": 765
    },
    {
      "epoch": 0.0780199633326543,
      "grad_norm": 1.6256026029586792,
      "learning_rate": 1e-05,
      "loss": 0.7197,
      "step": 766
    },
    {
      "epoch": 0.0781218170706865,
      "grad_norm": 0.717197835445404,
      "learning_rate": 1e-05,
      "loss": 0.6554,
      "step": 767
    },
    {
      "epoch": 0.07822367080871868,
      "grad_norm": 0.7049593925476074,
      "learning_rate": 1e-05,
      "loss": 0.5744,
      "step": 768
    },
    {
      "epoch": 0.07832552454675086,
      "grad_norm": 0.7777841687202454,
      "learning_rate": 1e-05,
      "loss": 0.538,
      "step": 769
    },
    {
      "epoch": 0.07842737828478305,
      "grad_norm": 0.8571662902832031,
      "learning_rate": 1e-05,
      "loss": 0.6333,
      "step": 770
    },
    {
      "epoch": 0.07852923202281524,
      "grad_norm": 0.7561103701591492,
      "learning_rate": 1e-05,
      "loss": 0.6356,
      "step": 771
    },
    {
      "epoch": 0.07863108576084742,
      "grad_norm": 0.7482547760009766,
      "learning_rate": 1e-05,
      "loss": 0.4967,
      "step": 772
    },
    {
      "epoch": 0.0787329394988796,
      "grad_norm": 0.6801137328147888,
      "learning_rate": 1e-05,
      "loss": 0.5638,
      "step": 773
    },
    {
      "epoch": 0.0788347932369118,
      "grad_norm": 0.6864476203918457,
      "learning_rate": 1e-05,
      "loss": 0.6109,
      "step": 774
    },
    {
      "epoch": 0.07893664697494399,
      "grad_norm": 0.7279462218284607,
      "learning_rate": 1e-05,
      "loss": 0.6812,
      "step": 775
    },
    {
      "epoch": 0.07903850071297616,
      "grad_norm": 0.6846290826797485,
      "learning_rate": 1e-05,
      "loss": 0.5216,
      "step": 776
    },
    {
      "epoch": 0.07914035445100835,
      "grad_norm": 0.7005754113197327,
      "learning_rate": 1e-05,
      "loss": 0.544,
      "step": 777
    },
    {
      "epoch": 0.07924220818904054,
      "grad_norm": 0.7094122767448425,
      "learning_rate": 1e-05,
      "loss": 0.6748,
      "step": 778
    },
    {
      "epoch": 0.07934406192707272,
      "grad_norm": 0.6913280487060547,
      "learning_rate": 1e-05,
      "loss": 0.6078,
      "step": 779
    },
    {
      "epoch": 0.07944591566510491,
      "grad_norm": 0.7002707719802856,
      "learning_rate": 1e-05,
      "loss": 0.508,
      "step": 780
    },
    {
      "epoch": 0.0795477694031371,
      "grad_norm": 0.7893704771995544,
      "learning_rate": 1e-05,
      "loss": 0.6486,
      "step": 781
    },
    {
      "epoch": 0.07964962314116929,
      "grad_norm": 0.7811065316200256,
      "learning_rate": 1e-05,
      "loss": 0.5309,
      "step": 782
    },
    {
      "epoch": 0.07975147687920146,
      "grad_norm": 0.698853611946106,
      "learning_rate": 1e-05,
      "loss": 0.5836,
      "step": 783
    },
    {
      "epoch": 0.07985333061723365,
      "grad_norm": 0.655555248260498,
      "learning_rate": 1e-05,
      "loss": 0.527,
      "step": 784
    },
    {
      "epoch": 0.07995518435526584,
      "grad_norm": 0.7098323702812195,
      "learning_rate": 1e-05,
      "loss": 0.6163,
      "step": 785
    },
    {
      "epoch": 0.08005703809329802,
      "grad_norm": 0.7713611721992493,
      "learning_rate": 1e-05,
      "loss": 0.7366,
      "step": 786
    },
    {
      "epoch": 0.08015889183133021,
      "grad_norm": 0.6914119720458984,
      "learning_rate": 1e-05,
      "loss": 0.5952,
      "step": 787
    },
    {
      "epoch": 0.0802607455693624,
      "grad_norm": 0.7450687289237976,
      "learning_rate": 1e-05,
      "loss": 0.623,
      "step": 788
    },
    {
      "epoch": 0.08036259930739457,
      "grad_norm": 0.830889105796814,
      "learning_rate": 1e-05,
      "loss": 0.6699,
      "step": 789
    },
    {
      "epoch": 0.08046445304542676,
      "grad_norm": 0.7283064126968384,
      "learning_rate": 1e-05,
      "loss": 0.6146,
      "step": 790
    },
    {
      "epoch": 0.08056630678345895,
      "grad_norm": 0.6488388776779175,
      "learning_rate": 1e-05,
      "loss": 0.5319,
      "step": 791
    },
    {
      "epoch": 0.08066816052149114,
      "grad_norm": 0.8614482283592224,
      "learning_rate": 1e-05,
      "loss": 0.6614,
      "step": 792
    },
    {
      "epoch": 0.08077001425952332,
      "grad_norm": 0.6656516194343567,
      "learning_rate": 1e-05,
      "loss": 0.6563,
      "step": 793
    },
    {
      "epoch": 0.08087186799755551,
      "grad_norm": 0.8273004293441772,
      "learning_rate": 1e-05,
      "loss": 0.6866,
      "step": 794
    },
    {
      "epoch": 0.0809737217355877,
      "grad_norm": 0.731313169002533,
      "learning_rate": 1e-05,
      "loss": 0.5589,
      "step": 795
    },
    {
      "epoch": 0.08107557547361988,
      "grad_norm": 0.6742034554481506,
      "learning_rate": 1e-05,
      "loss": 0.5504,
      "step": 796
    },
    {
      "epoch": 0.08117742921165207,
      "grad_norm": 0.7854178547859192,
      "learning_rate": 1e-05,
      "loss": 0.7357,
      "step": 797
    },
    {
      "epoch": 0.08127928294968426,
      "grad_norm": 0.7460556626319885,
      "learning_rate": 1e-05,
      "loss": 0.631,
      "step": 798
    },
    {
      "epoch": 0.08138113668771645,
      "grad_norm": 0.6897732019424438,
      "learning_rate": 1e-05,
      "loss": 0.6137,
      "step": 799
    },
    {
      "epoch": 0.08148299042574862,
      "grad_norm": 0.7160526514053345,
      "learning_rate": 1e-05,
      "loss": 0.5935,
      "step": 800
    },
    {
      "epoch": 0.08158484416378081,
      "grad_norm": 0.6525668501853943,
      "learning_rate": 1e-05,
      "loss": 0.5877,
      "step": 801
    },
    {
      "epoch": 0.081686697901813,
      "grad_norm": 0.7218053936958313,
      "learning_rate": 1e-05,
      "loss": 0.5525,
      "step": 802
    },
    {
      "epoch": 0.08178855163984518,
      "grad_norm": 0.7182385921478271,
      "learning_rate": 1e-05,
      "loss": 0.6786,
      "step": 803
    },
    {
      "epoch": 0.08189040537787737,
      "grad_norm": 0.6919321417808533,
      "learning_rate": 1e-05,
      "loss": 0.5353,
      "step": 804
    },
    {
      "epoch": 0.08199225911590956,
      "grad_norm": 0.6921874284744263,
      "learning_rate": 1e-05,
      "loss": 0.6437,
      "step": 805
    },
    {
      "epoch": 0.08209411285394173,
      "grad_norm": 0.7470345497131348,
      "learning_rate": 1e-05,
      "loss": 0.532,
      "step": 806
    },
    {
      "epoch": 0.08219596659197392,
      "grad_norm": 0.7964766025543213,
      "learning_rate": 1e-05,
      "loss": 0.7358,
      "step": 807
    },
    {
      "epoch": 0.08229782033000611,
      "grad_norm": 0.7890310287475586,
      "learning_rate": 1e-05,
      "loss": 0.6918,
      "step": 808
    },
    {
      "epoch": 0.0823996740680383,
      "grad_norm": 0.7409482598304749,
      "learning_rate": 1e-05,
      "loss": 0.6396,
      "step": 809
    },
    {
      "epoch": 0.08250152780607048,
      "grad_norm": 0.689609706401825,
      "learning_rate": 1e-05,
      "loss": 0.6689,
      "step": 810
    },
    {
      "epoch": 0.08260338154410267,
      "grad_norm": 0.7328536510467529,
      "learning_rate": 1e-05,
      "loss": 0.6519,
      "step": 811
    },
    {
      "epoch": 0.08270523528213486,
      "grad_norm": 0.708435595035553,
      "learning_rate": 1e-05,
      "loss": 0.5609,
      "step": 812
    },
    {
      "epoch": 0.08280708902016704,
      "grad_norm": 0.6957811117172241,
      "learning_rate": 1e-05,
      "loss": 0.5507,
      "step": 813
    },
    {
      "epoch": 0.08290894275819922,
      "grad_norm": 0.7251644134521484,
      "learning_rate": 1e-05,
      "loss": 0.7338,
      "step": 814
    },
    {
      "epoch": 0.08301079649623141,
      "grad_norm": 0.7729248404502869,
      "learning_rate": 1e-05,
      "loss": 0.6481,
      "step": 815
    },
    {
      "epoch": 0.08311265023426359,
      "grad_norm": 0.7145933508872986,
      "learning_rate": 1e-05,
      "loss": 0.6201,
      "step": 816
    },
    {
      "epoch": 0.08321450397229578,
      "grad_norm": 0.6897314190864563,
      "learning_rate": 1e-05,
      "loss": 0.5458,
      "step": 817
    },
    {
      "epoch": 0.08331635771032797,
      "grad_norm": 0.7395792603492737,
      "learning_rate": 1e-05,
      "loss": 0.5766,
      "step": 818
    },
    {
      "epoch": 0.08341821144836016,
      "grad_norm": 0.6758875250816345,
      "learning_rate": 1e-05,
      "loss": 0.5611,
      "step": 819
    },
    {
      "epoch": 0.08352006518639234,
      "grad_norm": 0.722756028175354,
      "learning_rate": 1e-05,
      "loss": 0.6379,
      "step": 820
    },
    {
      "epoch": 0.08362191892442453,
      "grad_norm": 0.7020260691642761,
      "learning_rate": 1e-05,
      "loss": 0.68,
      "step": 821
    },
    {
      "epoch": 0.08372377266245672,
      "grad_norm": 0.7074967622756958,
      "learning_rate": 1e-05,
      "loss": 0.6068,
      "step": 822
    },
    {
      "epoch": 0.08382562640048889,
      "grad_norm": 0.7122542858123779,
      "learning_rate": 1e-05,
      "loss": 0.5679,
      "step": 823
    },
    {
      "epoch": 0.08392748013852108,
      "grad_norm": 0.7470264434814453,
      "learning_rate": 1e-05,
      "loss": 0.6131,
      "step": 824
    },
    {
      "epoch": 0.08402933387655327,
      "grad_norm": 0.6964659690856934,
      "learning_rate": 1e-05,
      "loss": 0.554,
      "step": 825
    },
    {
      "epoch": 0.08413118761458546,
      "grad_norm": 0.6937650442123413,
      "learning_rate": 1e-05,
      "loss": 0.6318,
      "step": 826
    },
    {
      "epoch": 0.08423304135261764,
      "grad_norm": 0.7228129506111145,
      "learning_rate": 1e-05,
      "loss": 0.6483,
      "step": 827
    },
    {
      "epoch": 0.08433489509064983,
      "grad_norm": 0.6718736886978149,
      "learning_rate": 1e-05,
      "loss": 0.6297,
      "step": 828
    },
    {
      "epoch": 0.08443674882868202,
      "grad_norm": 1.0047229528427124,
      "learning_rate": 1e-05,
      "loss": 0.5941,
      "step": 829
    },
    {
      "epoch": 0.0845386025667142,
      "grad_norm": 0.7373981475830078,
      "learning_rate": 1e-05,
      "loss": 0.731,
      "step": 830
    },
    {
      "epoch": 0.08464045630474638,
      "grad_norm": 0.6876692771911621,
      "learning_rate": 1e-05,
      "loss": 0.433,
      "step": 831
    },
    {
      "epoch": 0.08474231004277857,
      "grad_norm": 0.7093357443809509,
      "learning_rate": 1e-05,
      "loss": 0.611,
      "step": 832
    },
    {
      "epoch": 0.08484416378081075,
      "grad_norm": 0.7013541460037231,
      "learning_rate": 1e-05,
      "loss": 0.6219,
      "step": 833
    },
    {
      "epoch": 0.08494601751884294,
      "grad_norm": 0.7652251124382019,
      "learning_rate": 1e-05,
      "loss": 0.6294,
      "step": 834
    },
    {
      "epoch": 0.08504787125687513,
      "grad_norm": 0.6637462973594666,
      "learning_rate": 1e-05,
      "loss": 0.5602,
      "step": 835
    },
    {
      "epoch": 0.08514972499490732,
      "grad_norm": 0.7014580965042114,
      "learning_rate": 1e-05,
      "loss": 0.6497,
      "step": 836
    },
    {
      "epoch": 0.0852515787329395,
      "grad_norm": 0.7371702194213867,
      "learning_rate": 1e-05,
      "loss": 0.5682,
      "step": 837
    },
    {
      "epoch": 0.08535343247097169,
      "grad_norm": 0.6825110912322998,
      "learning_rate": 1e-05,
      "loss": 0.5461,
      "step": 838
    },
    {
      "epoch": 0.08545528620900388,
      "grad_norm": 0.751004159450531,
      "learning_rate": 1e-05,
      "loss": 0.5551,
      "step": 839
    },
    {
      "epoch": 0.08555713994703605,
      "grad_norm": 0.7310057878494263,
      "learning_rate": 1e-05,
      "loss": 0.6634,
      "step": 840
    },
    {
      "epoch": 0.08565899368506824,
      "grad_norm": 0.8185828924179077,
      "learning_rate": 1e-05,
      "loss": 0.6138,
      "step": 841
    },
    {
      "epoch": 0.08576084742310043,
      "grad_norm": 0.7102914452552795,
      "learning_rate": 1e-05,
      "loss": 0.4712,
      "step": 842
    },
    {
      "epoch": 0.0858627011611326,
      "grad_norm": 0.6973876357078552,
      "learning_rate": 1e-05,
      "loss": 0.6074,
      "step": 843
    },
    {
      "epoch": 0.0859645548991648,
      "grad_norm": 0.7287880182266235,
      "learning_rate": 1e-05,
      "loss": 0.66,
      "step": 844
    },
    {
      "epoch": 0.08606640863719699,
      "grad_norm": 0.6852766871452332,
      "learning_rate": 1e-05,
      "loss": 0.5475,
      "step": 845
    },
    {
      "epoch": 0.08616826237522918,
      "grad_norm": 0.6700894236564636,
      "learning_rate": 1e-05,
      "loss": 0.5783,
      "step": 846
    },
    {
      "epoch": 0.08627011611326135,
      "grad_norm": 0.7546143531799316,
      "learning_rate": 1e-05,
      "loss": 0.671,
      "step": 847
    },
    {
      "epoch": 0.08637196985129354,
      "grad_norm": 0.7149358987808228,
      "learning_rate": 1e-05,
      "loss": 0.5975,
      "step": 848
    },
    {
      "epoch": 0.08647382358932573,
      "grad_norm": 0.7188506126403809,
      "learning_rate": 1e-05,
      "loss": 0.5697,
      "step": 849
    },
    {
      "epoch": 0.08657567732735791,
      "grad_norm": 0.810778021812439,
      "learning_rate": 1e-05,
      "loss": 0.6588,
      "step": 850
    },
    {
      "epoch": 0.0866775310653901,
      "grad_norm": 0.6803034543991089,
      "learning_rate": 1e-05,
      "loss": 0.5806,
      "step": 851
    },
    {
      "epoch": 0.08677938480342229,
      "grad_norm": 0.7492033243179321,
      "learning_rate": 1e-05,
      "loss": 0.6546,
      "step": 852
    },
    {
      "epoch": 0.08688123854145448,
      "grad_norm": 0.6954954266548157,
      "learning_rate": 1e-05,
      "loss": 0.5623,
      "step": 853
    },
    {
      "epoch": 0.08698309227948665,
      "grad_norm": 0.7504346370697021,
      "learning_rate": 1e-05,
      "loss": 0.781,
      "step": 854
    },
    {
      "epoch": 0.08708494601751884,
      "grad_norm": 0.6817699670791626,
      "learning_rate": 1e-05,
      "loss": 0.525,
      "step": 855
    },
    {
      "epoch": 0.08718679975555103,
      "grad_norm": 0.7558571100234985,
      "learning_rate": 1e-05,
      "loss": 0.6311,
      "step": 856
    },
    {
      "epoch": 0.08728865349358321,
      "grad_norm": 0.7254855632781982,
      "learning_rate": 1e-05,
      "loss": 0.6477,
      "step": 857
    },
    {
      "epoch": 0.0873905072316154,
      "grad_norm": 0.7382869124412537,
      "learning_rate": 1e-05,
      "loss": 0.7031,
      "step": 858
    },
    {
      "epoch": 0.08749236096964759,
      "grad_norm": 0.687576174736023,
      "learning_rate": 1e-05,
      "loss": 0.5848,
      "step": 859
    },
    {
      "epoch": 0.08759421470767977,
      "grad_norm": 0.7330741882324219,
      "learning_rate": 1e-05,
      "loss": 0.6631,
      "step": 860
    },
    {
      "epoch": 0.08769606844571196,
      "grad_norm": 0.7615301012992859,
      "learning_rate": 1e-05,
      "loss": 0.66,
      "step": 861
    },
    {
      "epoch": 0.08779792218374415,
      "grad_norm": 0.6846652626991272,
      "learning_rate": 1e-05,
      "loss": 0.6012,
      "step": 862
    },
    {
      "epoch": 0.08789977592177634,
      "grad_norm": 0.6426638960838318,
      "learning_rate": 1e-05,
      "loss": 0.4901,
      "step": 863
    },
    {
      "epoch": 0.08800162965980851,
      "grad_norm": 0.7372274398803711,
      "learning_rate": 1e-05,
      "loss": 0.6413,
      "step": 864
    },
    {
      "epoch": 0.0881034833978407,
      "grad_norm": 0.74750155210495,
      "learning_rate": 1e-05,
      "loss": 0.564,
      "step": 865
    },
    {
      "epoch": 0.08820533713587289,
      "grad_norm": 0.7711988687515259,
      "learning_rate": 1e-05,
      "loss": 0.6765,
      "step": 866
    },
    {
      "epoch": 0.08830719087390507,
      "grad_norm": 0.8372209668159485,
      "learning_rate": 1e-05,
      "loss": 0.5396,
      "step": 867
    },
    {
      "epoch": 0.08840904461193726,
      "grad_norm": 0.7368619441986084,
      "learning_rate": 1e-05,
      "loss": 0.5573,
      "step": 868
    },
    {
      "epoch": 0.08851089834996945,
      "grad_norm": 0.9149866700172424,
      "learning_rate": 1e-05,
      "loss": 0.5647,
      "step": 869
    },
    {
      "epoch": 0.08861275208800162,
      "grad_norm": 0.6776066422462463,
      "learning_rate": 1e-05,
      "loss": 0.6538,
      "step": 870
    },
    {
      "epoch": 0.08871460582603381,
      "grad_norm": 0.7727023959159851,
      "learning_rate": 1e-05,
      "loss": 0.6683,
      "step": 871
    },
    {
      "epoch": 0.088816459564066,
      "grad_norm": 0.67429119348526,
      "learning_rate": 1e-05,
      "loss": 0.5627,
      "step": 872
    },
    {
      "epoch": 0.08891831330209819,
      "grad_norm": 0.682774543762207,
      "learning_rate": 1e-05,
      "loss": 0.6389,
      "step": 873
    },
    {
      "epoch": 0.08902016704013037,
      "grad_norm": 0.8660439252853394,
      "learning_rate": 1e-05,
      "loss": 0.6097,
      "step": 874
    },
    {
      "epoch": 0.08912202077816256,
      "grad_norm": 0.8398658037185669,
      "learning_rate": 1e-05,
      "loss": 0.6285,
      "step": 875
    },
    {
      "epoch": 0.08922387451619475,
      "grad_norm": 0.7292174696922302,
      "learning_rate": 1e-05,
      "loss": 0.5564,
      "step": 876
    },
    {
      "epoch": 0.08932572825422692,
      "grad_norm": 0.6871362924575806,
      "learning_rate": 1e-05,
      "loss": 0.5923,
      "step": 877
    },
    {
      "epoch": 0.08942758199225911,
      "grad_norm": 0.7067751884460449,
      "learning_rate": 1e-05,
      "loss": 0.6001,
      "step": 878
    },
    {
      "epoch": 0.0895294357302913,
      "grad_norm": 0.9109541773796082,
      "learning_rate": 1e-05,
      "loss": 0.588,
      "step": 879
    },
    {
      "epoch": 0.0896312894683235,
      "grad_norm": 0.8939787149429321,
      "learning_rate": 1e-05,
      "loss": 0.5894,
      "step": 880
    },
    {
      "epoch": 0.08973314320635567,
      "grad_norm": 0.6665335893630981,
      "learning_rate": 1e-05,
      "loss": 0.5324,
      "step": 881
    },
    {
      "epoch": 0.08983499694438786,
      "grad_norm": 0.7557328939437866,
      "learning_rate": 1e-05,
      "loss": 0.5439,
      "step": 882
    },
    {
      "epoch": 0.08993685068242005,
      "grad_norm": 0.8397684097290039,
      "learning_rate": 1e-05,
      "loss": 0.7326,
      "step": 883
    },
    {
      "epoch": 0.09003870442045223,
      "grad_norm": 0.712550163269043,
      "learning_rate": 1e-05,
      "loss": 0.5775,
      "step": 884
    },
    {
      "epoch": 0.09014055815848442,
      "grad_norm": 0.7959495782852173,
      "learning_rate": 1e-05,
      "loss": 0.6672,
      "step": 885
    },
    {
      "epoch": 0.0902424118965166,
      "grad_norm": 5.5960612297058105,
      "learning_rate": 1e-05,
      "loss": 0.5435,
      "step": 886
    },
    {
      "epoch": 0.09034426563454878,
      "grad_norm": 0.7107488512992859,
      "learning_rate": 1e-05,
      "loss": 0.6283,
      "step": 887
    },
    {
      "epoch": 0.09044611937258097,
      "grad_norm": 0.7219390869140625,
      "learning_rate": 1e-05,
      "loss": 0.6563,
      "step": 888
    },
    {
      "epoch": 0.09054797311061316,
      "grad_norm": 0.7924690246582031,
      "learning_rate": 1e-05,
      "loss": 0.6385,
      "step": 889
    },
    {
      "epoch": 0.09064982684864535,
      "grad_norm": 0.7165907025337219,
      "learning_rate": 1e-05,
      "loss": 0.584,
      "step": 890
    },
    {
      "epoch": 0.09075168058667753,
      "grad_norm": 1.016975998878479,
      "learning_rate": 1e-05,
      "loss": 0.5605,
      "step": 891
    },
    {
      "epoch": 0.09085353432470972,
      "grad_norm": 1.0613240003585815,
      "learning_rate": 1e-05,
      "loss": 0.5758,
      "step": 892
    },
    {
      "epoch": 0.09095538806274191,
      "grad_norm": 0.8649821281433105,
      "learning_rate": 1e-05,
      "loss": 0.6067,
      "step": 893
    },
    {
      "epoch": 0.09105724180077408,
      "grad_norm": 1.0752335786819458,
      "learning_rate": 1e-05,
      "loss": 0.5691,
      "step": 894
    },
    {
      "epoch": 0.09115909553880627,
      "grad_norm": 1.076257586479187,
      "learning_rate": 1e-05,
      "loss": 0.5949,
      "step": 895
    },
    {
      "epoch": 0.09126094927683846,
      "grad_norm": 0.8500802516937256,
      "learning_rate": 1e-05,
      "loss": 0.6408,
      "step": 896
    },
    {
      "epoch": 0.09136280301487064,
      "grad_norm": 0.7054811120033264,
      "learning_rate": 1e-05,
      "loss": 0.6408,
      "step": 897
    },
    {
      "epoch": 0.09146465675290283,
      "grad_norm": 0.6631383895874023,
      "learning_rate": 1e-05,
      "loss": 0.5933,
      "step": 898
    },
    {
      "epoch": 0.09156651049093502,
      "grad_norm": 0.6726131439208984,
      "learning_rate": 1e-05,
      "loss": 0.5511,
      "step": 899
    },
    {
      "epoch": 0.09166836422896721,
      "grad_norm": 0.6956909894943237,
      "learning_rate": 1e-05,
      "loss": 0.5454,
      "step": 900
    },
    {
      "epoch": 0.09177021796699938,
      "grad_norm": 0.6935141086578369,
      "learning_rate": 1e-05,
      "loss": 0.5978,
      "step": 901
    },
    {
      "epoch": 0.09187207170503157,
      "grad_norm": 0.8304679989814758,
      "learning_rate": 1e-05,
      "loss": 0.5391,
      "step": 902
    },
    {
      "epoch": 0.09197392544306376,
      "grad_norm": 0.7295646667480469,
      "learning_rate": 1e-05,
      "loss": 0.6211,
      "step": 903
    },
    {
      "epoch": 0.09207577918109594,
      "grad_norm": 0.6527501940727234,
      "learning_rate": 1e-05,
      "loss": 0.5769,
      "step": 904
    },
    {
      "epoch": 0.09217763291912813,
      "grad_norm": 0.6739764213562012,
      "learning_rate": 1e-05,
      "loss": 0.6648,
      "step": 905
    },
    {
      "epoch": 0.09227948665716032,
      "grad_norm": 0.6650170087814331,
      "learning_rate": 1e-05,
      "loss": 0.5759,
      "step": 906
    },
    {
      "epoch": 0.09238134039519251,
      "grad_norm": 0.6633622050285339,
      "learning_rate": 1e-05,
      "loss": 0.5555,
      "step": 907
    },
    {
      "epoch": 0.09248319413322469,
      "grad_norm": 0.7948195934295654,
      "learning_rate": 1e-05,
      "loss": 0.5209,
      "step": 908
    },
    {
      "epoch": 0.09258504787125688,
      "grad_norm": 0.6725999116897583,
      "learning_rate": 1e-05,
      "loss": 0.5459,
      "step": 909
    },
    {
      "epoch": 0.09268690160928907,
      "grad_norm": 0.7859250903129578,
      "learning_rate": 1e-05,
      "loss": 0.7187,
      "step": 910
    },
    {
      "epoch": 0.09278875534732124,
      "grad_norm": 0.7379041314125061,
      "learning_rate": 1e-05,
      "loss": 0.6471,
      "step": 911
    },
    {
      "epoch": 0.09289060908535343,
      "grad_norm": 0.7870442271232605,
      "learning_rate": 1e-05,
      "loss": 0.7658,
      "step": 912
    },
    {
      "epoch": 0.09299246282338562,
      "grad_norm": 0.7397927045822144,
      "learning_rate": 1e-05,
      "loss": 0.6203,
      "step": 913
    },
    {
      "epoch": 0.0930943165614178,
      "grad_norm": 0.712051272392273,
      "learning_rate": 1e-05,
      "loss": 0.6172,
      "step": 914
    },
    {
      "epoch": 0.09319617029944999,
      "grad_norm": 0.7262089252471924,
      "learning_rate": 1e-05,
      "loss": 0.6292,
      "step": 915
    },
    {
      "epoch": 0.09329802403748218,
      "grad_norm": 0.7033782005310059,
      "learning_rate": 1e-05,
      "loss": 0.6091,
      "step": 916
    },
    {
      "epoch": 0.09339987777551437,
      "grad_norm": 0.7763187885284424,
      "learning_rate": 1e-05,
      "loss": 0.647,
      "step": 917
    },
    {
      "epoch": 0.09350173151354654,
      "grad_norm": 0.7549316883087158,
      "learning_rate": 1e-05,
      "loss": 0.6587,
      "step": 918
    },
    {
      "epoch": 0.09360358525157873,
      "grad_norm": 0.7259434461593628,
      "learning_rate": 1e-05,
      "loss": 0.585,
      "step": 919
    },
    {
      "epoch": 0.09370543898961092,
      "grad_norm": 0.7380533218383789,
      "learning_rate": 1e-05,
      "loss": 0.6352,
      "step": 920
    },
    {
      "epoch": 0.0938072927276431,
      "grad_norm": 0.7155970931053162,
      "learning_rate": 1e-05,
      "loss": 0.6025,
      "step": 921
    },
    {
      "epoch": 0.09390914646567529,
      "grad_norm": 0.7156074047088623,
      "learning_rate": 1e-05,
      "loss": 0.6643,
      "step": 922
    },
    {
      "epoch": 0.09401100020370748,
      "grad_norm": 0.8261383771896362,
      "learning_rate": 1e-05,
      "loss": 0.6559,
      "step": 923
    },
    {
      "epoch": 0.09411285394173967,
      "grad_norm": 0.7002965807914734,
      "learning_rate": 1e-05,
      "loss": 0.6137,
      "step": 924
    },
    {
      "epoch": 0.09421470767977184,
      "grad_norm": 0.7410476803779602,
      "learning_rate": 1e-05,
      "loss": 0.6584,
      "step": 925
    },
    {
      "epoch": 0.09431656141780403,
      "grad_norm": 0.7770293951034546,
      "learning_rate": 1e-05,
      "loss": 0.5703,
      "step": 926
    },
    {
      "epoch": 0.09441841515583622,
      "grad_norm": 0.6483620405197144,
      "learning_rate": 1e-05,
      "loss": 0.5084,
      "step": 927
    },
    {
      "epoch": 0.0945202688938684,
      "grad_norm": 0.6974366307258606,
      "learning_rate": 1e-05,
      "loss": 0.5957,
      "step": 928
    },
    {
      "epoch": 0.09462212263190059,
      "grad_norm": 0.7346990704536438,
      "learning_rate": 1e-05,
      "loss": 0.5523,
      "step": 929
    },
    {
      "epoch": 0.09472397636993278,
      "grad_norm": 0.6947851181030273,
      "learning_rate": 1e-05,
      "loss": 0.6064,
      "step": 930
    },
    {
      "epoch": 0.09482583010796496,
      "grad_norm": 0.6719930171966553,
      "learning_rate": 1e-05,
      "loss": 0.5711,
      "step": 931
    },
    {
      "epoch": 0.09492768384599715,
      "grad_norm": 0.6841515302658081,
      "learning_rate": 1e-05,
      "loss": 0.5153,
      "step": 932
    },
    {
      "epoch": 0.09502953758402934,
      "grad_norm": 0.7254348993301392,
      "learning_rate": 1e-05,
      "loss": 0.5609,
      "step": 933
    },
    {
      "epoch": 0.09513139132206153,
      "grad_norm": 0.9281275272369385,
      "learning_rate": 1e-05,
      "loss": 0.6932,
      "step": 934
    },
    {
      "epoch": 0.0952332450600937,
      "grad_norm": 0.7571682929992676,
      "learning_rate": 1e-05,
      "loss": 0.6009,
      "step": 935
    },
    {
      "epoch": 0.09533509879812589,
      "grad_norm": 0.672447144985199,
      "learning_rate": 1e-05,
      "loss": 0.5708,
      "step": 936
    },
    {
      "epoch": 0.09543695253615808,
      "grad_norm": 0.8344066739082336,
      "learning_rate": 1e-05,
      "loss": 0.6908,
      "step": 937
    },
    {
      "epoch": 0.09553880627419026,
      "grad_norm": 0.7672745585441589,
      "learning_rate": 1e-05,
      "loss": 0.6691,
      "step": 938
    },
    {
      "epoch": 0.09564066001222245,
      "grad_norm": 0.6751621961593628,
      "learning_rate": 1e-05,
      "loss": 0.5346,
      "step": 939
    },
    {
      "epoch": 0.09574251375025464,
      "grad_norm": 0.8505266308784485,
      "learning_rate": 1e-05,
      "loss": 0.6811,
      "step": 940
    },
    {
      "epoch": 0.09584436748828681,
      "grad_norm": 0.767473042011261,
      "learning_rate": 1e-05,
      "loss": 0.7234,
      "step": 941
    },
    {
      "epoch": 0.095946221226319,
      "grad_norm": 0.7051584720611572,
      "learning_rate": 1e-05,
      "loss": 0.6232,
      "step": 942
    },
    {
      "epoch": 0.0960480749643512,
      "grad_norm": 0.6459353566169739,
      "learning_rate": 1e-05,
      "loss": 0.5667,
      "step": 943
    },
    {
      "epoch": 0.09614992870238338,
      "grad_norm": 0.702181875705719,
      "learning_rate": 1e-05,
      "loss": 0.5693,
      "step": 944
    },
    {
      "epoch": 0.09625178244041556,
      "grad_norm": 0.7619160413742065,
      "learning_rate": 1e-05,
      "loss": 0.6533,
      "step": 945
    },
    {
      "epoch": 0.09635363617844775,
      "grad_norm": 0.7319054007530212,
      "learning_rate": 1e-05,
      "loss": 0.7436,
      "step": 946
    },
    {
      "epoch": 0.09645548991647994,
      "grad_norm": 0.8062357902526855,
      "learning_rate": 1e-05,
      "loss": 0.6249,
      "step": 947
    },
    {
      "epoch": 0.09655734365451211,
      "grad_norm": 0.752185046672821,
      "learning_rate": 1e-05,
      "loss": 0.6859,
      "step": 948
    },
    {
      "epoch": 0.0966591973925443,
      "grad_norm": 1.9004621505737305,
      "learning_rate": 1e-05,
      "loss": 0.6112,
      "step": 949
    },
    {
      "epoch": 0.0967610511305765,
      "grad_norm": 2.2455434799194336,
      "learning_rate": 1e-05,
      "loss": 0.5342,
      "step": 950
    },
    {
      "epoch": 0.09686290486860868,
      "grad_norm": 0.6937206387519836,
      "learning_rate": 1e-05,
      "loss": 0.6181,
      "step": 951
    },
    {
      "epoch": 0.09696475860664086,
      "grad_norm": 0.7347054481506348,
      "learning_rate": 1e-05,
      "loss": 0.5993,
      "step": 952
    },
    {
      "epoch": 0.09706661234467305,
      "grad_norm": 0.6778243184089661,
      "learning_rate": 1e-05,
      "loss": 0.5932,
      "step": 953
    },
    {
      "epoch": 0.09716846608270524,
      "grad_norm": 0.7176889777183533,
      "learning_rate": 1e-05,
      "loss": 0.5756,
      "step": 954
    },
    {
      "epoch": 0.09727031982073742,
      "grad_norm": 0.6519509553909302,
      "learning_rate": 1e-05,
      "loss": 0.5634,
      "step": 955
    },
    {
      "epoch": 0.0973721735587696,
      "grad_norm": 0.7435290813446045,
      "learning_rate": 1e-05,
      "loss": 0.6702,
      "step": 956
    },
    {
      "epoch": 0.0974740272968018,
      "grad_norm": 0.6162422299385071,
      "learning_rate": 1e-05,
      "loss": 0.4393,
      "step": 957
    },
    {
      "epoch": 0.09757588103483397,
      "grad_norm": 0.7499541640281677,
      "learning_rate": 1e-05,
      "loss": 0.5455,
      "step": 958
    },
    {
      "epoch": 0.09767773477286616,
      "grad_norm": 0.7162079215049744,
      "learning_rate": 1e-05,
      "loss": 0.5579,
      "step": 959
    },
    {
      "epoch": 0.09777958851089835,
      "grad_norm": 0.7228227257728577,
      "learning_rate": 1e-05,
      "loss": 0.6502,
      "step": 960
    },
    {
      "epoch": 0.09788144224893054,
      "grad_norm": 0.6507629156112671,
      "learning_rate": 1e-05,
      "loss": 0.5546,
      "step": 961
    },
    {
      "epoch": 0.09798329598696272,
      "grad_norm": 0.6298398971557617,
      "learning_rate": 1e-05,
      "loss": 0.5236,
      "step": 962
    },
    {
      "epoch": 0.09808514972499491,
      "grad_norm": 0.7656269669532776,
      "learning_rate": 1e-05,
      "loss": 0.5908,
      "step": 963
    },
    {
      "epoch": 0.0981870034630271,
      "grad_norm": 0.6482986211776733,
      "learning_rate": 1e-05,
      "loss": 0.5465,
      "step": 964
    },
    {
      "epoch": 0.09828885720105927,
      "grad_norm": 0.6996631622314453,
      "learning_rate": 1e-05,
      "loss": 0.5329,
      "step": 965
    },
    {
      "epoch": 0.09839071093909146,
      "grad_norm": 1.0579864978790283,
      "learning_rate": 1e-05,
      "loss": 0.6518,
      "step": 966
    },
    {
      "epoch": 0.09849256467712365,
      "grad_norm": 0.6843674182891846,
      "learning_rate": 1e-05,
      "loss": 0.5443,
      "step": 967
    },
    {
      "epoch": 0.09859441841515583,
      "grad_norm": 0.7415218353271484,
      "learning_rate": 1e-05,
      "loss": 0.6424,
      "step": 968
    },
    {
      "epoch": 0.09869627215318802,
      "grad_norm": 0.6923386454582214,
      "learning_rate": 1e-05,
      "loss": 0.5597,
      "step": 969
    },
    {
      "epoch": 0.09879812589122021,
      "grad_norm": 0.7042328119277954,
      "learning_rate": 1e-05,
      "loss": 0.65,
      "step": 970
    },
    {
      "epoch": 0.0988999796292524,
      "grad_norm": 0.6518238186836243,
      "learning_rate": 1e-05,
      "loss": 0.4937,
      "step": 971
    },
    {
      "epoch": 0.09900183336728458,
      "grad_norm": 0.7261687517166138,
      "learning_rate": 1e-05,
      "loss": 0.6029,
      "step": 972
    },
    {
      "epoch": 0.09910368710531677,
      "grad_norm": 0.6957783699035645,
      "learning_rate": 1e-05,
      "loss": 0.5945,
      "step": 973
    },
    {
      "epoch": 0.09920554084334895,
      "grad_norm": 0.6444118022918701,
      "learning_rate": 1e-05,
      "loss": 0.5814,
      "step": 974
    },
    {
      "epoch": 0.09930739458138113,
      "grad_norm": 0.6948890089988708,
      "learning_rate": 1e-05,
      "loss": 0.5859,
      "step": 975
    },
    {
      "epoch": 0.09940924831941332,
      "grad_norm": 0.7159959673881531,
      "learning_rate": 1e-05,
      "loss": 0.7184,
      "step": 976
    },
    {
      "epoch": 0.09951110205744551,
      "grad_norm": 0.7921231985092163,
      "learning_rate": 1e-05,
      "loss": 0.6217,
      "step": 977
    },
    {
      "epoch": 0.0996129557954777,
      "grad_norm": 0.6995368003845215,
      "learning_rate": 1e-05,
      "loss": 0.6288,
      "step": 978
    },
    {
      "epoch": 0.09971480953350988,
      "grad_norm": 0.6787878274917603,
      "learning_rate": 1e-05,
      "loss": 0.5641,
      "step": 979
    },
    {
      "epoch": 0.09981666327154207,
      "grad_norm": 0.6674633026123047,
      "learning_rate": 1e-05,
      "loss": 0.5548,
      "step": 980
    },
    {
      "epoch": 0.09991851700957426,
      "grad_norm": 0.6828685402870178,
      "learning_rate": 1e-05,
      "loss": 0.5624,
      "step": 981
    },
    {
      "epoch": 0.10002037074760643,
      "grad_norm": 0.7878494262695312,
      "learning_rate": 1e-05,
      "loss": 0.5894,
      "step": 982
    },
    {
      "epoch": 0.10012222448563862,
      "grad_norm": 0.7488552927970886,
      "learning_rate": 1e-05,
      "loss": 0.5564,
      "step": 983
    },
    {
      "epoch": 0.10022407822367081,
      "grad_norm": 0.8018996715545654,
      "learning_rate": 1e-05,
      "loss": 0.5179,
      "step": 984
    },
    {
      "epoch": 0.10032593196170299,
      "grad_norm": 0.7327717542648315,
      "learning_rate": 1e-05,
      "loss": 0.5951,
      "step": 985
    },
    {
      "epoch": 0.10042778569973518,
      "grad_norm": 0.6739550828933716,
      "learning_rate": 1e-05,
      "loss": 0.6239,
      "step": 986
    },
    {
      "epoch": 0.10052963943776737,
      "grad_norm": 0.775840699672699,
      "learning_rate": 1e-05,
      "loss": 0.6518,
      "step": 987
    },
    {
      "epoch": 0.10063149317579956,
      "grad_norm": 0.6947693228721619,
      "learning_rate": 1e-05,
      "loss": 0.5017,
      "step": 988
    },
    {
      "epoch": 0.10073334691383173,
      "grad_norm": 0.7968661189079285,
      "learning_rate": 1e-05,
      "loss": 0.7619,
      "step": 989
    },
    {
      "epoch": 0.10083520065186392,
      "grad_norm": 0.6827067732810974,
      "learning_rate": 1e-05,
      "loss": 0.5647,
      "step": 990
    },
    {
      "epoch": 0.10093705438989611,
      "grad_norm": 0.7046180367469788,
      "learning_rate": 1e-05,
      "loss": 0.5928,
      "step": 991
    },
    {
      "epoch": 0.10103890812792829,
      "grad_norm": 0.7960588335990906,
      "learning_rate": 1e-05,
      "loss": 0.6068,
      "step": 992
    },
    {
      "epoch": 0.10114076186596048,
      "grad_norm": 0.66502445936203,
      "learning_rate": 1e-05,
      "loss": 0.542,
      "step": 993
    },
    {
      "epoch": 0.10124261560399267,
      "grad_norm": 0.7536084651947021,
      "learning_rate": 1e-05,
      "loss": 0.6502,
      "step": 994
    },
    {
      "epoch": 0.10134446934202485,
      "grad_norm": 0.7393454909324646,
      "learning_rate": 1e-05,
      "loss": 0.6439,
      "step": 995
    },
    {
      "epoch": 0.10144632308005704,
      "grad_norm": 0.7735004425048828,
      "learning_rate": 1e-05,
      "loss": 0.6884,
      "step": 996
    },
    {
      "epoch": 0.10154817681808923,
      "grad_norm": 0.9061107635498047,
      "learning_rate": 1e-05,
      "loss": 0.7405,
      "step": 997
    },
    {
      "epoch": 0.10165003055612142,
      "grad_norm": 0.7099592089653015,
      "learning_rate": 1e-05,
      "loss": 0.6026,
      "step": 998
    },
    {
      "epoch": 0.10175188429415359,
      "grad_norm": 0.8099657297134399,
      "learning_rate": 1e-05,
      "loss": 0.6238,
      "step": 999
    },
    {
      "epoch": 0.10185373803218578,
      "grad_norm": 0.6781632900238037,
      "learning_rate": 1e-05,
      "loss": 0.5394,
      "step": 1000
    },
    {
      "epoch": 0.10195559177021797,
      "grad_norm": 0.7815859913825989,
      "learning_rate": 1e-05,
      "loss": 0.6766,
      "step": 1001
    },
    {
      "epoch": 0.10205744550825015,
      "grad_norm": 0.683845579624176,
      "learning_rate": 1e-05,
      "loss": 0.5116,
      "step": 1002
    },
    {
      "epoch": 0.10215929924628234,
      "grad_norm": 0.7768031358718872,
      "learning_rate": 1e-05,
      "loss": 0.5772,
      "step": 1003
    },
    {
      "epoch": 0.10226115298431453,
      "grad_norm": 0.6503394842147827,
      "learning_rate": 1e-05,
      "loss": 0.539,
      "step": 1004
    },
    {
      "epoch": 0.10236300672234672,
      "grad_norm": 3.932788610458374,
      "learning_rate": 1e-05,
      "loss": 0.6528,
      "step": 1005
    },
    {
      "epoch": 0.10246486046037889,
      "grad_norm": 0.7255690097808838,
      "learning_rate": 1e-05,
      "loss": 0.6649,
      "step": 1006
    },
    {
      "epoch": 0.10256671419841108,
      "grad_norm": 0.7451061606407166,
      "learning_rate": 1e-05,
      "loss": 0.6914,
      "step": 1007
    },
    {
      "epoch": 0.10266856793644327,
      "grad_norm": 0.6677381992340088,
      "learning_rate": 1e-05,
      "loss": 0.5417,
      "step": 1008
    },
    {
      "epoch": 0.10277042167447545,
      "grad_norm": 0.801400363445282,
      "learning_rate": 1e-05,
      "loss": 0.5987,
      "step": 1009
    },
    {
      "epoch": 0.10287227541250764,
      "grad_norm": 0.7111508250236511,
      "learning_rate": 1e-05,
      "loss": 0.6696,
      "step": 1010
    },
    {
      "epoch": 0.10297412915053983,
      "grad_norm": 0.7486282587051392,
      "learning_rate": 1e-05,
      "loss": 0.5809,
      "step": 1011
    },
    {
      "epoch": 0.103075982888572,
      "grad_norm": 0.6414225697517395,
      "learning_rate": 1e-05,
      "loss": 0.5803,
      "step": 1012
    },
    {
      "epoch": 0.1031778366266042,
      "grad_norm": 0.7217540144920349,
      "learning_rate": 1e-05,
      "loss": 0.6584,
      "step": 1013
    },
    {
      "epoch": 0.10327969036463638,
      "grad_norm": 0.742732584476471,
      "learning_rate": 1e-05,
      "loss": 0.6601,
      "step": 1014
    },
    {
      "epoch": 0.10338154410266857,
      "grad_norm": 0.6751132607460022,
      "learning_rate": 1e-05,
      "loss": 0.6173,
      "step": 1015
    },
    {
      "epoch": 0.10348339784070075,
      "grad_norm": 0.6633598804473877,
      "learning_rate": 1e-05,
      "loss": 0.5914,
      "step": 1016
    },
    {
      "epoch": 0.10358525157873294,
      "grad_norm": 0.6996179223060608,
      "learning_rate": 1e-05,
      "loss": 0.6716,
      "step": 1017
    },
    {
      "epoch": 0.10368710531676513,
      "grad_norm": 0.6998751163482666,
      "learning_rate": 1e-05,
      "loss": 0.6452,
      "step": 1018
    },
    {
      "epoch": 0.1037889590547973,
      "grad_norm": 0.7506235837936401,
      "learning_rate": 1e-05,
      "loss": 0.6654,
      "step": 1019
    },
    {
      "epoch": 0.1038908127928295,
      "grad_norm": 0.699104905128479,
      "learning_rate": 1e-05,
      "loss": 0.6351,
      "step": 1020
    },
    {
      "epoch": 0.10399266653086169,
      "grad_norm": 0.6622753739356995,
      "learning_rate": 1e-05,
      "loss": 0.53,
      "step": 1021
    },
    {
      "epoch": 0.10409452026889388,
      "grad_norm": 0.6908199787139893,
      "learning_rate": 1e-05,
      "loss": 0.5159,
      "step": 1022
    },
    {
      "epoch": 0.10419637400692605,
      "grad_norm": 0.7976133823394775,
      "learning_rate": 1e-05,
      "loss": 0.5953,
      "step": 1023
    },
    {
      "epoch": 0.10429822774495824,
      "grad_norm": 0.7180162668228149,
      "learning_rate": 1e-05,
      "loss": 0.6667,
      "step": 1024
    },
    {
      "epoch": 0.10440008148299043,
      "grad_norm": 0.7602279186248779,
      "learning_rate": 1e-05,
      "loss": 0.6826,
      "step": 1025
    },
    {
      "epoch": 0.10450193522102261,
      "grad_norm": 0.7267059087753296,
      "learning_rate": 1e-05,
      "loss": 0.622,
      "step": 1026
    },
    {
      "epoch": 0.1046037889590548,
      "grad_norm": 0.7111565470695496,
      "learning_rate": 1e-05,
      "loss": 0.6504,
      "step": 1027
    },
    {
      "epoch": 0.10470564269708699,
      "grad_norm": 0.6839587688446045,
      "learning_rate": 1e-05,
      "loss": 0.5851,
      "step": 1028
    },
    {
      "epoch": 0.10480749643511916,
      "grad_norm": 0.7421048283576965,
      "learning_rate": 1e-05,
      "loss": 0.642,
      "step": 1029
    },
    {
      "epoch": 0.10490935017315135,
      "grad_norm": 0.746586799621582,
      "learning_rate": 1e-05,
      "loss": 0.6395,
      "step": 1030
    },
    {
      "epoch": 0.10501120391118354,
      "grad_norm": 0.789164662361145,
      "learning_rate": 1e-05,
      "loss": 0.5803,
      "step": 1031
    },
    {
      "epoch": 0.10511305764921573,
      "grad_norm": 0.6917697787284851,
      "learning_rate": 1e-05,
      "loss": 0.582,
      "step": 1032
    },
    {
      "epoch": 0.10521491138724791,
      "grad_norm": 0.6642422080039978,
      "learning_rate": 1e-05,
      "loss": 0.5767,
      "step": 1033
    },
    {
      "epoch": 0.1053167651252801,
      "grad_norm": 0.6069806218147278,
      "learning_rate": 1e-05,
      "loss": 0.5243,
      "step": 1034
    },
    {
      "epoch": 0.10541861886331229,
      "grad_norm": 0.726841926574707,
      "learning_rate": 1e-05,
      "loss": 0.718,
      "step": 1035
    },
    {
      "epoch": 0.10552047260134446,
      "grad_norm": 0.7132197022438049,
      "learning_rate": 1e-05,
      "loss": 0.6383,
      "step": 1036
    },
    {
      "epoch": 0.10562232633937665,
      "grad_norm": 1.3985474109649658,
      "learning_rate": 1e-05,
      "loss": 0.5829,
      "step": 1037
    },
    {
      "epoch": 0.10572418007740884,
      "grad_norm": 0.6812366247177124,
      "learning_rate": 1e-05,
      "loss": 0.5721,
      "step": 1038
    },
    {
      "epoch": 0.10582603381544102,
      "grad_norm": 0.7691669464111328,
      "learning_rate": 1e-05,
      "loss": 0.6391,
      "step": 1039
    },
    {
      "epoch": 0.10592788755347321,
      "grad_norm": 0.6973181366920471,
      "learning_rate": 1e-05,
      "loss": 0.6045,
      "step": 1040
    },
    {
      "epoch": 0.1060297412915054,
      "grad_norm": 0.6666033267974854,
      "learning_rate": 1e-05,
      "loss": 0.594,
      "step": 1041
    },
    {
      "epoch": 0.10613159502953759,
      "grad_norm": 0.7022011280059814,
      "learning_rate": 1e-05,
      "loss": 0.5601,
      "step": 1042
    },
    {
      "epoch": 0.10623344876756977,
      "grad_norm": 0.6805474162101746,
      "learning_rate": 1e-05,
      "loss": 0.6049,
      "step": 1043
    },
    {
      "epoch": 0.10633530250560196,
      "grad_norm": 0.6403544545173645,
      "learning_rate": 1e-05,
      "loss": 0.4471,
      "step": 1044
    },
    {
      "epoch": 0.10643715624363415,
      "grad_norm": 0.7142066955566406,
      "learning_rate": 1e-05,
      "loss": 0.6435,
      "step": 1045
    },
    {
      "epoch": 0.10653900998166632,
      "grad_norm": 0.6316347718238831,
      "learning_rate": 1e-05,
      "loss": 0.5663,
      "step": 1046
    },
    {
      "epoch": 0.10664086371969851,
      "grad_norm": 0.7058701515197754,
      "learning_rate": 1e-05,
      "loss": 0.5984,
      "step": 1047
    },
    {
      "epoch": 0.1067427174577307,
      "grad_norm": 0.7477753162384033,
      "learning_rate": 1e-05,
      "loss": 0.6276,
      "step": 1048
    },
    {
      "epoch": 0.10684457119576289,
      "grad_norm": 0.7672703862190247,
      "learning_rate": 1e-05,
      "loss": 0.6493,
      "step": 1049
    },
    {
      "epoch": 0.10694642493379507,
      "grad_norm": 0.7331887483596802,
      "learning_rate": 1e-05,
      "loss": 0.6539,
      "step": 1050
    },
    {
      "epoch": 0.10704827867182726,
      "grad_norm": 0.7401933670043945,
      "learning_rate": 1e-05,
      "loss": 0.6206,
      "step": 1051
    },
    {
      "epoch": 0.10715013240985945,
      "grad_norm": 0.7881603837013245,
      "learning_rate": 1e-05,
      "loss": 0.6526,
      "step": 1052
    },
    {
      "epoch": 0.10725198614789162,
      "grad_norm": 0.6874369978904724,
      "learning_rate": 1e-05,
      "loss": 0.6483,
      "step": 1053
    },
    {
      "epoch": 0.10735383988592381,
      "grad_norm": 0.6633514165878296,
      "learning_rate": 1e-05,
      "loss": 0.5013,
      "step": 1054
    },
    {
      "epoch": 0.107455693623956,
      "grad_norm": 0.6980907320976257,
      "learning_rate": 1e-05,
      "loss": 0.5712,
      "step": 1055
    },
    {
      "epoch": 0.10755754736198818,
      "grad_norm": 0.6969468593597412,
      "learning_rate": 1e-05,
      "loss": 0.6641,
      "step": 1056
    },
    {
      "epoch": 0.10765940110002037,
      "grad_norm": 0.6646736860275269,
      "learning_rate": 1e-05,
      "loss": 0.5186,
      "step": 1057
    },
    {
      "epoch": 0.10776125483805256,
      "grad_norm": 0.6977425217628479,
      "learning_rate": 1e-05,
      "loss": 0.619,
      "step": 1058
    },
    {
      "epoch": 0.10786310857608475,
      "grad_norm": 0.7139444351196289,
      "learning_rate": 1e-05,
      "loss": 0.6623,
      "step": 1059
    },
    {
      "epoch": 0.10796496231411692,
      "grad_norm": 0.781829833984375,
      "learning_rate": 1e-05,
      "loss": 0.7433,
      "step": 1060
    },
    {
      "epoch": 0.10806681605214911,
      "grad_norm": 0.706633448600769,
      "learning_rate": 1e-05,
      "loss": 0.6551,
      "step": 1061
    },
    {
      "epoch": 0.1081686697901813,
      "grad_norm": 0.6723244786262512,
      "learning_rate": 1e-05,
      "loss": 0.5633,
      "step": 1062
    },
    {
      "epoch": 0.10827052352821348,
      "grad_norm": 0.7151830196380615,
      "learning_rate": 1e-05,
      "loss": 0.5974,
      "step": 1063
    },
    {
      "epoch": 0.10837237726624567,
      "grad_norm": 0.6953800916671753,
      "learning_rate": 1e-05,
      "loss": 0.6482,
      "step": 1064
    },
    {
      "epoch": 0.10847423100427786,
      "grad_norm": 0.7566535472869873,
      "learning_rate": 1e-05,
      "loss": 0.6795,
      "step": 1065
    },
    {
      "epoch": 0.10857608474231004,
      "grad_norm": 0.7026250958442688,
      "learning_rate": 1e-05,
      "loss": 0.6469,
      "step": 1066
    },
    {
      "epoch": 0.10867793848034223,
      "grad_norm": 0.7999373078346252,
      "learning_rate": 1e-05,
      "loss": 0.6548,
      "step": 1067
    },
    {
      "epoch": 0.10877979221837442,
      "grad_norm": 0.6816335916519165,
      "learning_rate": 1e-05,
      "loss": 0.5927,
      "step": 1068
    },
    {
      "epoch": 0.1088816459564066,
      "grad_norm": 0.7252879738807678,
      "learning_rate": 1e-05,
      "loss": 0.559,
      "step": 1069
    },
    {
      "epoch": 0.10898349969443878,
      "grad_norm": 0.7231294512748718,
      "learning_rate": 1e-05,
      "loss": 0.6449,
      "step": 1070
    },
    {
      "epoch": 0.10908535343247097,
      "grad_norm": 0.7322198748588562,
      "learning_rate": 1e-05,
      "loss": 0.5705,
      "step": 1071
    },
    {
      "epoch": 0.10918720717050316,
      "grad_norm": 0.6667130589485168,
      "learning_rate": 1e-05,
      "loss": 0.5776,
      "step": 1072
    },
    {
      "epoch": 0.10928906090853534,
      "grad_norm": 0.7130939364433289,
      "learning_rate": 1e-05,
      "loss": 0.6193,
      "step": 1073
    },
    {
      "epoch": 0.10939091464656753,
      "grad_norm": 0.6991356015205383,
      "learning_rate": 1e-05,
      "loss": 0.6185,
      "step": 1074
    },
    {
      "epoch": 0.10949276838459972,
      "grad_norm": 0.6797604560852051,
      "learning_rate": 1e-05,
      "loss": 0.5699,
      "step": 1075
    },
    {
      "epoch": 0.10959462212263191,
      "grad_norm": 0.6678332090377808,
      "learning_rate": 1e-05,
      "loss": 0.565,
      "step": 1076
    },
    {
      "epoch": 0.10969647586066408,
      "grad_norm": 0.6563374400138855,
      "learning_rate": 1e-05,
      "loss": 0.637,
      "step": 1077
    },
    {
      "epoch": 0.10979832959869627,
      "grad_norm": 0.711834192276001,
      "learning_rate": 1e-05,
      "loss": 0.6154,
      "step": 1078
    },
    {
      "epoch": 0.10990018333672846,
      "grad_norm": 0.8103700280189514,
      "learning_rate": 1e-05,
      "loss": 0.6613,
      "step": 1079
    },
    {
      "epoch": 0.11000203707476064,
      "grad_norm": 0.8602215051651001,
      "learning_rate": 1e-05,
      "loss": 0.5944,
      "step": 1080
    },
    {
      "epoch": 0.11010389081279283,
      "grad_norm": 0.8323250412940979,
      "learning_rate": 1e-05,
      "loss": 0.547,
      "step": 1081
    },
    {
      "epoch": 0.11020574455082502,
      "grad_norm": 0.6738904714584351,
      "learning_rate": 1e-05,
      "loss": 0.563,
      "step": 1082
    },
    {
      "epoch": 0.1103075982888572,
      "grad_norm": 0.711267352104187,
      "learning_rate": 1e-05,
      "loss": 0.5651,
      "step": 1083
    },
    {
      "epoch": 0.11040945202688938,
      "grad_norm": 0.7629319429397583,
      "learning_rate": 1e-05,
      "loss": 0.578,
      "step": 1084
    },
    {
      "epoch": 0.11051130576492157,
      "grad_norm": 0.6328954100608826,
      "learning_rate": 1e-05,
      "loss": 0.5527,
      "step": 1085
    },
    {
      "epoch": 0.11061315950295376,
      "grad_norm": 0.9112276434898376,
      "learning_rate": 1e-05,
      "loss": 0.6008,
      "step": 1086
    },
    {
      "epoch": 0.11071501324098594,
      "grad_norm": 0.7836035490036011,
      "learning_rate": 1e-05,
      "loss": 0.5591,
      "step": 1087
    },
    {
      "epoch": 0.11081686697901813,
      "grad_norm": 0.7970685362815857,
      "learning_rate": 1e-05,
      "loss": 0.5625,
      "step": 1088
    },
    {
      "epoch": 0.11091872071705032,
      "grad_norm": 0.6692025661468506,
      "learning_rate": 1e-05,
      "loss": 0.495,
      "step": 1089
    },
    {
      "epoch": 0.1110205744550825,
      "grad_norm": 0.6818268299102783,
      "learning_rate": 1e-05,
      "loss": 0.6268,
      "step": 1090
    },
    {
      "epoch": 0.11112242819311469,
      "grad_norm": 0.6910467743873596,
      "learning_rate": 1e-05,
      "loss": 0.6183,
      "step": 1091
    },
    {
      "epoch": 0.11122428193114688,
      "grad_norm": 0.6540499925613403,
      "learning_rate": 1e-05,
      "loss": 0.4834,
      "step": 1092
    },
    {
      "epoch": 0.11132613566917905,
      "grad_norm": 0.7914385199546814,
      "learning_rate": 1e-05,
      "loss": 0.6233,
      "step": 1093
    },
    {
      "epoch": 0.11142798940721124,
      "grad_norm": 0.7084802389144897,
      "learning_rate": 1e-05,
      "loss": 0.6363,
      "step": 1094
    },
    {
      "epoch": 0.11152984314524343,
      "grad_norm": 0.6774359345436096,
      "learning_rate": 1e-05,
      "loss": 0.5293,
      "step": 1095
    },
    {
      "epoch": 0.11163169688327562,
      "grad_norm": 0.756942868232727,
      "learning_rate": 1e-05,
      "loss": 0.6012,
      "step": 1096
    },
    {
      "epoch": 0.1117335506213078,
      "grad_norm": 0.6815500855445862,
      "learning_rate": 1e-05,
      "loss": 0.5301,
      "step": 1097
    },
    {
      "epoch": 0.11183540435933999,
      "grad_norm": 0.78415846824646,
      "learning_rate": 1e-05,
      "loss": 0.6301,
      "step": 1098
    },
    {
      "epoch": 0.11193725809737218,
      "grad_norm": 0.6764391660690308,
      "learning_rate": 1e-05,
      "loss": 0.594,
      "step": 1099
    },
    {
      "epoch": 0.11203911183540435,
      "grad_norm": 0.7241675853729248,
      "learning_rate": 1e-05,
      "loss": 0.5383,
      "step": 1100
    },
    {
      "epoch": 0.11214096557343654,
      "grad_norm": 0.7426913380622864,
      "learning_rate": 1e-05,
      "loss": 0.6421,
      "step": 1101
    },
    {
      "epoch": 0.11224281931146873,
      "grad_norm": 0.7412300705909729,
      "learning_rate": 1e-05,
      "loss": 0.5986,
      "step": 1102
    },
    {
      "epoch": 0.11234467304950092,
      "grad_norm": 0.8490843176841736,
      "learning_rate": 1e-05,
      "loss": 0.7323,
      "step": 1103
    },
    {
      "epoch": 0.1124465267875331,
      "grad_norm": 0.6824204325675964,
      "learning_rate": 1e-05,
      "loss": 0.6221,
      "step": 1104
    },
    {
      "epoch": 0.11254838052556529,
      "grad_norm": 0.9421983361244202,
      "learning_rate": 1e-05,
      "loss": 0.569,
      "step": 1105
    },
    {
      "epoch": 0.11265023426359748,
      "grad_norm": 0.7145071625709534,
      "learning_rate": 1e-05,
      "loss": 0.6036,
      "step": 1106
    },
    {
      "epoch": 0.11275208800162966,
      "grad_norm": 0.6886144876480103,
      "learning_rate": 1e-05,
      "loss": 0.5827,
      "step": 1107
    },
    {
      "epoch": 0.11285394173966184,
      "grad_norm": 0.8183621168136597,
      "learning_rate": 1e-05,
      "loss": 0.5627,
      "step": 1108
    },
    {
      "epoch": 0.11295579547769403,
      "grad_norm": 0.7257072925567627,
      "learning_rate": 1e-05,
      "loss": 0.5885,
      "step": 1109
    },
    {
      "epoch": 0.11305764921572621,
      "grad_norm": 0.6852335929870605,
      "learning_rate": 1e-05,
      "loss": 0.6213,
      "step": 1110
    },
    {
      "epoch": 0.1131595029537584,
      "grad_norm": 0.7458726167678833,
      "learning_rate": 1e-05,
      "loss": 0.6625,
      "step": 1111
    },
    {
      "epoch": 0.11326135669179059,
      "grad_norm": 0.7892128825187683,
      "learning_rate": 1e-05,
      "loss": 0.7066,
      "step": 1112
    },
    {
      "epoch": 0.11336321042982278,
      "grad_norm": 0.7083035707473755,
      "learning_rate": 1e-05,
      "loss": 0.7243,
      "step": 1113
    },
    {
      "epoch": 0.11346506416785496,
      "grad_norm": 0.7413047552108765,
      "learning_rate": 1e-05,
      "loss": 0.6199,
      "step": 1114
    },
    {
      "epoch": 0.11356691790588715,
      "grad_norm": 0.7605612277984619,
      "learning_rate": 1e-05,
      "loss": 0.7067,
      "step": 1115
    },
    {
      "epoch": 0.11366877164391934,
      "grad_norm": 0.7598547339439392,
      "learning_rate": 1e-05,
      "loss": 0.6679,
      "step": 1116
    },
    {
      "epoch": 0.11377062538195151,
      "grad_norm": 0.6742973327636719,
      "learning_rate": 1e-05,
      "loss": 0.5454,
      "step": 1117
    },
    {
      "epoch": 0.1138724791199837,
      "grad_norm": 0.7174041271209717,
      "learning_rate": 1e-05,
      "loss": 0.5888,
      "step": 1118
    },
    {
      "epoch": 0.11397433285801589,
      "grad_norm": 0.6873912215232849,
      "learning_rate": 1e-05,
      "loss": 0.5239,
      "step": 1119
    },
    {
      "epoch": 0.11407618659604807,
      "grad_norm": 0.6762786507606506,
      "learning_rate": 1e-05,
      "loss": 0.6112,
      "step": 1120
    },
    {
      "epoch": 0.11417804033408026,
      "grad_norm": 0.743446946144104,
      "learning_rate": 1e-05,
      "loss": 0.6288,
      "step": 1121
    },
    {
      "epoch": 0.11427989407211245,
      "grad_norm": 0.7043517231941223,
      "learning_rate": 1e-05,
      "loss": 0.5505,
      "step": 1122
    },
    {
      "epoch": 0.11438174781014464,
      "grad_norm": 0.674719512462616,
      "learning_rate": 1e-05,
      "loss": 0.5363,
      "step": 1123
    },
    {
      "epoch": 0.11448360154817681,
      "grad_norm": 0.6150192022323608,
      "learning_rate": 1e-05,
      "loss": 0.4725,
      "step": 1124
    },
    {
      "epoch": 0.114585455286209,
      "grad_norm": 0.8636255860328674,
      "learning_rate": 1e-05,
      "loss": 0.5327,
      "step": 1125
    },
    {
      "epoch": 0.1146873090242412,
      "grad_norm": 0.7409144639968872,
      "learning_rate": 1e-05,
      "loss": 0.6289,
      "step": 1126
    },
    {
      "epoch": 0.11478916276227337,
      "grad_norm": 0.7305132746696472,
      "learning_rate": 1e-05,
      "loss": 0.6085,
      "step": 1127
    },
    {
      "epoch": 0.11489101650030556,
      "grad_norm": 0.6869708299636841,
      "learning_rate": 1e-05,
      "loss": 0.5695,
      "step": 1128
    },
    {
      "epoch": 0.11499287023833775,
      "grad_norm": 0.7202985286712646,
      "learning_rate": 1e-05,
      "loss": 0.6124,
      "step": 1129
    },
    {
      "epoch": 0.11509472397636994,
      "grad_norm": 0.7632772922515869,
      "learning_rate": 1e-05,
      "loss": 0.6733,
      "step": 1130
    },
    {
      "epoch": 0.11519657771440212,
      "grad_norm": 0.7113412618637085,
      "learning_rate": 1e-05,
      "loss": 0.5342,
      "step": 1131
    },
    {
      "epoch": 0.1152984314524343,
      "grad_norm": 0.7310429811477661,
      "learning_rate": 1e-05,
      "loss": 0.6037,
      "step": 1132
    },
    {
      "epoch": 0.1154002851904665,
      "grad_norm": 0.694654107093811,
      "learning_rate": 1e-05,
      "loss": 0.6018,
      "step": 1133
    },
    {
      "epoch": 0.11550213892849867,
      "grad_norm": 0.6996711492538452,
      "learning_rate": 1e-05,
      "loss": 0.5651,
      "step": 1134
    },
    {
      "epoch": 0.11560399266653086,
      "grad_norm": 0.726616621017456,
      "learning_rate": 1e-05,
      "loss": 0.6127,
      "step": 1135
    },
    {
      "epoch": 0.11570584640456305,
      "grad_norm": 0.6789876818656921,
      "learning_rate": 1e-05,
      "loss": 0.5332,
      "step": 1136
    },
    {
      "epoch": 0.11580770014259523,
      "grad_norm": 0.7019662261009216,
      "learning_rate": 1e-05,
      "loss": 0.6034,
      "step": 1137
    },
    {
      "epoch": 0.11590955388062742,
      "grad_norm": 0.6874551773071289,
      "learning_rate": 1e-05,
      "loss": 0.6528,
      "step": 1138
    },
    {
      "epoch": 0.1160114076186596,
      "grad_norm": 0.7952184677124023,
      "learning_rate": 1e-05,
      "loss": 0.6607,
      "step": 1139
    },
    {
      "epoch": 0.1161132613566918,
      "grad_norm": 0.6672964692115784,
      "learning_rate": 1e-05,
      "loss": 0.5136,
      "step": 1140
    },
    {
      "epoch": 0.11621511509472397,
      "grad_norm": 0.8279535174369812,
      "learning_rate": 1e-05,
      "loss": 0.6141,
      "step": 1141
    },
    {
      "epoch": 0.11631696883275616,
      "grad_norm": 0.8391238451004028,
      "learning_rate": 1e-05,
      "loss": 0.594,
      "step": 1142
    },
    {
      "epoch": 0.11641882257078835,
      "grad_norm": 0.7399188280105591,
      "learning_rate": 1e-05,
      "loss": 0.5828,
      "step": 1143
    },
    {
      "epoch": 0.11652067630882053,
      "grad_norm": 0.7127261161804199,
      "learning_rate": 1e-05,
      "loss": 0.6418,
      "step": 1144
    },
    {
      "epoch": 0.11662253004685272,
      "grad_norm": 0.7637771964073181,
      "learning_rate": 1e-05,
      "loss": 0.6271,
      "step": 1145
    },
    {
      "epoch": 0.11672438378488491,
      "grad_norm": 0.7983872890472412,
      "learning_rate": 1e-05,
      "loss": 0.6413,
      "step": 1146
    },
    {
      "epoch": 0.1168262375229171,
      "grad_norm": 2.4088876247406006,
      "learning_rate": 1e-05,
      "loss": 0.6598,
      "step": 1147
    },
    {
      "epoch": 0.11692809126094927,
      "grad_norm": 0.6730993390083313,
      "learning_rate": 1e-05,
      "loss": 0.5669,
      "step": 1148
    },
    {
      "epoch": 0.11702994499898146,
      "grad_norm": 0.7285088300704956,
      "learning_rate": 1e-05,
      "loss": 0.6416,
      "step": 1149
    },
    {
      "epoch": 0.11713179873701365,
      "grad_norm": 0.6876129508018494,
      "learning_rate": 1e-05,
      "loss": 0.5581,
      "step": 1150
    },
    {
      "epoch": 0.11723365247504583,
      "grad_norm": 1.4862957000732422,
      "learning_rate": 1e-05,
      "loss": 0.562,
      "step": 1151
    },
    {
      "epoch": 0.11733550621307802,
      "grad_norm": 0.6609516739845276,
      "learning_rate": 1e-05,
      "loss": 0.5897,
      "step": 1152
    },
    {
      "epoch": 0.11743735995111021,
      "grad_norm": 0.6467908620834351,
      "learning_rate": 1e-05,
      "loss": 0.562,
      "step": 1153
    },
    {
      "epoch": 0.11753921368914239,
      "grad_norm": 0.6707444787025452,
      "learning_rate": 1e-05,
      "loss": 0.6361,
      "step": 1154
    },
    {
      "epoch": 0.11764106742717458,
      "grad_norm": 0.7102081775665283,
      "learning_rate": 1e-05,
      "loss": 0.5534,
      "step": 1155
    },
    {
      "epoch": 0.11774292116520677,
      "grad_norm": 0.8000257611274719,
      "learning_rate": 1e-05,
      "loss": 0.7475,
      "step": 1156
    },
    {
      "epoch": 0.11784477490323896,
      "grad_norm": 0.9258487224578857,
      "learning_rate": 1e-05,
      "loss": 0.5074,
      "step": 1157
    },
    {
      "epoch": 0.11794662864127113,
      "grad_norm": 0.7162155508995056,
      "learning_rate": 1e-05,
      "loss": 0.5876,
      "step": 1158
    },
    {
      "epoch": 0.11804848237930332,
      "grad_norm": 0.6968399286270142,
      "learning_rate": 1e-05,
      "loss": 0.633,
      "step": 1159
    },
    {
      "epoch": 0.11815033611733551,
      "grad_norm": 0.715743362903595,
      "learning_rate": 1e-05,
      "loss": 0.6042,
      "step": 1160
    },
    {
      "epoch": 0.11825218985536769,
      "grad_norm": 0.6927334666252136,
      "learning_rate": 1e-05,
      "loss": 0.5266,
      "step": 1161
    },
    {
      "epoch": 0.11835404359339988,
      "grad_norm": 0.707349419593811,
      "learning_rate": 1e-05,
      "loss": 0.4946,
      "step": 1162
    },
    {
      "epoch": 0.11845589733143207,
      "grad_norm": 0.6467406153678894,
      "learning_rate": 1e-05,
      "loss": 0.5077,
      "step": 1163
    },
    {
      "epoch": 0.11855775106946424,
      "grad_norm": 0.6834462881088257,
      "learning_rate": 1e-05,
      "loss": 0.6572,
      "step": 1164
    },
    {
      "epoch": 0.11865960480749643,
      "grad_norm": 0.7007558941841125,
      "learning_rate": 1e-05,
      "loss": 0.5564,
      "step": 1165
    },
    {
      "epoch": 0.11876145854552862,
      "grad_norm": 0.7366018295288086,
      "learning_rate": 1e-05,
      "loss": 0.6679,
      "step": 1166
    },
    {
      "epoch": 0.11886331228356081,
      "grad_norm": 0.7237915396690369,
      "learning_rate": 1e-05,
      "loss": 0.5966,
      "step": 1167
    },
    {
      "epoch": 0.11896516602159299,
      "grad_norm": 0.775389552116394,
      "learning_rate": 1e-05,
      "loss": 0.6011,
      "step": 1168
    },
    {
      "epoch": 0.11906701975962518,
      "grad_norm": 1.372265100479126,
      "learning_rate": 1e-05,
      "loss": 0.5997,
      "step": 1169
    },
    {
      "epoch": 0.11916887349765737,
      "grad_norm": 0.7066883444786072,
      "learning_rate": 1e-05,
      "loss": 0.631,
      "step": 1170
    },
    {
      "epoch": 0.11927072723568954,
      "grad_norm": 0.7346238493919373,
      "learning_rate": 1e-05,
      "loss": 0.595,
      "step": 1171
    },
    {
      "epoch": 0.11937258097372173,
      "grad_norm": 0.7066375017166138,
      "learning_rate": 1e-05,
      "loss": 0.5846,
      "step": 1172
    },
    {
      "epoch": 0.11947443471175392,
      "grad_norm": 0.6564724445343018,
      "learning_rate": 1e-05,
      "loss": 0.5781,
      "step": 1173
    },
    {
      "epoch": 0.11957628844978611,
      "grad_norm": 0.7673715949058533,
      "learning_rate": 1e-05,
      "loss": 0.7365,
      "step": 1174
    },
    {
      "epoch": 0.11967814218781829,
      "grad_norm": 0.7346702218055725,
      "learning_rate": 1e-05,
      "loss": 0.6519,
      "step": 1175
    },
    {
      "epoch": 0.11977999592585048,
      "grad_norm": 0.7196057438850403,
      "learning_rate": 1e-05,
      "loss": 0.6449,
      "step": 1176
    },
    {
      "epoch": 0.11988184966388267,
      "grad_norm": 0.7538277506828308,
      "learning_rate": 1e-05,
      "loss": 0.6045,
      "step": 1177
    },
    {
      "epoch": 0.11998370340191485,
      "grad_norm": 0.6923975348472595,
      "learning_rate": 1e-05,
      "loss": 0.5109,
      "step": 1178
    },
    {
      "epoch": 0.12008555713994704,
      "grad_norm": 0.7104039192199707,
      "learning_rate": 1e-05,
      "loss": 0.5821,
      "step": 1179
    },
    {
      "epoch": 0.12018741087797923,
      "grad_norm": 0.6769377589225769,
      "learning_rate": 1e-05,
      "loss": 0.567,
      "step": 1180
    },
    {
      "epoch": 0.1202892646160114,
      "grad_norm": 0.6861794590950012,
      "learning_rate": 1e-05,
      "loss": 0.5524,
      "step": 1181
    },
    {
      "epoch": 0.12039111835404359,
      "grad_norm": 0.6757640242576599,
      "learning_rate": 1e-05,
      "loss": 0.5808,
      "step": 1182
    },
    {
      "epoch": 0.12049297209207578,
      "grad_norm": 0.7554146647453308,
      "learning_rate": 1e-05,
      "loss": 0.6527,
      "step": 1183
    },
    {
      "epoch": 0.12059482583010797,
      "grad_norm": 0.7613555788993835,
      "learning_rate": 1e-05,
      "loss": 0.6161,
      "step": 1184
    },
    {
      "epoch": 0.12069667956814015,
      "grad_norm": 0.76496422290802,
      "learning_rate": 1e-05,
      "loss": 0.6861,
      "step": 1185
    },
    {
      "epoch": 0.12079853330617234,
      "grad_norm": 0.703243613243103,
      "learning_rate": 1e-05,
      "loss": 0.5832,
      "step": 1186
    },
    {
      "epoch": 0.12090038704420453,
      "grad_norm": 0.6890190243721008,
      "learning_rate": 1e-05,
      "loss": 0.5595,
      "step": 1187
    },
    {
      "epoch": 0.1210022407822367,
      "grad_norm": 0.7023544907569885,
      "learning_rate": 1e-05,
      "loss": 0.6761,
      "step": 1188
    },
    {
      "epoch": 0.12110409452026889,
      "grad_norm": 0.7005607485771179,
      "learning_rate": 1e-05,
      "loss": 0.6049,
      "step": 1189
    },
    {
      "epoch": 0.12120594825830108,
      "grad_norm": 0.6828032732009888,
      "learning_rate": 1e-05,
      "loss": 0.5513,
      "step": 1190
    },
    {
      "epoch": 0.12130780199633326,
      "grad_norm": 0.7292066216468811,
      "learning_rate": 1e-05,
      "loss": 0.7253,
      "step": 1191
    },
    {
      "epoch": 0.12140965573436545,
      "grad_norm": 0.727756917476654,
      "learning_rate": 1e-05,
      "loss": 0.6788,
      "step": 1192
    },
    {
      "epoch": 0.12151150947239764,
      "grad_norm": 0.7302895784378052,
      "learning_rate": 1e-05,
      "loss": 0.5582,
      "step": 1193
    },
    {
      "epoch": 0.12161336321042983,
      "grad_norm": 0.8292721509933472,
      "learning_rate": 1e-05,
      "loss": 0.6015,
      "step": 1194
    },
    {
      "epoch": 0.121715216948462,
      "grad_norm": 0.7200881838798523,
      "learning_rate": 1e-05,
      "loss": 0.5894,
      "step": 1195
    },
    {
      "epoch": 0.1218170706864942,
      "grad_norm": 0.8266777992248535,
      "learning_rate": 1e-05,
      "loss": 0.6533,
      "step": 1196
    },
    {
      "epoch": 0.12191892442452638,
      "grad_norm": 0.7576754093170166,
      "learning_rate": 1e-05,
      "loss": 0.7508,
      "step": 1197
    },
    {
      "epoch": 0.12202077816255856,
      "grad_norm": 0.6917283535003662,
      "learning_rate": 1e-05,
      "loss": 0.6249,
      "step": 1198
    },
    {
      "epoch": 0.12212263190059075,
      "grad_norm": 0.7084260582923889,
      "learning_rate": 1e-05,
      "loss": 0.5909,
      "step": 1199
    },
    {
      "epoch": 0.12222448563862294,
      "grad_norm": 0.7003508806228638,
      "learning_rate": 1e-05,
      "loss": 0.5493,
      "step": 1200
    },
    {
      "epoch": 0.12232633937665513,
      "grad_norm": 0.6833428144454956,
      "learning_rate": 1e-05,
      "loss": 0.5665,
      "step": 1201
    },
    {
      "epoch": 0.1224281931146873,
      "grad_norm": 0.6613821983337402,
      "learning_rate": 1e-05,
      "loss": 0.4943,
      "step": 1202
    },
    {
      "epoch": 0.1225300468527195,
      "grad_norm": 1.1705961227416992,
      "learning_rate": 1e-05,
      "loss": 0.5218,
      "step": 1203
    },
    {
      "epoch": 0.12263190059075169,
      "grad_norm": 0.662835419178009,
      "learning_rate": 1e-05,
      "loss": 0.5394,
      "step": 1204
    },
    {
      "epoch": 0.12273375432878386,
      "grad_norm": 0.6359034776687622,
      "learning_rate": 1e-05,
      "loss": 0.5749,
      "step": 1205
    },
    {
      "epoch": 0.12283560806681605,
      "grad_norm": 0.7265203595161438,
      "learning_rate": 1e-05,
      "loss": 0.5973,
      "step": 1206
    },
    {
      "epoch": 0.12293746180484824,
      "grad_norm": 0.6387877464294434,
      "learning_rate": 1e-05,
      "loss": 0.5477,
      "step": 1207
    },
    {
      "epoch": 0.12303931554288042,
      "grad_norm": 0.7651928067207336,
      "learning_rate": 1e-05,
      "loss": 0.5954,
      "step": 1208
    },
    {
      "epoch": 0.12314116928091261,
      "grad_norm": 0.89072185754776,
      "learning_rate": 1e-05,
      "loss": 0.5767,
      "step": 1209
    },
    {
      "epoch": 0.1232430230189448,
      "grad_norm": 0.7142767310142517,
      "learning_rate": 1e-05,
      "loss": 0.5798,
      "step": 1210
    },
    {
      "epoch": 0.12334487675697699,
      "grad_norm": 0.8006425499916077,
      "learning_rate": 1e-05,
      "loss": 0.5296,
      "step": 1211
    },
    {
      "epoch": 0.12344673049500916,
      "grad_norm": 0.7485531568527222,
      "learning_rate": 1e-05,
      "loss": 0.6613,
      "step": 1212
    },
    {
      "epoch": 0.12354858423304135,
      "grad_norm": 0.7229760885238647,
      "learning_rate": 1e-05,
      "loss": 0.5629,
      "step": 1213
    },
    {
      "epoch": 0.12365043797107354,
      "grad_norm": 0.7130137085914612,
      "learning_rate": 1e-05,
      "loss": 0.6118,
      "step": 1214
    },
    {
      "epoch": 0.12375229170910572,
      "grad_norm": 0.7479426264762878,
      "learning_rate": 1e-05,
      "loss": 0.525,
      "step": 1215
    },
    {
      "epoch": 0.12385414544713791,
      "grad_norm": 0.6939424276351929,
      "learning_rate": 1e-05,
      "loss": 0.591,
      "step": 1216
    },
    {
      "epoch": 0.1239559991851701,
      "grad_norm": 0.7690073251724243,
      "learning_rate": 1e-05,
      "loss": 0.6747,
      "step": 1217
    },
    {
      "epoch": 0.12405785292320227,
      "grad_norm": 0.7024808526039124,
      "learning_rate": 1e-05,
      "loss": 0.6423,
      "step": 1218
    },
    {
      "epoch": 0.12415970666123446,
      "grad_norm": 0.7004073858261108,
      "learning_rate": 1e-05,
      "loss": 0.6607,
      "step": 1219
    },
    {
      "epoch": 0.12426156039926665,
      "grad_norm": 0.6328763365745544,
      "learning_rate": 1e-05,
      "loss": 0.5314,
      "step": 1220
    },
    {
      "epoch": 0.12436341413729884,
      "grad_norm": 0.7079018354415894,
      "learning_rate": 1e-05,
      "loss": 0.5679,
      "step": 1221
    },
    {
      "epoch": 0.12446526787533102,
      "grad_norm": 0.761916995048523,
      "learning_rate": 1e-05,
      "loss": 0.7207,
      "step": 1222
    },
    {
      "epoch": 0.12456712161336321,
      "grad_norm": 0.6616944074630737,
      "learning_rate": 1e-05,
      "loss": 0.4976,
      "step": 1223
    },
    {
      "epoch": 0.1246689753513954,
      "grad_norm": 0.6712126135826111,
      "learning_rate": 1e-05,
      "loss": 0.6263,
      "step": 1224
    },
    {
      "epoch": 0.12477082908942758,
      "grad_norm": 0.817709743976593,
      "learning_rate": 1e-05,
      "loss": 0.7032,
      "step": 1225
    },
    {
      "epoch": 0.12487268282745977,
      "grad_norm": 0.6770107746124268,
      "learning_rate": 1e-05,
      "loss": 0.4817,
      "step": 1226
    },
    {
      "epoch": 0.12497453656549196,
      "grad_norm": 0.6881330013275146,
      "learning_rate": 1e-05,
      "loss": 0.5563,
      "step": 1227
    },
    {
      "epoch": 0.12507639030352413,
      "grad_norm": 0.6888493895530701,
      "learning_rate": 1e-05,
      "loss": 0.6474,
      "step": 1228
    },
    {
      "epoch": 0.12517824404155634,
      "grad_norm": 0.7062845826148987,
      "learning_rate": 1e-05,
      "loss": 0.5763,
      "step": 1229
    },
    {
      "epoch": 0.1252800977795885,
      "grad_norm": 0.7744075059890747,
      "learning_rate": 1e-05,
      "loss": 0.5907,
      "step": 1230
    },
    {
      "epoch": 0.1253819515176207,
      "grad_norm": 0.7929084897041321,
      "learning_rate": 1e-05,
      "loss": 0.5849,
      "step": 1231
    },
    {
      "epoch": 0.1254838052556529,
      "grad_norm": 0.7320924401283264,
      "learning_rate": 1e-05,
      "loss": 0.6013,
      "step": 1232
    },
    {
      "epoch": 0.12558565899368507,
      "grad_norm": 0.704584538936615,
      "learning_rate": 1e-05,
      "loss": 0.6265,
      "step": 1233
    },
    {
      "epoch": 0.12568751273171724,
      "grad_norm": 0.7566579580307007,
      "learning_rate": 1e-05,
      "loss": 0.5584,
      "step": 1234
    },
    {
      "epoch": 0.12578936646974945,
      "grad_norm": 0.7373670339584351,
      "learning_rate": 1e-05,
      "loss": 0.5867,
      "step": 1235
    },
    {
      "epoch": 0.12589122020778162,
      "grad_norm": 0.6964582204818726,
      "learning_rate": 1e-05,
      "loss": 0.6016,
      "step": 1236
    },
    {
      "epoch": 0.1259930739458138,
      "grad_norm": 0.7072805166244507,
      "learning_rate": 1e-05,
      "loss": 0.6129,
      "step": 1237
    },
    {
      "epoch": 0.126094927683846,
      "grad_norm": 0.8062823414802551,
      "learning_rate": 1e-05,
      "loss": 0.6583,
      "step": 1238
    },
    {
      "epoch": 0.12619678142187818,
      "grad_norm": 0.7598341703414917,
      "learning_rate": 1e-05,
      "loss": 0.5574,
      "step": 1239
    },
    {
      "epoch": 0.12629863515991036,
      "grad_norm": 0.6599454283714294,
      "learning_rate": 1e-05,
      "loss": 0.5058,
      "step": 1240
    },
    {
      "epoch": 0.12640048889794256,
      "grad_norm": 0.688758134841919,
      "learning_rate": 1e-05,
      "loss": 0.595,
      "step": 1241
    },
    {
      "epoch": 0.12650234263597473,
      "grad_norm": 0.6050760746002197,
      "learning_rate": 1e-05,
      "loss": 0.5231,
      "step": 1242
    },
    {
      "epoch": 0.12660419637400694,
      "grad_norm": 0.7497696280479431,
      "learning_rate": 1e-05,
      "loss": 0.6033,
      "step": 1243
    },
    {
      "epoch": 0.12670605011203911,
      "grad_norm": 0.7264077067375183,
      "learning_rate": 1e-05,
      "loss": 0.5395,
      "step": 1244
    },
    {
      "epoch": 0.1268079038500713,
      "grad_norm": 0.6538046002388,
      "learning_rate": 1e-05,
      "loss": 0.5626,
      "step": 1245
    },
    {
      "epoch": 0.1269097575881035,
      "grad_norm": 0.6881316304206848,
      "learning_rate": 1e-05,
      "loss": 0.5382,
      "step": 1246
    },
    {
      "epoch": 0.12701161132613567,
      "grad_norm": 0.6671683192253113,
      "learning_rate": 1e-05,
      "loss": 0.5347,
      "step": 1247
    },
    {
      "epoch": 0.12711346506416785,
      "grad_norm": 0.7299224734306335,
      "learning_rate": 1e-05,
      "loss": 0.6615,
      "step": 1248
    },
    {
      "epoch": 0.12721531880220005,
      "grad_norm": 0.7261406183242798,
      "learning_rate": 1e-05,
      "loss": 0.6004,
      "step": 1249
    },
    {
      "epoch": 0.12731717254023223,
      "grad_norm": 0.6938850283622742,
      "learning_rate": 1e-05,
      "loss": 0.5724,
      "step": 1250
    },
    {
      "epoch": 0.1274190262782644,
      "grad_norm": 1.0745073556900024,
      "learning_rate": 1e-05,
      "loss": 0.667,
      "step": 1251
    },
    {
      "epoch": 0.1275208800162966,
      "grad_norm": 0.7959443926811218,
      "learning_rate": 1e-05,
      "loss": 0.5652,
      "step": 1252
    },
    {
      "epoch": 0.12762273375432878,
      "grad_norm": 0.7595816850662231,
      "learning_rate": 1e-05,
      "loss": 0.6071,
      "step": 1253
    },
    {
      "epoch": 0.12772458749236096,
      "grad_norm": 0.7181432247161865,
      "learning_rate": 1e-05,
      "loss": 0.5689,
      "step": 1254
    },
    {
      "epoch": 0.12782644123039316,
      "grad_norm": 0.680499792098999,
      "learning_rate": 1e-05,
      "loss": 0.5753,
      "step": 1255
    },
    {
      "epoch": 0.12792829496842534,
      "grad_norm": 1.2058696746826172,
      "learning_rate": 1e-05,
      "loss": 0.6241,
      "step": 1256
    },
    {
      "epoch": 0.12803014870645751,
      "grad_norm": 0.6961700916290283,
      "learning_rate": 1e-05,
      "loss": 0.5935,
      "step": 1257
    },
    {
      "epoch": 0.12813200244448972,
      "grad_norm": 0.7715069055557251,
      "learning_rate": 1e-05,
      "loss": 0.6652,
      "step": 1258
    },
    {
      "epoch": 0.1282338561825219,
      "grad_norm": 0.6481888890266418,
      "learning_rate": 1e-05,
      "loss": 0.5382,
      "step": 1259
    },
    {
      "epoch": 0.1283357099205541,
      "grad_norm": 0.6772593855857849,
      "learning_rate": 1e-05,
      "loss": 0.5673,
      "step": 1260
    },
    {
      "epoch": 0.12843756365858627,
      "grad_norm": 0.7065115571022034,
      "learning_rate": 1e-05,
      "loss": 0.6893,
      "step": 1261
    },
    {
      "epoch": 0.12853941739661845,
      "grad_norm": 0.6725510954856873,
      "learning_rate": 1e-05,
      "loss": 0.571,
      "step": 1262
    },
    {
      "epoch": 0.12864127113465065,
      "grad_norm": 0.6949235796928406,
      "learning_rate": 1e-05,
      "loss": 0.6111,
      "step": 1263
    },
    {
      "epoch": 0.12874312487268283,
      "grad_norm": 0.7184156775474548,
      "learning_rate": 1e-05,
      "loss": 0.6358,
      "step": 1264
    },
    {
      "epoch": 0.128844978610715,
      "grad_norm": 0.8047269582748413,
      "learning_rate": 1e-05,
      "loss": 0.6804,
      "step": 1265
    },
    {
      "epoch": 0.1289468323487472,
      "grad_norm": 0.8187689781188965,
      "learning_rate": 1e-05,
      "loss": 0.6672,
      "step": 1266
    },
    {
      "epoch": 0.12904868608677939,
      "grad_norm": 0.7558777332305908,
      "learning_rate": 1e-05,
      "loss": 0.5511,
      "step": 1267
    },
    {
      "epoch": 0.12915053982481156,
      "grad_norm": 0.7483742833137512,
      "learning_rate": 1e-05,
      "loss": 0.644,
      "step": 1268
    },
    {
      "epoch": 0.12925239356284376,
      "grad_norm": 0.7774055600166321,
      "learning_rate": 1e-05,
      "loss": 0.6462,
      "step": 1269
    },
    {
      "epoch": 0.12935424730087594,
      "grad_norm": 0.7211975455284119,
      "learning_rate": 1e-05,
      "loss": 0.6283,
      "step": 1270
    },
    {
      "epoch": 0.12945610103890812,
      "grad_norm": 0.7066938281059265,
      "learning_rate": 1e-05,
      "loss": 0.6404,
      "step": 1271
    },
    {
      "epoch": 0.12955795477694032,
      "grad_norm": 0.7578108310699463,
      "learning_rate": 1e-05,
      "loss": 0.6999,
      "step": 1272
    },
    {
      "epoch": 0.1296598085149725,
      "grad_norm": 0.7534706592559814,
      "learning_rate": 1e-05,
      "loss": 0.7041,
      "step": 1273
    },
    {
      "epoch": 0.12976166225300467,
      "grad_norm": 0.6866716146469116,
      "learning_rate": 1e-05,
      "loss": 0.5847,
      "step": 1274
    },
    {
      "epoch": 0.12986351599103688,
      "grad_norm": 0.6535376906394958,
      "learning_rate": 1e-05,
      "loss": 0.5425,
      "step": 1275
    },
    {
      "epoch": 0.12996536972906905,
      "grad_norm": 0.722776472568512,
      "learning_rate": 1e-05,
      "loss": 0.5645,
      "step": 1276
    },
    {
      "epoch": 0.13006722346710126,
      "grad_norm": 0.6965568661689758,
      "learning_rate": 1e-05,
      "loss": 0.5258,
      "step": 1277
    },
    {
      "epoch": 0.13016907720513343,
      "grad_norm": 0.6930091977119446,
      "learning_rate": 1e-05,
      "loss": 0.5682,
      "step": 1278
    },
    {
      "epoch": 0.1302709309431656,
      "grad_norm": 4.023809432983398,
      "learning_rate": 1e-05,
      "loss": 0.6127,
      "step": 1279
    },
    {
      "epoch": 0.1303727846811978,
      "grad_norm": 2.063929557800293,
      "learning_rate": 1e-05,
      "loss": 0.6043,
      "step": 1280
    },
    {
      "epoch": 0.13047463841923,
      "grad_norm": 0.6920980215072632,
      "learning_rate": 1e-05,
      "loss": 0.5721,
      "step": 1281
    },
    {
      "epoch": 0.13057649215726216,
      "grad_norm": 0.719656229019165,
      "learning_rate": 1e-05,
      "loss": 0.5913,
      "step": 1282
    },
    {
      "epoch": 0.13067834589529437,
      "grad_norm": 0.7352586388587952,
      "learning_rate": 1e-05,
      "loss": 0.6625,
      "step": 1283
    },
    {
      "epoch": 0.13078019963332654,
      "grad_norm": 0.7095009088516235,
      "learning_rate": 1e-05,
      "loss": 0.5444,
      "step": 1284
    },
    {
      "epoch": 0.13088205337135872,
      "grad_norm": 0.7000530958175659,
      "learning_rate": 1e-05,
      "loss": 0.601,
      "step": 1285
    },
    {
      "epoch": 0.13098390710939092,
      "grad_norm": 0.7015764117240906,
      "learning_rate": 1e-05,
      "loss": 0.5594,
      "step": 1286
    },
    {
      "epoch": 0.1310857608474231,
      "grad_norm": 1.1867918968200684,
      "learning_rate": 1e-05,
      "loss": 0.5994,
      "step": 1287
    },
    {
      "epoch": 0.13118761458545528,
      "grad_norm": 0.6610482335090637,
      "learning_rate": 1e-05,
      "loss": 0.5472,
      "step": 1288
    },
    {
      "epoch": 0.13128946832348748,
      "grad_norm": 2.883769989013672,
      "learning_rate": 1e-05,
      "loss": 0.5954,
      "step": 1289
    },
    {
      "epoch": 0.13139132206151966,
      "grad_norm": 0.6865670084953308,
      "learning_rate": 1e-05,
      "loss": 0.5753,
      "step": 1290
    },
    {
      "epoch": 0.13149317579955183,
      "grad_norm": 0.6850321888923645,
      "learning_rate": 1e-05,
      "loss": 0.6058,
      "step": 1291
    },
    {
      "epoch": 0.13159502953758404,
      "grad_norm": 0.6235719323158264,
      "learning_rate": 1e-05,
      "loss": 0.5577,
      "step": 1292
    },
    {
      "epoch": 0.1316968832756162,
      "grad_norm": 0.7391462922096252,
      "learning_rate": 1e-05,
      "loss": 0.6288,
      "step": 1293
    },
    {
      "epoch": 0.1317987370136484,
      "grad_norm": 0.6588857173919678,
      "learning_rate": 1e-05,
      "loss": 0.5373,
      "step": 1294
    },
    {
      "epoch": 0.1319005907516806,
      "grad_norm": 0.6831007599830627,
      "learning_rate": 1e-05,
      "loss": 0.6226,
      "step": 1295
    },
    {
      "epoch": 0.13200244448971277,
      "grad_norm": 0.8612320423126221,
      "learning_rate": 1e-05,
      "loss": 0.6905,
      "step": 1296
    },
    {
      "epoch": 0.13210429822774497,
      "grad_norm": 0.7036967873573303,
      "learning_rate": 1e-05,
      "loss": 0.5878,
      "step": 1297
    },
    {
      "epoch": 0.13220615196577715,
      "grad_norm": 0.6881715059280396,
      "learning_rate": 1e-05,
      "loss": 0.5671,
      "step": 1298
    },
    {
      "epoch": 0.13230800570380932,
      "grad_norm": 0.7156614661216736,
      "learning_rate": 1e-05,
      "loss": 0.5754,
      "step": 1299
    },
    {
      "epoch": 0.13240985944184153,
      "grad_norm": 0.7633807063102722,
      "learning_rate": 1e-05,
      "loss": 0.5806,
      "step": 1300
    },
    {
      "epoch": 0.1325117131798737,
      "grad_norm": 0.767889678478241,
      "learning_rate": 1e-05,
      "loss": 0.7098,
      "step": 1301
    },
    {
      "epoch": 0.13261356691790588,
      "grad_norm": 0.741849958896637,
      "learning_rate": 1e-05,
      "loss": 0.6209,
      "step": 1302
    },
    {
      "epoch": 0.13271542065593808,
      "grad_norm": 0.664639413356781,
      "learning_rate": 1e-05,
      "loss": 0.6085,
      "step": 1303
    },
    {
      "epoch": 0.13281727439397026,
      "grad_norm": 0.6794866919517517,
      "learning_rate": 1e-05,
      "loss": 0.5181,
      "step": 1304
    },
    {
      "epoch": 0.13291912813200243,
      "grad_norm": 0.7357483506202698,
      "learning_rate": 1e-05,
      "loss": 0.5731,
      "step": 1305
    },
    {
      "epoch": 0.13302098187003464,
      "grad_norm": 0.6620758771896362,
      "learning_rate": 1e-05,
      "loss": 0.6134,
      "step": 1306
    },
    {
      "epoch": 0.13312283560806681,
      "grad_norm": 0.591268002986908,
      "learning_rate": 1e-05,
      "loss": 0.4934,
      "step": 1307
    },
    {
      "epoch": 0.133224689346099,
      "grad_norm": 0.7055016756057739,
      "learning_rate": 1e-05,
      "loss": 0.4926,
      "step": 1308
    },
    {
      "epoch": 0.1333265430841312,
      "grad_norm": 0.7256927490234375,
      "learning_rate": 1e-05,
      "loss": 0.5828,
      "step": 1309
    },
    {
      "epoch": 0.13342839682216337,
      "grad_norm": 1.123185634613037,
      "learning_rate": 1e-05,
      "loss": 0.529,
      "step": 1310
    },
    {
      "epoch": 0.13353025056019555,
      "grad_norm": 0.6500176787376404,
      "learning_rate": 1e-05,
      "loss": 0.5313,
      "step": 1311
    },
    {
      "epoch": 0.13363210429822775,
      "grad_norm": 0.7327036261558533,
      "learning_rate": 1e-05,
      "loss": 0.5952,
      "step": 1312
    },
    {
      "epoch": 0.13373395803625993,
      "grad_norm": 0.7666241526603699,
      "learning_rate": 1e-05,
      "loss": 0.5621,
      "step": 1313
    },
    {
      "epoch": 0.13383581177429213,
      "grad_norm": 0.7484760284423828,
      "learning_rate": 1e-05,
      "loss": 0.6135,
      "step": 1314
    },
    {
      "epoch": 0.1339376655123243,
      "grad_norm": 0.7509772777557373,
      "learning_rate": 1e-05,
      "loss": 0.6453,
      "step": 1315
    },
    {
      "epoch": 0.13403951925035648,
      "grad_norm": 0.7195064425468445,
      "learning_rate": 1e-05,
      "loss": 0.6244,
      "step": 1316
    },
    {
      "epoch": 0.13414137298838869,
      "grad_norm": 0.6615506410598755,
      "learning_rate": 1e-05,
      "loss": 0.5704,
      "step": 1317
    },
    {
      "epoch": 0.13424322672642086,
      "grad_norm": 0.6083542704582214,
      "learning_rate": 1e-05,
      "loss": 0.434,
      "step": 1318
    },
    {
      "epoch": 0.13434508046445304,
      "grad_norm": 0.6875653862953186,
      "learning_rate": 1e-05,
      "loss": 0.6181,
      "step": 1319
    },
    {
      "epoch": 0.13444693420248524,
      "grad_norm": 0.692956268787384,
      "learning_rate": 1e-05,
      "loss": 0.6156,
      "step": 1320
    },
    {
      "epoch": 0.13454878794051742,
      "grad_norm": 0.7027778029441833,
      "learning_rate": 1e-05,
      "loss": 0.5825,
      "step": 1321
    },
    {
      "epoch": 0.1346506416785496,
      "grad_norm": 0.6499971151351929,
      "learning_rate": 1e-05,
      "loss": 0.5003,
      "step": 1322
    },
    {
      "epoch": 0.1347524954165818,
      "grad_norm": 0.7457976341247559,
      "learning_rate": 1e-05,
      "loss": 0.7668,
      "step": 1323
    },
    {
      "epoch": 0.13485434915461397,
      "grad_norm": 0.76759934425354,
      "learning_rate": 1e-05,
      "loss": 0.7274,
      "step": 1324
    },
    {
      "epoch": 0.13495620289264615,
      "grad_norm": 0.735836923122406,
      "learning_rate": 1e-05,
      "loss": 0.5584,
      "step": 1325
    },
    {
      "epoch": 0.13505805663067835,
      "grad_norm": 0.6634193658828735,
      "learning_rate": 1e-05,
      "loss": 0.5377,
      "step": 1326
    },
    {
      "epoch": 0.13515991036871053,
      "grad_norm": 0.7380045056343079,
      "learning_rate": 1e-05,
      "loss": 0.6195,
      "step": 1327
    },
    {
      "epoch": 0.1352617641067427,
      "grad_norm": 0.684921383857727,
      "learning_rate": 1e-05,
      "loss": 0.596,
      "step": 1328
    },
    {
      "epoch": 0.1353636178447749,
      "grad_norm": 0.7347373366355896,
      "learning_rate": 1e-05,
      "loss": 0.5703,
      "step": 1329
    },
    {
      "epoch": 0.13546547158280708,
      "grad_norm": 0.700994074344635,
      "learning_rate": 1e-05,
      "loss": 0.556,
      "step": 1330
    },
    {
      "epoch": 0.1355673253208393,
      "grad_norm": 0.7983446717262268,
      "learning_rate": 1e-05,
      "loss": 0.5567,
      "step": 1331
    },
    {
      "epoch": 0.13566917905887146,
      "grad_norm": 0.739186704158783,
      "learning_rate": 1e-05,
      "loss": 0.7412,
      "step": 1332
    },
    {
      "epoch": 0.13577103279690364,
      "grad_norm": 0.7450668215751648,
      "learning_rate": 1e-05,
      "loss": 0.5833,
      "step": 1333
    },
    {
      "epoch": 0.13587288653493584,
      "grad_norm": 0.6313309669494629,
      "learning_rate": 1e-05,
      "loss": 0.5547,
      "step": 1334
    },
    {
      "epoch": 0.13597474027296802,
      "grad_norm": 0.7625541687011719,
      "learning_rate": 1e-05,
      "loss": 0.6341,
      "step": 1335
    },
    {
      "epoch": 0.1360765940110002,
      "grad_norm": 0.6841469407081604,
      "learning_rate": 1e-05,
      "loss": 0.6161,
      "step": 1336
    },
    {
      "epoch": 0.1361784477490324,
      "grad_norm": 0.6695085763931274,
      "learning_rate": 1e-05,
      "loss": 0.5981,
      "step": 1337
    },
    {
      "epoch": 0.13628030148706458,
      "grad_norm": 0.7676407098770142,
      "learning_rate": 1e-05,
      "loss": 0.6892,
      "step": 1338
    },
    {
      "epoch": 0.13638215522509675,
      "grad_norm": 0.7227396965026855,
      "learning_rate": 1e-05,
      "loss": 0.5711,
      "step": 1339
    },
    {
      "epoch": 0.13648400896312896,
      "grad_norm": 0.7745689749717712,
      "learning_rate": 1e-05,
      "loss": 0.5279,
      "step": 1340
    },
    {
      "epoch": 0.13658586270116113,
      "grad_norm": 0.6354873776435852,
      "learning_rate": 1e-05,
      "loss": 0.5187,
      "step": 1341
    },
    {
      "epoch": 0.1366877164391933,
      "grad_norm": 1.9901163578033447,
      "learning_rate": 1e-05,
      "loss": 0.6139,
      "step": 1342
    },
    {
      "epoch": 0.1367895701772255,
      "grad_norm": 0.681579053401947,
      "learning_rate": 1e-05,
      "loss": 0.544,
      "step": 1343
    },
    {
      "epoch": 0.1368914239152577,
      "grad_norm": 0.7144373655319214,
      "learning_rate": 1e-05,
      "loss": 0.5996,
      "step": 1344
    },
    {
      "epoch": 0.13699327765328986,
      "grad_norm": 0.7628227472305298,
      "learning_rate": 1e-05,
      "loss": 0.5966,
      "step": 1345
    },
    {
      "epoch": 0.13709513139132207,
      "grad_norm": 0.6882241368293762,
      "learning_rate": 1e-05,
      "loss": 0.596,
      "step": 1346
    },
    {
      "epoch": 0.13719698512935424,
      "grad_norm": 0.7103061079978943,
      "learning_rate": 1e-05,
      "loss": 0.6299,
      "step": 1347
    },
    {
      "epoch": 0.13729883886738645,
      "grad_norm": 0.6904440522193909,
      "learning_rate": 1e-05,
      "loss": 0.5633,
      "step": 1348
    },
    {
      "epoch": 0.13740069260541862,
      "grad_norm": 0.6528764367103577,
      "learning_rate": 1e-05,
      "loss": 0.5341,
      "step": 1349
    },
    {
      "epoch": 0.1375025463434508,
      "grad_norm": 0.7259001135826111,
      "learning_rate": 1e-05,
      "loss": 0.6567,
      "step": 1350
    },
    {
      "epoch": 0.137604400081483,
      "grad_norm": 0.7574927806854248,
      "learning_rate": 1e-05,
      "loss": 0.6885,
      "step": 1351
    },
    {
      "epoch": 0.13770625381951518,
      "grad_norm": 0.7143511772155762,
      "learning_rate": 1e-05,
      "loss": 0.5713,
      "step": 1352
    },
    {
      "epoch": 0.13780810755754735,
      "grad_norm": 0.6840568780899048,
      "learning_rate": 1e-05,
      "loss": 0.603,
      "step": 1353
    },
    {
      "epoch": 0.13790996129557956,
      "grad_norm": 0.7113961577415466,
      "learning_rate": 1e-05,
      "loss": 0.6592,
      "step": 1354
    },
    {
      "epoch": 0.13801181503361173,
      "grad_norm": 0.7285824418067932,
      "learning_rate": 1e-05,
      "loss": 0.6202,
      "step": 1355
    },
    {
      "epoch": 0.1381136687716439,
      "grad_norm": 0.6984251141548157,
      "learning_rate": 1e-05,
      "loss": 0.574,
      "step": 1356
    },
    {
      "epoch": 0.13821552250967611,
      "grad_norm": 0.7087207436561584,
      "learning_rate": 1e-05,
      "loss": 0.5417,
      "step": 1357
    },
    {
      "epoch": 0.1383173762477083,
      "grad_norm": 0.7385143041610718,
      "learning_rate": 1e-05,
      "loss": 0.6048,
      "step": 1358
    },
    {
      "epoch": 0.13841922998574047,
      "grad_norm": 0.6878827214241028,
      "learning_rate": 1e-05,
      "loss": 0.6283,
      "step": 1359
    },
    {
      "epoch": 0.13852108372377267,
      "grad_norm": 0.7082046270370483,
      "learning_rate": 1e-05,
      "loss": 0.5902,
      "step": 1360
    },
    {
      "epoch": 0.13862293746180485,
      "grad_norm": 0.6624758839607239,
      "learning_rate": 1e-05,
      "loss": 0.5182,
      "step": 1361
    },
    {
      "epoch": 0.13872479119983702,
      "grad_norm": 0.6630102396011353,
      "learning_rate": 1e-05,
      "loss": 0.5938,
      "step": 1362
    },
    {
      "epoch": 0.13882664493786923,
      "grad_norm": 0.7467995285987854,
      "learning_rate": 1e-05,
      "loss": 0.6458,
      "step": 1363
    },
    {
      "epoch": 0.1389284986759014,
      "grad_norm": 0.7091526389122009,
      "learning_rate": 1e-05,
      "loss": 0.5654,
      "step": 1364
    },
    {
      "epoch": 0.13903035241393358,
      "grad_norm": 0.7070725560188293,
      "learning_rate": 1e-05,
      "loss": 0.6636,
      "step": 1365
    },
    {
      "epoch": 0.13913220615196578,
      "grad_norm": 0.6945207715034485,
      "learning_rate": 1e-05,
      "loss": 0.6077,
      "step": 1366
    },
    {
      "epoch": 0.13923405988999796,
      "grad_norm": 0.700507402420044,
      "learning_rate": 1e-05,
      "loss": 0.682,
      "step": 1367
    },
    {
      "epoch": 0.13933591362803016,
      "grad_norm": 1.4954339265823364,
      "learning_rate": 1e-05,
      "loss": 0.6533,
      "step": 1368
    },
    {
      "epoch": 0.13943776736606234,
      "grad_norm": 0.6991812586784363,
      "learning_rate": 1e-05,
      "loss": 0.6662,
      "step": 1369
    },
    {
      "epoch": 0.1395396211040945,
      "grad_norm": 0.7492578625679016,
      "learning_rate": 1e-05,
      "loss": 0.64,
      "step": 1370
    },
    {
      "epoch": 0.13964147484212672,
      "grad_norm": 0.7227286696434021,
      "learning_rate": 1e-05,
      "loss": 0.6596,
      "step": 1371
    },
    {
      "epoch": 0.1397433285801589,
      "grad_norm": 0.753472089767456,
      "learning_rate": 1e-05,
      "loss": 0.7295,
      "step": 1372
    },
    {
      "epoch": 0.13984518231819107,
      "grad_norm": 0.7019957304000854,
      "learning_rate": 1e-05,
      "loss": 0.5738,
      "step": 1373
    },
    {
      "epoch": 0.13994703605622327,
      "grad_norm": 0.7257905602455139,
      "learning_rate": 1e-05,
      "loss": 0.5678,
      "step": 1374
    },
    {
      "epoch": 0.14004888979425545,
      "grad_norm": 0.6862273216247559,
      "learning_rate": 1e-05,
      "loss": 0.5726,
      "step": 1375
    },
    {
      "epoch": 0.14015074353228762,
      "grad_norm": 0.6626868844032288,
      "learning_rate": 1e-05,
      "loss": 0.6271,
      "step": 1376
    },
    {
      "epoch": 0.14025259727031983,
      "grad_norm": 0.6797555685043335,
      "learning_rate": 1e-05,
      "loss": 0.6375,
      "step": 1377
    },
    {
      "epoch": 0.140354451008352,
      "grad_norm": 0.93536376953125,
      "learning_rate": 1e-05,
      "loss": 0.6557,
      "step": 1378
    },
    {
      "epoch": 0.14045630474638418,
      "grad_norm": 0.719399094581604,
      "learning_rate": 1e-05,
      "loss": 0.6512,
      "step": 1379
    },
    {
      "epoch": 0.14055815848441638,
      "grad_norm": 0.6943789720535278,
      "learning_rate": 1e-05,
      "loss": 0.6282,
      "step": 1380
    },
    {
      "epoch": 0.14066001222244856,
      "grad_norm": 0.7482703328132629,
      "learning_rate": 1e-05,
      "loss": 0.6386,
      "step": 1381
    },
    {
      "epoch": 0.14076186596048074,
      "grad_norm": 0.7380226850509644,
      "learning_rate": 1e-05,
      "loss": 0.603,
      "step": 1382
    },
    {
      "epoch": 0.14086371969851294,
      "grad_norm": 0.7732250690460205,
      "learning_rate": 1e-05,
      "loss": 0.6119,
      "step": 1383
    },
    {
      "epoch": 0.14096557343654512,
      "grad_norm": 0.7113193869590759,
      "learning_rate": 1e-05,
      "loss": 0.5343,
      "step": 1384
    },
    {
      "epoch": 0.14106742717457732,
      "grad_norm": 0.6743645071983337,
      "learning_rate": 1e-05,
      "loss": 0.5585,
      "step": 1385
    },
    {
      "epoch": 0.1411692809126095,
      "grad_norm": 0.7268445491790771,
      "learning_rate": 1e-05,
      "loss": 0.6169,
      "step": 1386
    },
    {
      "epoch": 0.14127113465064167,
      "grad_norm": 0.866792619228363,
      "learning_rate": 1e-05,
      "loss": 0.5585,
      "step": 1387
    },
    {
      "epoch": 0.14137298838867388,
      "grad_norm": 0.6774260997772217,
      "learning_rate": 1e-05,
      "loss": 0.6073,
      "step": 1388
    },
    {
      "epoch": 0.14147484212670605,
      "grad_norm": 0.7280029654502869,
      "learning_rate": 1e-05,
      "loss": 0.6135,
      "step": 1389
    },
    {
      "epoch": 0.14157669586473823,
      "grad_norm": 0.7023320198059082,
      "learning_rate": 1e-05,
      "loss": 0.6006,
      "step": 1390
    },
    {
      "epoch": 0.14167854960277043,
      "grad_norm": 0.6925181746482849,
      "learning_rate": 1e-05,
      "loss": 0.5892,
      "step": 1391
    },
    {
      "epoch": 0.1417804033408026,
      "grad_norm": 0.6952806711196899,
      "learning_rate": 1e-05,
      "loss": 0.5785,
      "step": 1392
    },
    {
      "epoch": 0.14188225707883478,
      "grad_norm": 0.7287757992744446,
      "learning_rate": 1e-05,
      "loss": 0.5657,
      "step": 1393
    },
    {
      "epoch": 0.141984110816867,
      "grad_norm": 0.8085383176803589,
      "learning_rate": 1e-05,
      "loss": 0.5224,
      "step": 1394
    },
    {
      "epoch": 0.14208596455489916,
      "grad_norm": 0.7028992176055908,
      "learning_rate": 1e-05,
      "loss": 0.5185,
      "step": 1395
    },
    {
      "epoch": 0.14218781829293134,
      "grad_norm": 0.9790311455726624,
      "learning_rate": 1e-05,
      "loss": 0.6346,
      "step": 1396
    },
    {
      "epoch": 0.14228967203096354,
      "grad_norm": 0.7954108119010925,
      "learning_rate": 1e-05,
      "loss": 0.5024,
      "step": 1397
    },
    {
      "epoch": 0.14239152576899572,
      "grad_norm": 0.6403654217720032,
      "learning_rate": 1e-05,
      "loss": 0.5234,
      "step": 1398
    },
    {
      "epoch": 0.1424933795070279,
      "grad_norm": 0.8055738806724548,
      "learning_rate": 1e-05,
      "loss": 0.547,
      "step": 1399
    },
    {
      "epoch": 0.1425952332450601,
      "grad_norm": 0.7409390211105347,
      "learning_rate": 1e-05,
      "loss": 0.624,
      "step": 1400
    },
    {
      "epoch": 0.14269708698309228,
      "grad_norm": 0.6929650902748108,
      "learning_rate": 1e-05,
      "loss": 0.6549,
      "step": 1401
    },
    {
      "epoch": 0.14279894072112448,
      "grad_norm": 0.6887361407279968,
      "learning_rate": 1e-05,
      "loss": 0.5265,
      "step": 1402
    },
    {
      "epoch": 0.14290079445915665,
      "grad_norm": 0.6704025268554688,
      "learning_rate": 1e-05,
      "loss": 0.6035,
      "step": 1403
    },
    {
      "epoch": 0.14300264819718883,
      "grad_norm": 0.7017554640769958,
      "learning_rate": 1e-05,
      "loss": 0.5993,
      "step": 1404
    },
    {
      "epoch": 0.14310450193522103,
      "grad_norm": 1.0729643106460571,
      "learning_rate": 1e-05,
      "loss": 0.6132,
      "step": 1405
    },
    {
      "epoch": 0.1432063556732532,
      "grad_norm": 0.6348905563354492,
      "learning_rate": 1e-05,
      "loss": 0.5464,
      "step": 1406
    },
    {
      "epoch": 0.1433082094112854,
      "grad_norm": 0.66545569896698,
      "learning_rate": 1e-05,
      "loss": 0.5781,
      "step": 1407
    },
    {
      "epoch": 0.1434100631493176,
      "grad_norm": 0.7127016186714172,
      "learning_rate": 1e-05,
      "loss": 0.6177,
      "step": 1408
    },
    {
      "epoch": 0.14351191688734977,
      "grad_norm": 0.6925317645072937,
      "learning_rate": 1e-05,
      "loss": 0.5095,
      "step": 1409
    },
    {
      "epoch": 0.14361377062538194,
      "grad_norm": 1.0296359062194824,
      "learning_rate": 1e-05,
      "loss": 0.5278,
      "step": 1410
    },
    {
      "epoch": 0.14371562436341415,
      "grad_norm": 0.6567203402519226,
      "learning_rate": 1e-05,
      "loss": 0.5729,
      "step": 1411
    },
    {
      "epoch": 0.14381747810144632,
      "grad_norm": 0.6006826162338257,
      "learning_rate": 1e-05,
      "loss": 0.508,
      "step": 1412
    },
    {
      "epoch": 0.1439193318394785,
      "grad_norm": 0.6815462112426758,
      "learning_rate": 1e-05,
      "loss": 0.6189,
      "step": 1413
    },
    {
      "epoch": 0.1440211855775107,
      "grad_norm": 0.6809489727020264,
      "learning_rate": 1e-05,
      "loss": 0.5812,
      "step": 1414
    },
    {
      "epoch": 0.14412303931554288,
      "grad_norm": 0.6424801349639893,
      "learning_rate": 1e-05,
      "loss": 0.5654,
      "step": 1415
    },
    {
      "epoch": 0.14422489305357505,
      "grad_norm": 0.6648952960968018,
      "learning_rate": 1e-05,
      "loss": 0.4757,
      "step": 1416
    },
    {
      "epoch": 0.14432674679160726,
      "grad_norm": 0.7735500931739807,
      "learning_rate": 1e-05,
      "loss": 0.7191,
      "step": 1417
    },
    {
      "epoch": 0.14442860052963943,
      "grad_norm": 0.6595784425735474,
      "learning_rate": 1e-05,
      "loss": 0.6812,
      "step": 1418
    },
    {
      "epoch": 0.1445304542676716,
      "grad_norm": 1.2813665866851807,
      "learning_rate": 1e-05,
      "loss": 0.5993,
      "step": 1419
    },
    {
      "epoch": 0.1446323080057038,
      "grad_norm": 0.7402313351631165,
      "learning_rate": 1e-05,
      "loss": 0.5623,
      "step": 1420
    },
    {
      "epoch": 0.144734161743736,
      "grad_norm": 0.8231608867645264,
      "learning_rate": 1e-05,
      "loss": 0.8536,
      "step": 1421
    },
    {
      "epoch": 0.1448360154817682,
      "grad_norm": 0.7122628092765808,
      "learning_rate": 1e-05,
      "loss": 0.6791,
      "step": 1422
    },
    {
      "epoch": 0.14493786921980037,
      "grad_norm": 0.6998425722122192,
      "learning_rate": 1e-05,
      "loss": 0.548,
      "step": 1423
    },
    {
      "epoch": 0.14503972295783255,
      "grad_norm": 0.7107252478599548,
      "learning_rate": 1e-05,
      "loss": 0.589,
      "step": 1424
    },
    {
      "epoch": 0.14514157669586475,
      "grad_norm": 0.7256275415420532,
      "learning_rate": 1e-05,
      "loss": 0.6853,
      "step": 1425
    },
    {
      "epoch": 0.14524343043389693,
      "grad_norm": 0.7809741497039795,
      "learning_rate": 1e-05,
      "loss": 0.6211,
      "step": 1426
    },
    {
      "epoch": 0.1453452841719291,
      "grad_norm": 0.710521936416626,
      "learning_rate": 1e-05,
      "loss": 0.5821,
      "step": 1427
    },
    {
      "epoch": 0.1454471379099613,
      "grad_norm": 0.6860728859901428,
      "learning_rate": 1e-05,
      "loss": 0.5929,
      "step": 1428
    },
    {
      "epoch": 0.14554899164799348,
      "grad_norm": 0.6895129680633545,
      "learning_rate": 1e-05,
      "loss": 0.6689,
      "step": 1429
    },
    {
      "epoch": 0.14565084538602566,
      "grad_norm": 0.9639179110527039,
      "learning_rate": 1e-05,
      "loss": 0.5636,
      "step": 1430
    },
    {
      "epoch": 0.14575269912405786,
      "grad_norm": 0.789294421672821,
      "learning_rate": 1e-05,
      "loss": 0.5785,
      "step": 1431
    },
    {
      "epoch": 0.14585455286209004,
      "grad_norm": 0.6461278796195984,
      "learning_rate": 1e-05,
      "loss": 0.537,
      "step": 1432
    },
    {
      "epoch": 0.1459564066001222,
      "grad_norm": 0.7380059361457825,
      "learning_rate": 1e-05,
      "loss": 0.5906,
      "step": 1433
    },
    {
      "epoch": 0.14605826033815442,
      "grad_norm": 0.7336073517799377,
      "learning_rate": 1e-05,
      "loss": 0.6133,
      "step": 1434
    },
    {
      "epoch": 0.1461601140761866,
      "grad_norm": 0.6421706676483154,
      "learning_rate": 1e-05,
      "loss": 0.5878,
      "step": 1435
    },
    {
      "epoch": 0.14626196781421877,
      "grad_norm": 0.7556952834129333,
      "learning_rate": 1e-05,
      "loss": 0.6556,
      "step": 1436
    },
    {
      "epoch": 0.14636382155225097,
      "grad_norm": 0.7068029046058655,
      "learning_rate": 1e-05,
      "loss": 0.6276,
      "step": 1437
    },
    {
      "epoch": 0.14646567529028315,
      "grad_norm": 0.6595523357391357,
      "learning_rate": 1e-05,
      "loss": 0.4923,
      "step": 1438
    },
    {
      "epoch": 0.14656752902831535,
      "grad_norm": 0.7604790329933167,
      "learning_rate": 1e-05,
      "loss": 0.7357,
      "step": 1439
    },
    {
      "epoch": 0.14666938276634753,
      "grad_norm": 0.8270170092582703,
      "learning_rate": 1e-05,
      "loss": 0.6135,
      "step": 1440
    },
    {
      "epoch": 0.1467712365043797,
      "grad_norm": 0.7544768452644348,
      "learning_rate": 1e-05,
      "loss": 0.5948,
      "step": 1441
    },
    {
      "epoch": 0.1468730902424119,
      "grad_norm": 0.6664054989814758,
      "learning_rate": 1e-05,
      "loss": 0.5456,
      "step": 1442
    },
    {
      "epoch": 0.14697494398044408,
      "grad_norm": 0.7392339110374451,
      "learning_rate": 1e-05,
      "loss": 0.6223,
      "step": 1443
    },
    {
      "epoch": 0.14707679771847626,
      "grad_norm": 0.6920542120933533,
      "learning_rate": 1e-05,
      "loss": 0.5838,
      "step": 1444
    },
    {
      "epoch": 0.14717865145650846,
      "grad_norm": 0.6533910632133484,
      "learning_rate": 1e-05,
      "loss": 0.5708,
      "step": 1445
    },
    {
      "epoch": 0.14728050519454064,
      "grad_norm": 0.6931461691856384,
      "learning_rate": 1e-05,
      "loss": 0.6476,
      "step": 1446
    },
    {
      "epoch": 0.14738235893257282,
      "grad_norm": 0.7355472445487976,
      "learning_rate": 1e-05,
      "loss": 0.6505,
      "step": 1447
    },
    {
      "epoch": 0.14748421267060502,
      "grad_norm": 0.7035848498344421,
      "learning_rate": 1e-05,
      "loss": 0.6764,
      "step": 1448
    },
    {
      "epoch": 0.1475860664086372,
      "grad_norm": 0.6674767136573792,
      "learning_rate": 1e-05,
      "loss": 0.576,
      "step": 1449
    },
    {
      "epoch": 0.14768792014666937,
      "grad_norm": 0.6757937073707581,
      "learning_rate": 1e-05,
      "loss": 0.5482,
      "step": 1450
    },
    {
      "epoch": 0.14778977388470158,
      "grad_norm": 0.6334203481674194,
      "learning_rate": 1e-05,
      "loss": 0.4698,
      "step": 1451
    },
    {
      "epoch": 0.14789162762273375,
      "grad_norm": 0.747959554195404,
      "learning_rate": 1e-05,
      "loss": 0.5546,
      "step": 1452
    },
    {
      "epoch": 0.14799348136076593,
      "grad_norm": 0.7018712759017944,
      "learning_rate": 1e-05,
      "loss": 0.6217,
      "step": 1453
    },
    {
      "epoch": 0.14809533509879813,
      "grad_norm": 0.6430712938308716,
      "learning_rate": 1e-05,
      "loss": 0.5521,
      "step": 1454
    },
    {
      "epoch": 0.1481971888368303,
      "grad_norm": 0.6996252536773682,
      "learning_rate": 1e-05,
      "loss": 0.5731,
      "step": 1455
    },
    {
      "epoch": 0.1482990425748625,
      "grad_norm": 0.6601877808570862,
      "learning_rate": 1e-05,
      "loss": 0.5653,
      "step": 1456
    },
    {
      "epoch": 0.1484008963128947,
      "grad_norm": 0.7797675728797913,
      "learning_rate": 1e-05,
      "loss": 0.5105,
      "step": 1457
    },
    {
      "epoch": 0.14850275005092686,
      "grad_norm": 0.6942551732063293,
      "learning_rate": 1e-05,
      "loss": 0.5884,
      "step": 1458
    },
    {
      "epoch": 0.14860460378895907,
      "grad_norm": 0.8288545608520508,
      "learning_rate": 1e-05,
      "loss": 0.5979,
      "step": 1459
    },
    {
      "epoch": 0.14870645752699124,
      "grad_norm": 0.8178986310958862,
      "learning_rate": 1e-05,
      "loss": 0.6924,
      "step": 1460
    },
    {
      "epoch": 0.14880831126502342,
      "grad_norm": 0.7051705718040466,
      "learning_rate": 1e-05,
      "loss": 0.6611,
      "step": 1461
    },
    {
      "epoch": 0.14891016500305562,
      "grad_norm": 0.7230100035667419,
      "learning_rate": 1e-05,
      "loss": 0.6564,
      "step": 1462
    },
    {
      "epoch": 0.1490120187410878,
      "grad_norm": 0.7772417068481445,
      "learning_rate": 1e-05,
      "loss": 0.65,
      "step": 1463
    },
    {
      "epoch": 0.14911387247911997,
      "grad_norm": 0.7118542790412903,
      "learning_rate": 1e-05,
      "loss": 0.6157,
      "step": 1464
    },
    {
      "epoch": 0.14921572621715218,
      "grad_norm": 0.7096553444862366,
      "learning_rate": 1e-05,
      "loss": 0.5995,
      "step": 1465
    },
    {
      "epoch": 0.14931757995518435,
      "grad_norm": 0.6996775269508362,
      "learning_rate": 1e-05,
      "loss": 0.5909,
      "step": 1466
    },
    {
      "epoch": 0.14941943369321653,
      "grad_norm": 0.7452168464660645,
      "learning_rate": 1e-05,
      "loss": 0.6638,
      "step": 1467
    },
    {
      "epoch": 0.14952128743124873,
      "grad_norm": 0.7747637033462524,
      "learning_rate": 1e-05,
      "loss": 0.5906,
      "step": 1468
    },
    {
      "epoch": 0.1496231411692809,
      "grad_norm": 0.6050293445587158,
      "learning_rate": 1e-05,
      "loss": 0.4763,
      "step": 1469
    },
    {
      "epoch": 0.14972499490731309,
      "grad_norm": 0.7426658868789673,
      "learning_rate": 1e-05,
      "loss": 0.7027,
      "step": 1470
    },
    {
      "epoch": 0.1498268486453453,
      "grad_norm": 0.7026522159576416,
      "learning_rate": 1e-05,
      "loss": 0.6667,
      "step": 1471
    },
    {
      "epoch": 0.14992870238337747,
      "grad_norm": 0.6623207926750183,
      "learning_rate": 1e-05,
      "loss": 0.5464,
      "step": 1472
    },
    {
      "epoch": 0.15003055612140967,
      "grad_norm": 0.6850414276123047,
      "learning_rate": 1e-05,
      "loss": 0.586,
      "step": 1473
    },
    {
      "epoch": 0.15013240985944185,
      "grad_norm": 0.6509445905685425,
      "learning_rate": 1e-05,
      "loss": 0.5336,
      "step": 1474
    },
    {
      "epoch": 0.15023426359747402,
      "grad_norm": 0.6004060506820679,
      "learning_rate": 1e-05,
      "loss": 0.4845,
      "step": 1475
    },
    {
      "epoch": 0.15033611733550623,
      "grad_norm": 0.7184984087944031,
      "learning_rate": 1e-05,
      "loss": 0.6462,
      "step": 1476
    },
    {
      "epoch": 0.1504379710735384,
      "grad_norm": 0.7210157513618469,
      "learning_rate": 1e-05,
      "loss": 0.7341,
      "step": 1477
    },
    {
      "epoch": 0.15053982481157058,
      "grad_norm": 0.674710214138031,
      "learning_rate": 1e-05,
      "loss": 0.5918,
      "step": 1478
    },
    {
      "epoch": 0.15064167854960278,
      "grad_norm": 0.6011301875114441,
      "learning_rate": 1e-05,
      "loss": 0.46,
      "step": 1479
    },
    {
      "epoch": 0.15074353228763496,
      "grad_norm": 0.7179682850837708,
      "learning_rate": 1e-05,
      "loss": 0.5604,
      "step": 1480
    },
    {
      "epoch": 0.15084538602566713,
      "grad_norm": 0.7443254590034485,
      "learning_rate": 1e-05,
      "loss": 0.6069,
      "step": 1481
    },
    {
      "epoch": 0.15094723976369934,
      "grad_norm": 0.6698405742645264,
      "learning_rate": 1e-05,
      "loss": 0.5649,
      "step": 1482
    },
    {
      "epoch": 0.1510490935017315,
      "grad_norm": 0.722652018070221,
      "learning_rate": 1e-05,
      "loss": 0.626,
      "step": 1483
    },
    {
      "epoch": 0.1511509472397637,
      "grad_norm": 0.5997397303581238,
      "learning_rate": 1e-05,
      "loss": 0.4697,
      "step": 1484
    },
    {
      "epoch": 0.1512528009777959,
      "grad_norm": 0.6639399528503418,
      "learning_rate": 1e-05,
      "loss": 0.5938,
      "step": 1485
    },
    {
      "epoch": 0.15135465471582807,
      "grad_norm": 0.6688554286956787,
      "learning_rate": 1e-05,
      "loss": 0.5545,
      "step": 1486
    },
    {
      "epoch": 0.15145650845386024,
      "grad_norm": 0.6508159637451172,
      "learning_rate": 1e-05,
      "loss": 0.544,
      "step": 1487
    },
    {
      "epoch": 0.15155836219189245,
      "grad_norm": 0.6991154551506042,
      "learning_rate": 1e-05,
      "loss": 0.5932,
      "step": 1488
    },
    {
      "epoch": 0.15166021592992462,
      "grad_norm": 0.7223454117774963,
      "learning_rate": 1e-05,
      "loss": 0.6372,
      "step": 1489
    },
    {
      "epoch": 0.1517620696679568,
      "grad_norm": 0.6774515509605408,
      "learning_rate": 1e-05,
      "loss": 0.6111,
      "step": 1490
    },
    {
      "epoch": 0.151863923405989,
      "grad_norm": 0.7600592374801636,
      "learning_rate": 1e-05,
      "loss": 0.5809,
      "step": 1491
    },
    {
      "epoch": 0.15196577714402118,
      "grad_norm": 0.7481089234352112,
      "learning_rate": 1e-05,
      "loss": 0.5717,
      "step": 1492
    },
    {
      "epoch": 0.15206763088205338,
      "grad_norm": 0.6581141352653503,
      "learning_rate": 1e-05,
      "loss": 0.6267,
      "step": 1493
    },
    {
      "epoch": 0.15216948462008556,
      "grad_norm": 0.6980442404747009,
      "learning_rate": 1e-05,
      "loss": 0.572,
      "step": 1494
    },
    {
      "epoch": 0.15227133835811774,
      "grad_norm": 0.6760550141334534,
      "learning_rate": 1e-05,
      "loss": 0.5868,
      "step": 1495
    },
    {
      "epoch": 0.15237319209614994,
      "grad_norm": 0.7643469572067261,
      "learning_rate": 1e-05,
      "loss": 0.6306,
      "step": 1496
    },
    {
      "epoch": 0.15247504583418212,
      "grad_norm": 0.6694889068603516,
      "learning_rate": 1e-05,
      "loss": 0.5395,
      "step": 1497
    },
    {
      "epoch": 0.1525768995722143,
      "grad_norm": 0.7526146173477173,
      "learning_rate": 1e-05,
      "loss": 0.574,
      "step": 1498
    },
    {
      "epoch": 0.1526787533102465,
      "grad_norm": 0.6966747641563416,
      "learning_rate": 1e-05,
      "loss": 0.5867,
      "step": 1499
    },
    {
      "epoch": 0.15278060704827867,
      "grad_norm": 0.6508049368858337,
      "learning_rate": 1e-05,
      "loss": 0.5644,
      "step": 1500
    },
    {
      "epoch": 0.15288246078631085,
      "grad_norm": 0.6620414853096008,
      "learning_rate": 1e-05,
      "loss": 0.5825,
      "step": 1501
    },
    {
      "epoch": 0.15298431452434305,
      "grad_norm": 0.6987617611885071,
      "learning_rate": 1e-05,
      "loss": 0.5712,
      "step": 1502
    },
    {
      "epoch": 0.15308616826237523,
      "grad_norm": 0.7680137157440186,
      "learning_rate": 1e-05,
      "loss": 0.6886,
      "step": 1503
    },
    {
      "epoch": 0.1531880220004074,
      "grad_norm": 0.7376970052719116,
      "learning_rate": 1e-05,
      "loss": 0.5947,
      "step": 1504
    },
    {
      "epoch": 0.1532898757384396,
      "grad_norm": 0.6317666172981262,
      "learning_rate": 1e-05,
      "loss": 0.5394,
      "step": 1505
    },
    {
      "epoch": 0.15339172947647178,
      "grad_norm": 0.6823963522911072,
      "learning_rate": 1e-05,
      "loss": 0.5943,
      "step": 1506
    },
    {
      "epoch": 0.15349358321450396,
      "grad_norm": 0.666753351688385,
      "learning_rate": 1e-05,
      "loss": 0.622,
      "step": 1507
    },
    {
      "epoch": 0.15359543695253616,
      "grad_norm": 0.6933671236038208,
      "learning_rate": 1e-05,
      "loss": 0.6095,
      "step": 1508
    },
    {
      "epoch": 0.15369729069056834,
      "grad_norm": 0.7188252210617065,
      "learning_rate": 1e-05,
      "loss": 0.6771,
      "step": 1509
    },
    {
      "epoch": 0.15379914442860054,
      "grad_norm": 0.6713821291923523,
      "learning_rate": 1e-05,
      "loss": 0.5733,
      "step": 1510
    },
    {
      "epoch": 0.15390099816663272,
      "grad_norm": 0.6878061294555664,
      "learning_rate": 1e-05,
      "loss": 0.6144,
      "step": 1511
    },
    {
      "epoch": 0.1540028519046649,
      "grad_norm": 0.6590010523796082,
      "learning_rate": 1e-05,
      "loss": 0.5664,
      "step": 1512
    },
    {
      "epoch": 0.1541047056426971,
      "grad_norm": 0.740696907043457,
      "learning_rate": 1e-05,
      "loss": 0.6405,
      "step": 1513
    },
    {
      "epoch": 0.15420655938072927,
      "grad_norm": 0.6520699858665466,
      "learning_rate": 1e-05,
      "loss": 0.5525,
      "step": 1514
    },
    {
      "epoch": 0.15430841311876145,
      "grad_norm": 0.7080445885658264,
      "learning_rate": 1e-05,
      "loss": 0.6206,
      "step": 1515
    },
    {
      "epoch": 0.15441026685679365,
      "grad_norm": 0.7236982583999634,
      "learning_rate": 1e-05,
      "loss": 0.6148,
      "step": 1516
    },
    {
      "epoch": 0.15451212059482583,
      "grad_norm": 0.692979633808136,
      "learning_rate": 1e-05,
      "loss": 0.4669,
      "step": 1517
    },
    {
      "epoch": 0.154613974332858,
      "grad_norm": 0.8756465911865234,
      "learning_rate": 1e-05,
      "loss": 0.5683,
      "step": 1518
    },
    {
      "epoch": 0.1547158280708902,
      "grad_norm": 0.6467686295509338,
      "learning_rate": 1e-05,
      "loss": 0.5319,
      "step": 1519
    },
    {
      "epoch": 0.15481768180892239,
      "grad_norm": 0.7573103308677673,
      "learning_rate": 1e-05,
      "loss": 0.5753,
      "step": 1520
    },
    {
      "epoch": 0.15491953554695456,
      "grad_norm": 0.7575401663780212,
      "learning_rate": 1e-05,
      "loss": 0.5803,
      "step": 1521
    },
    {
      "epoch": 0.15502138928498677,
      "grad_norm": 0.6603189706802368,
      "learning_rate": 1e-05,
      "loss": 0.5015,
      "step": 1522
    },
    {
      "epoch": 0.15512324302301894,
      "grad_norm": 0.6735914349555969,
      "learning_rate": 1e-05,
      "loss": 0.6149,
      "step": 1523
    },
    {
      "epoch": 0.15522509676105112,
      "grad_norm": 0.6463384032249451,
      "learning_rate": 1e-05,
      "loss": 0.5177,
      "step": 1524
    },
    {
      "epoch": 0.15532695049908332,
      "grad_norm": 0.7704525589942932,
      "learning_rate": 1e-05,
      "loss": 0.6168,
      "step": 1525
    },
    {
      "epoch": 0.1554288042371155,
      "grad_norm": 0.641603410243988,
      "learning_rate": 1e-05,
      "loss": 0.5755,
      "step": 1526
    },
    {
      "epoch": 0.1555306579751477,
      "grad_norm": 0.6970005035400391,
      "learning_rate": 1e-05,
      "loss": 0.5938,
      "step": 1527
    },
    {
      "epoch": 0.15563251171317988,
      "grad_norm": 0.6467476487159729,
      "learning_rate": 1e-05,
      "loss": 0.5183,
      "step": 1528
    },
    {
      "epoch": 0.15573436545121205,
      "grad_norm": 0.6794156432151794,
      "learning_rate": 1e-05,
      "loss": 0.4907,
      "step": 1529
    },
    {
      "epoch": 0.15583621918924426,
      "grad_norm": 0.730268657207489,
      "learning_rate": 1e-05,
      "loss": 0.5827,
      "step": 1530
    },
    {
      "epoch": 0.15593807292727643,
      "grad_norm": 0.6760269999504089,
      "learning_rate": 1e-05,
      "loss": 0.4949,
      "step": 1531
    },
    {
      "epoch": 0.1560399266653086,
      "grad_norm": 1.006846308708191,
      "learning_rate": 1e-05,
      "loss": 0.6567,
      "step": 1532
    },
    {
      "epoch": 0.1561417804033408,
      "grad_norm": 0.6848583221435547,
      "learning_rate": 1e-05,
      "loss": 0.5444,
      "step": 1533
    },
    {
      "epoch": 0.156243634141373,
      "grad_norm": 0.661110520362854,
      "learning_rate": 1e-05,
      "loss": 0.5845,
      "step": 1534
    },
    {
      "epoch": 0.15634548787940517,
      "grad_norm": 0.7657216787338257,
      "learning_rate": 1e-05,
      "loss": 0.6113,
      "step": 1535
    },
    {
      "epoch": 0.15644734161743737,
      "grad_norm": 0.724078893661499,
      "learning_rate": 1e-05,
      "loss": 0.7407,
      "step": 1536
    },
    {
      "epoch": 0.15654919535546954,
      "grad_norm": 0.6774824261665344,
      "learning_rate": 1e-05,
      "loss": 0.5895,
      "step": 1537
    },
    {
      "epoch": 0.15665104909350172,
      "grad_norm": 0.8415025472640991,
      "learning_rate": 1e-05,
      "loss": 0.5121,
      "step": 1538
    },
    {
      "epoch": 0.15675290283153392,
      "grad_norm": 0.665641188621521,
      "learning_rate": 1e-05,
      "loss": 0.5422,
      "step": 1539
    },
    {
      "epoch": 0.1568547565695661,
      "grad_norm": 0.7600536942481995,
      "learning_rate": 1e-05,
      "loss": 0.6757,
      "step": 1540
    },
    {
      "epoch": 0.15695661030759828,
      "grad_norm": 0.638119101524353,
      "learning_rate": 1e-05,
      "loss": 0.4939,
      "step": 1541
    },
    {
      "epoch": 0.15705846404563048,
      "grad_norm": 0.7273416519165039,
      "learning_rate": 1e-05,
      "loss": 0.605,
      "step": 1542
    },
    {
      "epoch": 0.15716031778366266,
      "grad_norm": 0.7151612639427185,
      "learning_rate": 1e-05,
      "loss": 0.6727,
      "step": 1543
    },
    {
      "epoch": 0.15726217152169483,
      "grad_norm": 0.686748206615448,
      "learning_rate": 1e-05,
      "loss": 0.6025,
      "step": 1544
    },
    {
      "epoch": 0.15736402525972704,
      "grad_norm": 0.7003536224365234,
      "learning_rate": 1e-05,
      "loss": 0.6606,
      "step": 1545
    },
    {
      "epoch": 0.1574658789977592,
      "grad_norm": 0.726839005947113,
      "learning_rate": 1e-05,
      "loss": 0.6648,
      "step": 1546
    },
    {
      "epoch": 0.15756773273579142,
      "grad_norm": 0.7080171704292297,
      "learning_rate": 1e-05,
      "loss": 0.5993,
      "step": 1547
    },
    {
      "epoch": 0.1576695864738236,
      "grad_norm": 0.7230711579322815,
      "learning_rate": 1e-05,
      "loss": 0.6023,
      "step": 1548
    },
    {
      "epoch": 0.15777144021185577,
      "grad_norm": 0.7551743388175964,
      "learning_rate": 1e-05,
      "loss": 0.6814,
      "step": 1549
    },
    {
      "epoch": 0.15787329394988797,
      "grad_norm": 0.657299816608429,
      "learning_rate": 1e-05,
      "loss": 0.5638,
      "step": 1550
    },
    {
      "epoch": 0.15797514768792015,
      "grad_norm": 0.7174355387687683,
      "learning_rate": 1e-05,
      "loss": 0.672,
      "step": 1551
    },
    {
      "epoch": 0.15807700142595232,
      "grad_norm": 0.6432837247848511,
      "learning_rate": 1e-05,
      "loss": 0.5517,
      "step": 1552
    },
    {
      "epoch": 0.15817885516398453,
      "grad_norm": 0.6891805529594421,
      "learning_rate": 1e-05,
      "loss": 0.5741,
      "step": 1553
    },
    {
      "epoch": 0.1582807089020167,
      "grad_norm": 0.7151831388473511,
      "learning_rate": 1e-05,
      "loss": 0.5961,
      "step": 1554
    },
    {
      "epoch": 0.15838256264004888,
      "grad_norm": 0.6794967651367188,
      "learning_rate": 1e-05,
      "loss": 0.5129,
      "step": 1555
    },
    {
      "epoch": 0.15848441637808108,
      "grad_norm": 0.7224980592727661,
      "learning_rate": 1e-05,
      "loss": 0.6002,
      "step": 1556
    },
    {
      "epoch": 0.15858627011611326,
      "grad_norm": 0.6882836222648621,
      "learning_rate": 1e-05,
      "loss": 0.6382,
      "step": 1557
    },
    {
      "epoch": 0.15868812385414544,
      "grad_norm": 0.6791850924491882,
      "learning_rate": 1e-05,
      "loss": 0.5573,
      "step": 1558
    },
    {
      "epoch": 0.15878997759217764,
      "grad_norm": 0.7476277351379395,
      "learning_rate": 1e-05,
      "loss": 0.6319,
      "step": 1559
    },
    {
      "epoch": 0.15889183133020982,
      "grad_norm": 0.7308732271194458,
      "learning_rate": 1e-05,
      "loss": 0.4858,
      "step": 1560
    },
    {
      "epoch": 0.158993685068242,
      "grad_norm": 0.727199912071228,
      "learning_rate": 1e-05,
      "loss": 0.6116,
      "step": 1561
    },
    {
      "epoch": 0.1590955388062742,
      "grad_norm": 0.7667862772941589,
      "learning_rate": 1e-05,
      "loss": 0.6928,
      "step": 1562
    },
    {
      "epoch": 0.15919739254430637,
      "grad_norm": 0.6503900289535522,
      "learning_rate": 1e-05,
      "loss": 0.583,
      "step": 1563
    },
    {
      "epoch": 0.15929924628233857,
      "grad_norm": 0.7820755839347839,
      "learning_rate": 1e-05,
      "loss": 0.585,
      "step": 1564
    },
    {
      "epoch": 0.15940110002037075,
      "grad_norm": 0.6734279990196228,
      "learning_rate": 1e-05,
      "loss": 0.5643,
      "step": 1565
    },
    {
      "epoch": 0.15950295375840293,
      "grad_norm": 0.6863788366317749,
      "learning_rate": 1e-05,
      "loss": 0.6941,
      "step": 1566
    },
    {
      "epoch": 0.15960480749643513,
      "grad_norm": 0.6936672329902649,
      "learning_rate": 1e-05,
      "loss": 0.6352,
      "step": 1567
    },
    {
      "epoch": 0.1597066612344673,
      "grad_norm": 0.6837900280952454,
      "learning_rate": 1e-05,
      "loss": 0.5622,
      "step": 1568
    },
    {
      "epoch": 0.15980851497249948,
      "grad_norm": 0.6797939538955688,
      "learning_rate": 1e-05,
      "loss": 0.5665,
      "step": 1569
    },
    {
      "epoch": 0.1599103687105317,
      "grad_norm": 0.7054818272590637,
      "learning_rate": 1e-05,
      "loss": 0.7969,
      "step": 1570
    },
    {
      "epoch": 0.16001222244856386,
      "grad_norm": 0.6726404428482056,
      "learning_rate": 1e-05,
      "loss": 0.5926,
      "step": 1571
    },
    {
      "epoch": 0.16011407618659604,
      "grad_norm": 0.6404911875724792,
      "learning_rate": 1e-05,
      "loss": 0.5883,
      "step": 1572
    },
    {
      "epoch": 0.16021592992462824,
      "grad_norm": 0.8024619817733765,
      "learning_rate": 1e-05,
      "loss": 0.5723,
      "step": 1573
    },
    {
      "epoch": 0.16031778366266042,
      "grad_norm": 1.115095853805542,
      "learning_rate": 1e-05,
      "loss": 0.5583,
      "step": 1574
    },
    {
      "epoch": 0.1604196374006926,
      "grad_norm": 0.7158229947090149,
      "learning_rate": 1e-05,
      "loss": 0.6272,
      "step": 1575
    },
    {
      "epoch": 0.1605214911387248,
      "grad_norm": 0.7357561588287354,
      "learning_rate": 1e-05,
      "loss": 0.6685,
      "step": 1576
    },
    {
      "epoch": 0.16062334487675697,
      "grad_norm": 0.6228514313697815,
      "learning_rate": 1e-05,
      "loss": 0.6115,
      "step": 1577
    },
    {
      "epoch": 0.16072519861478915,
      "grad_norm": 0.7115544080734253,
      "learning_rate": 1e-05,
      "loss": 0.6721,
      "step": 1578
    },
    {
      "epoch": 0.16082705235282135,
      "grad_norm": 0.6791394948959351,
      "learning_rate": 1e-05,
      "loss": 0.5963,
      "step": 1579
    },
    {
      "epoch": 0.16092890609085353,
      "grad_norm": 0.6487944722175598,
      "learning_rate": 1e-05,
      "loss": 0.6224,
      "step": 1580
    },
    {
      "epoch": 0.16103075982888573,
      "grad_norm": 0.6793866753578186,
      "learning_rate": 1e-05,
      "loss": 0.5986,
      "step": 1581
    },
    {
      "epoch": 0.1611326135669179,
      "grad_norm": 0.7070069313049316,
      "learning_rate": 1e-05,
      "loss": 0.6531,
      "step": 1582
    },
    {
      "epoch": 0.16123446730495009,
      "grad_norm": 0.7541716694831848,
      "learning_rate": 1e-05,
      "loss": 0.7279,
      "step": 1583
    },
    {
      "epoch": 0.1613363210429823,
      "grad_norm": 0.6609574556350708,
      "learning_rate": 1e-05,
      "loss": 0.6258,
      "step": 1584
    },
    {
      "epoch": 0.16143817478101447,
      "grad_norm": 0.654191792011261,
      "learning_rate": 1e-05,
      "loss": 0.5929,
      "step": 1585
    },
    {
      "epoch": 0.16154002851904664,
      "grad_norm": 0.6614770889282227,
      "learning_rate": 1e-05,
      "loss": 0.5263,
      "step": 1586
    },
    {
      "epoch": 0.16164188225707884,
      "grad_norm": 0.7086883187294006,
      "learning_rate": 1e-05,
      "loss": 0.6682,
      "step": 1587
    },
    {
      "epoch": 0.16174373599511102,
      "grad_norm": 0.6751080751419067,
      "learning_rate": 1e-05,
      "loss": 0.6033,
      "step": 1588
    },
    {
      "epoch": 0.1618455897331432,
      "grad_norm": 0.6331400871276855,
      "learning_rate": 1e-05,
      "loss": 0.5786,
      "step": 1589
    },
    {
      "epoch": 0.1619474434711754,
      "grad_norm": 0.79093337059021,
      "learning_rate": 1e-05,
      "loss": 0.679,
      "step": 1590
    },
    {
      "epoch": 0.16204929720920758,
      "grad_norm": 0.7028122544288635,
      "learning_rate": 1e-05,
      "loss": 0.6118,
      "step": 1591
    },
    {
      "epoch": 0.16215115094723975,
      "grad_norm": 0.7306610941886902,
      "learning_rate": 1e-05,
      "loss": 0.7096,
      "step": 1592
    },
    {
      "epoch": 0.16225300468527196,
      "grad_norm": 0.7716745138168335,
      "learning_rate": 1e-05,
      "loss": 0.6373,
      "step": 1593
    },
    {
      "epoch": 0.16235485842330413,
      "grad_norm": 0.6831603050231934,
      "learning_rate": 1e-05,
      "loss": 0.6273,
      "step": 1594
    },
    {
      "epoch": 0.1624567121613363,
      "grad_norm": 0.6905257105827332,
      "learning_rate": 1e-05,
      "loss": 0.6391,
      "step": 1595
    },
    {
      "epoch": 0.1625585658993685,
      "grad_norm": 0.6907129287719727,
      "learning_rate": 1e-05,
      "loss": 0.6092,
      "step": 1596
    },
    {
      "epoch": 0.1626604196374007,
      "grad_norm": 0.8856434226036072,
      "learning_rate": 1e-05,
      "loss": 0.6039,
      "step": 1597
    },
    {
      "epoch": 0.1627622733754329,
      "grad_norm": 1.1881223917007446,
      "learning_rate": 1e-05,
      "loss": 0.6355,
      "step": 1598
    },
    {
      "epoch": 0.16286412711346507,
      "grad_norm": 0.6659561395645142,
      "learning_rate": 1e-05,
      "loss": 0.4916,
      "step": 1599
    },
    {
      "epoch": 0.16296598085149724,
      "grad_norm": 0.7071137428283691,
      "learning_rate": 1e-05,
      "loss": 0.6476,
      "step": 1600
    },
    {
      "epoch": 0.16306783458952945,
      "grad_norm": 0.7081287503242493,
      "learning_rate": 1e-05,
      "loss": 0.5808,
      "step": 1601
    },
    {
      "epoch": 0.16316968832756162,
      "grad_norm": 0.70274418592453,
      "learning_rate": 1e-05,
      "loss": 0.6386,
      "step": 1602
    },
    {
      "epoch": 0.1632715420655938,
      "grad_norm": 0.6507602334022522,
      "learning_rate": 1e-05,
      "loss": 0.5085,
      "step": 1603
    },
    {
      "epoch": 0.163373395803626,
      "grad_norm": 0.7193268537521362,
      "learning_rate": 1e-05,
      "loss": 0.6493,
      "step": 1604
    },
    {
      "epoch": 0.16347524954165818,
      "grad_norm": 0.6364898085594177,
      "learning_rate": 1e-05,
      "loss": 0.5232,
      "step": 1605
    },
    {
      "epoch": 0.16357710327969036,
      "grad_norm": 0.617371678352356,
      "learning_rate": 1e-05,
      "loss": 0.4773,
      "step": 1606
    },
    {
      "epoch": 0.16367895701772256,
      "grad_norm": 0.7604033946990967,
      "learning_rate": 1e-05,
      "loss": 0.7055,
      "step": 1607
    },
    {
      "epoch": 0.16378081075575474,
      "grad_norm": 0.7247483134269714,
      "learning_rate": 1e-05,
      "loss": 0.5803,
      "step": 1608
    },
    {
      "epoch": 0.1638826644937869,
      "grad_norm": 0.6758959293365479,
      "learning_rate": 1e-05,
      "loss": 0.5586,
      "step": 1609
    },
    {
      "epoch": 0.16398451823181912,
      "grad_norm": 0.7018362283706665,
      "learning_rate": 1e-05,
      "loss": 0.5371,
      "step": 1610
    },
    {
      "epoch": 0.1640863719698513,
      "grad_norm": 0.6797270178794861,
      "learning_rate": 1e-05,
      "loss": 0.6094,
      "step": 1611
    },
    {
      "epoch": 0.16418822570788347,
      "grad_norm": 0.7416906952857971,
      "learning_rate": 1e-05,
      "loss": 0.5735,
      "step": 1612
    },
    {
      "epoch": 0.16429007944591567,
      "grad_norm": 0.7178101539611816,
      "learning_rate": 1e-05,
      "loss": 0.556,
      "step": 1613
    },
    {
      "epoch": 0.16439193318394785,
      "grad_norm": 0.6599442958831787,
      "learning_rate": 1e-05,
      "loss": 0.553,
      "step": 1614
    },
    {
      "epoch": 0.16449378692198002,
      "grad_norm": 0.6618055701255798,
      "learning_rate": 1e-05,
      "loss": 0.5228,
      "step": 1615
    },
    {
      "epoch": 0.16459564066001223,
      "grad_norm": 0.6848066449165344,
      "learning_rate": 1e-05,
      "loss": 0.5788,
      "step": 1616
    },
    {
      "epoch": 0.1646974943980444,
      "grad_norm": 0.7251416444778442,
      "learning_rate": 1e-05,
      "loss": 0.6147,
      "step": 1617
    },
    {
      "epoch": 0.1647993481360766,
      "grad_norm": 0.8002619743347168,
      "learning_rate": 1e-05,
      "loss": 0.6668,
      "step": 1618
    },
    {
      "epoch": 0.16490120187410878,
      "grad_norm": 0.6819771528244019,
      "learning_rate": 1e-05,
      "loss": 0.5203,
      "step": 1619
    },
    {
      "epoch": 0.16500305561214096,
      "grad_norm": 0.6964393854141235,
      "learning_rate": 1e-05,
      "loss": 0.5713,
      "step": 1620
    },
    {
      "epoch": 0.16510490935017316,
      "grad_norm": 0.6461206078529358,
      "learning_rate": 1e-05,
      "loss": 0.5755,
      "step": 1621
    },
    {
      "epoch": 0.16520676308820534,
      "grad_norm": 0.6673520803451538,
      "learning_rate": 1e-05,
      "loss": 0.5543,
      "step": 1622
    },
    {
      "epoch": 0.16530861682623751,
      "grad_norm": 0.6901723146438599,
      "learning_rate": 1e-05,
      "loss": 0.5692,
      "step": 1623
    },
    {
      "epoch": 0.16541047056426972,
      "grad_norm": 0.6792134642601013,
      "learning_rate": 1e-05,
      "loss": 0.5637,
      "step": 1624
    },
    {
      "epoch": 0.1655123243023019,
      "grad_norm": 0.654712438583374,
      "learning_rate": 1e-05,
      "loss": 0.5357,
      "step": 1625
    },
    {
      "epoch": 0.16561417804033407,
      "grad_norm": 0.6418436765670776,
      "learning_rate": 1e-05,
      "loss": 0.5928,
      "step": 1626
    },
    {
      "epoch": 0.16571603177836627,
      "grad_norm": 0.6879135370254517,
      "learning_rate": 1e-05,
      "loss": 0.6459,
      "step": 1627
    },
    {
      "epoch": 0.16581788551639845,
      "grad_norm": 0.6795567870140076,
      "learning_rate": 1e-05,
      "loss": 0.5505,
      "step": 1628
    },
    {
      "epoch": 0.16591973925443063,
      "grad_norm": 0.6631288528442383,
      "learning_rate": 1e-05,
      "loss": 0.625,
      "step": 1629
    },
    {
      "epoch": 0.16602159299246283,
      "grad_norm": 0.6858530044555664,
      "learning_rate": 1e-05,
      "loss": 0.5341,
      "step": 1630
    },
    {
      "epoch": 0.166123446730495,
      "grad_norm": 0.7279863357543945,
      "learning_rate": 1e-05,
      "loss": 0.6176,
      "step": 1631
    },
    {
      "epoch": 0.16622530046852718,
      "grad_norm": 0.7039437294006348,
      "learning_rate": 1e-05,
      "loss": 0.5861,
      "step": 1632
    },
    {
      "epoch": 0.16632715420655939,
      "grad_norm": 0.6131451725959778,
      "learning_rate": 1e-05,
      "loss": 0.5832,
      "step": 1633
    },
    {
      "epoch": 0.16642900794459156,
      "grad_norm": 0.6555482745170593,
      "learning_rate": 1e-05,
      "loss": 0.6639,
      "step": 1634
    },
    {
      "epoch": 0.16653086168262377,
      "grad_norm": 0.7393842935562134,
      "learning_rate": 1e-05,
      "loss": 0.5597,
      "step": 1635
    },
    {
      "epoch": 0.16663271542065594,
      "grad_norm": 0.6898815035820007,
      "learning_rate": 1e-05,
      "loss": 0.612,
      "step": 1636
    },
    {
      "epoch": 0.16673456915868812,
      "grad_norm": 0.6880912184715271,
      "learning_rate": 1e-05,
      "loss": 0.6137,
      "step": 1637
    },
    {
      "epoch": 0.16683642289672032,
      "grad_norm": 0.7170170545578003,
      "learning_rate": 1e-05,
      "loss": 0.6286,
      "step": 1638
    },
    {
      "epoch": 0.1669382766347525,
      "grad_norm": 0.6763041615486145,
      "learning_rate": 1e-05,
      "loss": 0.6261,
      "step": 1639
    },
    {
      "epoch": 0.16704013037278467,
      "grad_norm": 0.683252215385437,
      "learning_rate": 1e-05,
      "loss": 0.5797,
      "step": 1640
    },
    {
      "epoch": 0.16714198411081688,
      "grad_norm": 0.6760161519050598,
      "learning_rate": 1e-05,
      "loss": 0.5664,
      "step": 1641
    },
    {
      "epoch": 0.16724383784884905,
      "grad_norm": 0.6963642835617065,
      "learning_rate": 1e-05,
      "loss": 0.6234,
      "step": 1642
    },
    {
      "epoch": 0.16734569158688123,
      "grad_norm": 0.6449614763259888,
      "learning_rate": 1e-05,
      "loss": 0.5891,
      "step": 1643
    },
    {
      "epoch": 0.16744754532491343,
      "grad_norm": 0.780270516872406,
      "learning_rate": 1e-05,
      "loss": 0.5681,
      "step": 1644
    },
    {
      "epoch": 0.1675493990629456,
      "grad_norm": 0.6539214253425598,
      "learning_rate": 1e-05,
      "loss": 0.5719,
      "step": 1645
    },
    {
      "epoch": 0.16765125280097778,
      "grad_norm": 0.6256837844848633,
      "learning_rate": 1e-05,
      "loss": 0.5373,
      "step": 1646
    },
    {
      "epoch": 0.16775310653901,
      "grad_norm": 0.8094483613967896,
      "learning_rate": 1e-05,
      "loss": 0.5842,
      "step": 1647
    },
    {
      "epoch": 0.16785496027704216,
      "grad_norm": 0.6800993084907532,
      "learning_rate": 1e-05,
      "loss": 0.5505,
      "step": 1648
    },
    {
      "epoch": 0.16795681401507434,
      "grad_norm": 0.7588285207748413,
      "learning_rate": 1e-05,
      "loss": 0.5891,
      "step": 1649
    },
    {
      "epoch": 0.16805866775310654,
      "grad_norm": 0.78277188539505,
      "learning_rate": 1e-05,
      "loss": 0.6116,
      "step": 1650
    },
    {
      "epoch": 0.16816052149113872,
      "grad_norm": 0.6912985444068909,
      "learning_rate": 1e-05,
      "loss": 0.6433,
      "step": 1651
    },
    {
      "epoch": 0.16826237522917092,
      "grad_norm": 0.7170218229293823,
      "learning_rate": 1e-05,
      "loss": 0.6249,
      "step": 1652
    },
    {
      "epoch": 0.1683642289672031,
      "grad_norm": 0.7170292139053345,
      "learning_rate": 1e-05,
      "loss": 0.6208,
      "step": 1653
    },
    {
      "epoch": 0.16846608270523528,
      "grad_norm": 0.7101309299468994,
      "learning_rate": 1e-05,
      "loss": 0.5773,
      "step": 1654
    },
    {
      "epoch": 0.16856793644326748,
      "grad_norm": 0.7031729221343994,
      "learning_rate": 1e-05,
      "loss": 0.6989,
      "step": 1655
    },
    {
      "epoch": 0.16866979018129966,
      "grad_norm": 0.6956178545951843,
      "learning_rate": 1e-05,
      "loss": 0.5305,
      "step": 1656
    },
    {
      "epoch": 0.16877164391933183,
      "grad_norm": 0.6906339526176453,
      "learning_rate": 1e-05,
      "loss": 0.5494,
      "step": 1657
    },
    {
      "epoch": 0.16887349765736404,
      "grad_norm": 0.6451264023780823,
      "learning_rate": 1e-05,
      "loss": 0.4786,
      "step": 1658
    },
    {
      "epoch": 0.1689753513953962,
      "grad_norm": 0.6416107416152954,
      "learning_rate": 1e-05,
      "loss": 0.5356,
      "step": 1659
    },
    {
      "epoch": 0.1690772051334284,
      "grad_norm": 0.6237926483154297,
      "learning_rate": 1e-05,
      "loss": 0.5203,
      "step": 1660
    },
    {
      "epoch": 0.1691790588714606,
      "grad_norm": 0.7307991981506348,
      "learning_rate": 1e-05,
      "loss": 0.6409,
      "step": 1661
    },
    {
      "epoch": 0.16928091260949277,
      "grad_norm": 0.7245880961418152,
      "learning_rate": 1e-05,
      "loss": 0.7011,
      "step": 1662
    },
    {
      "epoch": 0.16938276634752494,
      "grad_norm": 0.7441285252571106,
      "learning_rate": 1e-05,
      "loss": 0.641,
      "step": 1663
    },
    {
      "epoch": 0.16948462008555715,
      "grad_norm": 0.731988251209259,
      "learning_rate": 1e-05,
      "loss": 0.6097,
      "step": 1664
    },
    {
      "epoch": 0.16958647382358932,
      "grad_norm": 0.6931719183921814,
      "learning_rate": 1e-05,
      "loss": 0.6254,
      "step": 1665
    },
    {
      "epoch": 0.1696883275616215,
      "grad_norm": 0.651735246181488,
      "learning_rate": 1e-05,
      "loss": 0.5622,
      "step": 1666
    },
    {
      "epoch": 0.1697901812996537,
      "grad_norm": 0.6212957501411438,
      "learning_rate": 1e-05,
      "loss": 0.5321,
      "step": 1667
    },
    {
      "epoch": 0.16989203503768588,
      "grad_norm": 0.7266847491264343,
      "learning_rate": 1e-05,
      "loss": 0.5363,
      "step": 1668
    },
    {
      "epoch": 0.16999388877571806,
      "grad_norm": 0.6906368136405945,
      "learning_rate": 1e-05,
      "loss": 0.579,
      "step": 1669
    },
    {
      "epoch": 0.17009574251375026,
      "grad_norm": 0.7016187310218811,
      "learning_rate": 1e-05,
      "loss": 0.5828,
      "step": 1670
    },
    {
      "epoch": 0.17019759625178243,
      "grad_norm": 0.7269576191902161,
      "learning_rate": 1e-05,
      "loss": 0.6087,
      "step": 1671
    },
    {
      "epoch": 0.17029944998981464,
      "grad_norm": 0.6828939318656921,
      "learning_rate": 1e-05,
      "loss": 0.6093,
      "step": 1672
    },
    {
      "epoch": 0.17040130372784681,
      "grad_norm": 0.7284933924674988,
      "learning_rate": 1e-05,
      "loss": 0.6057,
      "step": 1673
    },
    {
      "epoch": 0.170503157465879,
      "grad_norm": 1.250051498413086,
      "learning_rate": 1e-05,
      "loss": 0.6321,
      "step": 1674
    },
    {
      "epoch": 0.1706050112039112,
      "grad_norm": 0.7263174057006836,
      "learning_rate": 1e-05,
      "loss": 0.5529,
      "step": 1675
    },
    {
      "epoch": 0.17070686494194337,
      "grad_norm": 0.6878875494003296,
      "learning_rate": 1e-05,
      "loss": 0.6146,
      "step": 1676
    },
    {
      "epoch": 0.17080871867997555,
      "grad_norm": 0.6739748120307922,
      "learning_rate": 1e-05,
      "loss": 0.6221,
      "step": 1677
    },
    {
      "epoch": 0.17091057241800775,
      "grad_norm": 0.7253302335739136,
      "learning_rate": 1e-05,
      "loss": 0.6611,
      "step": 1678
    },
    {
      "epoch": 0.17101242615603993,
      "grad_norm": 0.695503830909729,
      "learning_rate": 1e-05,
      "loss": 0.6189,
      "step": 1679
    },
    {
      "epoch": 0.1711142798940721,
      "grad_norm": 0.736515998840332,
      "learning_rate": 1e-05,
      "loss": 0.641,
      "step": 1680
    },
    {
      "epoch": 0.1712161336321043,
      "grad_norm": 0.6860300898551941,
      "learning_rate": 1e-05,
      "loss": 0.6478,
      "step": 1681
    },
    {
      "epoch": 0.17131798737013648,
      "grad_norm": 0.6294130086898804,
      "learning_rate": 1e-05,
      "loss": 0.5833,
      "step": 1682
    },
    {
      "epoch": 0.17141984110816866,
      "grad_norm": 0.7731027603149414,
      "learning_rate": 1e-05,
      "loss": 0.6602,
      "step": 1683
    },
    {
      "epoch": 0.17152169484620086,
      "grad_norm": 0.704942524433136,
      "learning_rate": 1e-05,
      "loss": 0.6193,
      "step": 1684
    },
    {
      "epoch": 0.17162354858423304,
      "grad_norm": 0.7676512598991394,
      "learning_rate": 1e-05,
      "loss": 0.6297,
      "step": 1685
    },
    {
      "epoch": 0.1717254023222652,
      "grad_norm": 0.6705998182296753,
      "learning_rate": 1e-05,
      "loss": 0.5074,
      "step": 1686
    },
    {
      "epoch": 0.17182725606029742,
      "grad_norm": 0.7388235926628113,
      "learning_rate": 1e-05,
      "loss": 0.6098,
      "step": 1687
    },
    {
      "epoch": 0.1719291097983296,
      "grad_norm": 0.6820951104164124,
      "learning_rate": 1e-05,
      "loss": 0.5477,
      "step": 1688
    },
    {
      "epoch": 0.1720309635363618,
      "grad_norm": 0.7497254610061646,
      "learning_rate": 1e-05,
      "loss": 0.6298,
      "step": 1689
    },
    {
      "epoch": 0.17213281727439397,
      "grad_norm": 0.7100914120674133,
      "learning_rate": 1e-05,
      "loss": 0.5205,
      "step": 1690
    },
    {
      "epoch": 0.17223467101242615,
      "grad_norm": 0.732732892036438,
      "learning_rate": 1e-05,
      "loss": 0.692,
      "step": 1691
    },
    {
      "epoch": 0.17233652475045835,
      "grad_norm": 0.7436714172363281,
      "learning_rate": 1e-05,
      "loss": 0.5212,
      "step": 1692
    },
    {
      "epoch": 0.17243837848849053,
      "grad_norm": 0.6979292631149292,
      "learning_rate": 1e-05,
      "loss": 0.5593,
      "step": 1693
    },
    {
      "epoch": 0.1725402322265227,
      "grad_norm": 0.7232781052589417,
      "learning_rate": 1e-05,
      "loss": 0.6805,
      "step": 1694
    },
    {
      "epoch": 0.1726420859645549,
      "grad_norm": 0.6769298315048218,
      "learning_rate": 1e-05,
      "loss": 0.5118,
      "step": 1695
    },
    {
      "epoch": 0.17274393970258708,
      "grad_norm": 0.7683215141296387,
      "learning_rate": 1e-05,
      "loss": 0.6617,
      "step": 1696
    },
    {
      "epoch": 0.17284579344061926,
      "grad_norm": 0.7219903469085693,
      "learning_rate": 1e-05,
      "loss": 0.6145,
      "step": 1697
    },
    {
      "epoch": 0.17294764717865146,
      "grad_norm": 0.7166427969932556,
      "learning_rate": 1e-05,
      "loss": 0.6035,
      "step": 1698
    },
    {
      "epoch": 0.17304950091668364,
      "grad_norm": 0.7157074213027954,
      "learning_rate": 1e-05,
      "loss": 0.6272,
      "step": 1699
    },
    {
      "epoch": 0.17315135465471582,
      "grad_norm": 0.8017576932907104,
      "learning_rate": 1e-05,
      "loss": 0.6305,
      "step": 1700
    },
    {
      "epoch": 0.17325320839274802,
      "grad_norm": 0.7377608418464661,
      "learning_rate": 1e-05,
      "loss": 0.6064,
      "step": 1701
    },
    {
      "epoch": 0.1733550621307802,
      "grad_norm": 0.6556037068367004,
      "learning_rate": 1e-05,
      "loss": 0.6358,
      "step": 1702
    },
    {
      "epoch": 0.17345691586881237,
      "grad_norm": 0.7313535809516907,
      "learning_rate": 1e-05,
      "loss": 0.5813,
      "step": 1703
    },
    {
      "epoch": 0.17355876960684458,
      "grad_norm": 0.7008558511734009,
      "learning_rate": 1e-05,
      "loss": 0.5168,
      "step": 1704
    },
    {
      "epoch": 0.17366062334487675,
      "grad_norm": 0.7331576943397522,
      "learning_rate": 1e-05,
      "loss": 0.5836,
      "step": 1705
    },
    {
      "epoch": 0.17376247708290896,
      "grad_norm": 0.6765772700309753,
      "learning_rate": 1e-05,
      "loss": 0.6299,
      "step": 1706
    },
    {
      "epoch": 0.17386433082094113,
      "grad_norm": 0.7327809929847717,
      "learning_rate": 1e-05,
      "loss": 0.5114,
      "step": 1707
    },
    {
      "epoch": 0.1739661845589733,
      "grad_norm": 0.704947829246521,
      "learning_rate": 1e-05,
      "loss": 0.6079,
      "step": 1708
    },
    {
      "epoch": 0.1740680382970055,
      "grad_norm": 0.8390572667121887,
      "learning_rate": 1e-05,
      "loss": 0.5859,
      "step": 1709
    },
    {
      "epoch": 0.1741698920350377,
      "grad_norm": 0.8650406002998352,
      "learning_rate": 1e-05,
      "loss": 0.5351,
      "step": 1710
    },
    {
      "epoch": 0.17427174577306986,
      "grad_norm": 0.6854602098464966,
      "learning_rate": 1e-05,
      "loss": 0.5656,
      "step": 1711
    },
    {
      "epoch": 0.17437359951110207,
      "grad_norm": 0.6731743216514587,
      "learning_rate": 1e-05,
      "loss": 0.5986,
      "step": 1712
    },
    {
      "epoch": 0.17447545324913424,
      "grad_norm": 0.7580787539482117,
      "learning_rate": 1e-05,
      "loss": 0.669,
      "step": 1713
    },
    {
      "epoch": 0.17457730698716642,
      "grad_norm": 0.716813325881958,
      "learning_rate": 1e-05,
      "loss": 0.6194,
      "step": 1714
    },
    {
      "epoch": 0.17467916072519862,
      "grad_norm": 0.6818197965621948,
      "learning_rate": 1e-05,
      "loss": 0.5749,
      "step": 1715
    },
    {
      "epoch": 0.1747810144632308,
      "grad_norm": 0.6562433838844299,
      "learning_rate": 1e-05,
      "loss": 0.589,
      "step": 1716
    },
    {
      "epoch": 0.17488286820126298,
      "grad_norm": 0.6967573761940002,
      "learning_rate": 1e-05,
      "loss": 0.6696,
      "step": 1717
    },
    {
      "epoch": 0.17498472193929518,
      "grad_norm": 0.674649178981781,
      "learning_rate": 1e-05,
      "loss": 0.5391,
      "step": 1718
    },
    {
      "epoch": 0.17508657567732736,
      "grad_norm": 0.6789368987083435,
      "learning_rate": 1e-05,
      "loss": 0.5716,
      "step": 1719
    },
    {
      "epoch": 0.17518842941535953,
      "grad_norm": 0.6903483867645264,
      "learning_rate": 1e-05,
      "loss": 0.5904,
      "step": 1720
    },
    {
      "epoch": 0.17529028315339173,
      "grad_norm": 0.7127848863601685,
      "learning_rate": 1e-05,
      "loss": 0.632,
      "step": 1721
    },
    {
      "epoch": 0.1753921368914239,
      "grad_norm": 0.6802826523780823,
      "learning_rate": 1e-05,
      "loss": 0.6324,
      "step": 1722
    },
    {
      "epoch": 0.17549399062945611,
      "grad_norm": 3.052260160446167,
      "learning_rate": 1e-05,
      "loss": 0.6376,
      "step": 1723
    },
    {
      "epoch": 0.1755958443674883,
      "grad_norm": 2.1506688594818115,
      "learning_rate": 1e-05,
      "loss": 0.5718,
      "step": 1724
    },
    {
      "epoch": 0.17569769810552047,
      "grad_norm": 0.6686685085296631,
      "learning_rate": 1e-05,
      "loss": 0.6586,
      "step": 1725
    },
    {
      "epoch": 0.17579955184355267,
      "grad_norm": 0.7497068643569946,
      "learning_rate": 1e-05,
      "loss": 0.6273,
      "step": 1726
    },
    {
      "epoch": 0.17590140558158485,
      "grad_norm": 0.711648166179657,
      "learning_rate": 1e-05,
      "loss": 0.6111,
      "step": 1727
    },
    {
      "epoch": 0.17600325931961702,
      "grad_norm": 0.7160757184028625,
      "learning_rate": 1e-05,
      "loss": 0.6393,
      "step": 1728
    },
    {
      "epoch": 0.17610511305764923,
      "grad_norm": 0.6490663886070251,
      "learning_rate": 1e-05,
      "loss": 0.5534,
      "step": 1729
    },
    {
      "epoch": 0.1762069667956814,
      "grad_norm": 0.7820396423339844,
      "learning_rate": 1e-05,
      "loss": 0.6539,
      "step": 1730
    },
    {
      "epoch": 0.17630882053371358,
      "grad_norm": 0.8737199306488037,
      "learning_rate": 1e-05,
      "loss": 0.7572,
      "step": 1731
    },
    {
      "epoch": 0.17641067427174578,
      "grad_norm": 0.6860562562942505,
      "learning_rate": 1e-05,
      "loss": 0.5625,
      "step": 1732
    },
    {
      "epoch": 0.17651252800977796,
      "grad_norm": 0.6239673495292664,
      "learning_rate": 1e-05,
      "loss": 0.5482,
      "step": 1733
    },
    {
      "epoch": 0.17661438174781013,
      "grad_norm": 0.6386595964431763,
      "learning_rate": 1e-05,
      "loss": 0.6069,
      "step": 1734
    },
    {
      "epoch": 0.17671623548584234,
      "grad_norm": 0.7023448944091797,
      "learning_rate": 1e-05,
      "loss": 0.5653,
      "step": 1735
    },
    {
      "epoch": 0.17681808922387451,
      "grad_norm": 0.6990447044372559,
      "learning_rate": 1e-05,
      "loss": 0.6579,
      "step": 1736
    },
    {
      "epoch": 0.1769199429619067,
      "grad_norm": 0.6730273365974426,
      "learning_rate": 1e-05,
      "loss": 0.5362,
      "step": 1737
    },
    {
      "epoch": 0.1770217966999389,
      "grad_norm": 0.6735600233078003,
      "learning_rate": 1e-05,
      "loss": 0.5777,
      "step": 1738
    },
    {
      "epoch": 0.17712365043797107,
      "grad_norm": 0.6920655965805054,
      "learning_rate": 1e-05,
      "loss": 0.5564,
      "step": 1739
    },
    {
      "epoch": 0.17722550417600325,
      "grad_norm": 0.7177810668945312,
      "learning_rate": 1e-05,
      "loss": 0.5522,
      "step": 1740
    },
    {
      "epoch": 0.17732735791403545,
      "grad_norm": 0.7079368233680725,
      "learning_rate": 1e-05,
      "loss": 0.6318,
      "step": 1741
    },
    {
      "epoch": 0.17742921165206763,
      "grad_norm": 0.7357771396636963,
      "learning_rate": 1e-05,
      "loss": 0.6681,
      "step": 1742
    },
    {
      "epoch": 0.17753106539009983,
      "grad_norm": 0.7842300534248352,
      "learning_rate": 1e-05,
      "loss": 0.6334,
      "step": 1743
    },
    {
      "epoch": 0.177632919128132,
      "grad_norm": 0.6740781664848328,
      "learning_rate": 1e-05,
      "loss": 0.5916,
      "step": 1744
    },
    {
      "epoch": 0.17773477286616418,
      "grad_norm": 0.6924374103546143,
      "learning_rate": 1e-05,
      "loss": 0.6457,
      "step": 1745
    },
    {
      "epoch": 0.17783662660419639,
      "grad_norm": 0.6869029402732849,
      "learning_rate": 1e-05,
      "loss": 0.5264,
      "step": 1746
    },
    {
      "epoch": 0.17793848034222856,
      "grad_norm": 1.0880640745162964,
      "learning_rate": 1e-05,
      "loss": 0.6136,
      "step": 1747
    },
    {
      "epoch": 0.17804033408026074,
      "grad_norm": 0.6742801070213318,
      "learning_rate": 1e-05,
      "loss": 0.5668,
      "step": 1748
    },
    {
      "epoch": 0.17814218781829294,
      "grad_norm": 0.6788449883460999,
      "learning_rate": 1e-05,
      "loss": 0.596,
      "step": 1749
    },
    {
      "epoch": 0.17824404155632512,
      "grad_norm": 0.6646993160247803,
      "learning_rate": 1e-05,
      "loss": 0.5288,
      "step": 1750
    },
    {
      "epoch": 0.1783458952943573,
      "grad_norm": 0.7336558699607849,
      "learning_rate": 1e-05,
      "loss": 0.596,
      "step": 1751
    },
    {
      "epoch": 0.1784477490323895,
      "grad_norm": 0.6521350741386414,
      "learning_rate": 1e-05,
      "loss": 0.7137,
      "step": 1752
    },
    {
      "epoch": 0.17854960277042167,
      "grad_norm": 0.6799827814102173,
      "learning_rate": 1e-05,
      "loss": 0.5318,
      "step": 1753
    },
    {
      "epoch": 0.17865145650845385,
      "grad_norm": 0.709135115146637,
      "learning_rate": 1e-05,
      "loss": 0.5892,
      "step": 1754
    },
    {
      "epoch": 0.17875331024648605,
      "grad_norm": 0.7766995429992676,
      "learning_rate": 1e-05,
      "loss": 0.5528,
      "step": 1755
    },
    {
      "epoch": 0.17885516398451823,
      "grad_norm": 0.6857825517654419,
      "learning_rate": 1e-05,
      "loss": 0.5054,
      "step": 1756
    },
    {
      "epoch": 0.1789570177225504,
      "grad_norm": 1.3919026851654053,
      "learning_rate": 1e-05,
      "loss": 0.6674,
      "step": 1757
    },
    {
      "epoch": 0.1790588714605826,
      "grad_norm": 0.6727293729782104,
      "learning_rate": 1e-05,
      "loss": 0.5664,
      "step": 1758
    },
    {
      "epoch": 0.17916072519861478,
      "grad_norm": 0.6912828683853149,
      "learning_rate": 1e-05,
      "loss": 0.5865,
      "step": 1759
    },
    {
      "epoch": 0.179262578936647,
      "grad_norm": 0.7391151785850525,
      "learning_rate": 1e-05,
      "loss": 0.584,
      "step": 1760
    },
    {
      "epoch": 0.17936443267467916,
      "grad_norm": 0.7214487791061401,
      "learning_rate": 1e-05,
      "loss": 0.6024,
      "step": 1761
    },
    {
      "epoch": 0.17946628641271134,
      "grad_norm": 0.6350224018096924,
      "learning_rate": 1e-05,
      "loss": 0.5397,
      "step": 1762
    },
    {
      "epoch": 0.17956814015074354,
      "grad_norm": 0.6778482794761658,
      "learning_rate": 1e-05,
      "loss": 0.5393,
      "step": 1763
    },
    {
      "epoch": 0.17966999388877572,
      "grad_norm": 0.6480907797813416,
      "learning_rate": 1e-05,
      "loss": 0.5074,
      "step": 1764
    },
    {
      "epoch": 0.1797718476268079,
      "grad_norm": 0.7456865906715393,
      "learning_rate": 1e-05,
      "loss": 0.6778,
      "step": 1765
    },
    {
      "epoch": 0.1798737013648401,
      "grad_norm": 0.6777273416519165,
      "learning_rate": 1e-05,
      "loss": 0.5777,
      "step": 1766
    },
    {
      "epoch": 0.17997555510287228,
      "grad_norm": 0.6951103806495667,
      "learning_rate": 1e-05,
      "loss": 0.5505,
      "step": 1767
    },
    {
      "epoch": 0.18007740884090445,
      "grad_norm": 0.6696444153785706,
      "learning_rate": 1e-05,
      "loss": 0.659,
      "step": 1768
    },
    {
      "epoch": 0.18017926257893666,
      "grad_norm": 0.6599547266960144,
      "learning_rate": 1e-05,
      "loss": 0.5871,
      "step": 1769
    },
    {
      "epoch": 0.18028111631696883,
      "grad_norm": 0.7873346209526062,
      "learning_rate": 1e-05,
      "loss": 0.5481,
      "step": 1770
    },
    {
      "epoch": 0.180382970055001,
      "grad_norm": 0.682701051235199,
      "learning_rate": 1e-05,
      "loss": 0.555,
      "step": 1771
    },
    {
      "epoch": 0.1804848237930332,
      "grad_norm": 0.7899841070175171,
      "learning_rate": 1e-05,
      "loss": 0.5547,
      "step": 1772
    },
    {
      "epoch": 0.1805866775310654,
      "grad_norm": 0.6492909789085388,
      "learning_rate": 1e-05,
      "loss": 0.5435,
      "step": 1773
    },
    {
      "epoch": 0.18068853126909756,
      "grad_norm": 0.6949910521507263,
      "learning_rate": 1e-05,
      "loss": 0.5458,
      "step": 1774
    },
    {
      "epoch": 0.18079038500712977,
      "grad_norm": 0.7278817296028137,
      "learning_rate": 1e-05,
      "loss": 0.6187,
      "step": 1775
    },
    {
      "epoch": 0.18089223874516194,
      "grad_norm": 0.6896486282348633,
      "learning_rate": 1e-05,
      "loss": 0.5565,
      "step": 1776
    },
    {
      "epoch": 0.18099409248319415,
      "grad_norm": 0.6734094619750977,
      "learning_rate": 1e-05,
      "loss": 0.5978,
      "step": 1777
    },
    {
      "epoch": 0.18109594622122632,
      "grad_norm": 0.6857566237449646,
      "learning_rate": 1e-05,
      "loss": 0.5631,
      "step": 1778
    },
    {
      "epoch": 0.1811977999592585,
      "grad_norm": 0.7382137179374695,
      "learning_rate": 1e-05,
      "loss": 0.5852,
      "step": 1779
    },
    {
      "epoch": 0.1812996536972907,
      "grad_norm": 0.6843888163566589,
      "learning_rate": 1e-05,
      "loss": 0.6236,
      "step": 1780
    },
    {
      "epoch": 0.18140150743532288,
      "grad_norm": 0.7609386444091797,
      "learning_rate": 1e-05,
      "loss": 0.7204,
      "step": 1781
    },
    {
      "epoch": 0.18150336117335505,
      "grad_norm": 0.7314320206642151,
      "learning_rate": 1e-05,
      "loss": 0.583,
      "step": 1782
    },
    {
      "epoch": 0.18160521491138726,
      "grad_norm": 0.6999914646148682,
      "learning_rate": 1e-05,
      "loss": 0.5877,
      "step": 1783
    },
    {
      "epoch": 0.18170706864941943,
      "grad_norm": 0.6621329188346863,
      "learning_rate": 1e-05,
      "loss": 0.5785,
      "step": 1784
    },
    {
      "epoch": 0.1818089223874516,
      "grad_norm": 3.2878804206848145,
      "learning_rate": 1e-05,
      "loss": 0.5319,
      "step": 1785
    },
    {
      "epoch": 0.18191077612548381,
      "grad_norm": 0.771927535533905,
      "learning_rate": 1e-05,
      "loss": 0.6847,
      "step": 1786
    },
    {
      "epoch": 0.182012629863516,
      "grad_norm": 0.7267396450042725,
      "learning_rate": 1e-05,
      "loss": 0.5632,
      "step": 1787
    },
    {
      "epoch": 0.18211448360154817,
      "grad_norm": 0.6606971025466919,
      "learning_rate": 1e-05,
      "loss": 0.6176,
      "step": 1788
    },
    {
      "epoch": 0.18221633733958037,
      "grad_norm": 0.847770631313324,
      "learning_rate": 1e-05,
      "loss": 0.5924,
      "step": 1789
    },
    {
      "epoch": 0.18231819107761255,
      "grad_norm": 0.6971592903137207,
      "learning_rate": 1e-05,
      "loss": 0.5543,
      "step": 1790
    },
    {
      "epoch": 0.18242004481564472,
      "grad_norm": 0.671596109867096,
      "learning_rate": 1e-05,
      "loss": 0.631,
      "step": 1791
    },
    {
      "epoch": 0.18252189855367693,
      "grad_norm": 0.7831601500511169,
      "learning_rate": 1e-05,
      "loss": 0.7266,
      "step": 1792
    },
    {
      "epoch": 0.1826237522917091,
      "grad_norm": 0.7341823577880859,
      "learning_rate": 1e-05,
      "loss": 0.6249,
      "step": 1793
    },
    {
      "epoch": 0.18272560602974128,
      "grad_norm": 0.6604652404785156,
      "learning_rate": 1e-05,
      "loss": 0.5005,
      "step": 1794
    },
    {
      "epoch": 0.18282745976777348,
      "grad_norm": 0.8352303504943848,
      "learning_rate": 1e-05,
      "loss": 0.5312,
      "step": 1795
    },
    {
      "epoch": 0.18292931350580566,
      "grad_norm": 0.7663708925247192,
      "learning_rate": 1e-05,
      "loss": 0.6835,
      "step": 1796
    },
    {
      "epoch": 0.18303116724383786,
      "grad_norm": 0.7109335064888,
      "learning_rate": 1e-05,
      "loss": 0.6559,
      "step": 1797
    },
    {
      "epoch": 0.18313302098187004,
      "grad_norm": 0.6780170798301697,
      "learning_rate": 1e-05,
      "loss": 0.5107,
      "step": 1798
    },
    {
      "epoch": 0.1832348747199022,
      "grad_norm": 0.6955028772354126,
      "learning_rate": 1e-05,
      "loss": 0.5569,
      "step": 1799
    },
    {
      "epoch": 0.18333672845793442,
      "grad_norm": 0.6680150628089905,
      "learning_rate": 1e-05,
      "loss": 0.586,
      "step": 1800
    },
    {
      "epoch": 0.1834385821959666,
      "grad_norm": 0.6810547113418579,
      "learning_rate": 1e-05,
      "loss": 0.59,
      "step": 1801
    },
    {
      "epoch": 0.18354043593399877,
      "grad_norm": 0.6436364054679871,
      "learning_rate": 1e-05,
      "loss": 0.5431,
      "step": 1802
    },
    {
      "epoch": 0.18364228967203097,
      "grad_norm": 0.6248748898506165,
      "learning_rate": 1e-05,
      "loss": 0.4816,
      "step": 1803
    },
    {
      "epoch": 0.18374414341006315,
      "grad_norm": 0.6190018057823181,
      "learning_rate": 1e-05,
      "loss": 0.5074,
      "step": 1804
    },
    {
      "epoch": 0.18384599714809532,
      "grad_norm": 0.7283116579055786,
      "learning_rate": 1e-05,
      "loss": 0.5852,
      "step": 1805
    },
    {
      "epoch": 0.18394785088612753,
      "grad_norm": 0.8539738655090332,
      "learning_rate": 1e-05,
      "loss": 0.5642,
      "step": 1806
    },
    {
      "epoch": 0.1840497046241597,
      "grad_norm": 0.7103345394134521,
      "learning_rate": 1e-05,
      "loss": 0.6234,
      "step": 1807
    },
    {
      "epoch": 0.18415155836219188,
      "grad_norm": 0.9375005960464478,
      "learning_rate": 1e-05,
      "loss": 0.4999,
      "step": 1808
    },
    {
      "epoch": 0.18425341210022408,
      "grad_norm": 0.7340170741081238,
      "learning_rate": 1e-05,
      "loss": 0.665,
      "step": 1809
    },
    {
      "epoch": 0.18435526583825626,
      "grad_norm": 0.7429431080818176,
      "learning_rate": 1e-05,
      "loss": 0.5822,
      "step": 1810
    },
    {
      "epoch": 0.18445711957628844,
      "grad_norm": 0.669148325920105,
      "learning_rate": 1e-05,
      "loss": 0.6057,
      "step": 1811
    },
    {
      "epoch": 0.18455897331432064,
      "grad_norm": 0.7016240954399109,
      "learning_rate": 1e-05,
      "loss": 0.6145,
      "step": 1812
    },
    {
      "epoch": 0.18466082705235282,
      "grad_norm": 0.6836910843849182,
      "learning_rate": 1e-05,
      "loss": 0.6361,
      "step": 1813
    },
    {
      "epoch": 0.18476268079038502,
      "grad_norm": 1.2380855083465576,
      "learning_rate": 1e-05,
      "loss": 0.5962,
      "step": 1814
    },
    {
      "epoch": 0.1848645345284172,
      "grad_norm": 0.6773226261138916,
      "learning_rate": 1e-05,
      "loss": 0.4843,
      "step": 1815
    },
    {
      "epoch": 0.18496638826644937,
      "grad_norm": 0.7762963771820068,
      "learning_rate": 1e-05,
      "loss": 0.578,
      "step": 1816
    },
    {
      "epoch": 0.18506824200448158,
      "grad_norm": 0.6857395172119141,
      "learning_rate": 1e-05,
      "loss": 0.5484,
      "step": 1817
    },
    {
      "epoch": 0.18517009574251375,
      "grad_norm": 0.6975135207176208,
      "learning_rate": 1e-05,
      "loss": 0.5547,
      "step": 1818
    },
    {
      "epoch": 0.18527194948054593,
      "grad_norm": 0.6808038353919983,
      "learning_rate": 1e-05,
      "loss": 0.5564,
      "step": 1819
    },
    {
      "epoch": 0.18537380321857813,
      "grad_norm": 2.518073081970215,
      "learning_rate": 1e-05,
      "loss": 0.6536,
      "step": 1820
    },
    {
      "epoch": 0.1854756569566103,
      "grad_norm": 0.6698552966117859,
      "learning_rate": 1e-05,
      "loss": 0.6693,
      "step": 1821
    },
    {
      "epoch": 0.18557751069464248,
      "grad_norm": 0.7607892751693726,
      "learning_rate": 1e-05,
      "loss": 0.6661,
      "step": 1822
    },
    {
      "epoch": 0.1856793644326747,
      "grad_norm": 1.1167271137237549,
      "learning_rate": 1e-05,
      "loss": 0.6065,
      "step": 1823
    },
    {
      "epoch": 0.18578121817070686,
      "grad_norm": 0.7884103059768677,
      "learning_rate": 1e-05,
      "loss": 0.5968,
      "step": 1824
    },
    {
      "epoch": 0.18588307190873904,
      "grad_norm": 2.5837419033050537,
      "learning_rate": 1e-05,
      "loss": 0.6127,
      "step": 1825
    },
    {
      "epoch": 0.18598492564677124,
      "grad_norm": 1.5042654275894165,
      "learning_rate": 1e-05,
      "loss": 0.605,
      "step": 1826
    },
    {
      "epoch": 0.18608677938480342,
      "grad_norm": 1.5679816007614136,
      "learning_rate": 1e-05,
      "loss": 0.6581,
      "step": 1827
    },
    {
      "epoch": 0.1861886331228356,
      "grad_norm": 0.6923350691795349,
      "learning_rate": 1e-05,
      "loss": 0.6236,
      "step": 1828
    },
    {
      "epoch": 0.1862904868608678,
      "grad_norm": 0.7610976099967957,
      "learning_rate": 1e-05,
      "loss": 0.6706,
      "step": 1829
    },
    {
      "epoch": 0.18639234059889997,
      "grad_norm": 0.7793580293655396,
      "learning_rate": 1e-05,
      "loss": 0.7464,
      "step": 1830
    },
    {
      "epoch": 0.18649419433693218,
      "grad_norm": 0.6210589408874512,
      "learning_rate": 1e-05,
      "loss": 0.495,
      "step": 1831
    },
    {
      "epoch": 0.18659604807496435,
      "grad_norm": 0.7621694803237915,
      "learning_rate": 1e-05,
      "loss": 0.7071,
      "step": 1832
    },
    {
      "epoch": 0.18669790181299653,
      "grad_norm": 1.2212361097335815,
      "learning_rate": 1e-05,
      "loss": 0.5454,
      "step": 1833
    },
    {
      "epoch": 0.18679975555102873,
      "grad_norm": 0.7333769202232361,
      "learning_rate": 1e-05,
      "loss": 0.62,
      "step": 1834
    },
    {
      "epoch": 0.1869016092890609,
      "grad_norm": 0.7525792121887207,
      "learning_rate": 1e-05,
      "loss": 0.6337,
      "step": 1835
    },
    {
      "epoch": 0.1870034630270931,
      "grad_norm": 1.000268816947937,
      "learning_rate": 1e-05,
      "loss": 0.7033,
      "step": 1836
    },
    {
      "epoch": 0.1871053167651253,
      "grad_norm": 0.6354028582572937,
      "learning_rate": 1e-05,
      "loss": 0.5879,
      "step": 1837
    },
    {
      "epoch": 0.18720717050315747,
      "grad_norm": 0.7210268974304199,
      "learning_rate": 1e-05,
      "loss": 0.5517,
      "step": 1838
    },
    {
      "epoch": 0.18730902424118964,
      "grad_norm": 0.6851430535316467,
      "learning_rate": 1e-05,
      "loss": 0.5827,
      "step": 1839
    },
    {
      "epoch": 0.18741087797922185,
      "grad_norm": 0.6998533606529236,
      "learning_rate": 1e-05,
      "loss": 0.5678,
      "step": 1840
    },
    {
      "epoch": 0.18751273171725402,
      "grad_norm": 0.7332602143287659,
      "learning_rate": 1e-05,
      "loss": 0.6165,
      "step": 1841
    },
    {
      "epoch": 0.1876145854552862,
      "grad_norm": 0.7510202527046204,
      "learning_rate": 1e-05,
      "loss": 0.5611,
      "step": 1842
    },
    {
      "epoch": 0.1877164391933184,
      "grad_norm": 0.649672269821167,
      "learning_rate": 1e-05,
      "loss": 0.5835,
      "step": 1843
    },
    {
      "epoch": 0.18781829293135058,
      "grad_norm": 0.6729323267936707,
      "learning_rate": 1e-05,
      "loss": 0.6597,
      "step": 1844
    },
    {
      "epoch": 0.18792014666938275,
      "grad_norm": 0.7551152110099792,
      "learning_rate": 1e-05,
      "loss": 0.5849,
      "step": 1845
    },
    {
      "epoch": 0.18802200040741496,
      "grad_norm": 0.7294862866401672,
      "learning_rate": 1e-05,
      "loss": 0.5789,
      "step": 1846
    },
    {
      "epoch": 0.18812385414544713,
      "grad_norm": 0.7250074744224548,
      "learning_rate": 1e-05,
      "loss": 0.6514,
      "step": 1847
    },
    {
      "epoch": 0.18822570788347934,
      "grad_norm": 0.7192825078964233,
      "learning_rate": 1e-05,
      "loss": 0.5505,
      "step": 1848
    },
    {
      "epoch": 0.1883275616215115,
      "grad_norm": 0.6512584686279297,
      "learning_rate": 1e-05,
      "loss": 0.5533,
      "step": 1849
    },
    {
      "epoch": 0.1884294153595437,
      "grad_norm": 0.6271675825119019,
      "learning_rate": 1e-05,
      "loss": 0.4839,
      "step": 1850
    },
    {
      "epoch": 0.1885312690975759,
      "grad_norm": 0.7116740942001343,
      "learning_rate": 1e-05,
      "loss": 0.6767,
      "step": 1851
    },
    {
      "epoch": 0.18863312283560807,
      "grad_norm": 0.6772811412811279,
      "learning_rate": 1e-05,
      "loss": 0.5818,
      "step": 1852
    },
    {
      "epoch": 0.18873497657364025,
      "grad_norm": 0.7245408296585083,
      "learning_rate": 1e-05,
      "loss": 0.6064,
      "step": 1853
    },
    {
      "epoch": 0.18883683031167245,
      "grad_norm": 0.7331667542457581,
      "learning_rate": 1e-05,
      "loss": 0.6511,
      "step": 1854
    },
    {
      "epoch": 0.18893868404970462,
      "grad_norm": 0.677963376045227,
      "learning_rate": 1e-05,
      "loss": 0.608,
      "step": 1855
    },
    {
      "epoch": 0.1890405377877368,
      "grad_norm": 0.6869863867759705,
      "learning_rate": 1e-05,
      "loss": 0.5541,
      "step": 1856
    },
    {
      "epoch": 0.189142391525769,
      "grad_norm": 0.6609643697738647,
      "learning_rate": 1e-05,
      "loss": 0.5716,
      "step": 1857
    },
    {
      "epoch": 0.18924424526380118,
      "grad_norm": 0.7647104263305664,
      "learning_rate": 1e-05,
      "loss": 0.6946,
      "step": 1858
    },
    {
      "epoch": 0.18934609900183336,
      "grad_norm": 0.6976014375686646,
      "learning_rate": 1e-05,
      "loss": 0.6292,
      "step": 1859
    },
    {
      "epoch": 0.18944795273986556,
      "grad_norm": 0.6730861663818359,
      "learning_rate": 1e-05,
      "loss": 0.5642,
      "step": 1860
    },
    {
      "epoch": 0.18954980647789774,
      "grad_norm": 0.6391283273696899,
      "learning_rate": 1e-05,
      "loss": 0.4994,
      "step": 1861
    },
    {
      "epoch": 0.1896516602159299,
      "grad_norm": 0.7008892297744751,
      "learning_rate": 1e-05,
      "loss": 0.5835,
      "step": 1862
    },
    {
      "epoch": 0.18975351395396212,
      "grad_norm": 0.7345430850982666,
      "learning_rate": 1e-05,
      "loss": 0.6796,
      "step": 1863
    },
    {
      "epoch": 0.1898553676919943,
      "grad_norm": 0.787645161151886,
      "learning_rate": 1e-05,
      "loss": 0.6534,
      "step": 1864
    },
    {
      "epoch": 0.18995722143002647,
      "grad_norm": 0.7214893102645874,
      "learning_rate": 1e-05,
      "loss": 0.6321,
      "step": 1865
    },
    {
      "epoch": 0.19005907516805867,
      "grad_norm": 0.7618763446807861,
      "learning_rate": 1e-05,
      "loss": 0.6191,
      "step": 1866
    },
    {
      "epoch": 0.19016092890609085,
      "grad_norm": 0.7433735132217407,
      "learning_rate": 1e-05,
      "loss": 0.613,
      "step": 1867
    },
    {
      "epoch": 0.19026278264412305,
      "grad_norm": 0.6225785613059998,
      "learning_rate": 1e-05,
      "loss": 0.4743,
      "step": 1868
    },
    {
      "epoch": 0.19036463638215523,
      "grad_norm": 0.7358654141426086,
      "learning_rate": 1e-05,
      "loss": 0.6439,
      "step": 1869
    },
    {
      "epoch": 0.1904664901201874,
      "grad_norm": 0.764941930770874,
      "learning_rate": 1e-05,
      "loss": 0.6209,
      "step": 1870
    },
    {
      "epoch": 0.1905683438582196,
      "grad_norm": 0.7647250294685364,
      "learning_rate": 1e-05,
      "loss": 0.5456,
      "step": 1871
    },
    {
      "epoch": 0.19067019759625178,
      "grad_norm": 0.7618181705474854,
      "learning_rate": 1e-05,
      "loss": 0.4678,
      "step": 1872
    },
    {
      "epoch": 0.19077205133428396,
      "grad_norm": 0.6608819365501404,
      "learning_rate": 1e-05,
      "loss": 0.5242,
      "step": 1873
    },
    {
      "epoch": 0.19087390507231616,
      "grad_norm": 0.6242535710334778,
      "learning_rate": 1e-05,
      "loss": 0.4463,
      "step": 1874
    },
    {
      "epoch": 0.19097575881034834,
      "grad_norm": 0.7183058261871338,
      "learning_rate": 1e-05,
      "loss": 0.6024,
      "step": 1875
    },
    {
      "epoch": 0.19107761254838052,
      "grad_norm": 0.7253106236457825,
      "learning_rate": 1e-05,
      "loss": 0.6206,
      "step": 1876
    },
    {
      "epoch": 0.19117946628641272,
      "grad_norm": 0.6750473976135254,
      "learning_rate": 1e-05,
      "loss": 0.5411,
      "step": 1877
    },
    {
      "epoch": 0.1912813200244449,
      "grad_norm": 0.7595184445381165,
      "learning_rate": 1e-05,
      "loss": 0.6743,
      "step": 1878
    },
    {
      "epoch": 0.19138317376247707,
      "grad_norm": 0.7725591063499451,
      "learning_rate": 1e-05,
      "loss": 0.567,
      "step": 1879
    },
    {
      "epoch": 0.19148502750050928,
      "grad_norm": 0.6620787382125854,
      "learning_rate": 1e-05,
      "loss": 0.6069,
      "step": 1880
    },
    {
      "epoch": 0.19158688123854145,
      "grad_norm": 0.7545273900032043,
      "learning_rate": 1e-05,
      "loss": 0.548,
      "step": 1881
    },
    {
      "epoch": 0.19168873497657363,
      "grad_norm": 0.6926648020744324,
      "learning_rate": 1e-05,
      "loss": 0.603,
      "step": 1882
    },
    {
      "epoch": 0.19179058871460583,
      "grad_norm": 0.9087877869606018,
      "learning_rate": 1e-05,
      "loss": 0.5848,
      "step": 1883
    },
    {
      "epoch": 0.191892442452638,
      "grad_norm": 0.6357958912849426,
      "learning_rate": 1e-05,
      "loss": 0.4957,
      "step": 1884
    },
    {
      "epoch": 0.1919942961906702,
      "grad_norm": 0.8055790662765503,
      "learning_rate": 1e-05,
      "loss": 0.7089,
      "step": 1885
    },
    {
      "epoch": 0.1920961499287024,
      "grad_norm": 0.6513469815254211,
      "learning_rate": 1e-05,
      "loss": 0.616,
      "step": 1886
    },
    {
      "epoch": 0.19219800366673456,
      "grad_norm": 0.7640653252601624,
      "learning_rate": 1e-05,
      "loss": 0.5216,
      "step": 1887
    },
    {
      "epoch": 0.19229985740476677,
      "grad_norm": 0.7479298114776611,
      "learning_rate": 1e-05,
      "loss": 0.64,
      "step": 1888
    },
    {
      "epoch": 0.19240171114279894,
      "grad_norm": 0.6466816663742065,
      "learning_rate": 1e-05,
      "loss": 0.5015,
      "step": 1889
    },
    {
      "epoch": 0.19250356488083112,
      "grad_norm": 0.7977587580680847,
      "learning_rate": 1e-05,
      "loss": 0.5326,
      "step": 1890
    },
    {
      "epoch": 0.19260541861886332,
      "grad_norm": 0.7078356742858887,
      "learning_rate": 1e-05,
      "loss": 0.5496,
      "step": 1891
    },
    {
      "epoch": 0.1927072723568955,
      "grad_norm": 0.6683557033538818,
      "learning_rate": 1e-05,
      "loss": 0.5698,
      "step": 1892
    },
    {
      "epoch": 0.19280912609492767,
      "grad_norm": 0.7182097434997559,
      "learning_rate": 1e-05,
      "loss": 0.7274,
      "step": 1893
    },
    {
      "epoch": 0.19291097983295988,
      "grad_norm": 0.7022145390510559,
      "learning_rate": 1e-05,
      "loss": 0.6045,
      "step": 1894
    },
    {
      "epoch": 0.19301283357099205,
      "grad_norm": 0.9611077308654785,
      "learning_rate": 1e-05,
      "loss": 0.5667,
      "step": 1895
    },
    {
      "epoch": 0.19311468730902423,
      "grad_norm": 0.7328430414199829,
      "learning_rate": 1e-05,
      "loss": 0.591,
      "step": 1896
    },
    {
      "epoch": 0.19321654104705643,
      "grad_norm": 0.6852749586105347,
      "learning_rate": 1e-05,
      "loss": 0.5711,
      "step": 1897
    },
    {
      "epoch": 0.1933183947850886,
      "grad_norm": 0.686869740486145,
      "learning_rate": 1e-05,
      "loss": 0.6589,
      "step": 1898
    },
    {
      "epoch": 0.19342024852312079,
      "grad_norm": 0.6943230032920837,
      "learning_rate": 1e-05,
      "loss": 0.6102,
      "step": 1899
    },
    {
      "epoch": 0.193522102261153,
      "grad_norm": 0.7176122665405273,
      "learning_rate": 1e-05,
      "loss": 0.5712,
      "step": 1900
    },
    {
      "epoch": 0.19362395599918517,
      "grad_norm": 0.6380504369735718,
      "learning_rate": 1e-05,
      "loss": 0.5258,
      "step": 1901
    },
    {
      "epoch": 0.19372580973721737,
      "grad_norm": 0.6988593935966492,
      "learning_rate": 1e-05,
      "loss": 0.5881,
      "step": 1902
    },
    {
      "epoch": 0.19382766347524955,
      "grad_norm": 0.7277871370315552,
      "learning_rate": 1e-05,
      "loss": 0.5825,
      "step": 1903
    },
    {
      "epoch": 0.19392951721328172,
      "grad_norm": 0.7224923968315125,
      "learning_rate": 1e-05,
      "loss": 0.6299,
      "step": 1904
    },
    {
      "epoch": 0.19403137095131393,
      "grad_norm": 0.7207129001617432,
      "learning_rate": 1e-05,
      "loss": 0.5885,
      "step": 1905
    },
    {
      "epoch": 0.1941332246893461,
      "grad_norm": 0.7339529991149902,
      "learning_rate": 1e-05,
      "loss": 0.6657,
      "step": 1906
    },
    {
      "epoch": 0.19423507842737828,
      "grad_norm": 0.726004958152771,
      "learning_rate": 1e-05,
      "loss": 0.66,
      "step": 1907
    },
    {
      "epoch": 0.19433693216541048,
      "grad_norm": 0.6545218825340271,
      "learning_rate": 1e-05,
      "loss": 0.5165,
      "step": 1908
    },
    {
      "epoch": 0.19443878590344266,
      "grad_norm": 0.6801270246505737,
      "learning_rate": 1e-05,
      "loss": 0.6248,
      "step": 1909
    },
    {
      "epoch": 0.19454063964147483,
      "grad_norm": 0.7780559659004211,
      "learning_rate": 1e-05,
      "loss": 0.5958,
      "step": 1910
    },
    {
      "epoch": 0.19464249337950704,
      "grad_norm": 0.7298450469970703,
      "learning_rate": 1e-05,
      "loss": 0.6155,
      "step": 1911
    },
    {
      "epoch": 0.1947443471175392,
      "grad_norm": 0.7047081589698792,
      "learning_rate": 1e-05,
      "loss": 0.5484,
      "step": 1912
    },
    {
      "epoch": 0.1948462008555714,
      "grad_norm": 0.8407789468765259,
      "learning_rate": 1e-05,
      "loss": 0.5833,
      "step": 1913
    },
    {
      "epoch": 0.1949480545936036,
      "grad_norm": 0.6898475289344788,
      "learning_rate": 1e-05,
      "loss": 0.5635,
      "step": 1914
    },
    {
      "epoch": 0.19504990833163577,
      "grad_norm": 0.7237336039543152,
      "learning_rate": 1e-05,
      "loss": 0.6559,
      "step": 1915
    },
    {
      "epoch": 0.19515176206966794,
      "grad_norm": 0.7345832586288452,
      "learning_rate": 1e-05,
      "loss": 0.6575,
      "step": 1916
    },
    {
      "epoch": 0.19525361580770015,
      "grad_norm": 0.6323180198669434,
      "learning_rate": 1e-05,
      "loss": 0.535,
      "step": 1917
    },
    {
      "epoch": 0.19535546954573232,
      "grad_norm": 0.6961234211921692,
      "learning_rate": 1e-05,
      "loss": 0.5829,
      "step": 1918
    },
    {
      "epoch": 0.19545732328376453,
      "grad_norm": 0.7166065573692322,
      "learning_rate": 1e-05,
      "loss": 0.6255,
      "step": 1919
    },
    {
      "epoch": 0.1955591770217967,
      "grad_norm": 0.6907719373703003,
      "learning_rate": 1e-05,
      "loss": 0.5775,
      "step": 1920
    },
    {
      "epoch": 0.19566103075982888,
      "grad_norm": 0.7236465811729431,
      "learning_rate": 1e-05,
      "loss": 0.7098,
      "step": 1921
    },
    {
      "epoch": 0.19576288449786108,
      "grad_norm": 0.7995294332504272,
      "learning_rate": 1e-05,
      "loss": 0.7904,
      "step": 1922
    },
    {
      "epoch": 0.19586473823589326,
      "grad_norm": 0.6386754512786865,
      "learning_rate": 1e-05,
      "loss": 0.5642,
      "step": 1923
    },
    {
      "epoch": 0.19596659197392544,
      "grad_norm": 0.7540634274482727,
      "learning_rate": 1e-05,
      "loss": 0.6657,
      "step": 1924
    },
    {
      "epoch": 0.19606844571195764,
      "grad_norm": 0.7779171466827393,
      "learning_rate": 1e-05,
      "loss": 0.57,
      "step": 1925
    },
    {
      "epoch": 0.19617029944998982,
      "grad_norm": 0.7119022011756897,
      "learning_rate": 1e-05,
      "loss": 0.605,
      "step": 1926
    },
    {
      "epoch": 0.196272153188022,
      "grad_norm": 0.7117862105369568,
      "learning_rate": 1e-05,
      "loss": 0.5655,
      "step": 1927
    },
    {
      "epoch": 0.1963740069260542,
      "grad_norm": 0.6852505207061768,
      "learning_rate": 1e-05,
      "loss": 0.5896,
      "step": 1928
    },
    {
      "epoch": 0.19647586066408637,
      "grad_norm": 0.684839129447937,
      "learning_rate": 1e-05,
      "loss": 0.5535,
      "step": 1929
    },
    {
      "epoch": 0.19657771440211855,
      "grad_norm": 0.6971158981323242,
      "learning_rate": 1e-05,
      "loss": 0.6386,
      "step": 1930
    },
    {
      "epoch": 0.19667956814015075,
      "grad_norm": 0.6803314685821533,
      "learning_rate": 1e-05,
      "loss": 0.5562,
      "step": 1931
    },
    {
      "epoch": 0.19678142187818293,
      "grad_norm": 0.7419857382774353,
      "learning_rate": 1e-05,
      "loss": 0.7065,
      "step": 1932
    },
    {
      "epoch": 0.1968832756162151,
      "grad_norm": 0.6682890057563782,
      "learning_rate": 1e-05,
      "loss": 0.5075,
      "step": 1933
    },
    {
      "epoch": 0.1969851293542473,
      "grad_norm": 0.6836932301521301,
      "learning_rate": 1e-05,
      "loss": 0.6209,
      "step": 1934
    },
    {
      "epoch": 0.19708698309227948,
      "grad_norm": 1.559454321861267,
      "learning_rate": 1e-05,
      "loss": 0.5346,
      "step": 1935
    },
    {
      "epoch": 0.19718883683031166,
      "grad_norm": 0.6875088810920715,
      "learning_rate": 1e-05,
      "loss": 0.6737,
      "step": 1936
    },
    {
      "epoch": 0.19729069056834386,
      "grad_norm": 0.6391071677207947,
      "learning_rate": 1e-05,
      "loss": 0.4802,
      "step": 1937
    },
    {
      "epoch": 0.19739254430637604,
      "grad_norm": 0.7074828147888184,
      "learning_rate": 1e-05,
      "loss": 0.6994,
      "step": 1938
    },
    {
      "epoch": 0.19749439804440824,
      "grad_norm": 0.6295017004013062,
      "learning_rate": 1e-05,
      "loss": 0.5177,
      "step": 1939
    },
    {
      "epoch": 0.19759625178244042,
      "grad_norm": 0.6990373134613037,
      "learning_rate": 1e-05,
      "loss": 0.6271,
      "step": 1940
    },
    {
      "epoch": 0.1976981055204726,
      "grad_norm": 0.746720016002655,
      "learning_rate": 1e-05,
      "loss": 0.6236,
      "step": 1941
    },
    {
      "epoch": 0.1977999592585048,
      "grad_norm": 0.7090829610824585,
      "learning_rate": 1e-05,
      "loss": 0.5565,
      "step": 1942
    },
    {
      "epoch": 0.19790181299653697,
      "grad_norm": 0.6814616322517395,
      "learning_rate": 1e-05,
      "loss": 0.597,
      "step": 1943
    },
    {
      "epoch": 0.19800366673456915,
      "grad_norm": 0.6432788372039795,
      "learning_rate": 1e-05,
      "loss": 0.5429,
      "step": 1944
    },
    {
      "epoch": 0.19810552047260135,
      "grad_norm": 0.7263206243515015,
      "learning_rate": 1e-05,
      "loss": 0.5297,
      "step": 1945
    },
    {
      "epoch": 0.19820737421063353,
      "grad_norm": 0.7744574546813965,
      "learning_rate": 1e-05,
      "loss": 0.69,
      "step": 1946
    },
    {
      "epoch": 0.1983092279486657,
      "grad_norm": 0.7373225688934326,
      "learning_rate": 1e-05,
      "loss": 0.6047,
      "step": 1947
    },
    {
      "epoch": 0.1984110816866979,
      "grad_norm": 0.6892402172088623,
      "learning_rate": 1e-05,
      "loss": 0.5998,
      "step": 1948
    },
    {
      "epoch": 0.19851293542473009,
      "grad_norm": 0.6631890535354614,
      "learning_rate": 1e-05,
      "loss": 0.6133,
      "step": 1949
    },
    {
      "epoch": 0.19861478916276226,
      "grad_norm": 0.791803777217865,
      "learning_rate": 1e-05,
      "loss": 0.5933,
      "step": 1950
    },
    {
      "epoch": 0.19871664290079447,
      "grad_norm": 0.7141972780227661,
      "learning_rate": 1e-05,
      "loss": 0.6508,
      "step": 1951
    },
    {
      "epoch": 0.19881849663882664,
      "grad_norm": 0.7449926137924194,
      "learning_rate": 1e-05,
      "loss": 0.6561,
      "step": 1952
    },
    {
      "epoch": 0.19892035037685882,
      "grad_norm": 0.605232834815979,
      "learning_rate": 1e-05,
      "loss": 0.5148,
      "step": 1953
    },
    {
      "epoch": 0.19902220411489102,
      "grad_norm": 0.6848644614219666,
      "learning_rate": 1e-05,
      "loss": 0.5586,
      "step": 1954
    },
    {
      "epoch": 0.1991240578529232,
      "grad_norm": 0.7121402621269226,
      "learning_rate": 1e-05,
      "loss": 0.6976,
      "step": 1955
    },
    {
      "epoch": 0.1992259115909554,
      "grad_norm": 0.638904869556427,
      "learning_rate": 1e-05,
      "loss": 0.5225,
      "step": 1956
    },
    {
      "epoch": 0.19932776532898758,
      "grad_norm": 0.821123480796814,
      "learning_rate": 1e-05,
      "loss": 0.6954,
      "step": 1957
    },
    {
      "epoch": 0.19942961906701975,
      "grad_norm": 0.6175608038902283,
      "learning_rate": 1e-05,
      "loss": 0.541,
      "step": 1958
    },
    {
      "epoch": 0.19953147280505196,
      "grad_norm": 0.6723424792289734,
      "learning_rate": 1e-05,
      "loss": 0.5558,
      "step": 1959
    },
    {
      "epoch": 0.19963332654308413,
      "grad_norm": 0.729563295841217,
      "learning_rate": 1e-05,
      "loss": 0.6223,
      "step": 1960
    },
    {
      "epoch": 0.1997351802811163,
      "grad_norm": 0.6958093643188477,
      "learning_rate": 1e-05,
      "loss": 0.6172,
      "step": 1961
    },
    {
      "epoch": 0.1998370340191485,
      "grad_norm": 0.6823163628578186,
      "learning_rate": 1e-05,
      "loss": 0.5728,
      "step": 1962
    },
    {
      "epoch": 0.1999388877571807,
      "grad_norm": 0.7310012578964233,
      "learning_rate": 1e-05,
      "loss": 0.6818,
      "step": 1963
    },
    {
      "epoch": 0.20004074149521286,
      "grad_norm": 0.7151188850402832,
      "learning_rate": 1e-05,
      "loss": 0.688,
      "step": 1964
    }
  ],
  "logging_steps": 1,
  "max_steps": 9818,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 982,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 1.9823789195298603e+19,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}