{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.0,
  "eval_steps": 100,
  "global_step": 14272,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "grad_norm": 5.160371780395508,
      "learning_rate": 6e-07,
      "loss": 9.9959,
      "step": 1
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.412039041519165,
      "learning_rate": 1.2e-06,
      "loss": 8.4035,
      "step": 2
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.5270659923553467,
      "learning_rate": 1.8e-06,
      "loss": 8.8146,
      "step": 3
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.4897561073303223,
      "learning_rate": 2.4e-06,
      "loss": 8.6442,
      "step": 4
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.510751724243164,
      "learning_rate": 2.9999999999999997e-06,
      "loss": 8.729,
      "step": 5
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.830885887145996,
      "learning_rate": 3.6e-06,
      "loss": 9.7922,
      "step": 6
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.2628538608551025,
      "learning_rate": 4.2e-06,
      "loss": 9.0048,
      "step": 7
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.635989189147949,
      "learning_rate": 4.8e-06,
      "loss": 9.1407,
      "step": 8
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.856983184814453,
      "learning_rate": 5.399999999999999e-06,
      "loss": 9.4986,
      "step": 9
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.6102359294891357,
      "learning_rate": 5.999999999999999e-06,
      "loss": 8.7877,
      "step": 10
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.3239240646362305,
      "learning_rate": 6.599999999999999e-06,
      "loss": 10.7946,
      "step": 11
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.5710649490356445,
      "learning_rate": 7.2e-06,
      "loss": 8.3228,
      "step": 12
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.650029420852661,
      "learning_rate": 7.799999999999998e-06,
      "loss": 8.0929,
      "step": 13
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.4965367317199707,
      "learning_rate": 8.4e-06,
      "loss": 7.9377,
      "step": 14
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.7710108757019043,
      "learning_rate": 8.999999999999999e-06,
      "loss": 8.4777,
      "step": 15
    },
    {
      "epoch": 0.0,
      "grad_norm": 2.715474843978882,
      "learning_rate": 9.6e-06,
      "loss": 8.1505,
      "step": 16
    },
    {
      "epoch": 0.0,
      "grad_norm": 3.0394132137298584,
      "learning_rate": 1.02e-05,
      "loss": 8.551,
      "step": 17
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.0941975116729736,
      "learning_rate": 1.0799999999999998e-05,
      "loss": 8.2855,
      "step": 18
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.2527360916137695,
      "learning_rate": 1.14e-05,
      "loss": 8.4956,
      "step": 19
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.455601453781128,
      "learning_rate": 1.1999999999999999e-05,
      "loss": 8.8911,
      "step": 20
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.483164310455322,
      "learning_rate": 1.26e-05,
      "loss": 8.4452,
      "step": 21
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.16772723197937,
      "learning_rate": 1.3199999999999997e-05,
      "loss": 8.0035,
      "step": 22
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.7891299724578857,
      "learning_rate": 1.3799999999999998e-05,
      "loss": 8.8405,
      "step": 23
    },
    {
      "epoch": 0.01,
      "grad_norm": 3.7901432514190674,
      "learning_rate": 1.44e-05,
      "loss": 8.6696,
      "step": 24
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.1865410804748535,
      "learning_rate": 1.4999999999999999e-05,
      "loss": 12.5989,
      "step": 25
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.525710582733154,
      "learning_rate": 1.5599999999999996e-05,
      "loss": 8.1487,
      "step": 26
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.990642547607422,
      "learning_rate": 1.6199999999999997e-05,
      "loss": 9.3023,
      "step": 27
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.52702522277832,
      "learning_rate": 1.68e-05,
      "loss": 8.3085,
      "step": 28
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.053778648376465,
      "learning_rate": 1.74e-05,
      "loss": 7.3172,
      "step": 29
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.17093563079834,
      "learning_rate": 1.7999999999999997e-05,
      "loss": 9.193,
      "step": 30
    },
    {
      "epoch": 0.01,
      "grad_norm": 4.504244804382324,
      "learning_rate": 1.8599999999999998e-05,
      "loss": 7.1637,
      "step": 31
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.610240459442139,
      "learning_rate": 1.92e-05,
      "loss": 7.8595,
      "step": 32
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.97471809387207,
      "learning_rate": 1.98e-05,
      "loss": 7.9412,
      "step": 33
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.907177448272705,
      "learning_rate": 2.04e-05,
      "loss": 7.4475,
      "step": 34
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.961956977844238,
      "learning_rate": 2.1e-05,
      "loss": 7.0001,
      "step": 35
    },
    {
      "epoch": 0.01,
      "grad_norm": 5.606048583984375,
      "learning_rate": 2.1599999999999996e-05,
      "loss": 6.559,
      "step": 36
    },
    {
      "epoch": 0.01,
      "grad_norm": 6.321558952331543,
      "learning_rate": 2.2199999999999998e-05,
      "loss": 6.8789,
      "step": 37
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.875275611877441,
      "learning_rate": 2.28e-05,
      "loss": 6.2729,
      "step": 38
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.161065101623535,
      "learning_rate": 2.34e-05,
      "loss": 6.8454,
      "step": 39
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.464581489562988,
      "learning_rate": 2.3999999999999997e-05,
      "loss": 6.8888,
      "step": 40
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.4565277099609375,
      "learning_rate": 2.4599999999999998e-05,
      "loss": 5.998,
      "step": 41
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.034793853759766,
      "learning_rate": 2.52e-05,
      "loss": 6.3775,
      "step": 42
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.25582504272461,
      "learning_rate": 2.5799999999999997e-05,
      "loss": 6.0953,
      "step": 43
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.128839492797852,
      "learning_rate": 2.6399999999999995e-05,
      "loss": 5.6723,
      "step": 44
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.19787883758545,
      "learning_rate": 2.6999999999999996e-05,
      "loss": 5.8075,
      "step": 45
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.208003997802734,
      "learning_rate": 2.7599999999999997e-05,
      "loss": 5.2946,
      "step": 46
    },
    {
      "epoch": 0.01,
      "grad_norm": 10.75829792022705,
      "learning_rate": 2.8199999999999998e-05,
      "loss": 5.0734,
      "step": 47
    },
    {
      "epoch": 0.01,
      "grad_norm": 9.878429412841797,
      "learning_rate": 2.88e-05,
      "loss": 5.0021,
      "step": 48
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.394829750061035,
      "learning_rate": 2.94e-05,
      "loss": 4.5168,
      "step": 49
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.920436859130859,
      "learning_rate": 2.9999999999999997e-05,
      "loss": 4.3485,
      "step": 50
    },
    {
      "epoch": 0.01,
      "grad_norm": 8.605487823486328,
      "learning_rate": 3.06e-05,
      "loss": 4.338,
      "step": 51
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.477781295776367,
      "learning_rate": 3.119999999999999e-05,
      "loss": 4.0488,
      "step": 52
    },
    {
      "epoch": 0.01,
      "grad_norm": 7.9472856521606445,
      "learning_rate": 3.1799999999999994e-05,
      "loss": 4.0494,
      "step": 53
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.435166835784912,
      "learning_rate": 3.2399999999999995e-05,
      "loss": 3.803,
      "step": 54
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.885845184326172,
      "learning_rate": 3.2999999999999996e-05,
      "loss": 3.8365,
      "step": 55
    },
    {
      "epoch": 0.02,
      "grad_norm": 8.184488296508789,
      "learning_rate": 3.36e-05,
      "loss": 3.955,
      "step": 56
    },
    {
      "epoch": 0.02,
      "grad_norm": 6.897733211517334,
      "learning_rate": 3.42e-05,
      "loss": 3.7614,
      "step": 57
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.533102512359619,
      "learning_rate": 3.48e-05,
      "loss": 3.5854,
      "step": 58
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.383766174316406,
      "learning_rate": 3.539999999999999e-05,
      "loss": 3.5555,
      "step": 59
    },
    {
      "epoch": 0.02,
      "grad_norm": 5.203381061553955,
      "learning_rate": 3.5999999999999994e-05,
      "loss": 3.5308,
      "step": 60
    },
    {
      "epoch": 0.02,
      "grad_norm": 4.145435810089111,
      "learning_rate": 3.6599999999999995e-05,
      "loss": 3.4408,
      "step": 61
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.635056257247925,
      "learning_rate": 3.7199999999999996e-05,
      "loss": 3.3277,
      "step": 62
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.445511817932129,
      "learning_rate": 3.78e-05,
      "loss": 3.3188,
      "step": 63
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.8143346309661865,
      "learning_rate": 3.84e-05,
      "loss": 3.2944,
      "step": 64
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.2864577770233154,
      "learning_rate": 3.9e-05,
      "loss": 3.2532,
      "step": 65
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.084019184112549,
      "learning_rate": 3.96e-05,
      "loss": 3.2301,
      "step": 66
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.4722771644592285,
      "learning_rate": 4.02e-05,
      "loss": 3.1732,
      "step": 67
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.3182258605957031,
      "learning_rate": 4.08e-05,
      "loss": 3.1605,
      "step": 68
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.3000565767288208,
      "learning_rate": 4.14e-05,
      "loss": 3.1209,
      "step": 69
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.2741551399230957,
      "learning_rate": 4.2e-05,
      "loss": 3.1015,
      "step": 70
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0976078510284424,
      "learning_rate": 4.259999999999999e-05,
      "loss": 3.0862,
      "step": 71
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9977470636367798,
      "learning_rate": 4.319999999999999e-05,
      "loss": 3.0637,
      "step": 72
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.016170620918274,
      "learning_rate": 4.3799999999999994e-05,
      "loss": 3.0482,
      "step": 73
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.8411524891853333,
      "learning_rate": 4.4399999999999995e-05,
      "loss": 3.0148,
      "step": 74
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.7561242580413818,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 3.0725,
      "step": 75
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.08696711063385,
      "learning_rate": 4.56e-05,
      "loss": 3.0079,
      "step": 76
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.8005727529525757,
      "learning_rate": 4.62e-05,
      "loss": 3.0109,
      "step": 77
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.186396360397339,
      "learning_rate": 4.68e-05,
      "loss": 2.9834,
      "step": 78
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.3282687664031982,
      "learning_rate": 4.7399999999999993e-05,
      "loss": 3.0012,
      "step": 79
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.3620320558547974,
      "learning_rate": 4.7999999999999994e-05,
      "loss": 2.9609,
      "step": 80
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.723368763923645,
      "learning_rate": 4.8599999999999995e-05,
      "loss": 2.9739,
      "step": 81
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.1497808694839478,
      "learning_rate": 4.9199999999999997e-05,
      "loss": 2.9448,
      "step": 82
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9285783171653748,
      "learning_rate": 4.98e-05,
      "loss": 2.9321,
      "step": 83
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.45959192514419556,
      "learning_rate": 5.04e-05,
      "loss": 2.953,
      "step": 84
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.7764879465103149,
      "learning_rate": 5.1e-05,
      "loss": 2.9675,
      "step": 85
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.0552271604537964,
      "learning_rate": 5.1599999999999994e-05,
      "loss": 2.9374,
      "step": 86
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.9192660450935364,
      "learning_rate": 5.2199999999999995e-05,
      "loss": 2.9372,
      "step": 87
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.658341109752655,
      "learning_rate": 5.279999999999999e-05,
      "loss": 2.9331,
      "step": 88
    },
    {
      "epoch": 0.02,
      "grad_norm": 0.534433901309967,
      "learning_rate": 5.339999999999999e-05,
      "loss": 2.9119,
      "step": 89
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5074031352996826,
      "learning_rate": 5.399999999999999e-05,
      "loss": 2.8825,
      "step": 90
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.39914071559906006,
      "learning_rate": 5.459999999999999e-05,
      "loss": 2.9013,
      "step": 91
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.35807114839553833,
      "learning_rate": 5.519999999999999e-05,
      "loss": 2.8877,
      "step": 92
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9594866037368774,
      "learning_rate": 5.5799999999999994e-05,
      "loss": 2.8936,
      "step": 93
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0251524448394775,
      "learning_rate": 5.6399999999999995e-05,
      "loss": 2.9346,
      "step": 94
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.016791343688965,
      "learning_rate": 5.6999999999999996e-05,
      "loss": 2.9479,
      "step": 95
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.598280906677246,
      "learning_rate": 5.76e-05,
      "loss": 2.9867,
      "step": 96
    },
    {
      "epoch": 0.03,
      "grad_norm": 2.395099401473999,
      "learning_rate": 5.82e-05,
      "loss": 2.9632,
      "step": 97
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.34680238366127014,
      "learning_rate": 5.88e-05,
      "loss": 2.9258,
      "step": 98
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.785074770450592,
      "learning_rate": 5.94e-05,
      "loss": 2.8755,
      "step": 99
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.0919647216796875,
      "learning_rate": 5.9999999999999995e-05,
      "loss": 2.9692,
      "step": 100
    },
    {
      "epoch": 0.03,
      "eval_loss": 2.933603286743164,
      "eval_runtime": 174.1158,
      "eval_samples_per_second": 15.174,
      "eval_steps_per_second": 0.477,
      "eval_wer": 1.0,
      "step": 100
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.43039414286613464,
      "learning_rate": 6.0599999999999996e-05,
      "loss": 2.9109,
      "step": 101
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.345140814781189,
      "learning_rate": 6.12e-05,
      "loss": 2.9108,
      "step": 102
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.131369948387146,
      "learning_rate": 6.18e-05,
      "loss": 2.8777,
      "step": 103
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9407246708869934,
      "learning_rate": 6.239999999999999e-05,
      "loss": 2.8843,
      "step": 104
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.603175163269043,
      "learning_rate": 6.299999999999999e-05,
      "loss": 2.8585,
      "step": 105
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7689252495765686,
      "learning_rate": 6.359999999999999e-05,
      "loss": 2.8687,
      "step": 106
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9880462288856506,
      "learning_rate": 6.419999999999999e-05,
      "loss": 2.9145,
      "step": 107
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.7552326321601868,
      "learning_rate": 6.479999999999999e-05,
      "loss": 2.8452,
      "step": 108
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.38780641555786133,
      "learning_rate": 6.539999999999999e-05,
      "loss": 2.8502,
      "step": 109
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.9178054332733154,
      "learning_rate": 6.599999999999999e-05,
      "loss": 2.8832,
      "step": 110
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7924914360046387,
      "learning_rate": 6.659999999999999e-05,
      "loss": 2.9375,
      "step": 111
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7200877666473389,
      "learning_rate": 6.72e-05,
      "loss": 2.9542,
      "step": 112
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.9228000640869141,
      "learning_rate": 6.78e-05,
      "loss": 2.9615,
      "step": 113
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.4259914457798004,
      "learning_rate": 6.84e-05,
      "loss": 2.8728,
      "step": 114
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.4750944972038269,
      "learning_rate": 6.9e-05,
      "loss": 2.8475,
      "step": 115
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.2725121080875397,
      "learning_rate": 6.96e-05,
      "loss": 2.905,
      "step": 116
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5223187804222107,
      "learning_rate": 7.02e-05,
      "loss": 2.895,
      "step": 117
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.549775242805481,
      "learning_rate": 7.079999999999999e-05,
      "loss": 2.851,
      "step": 118
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.6638439893722534,
      "learning_rate": 7.139999999999999e-05,
      "loss": 2.861,
      "step": 119
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.39206254482269287,
      "learning_rate": 7.199999999999999e-05,
      "loss": 2.8666,
      "step": 120
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.2138547897338867,
      "learning_rate": 7.259999999999999e-05,
      "loss": 2.8785,
      "step": 121
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.5140036344528198,
      "learning_rate": 7.319999999999999e-05,
      "loss": 2.8401,
      "step": 122
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.3969598114490509,
      "learning_rate": 7.379999999999999e-05,
      "loss": 2.8692,
      "step": 123
    },
    {
      "epoch": 0.03,
      "grad_norm": 0.3944818079471588,
      "learning_rate": 7.439999999999999e-05,
      "loss": 2.8783,
      "step": 124
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.2755953073501587,
      "learning_rate": 7.5e-05,
      "loss": 2.9182,
      "step": 125
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.22981372475624084,
      "learning_rate": 7.56e-05,
      "loss": 2.8462,
      "step": 126
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.115261197090149,
      "learning_rate": 7.62e-05,
      "loss": 2.8507,
      "step": 127
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0472445487976074,
      "learning_rate": 7.68e-05,
      "loss": 2.866,
      "step": 128
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.212816834449768,
      "learning_rate": 7.74e-05,
      "loss": 2.8876,
      "step": 129
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.30282941460609436,
      "learning_rate": 7.8e-05,
      "loss": 2.853,
      "step": 130
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7917519807815552,
      "learning_rate": 7.86e-05,
      "loss": 2.8685,
      "step": 131
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.2709013819694519,
      "learning_rate": 7.92e-05,
      "loss": 2.8666,
      "step": 132
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8641479015350342,
      "learning_rate": 7.98e-05,
      "loss": 2.8717,
      "step": 133
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.014833688735962,
      "learning_rate": 8.04e-05,
      "loss": 2.8586,
      "step": 134
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.456464022397995,
      "learning_rate": 8.1e-05,
      "loss": 2.8744,
      "step": 135
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.9766486287117004,
      "learning_rate": 8.16e-05,
      "loss": 2.888,
      "step": 136
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8807286024093628,
      "learning_rate": 8.22e-05,
      "loss": 2.8776,
      "step": 137
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7267675995826721,
      "learning_rate": 8.28e-05,
      "loss": 2.9253,
      "step": 138
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.36379051208496094,
      "learning_rate": 8.34e-05,
      "loss": 2.8421,
      "step": 139
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.39102062582969666,
      "learning_rate": 8.4e-05,
      "loss": 2.8417,
      "step": 140
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0166072845458984,
      "learning_rate": 8.459999999999998e-05,
      "loss": 2.8693,
      "step": 141
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7806731462478638,
      "learning_rate": 8.519999999999998e-05,
      "loss": 2.8863,
      "step": 142
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7973335385322571,
      "learning_rate": 8.579999999999998e-05,
      "loss": 2.8656,
      "step": 143
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.3303713798522949,
      "learning_rate": 8.639999999999999e-05,
      "loss": 2.8147,
      "step": 144
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.42951878905296326,
      "learning_rate": 8.699999999999999e-05,
      "loss": 2.8517,
      "step": 145
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4526824653148651,
      "learning_rate": 8.759999999999999e-05,
      "loss": 2.8666,
      "step": 146
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7706729769706726,
      "learning_rate": 8.819999999999999e-05,
      "loss": 2.8356,
      "step": 147
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0538281202316284,
      "learning_rate": 8.879999999999999e-05,
      "loss": 2.8561,
      "step": 148
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.8729268312454224,
      "learning_rate": 8.939999999999999e-05,
      "loss": 2.8192,
      "step": 149
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4887419044971466,
      "learning_rate": 8.999999999999999e-05,
      "loss": 2.8664,
      "step": 150
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.5418578386306763,
      "learning_rate": 9.059999999999999e-05,
      "loss": 2.8441,
      "step": 151
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.3835519552230835,
      "learning_rate": 9.12e-05,
      "loss": 2.8782,
      "step": 152
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.0316156148910522,
      "learning_rate": 9.18e-05,
      "loss": 2.8551,
      "step": 153
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.1814229488372803,
      "learning_rate": 9.24e-05,
      "loss": 2.8525,
      "step": 154
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.7928739786148071,
      "learning_rate": 9.3e-05,
      "loss": 2.8489,
      "step": 155
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.4693228602409363,
      "learning_rate": 9.36e-05,
      "loss": 2.8221,
      "step": 156
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.695818305015564,
      "learning_rate": 9.419999999999999e-05,
      "loss": 2.8494,
      "step": 157
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.6476765871047974,
      "learning_rate": 9.479999999999999e-05,
      "loss": 2.8206,
      "step": 158
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.2619514763355255,
      "learning_rate": 9.539999999999999e-05,
      "loss": 2.8366,
      "step": 159
    },
    {
      "epoch": 0.04,
      "grad_norm": 0.3277202546596527,
      "learning_rate": 9.599999999999999e-05,
      "loss": 2.8422,
      "step": 160
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.439485102891922,
      "learning_rate": 9.659999999999999e-05,
      "loss": 2.8548,
      "step": 161
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9447998404502869,
      "learning_rate": 9.719999999999999e-05,
      "loss": 2.8721,
      "step": 162
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4997083842754364,
      "learning_rate": 9.779999999999999e-05,
      "loss": 2.8517,
      "step": 163
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.23115545511245728,
      "learning_rate": 9.839999999999999e-05,
      "loss": 2.8472,
      "step": 164
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.26311519742012024,
      "learning_rate": 9.9e-05,
      "loss": 2.8474,
      "step": 165
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7091084718704224,
      "learning_rate": 9.96e-05,
      "loss": 2.8339,
      "step": 166
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3246418833732605,
      "learning_rate": 0.0001002,
      "loss": 2.8563,
      "step": 167
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7310439348220825,
      "learning_rate": 0.0001008,
      "loss": 2.8431,
      "step": 168
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.1943635642528534,
      "learning_rate": 0.0001014,
      "loss": 2.8396,
      "step": 169
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.1572265625,
      "learning_rate": 0.000102,
      "loss": 2.852,
      "step": 170
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.6594911813735962,
      "learning_rate": 0.0001026,
      "loss": 2.8361,
      "step": 171
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.3466465473175049,
      "learning_rate": 0.00010319999999999999,
      "loss": 2.8743,
      "step": 172
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.40280914306640625,
      "learning_rate": 0.00010379999999999999,
      "loss": 2.8341,
      "step": 173
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7745519876480103,
      "learning_rate": 0.00010439999999999999,
      "loss": 2.8439,
      "step": 174
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.0517162084579468,
      "learning_rate": 0.00010499999999999999,
      "loss": 2.8458,
      "step": 175
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5438529253005981,
      "learning_rate": 0.00010559999999999998,
      "loss": 2.8612,
      "step": 176
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.2846272587776184,
      "learning_rate": 0.00010619999999999998,
      "loss": 2.8286,
      "step": 177
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.984386146068573,
      "learning_rate": 0.00010679999999999998,
      "loss": 2.8222,
      "step": 178
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.32334643602371216,
      "learning_rate": 0.00010739999999999998,
      "loss": 2.825,
      "step": 179
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.22515593469142914,
      "learning_rate": 0.00010799999999999998,
      "loss": 2.8525,
      "step": 180
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.27965864539146423,
      "learning_rate": 0.00010859999999999998,
      "loss": 2.8398,
      "step": 181
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.2956511676311493,
      "learning_rate": 0.00010919999999999998,
      "loss": 2.8189,
      "step": 182
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.4018487334251404,
      "learning_rate": 0.00010979999999999999,
      "loss": 2.8543,
      "step": 183
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5824018716812134,
      "learning_rate": 0.00011039999999999999,
      "loss": 2.8433,
      "step": 184
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.23326237499713898,
      "learning_rate": 0.00011099999999999999,
      "loss": 2.8383,
      "step": 185
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.9543407559394836,
      "learning_rate": 0.00011159999999999999,
      "loss": 2.8382,
      "step": 186
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.20287653803825378,
      "learning_rate": 0.00011219999999999999,
      "loss": 2.8682,
      "step": 187
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.5317580699920654,
      "learning_rate": 0.00011279999999999999,
      "loss": 2.8281,
      "step": 188
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7617377638816833,
      "learning_rate": 0.00011339999999999999,
      "loss": 2.8242,
      "step": 189
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.35266393423080444,
      "learning_rate": 0.00011399999999999999,
      "loss": 2.8121,
      "step": 190
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.3883028030395508,
      "learning_rate": 0.0001146,
      "loss": 2.8505,
      "step": 191
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.549410343170166,
      "learning_rate": 0.0001152,
      "loss": 2.8369,
      "step": 192
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.2562626004219055,
      "learning_rate": 0.0001158,
      "loss": 2.8453,
      "step": 193
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.7544702291488647,
      "learning_rate": 0.0001164,
      "loss": 2.8492,
      "step": 194
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.700285017490387,
      "learning_rate": 0.000117,
      "loss": 2.8007,
      "step": 195
    },
    {
      "epoch": 0.05,
      "grad_norm": 0.25030624866485596,
      "learning_rate": 0.0001176,
      "loss": 2.7764,
      "step": 196
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0751073360443115,
      "learning_rate": 0.0001182,
      "loss": 2.8259,
      "step": 197
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5751297473907471,
      "learning_rate": 0.0001188,
      "loss": 2.8595,
      "step": 198
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.2965947389602661,
      "learning_rate": 0.0001194,
      "loss": 2.8319,
      "step": 199
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5018799304962158,
      "learning_rate": 0.00011999999999999999,
      "loss": 2.7936,
      "step": 200
    },
    {
      "epoch": 0.06,
      "eval_loss": 2.8513994216918945,
      "eval_runtime": 169.7688,
      "eval_samples_per_second": 15.562,
      "eval_steps_per_second": 0.489,
      "eval_wer": 1.0,
      "step": 200
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.2848832607269287,
      "learning_rate": 0.00012059999999999999,
      "loss": 2.839,
      "step": 201
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.057241439819336,
      "learning_rate": 0.00012119999999999999,
      "loss": 2.8044,
      "step": 202
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.3124358057975769,
      "learning_rate": 0.00012179999999999999,
      "loss": 2.8078,
      "step": 203
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1164655685424805,
      "learning_rate": 0.0001224,
      "loss": 2.7978,
      "step": 204
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0970159769058228,
      "learning_rate": 0.00012299999999999998,
      "loss": 2.7927,
      "step": 205
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.3186655044555664,
      "learning_rate": 0.0001236,
      "loss": 2.837,
      "step": 206
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6969038844108582,
      "learning_rate": 0.00012419999999999998,
      "loss": 2.8364,
      "step": 207
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9276344180107117,
      "learning_rate": 0.00012479999999999997,
      "loss": 2.8372,
      "step": 208
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.49434560537338257,
      "learning_rate": 0.00012539999999999999,
      "loss": 2.8081,
      "step": 209
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7790037393569946,
      "learning_rate": 0.00012599999999999997,
      "loss": 2.8117,
      "step": 210
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8638866543769836,
      "learning_rate": 0.0001266,
      "loss": 2.809,
      "step": 211
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.0301496982574463,
      "learning_rate": 0.00012719999999999997,
      "loss": 2.8146,
      "step": 212
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8697319030761719,
      "learning_rate": 0.0001278,
      "loss": 2.8288,
      "step": 213
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7476319670677185,
      "learning_rate": 0.00012839999999999998,
      "loss": 2.7945,
      "step": 214
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.31453943252563477,
      "learning_rate": 0.000129,
      "loss": 2.7845,
      "step": 215
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.1896400451660156,
      "learning_rate": 0.00012959999999999998,
      "loss": 2.7812,
      "step": 216
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8964290618896484,
      "learning_rate": 0.0001302,
      "loss": 2.7827,
      "step": 217
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.30985960364341736,
      "learning_rate": 0.00013079999999999998,
      "loss": 2.7652,
      "step": 218
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.5115196704864502,
      "learning_rate": 0.0001314,
      "loss": 2.7376,
      "step": 219
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.2930987775325775,
      "learning_rate": 0.00013199999999999998,
      "loss": 2.7394,
      "step": 220
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.957041323184967,
      "learning_rate": 0.0001326,
      "loss": 2.7344,
      "step": 221
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.7939794659614563,
      "learning_rate": 0.00013319999999999999,
      "loss": 2.7347,
      "step": 222
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.8400952816009521,
      "learning_rate": 0.0001338,
      "loss": 2.6994,
      "step": 223
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.45717495679855347,
      "learning_rate": 0.0001344,
      "loss": 2.6922,
      "step": 224
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.7363263368606567,
      "learning_rate": 0.000135,
      "loss": 2.691,
      "step": 225
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.842851996421814,
      "learning_rate": 0.0001356,
      "loss": 2.6668,
      "step": 226
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6406338214874268,
      "learning_rate": 0.0001362,
      "loss": 2.6893,
      "step": 227
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.41594743728637695,
      "learning_rate": 0.0001368,
      "loss": 2.5994,
      "step": 228
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.942692756652832,
      "learning_rate": 0.0001374,
      "loss": 2.5875,
      "step": 229
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.9918850064277649,
      "learning_rate": 0.000138,
      "loss": 2.562,
      "step": 230
    },
    {
      "epoch": 0.06,
      "grad_norm": 0.6092777252197266,
      "learning_rate": 0.0001386,
      "loss": 2.5125,
      "step": 231
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.5230998992919922,
      "learning_rate": 0.0001392,
      "loss": 2.5051,
      "step": 232
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8344402313232422,
      "learning_rate": 0.00013979999999999998,
      "loss": 2.5001,
      "step": 233
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.786218285560608,
      "learning_rate": 0.0001404,
      "loss": 2.4474,
      "step": 234
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6829200983047485,
      "learning_rate": 0.00014099999999999998,
      "loss": 2.4065,
      "step": 235
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1397589445114136,
      "learning_rate": 0.00014159999999999997,
      "loss": 2.4422,
      "step": 236
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6489912867546082,
      "learning_rate": 0.0001422,
      "loss": 2.4003,
      "step": 237
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1118552684783936,
      "learning_rate": 0.00014279999999999997,
      "loss": 2.3301,
      "step": 238
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9287592768669128,
      "learning_rate": 0.0001434,
      "loss": 2.271,
      "step": 239
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6420255303382874,
      "learning_rate": 0.00014399999999999998,
      "loss": 2.2121,
      "step": 240
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7259185314178467,
      "learning_rate": 0.0001446,
      "loss": 2.1741,
      "step": 241
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9468121528625488,
      "learning_rate": 0.00014519999999999998,
      "loss": 2.0654,
      "step": 242
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7468271851539612,
      "learning_rate": 0.0001458,
      "loss": 2.032,
      "step": 243
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7728496789932251,
      "learning_rate": 0.00014639999999999998,
      "loss": 1.9918,
      "step": 244
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8336829543113708,
      "learning_rate": 0.000147,
      "loss": 1.9362,
      "step": 245
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9379598498344421,
      "learning_rate": 0.00014759999999999998,
      "loss": 1.8899,
      "step": 246
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7763925790786743,
      "learning_rate": 0.0001482,
      "loss": 1.8069,
      "step": 247
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6318590044975281,
      "learning_rate": 0.00014879999999999998,
      "loss": 1.8182,
      "step": 248
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.2336618900299072,
      "learning_rate": 0.0001494,
      "loss": 1.7067,
      "step": 249
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0564863681793213,
      "learning_rate": 0.00015,
      "loss": 1.6633,
      "step": 250
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8058285713195801,
      "learning_rate": 0.00015059999999999997,
      "loss": 1.7001,
      "step": 251
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.1615879535675049,
      "learning_rate": 0.0001512,
      "loss": 1.6543,
      "step": 252
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.111923098564148,
      "learning_rate": 0.00015179999999999998,
      "loss": 1.6077,
      "step": 253
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6902320981025696,
      "learning_rate": 0.0001524,
      "loss": 1.5464,
      "step": 254
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6416899561882019,
      "learning_rate": 0.00015299999999999998,
      "loss": 1.4835,
      "step": 255
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8890005946159363,
      "learning_rate": 0.0001536,
      "loss": 1.4821,
      "step": 256
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7691505551338196,
      "learning_rate": 0.00015419999999999998,
      "loss": 1.3507,
      "step": 257
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6482474207878113,
      "learning_rate": 0.0001548,
      "loss": 1.5137,
      "step": 258
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.631043016910553,
      "learning_rate": 0.00015539999999999998,
      "loss": 1.3867,
      "step": 259
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8800232410430908,
      "learning_rate": 0.000156,
      "loss": 1.3334,
      "step": 260
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0652426481246948,
      "learning_rate": 0.00015659999999999998,
      "loss": 1.3403,
      "step": 261
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.8873575329780579,
      "learning_rate": 0.0001572,
      "loss": 1.2992,
      "step": 262
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.9815539717674255,
      "learning_rate": 0.0001578,
      "loss": 1.4637,
      "step": 263
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.0861716270446777,
      "learning_rate": 0.0001584,
      "loss": 1.3,
      "step": 264
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6141769886016846,
      "learning_rate": 0.000159,
      "loss": 1.2129,
      "step": 265
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.6298666596412659,
      "learning_rate": 0.0001596,
      "loss": 1.1547,
      "step": 266
    },
    {
      "epoch": 0.07,
      "grad_norm": 0.7386520504951477,
      "learning_rate": 0.0001602,
      "loss": 1.1631,
      "step": 267
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.908612072467804,
      "learning_rate": 0.0001608,
      "loss": 1.174,
      "step": 268
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5633611083030701,
      "learning_rate": 0.0001614,
      "loss": 1.0959,
      "step": 269
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6464408040046692,
      "learning_rate": 0.000162,
      "loss": 1.1182,
      "step": 270
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5747970342636108,
      "learning_rate": 0.0001626,
      "loss": 1.1152,
      "step": 271
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8942895531654358,
      "learning_rate": 0.0001632,
      "loss": 1.0332,
      "step": 272
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5819763541221619,
      "learning_rate": 0.0001638,
      "loss": 0.9907,
      "step": 273
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7528478503227234,
      "learning_rate": 0.0001644,
      "loss": 0.9919,
      "step": 274
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0190292596817017,
      "learning_rate": 0.000165,
      "loss": 1.0839,
      "step": 275
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8147308826446533,
      "learning_rate": 0.0001656,
      "loss": 0.9652,
      "step": 276
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6028050780296326,
      "learning_rate": 0.0001662,
      "loss": 0.9968,
      "step": 277
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6095706224441528,
      "learning_rate": 0.0001668,
      "loss": 0.9875,
      "step": 278
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5937811136245728,
      "learning_rate": 0.0001674,
      "loss": 0.9134,
      "step": 279
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8835862278938293,
      "learning_rate": 0.000168,
      "loss": 0.9615,
      "step": 280
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5415675640106201,
      "learning_rate": 0.0001686,
      "loss": 0.9163,
      "step": 281
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.646998405456543,
      "learning_rate": 0.00016919999999999997,
      "loss": 0.9366,
      "step": 282
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5680844783782959,
      "learning_rate": 0.00016979999999999998,
      "loss": 0.7956,
      "step": 283
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6847488880157471,
      "learning_rate": 0.00017039999999999997,
      "loss": 0.9,
      "step": 284
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6696469783782959,
      "learning_rate": 0.00017099999999999998,
      "loss": 0.9078,
      "step": 285
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.0282379388809204,
      "learning_rate": 0.00017159999999999997,
      "loss": 0.944,
      "step": 286
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.69346022605896,
      "learning_rate": 0.00017219999999999998,
      "loss": 0.8576,
      "step": 287
    },
    {
      "epoch": 0.08,
      "grad_norm": 2.200754165649414,
      "learning_rate": 0.00017279999999999997,
      "loss": 0.8407,
      "step": 288
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6416140198707581,
      "learning_rate": 0.00017339999999999996,
      "loss": 0.8501,
      "step": 289
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6161831021308899,
      "learning_rate": 0.00017399999999999997,
      "loss": 0.8295,
      "step": 290
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5898879170417786,
      "learning_rate": 0.00017459999999999996,
      "loss": 0.7946,
      "step": 291
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.7482264637947083,
      "learning_rate": 0.00017519999999999998,
      "loss": 0.7781,
      "step": 292
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8168420791625977,
      "learning_rate": 0.00017579999999999996,
      "loss": 0.8566,
      "step": 293
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.61380934715271,
      "learning_rate": 0.00017639999999999998,
      "loss": 0.7701,
      "step": 294
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5493533611297607,
      "learning_rate": 0.00017699999999999997,
      "loss": 0.7892,
      "step": 295
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.8183157444000244,
      "learning_rate": 0.00017759999999999998,
      "loss": 0.8373,
      "step": 296
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5944646596908569,
      "learning_rate": 0.00017819999999999997,
      "loss": 0.692,
      "step": 297
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6756807565689087,
      "learning_rate": 0.00017879999999999998,
      "loss": 0.7766,
      "step": 298
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.951880931854248,
      "learning_rate": 0.00017939999999999997,
      "loss": 0.7692,
      "step": 299
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2356246709823608,
      "learning_rate": 0.00017999999999999998,
      "loss": 0.8892,
      "step": 300
    },
    {
      "epoch": 0.08,
      "eval_loss": 0.7172584533691406,
      "eval_runtime": 171.0204,
      "eval_samples_per_second": 15.448,
      "eval_steps_per_second": 0.485,
      "eval_wer": 0.5437723125743752,
      "step": 300
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.597125768661499,
      "learning_rate": 0.00018059999999999997,
      "loss": 0.6976,
      "step": 301
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5146989822387695,
      "learning_rate": 0.00018119999999999999,
      "loss": 0.6915,
      "step": 302
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.5246789455413818,
      "learning_rate": 0.00018179999999999997,
      "loss": 0.6926,
      "step": 303
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6004155278205872,
      "learning_rate": 0.0001824,
      "loss": 0.6573,
      "step": 304
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6242854595184326,
      "learning_rate": 0.00018299999999999998,
      "loss": 0.6527,
      "step": 305
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5948730707168579,
      "learning_rate": 0.0001836,
      "loss": 0.6816,
      "step": 306
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5634476542472839,
      "learning_rate": 0.00018419999999999998,
      "loss": 0.6769,
      "step": 307
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6184859275817871,
      "learning_rate": 0.0001848,
      "loss": 0.6277,
      "step": 308
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5975348949432373,
      "learning_rate": 0.00018539999999999998,
      "loss": 0.5991,
      "step": 309
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5713143944740295,
      "learning_rate": 0.000186,
      "loss": 0.61,
      "step": 310
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6101884841918945,
      "learning_rate": 0.00018659999999999998,
      "loss": 0.5933,
      "step": 311
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.9246454834938049,
      "learning_rate": 0.0001872,
      "loss": 0.6708,
      "step": 312
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.2405016422271729,
      "learning_rate": 0.00018779999999999998,
      "loss": 0.8883,
      "step": 313
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7392088174819946,
      "learning_rate": 0.00018839999999999997,
      "loss": 0.7057,
      "step": 314
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7617101073265076,
      "learning_rate": 0.00018899999999999999,
      "loss": 0.629,
      "step": 315
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6793565154075623,
      "learning_rate": 0.00018959999999999997,
      "loss": 0.7071,
      "step": 316
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8547007441520691,
      "learning_rate": 0.0001902,
      "loss": 0.6688,
      "step": 317
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8015719056129456,
      "learning_rate": 0.00019079999999999998,
      "loss": 0.6857,
      "step": 318
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5988267660140991,
      "learning_rate": 0.0001914,
      "loss": 0.6636,
      "step": 319
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5668240189552307,
      "learning_rate": 0.00019199999999999998,
      "loss": 0.5726,
      "step": 320
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5940657258033752,
      "learning_rate": 0.0001926,
      "loss": 0.6316,
      "step": 321
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6869214773178101,
      "learning_rate": 0.00019319999999999998,
      "loss": 0.6143,
      "step": 322
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6803122162818909,
      "learning_rate": 0.0001938,
      "loss": 0.586,
      "step": 323
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8050258755683899,
      "learning_rate": 0.00019439999999999998,
      "loss": 0.5567,
      "step": 324
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.224608302116394,
      "learning_rate": 0.000195,
      "loss": 0.8584,
      "step": 325
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5452972650527954,
      "learning_rate": 0.00019559999999999998,
      "loss": 0.5932,
      "step": 326
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6073583960533142,
      "learning_rate": 0.0001962,
      "loss": 0.6487,
      "step": 327
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.4902184307575226,
      "learning_rate": 0.00019679999999999999,
      "loss": 0.5625,
      "step": 328
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.48818832635879517,
      "learning_rate": 0.0001974,
      "loss": 0.4762,
      "step": 329
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.5774900913238525,
      "learning_rate": 0.000198,
      "loss": 0.5132,
      "step": 330
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.615350067615509,
      "learning_rate": 0.0001986,
      "loss": 0.588,
      "step": 331
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6787912249565125,
      "learning_rate": 0.0001992,
      "loss": 0.4533,
      "step": 332
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6597332954406738,
      "learning_rate": 0.0001998,
      "loss": 0.598,
      "step": 333
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.7246991395950317,
      "learning_rate": 0.0002004,
      "loss": 0.673,
      "step": 334
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8846721053123474,
      "learning_rate": 0.000201,
      "loss": 0.6418,
      "step": 335
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.6747126579284668,
      "learning_rate": 0.0002016,
      "loss": 0.5395,
      "step": 336
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.06531822681427,
      "learning_rate": 0.0002022,
      "loss": 0.5234,
      "step": 337
    },
    {
      "epoch": 0.09,
      "grad_norm": 0.8795617818832397,
      "learning_rate": 0.0002028,
      "loss": 0.53,
      "step": 338
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6376983523368835,
      "learning_rate": 0.00020339999999999998,
      "loss": 0.5147,
      "step": 339
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.45792925357818604,
      "learning_rate": 0.000204,
      "loss": 0.5719,
      "step": 340
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.562965452671051,
      "learning_rate": 0.00020459999999999999,
      "loss": 0.5361,
      "step": 341
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6213715672492981,
      "learning_rate": 0.0002052,
      "loss": 0.5697,
      "step": 342
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6182550191879272,
      "learning_rate": 0.0002058,
      "loss": 0.5543,
      "step": 343
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6350985765457153,
      "learning_rate": 0.00020639999999999998,
      "loss": 0.5555,
      "step": 344
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.541408896446228,
      "learning_rate": 0.00020699999999999996,
      "loss": 0.5562,
      "step": 345
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.46715688705444336,
      "learning_rate": 0.00020759999999999998,
      "loss": 0.5353,
      "step": 346
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.530724048614502,
      "learning_rate": 0.00020819999999999996,
      "loss": 0.5058,
      "step": 347
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6438038349151611,
      "learning_rate": 0.00020879999999999998,
      "loss": 0.4803,
      "step": 348
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6830188035964966,
      "learning_rate": 0.00020939999999999997,
      "loss": 0.5462,
      "step": 349
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.5265529155731201,
      "learning_rate": 0.00020999999999999998,
      "loss": 0.7198,
      "step": 350
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4759276211261749,
      "learning_rate": 0.00021059999999999997,
      "loss": 0.4704,
      "step": 351
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5067124962806702,
      "learning_rate": 0.00021119999999999996,
      "loss": 0.5499,
      "step": 352
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5527698397636414,
      "learning_rate": 0.00021179999999999997,
      "loss": 0.4776,
      "step": 353
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5337108373641968,
      "learning_rate": 0.00021239999999999996,
      "loss": 0.5158,
      "step": 354
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.4990135133266449,
      "learning_rate": 0.00021299999999999997,
      "loss": 0.4449,
      "step": 355
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.537494421005249,
      "learning_rate": 0.00021359999999999996,
      "loss": 0.4792,
      "step": 356
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6600267291069031,
      "learning_rate": 0.00021419999999999998,
      "loss": 0.538,
      "step": 357
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5059555768966675,
      "learning_rate": 0.00021479999999999996,
      "loss": 0.4993,
      "step": 358
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7512426972389221,
      "learning_rate": 0.00021539999999999998,
      "loss": 0.5212,
      "step": 359
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5330248475074768,
      "learning_rate": 0.00021599999999999996,
      "loss": 0.4928,
      "step": 360
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7662690877914429,
      "learning_rate": 0.00021659999999999998,
      "loss": 0.5668,
      "step": 361
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.8522526621818542,
      "learning_rate": 0.00021719999999999997,
      "loss": 0.5153,
      "step": 362
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.364303469657898,
      "learning_rate": 0.00021779999999999998,
      "loss": 0.6742,
      "step": 363
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5775818824768066,
      "learning_rate": 0.00021839999999999997,
      "loss": 0.4178,
      "step": 364
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6175068020820618,
      "learning_rate": 0.00021899999999999998,
      "loss": 0.4763,
      "step": 365
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5906959772109985,
      "learning_rate": 0.00021959999999999997,
      "loss": 0.4612,
      "step": 366
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6180601119995117,
      "learning_rate": 0.00022019999999999999,
      "loss": 0.5098,
      "step": 367
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6402105689048767,
      "learning_rate": 0.00022079999999999997,
      "loss": 0.5066,
      "step": 368
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5973054766654968,
      "learning_rate": 0.0002214,
      "loss": 0.4707,
      "step": 369
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5442626476287842,
      "learning_rate": 0.00022199999999999998,
      "loss": 0.4394,
      "step": 370
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6522595286369324,
      "learning_rate": 0.0002226,
      "loss": 0.5165,
      "step": 371
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.5563915967941284,
      "learning_rate": 0.00022319999999999998,
      "loss": 0.4536,
      "step": 372
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.7108616232872009,
      "learning_rate": 0.0002238,
      "loss": 0.5118,
      "step": 373
    },
    {
      "epoch": 0.1,
      "grad_norm": 0.6864888072013855,
      "learning_rate": 0.00022439999999999998,
      "loss": 0.5807,
      "step": 374
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.0308125019073486,
      "learning_rate": 0.000225,
      "loss": 0.5745,
      "step": 375
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5808644890785217,
      "learning_rate": 0.00022559999999999998,
      "loss": 0.4719,
      "step": 376
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5658377408981323,
      "learning_rate": 0.00022619999999999997,
      "loss": 0.4948,
      "step": 377
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4767098128795624,
      "learning_rate": 0.00022679999999999998,
      "loss": 0.4478,
      "step": 378
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5922232866287231,
      "learning_rate": 0.00022739999999999997,
      "loss": 0.4892,
      "step": 379
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6017966270446777,
      "learning_rate": 0.00022799999999999999,
      "loss": 0.4752,
      "step": 380
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5639545917510986,
      "learning_rate": 0.00022859999999999997,
      "loss": 0.4956,
      "step": 381
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6347129344940186,
      "learning_rate": 0.0002292,
      "loss": 0.4338,
      "step": 382
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7178595066070557,
      "learning_rate": 0.00022979999999999997,
      "loss": 0.4919,
      "step": 383
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5838844180107117,
      "learning_rate": 0.0002304,
      "loss": 0.4659,
      "step": 384
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5032572746276855,
      "learning_rate": 0.00023099999999999998,
      "loss": 0.4384,
      "step": 385
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6514555811882019,
      "learning_rate": 0.0002316,
      "loss": 0.5302,
      "step": 386
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.2846598625183105,
      "learning_rate": 0.00023219999999999998,
      "loss": 0.6211,
      "step": 387
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.9603703022003174,
      "learning_rate": 0.0002328,
      "loss": 0.5845,
      "step": 388
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5109894275665283,
      "learning_rate": 0.00023339999999999998,
      "loss": 0.5042,
      "step": 389
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.41993045806884766,
      "learning_rate": 0.000234,
      "loss": 0.4013,
      "step": 390
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.4771544933319092,
      "learning_rate": 0.00023459999999999998,
      "loss": 0.4242,
      "step": 391
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5376977920532227,
      "learning_rate": 0.0002352,
      "loss": 0.4721,
      "step": 392
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44298693537712097,
      "learning_rate": 0.00023579999999999999,
      "loss": 0.4385,
      "step": 393
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5226683020591736,
      "learning_rate": 0.0002364,
      "loss": 0.4464,
      "step": 394
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5520755648612976,
      "learning_rate": 0.000237,
      "loss": 0.4373,
      "step": 395
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6308500170707703,
      "learning_rate": 0.0002376,
      "loss": 0.5097,
      "step": 396
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6265766024589539,
      "learning_rate": 0.0002382,
      "loss": 0.4994,
      "step": 397
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.6144728660583496,
      "learning_rate": 0.0002388,
      "loss": 0.4836,
      "step": 398
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7825990915298462,
      "learning_rate": 0.0002394,
      "loss": 0.4748,
      "step": 399
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7728911638259888,
      "learning_rate": 0.00023999999999999998,
      "loss": 0.4725,
      "step": 400
    },
    {
      "epoch": 0.11,
      "eval_loss": 0.42928358912467957,
      "eval_runtime": 171.4081,
      "eval_samples_per_second": 15.414,
      "eval_steps_per_second": 0.484,
      "eval_wer": 0.38175327251090835,
      "step": 400
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5555692911148071,
      "learning_rate": 0.0002406,
      "loss": 0.4037,
      "step": 401
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.657884418964386,
      "learning_rate": 0.00024119999999999998,
      "loss": 0.5,
      "step": 402
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.42841479182243347,
      "learning_rate": 0.0002418,
      "loss": 0.4055,
      "step": 403
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.43870121240615845,
      "learning_rate": 0.00024239999999999998,
      "loss": 0.3747,
      "step": 404
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5576856136322021,
      "learning_rate": 0.000243,
      "loss": 0.4685,
      "step": 405
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5431687235832214,
      "learning_rate": 0.00024359999999999999,
      "loss": 0.4369,
      "step": 406
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.44469699263572693,
      "learning_rate": 0.00024419999999999997,
      "loss": 0.4409,
      "step": 407
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5646331906318665,
      "learning_rate": 0.0002448,
      "loss": 0.4274,
      "step": 408
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.7555360198020935,
      "learning_rate": 0.00024539999999999995,
      "loss": 0.6021,
      "step": 409
    },
    {
      "epoch": 0.11,
      "grad_norm": 0.5282618999481201,
      "learning_rate": 0.00024599999999999996,
      "loss": 0.3514,
      "step": 410
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0213422775268555,
      "learning_rate": 0.0002466,
      "loss": 0.6095,
      "step": 411
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.0434601306915283,
      "learning_rate": 0.0002472,
      "loss": 0.5557,
      "step": 412
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.2154072523117065,
      "learning_rate": 0.00024779999999999995,
      "loss": 0.5288,
      "step": 413
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5309038162231445,
      "learning_rate": 0.00024839999999999997,
      "loss": 0.4127,
      "step": 414
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5632144212722778,
      "learning_rate": 0.000249,
      "loss": 0.4458,
      "step": 415
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.6567128300666809,
      "learning_rate": 0.00024959999999999994,
      "loss": 0.53,
      "step": 416
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.574236273765564,
      "learning_rate": 0.00025019999999999996,
      "loss": 0.418,
      "step": 417
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5394589900970459,
      "learning_rate": 0.00025079999999999997,
      "loss": 0.4138,
      "step": 418
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5747696161270142,
      "learning_rate": 0.0002514,
      "loss": 0.4564,
      "step": 419
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5868191123008728,
      "learning_rate": 0.00025199999999999995,
      "loss": 0.46,
      "step": 420
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.524992823600769,
      "learning_rate": 0.00025259999999999996,
      "loss": 0.3853,
      "step": 421
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7171434760093689,
      "learning_rate": 0.0002532,
      "loss": 0.442,
      "step": 422
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.43013328313827515,
      "learning_rate": 0.0002538,
      "loss": 0.3623,
      "step": 423
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8468272089958191,
      "learning_rate": 0.00025439999999999995,
      "loss": 0.4874,
      "step": 424
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.524482250213623,
      "learning_rate": 0.00025499999999999996,
      "loss": 0.72,
      "step": 425
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4677557945251465,
      "learning_rate": 0.0002556,
      "loss": 0.4749,
      "step": 426
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4877980947494507,
      "learning_rate": 0.0002562,
      "loss": 0.5079,
      "step": 427
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5473743081092834,
      "learning_rate": 0.00025679999999999995,
      "loss": 0.4085,
      "step": 428
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5147001147270203,
      "learning_rate": 0.00025739999999999997,
      "loss": 0.4105,
      "step": 429
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.48724186420440674,
      "learning_rate": 0.000258,
      "loss": 0.4041,
      "step": 430
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4220973551273346,
      "learning_rate": 0.0002586,
      "loss": 0.3524,
      "step": 431
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.8895474076271057,
      "learning_rate": 0.00025919999999999996,
      "loss": 0.3594,
      "step": 432
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.44929108023643494,
      "learning_rate": 0.00025979999999999997,
      "loss": 0.384,
      "step": 433
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.6946247220039368,
      "learning_rate": 0.0002604,
      "loss": 0.4814,
      "step": 434
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.6004640460014343,
      "learning_rate": 0.000261,
      "loss": 0.4415,
      "step": 435
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.6026476621627808,
      "learning_rate": 0.00026159999999999996,
      "loss": 0.4025,
      "step": 436
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.6825188994407654,
      "learning_rate": 0.0002622,
      "loss": 0.3161,
      "step": 437
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.7453775405883789,
      "learning_rate": 0.0002628,
      "loss": 0.4218,
      "step": 438
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.6752832531929016,
      "learning_rate": 0.00026339999999999995,
      "loss": 0.4135,
      "step": 439
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5180003046989441,
      "learning_rate": 0.00026399999999999997,
      "loss": 0.3687,
      "step": 440
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5136510729789734,
      "learning_rate": 0.0002646,
      "loss": 0.4182,
      "step": 441
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5731140971183777,
      "learning_rate": 0.0002652,
      "loss": 0.4168,
      "step": 442
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.4449657201766968,
      "learning_rate": 0.00026579999999999996,
      "loss": 0.3596,
      "step": 443
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.52846360206604,
      "learning_rate": 0.00026639999999999997,
      "loss": 0.3505,
      "step": 444
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5767542719841003,
      "learning_rate": 0.000267,
      "loss": 0.3748,
      "step": 445
    },
    {
      "epoch": 0.12,
      "grad_norm": 0.5917932987213135,
      "learning_rate": 0.0002676,
      "loss": 0.4271,
      "step": 446
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5096489787101746,
      "learning_rate": 0.00026819999999999996,
      "loss": 0.3859,
      "step": 447
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4921840727329254,
      "learning_rate": 0.0002688,
      "loss": 0.364,
      "step": 448
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.6594215035438538,
      "learning_rate": 0.0002694,
      "loss": 0.4513,
      "step": 449
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.094650387763977,
      "learning_rate": 0.00027,
      "loss": 0.5321,
      "step": 450
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5572667717933655,
      "learning_rate": 0.00027059999999999996,
      "loss": 0.3642,
      "step": 451
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.6010761857032776,
      "learning_rate": 0.0002712,
      "loss": 0.445,
      "step": 452
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5207629203796387,
      "learning_rate": 0.0002718,
      "loss": 0.2994,
      "step": 453
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4807242453098297,
      "learning_rate": 0.0002724,
      "loss": 0.3478,
      "step": 454
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.40843310952186584,
      "learning_rate": 0.00027299999999999997,
      "loss": 0.3498,
      "step": 455
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.431099534034729,
      "learning_rate": 0.0002736,
      "loss": 0.3291,
      "step": 456
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.537287175655365,
      "learning_rate": 0.0002742,
      "loss": 0.3788,
      "step": 457
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.47805091738700867,
      "learning_rate": 0.0002748,
      "loss": 0.3665,
      "step": 458
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5463828444480896,
      "learning_rate": 0.00027539999999999997,
      "loss": 0.4109,
      "step": 459
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7992866635322571,
      "learning_rate": 0.000276,
      "loss": 0.3751,
      "step": 460
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.6479230523109436,
      "learning_rate": 0.0002766,
      "loss": 0.4284,
      "step": 461
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.9112034440040588,
      "learning_rate": 0.0002772,
      "loss": 0.3583,
      "step": 462
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.7291679382324219,
      "learning_rate": 0.0002778,
      "loss": 0.4037,
      "step": 463
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5137830376625061,
      "learning_rate": 0.0002784,
      "loss": 0.3511,
      "step": 464
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5904055237770081,
      "learning_rate": 0.000279,
      "loss": 0.3649,
      "step": 465
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.68380206823349,
      "learning_rate": 0.00027959999999999997,
      "loss": 0.5057,
      "step": 466
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5481022000312805,
      "learning_rate": 0.0002802,
      "loss": 0.4094,
      "step": 467
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5266169905662537,
      "learning_rate": 0.0002808,
      "loss": 0.2696,
      "step": 468
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4450572431087494,
      "learning_rate": 0.00028139999999999996,
      "loss": 0.3039,
      "step": 469
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5007038712501526,
      "learning_rate": 0.00028199999999999997,
      "loss": 0.3507,
      "step": 470
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.41990089416503906,
      "learning_rate": 0.0002826,
      "loss": 0.3075,
      "step": 471
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.4760058522224426,
      "learning_rate": 0.00028319999999999994,
      "loss": 0.3192,
      "step": 472
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5710130333900452,
      "learning_rate": 0.00028379999999999996,
      "loss": 0.311,
      "step": 473
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.0794528722763062,
      "learning_rate": 0.0002844,
      "loss": 0.4313,
      "step": 474
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.549524188041687,
      "learning_rate": 0.000285,
      "loss": 0.4751,
      "step": 475
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.7757102847099304,
      "learning_rate": 0.00028559999999999995,
      "loss": 0.4112,
      "step": 476
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.493418425321579,
      "learning_rate": 0.00028619999999999996,
      "loss": 0.3455,
      "step": 477
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5895398259162903,
      "learning_rate": 0.0002868,
      "loss": 0.3465,
      "step": 478
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5456633567810059,
      "learning_rate": 0.00028739999999999994,
      "loss": 0.3404,
      "step": 479
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.5898130536079407,
      "learning_rate": 0.00028799999999999995,
      "loss": 0.4041,
      "step": 480
    },
    {
      "epoch": 0.13,
      "grad_norm": 0.45412811636924744,
      "learning_rate": 0.00028859999999999997,
      "loss": 0.3535,
      "step": 481
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.664076030254364,
      "learning_rate": 0.0002892,
      "loss": 0.4296,
      "step": 482
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5252702236175537,
      "learning_rate": 0.00028979999999999994,
      "loss": 0.4217,
      "step": 483
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.6009112596511841,
      "learning_rate": 0.00029039999999999996,
      "loss": 0.4314,
      "step": 484
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.6255316138267517,
      "learning_rate": 0.00029099999999999997,
      "loss": 0.4317,
      "step": 485
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.620392382144928,
      "learning_rate": 0.0002916,
      "loss": 0.3193,
      "step": 486
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0710258483886719,
      "learning_rate": 0.00029219999999999995,
      "loss": 0.4775,
      "step": 487
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.9692310094833374,
      "learning_rate": 0.00029279999999999996,
      "loss": 0.4718,
      "step": 488
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4846158027648926,
      "learning_rate": 0.0002934,
      "loss": 0.3929,
      "step": 489
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.39714372158050537,
      "learning_rate": 0.000294,
      "loss": 0.3582,
      "step": 490
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.48467954993247986,
      "learning_rate": 0.00029459999999999995,
      "loss": 0.3725,
      "step": 491
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5484828948974609,
      "learning_rate": 0.00029519999999999997,
      "loss": 0.4265,
      "step": 492
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4500161111354828,
      "learning_rate": 0.0002958,
      "loss": 0.3752,
      "step": 493
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5094245672225952,
      "learning_rate": 0.0002964,
      "loss": 0.3674,
      "step": 494
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5303798913955688,
      "learning_rate": 0.00029699999999999996,
      "loss": 0.3087,
      "step": 495
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.6832482218742371,
      "learning_rate": 0.00029759999999999997,
      "loss": 0.4146,
      "step": 496
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5515682697296143,
      "learning_rate": 0.0002982,
      "loss": 0.3979,
      "step": 497
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5210853815078735,
      "learning_rate": 0.0002988,
      "loss": 0.3206,
      "step": 498
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.7560710906982422,
      "learning_rate": 0.00029939999999999996,
      "loss": 0.5224,
      "step": 499
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.5012866258621216,
      "learning_rate": 0.0003,
      "loss": 0.5347,
      "step": 500
    },
    {
      "epoch": 0.14,
      "eval_loss": 0.3474210202693939,
      "eval_runtime": 170.2315,
      "eval_samples_per_second": 15.52,
      "eval_steps_per_second": 0.488,
      "eval_wer": 0.3284212614042047,
      "step": 500
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5049582719802856,
      "learning_rate": 0.00029997821667150735,
      "loss": 0.4344,
      "step": 501
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.6476037502288818,
      "learning_rate": 0.0002999564333430148,
      "loss": 0.3645,
      "step": 502
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5802082419395447,
      "learning_rate": 0.0002999346500145222,
      "loss": 0.4039,
      "step": 503
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4423276484012604,
      "learning_rate": 0.0002999128666860296,
      "loss": 0.363,
      "step": 504
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4725792109966278,
      "learning_rate": 0.000299891083357537,
      "loss": 0.2965,
      "step": 505
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5099973678588867,
      "learning_rate": 0.00029986930002904444,
      "loss": 0.353,
      "step": 506
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5197446942329407,
      "learning_rate": 0.0002998475167005518,
      "loss": 0.4025,
      "step": 507
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5151961445808411,
      "learning_rate": 0.00029982573337205924,
      "loss": 0.3882,
      "step": 508
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.49682724475860596,
      "learning_rate": 0.0002998039500435666,
      "loss": 0.3479,
      "step": 509
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4763902425765991,
      "learning_rate": 0.00029978216671507405,
      "loss": 0.3306,
      "step": 510
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.6756965517997742,
      "learning_rate": 0.0002997603833865814,
      "loss": 0.3203,
      "step": 511
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.156887412071228,
      "learning_rate": 0.00029973860005808885,
      "loss": 0.4423,
      "step": 512
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.824343204498291,
      "learning_rate": 0.0002997168167295963,
      "loss": 0.3566,
      "step": 513
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.47930973768234253,
      "learning_rate": 0.00029969503340110366,
      "loss": 0.3205,
      "step": 514
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.5937102437019348,
      "learning_rate": 0.0002996732500726111,
      "loss": 0.3557,
      "step": 515
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4637809991836548,
      "learning_rate": 0.00029965146674411846,
      "loss": 0.2882,
      "step": 516
    },
    {
      "epoch": 0.14,
      "grad_norm": 0.4964064061641693,
      "learning_rate": 0.0002996296834156259,
      "loss": 0.3395,
      "step": 517
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4626682698726654,
      "learning_rate": 0.00029960790008713326,
      "loss": 0.2776,
      "step": 518
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.57054203748703,
      "learning_rate": 0.0002995861167586407,
      "loss": 0.3577,
      "step": 519
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5787385106086731,
      "learning_rate": 0.0002995643334301481,
      "loss": 0.3534,
      "step": 520
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9014143943786621,
      "learning_rate": 0.0002995425501016555,
      "loss": 0.3777,
      "step": 521
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.49698081612586975,
      "learning_rate": 0.0002995207667731629,
      "loss": 0.278,
      "step": 522
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8398666977882385,
      "learning_rate": 0.0002994989834446703,
      "loss": 0.4177,
      "step": 523
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.2018078565597534,
      "learning_rate": 0.00029947720011617773,
      "loss": 0.3053,
      "step": 524
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.8468799591064453,
      "learning_rate": 0.0002994554167876851,
      "loss": 0.4752,
      "step": 525
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.402559369802475,
      "learning_rate": 0.00029943363345919253,
      "loss": 0.2799,
      "step": 526
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4577713906764984,
      "learning_rate": 0.00029941185013069996,
      "loss": 0.3582,
      "step": 527
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4533730149269104,
      "learning_rate": 0.00029939006680220734,
      "loss": 0.3428,
      "step": 528
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5195863842964172,
      "learning_rate": 0.00029936828347371477,
      "loss": 0.338,
      "step": 529
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5113446712493896,
      "learning_rate": 0.00029934650014522214,
      "loss": 0.3589,
      "step": 530
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4785594940185547,
      "learning_rate": 0.00029932471681672957,
      "loss": 0.3465,
      "step": 531
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.45277029275894165,
      "learning_rate": 0.00029930293348823695,
      "loss": 0.3689,
      "step": 532
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5170654654502869,
      "learning_rate": 0.0002992811501597444,
      "loss": 0.385,
      "step": 533
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4315006732940674,
      "learning_rate": 0.0002992593668312518,
      "loss": 0.2786,
      "step": 534
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5224939584732056,
      "learning_rate": 0.0002992375835027592,
      "loss": 0.3451,
      "step": 535
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6659542918205261,
      "learning_rate": 0.0002992158001742666,
      "loss": 0.3868,
      "step": 536
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6071867942810059,
      "learning_rate": 0.000299194016845774,
      "loss": 0.3534,
      "step": 537
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6144683361053467,
      "learning_rate": 0.0002991722335172814,
      "loss": 0.4966,
      "step": 538
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.3473416864871979,
      "learning_rate": 0.0002991504501887888,
      "loss": 0.2865,
      "step": 539
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.392007976770401,
      "learning_rate": 0.0002991286668602962,
      "loss": 0.2922,
      "step": 540
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5067814588546753,
      "learning_rate": 0.00029910688353180365,
      "loss": 0.3329,
      "step": 541
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.42341846227645874,
      "learning_rate": 0.000299085100203311,
      "loss": 0.3284,
      "step": 542
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.44310808181762695,
      "learning_rate": 0.00029906331687481845,
      "loss": 0.3274,
      "step": 543
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5100448131561279,
      "learning_rate": 0.0002990415335463258,
      "loss": 0.3756,
      "step": 544
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.46508464217185974,
      "learning_rate": 0.00029901975021783325,
      "loss": 0.3716,
      "step": 545
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4970828890800476,
      "learning_rate": 0.00029899796688934063,
      "loss": 0.3314,
      "step": 546
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.5275452136993408,
      "learning_rate": 0.00029897618356084806,
      "loss": 0.2536,
      "step": 547
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.6074528098106384,
      "learning_rate": 0.0002989544002323555,
      "loss": 0.3796,
      "step": 548
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4602351188659668,
      "learning_rate": 0.0002989326169038629,
      "loss": 0.2563,
      "step": 549
    },
    {
      "epoch": 0.15,
      "grad_norm": 1.1640183925628662,
      "learning_rate": 0.0002989108335753703,
      "loss": 0.5897,
      "step": 550
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4600650668144226,
      "learning_rate": 0.00029888905024687767,
      "loss": 0.2751,
      "step": 551
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.4498225450515747,
      "learning_rate": 0.0002988672669183851,
      "loss": 0.319,
      "step": 552
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.31998562812805176,
      "learning_rate": 0.00029884548358989247,
      "loss": 0.2166,
      "step": 553
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4824756979942322,
      "learning_rate": 0.0002988237002613999,
      "loss": 0.2454,
      "step": 554
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.46635177731513977,
      "learning_rate": 0.00029880191693290733,
      "loss": 0.3222,
      "step": 555
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.41025975346565247,
      "learning_rate": 0.00029878013360441476,
      "loss": 0.2383,
      "step": 556
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5274400115013123,
      "learning_rate": 0.00029875835027592213,
      "loss": 0.3176,
      "step": 557
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.47062432765960693,
      "learning_rate": 0.00029873656694742956,
      "loss": 0.344,
      "step": 558
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6155229210853577,
      "learning_rate": 0.00029871478361893694,
      "loss": 0.3311,
      "step": 559
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5067873597145081,
      "learning_rate": 0.00029869300029044437,
      "loss": 0.2792,
      "step": 560
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6369908452033997,
      "learning_rate": 0.00029867121696195174,
      "loss": 0.3131,
      "step": 561
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8392572999000549,
      "learning_rate": 0.00029864943363345917,
      "loss": 0.3781,
      "step": 562
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.316025972366333,
      "learning_rate": 0.0002986276503049666,
      "loss": 0.4831,
      "step": 563
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4975891709327698,
      "learning_rate": 0.000298605866976474,
      "loss": 0.2637,
      "step": 564
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44131529331207275,
      "learning_rate": 0.0002985840836479814,
      "loss": 0.3131,
      "step": 565
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.44040757417678833,
      "learning_rate": 0.0002985623003194888,
      "loss": 0.3308,
      "step": 566
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5284947752952576,
      "learning_rate": 0.0002985405169909962,
      "loss": 0.2699,
      "step": 567
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.39614006876945496,
      "learning_rate": 0.0002985187336625036,
      "loss": 0.2679,
      "step": 568
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4401058256626129,
      "learning_rate": 0.000298496950334011,
      "loss": 0.2157,
      "step": 569
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.45733049511909485,
      "learning_rate": 0.00029847516700551844,
      "loss": 0.2702,
      "step": 570
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5249406099319458,
      "learning_rate": 0.0002984533836770258,
      "loss": 0.3312,
      "step": 571
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4238438010215759,
      "learning_rate": 0.00029843160034853325,
      "loss": 0.3211,
      "step": 572
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6691280603408813,
      "learning_rate": 0.0002984098170200406,
      "loss": 0.3798,
      "step": 573
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.6021428108215332,
      "learning_rate": 0.00029838803369154805,
      "loss": 0.3001,
      "step": 574
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.8012463450431824,
      "learning_rate": 0.0002983662503630554,
      "loss": 0.4147,
      "step": 575
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4147251546382904,
      "learning_rate": 0.00029834446703456285,
      "loss": 0.3383,
      "step": 576
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4129721522331238,
      "learning_rate": 0.0002983226837060703,
      "loss": 0.2817,
      "step": 577
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4843257665634155,
      "learning_rate": 0.00029830090037757766,
      "loss": 0.2749,
      "step": 578
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.47937652468681335,
      "learning_rate": 0.0002982791170490851,
      "loss": 0.3346,
      "step": 579
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.43053367733955383,
      "learning_rate": 0.00029825733372059246,
      "loss": 0.3136,
      "step": 580
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5750010013580322,
      "learning_rate": 0.0002982355503920999,
      "loss": 0.3332,
      "step": 581
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.36734360456466675,
      "learning_rate": 0.00029821376706360727,
      "loss": 0.2623,
      "step": 582
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.3692960739135742,
      "learning_rate": 0.0002981919837351147,
      "loss": 0.2528,
      "step": 583
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.3336097002029419,
      "learning_rate": 0.0002981702004066221,
      "loss": 0.193,
      "step": 584
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.4807260036468506,
      "learning_rate": 0.0002981484170781295,
      "loss": 0.2913,
      "step": 585
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.7381483316421509,
      "learning_rate": 0.00029812663374963693,
      "loss": 0.3444,
      "step": 586
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.1809611320495605,
      "learning_rate": 0.0002981048504211443,
      "loss": 0.3813,
      "step": 587
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.2103229761123657,
      "learning_rate": 0.00029808306709265173,
      "loss": 0.7385,
      "step": 588
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5502937436103821,
      "learning_rate": 0.0002980612837641591,
      "loss": 0.3237,
      "step": 589
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6069751977920532,
      "learning_rate": 0.00029803950043566654,
      "loss": 0.3363,
      "step": 590
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.3945714235305786,
      "learning_rate": 0.00029801771710717397,
      "loss": 0.2409,
      "step": 591
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.40250444412231445,
      "learning_rate": 0.0002979959337786814,
      "loss": 0.3098,
      "step": 592
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5117996335029602,
      "learning_rate": 0.00029797415045018877,
      "loss": 0.2972,
      "step": 593
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5737434029579163,
      "learning_rate": 0.00029795236712169614,
      "loss": 0.3411,
      "step": 594
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5053219795227051,
      "learning_rate": 0.0002979305837932036,
      "loss": 0.2493,
      "step": 595
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.42066705226898193,
      "learning_rate": 0.00029790880046471095,
      "loss": 0.2531,
      "step": 596
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.46745309233665466,
      "learning_rate": 0.0002978870171362184,
      "loss": 0.2629,
      "step": 597
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6389703154563904,
      "learning_rate": 0.0002978652338077258,
      "loss": 0.3123,
      "step": 598
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.688505232334137,
      "learning_rate": 0.00029784345047923324,
      "loss": 0.3907,
      "step": 599
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.0038894414901733,
      "learning_rate": 0.0002978216671507406,
      "loss": 0.3143,
      "step": 600
    },
    {
      "epoch": 0.17,
      "eval_loss": 0.2965974509716034,
      "eval_runtime": 171.9256,
      "eval_samples_per_second": 15.367,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.2852241174137247,
      "step": 600
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.49221402406692505,
      "learning_rate": 0.000297799883822248,
      "loss": 0.2809,
      "step": 601
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5574486255645752,
      "learning_rate": 0.0002977781004937554,
      "loss": 0.3199,
      "step": 602
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5281384587287903,
      "learning_rate": 0.0002977563171652628,
      "loss": 0.3177,
      "step": 603
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5717552900314331,
      "learning_rate": 0.0002977345338367702,
      "loss": 0.2712,
      "step": 604
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5183612704277039,
      "learning_rate": 0.00029771275050827765,
      "loss": 0.2826,
      "step": 605
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.41099125146865845,
      "learning_rate": 0.0002976909671797851,
      "loss": 0.216,
      "step": 606
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4714716672897339,
      "learning_rate": 0.00029766918385129245,
      "loss": 0.29,
      "step": 607
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5883127450942993,
      "learning_rate": 0.0002976474005227999,
      "loss": 0.2829,
      "step": 608
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5185942649841309,
      "learning_rate": 0.00029762561719430726,
      "loss": 0.338,
      "step": 609
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6933175325393677,
      "learning_rate": 0.00029760383386581463,
      "loss": 0.422,
      "step": 610
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.5702596306800842,
      "learning_rate": 0.00029758205053732206,
      "loss": 0.3231,
      "step": 611
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.7270732522010803,
      "learning_rate": 0.0002975602672088295,
      "loss": 0.2989,
      "step": 612
    },
    {
      "epoch": 0.17,
      "grad_norm": 1.4801545143127441,
      "learning_rate": 0.0002975384838803369,
      "loss": 0.5907,
      "step": 613
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.40057647228240967,
      "learning_rate": 0.0002975167005518443,
      "loss": 0.254,
      "step": 614
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.47022998332977295,
      "learning_rate": 0.0002974949172233517,
      "loss": 0.3205,
      "step": 615
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.3562594950199127,
      "learning_rate": 0.0002974731338948591,
      "loss": 0.2269,
      "step": 616
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.3910121023654938,
      "learning_rate": 0.0002974513505663665,
      "loss": 0.243,
      "step": 617
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4242771565914154,
      "learning_rate": 0.0002974295672378739,
      "loss": 0.2818,
      "step": 618
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4887290894985199,
      "learning_rate": 0.00029740778390938133,
      "loss": 0.3026,
      "step": 619
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4295867681503296,
      "learning_rate": 0.00029738600058088876,
      "loss": 0.2179,
      "step": 620
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.48272705078125,
      "learning_rate": 0.00029736421725239613,
      "loss": 0.2633,
      "step": 621
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.4639403522014618,
      "learning_rate": 0.00029734243392390356,
      "loss": 0.2778,
      "step": 622
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.514103353023529,
      "learning_rate": 0.00029732065059541094,
      "loss": 0.3318,
      "step": 623
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.6857847571372986,
      "learning_rate": 0.00029729886726691837,
      "loss": 0.3204,
      "step": 624
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.7298403978347778,
      "learning_rate": 0.00029727708393842574,
      "loss": 0.4348,
      "step": 625
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.364201158285141,
      "learning_rate": 0.00029725530060993317,
      "loss": 0.2264,
      "step": 626
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5931879878044128,
      "learning_rate": 0.0002972335172814406,
      "loss": 0.2842,
      "step": 627
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.3920009732246399,
      "learning_rate": 0.000297211733952948,
      "loss": 0.2485,
      "step": 628
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.466947466135025,
      "learning_rate": 0.0002971899506244554,
      "loss": 0.2105,
      "step": 629
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4888113737106323,
      "learning_rate": 0.0002971681672959628,
      "loss": 0.266,
      "step": 630
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.39012202620506287,
      "learning_rate": 0.0002971463839674702,
      "loss": 0.2398,
      "step": 631
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.45002418756484985,
      "learning_rate": 0.0002971246006389776,
      "loss": 0.2959,
      "step": 632
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6475749015808105,
      "learning_rate": 0.000297102817310485,
      "loss": 0.1979,
      "step": 633
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4272746443748474,
      "learning_rate": 0.00029708103398199244,
      "loss": 0.2427,
      "step": 634
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.8010067343711853,
      "learning_rate": 0.0002970592506534998,
      "loss": 0.4289,
      "step": 635
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6696668267250061,
      "learning_rate": 0.00029703746732500725,
      "loss": 0.2568,
      "step": 636
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.7442193031311035,
      "learning_rate": 0.0002970156839965146,
      "loss": 0.2618,
      "step": 637
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0064183473587036,
      "learning_rate": 0.00029699390066802205,
      "loss": 0.3431,
      "step": 638
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5382173657417297,
      "learning_rate": 0.0002969721173395294,
      "loss": 0.2936,
      "step": 639
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4259853959083557,
      "learning_rate": 0.00029695033401103685,
      "loss": 0.2515,
      "step": 640
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5020949840545654,
      "learning_rate": 0.0002969285506825443,
      "loss": 0.2768,
      "step": 641
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4756443500518799,
      "learning_rate": 0.0002969067673540517,
      "loss": 0.25,
      "step": 642
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6050547957420349,
      "learning_rate": 0.0002968849840255591,
      "loss": 0.3419,
      "step": 643
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.47839295864105225,
      "learning_rate": 0.00029686320069706646,
      "loss": 0.3059,
      "step": 644
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5446959137916565,
      "learning_rate": 0.0002968414173685739,
      "loss": 0.2541,
      "step": 645
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4597148597240448,
      "learning_rate": 0.00029681963404008127,
      "loss": 0.2401,
      "step": 646
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.41239869594573975,
      "learning_rate": 0.0002967978507115887,
      "loss": 0.2708,
      "step": 647
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.49569132924079895,
      "learning_rate": 0.0002967760673830961,
      "loss": 0.2915,
      "step": 648
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.985159158706665,
      "learning_rate": 0.00029675428405460355,
      "loss": 0.2697,
      "step": 649
    },
    {
      "epoch": 0.18,
      "grad_norm": 1.0685254335403442,
      "learning_rate": 0.00029673250072611093,
      "loss": 0.3267,
      "step": 650
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.3717694580554962,
      "learning_rate": 0.0002967107173976183,
      "loss": 0.2047,
      "step": 651
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5181832909584045,
      "learning_rate": 0.00029668893406912573,
      "loss": 0.299,
      "step": 652
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4504627287387848,
      "learning_rate": 0.0002966671507406331,
      "loss": 0.3147,
      "step": 653
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.43876850605010986,
      "learning_rate": 0.00029664536741214054,
      "loss": 0.199,
      "step": 654
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.42336201667785645,
      "learning_rate": 0.00029662358408364797,
      "loss": 0.1928,
      "step": 655
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4785076975822449,
      "learning_rate": 0.0002966018007551554,
      "loss": 0.3316,
      "step": 656
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.6650813817977905,
      "learning_rate": 0.00029658001742666277,
      "loss": 0.3173,
      "step": 657
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.4412344694137573,
      "learning_rate": 0.0002965582340981702,
      "loss": 0.2398,
      "step": 658
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.5599570870399475,
      "learning_rate": 0.0002965364507696776,
      "loss": 0.3176,
      "step": 659
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.44803598523139954,
      "learning_rate": 0.00029651466744118495,
      "loss": 0.2899,
      "step": 660
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7051398158073425,
      "learning_rate": 0.0002964928841126924,
      "loss": 0.3319,
      "step": 661
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.0015214681625366,
      "learning_rate": 0.0002964711007841998,
      "loss": 0.2862,
      "step": 662
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1264384984970093,
      "learning_rate": 0.00029644931745570724,
      "loss": 0.2726,
      "step": 663
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.42936939001083374,
      "learning_rate": 0.0002964275341272146,
      "loss": 0.2403,
      "step": 664
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.39963242411613464,
      "learning_rate": 0.00029640575079872204,
      "loss": 0.2524,
      "step": 665
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.37895527482032776,
      "learning_rate": 0.0002963839674702294,
      "loss": 0.2198,
      "step": 666
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4545850455760956,
      "learning_rate": 0.00029636218414173684,
      "loss": 0.2474,
      "step": 667
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6800482869148254,
      "learning_rate": 0.0002963404008132442,
      "loss": 0.2754,
      "step": 668
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.5008795261383057,
      "learning_rate": 0.00029631861748475165,
      "loss": 0.2886,
      "step": 669
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6026301980018616,
      "learning_rate": 0.0002962968341562591,
      "loss": 0.3102,
      "step": 670
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.49600890278816223,
      "learning_rate": 0.00029627505082776645,
      "loss": 0.2898,
      "step": 671
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6861482858657837,
      "learning_rate": 0.0002962532674992739,
      "loss": 0.3154,
      "step": 672
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.48434916138648987,
      "learning_rate": 0.00029623148417078126,
      "loss": 0.1666,
      "step": 673
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6576878428459167,
      "learning_rate": 0.0002962097008422887,
      "loss": 0.3356,
      "step": 674
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.1264418363571167,
      "learning_rate": 0.00029618791751379606,
      "loss": 0.3296,
      "step": 675
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.45813170075416565,
      "learning_rate": 0.0002961661341853035,
      "loss": 0.2889,
      "step": 676
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41302254796028137,
      "learning_rate": 0.0002961443508568109,
      "loss": 0.3324,
      "step": 677
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4056675136089325,
      "learning_rate": 0.0002961225675283183,
      "loss": 0.2671,
      "step": 678
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.385444313287735,
      "learning_rate": 0.0002961007841998257,
      "loss": 0.254,
      "step": 679
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.4433174431324005,
      "learning_rate": 0.0002960790008713331,
      "loss": 0.3981,
      "step": 680
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.48053017258644104,
      "learning_rate": 0.00029605721754284053,
      "loss": 0.3415,
      "step": 681
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.5595292448997498,
      "learning_rate": 0.0002960354342143479,
      "loss": 0.258,
      "step": 682
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3708607256412506,
      "learning_rate": 0.00029601365088585533,
      "loss": 0.2264,
      "step": 683
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.39617833495140076,
      "learning_rate": 0.00029599186755736276,
      "loss": 0.2053,
      "step": 684
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.5452740788459778,
      "learning_rate": 0.00029597008422887014,
      "loss": 0.285,
      "step": 685
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.7364413142204285,
      "learning_rate": 0.00029594830090037756,
      "loss": 0.3517,
      "step": 686
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.8660498261451721,
      "learning_rate": 0.00029592651757188494,
      "loss": 0.3183,
      "step": 687
    },
    {
      "epoch": 0.19,
      "grad_norm": 1.050328016281128,
      "learning_rate": 0.00029590473424339237,
      "loss": 0.3707,
      "step": 688
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3558250665664673,
      "learning_rate": 0.00029588295091489974,
      "loss": 0.2066,
      "step": 689
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.5147190690040588,
      "learning_rate": 0.00029586116758640717,
      "loss": 0.3002,
      "step": 690
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.44138532876968384,
      "learning_rate": 0.0002958393842579146,
      "loss": 0.2402,
      "step": 691
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.41195133328437805,
      "learning_rate": 0.00029581760092942203,
      "loss": 0.2122,
      "step": 692
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.5632957220077515,
      "learning_rate": 0.0002957958176009294,
      "loss": 0.33,
      "step": 693
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.3850935101509094,
      "learning_rate": 0.0002957740342724368,
      "loss": 0.2251,
      "step": 694
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.6127579808235168,
      "learning_rate": 0.0002957522509439442,
      "loss": 0.2419,
      "step": 695
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43909820914268494,
      "learning_rate": 0.0002957304676154516,
      "loss": 0.2336,
      "step": 696
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43949639797210693,
      "learning_rate": 0.000295708684286959,
      "loss": 0.209,
      "step": 697
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4873463809490204,
      "learning_rate": 0.00029568690095846644,
      "loss": 0.2404,
      "step": 698
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.4854836463928223,
      "learning_rate": 0.00029566511762997387,
      "loss": 0.3885,
      "step": 699
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.2234911918640137,
      "learning_rate": 0.00029564333430148125,
      "loss": 0.4144,
      "step": 700
    },
    {
      "epoch": 0.2,
      "eval_loss": 0.24976786971092224,
      "eval_runtime": 170.2604,
      "eval_samples_per_second": 15.517,
      "eval_steps_per_second": 0.487,
      "eval_wer": 0.23831812772709243,
      "step": 700
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.47607818245887756,
      "learning_rate": 0.0002956215509729887,
      "loss": 0.3162,
      "step": 701
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.3275848925113678,
      "learning_rate": 0.00029559976764449605,
      "loss": 0.2219,
      "step": 702
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5038337111473083,
      "learning_rate": 0.0002955779843160034,
      "loss": 0.3664,
      "step": 703
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.28564560413360596,
      "learning_rate": 0.00029555620098751086,
      "loss": 0.177,
      "step": 704
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.35952726006507874,
      "learning_rate": 0.0002955344176590183,
      "loss": 0.259,
      "step": 705
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.3212088942527771,
      "learning_rate": 0.0002955126343305257,
      "loss": 0.2543,
      "step": 706
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.3608335554599762,
      "learning_rate": 0.0002954908510020331,
      "loss": 0.2733,
      "step": 707
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43996620178222656,
      "learning_rate": 0.0002954690676735405,
      "loss": 0.2777,
      "step": 708
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5471462607383728,
      "learning_rate": 0.0002954472843450479,
      "loss": 0.3218,
      "step": 709
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5283494591712952,
      "learning_rate": 0.00029542550101655527,
      "loss": 0.2072,
      "step": 710
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.7323831915855408,
      "learning_rate": 0.0002954037176880627,
      "loss": 0.2206,
      "step": 711
    },
    {
      "epoch": 0.2,
      "grad_norm": 1.0536723136901855,
      "learning_rate": 0.0002953819343595701,
      "loss": 0.3335,
      "step": 712
    },
    {
      "epoch": 0.2,
      "grad_norm": 3.0397613048553467,
      "learning_rate": 0.00029536015103107756,
      "loss": 0.4055,
      "step": 713
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.3705969452857971,
      "learning_rate": 0.00029533836770258493,
      "loss": 0.2835,
      "step": 714
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.43152523040771484,
      "learning_rate": 0.00029531658437409236,
      "loss": 0.2775,
      "step": 715
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.6015077829360962,
      "learning_rate": 0.00029529480104559973,
      "loss": 0.306,
      "step": 716
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.499935507774353,
      "learning_rate": 0.00029527301771710716,
      "loss": 0.2349,
      "step": 717
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4435618817806244,
      "learning_rate": 0.00029525123438861454,
      "loss": 0.2978,
      "step": 718
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.393205851316452,
      "learning_rate": 0.00029522945106012197,
      "loss": 0.2556,
      "step": 719
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4798717498779297,
      "learning_rate": 0.0002952076677316294,
      "loss": 0.2719,
      "step": 720
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5014763474464417,
      "learning_rate": 0.00029518588440313677,
      "loss": 0.3024,
      "step": 721
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4307177662849426,
      "learning_rate": 0.0002951641010746442,
      "loss": 0.1964,
      "step": 722
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4958420991897583,
      "learning_rate": 0.0002951423177461516,
      "loss": 0.3038,
      "step": 723
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5607727766036987,
      "learning_rate": 0.000295120534417659,
      "loss": 0.2319,
      "step": 724
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.9045625329017639,
      "learning_rate": 0.0002950987510891664,
      "loss": 0.3453,
      "step": 725
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4170934557914734,
      "learning_rate": 0.0002950769677606738,
      "loss": 0.2069,
      "step": 726
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42249777913093567,
      "learning_rate": 0.00029505518443218124,
      "loss": 0.265,
      "step": 727
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.42624127864837646,
      "learning_rate": 0.0002950334011036886,
      "loss": 0.2317,
      "step": 728
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.5185164213180542,
      "learning_rate": 0.00029501161777519604,
      "loss": 0.2398,
      "step": 729
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4185029864311218,
      "learning_rate": 0.0002949898344467034,
      "loss": 0.2293,
      "step": 730
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.4007735550403595,
      "learning_rate": 0.00029496805111821085,
      "loss": 0.2116,
      "step": 731
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4471527338027954,
      "learning_rate": 0.0002949462677897182,
      "loss": 0.2817,
      "step": 732
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4373018145561218,
      "learning_rate": 0.00029492448446122565,
      "loss": 0.2182,
      "step": 733
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6673434972763062,
      "learning_rate": 0.0002949027011327331,
      "loss": 0.2427,
      "step": 734
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4197489023208618,
      "learning_rate": 0.00029488091780424045,
      "loss": 0.2651,
      "step": 735
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5279112458229065,
      "learning_rate": 0.0002948591344757479,
      "loss": 0.2146,
      "step": 736
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.7808995246887207,
      "learning_rate": 0.00029483735114725526,
      "loss": 0.2775,
      "step": 737
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9353828430175781,
      "learning_rate": 0.0002948155678187627,
      "loss": 0.5726,
      "step": 738
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.39089202880859375,
      "learning_rate": 0.00029479378449027006,
      "loss": 0.1922,
      "step": 739
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.6263644695281982,
      "learning_rate": 0.0002947720011617775,
      "loss": 0.3143,
      "step": 740
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4457530081272125,
      "learning_rate": 0.0002947502178332849,
      "loss": 0.2188,
      "step": 741
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.35279542207717896,
      "learning_rate": 0.0002947284345047923,
      "loss": 0.2054,
      "step": 742
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.48580506443977356,
      "learning_rate": 0.0002947066511762997,
      "loss": 0.2577,
      "step": 743
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4024679958820343,
      "learning_rate": 0.0002946848678478071,
      "loss": 0.2276,
      "step": 744
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.36096155643463135,
      "learning_rate": 0.00029466308451931453,
      "loss": 0.1628,
      "step": 745
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.40960007905960083,
      "learning_rate": 0.0002946413011908219,
      "loss": 0.2591,
      "step": 746
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.38769859075546265,
      "learning_rate": 0.00029461951786232933,
      "loss": 0.1991,
      "step": 747
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5275259613990784,
      "learning_rate": 0.00029459773453383676,
      "loss": 0.279,
      "step": 748
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.5218418836593628,
      "learning_rate": 0.00029457595120534414,
      "loss": 0.2146,
      "step": 749
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.8225298523902893,
      "learning_rate": 0.00029455416787685157,
      "loss": 0.2996,
      "step": 750
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.38018038868904114,
      "learning_rate": 0.000294532384548359,
      "loss": 0.2463,
      "step": 751
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.32872524857521057,
      "learning_rate": 0.00029451060121986637,
      "loss": 0.1963,
      "step": 752
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3885118365287781,
      "learning_rate": 0.00029448881789137374,
      "loss": 0.242,
      "step": 753
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4061305820941925,
      "learning_rate": 0.0002944670345628812,
      "loss": 0.2062,
      "step": 754
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4385199248790741,
      "learning_rate": 0.0002944452512343886,
      "loss": 0.2567,
      "step": 755
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4783352315425873,
      "learning_rate": 0.000294423467905896,
      "loss": 0.1843,
      "step": 756
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.3913158178329468,
      "learning_rate": 0.0002944016845774034,
      "loss": 0.2157,
      "step": 757
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.46189942955970764,
      "learning_rate": 0.00029437990124891084,
      "loss": 0.2799,
      "step": 758
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.34845954179763794,
      "learning_rate": 0.0002943581179204182,
      "loss": 0.1405,
      "step": 759
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4585227370262146,
      "learning_rate": 0.0002943363345919256,
      "loss": 0.2237,
      "step": 760
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4688851535320282,
      "learning_rate": 0.000294314551263433,
      "loss": 0.233,
      "step": 761
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4947988986968994,
      "learning_rate": 0.00029429276793494044,
      "loss": 0.2803,
      "step": 762
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.650078535079956,
      "learning_rate": 0.0002942709846064478,
      "loss": 0.2265,
      "step": 763
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.390275239944458,
      "learning_rate": 0.00029424920127795525,
      "loss": 0.248,
      "step": 764
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.306683212518692,
      "learning_rate": 0.0002942274179494627,
      "loss": 0.1682,
      "step": 765
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.33781638741493225,
      "learning_rate": 0.00029420563462097005,
      "loss": 0.1837,
      "step": 766
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.4075034260749817,
      "learning_rate": 0.0002941838512924775,
      "loss": 0.1966,
      "step": 767
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3588120937347412,
      "learning_rate": 0.00029416206796398486,
      "loss": 0.1856,
      "step": 768
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4629289507865906,
      "learning_rate": 0.0002941402846354923,
      "loss": 0.2351,
      "step": 769
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3669574558734894,
      "learning_rate": 0.00029411850130699966,
      "loss": 0.1747,
      "step": 770
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.5850895047187805,
      "learning_rate": 0.0002940967179785071,
      "loss": 0.2055,
      "step": 771
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40916645526885986,
      "learning_rate": 0.0002940749346500145,
      "loss": 0.185,
      "step": 772
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4722946882247925,
      "learning_rate": 0.0002940531513215219,
      "loss": 0.2183,
      "step": 773
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7177755236625671,
      "learning_rate": 0.0002940313679930293,
      "loss": 0.5691,
      "step": 774
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.9202505350112915,
      "learning_rate": 0.0002940095846645367,
      "loss": 0.3243,
      "step": 775
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3825218975543976,
      "learning_rate": 0.0002939878013360441,
      "loss": 0.2211,
      "step": 776
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.40050363540649414,
      "learning_rate": 0.00029396601800755156,
      "loss": 0.2106,
      "step": 777
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.42817822098731995,
      "learning_rate": 0.00029394423467905893,
      "loss": 0.297,
      "step": 778
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4192640483379364,
      "learning_rate": 0.00029392245135056636,
      "loss": 0.2425,
      "step": 779
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.35322535037994385,
      "learning_rate": 0.00029390066802207374,
      "loss": 0.2619,
      "step": 780
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.312821626663208,
      "learning_rate": 0.00029387888469358116,
      "loss": 0.2033,
      "step": 781
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.34953773021698,
      "learning_rate": 0.00029385710136508854,
      "loss": 0.1937,
      "step": 782
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3710700273513794,
      "learning_rate": 0.00029383531803659597,
      "loss": 0.2059,
      "step": 783
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6123965978622437,
      "learning_rate": 0.0002938135347081034,
      "loss": 0.2282,
      "step": 784
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.5219503045082092,
      "learning_rate": 0.00029379175137961077,
      "loss": 0.2548,
      "step": 785
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.5257455110549927,
      "learning_rate": 0.0002937699680511182,
      "loss": 0.2481,
      "step": 786
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.65670245885849,
      "learning_rate": 0.0002937481847226256,
      "loss": 0.2596,
      "step": 787
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.7891405820846558,
      "learning_rate": 0.000293726401394133,
      "loss": 0.345,
      "step": 788
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.6201874017715454,
      "learning_rate": 0.0002937046180656404,
      "loss": 0.2778,
      "step": 789
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.35175615549087524,
      "learning_rate": 0.0002936828347371478,
      "loss": 0.1662,
      "step": 790
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.4238100051879883,
      "learning_rate": 0.00029366105140865524,
      "loss": 0.2411,
      "step": 791
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.48270362615585327,
      "learning_rate": 0.0002936392680801626,
      "loss": 0.251,
      "step": 792
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3944048583507538,
      "learning_rate": 0.00029361748475167004,
      "loss": 0.1891,
      "step": 793
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3597673177719116,
      "learning_rate": 0.0002935957014231774,
      "loss": 0.1738,
      "step": 794
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.33072033524513245,
      "learning_rate": 0.00029357391809468485,
      "loss": 0.174,
      "step": 795
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3927958309650421,
      "learning_rate": 0.0002935521347661922,
      "loss": 0.2639,
      "step": 796
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.5461695790290833,
      "learning_rate": 0.00029353035143769965,
      "loss": 0.3044,
      "step": 797
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.7041841745376587,
      "learning_rate": 0.0002935085681092071,
      "loss": 0.2839,
      "step": 798
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.5219825506210327,
      "learning_rate": 0.00029348678478071446,
      "loss": 0.1996,
      "step": 799
    },
    {
      "epoch": 0.22,
      "grad_norm": 1.2484573125839233,
      "learning_rate": 0.0002934650014522219,
      "loss": 0.516,
      "step": 800
    },
    {
      "epoch": 0.22,
      "eval_loss": 0.21555261313915253,
      "eval_runtime": 170.0387,
      "eval_samples_per_second": 15.538,
      "eval_steps_per_second": 0.488,
      "eval_wer": 0.21743355811186038,
      "step": 800
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.3377450108528137,
      "learning_rate": 0.0002934432181237293,
      "loss": 0.1879,
      "step": 801
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.32405510544776917,
      "learning_rate": 0.0002934214347952367,
      "loss": 0.2037,
      "step": 802
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.38514038920402527,
      "learning_rate": 0.00029339965146674406,
      "loss": 0.2423,
      "step": 803
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3360576629638672,
      "learning_rate": 0.0002933778681382515,
      "loss": 0.2211,
      "step": 804
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4878319501876831,
      "learning_rate": 0.0002933560848097589,
      "loss": 0.2599,
      "step": 805
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.48974454402923584,
      "learning_rate": 0.0002933343014812663,
      "loss": 0.233,
      "step": 806
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5203773379325867,
      "learning_rate": 0.0002933125181527737,
      "loss": 0.2068,
      "step": 807
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5252482891082764,
      "learning_rate": 0.00029329073482428115,
      "loss": 0.294,
      "step": 808
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.37968382239341736,
      "learning_rate": 0.00029326895149578853,
      "loss": 0.1919,
      "step": 809
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5021730065345764,
      "learning_rate": 0.0002932471681672959,
      "loss": 0.1908,
      "step": 810
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.6399714350700378,
      "learning_rate": 0.00029322538483880333,
      "loss": 0.3297,
      "step": 811
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8372774124145508,
      "learning_rate": 0.00029320360151031076,
      "loss": 0.2041,
      "step": 812
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0288751125335693,
      "learning_rate": 0.00029318181818181814,
      "loss": 0.4952,
      "step": 813
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4054490029811859,
      "learning_rate": 0.00029316003485332557,
      "loss": 0.1939,
      "step": 814
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.424667626619339,
      "learning_rate": 0.000293138251524833,
      "loss": 0.2548,
      "step": 815
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.595877468585968,
      "learning_rate": 0.00029311646819634037,
      "loss": 0.2975,
      "step": 816
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3385320007801056,
      "learning_rate": 0.0002930946848678478,
      "loss": 0.1751,
      "step": 817
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3494596481323242,
      "learning_rate": 0.0002930729015393552,
      "loss": 0.1907,
      "step": 818
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4216042757034302,
      "learning_rate": 0.0002930511182108626,
      "loss": 0.2655,
      "step": 819
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3439044952392578,
      "learning_rate": 0.00029302933488237,
      "loss": 0.1737,
      "step": 820
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.38985416293144226,
      "learning_rate": 0.0002930075515538774,
      "loss": 0.2003,
      "step": 821
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.5553622245788574,
      "learning_rate": 0.00029298576822538484,
      "loss": 0.2584,
      "step": 822
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4439466595649719,
      "learning_rate": 0.0002929639848968922,
      "loss": 0.2137,
      "step": 823
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.0900012254714966,
      "learning_rate": 0.00029294220156839964,
      "loss": 0.3557,
      "step": 824
    },
    {
      "epoch": 0.23,
      "grad_norm": 2.2680671215057373,
      "learning_rate": 0.000292920418239907,
      "loss": 0.4701,
      "step": 825
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.47601258754730225,
      "learning_rate": 0.00029289863491141445,
      "loss": 0.3046,
      "step": 826
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4234864115715027,
      "learning_rate": 0.0002928768515829218,
      "loss": 0.2066,
      "step": 827
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.44555121660232544,
      "learning_rate": 0.00029285506825442925,
      "loss": 0.2465,
      "step": 828
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.41313064098358154,
      "learning_rate": 0.0002928332849259367,
      "loss": 0.2356,
      "step": 829
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4449974298477173,
      "learning_rate": 0.00029281150159744405,
      "loss": 0.2509,
      "step": 830
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.3663000464439392,
      "learning_rate": 0.0002927897182689515,
      "loss": 0.193,
      "step": 831
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.2855339050292969,
      "learning_rate": 0.00029276793494045886,
      "loss": 0.1244,
      "step": 832
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4240015149116516,
      "learning_rate": 0.0002927461516119663,
      "loss": 0.149,
      "step": 833
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4278852343559265,
      "learning_rate": 0.00029272436828347366,
      "loss": 0.1719,
      "step": 834
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.49343693256378174,
      "learning_rate": 0.0002927025849549811,
      "loss": 0.2232,
      "step": 835
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.4719221293926239,
      "learning_rate": 0.0002926808016264885,
      "loss": 0.2257,
      "step": 836
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8020499348640442,
      "learning_rate": 0.0002926590182979959,
      "loss": 0.3147,
      "step": 837
    },
    {
      "epoch": 0.23,
      "grad_norm": 1.955559492111206,
      "learning_rate": 0.0002926372349695033,
      "loss": 0.3858,
      "step": 838
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.37177425622940063,
      "learning_rate": 0.0002926154516410107,
      "loss": 0.1519,
      "step": 839
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4327965974807739,
      "learning_rate": 0.00029259366831251813,
      "loss": 0.2429,
      "step": 840
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.44707685708999634,
      "learning_rate": 0.0002925718849840255,
      "loss": 0.1854,
      "step": 841
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3168681859970093,
      "learning_rate": 0.00029255010165553293,
      "loss": 0.1772,
      "step": 842
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.39203086495399475,
      "learning_rate": 0.00029252831832704036,
      "loss": 0.2268,
      "step": 843
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.38074183464050293,
      "learning_rate": 0.00029250653499854774,
      "loss": 0.1558,
      "step": 844
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.38652873039245605,
      "learning_rate": 0.00029248475167005517,
      "loss": 0.1845,
      "step": 845
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.410704106092453,
      "learning_rate": 0.00029246296834156254,
      "loss": 0.2142,
      "step": 846
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.36437079310417175,
      "learning_rate": 0.00029244118501306997,
      "loss": 0.2208,
      "step": 847
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6468746662139893,
      "learning_rate": 0.00029241940168457734,
      "loss": 0.2777,
      "step": 848
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6461477279663086,
      "learning_rate": 0.0002923976183560848,
      "loss": 0.302,
      "step": 849
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6217629313468933,
      "learning_rate": 0.0002923758350275922,
      "loss": 0.3122,
      "step": 850
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4167306125164032,
      "learning_rate": 0.00029235405169909963,
      "loss": 0.1649,
      "step": 851
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.36640140414237976,
      "learning_rate": 0.000292332268370607,
      "loss": 0.2006,
      "step": 852
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.45749354362487793,
      "learning_rate": 0.0002923104850421144,
      "loss": 0.3251,
      "step": 853
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3940177857875824,
      "learning_rate": 0.0002922887017136218,
      "loss": 0.2006,
      "step": 854
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.34007716178894043,
      "learning_rate": 0.0002922669183851292,
      "loss": 0.1703,
      "step": 855
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.44275981187820435,
      "learning_rate": 0.0002922451350566366,
      "loss": 0.2503,
      "step": 856
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.36164215207099915,
      "learning_rate": 0.00029222335172814404,
      "loss": 0.1359,
      "step": 857
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.42992475628852844,
      "learning_rate": 0.0002922015683996515,
      "loss": 0.1991,
      "step": 858
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4440794587135315,
      "learning_rate": 0.00029217978507115885,
      "loss": 0.2414,
      "step": 859
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.43498682975769043,
      "learning_rate": 0.0002921580017426663,
      "loss": 0.1564,
      "step": 860
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.7951623201370239,
      "learning_rate": 0.00029213621841417365,
      "loss": 0.2981,
      "step": 861
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5856302976608276,
      "learning_rate": 0.000292114435085681,
      "loss": 0.2391,
      "step": 862
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.9399328827857971,
      "learning_rate": 0.00029209265175718846,
      "loss": 0.3052,
      "step": 863
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.51910001039505,
      "learning_rate": 0.0002920708684286959,
      "loss": 0.222,
      "step": 864
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.6381402611732483,
      "learning_rate": 0.0002920490851002033,
      "loss": 0.2139,
      "step": 865
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3673219680786133,
      "learning_rate": 0.0002920273017717107,
      "loss": 0.1842,
      "step": 866
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.2968501150608063,
      "learning_rate": 0.0002920055184432181,
      "loss": 0.2046,
      "step": 867
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.4813459515571594,
      "learning_rate": 0.0002919837351147255,
      "loss": 0.1887,
      "step": 868
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.37261608242988586,
      "learning_rate": 0.00029196195178623287,
      "loss": 0.1687,
      "step": 869
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5645409226417542,
      "learning_rate": 0.0002919401684577403,
      "loss": 0.1622,
      "step": 870
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.30827146768569946,
      "learning_rate": 0.0002919183851292477,
      "loss": 0.1573,
      "step": 871
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.5529136657714844,
      "learning_rate": 0.00029189660180075516,
      "loss": 0.2744,
      "step": 872
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3890857398509979,
      "learning_rate": 0.00029187481847226253,
      "loss": 0.1592,
      "step": 873
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.3700430691242218,
      "learning_rate": 0.00029185303514376996,
      "loss": 0.1298,
      "step": 874
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.2433897256851196,
      "learning_rate": 0.00029183125181527733,
      "loss": 0.2552,
      "step": 875
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5441060066223145,
      "learning_rate": 0.00029180946848678476,
      "loss": 0.2691,
      "step": 876
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4299403727054596,
      "learning_rate": 0.00029178768515829214,
      "loss": 0.1764,
      "step": 877
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.34824439883232117,
      "learning_rate": 0.00029176590182979957,
      "loss": 0.1839,
      "step": 878
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5669772028923035,
      "learning_rate": 0.000291744118501307,
      "loss": 0.2326,
      "step": 879
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3362836241722107,
      "learning_rate": 0.00029172233517281437,
      "loss": 0.2121,
      "step": 880
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.28674212098121643,
      "learning_rate": 0.0002917005518443218,
      "loss": 0.1232,
      "step": 881
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.27031171321868896,
      "learning_rate": 0.0002916787685158292,
      "loss": 0.1434,
      "step": 882
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.2996646761894226,
      "learning_rate": 0.0002916569851873366,
      "loss": 0.1473,
      "step": 883
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39625856280326843,
      "learning_rate": 0.000291635201858844,
      "loss": 0.1655,
      "step": 884
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4497539699077606,
      "learning_rate": 0.0002916134185303514,
      "loss": 0.2419,
      "step": 885
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3860194981098175,
      "learning_rate": 0.00029159163520185884,
      "loss": 0.1873,
      "step": 886
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8120135068893433,
      "learning_rate": 0.0002915698518733662,
      "loss": 0.2747,
      "step": 887
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4225727319717407,
      "learning_rate": 0.00029154806854487364,
      "loss": 0.1702,
      "step": 888
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.37232866883277893,
      "learning_rate": 0.000291526285216381,
      "loss": 0.1596,
      "step": 889
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3133466839790344,
      "learning_rate": 0.00029150450188788845,
      "loss": 0.1373,
      "step": 890
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3582981824874878,
      "learning_rate": 0.0002914827185593958,
      "loss": 0.2148,
      "step": 891
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3617127537727356,
      "learning_rate": 0.00029146093523090325,
      "loss": 0.15,
      "step": 892
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.33912354707717896,
      "learning_rate": 0.0002914391519024107,
      "loss": 0.1845,
      "step": 893
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.6940033435821533,
      "learning_rate": 0.00029141736857391805,
      "loss": 0.1923,
      "step": 894
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5426815748214722,
      "learning_rate": 0.0002913955852454255,
      "loss": 0.2238,
      "step": 895
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.48036524653434753,
      "learning_rate": 0.00029137380191693286,
      "loss": 0.1575,
      "step": 896
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5027152895927429,
      "learning_rate": 0.0002913520185884403,
      "loss": 0.2363,
      "step": 897
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5567811131477356,
      "learning_rate": 0.00029133023525994766,
      "loss": 0.2233,
      "step": 898
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.4425828754901886,
      "learning_rate": 0.0002913084519314551,
      "loss": 0.1942,
      "step": 899
    },
    {
      "epoch": 0.25,
      "grad_norm": 1.3366739749908447,
      "learning_rate": 0.0002912866686029625,
      "loss": 0.2537,
      "step": 900
    },
    {
      "epoch": 0.25,
      "eval_loss": 0.18100056052207947,
      "eval_runtime": 171.0513,
      "eval_samples_per_second": 15.446,
      "eval_steps_per_second": 0.485,
      "eval_wer": 0.18772312574375247,
      "step": 900
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.39522475004196167,
      "learning_rate": 0.00029126488527446995,
      "loss": 0.1632,
      "step": 901
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.33596381545066833,
      "learning_rate": 0.0002912431019459773,
      "loss": 0.1795,
      "step": 902
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5636839270591736,
      "learning_rate": 0.0002912213186174847,
      "loss": 0.2488,
      "step": 903
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.435061514377594,
      "learning_rate": 0.00029119953528899213,
      "loss": 0.2247,
      "step": 904
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.31387215852737427,
      "learning_rate": 0.0002911777519604995,
      "loss": 0.1561,
      "step": 905
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.35401758551597595,
      "learning_rate": 0.00029115596863200693,
      "loss": 0.1705,
      "step": 906
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.7740108966827393,
      "learning_rate": 0.00029113418530351436,
      "loss": 0.1711,
      "step": 907
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.3709573447704315,
      "learning_rate": 0.0002911124019750218,
      "loss": 0.2409,
      "step": 908
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.42359593510627747,
      "learning_rate": 0.00029109061864652917,
      "loss": 0.1652,
      "step": 909
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.26661303639411926,
      "learning_rate": 0.0002910688353180366,
      "loss": 0.1413,
      "step": 910
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.37401992082595825,
      "learning_rate": 0.00029104705198954397,
      "loss": 0.1526,
      "step": 911
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5035347938537598,
      "learning_rate": 0.00029102526866105135,
      "loss": 0.1691,
      "step": 912
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5247593522071838,
      "learning_rate": 0.0002910034853325588,
      "loss": 0.175,
      "step": 913
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.37127748131752014,
      "learning_rate": 0.0002909817020040662,
      "loss": 0.2318,
      "step": 914
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3585434854030609,
      "learning_rate": 0.00029095991867557363,
      "loss": 0.2088,
      "step": 915
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3809379041194916,
      "learning_rate": 0.000290938135347081,
      "loss": 0.1539,
      "step": 916
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5548685789108276,
      "learning_rate": 0.00029091635201858844,
      "loss": 0.1617,
      "step": 917
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.44416266679763794,
      "learning_rate": 0.0002908945686900958,
      "loss": 0.2331,
      "step": 918
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.41413745284080505,
      "learning_rate": 0.0002908727853616032,
      "loss": 0.1969,
      "step": 919
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.35886454582214355,
      "learning_rate": 0.0002908510020331106,
      "loss": 0.1271,
      "step": 920
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5990538597106934,
      "learning_rate": 0.00029082921870461804,
      "loss": 0.2334,
      "step": 921
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5528372526168823,
      "learning_rate": 0.0002908074353761255,
      "loss": 0.2359,
      "step": 922
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5504934787750244,
      "learning_rate": 0.00029078565204763285,
      "loss": 0.2593,
      "step": 923
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.42356470227241516,
      "learning_rate": 0.0002907638687191403,
      "loss": 0.1908,
      "step": 924
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.0219537019729614,
      "learning_rate": 0.00029074208539064765,
      "loss": 0.3922,
      "step": 925
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.28039687871932983,
      "learning_rate": 0.0002907203020621551,
      "loss": 0.1368,
      "step": 926
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4196397662162781,
      "learning_rate": 0.00029069851873366246,
      "loss": 0.1939,
      "step": 927
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.4043600559234619,
      "learning_rate": 0.0002906767354051699,
      "loss": 0.1856,
      "step": 928
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.24837417900562286,
      "learning_rate": 0.0002906549520766773,
      "loss": 0.1378,
      "step": 929
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3429291546344757,
      "learning_rate": 0.0002906331687481847,
      "loss": 0.2188,
      "step": 930
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.32308489084243774,
      "learning_rate": 0.0002906113854196921,
      "loss": 0.1574,
      "step": 931
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.27153629064559937,
      "learning_rate": 0.0002905896020911995,
      "loss": 0.1333,
      "step": 932
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3531688153743744,
      "learning_rate": 0.0002905678187627069,
      "loss": 0.143,
      "step": 933
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3086067736148834,
      "learning_rate": 0.0002905460354342143,
      "loss": 0.1863,
      "step": 934
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.5499414801597595,
      "learning_rate": 0.00029052425210572173,
      "loss": 0.231,
      "step": 935
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.32743024826049805,
      "learning_rate": 0.00029050246877722916,
      "loss": 0.1585,
      "step": 936
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.6654996871948242,
      "learning_rate": 0.00029048068544873653,
      "loss": 0.2694,
      "step": 937
    },
    {
      "epoch": 0.26,
      "grad_norm": 1.1496297121047974,
      "learning_rate": 0.00029045890212024396,
      "loss": 0.4103,
      "step": 938
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3430922031402588,
      "learning_rate": 0.00029043711879175134,
      "loss": 0.2249,
      "step": 939
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.32089853286743164,
      "learning_rate": 0.00029041533546325876,
      "loss": 0.1166,
      "step": 940
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3242920935153961,
      "learning_rate": 0.00029039355213476614,
      "loss": 0.144,
      "step": 941
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.34437093138694763,
      "learning_rate": 0.00029037176880627357,
      "loss": 0.1624,
      "step": 942
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.33240899443626404,
      "learning_rate": 0.000290349985477781,
      "loss": 0.1515,
      "step": 943
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3722419738769531,
      "learning_rate": 0.0002903282021492884,
      "loss": 0.1997,
      "step": 944
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.3894157409667969,
      "learning_rate": 0.0002903064188207958,
      "loss": 0.2118,
      "step": 945
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4570074677467346,
      "learning_rate": 0.0002902846354923032,
      "loss": 0.2186,
      "step": 946
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5338578224182129,
      "learning_rate": 0.0002902628521638106,
      "loss": 0.1839,
      "step": 947
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5656551122665405,
      "learning_rate": 0.000290241068835318,
      "loss": 0.2006,
      "step": 948
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.33291295170783997,
      "learning_rate": 0.0002902192855068254,
      "loss": 0.1314,
      "step": 949
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.2427059412002563,
      "learning_rate": 0.00029019750217833284,
      "loss": 0.3838,
      "step": 950
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.34302082657814026,
      "learning_rate": 0.00029017571884984027,
      "loss": 0.2245,
      "step": 951
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.28225842118263245,
      "learning_rate": 0.00029015393552134764,
      "loss": 0.1756,
      "step": 952
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.30885669589042664,
      "learning_rate": 0.000290132152192855,
      "loss": 0.1295,
      "step": 953
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3330608904361725,
      "learning_rate": 0.00029011036886436245,
      "loss": 0.1532,
      "step": 954
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41481223702430725,
      "learning_rate": 0.0002900885855358698,
      "loss": 0.1429,
      "step": 955
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.8202913403511047,
      "learning_rate": 0.00029006680220737725,
      "loss": 0.1884,
      "step": 956
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4130612313747406,
      "learning_rate": 0.0002900450188788847,
      "loss": 0.1949,
      "step": 957
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4554731249809265,
      "learning_rate": 0.0002900232355503921,
      "loss": 0.2568,
      "step": 958
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.38767263293266296,
      "learning_rate": 0.0002900014522218995,
      "loss": 0.2534,
      "step": 959
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5164458155632019,
      "learning_rate": 0.0002899796688934069,
      "loss": 0.206,
      "step": 960
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4902617633342743,
      "learning_rate": 0.0002899578855649143,
      "loss": 0.1678,
      "step": 961
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5206152200698853,
      "learning_rate": 0.00028993610223642166,
      "loss": 0.1528,
      "step": 962
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.748451828956604,
      "learning_rate": 0.0002899143189079291,
      "loss": 0.3031,
      "step": 963
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.32066285610198975,
      "learning_rate": 0.0002898925355794365,
      "loss": 0.1575,
      "step": 964
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.40484917163848877,
      "learning_rate": 0.00028987075225094395,
      "loss": 0.1379,
      "step": 965
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41846123337745667,
      "learning_rate": 0.0002898489689224513,
      "loss": 0.1882,
      "step": 966
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5364407300949097,
      "learning_rate": 0.00028982718559395876,
      "loss": 0.223,
      "step": 967
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3172195553779602,
      "learning_rate": 0.00028980540226546613,
      "loss": 0.1695,
      "step": 968
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.31267982721328735,
      "learning_rate": 0.00028978361893697356,
      "loss": 0.1327,
      "step": 969
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3818792998790741,
      "learning_rate": 0.00028976183560848093,
      "loss": 0.1436,
      "step": 970
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.347634494304657,
      "learning_rate": 0.00028974005227998836,
      "loss": 0.1641,
      "step": 971
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5270693302154541,
      "learning_rate": 0.0002897182689514958,
      "loss": 0.2007,
      "step": 972
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3539358377456665,
      "learning_rate": 0.00028969648562300317,
      "loss": 0.1392,
      "step": 973
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.42409515380859375,
      "learning_rate": 0.0002896747022945106,
      "loss": 0.1592,
      "step": 974
    },
    {
      "epoch": 0.27,
      "grad_norm": 1.0680348873138428,
      "learning_rate": 0.00028965291896601797,
      "loss": 0.2879,
      "step": 975
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3844246566295624,
      "learning_rate": 0.0002896311356375254,
      "loss": 0.1895,
      "step": 976
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.41760048270225525,
      "learning_rate": 0.0002896093523090328,
      "loss": 0.2207,
      "step": 977
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.3836759328842163,
      "learning_rate": 0.0002895875689805402,
      "loss": 0.1682,
      "step": 978
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.5328092575073242,
      "learning_rate": 0.00028956578565204763,
      "loss": 0.2095,
      "step": 979
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.36244887113571167,
      "learning_rate": 0.000289544002323555,
      "loss": 0.2062,
      "step": 980
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.4755241274833679,
      "learning_rate": 0.00028952221899506244,
      "loss": 0.1799,
      "step": 981
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3643006682395935,
      "learning_rate": 0.0002895004356665698,
      "loss": 0.187,
      "step": 982
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3157310485839844,
      "learning_rate": 0.00028947865233807724,
      "loss": 0.1471,
      "step": 983
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4235278069972992,
      "learning_rate": 0.0002894568690095846,
      "loss": 0.1695,
      "step": 984
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4306838810443878,
      "learning_rate": 0.00028943508568109205,
      "loss": 0.1589,
      "step": 985
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.32048729062080383,
      "learning_rate": 0.0002894133023525995,
      "loss": 0.1518,
      "step": 986
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8458411693572998,
      "learning_rate": 0.00028939151902410685,
      "loss": 0.2473,
      "step": 987
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.489006757736206,
      "learning_rate": 0.0002893697356956143,
      "loss": 0.1915,
      "step": 988
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.41614025831222534,
      "learning_rate": 0.00028934795236712165,
      "loss": 0.1771,
      "step": 989
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.30827057361602783,
      "learning_rate": 0.0002893261690386291,
      "loss": 0.1474,
      "step": 990
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.38048574328422546,
      "learning_rate": 0.00028930438571013646,
      "loss": 0.1564,
      "step": 991
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3256932497024536,
      "learning_rate": 0.0002892826023816439,
      "loss": 0.1527,
      "step": 992
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3426142632961273,
      "learning_rate": 0.0002892608190531513,
      "loss": 0.1775,
      "step": 993
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.375562846660614,
      "learning_rate": 0.00028923903572465875,
      "loss": 0.1501,
      "step": 994
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.37699663639068604,
      "learning_rate": 0.0002892172523961661,
      "loss": 0.16,
      "step": 995
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3131207823753357,
      "learning_rate": 0.0002891954690676735,
      "loss": 0.1306,
      "step": 996
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.32171157002449036,
      "learning_rate": 0.0002891736857391809,
      "loss": 0.1167,
      "step": 997
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5493237376213074,
      "learning_rate": 0.0002891519024106883,
      "loss": 0.1176,
      "step": 998
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8554171919822693,
      "learning_rate": 0.00028913011908219573,
      "loss": 0.193,
      "step": 999
    },
    {
      "epoch": 0.28,
      "grad_norm": 1.369858980178833,
      "learning_rate": 0.00028910833575370316,
      "loss": 0.3008,
      "step": 1000
    },
    {
      "epoch": 0.28,
      "eval_loss": 0.1698938012123108,
      "eval_runtime": 170.0501,
      "eval_samples_per_second": 15.537,
      "eval_steps_per_second": 0.488,
      "eval_wer": 0.17370091233637444,
      "step": 1000
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3474588692188263,
      "learning_rate": 0.0002890865524252106,
      "loss": 0.1692,
      "step": 1001
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.42574116587638855,
      "learning_rate": 0.00028906476909671796,
      "loss": 0.1955,
      "step": 1002
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.362918496131897,
      "learning_rate": 0.00028904298576822534,
      "loss": 0.1556,
      "step": 1003
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.26927411556243896,
      "learning_rate": 0.00028902120243973277,
      "loss": 0.1297,
      "step": 1004
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3112214505672455,
      "learning_rate": 0.00028899941911124014,
      "loss": 0.1722,
      "step": 1005
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4873098134994507,
      "learning_rate": 0.00028897763578274757,
      "loss": 0.1906,
      "step": 1006
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.4745725691318512,
      "learning_rate": 0.000288955852454255,
      "loss": 0.1374,
      "step": 1007
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.44441351294517517,
      "learning_rate": 0.00028893406912576243,
      "loss": 0.1457,
      "step": 1008
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.6759951114654541,
      "learning_rate": 0.0002889122857972698,
      "loss": 0.1823,
      "step": 1009
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39640116691589355,
      "learning_rate": 0.00028889050246877723,
      "loss": 0.1515,
      "step": 1010
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.39775291085243225,
      "learning_rate": 0.0002888687191402846,
      "loss": 0.1926,
      "step": 1011
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5410077571868896,
      "learning_rate": 0.000288846935811792,
      "loss": 0.1689,
      "step": 1012
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.5855244994163513,
      "learning_rate": 0.0002888251524832994,
      "loss": 0.2339,
      "step": 1013
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3485835790634155,
      "learning_rate": 0.00028880336915480684,
      "loss": 0.154,
      "step": 1014
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.44305041432380676,
      "learning_rate": 0.00028878158582631427,
      "loss": 0.1548,
      "step": 1015
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.3423268795013428,
      "learning_rate": 0.00028875980249782164,
      "loss": 0.1855,
      "step": 1016
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5625691413879395,
      "learning_rate": 0.0002887380191693291,
      "loss": 0.1563,
      "step": 1017
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3490982949733734,
      "learning_rate": 0.00028871623584083645,
      "loss": 0.1282,
      "step": 1018
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.22636735439300537,
      "learning_rate": 0.0002886944525123439,
      "loss": 0.0962,
      "step": 1019
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3422410786151886,
      "learning_rate": 0.00028867266918385125,
      "loss": 0.1882,
      "step": 1020
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.38130083680152893,
      "learning_rate": 0.0002886508858553587,
      "loss": 0.1212,
      "step": 1021
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6253305673599243,
      "learning_rate": 0.0002886291025268661,
      "loss": 0.1379,
      "step": 1022
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6671296954154968,
      "learning_rate": 0.0002886073191983735,
      "loss": 0.2052,
      "step": 1023
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5773652791976929,
      "learning_rate": 0.0002885855358698809,
      "loss": 0.2327,
      "step": 1024
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.0964208841323853,
      "learning_rate": 0.0002885637525413883,
      "loss": 0.2036,
      "step": 1025
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.31680577993392944,
      "learning_rate": 0.0002885419692128957,
      "loss": 0.1546,
      "step": 1026
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3645196259021759,
      "learning_rate": 0.0002885201858844031,
      "loss": 0.1494,
      "step": 1027
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.29702305793762207,
      "learning_rate": 0.0002884984025559105,
      "loss": 0.1135,
      "step": 1028
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6884312629699707,
      "learning_rate": 0.00028847661922741795,
      "loss": 0.2231,
      "step": 1029
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3029409646987915,
      "learning_rate": 0.00028845483589892533,
      "loss": 0.127,
      "step": 1030
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.30051282048225403,
      "learning_rate": 0.00028843305257043276,
      "loss": 0.1509,
      "step": 1031
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3594432473182678,
      "learning_rate": 0.00028841126924194013,
      "loss": 0.1643,
      "step": 1032
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7949858903884888,
      "learning_rate": 0.00028838948591344756,
      "loss": 0.1741,
      "step": 1033
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.2877045273780823,
      "learning_rate": 0.00028836770258495494,
      "loss": 0.1278,
      "step": 1034
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4405142664909363,
      "learning_rate": 0.00028834591925646236,
      "loss": 0.1352,
      "step": 1035
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.5733035206794739,
      "learning_rate": 0.0002883241359279698,
      "loss": 0.2487,
      "step": 1036
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.6773961782455444,
      "learning_rate": 0.00028830235259947717,
      "loss": 0.144,
      "step": 1037
    },
    {
      "epoch": 0.29,
      "grad_norm": 1.7576278448104858,
      "learning_rate": 0.0002882805692709846,
      "loss": 0.331,
      "step": 1038
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.2783050835132599,
      "learning_rate": 0.00028825878594249197,
      "loss": 0.1458,
      "step": 1039
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7829878330230713,
      "learning_rate": 0.0002882370026139994,
      "loss": 0.182,
      "step": 1040
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.46614786982536316,
      "learning_rate": 0.0002882152192855068,
      "loss": 0.1854,
      "step": 1041
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.37707820534706116,
      "learning_rate": 0.0002881934359570142,
      "loss": 0.1266,
      "step": 1042
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.7425299882888794,
      "learning_rate": 0.00028817165262852163,
      "loss": 0.2201,
      "step": 1043
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3776991367340088,
      "learning_rate": 0.000288149869300029,
      "loss": 0.1787,
      "step": 1044
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.2587648630142212,
      "learning_rate": 0.00028812808597153644,
      "loss": 0.1475,
      "step": 1045
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.43294557929039,
      "learning_rate": 0.0002881063026430438,
      "loss": 0.1465,
      "step": 1046
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.42909836769104004,
      "learning_rate": 0.00028808451931455124,
      "loss": 0.2431,
      "step": 1047
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.4892027974128723,
      "learning_rate": 0.0002880627359860586,
      "loss": 0.2364,
      "step": 1048
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.41092240810394287,
      "learning_rate": 0.00028804095265756605,
      "loss": 0.1785,
      "step": 1049
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.553001880645752,
      "learning_rate": 0.0002880191693290735,
      "loss": 0.1879,
      "step": 1050
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.3742365539073944,
      "learning_rate": 0.00028799738600058085,
      "loss": 0.1835,
      "step": 1051
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.45741063356399536,
      "learning_rate": 0.0002879756026720883,
      "loss": 0.2459,
      "step": 1052
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3930493891239166,
      "learning_rate": 0.00028795381934359566,
      "loss": 0.1381,
      "step": 1053
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.2664390206336975,
      "learning_rate": 0.0002879320360151031,
      "loss": 0.1139,
      "step": 1054
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.29679757356643677,
      "learning_rate": 0.00028791025268661046,
      "loss": 0.1287,
      "step": 1055
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3707003891468048,
      "learning_rate": 0.0002878884693581179,
      "loss": 0.1511,
      "step": 1056
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.2864624261856079,
      "learning_rate": 0.0002878666860296253,
      "loss": 0.1208,
      "step": 1057
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4167674779891968,
      "learning_rate": 0.0002878449027011327,
      "loss": 0.1845,
      "step": 1058
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3232431411743164,
      "learning_rate": 0.0002878231193726401,
      "loss": 0.1475,
      "step": 1059
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.2898062765598297,
      "learning_rate": 0.00028780133604414755,
      "loss": 0.14,
      "step": 1060
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39790773391723633,
      "learning_rate": 0.0002877795527156549,
      "loss": 0.1368,
      "step": 1061
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.43756914138793945,
      "learning_rate": 0.0002877577693871623,
      "loss": 0.167,
      "step": 1062
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.7538939714431763,
      "learning_rate": 0.00028773598605866973,
      "loss": 0.18,
      "step": 1063
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.2597804069519043,
      "learning_rate": 0.00028771420273017716,
      "loss": 0.1121,
      "step": 1064
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.27155938744544983,
      "learning_rate": 0.00028769241940168453,
      "loss": 0.163,
      "step": 1065
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.39926618337631226,
      "learning_rate": 0.00028767063607319196,
      "loss": 0.1975,
      "step": 1066
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3591616451740265,
      "learning_rate": 0.0002876488527446994,
      "loss": 0.1355,
      "step": 1067
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4864451587200165,
      "learning_rate": 0.00028762706941620677,
      "loss": 0.1723,
      "step": 1068
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.31833019852638245,
      "learning_rate": 0.0002876052860877142,
      "loss": 0.1117,
      "step": 1069
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.27776092290878296,
      "learning_rate": 0.00028758350275922157,
      "loss": 0.142,
      "step": 1070
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.2690782845020294,
      "learning_rate": 0.000287561719430729,
      "loss": 0.119,
      "step": 1071
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4092233180999756,
      "learning_rate": 0.0002875399361022364,
      "loss": 0.1834,
      "step": 1072
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.5178643465042114,
      "learning_rate": 0.0002875181527737438,
      "loss": 0.1868,
      "step": 1073
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4840468168258667,
      "learning_rate": 0.00028749636944525123,
      "loss": 0.1497,
      "step": 1074
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6285247206687927,
      "learning_rate": 0.0002874745861167586,
      "loss": 0.1401,
      "step": 1075
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3004368841648102,
      "learning_rate": 0.00028745280278826604,
      "loss": 0.1945,
      "step": 1076
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.38835787773132324,
      "learning_rate": 0.0002874310194597734,
      "loss": 0.1351,
      "step": 1077
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.30070027709007263,
      "learning_rate": 0.00028740923613128084,
      "loss": 0.131,
      "step": 1078
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.36619919538497925,
      "learning_rate": 0.0002873874528027882,
      "loss": 0.1618,
      "step": 1079
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.5050042271614075,
      "learning_rate": 0.00028736566947429565,
      "loss": 0.1517,
      "step": 1080
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.4737582504749298,
      "learning_rate": 0.0002873438861458031,
      "loss": 0.1404,
      "step": 1081
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3630717098712921,
      "learning_rate": 0.00028732210281731045,
      "loss": 0.1361,
      "step": 1082
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3580990433692932,
      "learning_rate": 0.0002873003194888179,
      "loss": 0.1406,
      "step": 1083
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.381545752286911,
      "learning_rate": 0.00028727853616032525,
      "loss": 0.1577,
      "step": 1084
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.3498247563838959,
      "learning_rate": 0.0002872567528318327,
      "loss": 0.1322,
      "step": 1085
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.6311287879943848,
      "learning_rate": 0.00028723496950334006,
      "loss": 0.278,
      "step": 1086
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.9445794224739075,
      "learning_rate": 0.0002872131861748475,
      "loss": 0.5284,
      "step": 1087
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.486681193113327,
      "learning_rate": 0.0002871914028463549,
      "loss": 0.1315,
      "step": 1088
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.31316569447517395,
      "learning_rate": 0.0002871696195178623,
      "loss": 0.1267,
      "step": 1089
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4078430235385895,
      "learning_rate": 0.0002871478361893697,
      "loss": 0.1357,
      "step": 1090
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.37562912702560425,
      "learning_rate": 0.0002871260528608771,
      "loss": 0.2121,
      "step": 1091
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4432905614376068,
      "learning_rate": 0.0002871042695323845,
      "loss": 0.2198,
      "step": 1092
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.39974725246429443,
      "learning_rate": 0.0002870824862038919,
      "loss": 0.1495,
      "step": 1093
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.40853360295295715,
      "learning_rate": 0.00028706070287539933,
      "loss": 0.1873,
      "step": 1094
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.30834028124809265,
      "learning_rate": 0.00028703891954690676,
      "loss": 0.1638,
      "step": 1095
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4931911826133728,
      "learning_rate": 0.00028701713621841413,
      "loss": 0.152,
      "step": 1096
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3961963355541229,
      "learning_rate": 0.00028699535288992156,
      "loss": 0.1332,
      "step": 1097
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38867270946502686,
      "learning_rate": 0.00028697356956142894,
      "loss": 0.1693,
      "step": 1098
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4323953688144684,
      "learning_rate": 0.00028695178623293637,
      "loss": 0.1352,
      "step": 1099
    },
    {
      "epoch": 0.31,
      "grad_norm": 1.9699305295944214,
      "learning_rate": 0.0002869300029044438,
      "loss": 0.3078,
      "step": 1100
    },
    {
      "epoch": 0.31,
      "eval_loss": 0.14851869642734528,
      "eval_runtime": 173.162,
      "eval_samples_per_second": 15.257,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.15995636652122175,
      "step": 1100
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.41648244857788086,
      "learning_rate": 0.00028690821957595117,
      "loss": 0.1679,
      "step": 1101
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.7437522411346436,
      "learning_rate": 0.0002868864362474586,
      "loss": 0.1758,
      "step": 1102
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.28374168276786804,
      "learning_rate": 0.00028686465291896603,
      "loss": 0.1235,
      "step": 1103
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.37712833285331726,
      "learning_rate": 0.0002868428695904734,
      "loss": 0.1779,
      "step": 1104
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.35054463148117065,
      "learning_rate": 0.0002868210862619808,
      "loss": 0.1192,
      "step": 1105
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.2578398287296295,
      "learning_rate": 0.0002867993029334882,
      "loss": 0.1211,
      "step": 1106
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.36535558104515076,
      "learning_rate": 0.00028677751960499564,
      "loss": 0.1492,
      "step": 1107
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4940856099128723,
      "learning_rate": 0.000286755736276503,
      "loss": 0.1855,
      "step": 1108
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4844096004962921,
      "learning_rate": 0.00028673395294801044,
      "loss": 0.162,
      "step": 1109
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5124077200889587,
      "learning_rate": 0.00028671216961951787,
      "loss": 0.1903,
      "step": 1110
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.6652613282203674,
      "learning_rate": 0.00028669038629102524,
      "loss": 0.2773,
      "step": 1111
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5639687776565552,
      "learning_rate": 0.0002866686029625326,
      "loss": 0.1909,
      "step": 1112
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.5276486277580261,
      "learning_rate": 0.00028664681963404005,
      "loss": 0.1923,
      "step": 1113
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.43368005752563477,
      "learning_rate": 0.0002866250363055475,
      "loss": 0.2043,
      "step": 1114
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.25818130373954773,
      "learning_rate": 0.00028660325297705485,
      "loss": 0.1232,
      "step": 1115
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.23019416630268097,
      "learning_rate": 0.0002865814696485623,
      "loss": 0.108,
      "step": 1116
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.3736976385116577,
      "learning_rate": 0.0002865596863200697,
      "loss": 0.1394,
      "step": 1117
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.304033100605011,
      "learning_rate": 0.0002865379029915771,
      "loss": 0.1581,
      "step": 1118
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.4497252404689789,
      "learning_rate": 0.0002865161196630845,
      "loss": 0.1391,
      "step": 1119
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.25432008504867554,
      "learning_rate": 0.0002864943363345919,
      "loss": 0.1047,
      "step": 1120
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.36042192578315735,
      "learning_rate": 0.0002864725530060993,
      "loss": 0.1242,
      "step": 1121
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.38596948981285095,
      "learning_rate": 0.0002864507696776067,
      "loss": 0.1446,
      "step": 1122
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.32636895775794983,
      "learning_rate": 0.0002864289863491141,
      "loss": 0.0946,
      "step": 1123
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.46000736951828003,
      "learning_rate": 0.00028640720302062155,
      "loss": 0.1753,
      "step": 1124
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.930796205997467,
      "learning_rate": 0.0002863854196921289,
      "loss": 0.2165,
      "step": 1125
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4831191301345825,
      "learning_rate": 0.00028636363636363636,
      "loss": 0.1799,
      "step": 1126
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5102660655975342,
      "learning_rate": 0.00028634185303514373,
      "loss": 0.132,
      "step": 1127
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5008962154388428,
      "learning_rate": 0.00028632006970665116,
      "loss": 0.2183,
      "step": 1128
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.43298348784446716,
      "learning_rate": 0.00028629828637815853,
      "loss": 0.1592,
      "step": 1129
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4136699438095093,
      "learning_rate": 0.00028627650304966596,
      "loss": 0.1404,
      "step": 1130
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4649505615234375,
      "learning_rate": 0.0002862547197211734,
      "loss": 0.1647,
      "step": 1131
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3332366645336151,
      "learning_rate": 0.00028623293639268077,
      "loss": 0.155,
      "step": 1132
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.7413610816001892,
      "learning_rate": 0.0002862111530641882,
      "loss": 0.1449,
      "step": 1133
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.2934778034687042,
      "learning_rate": 0.00028618936973569557,
      "loss": 0.1242,
      "step": 1134
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5558362603187561,
      "learning_rate": 0.000286167586407203,
      "loss": 0.2244,
      "step": 1135
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.44916051626205444,
      "learning_rate": 0.0002861458030787104,
      "loss": 0.1176,
      "step": 1136
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5350303053855896,
      "learning_rate": 0.0002861240197502178,
      "loss": 0.1849,
      "step": 1137
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.9248751401901245,
      "learning_rate": 0.00028610223642172523,
      "loss": 0.2246,
      "step": 1138
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4624762535095215,
      "learning_rate": 0.0002860804530932326,
      "loss": 0.149,
      "step": 1139
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3566407263278961,
      "learning_rate": 0.00028605866976474004,
      "loss": 0.1463,
      "step": 1140
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.2760923206806183,
      "learning_rate": 0.0002860368864362474,
      "loss": 0.1344,
      "step": 1141
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4771902859210968,
      "learning_rate": 0.00028601510310775484,
      "loss": 0.1478,
      "step": 1142
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.42617619037628174,
      "learning_rate": 0.0002859933197792622,
      "loss": 0.1278,
      "step": 1143
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.36997684836387634,
      "learning_rate": 0.00028597153645076965,
      "loss": 0.1661,
      "step": 1144
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5822080969810486,
      "learning_rate": 0.0002859497531222771,
      "loss": 0.1794,
      "step": 1145
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3321421444416046,
      "learning_rate": 0.00028592796979378445,
      "loss": 0.096,
      "step": 1146
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.32868286967277527,
      "learning_rate": 0.0002859061864652919,
      "loss": 0.1156,
      "step": 1147
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3925481140613556,
      "learning_rate": 0.00028588440313679925,
      "loss": 0.1507,
      "step": 1148
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.5608503222465515,
      "learning_rate": 0.0002858626198083067,
      "loss": 0.1603,
      "step": 1149
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8578694462776184,
      "learning_rate": 0.00028584083647981406,
      "loss": 0.1321,
      "step": 1150
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.29048171639442444,
      "learning_rate": 0.0002858190531513215,
      "loss": 0.1163,
      "step": 1151
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.2616617977619171,
      "learning_rate": 0.0002857972698228289,
      "loss": 0.1259,
      "step": 1152
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3470325767993927,
      "learning_rate": 0.00028577548649433635,
      "loss": 0.1579,
      "step": 1153
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3562609553337097,
      "learning_rate": 0.0002857537031658437,
      "loss": 0.1227,
      "step": 1154
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.2583429217338562,
      "learning_rate": 0.0002857319198373511,
      "loss": 0.0945,
      "step": 1155
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.2835291028022766,
      "learning_rate": 0.0002857101365088585,
      "loss": 0.0963,
      "step": 1156
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.3492918014526367,
      "learning_rate": 0.0002856883531803659,
      "loss": 0.137,
      "step": 1157
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.8174396753311157,
      "learning_rate": 0.00028566656985187333,
      "loss": 0.1019,
      "step": 1158
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4076462984085083,
      "learning_rate": 0.00028564478652338076,
      "loss": 0.1747,
      "step": 1159
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5290207266807556,
      "learning_rate": 0.0002856230031948882,
      "loss": 0.1504,
      "step": 1160
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5178208947181702,
      "learning_rate": 0.00028560121986639556,
      "loss": 0.0963,
      "step": 1161
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.7089242935180664,
      "learning_rate": 0.00028557943653790294,
      "loss": 0.2617,
      "step": 1162
    },
    {
      "epoch": 0.33,
      "grad_norm": 1.0927777290344238,
      "learning_rate": 0.00028555765320941037,
      "loss": 0.1124,
      "step": 1163
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6859778165817261,
      "learning_rate": 0.00028553586988091774,
      "loss": 0.1666,
      "step": 1164
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2708667814731598,
      "learning_rate": 0.00028551408655242517,
      "loss": 0.1223,
      "step": 1165
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.36349087953567505,
      "learning_rate": 0.0002854923032239326,
      "loss": 0.182,
      "step": 1166
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.31746795773506165,
      "learning_rate": 0.00028547051989544003,
      "loss": 0.1324,
      "step": 1167
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4892558455467224,
      "learning_rate": 0.0002854487365669474,
      "loss": 0.1491,
      "step": 1168
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2563130557537079,
      "learning_rate": 0.00028542695323845483,
      "loss": 0.1014,
      "step": 1169
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3755163550376892,
      "learning_rate": 0.0002854051699099622,
      "loss": 0.212,
      "step": 1170
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2815428376197815,
      "learning_rate": 0.0002853833865814696,
      "loss": 0.1103,
      "step": 1171
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2552979290485382,
      "learning_rate": 0.000285361603252977,
      "loss": 0.1109,
      "step": 1172
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.45766904950141907,
      "learning_rate": 0.00028533981992448444,
      "loss": 0.1278,
      "step": 1173
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.8251798748970032,
      "learning_rate": 0.00028531803659599187,
      "loss": 0.1225,
      "step": 1174
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.6251804828643799,
      "learning_rate": 0.00028529625326749925,
      "loss": 0.2228,
      "step": 1175
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2909858822822571,
      "learning_rate": 0.0002852744699390067,
      "loss": 0.1645,
      "step": 1176
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.47801685333251953,
      "learning_rate": 0.00028525268661051405,
      "loss": 0.1848,
      "step": 1177
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.27961620688438416,
      "learning_rate": 0.0002852309032820215,
      "loss": 0.1279,
      "step": 1178
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.36544370651245117,
      "learning_rate": 0.00028520911995352885,
      "loss": 0.142,
      "step": 1179
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.27979564666748047,
      "learning_rate": 0.0002851873366250363,
      "loss": 0.1078,
      "step": 1180
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.27154290676116943,
      "learning_rate": 0.0002851655532965437,
      "loss": 0.0737,
      "step": 1181
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.5943362712860107,
      "learning_rate": 0.0002851437699680511,
      "loss": 0.1267,
      "step": 1182
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.35123664140701294,
      "learning_rate": 0.0002851219866395585,
      "loss": 0.1589,
      "step": 1183
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3588441014289856,
      "learning_rate": 0.0002851002033110659,
      "loss": 0.1674,
      "step": 1184
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.4189550578594208,
      "learning_rate": 0.0002850784199825733,
      "loss": 0.1272,
      "step": 1185
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.619523823261261,
      "learning_rate": 0.0002850566366540807,
      "loss": 0.1848,
      "step": 1186
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.45826441049575806,
      "learning_rate": 0.0002850348533255881,
      "loss": 0.1575,
      "step": 1187
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40842610597610474,
      "learning_rate": 0.00028501306999709555,
      "loss": 0.0908,
      "step": 1188
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2479887455701828,
      "learning_rate": 0.00028499128666860293,
      "loss": 0.1094,
      "step": 1189
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.27872031927108765,
      "learning_rate": 0.00028496950334011036,
      "loss": 0.1472,
      "step": 1190
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.35664260387420654,
      "learning_rate": 0.00028494772001161773,
      "loss": 0.1239,
      "step": 1191
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2767641842365265,
      "learning_rate": 0.00028492593668312516,
      "loss": 0.1307,
      "step": 1192
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.3939761221408844,
      "learning_rate": 0.00028490415335463254,
      "loss": 0.1291,
      "step": 1193
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.2628856599330902,
      "learning_rate": 0.00028488237002613996,
      "loss": 0.0959,
      "step": 1194
    },
    {
      "epoch": 0.33,
      "grad_norm": 0.40162894129753113,
      "learning_rate": 0.0002848605866976474,
      "loss": 0.1748,
      "step": 1195
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.41591787338256836,
      "learning_rate": 0.00028483880336915477,
      "loss": 0.1792,
      "step": 1196
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.33432647585868835,
      "learning_rate": 0.0002848170200406622,
      "loss": 0.1069,
      "step": 1197
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.39968007802963257,
      "learning_rate": 0.0002847952367121696,
      "loss": 0.139,
      "step": 1198
    },
    {
      "epoch": 0.34,
      "grad_norm": 1.0073418617248535,
      "learning_rate": 0.000284773453383677,
      "loss": 0.1771,
      "step": 1199
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6291739344596863,
      "learning_rate": 0.0002847516700551844,
      "loss": 0.2922,
      "step": 1200
    },
    {
      "epoch": 0.34,
      "eval_loss": 0.14437946677207947,
      "eval_runtime": 171.4508,
      "eval_samples_per_second": 15.41,
      "eval_steps_per_second": 0.484,
      "eval_wer": 0.14478381594605316,
      "step": 1200
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.33747416734695435,
      "learning_rate": 0.0002847298867266918,
      "loss": 0.1054,
      "step": 1201
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4435712397098541,
      "learning_rate": 0.00028470810339819924,
      "loss": 0.1416,
      "step": 1202
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.23924987018108368,
      "learning_rate": 0.00028468632006970666,
      "loss": 0.1068,
      "step": 1203
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.40795835852622986,
      "learning_rate": 0.00028466453674121404,
      "loss": 0.1488,
      "step": 1204
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.30500078201293945,
      "learning_rate": 0.0002846427534127214,
      "loss": 0.1226,
      "step": 1205
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.38544097542762756,
      "learning_rate": 0.00028462097008422884,
      "loss": 0.1415,
      "step": 1206
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.26885417103767395,
      "learning_rate": 0.0002845991867557362,
      "loss": 0.168,
      "step": 1207
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.2957129180431366,
      "learning_rate": 0.00028457740342724365,
      "loss": 0.1066,
      "step": 1208
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.24371545016765594,
      "learning_rate": 0.0002845556200987511,
      "loss": 0.1183,
      "step": 1209
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.23547573387622833,
      "learning_rate": 0.0002845338367702585,
      "loss": 0.0881,
      "step": 1210
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.49334320425987244,
      "learning_rate": 0.0002845120534417659,
      "loss": 0.1747,
      "step": 1211
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5306755900382996,
      "learning_rate": 0.0002844902701132733,
      "loss": 0.158,
      "step": 1212
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.8528934717178345,
      "learning_rate": 0.0002844684867847807,
      "loss": 0.1881,
      "step": 1213
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3230997920036316,
      "learning_rate": 0.00028444670345628806,
      "loss": 0.124,
      "step": 1214
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3396678566932678,
      "learning_rate": 0.0002844249201277955,
      "loss": 0.1589,
      "step": 1215
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.25459519028663635,
      "learning_rate": 0.0002844031367993029,
      "loss": 0.0979,
      "step": 1216
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.2535601854324341,
      "learning_rate": 0.00028438135347081035,
      "loss": 0.0964,
      "step": 1217
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3839259445667267,
      "learning_rate": 0.0002843595701423177,
      "loss": 0.166,
      "step": 1218
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5267322659492493,
      "learning_rate": 0.00028433778681382515,
      "loss": 0.1376,
      "step": 1219
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.2533155381679535,
      "learning_rate": 0.0002843160034853325,
      "loss": 0.1089,
      "step": 1220
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3008211851119995,
      "learning_rate": 0.0002842942201568399,
      "loss": 0.1075,
      "step": 1221
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.2688310146331787,
      "learning_rate": 0.00028427243682834733,
      "loss": 0.1016,
      "step": 1222
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.4563886225223541,
      "learning_rate": 0.00028425065349985476,
      "loss": 0.1524,
      "step": 1223
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.5727930665016174,
      "learning_rate": 0.0002842288701713622,
      "loss": 0.1263,
      "step": 1224
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.6707785129547119,
      "learning_rate": 0.00028420708684286956,
      "loss": 0.1318,
      "step": 1225
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.33378782868385315,
      "learning_rate": 0.000284185303514377,
      "loss": 0.117,
      "step": 1226
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3391353487968445,
      "learning_rate": 0.00028416352018588437,
      "loss": 0.1284,
      "step": 1227
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.22806748747825623,
      "learning_rate": 0.0002841417368573918,
      "loss": 0.0787,
      "step": 1228
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.413217157125473,
      "learning_rate": 0.00028411995352889917,
      "loss": 0.1883,
      "step": 1229
    },
    {
      "epoch": 0.34,
      "grad_norm": 0.3294788599014282,
      "learning_rate": 0.0002840981702004066,
      "loss": 0.1361,
      "step": 1230
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3230753242969513,
      "learning_rate": 0.00028407638687191403,
      "loss": 0.0969,
      "step": 1231
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3461851179599762,
      "learning_rate": 0.0002840546035434214,
      "loss": 0.1097,
      "step": 1232
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.36808350682258606,
      "learning_rate": 0.00028403282021492883,
      "loss": 0.1217,
      "step": 1233
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.25445109605789185,
      "learning_rate": 0.0002840110368864362,
      "loss": 0.0908,
      "step": 1234
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.41258761286735535,
      "learning_rate": 0.00028398925355794364,
      "loss": 0.1287,
      "step": 1235
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4530864655971527,
      "learning_rate": 0.000283967470229451,
      "loss": 0.2201,
      "step": 1236
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7274829149246216,
      "learning_rate": 0.00028394568690095844,
      "loss": 0.123,
      "step": 1237
    },
    {
      "epoch": 0.35,
      "grad_norm": 2.545435905456543,
      "learning_rate": 0.00028392390357246587,
      "loss": 0.1911,
      "step": 1238
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5605618953704834,
      "learning_rate": 0.00028390212024397325,
      "loss": 0.0871,
      "step": 1239
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4456133544445038,
      "learning_rate": 0.0002838803369154807,
      "loss": 0.1522,
      "step": 1240
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3325100839138031,
      "learning_rate": 0.00028385855358698805,
      "loss": 0.1492,
      "step": 1241
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.4004932940006256,
      "learning_rate": 0.0002838367702584955,
      "loss": 0.182,
      "step": 1242
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3919038474559784,
      "learning_rate": 0.00028381498693000285,
      "loss": 0.1766,
      "step": 1243
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3623672425746918,
      "learning_rate": 0.0002837932036015103,
      "loss": 0.1386,
      "step": 1244
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.2783578634262085,
      "learning_rate": 0.0002837714202730177,
      "loss": 0.1464,
      "step": 1245
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.25290951132774353,
      "learning_rate": 0.0002837496369445251,
      "loss": 0.1041,
      "step": 1246
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.47526583075523376,
      "learning_rate": 0.0002837278536160325,
      "loss": 0.186,
      "step": 1247
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7374355792999268,
      "learning_rate": 0.0002837060702875399,
      "loss": 0.2051,
      "step": 1248
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.5745633244514465,
      "learning_rate": 0.0002836842869590473,
      "loss": 0.2008,
      "step": 1249
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.898771345615387,
      "learning_rate": 0.0002836625036305547,
      "loss": 0.1965,
      "step": 1250
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3082135319709778,
      "learning_rate": 0.0002836407203020621,
      "loss": 0.1065,
      "step": 1251
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3261916935443878,
      "learning_rate": 0.00028361893697356955,
      "loss": 0.163,
      "step": 1252
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.20864123106002808,
      "learning_rate": 0.000283597153645077,
      "loss": 0.0889,
      "step": 1253
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.268878698348999,
      "learning_rate": 0.00028357537031658436,
      "loss": 0.1008,
      "step": 1254
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.35303282737731934,
      "learning_rate": 0.00028355358698809173,
      "loss": 0.1625,
      "step": 1255
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3709262013435364,
      "learning_rate": 0.00028353180365959916,
      "loss": 0.1292,
      "step": 1256
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.38217756152153015,
      "learning_rate": 0.00028351002033110654,
      "loss": 0.1183,
      "step": 1257
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.49551495909690857,
      "learning_rate": 0.00028348823700261397,
      "loss": 0.1132,
      "step": 1258
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.42843708395957947,
      "learning_rate": 0.0002834664536741214,
      "loss": 0.0999,
      "step": 1259
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.2925419211387634,
      "learning_rate": 0.0002834446703456288,
      "loss": 0.0778,
      "step": 1260
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.36643368005752563,
      "learning_rate": 0.0002834228870171362,
      "loss": 0.1173,
      "step": 1261
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.35526353120803833,
      "learning_rate": 0.00028340110368864363,
      "loss": 0.0712,
      "step": 1262
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.6989895105361938,
      "learning_rate": 0.000283379320360151,
      "loss": 0.1041,
      "step": 1263
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.2629174590110779,
      "learning_rate": 0.0002833575370316584,
      "loss": 0.1481,
      "step": 1264
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.3363577723503113,
      "learning_rate": 0.0002833357537031658,
      "loss": 0.1277,
      "step": 1265
    },
    {
      "epoch": 0.35,
      "grad_norm": 0.7407823801040649,
      "learning_rate": 0.00028331397037467324,
      "loss": 0.127,
      "step": 1266
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.32157981395721436,
      "learning_rate": 0.00028329218704618067,
      "loss": 0.1248,
      "step": 1267
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.2747824192047119,
      "learning_rate": 0.00028327040371768804,
      "loss": 0.0958,
      "step": 1268
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.2519776225090027,
      "learning_rate": 0.00028324862038919547,
      "loss": 0.1159,
      "step": 1269
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3017367124557495,
      "learning_rate": 0.00028322683706070284,
      "loss": 0.0931,
      "step": 1270
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4034278690814972,
      "learning_rate": 0.0002832050537322102,
      "loss": 0.1758,
      "step": 1271
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.29342034459114075,
      "learning_rate": 0.00028318327040371765,
      "loss": 0.1609,
      "step": 1272
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.2849105894565582,
      "learning_rate": 0.0002831614870752251,
      "loss": 0.094,
      "step": 1273
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.45335710048675537,
      "learning_rate": 0.0002831397037467325,
      "loss": 0.1243,
      "step": 1274
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.6054089665412903,
      "learning_rate": 0.0002831179204182399,
      "loss": 0.1155,
      "step": 1275
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3213726580142975,
      "learning_rate": 0.0002830961370897473,
      "loss": 0.1286,
      "step": 1276
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3016042709350586,
      "learning_rate": 0.0002830743537612547,
      "loss": 0.0993,
      "step": 1277
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3992713689804077,
      "learning_rate": 0.0002830525704327621,
      "loss": 0.1551,
      "step": 1278
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.4148910939693451,
      "learning_rate": 0.0002830307871042695,
      "loss": 0.1696,
      "step": 1279
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.29882046580314636,
      "learning_rate": 0.0002830090037757769,
      "loss": 0.1009,
      "step": 1280
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5591763854026794,
      "learning_rate": 0.00028298722044728435,
      "loss": 0.166,
      "step": 1281
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.2112828940153122,
      "learning_rate": 0.0002829654371187917,
      "loss": 0.0852,
      "step": 1282
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.23297394812107086,
      "learning_rate": 0.00028294365379029915,
      "loss": 0.0757,
      "step": 1283
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.2709801495075226,
      "learning_rate": 0.00028292187046180653,
      "loss": 0.1112,
      "step": 1284
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.41393527388572693,
      "learning_rate": 0.00028290008713331396,
      "loss": 0.1511,
      "step": 1285
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.43425241112709045,
      "learning_rate": 0.00028287830380482133,
      "loss": 0.1727,
      "step": 1286
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.7425776720046997,
      "learning_rate": 0.00028285652047632876,
      "loss": 0.1017,
      "step": 1287
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.575021743774414,
      "learning_rate": 0.0002828347371478362,
      "loss": 0.3928,
      "step": 1288
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.28374847769737244,
      "learning_rate": 0.00028281295381934356,
      "loss": 0.0951,
      "step": 1289
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.35599446296691895,
      "learning_rate": 0.000282791170490851,
      "loss": 0.1509,
      "step": 1290
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3864380419254303,
      "learning_rate": 0.00028276938716235837,
      "loss": 0.1286,
      "step": 1291
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.28777649998664856,
      "learning_rate": 0.0002827476038338658,
      "loss": 0.1345,
      "step": 1292
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.2610333263874054,
      "learning_rate": 0.00028272582050537317,
      "loss": 0.0874,
      "step": 1293
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.23019817471504211,
      "learning_rate": 0.0002827040371768806,
      "loss": 0.1355,
      "step": 1294
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.27324697375297546,
      "learning_rate": 0.00028268225384838803,
      "loss": 0.0941,
      "step": 1295
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3090977072715759,
      "learning_rate": 0.0002826604705198954,
      "loss": 0.1037,
      "step": 1296
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.35459861159324646,
      "learning_rate": 0.00028263868719140283,
      "loss": 0.0705,
      "step": 1297
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3548848032951355,
      "learning_rate": 0.0002826169038629102,
      "loss": 0.1155,
      "step": 1298
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.5195960998535156,
      "learning_rate": 0.00028259512053441764,
      "loss": 0.1845,
      "step": 1299
    },
    {
      "epoch": 0.36,
      "grad_norm": 1.2189249992370605,
      "learning_rate": 0.000282573337205925,
      "loss": 0.2303,
      "step": 1300
    },
    {
      "epoch": 0.36,
      "eval_loss": 0.13190168142318726,
      "eval_runtime": 177.2163,
      "eval_samples_per_second": 14.908,
      "eval_steps_per_second": 0.468,
      "eval_wer": 0.13343911146370488,
      "step": 1300
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3519391715526581,
      "learning_rate": 0.00028255155387743244,
      "loss": 0.098,
      "step": 1301
    },
    {
      "epoch": 0.36,
      "grad_norm": 0.3226016163825989,
      "learning_rate": 0.00028252977054893987,
      "loss": 0.1546,
      "step": 1302
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.2972334623336792,
      "learning_rate": 0.00028250798722044725,
      "loss": 0.0985,
      "step": 1303
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4389261305332184,
      "learning_rate": 0.0002824862038919547,
      "loss": 0.147,
      "step": 1304
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.24527236819267273,
      "learning_rate": 0.00028246442056346205,
      "loss": 0.0943,
      "step": 1305
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3503529727458954,
      "learning_rate": 0.0002824426372349695,
      "loss": 0.1285,
      "step": 1306
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.205145001411438,
      "learning_rate": 0.00028242085390647686,
      "loss": 0.0636,
      "step": 1307
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.2177535742521286,
      "learning_rate": 0.0002823990705779843,
      "loss": 0.0777,
      "step": 1308
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3483579456806183,
      "learning_rate": 0.0002823772872494917,
      "loss": 0.1331,
      "step": 1309
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.35515785217285156,
      "learning_rate": 0.0002823555039209991,
      "loss": 0.0858,
      "step": 1310
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3752906024456024,
      "learning_rate": 0.0002823337205925065,
      "loss": 0.1192,
      "step": 1311
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.7599263191223145,
      "learning_rate": 0.00028231193726401395,
      "loss": 0.1381,
      "step": 1312
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.5710768103599548,
      "learning_rate": 0.0002822901539355213,
      "loss": 0.1555,
      "step": 1313
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4774967133998871,
      "learning_rate": 0.0002822683706070287,
      "loss": 0.1627,
      "step": 1314
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.36428302526474,
      "learning_rate": 0.0002822465872785361,
      "loss": 0.1322,
      "step": 1315
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.24887561798095703,
      "learning_rate": 0.00028222480395004355,
      "loss": 0.0793,
      "step": 1316
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.4531017541885376,
      "learning_rate": 0.000282203020621551,
      "loss": 0.1133,
      "step": 1317
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.32400327920913696,
      "learning_rate": 0.00028218123729305836,
      "loss": 0.1312,
      "step": 1318
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.38497406244277954,
      "learning_rate": 0.0002821594539645658,
      "loss": 0.1487,
      "step": 1319
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.29760023951530457,
      "learning_rate": 0.00028213767063607316,
      "loss": 0.1712,
      "step": 1320
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.27220597863197327,
      "learning_rate": 0.00028211588730758054,
      "loss": 0.13,
      "step": 1321
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3102557957172394,
      "learning_rate": 0.00028209410397908797,
      "loss": 0.1395,
      "step": 1322
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.35176801681518555,
      "learning_rate": 0.0002820723206505954,
      "loss": 0.1341,
      "step": 1323
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.6188942193984985,
      "learning_rate": 0.0002820505373221028,
      "loss": 0.1795,
      "step": 1324
    },
    {
      "epoch": 0.37,
      "grad_norm": 1.856408953666687,
      "learning_rate": 0.0002820287539936102,
      "loss": 0.312,
      "step": 1325
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.28926289081573486,
      "learning_rate": 0.00028200697066511763,
      "loss": 0.132,
      "step": 1326
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.2265496551990509,
      "learning_rate": 0.000281985187336625,
      "loss": 0.0854,
      "step": 1327
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3597908318042755,
      "learning_rate": 0.00028196340400813243,
      "loss": 0.1415,
      "step": 1328
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.24348999559879303,
      "learning_rate": 0.0002819416206796398,
      "loss": 0.1072,
      "step": 1329
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.402302086353302,
      "learning_rate": 0.00028191983735114724,
      "loss": 0.1239,
      "step": 1330
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.2516448199748993,
      "learning_rate": 0.00028189805402265467,
      "loss": 0.1263,
      "step": 1331
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3275238573551178,
      "learning_rate": 0.00028187627069416204,
      "loss": 0.136,
      "step": 1332
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3281662166118622,
      "learning_rate": 0.00028185448736566947,
      "loss": 0.0911,
      "step": 1333
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.3058055341243744,
      "learning_rate": 0.00028183270403717685,
      "loss": 0.1456,
      "step": 1334
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.34582000970840454,
      "learning_rate": 0.0002818109207086843,
      "loss": 0.1247,
      "step": 1335
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.46495679020881653,
      "learning_rate": 0.00028178913738019165,
      "loss": 0.1819,
      "step": 1336
    },
    {
      "epoch": 0.37,
      "grad_norm": 0.514268696308136,
      "learning_rate": 0.0002817673540516991,
      "loss": 0.1609,
      "step": 1337
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8645204305648804,
      "learning_rate": 0.0002817455707232065,
      "loss": 0.2389,
      "step": 1338
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.1973900943994522,
      "learning_rate": 0.0002817237873947139,
      "loss": 0.0726,
      "step": 1339
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.363851934671402,
      "learning_rate": 0.0002817020040662213,
      "loss": 0.154,
      "step": 1340
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.34254342317581177,
      "learning_rate": 0.0002816802207377287,
      "loss": 0.1139,
      "step": 1341
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.35756221413612366,
      "learning_rate": 0.0002816584374092361,
      "loss": 0.1701,
      "step": 1342
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.457642525434494,
      "learning_rate": 0.0002816366540807435,
      "loss": 0.1026,
      "step": 1343
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3043283224105835,
      "learning_rate": 0.0002816148707522509,
      "loss": 0.0902,
      "step": 1344
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3326166570186615,
      "learning_rate": 0.00028159308742375835,
      "loss": 0.1019,
      "step": 1345
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5918250679969788,
      "learning_rate": 0.0002815713040952657,
      "loss": 0.1586,
      "step": 1346
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.2899106740951538,
      "learning_rate": 0.00028154952076677315,
      "loss": 0.0892,
      "step": 1347
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.491849809885025,
      "learning_rate": 0.00028152773743828053,
      "loss": 0.1604,
      "step": 1348
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.778299868106842,
      "learning_rate": 0.00028150595410978796,
      "loss": 0.1857,
      "step": 1349
    },
    {
      "epoch": 0.38,
      "grad_norm": 1.4484179019927979,
      "learning_rate": 0.00028148417078129533,
      "loss": 0.4337,
      "step": 1350
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5000464916229248,
      "learning_rate": 0.00028146238745280276,
      "loss": 0.1051,
      "step": 1351
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3195717930793762,
      "learning_rate": 0.0002814406041243102,
      "loss": 0.1071,
      "step": 1352
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.36464107036590576,
      "learning_rate": 0.00028141882079581757,
      "loss": 0.1455,
      "step": 1353
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3461958169937134,
      "learning_rate": 0.000281397037467325,
      "loss": 0.1412,
      "step": 1354
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.27088814973831177,
      "learning_rate": 0.00028137525413883237,
      "loss": 0.0955,
      "step": 1355
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.32910051941871643,
      "learning_rate": 0.0002813534708103398,
      "loss": 0.1404,
      "step": 1356
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.29843562841415405,
      "learning_rate": 0.0002813316874818472,
      "loss": 0.1226,
      "step": 1357
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.24475227296352386,
      "learning_rate": 0.0002813099041533546,
      "loss": 0.0646,
      "step": 1358
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3307033181190491,
      "learning_rate": 0.00028128812082486203,
      "loss": 0.1344,
      "step": 1359
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.39295318722724915,
      "learning_rate": 0.0002812663374963694,
      "loss": 0.1179,
      "step": 1360
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.5297836065292358,
      "learning_rate": 0.00028124455416787684,
      "loss": 0.1481,
      "step": 1361
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.7443700432777405,
      "learning_rate": 0.00028122277083938427,
      "loss": 0.2662,
      "step": 1362
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.8792024850845337,
      "learning_rate": 0.00028120098751089164,
      "loss": 0.2391,
      "step": 1363
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.2584308683872223,
      "learning_rate": 0.000281179204182399,
      "loss": 0.1219,
      "step": 1364
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.24930153787136078,
      "learning_rate": 0.00028115742085390644,
      "loss": 0.0681,
      "step": 1365
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.24286775290966034,
      "learning_rate": 0.0002811356375254139,
      "loss": 0.0791,
      "step": 1366
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3147469460964203,
      "learning_rate": 0.00028111385419692125,
      "loss": 0.089,
      "step": 1367
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.2398427575826645,
      "learning_rate": 0.0002810920708684287,
      "loss": 0.0816,
      "step": 1368
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.2779824435710907,
      "learning_rate": 0.0002810702875399361,
      "loss": 0.1237,
      "step": 1369
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.32903945446014404,
      "learning_rate": 0.0002810485042114435,
      "loss": 0.1086,
      "step": 1370
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.3849632441997528,
      "learning_rate": 0.0002810267208829509,
      "loss": 0.1396,
      "step": 1371
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.40769386291503906,
      "learning_rate": 0.0002810049375544583,
      "loss": 0.091,
      "step": 1372
    },
    {
      "epoch": 0.38,
      "grad_norm": 0.906010627746582,
      "learning_rate": 0.0002809831542259657,
      "loss": 0.1968,
      "step": 1373
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8428906202316284,
      "learning_rate": 0.0002809613708974731,
      "loss": 0.1066,
      "step": 1374
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.5319145917892456,
      "learning_rate": 0.0002809395875689805,
      "loss": 0.123,
      "step": 1375
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.29730328917503357,
      "learning_rate": 0.00028091780424048795,
      "loss": 0.0969,
      "step": 1376
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3613230586051941,
      "learning_rate": 0.0002808960209119953,
      "loss": 0.1184,
      "step": 1377
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.45233485102653503,
      "learning_rate": 0.00028087423758350275,
      "loss": 0.1531,
      "step": 1378
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3442527949810028,
      "learning_rate": 0.0002808524542550101,
      "loss": 0.1095,
      "step": 1379
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3224245011806488,
      "learning_rate": 0.00028083067092651756,
      "loss": 0.1656,
      "step": 1380
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7305225133895874,
      "learning_rate": 0.00028080888759802493,
      "loss": 0.1324,
      "step": 1381
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.348129540681839,
      "learning_rate": 0.00028078710426953236,
      "loss": 0.1238,
      "step": 1382
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.31384801864624023,
      "learning_rate": 0.0002807653209410398,
      "loss": 0.1098,
      "step": 1383
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3737061321735382,
      "learning_rate": 0.00028074353761254716,
      "loss": 0.1684,
      "step": 1384
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.2672610282897949,
      "learning_rate": 0.0002807217542840546,
      "loss": 0.0961,
      "step": 1385
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.2944474518299103,
      "learning_rate": 0.00028069997095556197,
      "loss": 0.1167,
      "step": 1386
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7446079850196838,
      "learning_rate": 0.0002806781876270694,
      "loss": 0.2515,
      "step": 1387
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.7547325491905212,
      "learning_rate": 0.00028065640429857677,
      "loss": 0.1734,
      "step": 1388
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.2836950421333313,
      "learning_rate": 0.0002806346209700842,
      "loss": 0.0916,
      "step": 1389
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.320771723985672,
      "learning_rate": 0.00028061283764159163,
      "loss": 0.1178,
      "step": 1390
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.2610016465187073,
      "learning_rate": 0.000280591054313099,
      "loss": 0.0715,
      "step": 1391
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.32433491945266724,
      "learning_rate": 0.00028056927098460643,
      "loss": 0.0992,
      "step": 1392
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4361969530582428,
      "learning_rate": 0.0002805474876561138,
      "loss": 0.1312,
      "step": 1393
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3120015263557434,
      "learning_rate": 0.00028052570432762124,
      "loss": 0.1355,
      "step": 1394
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3867395520210266,
      "learning_rate": 0.0002805039209991286,
      "loss": 0.1634,
      "step": 1395
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4035376310348511,
      "learning_rate": 0.00028048213767063604,
      "loss": 0.1241,
      "step": 1396
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4704301953315735,
      "learning_rate": 0.00028046035434214347,
      "loss": 0.1026,
      "step": 1397
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.6269347071647644,
      "learning_rate": 0.00028043857101365085,
      "loss": 0.1603,
      "step": 1398
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.31681060791015625,
      "learning_rate": 0.0002804167876851583,
      "loss": 0.1161,
      "step": 1399
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.8910426497459412,
      "learning_rate": 0.00028039500435666565,
      "loss": 0.1858,
      "step": 1400
    },
    {
      "epoch": 0.39,
      "eval_loss": 0.1286235898733139,
      "eval_runtime": 170.9326,
      "eval_samples_per_second": 15.456,
      "eval_steps_per_second": 0.486,
      "eval_wer": 0.1352836176120587,
      "step": 1400
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4662506580352783,
      "learning_rate": 0.0002803732210281731,
      "loss": 0.1773,
      "step": 1401
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.3203957676887512,
      "learning_rate": 0.00028035143769968045,
      "loss": 0.1097,
      "step": 1402
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.27010372281074524,
      "learning_rate": 0.0002803296543711879,
      "loss": 0.1454,
      "step": 1403
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.36012330651283264,
      "learning_rate": 0.0002803078710426953,
      "loss": 0.1462,
      "step": 1404
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.25082239508628845,
      "learning_rate": 0.0002802860877142027,
      "loss": 0.0955,
      "step": 1405
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4247482717037201,
      "learning_rate": 0.0002802643043857101,
      "loss": 0.1128,
      "step": 1406
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.38725826144218445,
      "learning_rate": 0.0002802425210572175,
      "loss": 0.1299,
      "step": 1407
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.4063900113105774,
      "learning_rate": 0.0002802207377287249,
      "loss": 0.1135,
      "step": 1408
    },
    {
      "epoch": 0.39,
      "grad_norm": 0.25281038880348206,
      "learning_rate": 0.0002801989544002323,
      "loss": 0.078,
      "step": 1409
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4677034914493561,
      "learning_rate": 0.0002801771710717397,
      "loss": 0.1689,
      "step": 1410
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6234891414642334,
      "learning_rate": 0.00028015538774324715,
      "loss": 0.2449,
      "step": 1411
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.41621822118759155,
      "learning_rate": 0.0002801336044147546,
      "loss": 0.1182,
      "step": 1412
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.6612581014633179,
      "learning_rate": 0.00028011182108626196,
      "loss": 0.1195,
      "step": 1413
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3358212113380432,
      "learning_rate": 0.00028009003775776933,
      "loss": 0.1602,
      "step": 1414
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3133494257926941,
      "learning_rate": 0.00028006825442927676,
      "loss": 0.1307,
      "step": 1415
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.30383846163749695,
      "learning_rate": 0.00028004647110078414,
      "loss": 0.0737,
      "step": 1416
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.2946304976940155,
      "learning_rate": 0.00028002468777229157,
      "loss": 0.1009,
      "step": 1417
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4419151544570923,
      "learning_rate": 0.000280002904443799,
      "loss": 0.1386,
      "step": 1418
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.257058322429657,
      "learning_rate": 0.0002799811211153064,
      "loss": 0.0751,
      "step": 1419
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4063502848148346,
      "learning_rate": 0.0002799593377868138,
      "loss": 0.1428,
      "step": 1420
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.20721200108528137,
      "learning_rate": 0.00027993755445832123,
      "loss": 0.1086,
      "step": 1421
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4080563187599182,
      "learning_rate": 0.0002799157711298286,
      "loss": 0.1494,
      "step": 1422
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3680054545402527,
      "learning_rate": 0.00027989398780133603,
      "loss": 0.1129,
      "step": 1423
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.373584121465683,
      "learning_rate": 0.0002798722044728434,
      "loss": 0.0923,
      "step": 1424
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.1969501972198486,
      "learning_rate": 0.00027985042114435084,
      "loss": 0.182,
      "step": 1425
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.2632359266281128,
      "learning_rate": 0.00027982863781585827,
      "loss": 0.0892,
      "step": 1426
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.37911486625671387,
      "learning_rate": 0.00027980685448736564,
      "loss": 0.1045,
      "step": 1427
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.33749109506607056,
      "learning_rate": 0.00027978507115887307,
      "loss": 0.1094,
      "step": 1428
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.32284799218177795,
      "learning_rate": 0.00027976328783038045,
      "loss": 0.1041,
      "step": 1429
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.33423641324043274,
      "learning_rate": 0.0002797415045018879,
      "loss": 0.1166,
      "step": 1430
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.32264846563339233,
      "learning_rate": 0.00027971972117339525,
      "loss": 0.1208,
      "step": 1431
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.2664649784564972,
      "learning_rate": 0.0002796979378449027,
      "loss": 0.116,
      "step": 1432
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4133315980434418,
      "learning_rate": 0.0002796761545164101,
      "loss": 0.1248,
      "step": 1433
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.34858042001724243,
      "learning_rate": 0.0002796543711879175,
      "loss": 0.0981,
      "step": 1434
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3689603805541992,
      "learning_rate": 0.0002796325878594249,
      "loss": 0.094,
      "step": 1435
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.17732392251491547,
      "learning_rate": 0.0002796108045309323,
      "loss": 0.0586,
      "step": 1436
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3186492919921875,
      "learning_rate": 0.0002795890212024397,
      "loss": 0.1387,
      "step": 1437
    },
    {
      "epoch": 0.4,
      "grad_norm": 1.0677108764648438,
      "learning_rate": 0.0002795672378739471,
      "loss": 0.276,
      "step": 1438
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.20470154285430908,
      "learning_rate": 0.0002795454545454545,
      "loss": 0.1046,
      "step": 1439
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.25682517886161804,
      "learning_rate": 0.00027952367121696195,
      "loss": 0.1042,
      "step": 1440
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.257769376039505,
      "learning_rate": 0.0002795018878884693,
      "loss": 0.1076,
      "step": 1441
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.368638277053833,
      "learning_rate": 0.00027948010455997675,
      "loss": 0.1539,
      "step": 1442
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.23174653947353363,
      "learning_rate": 0.00027945832123148413,
      "loss": 0.0768,
      "step": 1443
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.36738845705986023,
      "learning_rate": 0.00027943653790299156,
      "loss": 0.141,
      "step": 1444
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.3783547282218933,
      "learning_rate": 0.00027941475457449893,
      "loss": 0.1164,
      "step": 1445
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.30559873580932617,
      "learning_rate": 0.00027939297124600636,
      "loss": 0.1074,
      "step": 1446
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.30499792098999023,
      "learning_rate": 0.0002793711879175138,
      "loss": 0.0933,
      "step": 1447
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3582732379436493,
      "learning_rate": 0.00027934940458902117,
      "loss": 0.0745,
      "step": 1448
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4606860280036926,
      "learning_rate": 0.0002793276212605286,
      "loss": 0.1279,
      "step": 1449
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.001348853111267,
      "learning_rate": 0.00027930583793203597,
      "loss": 0.1833,
      "step": 1450
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3267405927181244,
      "learning_rate": 0.0002792840546035434,
      "loss": 0.0826,
      "step": 1451
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3814316689968109,
      "learning_rate": 0.0002792622712750508,
      "loss": 0.1348,
      "step": 1452
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3373813331127167,
      "learning_rate": 0.0002792404879465582,
      "loss": 0.1248,
      "step": 1453
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.23106956481933594,
      "learning_rate": 0.00027921870461806563,
      "loss": 0.0936,
      "step": 1454
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3658931851387024,
      "learning_rate": 0.000279196921289573,
      "loss": 0.0961,
      "step": 1455
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.27326861023902893,
      "learning_rate": 0.00027917513796108044,
      "loss": 0.1094,
      "step": 1456
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.31102922558784485,
      "learning_rate": 0.0002791533546325878,
      "loss": 0.1342,
      "step": 1457
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.4244249165058136,
      "learning_rate": 0.00027913157130409524,
      "loss": 0.1296,
      "step": 1458
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.24789176881313324,
      "learning_rate": 0.0002791097879756026,
      "loss": 0.0819,
      "step": 1459
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.5602538585662842,
      "learning_rate": 0.00027908800464711004,
      "loss": 0.157,
      "step": 1460
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.2829136252403259,
      "learning_rate": 0.00027906622131861747,
      "loss": 0.0699,
      "step": 1461
    },
    {
      "epoch": 0.41,
      "grad_norm": 1.058020830154419,
      "learning_rate": 0.0002790444379901249,
      "loss": 0.2671,
      "step": 1462
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3451535999774933,
      "learning_rate": 0.0002790226546616323,
      "loss": 0.0863,
      "step": 1463
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3497051000595093,
      "learning_rate": 0.00027900087133313965,
      "loss": 0.1246,
      "step": 1464
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.2915809154510498,
      "learning_rate": 0.0002789790880046471,
      "loss": 0.1059,
      "step": 1465
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3412903845310211,
      "learning_rate": 0.00027895730467615446,
      "loss": 0.1783,
      "step": 1466
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.2927294969558716,
      "learning_rate": 0.0002789355213476619,
      "loss": 0.0997,
      "step": 1467
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3799107074737549,
      "learning_rate": 0.0002789137380191693,
      "loss": 0.1518,
      "step": 1468
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.2679404318332672,
      "learning_rate": 0.00027889195469067674,
      "loss": 0.1169,
      "step": 1469
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.46260783076286316,
      "learning_rate": 0.0002788701713621841,
      "loss": 0.1261,
      "step": 1470
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.36384060978889465,
      "learning_rate": 0.00027884838803369155,
      "loss": 0.1131,
      "step": 1471
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.25585874915122986,
      "learning_rate": 0.0002788266047051989,
      "loss": 0.0846,
      "step": 1472
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3029853105545044,
      "learning_rate": 0.0002788048213767063,
      "loss": 0.0838,
      "step": 1473
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3848561644554138,
      "learning_rate": 0.0002787830380482137,
      "loss": 0.0887,
      "step": 1474
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.7687332034111023,
      "learning_rate": 0.00027876125471972116,
      "loss": 0.1487,
      "step": 1475
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.19973067939281464,
      "learning_rate": 0.0002787394713912286,
      "loss": 0.0742,
      "step": 1476
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3206809461116791,
      "learning_rate": 0.00027871768806273596,
      "loss": 0.113,
      "step": 1477
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.27122461795806885,
      "learning_rate": 0.0002786959047342434,
      "loss": 0.1183,
      "step": 1478
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3035581409931183,
      "learning_rate": 0.00027867412140575076,
      "loss": 0.1416,
      "step": 1479
    },
    {
      "epoch": 0.41,
      "grad_norm": 0.3035021424293518,
      "learning_rate": 0.0002786523380772582,
      "loss": 0.1197,
      "step": 1480
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.44020652770996094,
      "learning_rate": 0.00027863055474876557,
      "loss": 0.1516,
      "step": 1481
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3109024465084076,
      "learning_rate": 0.000278608771420273,
      "loss": 0.1182,
      "step": 1482
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.30602994561195374,
      "learning_rate": 0.0002785869880917804,
      "loss": 0.104,
      "step": 1483
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.35649704933166504,
      "learning_rate": 0.0002785652047632878,
      "loss": 0.1147,
      "step": 1484
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.2528572976589203,
      "learning_rate": 0.00027854342143479523,
      "loss": 0.0924,
      "step": 1485
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4654971957206726,
      "learning_rate": 0.0002785216381063026,
      "loss": 0.1694,
      "step": 1486
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4456767141819,
      "learning_rate": 0.00027849985477781003,
      "loss": 0.1281,
      "step": 1487
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.371981680393219,
      "learning_rate": 0.0002784780714493174,
      "loss": 0.1086,
      "step": 1488
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3397374451160431,
      "learning_rate": 0.00027845628812082484,
      "loss": 0.1223,
      "step": 1489
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3802228271961212,
      "learning_rate": 0.00027843450479233227,
      "loss": 0.0979,
      "step": 1490
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3054533898830414,
      "learning_rate": 0.00027841272146383964,
      "loss": 0.1584,
      "step": 1491
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.21172675490379333,
      "learning_rate": 0.00027839093813534707,
      "loss": 0.0838,
      "step": 1492
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.2974194884300232,
      "learning_rate": 0.00027836915480685445,
      "loss": 0.105,
      "step": 1493
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.254347026348114,
      "learning_rate": 0.0002783473714783619,
      "loss": 0.1156,
      "step": 1494
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3048011064529419,
      "learning_rate": 0.00027832558814986925,
      "loss": 0.109,
      "step": 1495
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3411570191383362,
      "learning_rate": 0.0002783038048213767,
      "loss": 0.1129,
      "step": 1496
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.28335902094841003,
      "learning_rate": 0.0002782820214928841,
      "loss": 0.0711,
      "step": 1497
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.2946280241012573,
      "learning_rate": 0.0002782602381643915,
      "loss": 0.1094,
      "step": 1498
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4227779805660248,
      "learning_rate": 0.0002782384548358989,
      "loss": 0.1202,
      "step": 1499
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.37284377217292786,
      "learning_rate": 0.0002782166715074063,
      "loss": 0.0837,
      "step": 1500
    },
    {
      "epoch": 0.42,
      "eval_loss": 0.11624949425458908,
      "eval_runtime": 170.2224,
      "eval_samples_per_second": 15.521,
      "eval_steps_per_second": 0.488,
      "eval_wer": 0.12618008726695756,
      "step": 1500
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3186686933040619,
      "learning_rate": 0.0002781948881789137,
      "loss": 0.1139,
      "step": 1501
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.27480319142341614,
      "learning_rate": 0.0002781731048504211,
      "loss": 0.1047,
      "step": 1502
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.1910211741924286,
      "learning_rate": 0.0002781513215219285,
      "loss": 0.0497,
      "step": 1503
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.42930901050567627,
      "learning_rate": 0.00027812953819343595,
      "loss": 0.1516,
      "step": 1504
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.460742712020874,
      "learning_rate": 0.0002781077548649434,
      "loss": 0.1173,
      "step": 1505
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3843354284763336,
      "learning_rate": 0.00027808597153645075,
      "loss": 0.0907,
      "step": 1506
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3334368169307709,
      "learning_rate": 0.00027806418820795813,
      "loss": 0.0888,
      "step": 1507
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4929446578025818,
      "learning_rate": 0.00027804240487946556,
      "loss": 0.0757,
      "step": 1508
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3308541476726532,
      "learning_rate": 0.00027802062155097293,
      "loss": 0.1281,
      "step": 1509
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.3637964129447937,
      "learning_rate": 0.00027799883822248036,
      "loss": 0.1033,
      "step": 1510
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.6330065131187439,
      "learning_rate": 0.0002779770548939878,
      "loss": 0.14,
      "step": 1511
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.4626721739768982,
      "learning_rate": 0.0002779552715654952,
      "loss": 0.1025,
      "step": 1512
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.8224394917488098,
      "learning_rate": 0.0002779334882370026,
      "loss": 0.1453,
      "step": 1513
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.30120474100112915,
      "learning_rate": 0.00027791170490850997,
      "loss": 0.0991,
      "step": 1514
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.2375257909297943,
      "learning_rate": 0.0002778899215800174,
      "loss": 0.1166,
      "step": 1515
    },
    {
      "epoch": 0.42,
      "grad_norm": 0.2220352292060852,
      "learning_rate": 0.0002778681382515248,
      "loss": 0.0973,
      "step": 1516
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.25262251496315,
      "learning_rate": 0.0002778463549230322,
      "loss": 0.1313,
      "step": 1517
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.31552472710609436,
      "learning_rate": 0.00027782457159453963,
      "loss": 0.1152,
      "step": 1518
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.26877328753471375,
      "learning_rate": 0.00027780278826604706,
      "loss": 0.1242,
      "step": 1519
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37347427010536194,
      "learning_rate": 0.00027778100493755444,
      "loss": 0.1319,
      "step": 1520
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3768005073070526,
      "learning_rate": 0.00027775922160906187,
      "loss": 0.1701,
      "step": 1521
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3402847349643707,
      "learning_rate": 0.00027773743828056924,
      "loss": 0.1488,
      "step": 1522
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3574727773666382,
      "learning_rate": 0.0002777156549520766,
      "loss": 0.1248,
      "step": 1523
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.27797484397888184,
      "learning_rate": 0.00027769387162358404,
      "loss": 0.0831,
      "step": 1524
    },
    {
      "epoch": 0.43,
      "grad_norm": 1.0559145212173462,
      "learning_rate": 0.0002776720882950915,
      "loss": 0.3065,
      "step": 1525
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4440504014492035,
      "learning_rate": 0.0002776503049665989,
      "loss": 0.1167,
      "step": 1526
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.26593804359436035,
      "learning_rate": 0.0002776285216381063,
      "loss": 0.1257,
      "step": 1527
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.28550052642822266,
      "learning_rate": 0.0002776067383096137,
      "loss": 0.1125,
      "step": 1528
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3729571998119354,
      "learning_rate": 0.0002775849549811211,
      "loss": 0.1136,
      "step": 1529
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.22338436543941498,
      "learning_rate": 0.0002775631716526285,
      "loss": 0.083,
      "step": 1530
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.22879166901111603,
      "learning_rate": 0.0002775413883241359,
      "loss": 0.07,
      "step": 1531
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4698212742805481,
      "learning_rate": 0.0002775196049956433,
      "loss": 0.1272,
      "step": 1532
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.28523677587509155,
      "learning_rate": 0.00027749782166715074,
      "loss": 0.0928,
      "step": 1533
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4120056629180908,
      "learning_rate": 0.0002774760383386581,
      "loss": 0.0859,
      "step": 1534
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.34480640292167664,
      "learning_rate": 0.00027745425501016555,
      "loss": 0.0791,
      "step": 1535
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4292711913585663,
      "learning_rate": 0.0002774324716816729,
      "loss": 0.1406,
      "step": 1536
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4951568841934204,
      "learning_rate": 0.00027741068835318035,
      "loss": 0.0905,
      "step": 1537
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7132880091667175,
      "learning_rate": 0.00027738890502468773,
      "loss": 0.1241,
      "step": 1538
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.7666446566581726,
      "learning_rate": 0.00027736712169619516,
      "loss": 0.1146,
      "step": 1539
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.27171769738197327,
      "learning_rate": 0.0002773453383677026,
      "loss": 0.1152,
      "step": 1540
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3106868267059326,
      "learning_rate": 0.00027732355503920996,
      "loss": 0.1303,
      "step": 1541
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3909091055393219,
      "learning_rate": 0.0002773017717107174,
      "loss": 0.0935,
      "step": 1542
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.29720500111579895,
      "learning_rate": 0.00027727998838222476,
      "loss": 0.0714,
      "step": 1543
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.37236398458480835,
      "learning_rate": 0.0002772582050537322,
      "loss": 0.1221,
      "step": 1544
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.4413125514984131,
      "learning_rate": 0.00027723642172523957,
      "loss": 0.1228,
      "step": 1545
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.2583853304386139,
      "learning_rate": 0.000277214638396747,
      "loss": 0.0754,
      "step": 1546
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.3748142719268799,
      "learning_rate": 0.0002771928550682544,
      "loss": 0.1166,
      "step": 1547
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.46871280670166016,
      "learning_rate": 0.0002771710717397618,
      "loss": 0.1656,
      "step": 1548
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.22632066905498505,
      "learning_rate": 0.00027714928841126923,
      "loss": 0.0478,
      "step": 1549
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.607768177986145,
      "learning_rate": 0.0002771275050827766,
      "loss": 0.1224,
      "step": 1550
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.25018763542175293,
      "learning_rate": 0.00027710572175428404,
      "loss": 0.0574,
      "step": 1551
    },
    {
      "epoch": 0.43,
      "grad_norm": 0.44541430473327637,
      "learning_rate": 0.0002770839384257914,
      "loss": 0.1172,
      "step": 1552
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.338373601436615,
      "learning_rate": 0.00027706215509729884,
      "loss": 0.1124,
      "step": 1553
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.36884361505508423,
      "learning_rate": 0.00027704037176880627,
      "loss": 0.1197,
      "step": 1554
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.29794999957084656,
      "learning_rate": 0.0002770185884403137,
      "loss": 0.1171,
      "step": 1555
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5005503296852112,
      "learning_rate": 0.00027699680511182107,
      "loss": 0.1297,
      "step": 1556
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.38222232460975647,
      "learning_rate": 0.00027697502178332845,
      "loss": 0.1156,
      "step": 1557
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3102472424507141,
      "learning_rate": 0.0002769532384548359,
      "loss": 0.1249,
      "step": 1558
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.28176817297935486,
      "learning_rate": 0.00027693145512634325,
      "loss": 0.1076,
      "step": 1559
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.22376790642738342,
      "learning_rate": 0.0002769096717978507,
      "loss": 0.09,
      "step": 1560
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.45543986558914185,
      "learning_rate": 0.0002768878884693581,
      "loss": 0.1362,
      "step": 1561
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.7450045943260193,
      "learning_rate": 0.00027686610514086554,
      "loss": 0.2121,
      "step": 1562
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5368492603302002,
      "learning_rate": 0.0002768443218123729,
      "loss": 0.1878,
      "step": 1563
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.21230390667915344,
      "learning_rate": 0.0002768225384838803,
      "loss": 0.1083,
      "step": 1564
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.40643566846847534,
      "learning_rate": 0.0002768007551553877,
      "loss": 0.0965,
      "step": 1565
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.2753399908542633,
      "learning_rate": 0.0002767789718268951,
      "loss": 0.0996,
      "step": 1566
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.370100736618042,
      "learning_rate": 0.0002767571884984025,
      "loss": 0.1089,
      "step": 1567
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4476151466369629,
      "learning_rate": 0.00027673540516990995,
      "loss": 0.0732,
      "step": 1568
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.20110775530338287,
      "learning_rate": 0.0002767136218414174,
      "loss": 0.0718,
      "step": 1569
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.2986496388912201,
      "learning_rate": 0.00027669183851292476,
      "loss": 0.1117,
      "step": 1570
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5460494756698608,
      "learning_rate": 0.0002766700551844322,
      "loss": 0.1421,
      "step": 1571
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.27468612790107727,
      "learning_rate": 0.00027664827185593956,
      "loss": 0.0949,
      "step": 1572
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3499792218208313,
      "learning_rate": 0.00027662648852744693,
      "loss": 0.1044,
      "step": 1573
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.6156540513038635,
      "learning_rate": 0.00027660470519895436,
      "loss": 0.096,
      "step": 1574
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.39318034052848816,
      "learning_rate": 0.0002765829218704618,
      "loss": 0.062,
      "step": 1575
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3561877906322479,
      "learning_rate": 0.0002765611385419692,
      "loss": 0.1178,
      "step": 1576
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.2745697796344757,
      "learning_rate": 0.0002765393552134766,
      "loss": 0.055,
      "step": 1577
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.26502251625061035,
      "learning_rate": 0.000276517571884984,
      "loss": 0.0841,
      "step": 1578
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4485905170440674,
      "learning_rate": 0.0002764957885564914,
      "loss": 0.1399,
      "step": 1579
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.5211355090141296,
      "learning_rate": 0.00027647400522799883,
      "loss": 0.1121,
      "step": 1580
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.26889845728874207,
      "learning_rate": 0.0002764522218995062,
      "loss": 0.1315,
      "step": 1581
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.20233502984046936,
      "learning_rate": 0.00027643043857101363,
      "loss": 0.0855,
      "step": 1582
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.46948665380477905,
      "learning_rate": 0.00027640865524252106,
      "loss": 0.1413,
      "step": 1583
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.43292129039764404,
      "learning_rate": 0.00027638687191402844,
      "loss": 0.2043,
      "step": 1584
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.30033522844314575,
      "learning_rate": 0.00027636508858553587,
      "loss": 0.1452,
      "step": 1585
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.4475754499435425,
      "learning_rate": 0.00027634330525704324,
      "loss": 0.1394,
      "step": 1586
    },
    {
      "epoch": 0.44,
      "grad_norm": 0.3888133466243744,
      "learning_rate": 0.00027632152192855067,
      "loss": 0.119,
      "step": 1587
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.9938451647758484,
      "learning_rate": 0.00027629973860005805,
      "loss": 0.1189,
      "step": 1588
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.29568788409233093,
      "learning_rate": 0.0002762779552715655,
      "loss": 0.111,
      "step": 1589
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.21560202538967133,
      "learning_rate": 0.0002762561719430729,
      "loss": 0.0604,
      "step": 1590
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.2900986671447754,
      "learning_rate": 0.0002762343886145803,
      "loss": 0.0926,
      "step": 1591
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.28693461418151855,
      "learning_rate": 0.0002762126052860877,
      "loss": 0.0933,
      "step": 1592
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3358474671840668,
      "learning_rate": 0.0002761908219575951,
      "loss": 0.113,
      "step": 1593
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.272657185792923,
      "learning_rate": 0.0002761690386291025,
      "loss": 0.1204,
      "step": 1594
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.1829504370689392,
      "learning_rate": 0.0002761472553006099,
      "loss": 0.0447,
      "step": 1595
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.405642032623291,
      "learning_rate": 0.0002761254719721173,
      "loss": 0.1646,
      "step": 1596
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.45678284764289856,
      "learning_rate": 0.00027610368864362475,
      "loss": 0.1342,
      "step": 1597
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4035852551460266,
      "learning_rate": 0.0002760819053151321,
      "loss": 0.1326,
      "step": 1598
    },
    {
      "epoch": 0.45,
      "grad_norm": 1.2655448913574219,
      "learning_rate": 0.00027606012198663955,
      "loss": 0.1919,
      "step": 1599
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.8595675826072693,
      "learning_rate": 0.0002760383386581469,
      "loss": 0.177,
      "step": 1600
    },
    {
      "epoch": 0.45,
      "eval_loss": 0.10972252488136292,
      "eval_runtime": 170.9951,
      "eval_samples_per_second": 15.451,
      "eval_steps_per_second": 0.485,
      "eval_wer": 0.11001586671955574,
      "step": 1600
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.354539692401886,
      "learning_rate": 0.00027601655532965435,
      "loss": 0.1299,
      "step": 1601
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.2771405577659607,
      "learning_rate": 0.00027599477200116173,
      "loss": 0.1134,
      "step": 1602
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.35806432366371155,
      "learning_rate": 0.00027597298867266916,
      "loss": 0.1469,
      "step": 1603
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4600016176700592,
      "learning_rate": 0.0002759512053441766,
      "loss": 0.1794,
      "step": 1604
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3938587009906769,
      "learning_rate": 0.00027592942201568396,
      "loss": 0.1551,
      "step": 1605
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3525952994823456,
      "learning_rate": 0.0002759076386871914,
      "loss": 0.0816,
      "step": 1606
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.2135024219751358,
      "learning_rate": 0.00027588585535869877,
      "loss": 0.1009,
      "step": 1607
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.31635260581970215,
      "learning_rate": 0.0002758640720302062,
      "loss": 0.113,
      "step": 1608
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.315902978181839,
      "learning_rate": 0.00027584228870171357,
      "loss": 0.1004,
      "step": 1609
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.2524886429309845,
      "learning_rate": 0.000275820505373221,
      "loss": 0.0898,
      "step": 1610
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4362863600254059,
      "learning_rate": 0.00027579872204472843,
      "loss": 0.1493,
      "step": 1611
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3513655364513397,
      "learning_rate": 0.0002757769387162358,
      "loss": 0.0748,
      "step": 1612
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.35223695635795593,
      "learning_rate": 0.00027575515538774323,
      "loss": 0.1273,
      "step": 1613
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.24317894876003265,
      "learning_rate": 0.00027573337205925066,
      "loss": 0.072,
      "step": 1614
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4597838521003723,
      "learning_rate": 0.00027571158873075804,
      "loss": 0.1214,
      "step": 1615
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.2612324059009552,
      "learning_rate": 0.0002756898054022654,
      "loss": 0.0933,
      "step": 1616
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.416247695684433,
      "learning_rate": 0.00027566802207377284,
      "loss": 0.1399,
      "step": 1617
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3186720013618469,
      "learning_rate": 0.00027564623874528027,
      "loss": 0.089,
      "step": 1618
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3510323762893677,
      "learning_rate": 0.00027562445541678764,
      "loss": 0.1158,
      "step": 1619
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.3059808611869812,
      "learning_rate": 0.0002756026720882951,
      "loss": 0.1001,
      "step": 1620
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.4260309934616089,
      "learning_rate": 0.0002755808887598025,
      "loss": 0.2076,
      "step": 1621
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.29536160826683044,
      "learning_rate": 0.0002755591054313099,
      "loss": 0.0777,
      "step": 1622
    },
    {
      "epoch": 0.45,
      "grad_norm": 0.5584894418716431,
      "learning_rate": 0.00027553732210281725,
      "loss": 0.0865,
      "step": 1623
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.29236704111099243,
      "learning_rate": 0.0002755155387743247,
      "loss": 0.0618,
      "step": 1624
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.43966618180274963,
      "learning_rate": 0.0002754937554458321,
      "loss": 0.0822,
      "step": 1625
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2742968797683716,
      "learning_rate": 0.0002754719721173395,
      "loss": 0.0856,
      "step": 1626
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.21178023517131805,
      "learning_rate": 0.0002754501887888469,
      "loss": 0.0669,
      "step": 1627
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3364821970462799,
      "learning_rate": 0.00027542840546035434,
      "loss": 0.1115,
      "step": 1628
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3478339910507202,
      "learning_rate": 0.0002754066221318617,
      "loss": 0.1175,
      "step": 1629
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.20123836398124695,
      "learning_rate": 0.00027538483880336915,
      "loss": 0.0742,
      "step": 1630
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.31808242201805115,
      "learning_rate": 0.0002753630554748765,
      "loss": 0.0715,
      "step": 1631
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.28339770436286926,
      "learning_rate": 0.00027534127214638395,
      "loss": 0.1078,
      "step": 1632
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2222680151462555,
      "learning_rate": 0.0002753194888178913,
      "loss": 0.0663,
      "step": 1633
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3350523114204407,
      "learning_rate": 0.00027529770548939876,
      "loss": 0.1104,
      "step": 1634
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.45895203948020935,
      "learning_rate": 0.0002752759221609062,
      "loss": 0.124,
      "step": 1635
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.46899282932281494,
      "learning_rate": 0.00027525413883241356,
      "loss": 0.1611,
      "step": 1636
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.41625073552131653,
      "learning_rate": 0.000275232355503921,
      "loss": 0.1158,
      "step": 1637
    },
    {
      "epoch": 0.46,
      "grad_norm": 1.8335119485855103,
      "learning_rate": 0.00027521057217542836,
      "loss": 0.2057,
      "step": 1638
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3145321309566498,
      "learning_rate": 0.0002751887888469358,
      "loss": 0.0709,
      "step": 1639
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2504972517490387,
      "learning_rate": 0.0002751670055184432,
      "loss": 0.1077,
      "step": 1640
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3037497103214264,
      "learning_rate": 0.0002751452221899506,
      "loss": 0.1398,
      "step": 1641
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2111290991306305,
      "learning_rate": 0.000275123438861458,
      "loss": 0.0796,
      "step": 1642
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.18593686819076538,
      "learning_rate": 0.0002751016555329654,
      "loss": 0.059,
      "step": 1643
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.23971478641033173,
      "learning_rate": 0.00027507987220447283,
      "loss": 0.0944,
      "step": 1644
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2612909972667694,
      "learning_rate": 0.0002750580888759802,
      "loss": 0.0895,
      "step": 1645
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.27860724925994873,
      "learning_rate": 0.00027503630554748763,
      "loss": 0.1265,
      "step": 1646
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3660750389099121,
      "learning_rate": 0.00027501452221899506,
      "loss": 0.1497,
      "step": 1647
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.2025889754295349,
      "learning_rate": 0.00027499273889050244,
      "loss": 0.0692,
      "step": 1648
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.3558778464794159,
      "learning_rate": 0.00027497095556200987,
      "loss": 0.1119,
      "step": 1649
    },
    {
      "epoch": 0.46,
      "grad_norm": 2.4930777549743652,
      "learning_rate": 0.00027494917223351724,
      "loss": 0.1556,
      "step": 1650
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.21997754275798798,
      "learning_rate": 0.00027492738890502467,
      "loss": 0.0992,
      "step": 1651
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.34807389974594116,
      "learning_rate": 0.00027490560557653205,
      "loss": 0.1223,
      "step": 1652
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.27238574624061584,
      "learning_rate": 0.0002748838222480395,
      "loss": 0.0786,
      "step": 1653
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.36910900473594666,
      "learning_rate": 0.0002748620389195469,
      "loss": 0.1267,
      "step": 1654
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.19398491084575653,
      "learning_rate": 0.0002748402555910543,
      "loss": 0.068,
      "step": 1655
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.25842222571372986,
      "learning_rate": 0.0002748184722625617,
      "loss": 0.0705,
      "step": 1656
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.22584401071071625,
      "learning_rate": 0.0002747966889340691,
      "loss": 0.0582,
      "step": 1657
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.4016297161579132,
      "learning_rate": 0.0002747749056055765,
      "loss": 0.1174,
      "step": 1658
    },
    {
      "epoch": 0.46,
      "grad_norm": 0.6991618871688843,
      "learning_rate": 0.0002747531222770839,
      "loss": 0.0729,
      "step": 1659
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.548105001449585,
      "learning_rate": 0.0002747313389485913,
      "loss": 0.1646,
      "step": 1660
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5163220167160034,
      "learning_rate": 0.00027470955562009875,
      "loss": 0.0891,
      "step": 1661
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.37778550386428833,
      "learning_rate": 0.0002746877722916061,
      "loss": 0.0873,
      "step": 1662
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.3012452125549316,
      "learning_rate": 0.00027466598896311355,
      "loss": 0.2206,
      "step": 1663
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3147590160369873,
      "learning_rate": 0.000274644205634621,
      "loss": 0.1054,
      "step": 1664
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.2929231524467468,
      "learning_rate": 0.00027462242230612835,
      "loss": 0.1255,
      "step": 1665
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.17559319734573364,
      "learning_rate": 0.00027460063897763573,
      "loss": 0.0512,
      "step": 1666
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.2942937910556793,
      "learning_rate": 0.00027457885564914316,
      "loss": 0.0995,
      "step": 1667
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.28732967376708984,
      "learning_rate": 0.0002745570723206506,
      "loss": 0.0824,
      "step": 1668
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.28258198499679565,
      "learning_rate": 0.00027453528899215796,
      "loss": 0.0817,
      "step": 1669
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.285641074180603,
      "learning_rate": 0.0002745135056636654,
      "loss": 0.0928,
      "step": 1670
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3151954412460327,
      "learning_rate": 0.0002744917223351728,
      "loss": 0.0828,
      "step": 1671
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.35564979910850525,
      "learning_rate": 0.0002744699390066802,
      "loss": 0.1305,
      "step": 1672
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6810793876647949,
      "learning_rate": 0.00027444815567818757,
      "loss": 0.1877,
      "step": 1673
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.6967800855636597,
      "learning_rate": 0.000274426372349695,
      "loss": 0.1392,
      "step": 1674
    },
    {
      "epoch": 0.47,
      "grad_norm": 2.6384658813476562,
      "learning_rate": 0.00027440458902120243,
      "loss": 0.2262,
      "step": 1675
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.27414941787719727,
      "learning_rate": 0.0002743828056927098,
      "loss": 0.0807,
      "step": 1676
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.264311283826828,
      "learning_rate": 0.00027436102236421723,
      "loss": 0.1036,
      "step": 1677
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.3029182553291321,
      "learning_rate": 0.00027433923903572466,
      "loss": 0.1269,
      "step": 1678
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.29569458961486816,
      "learning_rate": 0.00027431745570723204,
      "loss": 0.1174,
      "step": 1679
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.1774413287639618,
      "learning_rate": 0.00027429567237873947,
      "loss": 0.0622,
      "step": 1680
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.26820844411849976,
      "learning_rate": 0.00027427388905024684,
      "loss": 0.1009,
      "step": 1681
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.299138605594635,
      "learning_rate": 0.00027425210572175427,
      "loss": 0.1098,
      "step": 1682
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.243571937084198,
      "learning_rate": 0.00027423032239326165,
      "loss": 0.1024,
      "step": 1683
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.21470977365970612,
      "learning_rate": 0.0002742085390647691,
      "loss": 0.0986,
      "step": 1684
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.28783681988716125,
      "learning_rate": 0.0002741867557362765,
      "loss": 0.0928,
      "step": 1685
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.5095985531806946,
      "learning_rate": 0.0002741649724077839,
      "loss": 0.2429,
      "step": 1686
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.49322280287742615,
      "learning_rate": 0.0002741431890792913,
      "loss": 0.1638,
      "step": 1687
    },
    {
      "epoch": 0.47,
      "grad_norm": 1.4535870552062988,
      "learning_rate": 0.0002741214057507987,
      "loss": 0.1583,
      "step": 1688
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.2595283091068268,
      "learning_rate": 0.0002740996224223061,
      "loss": 0.0674,
      "step": 1689
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.25559139251708984,
      "learning_rate": 0.0002740778390938135,
      "loss": 0.1221,
      "step": 1690
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.27852341532707214,
      "learning_rate": 0.0002740560557653209,
      "loss": 0.1172,
      "step": 1691
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.2847297787666321,
      "learning_rate": 0.00027403427243682834,
      "loss": 0.1077,
      "step": 1692
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.31116151809692383,
      "learning_rate": 0.0002740124891083357,
      "loss": 0.1139,
      "step": 1693
    },
    {
      "epoch": 0.47,
      "grad_norm": 0.2176324874162674,
      "learning_rate": 0.00027399070577984315,
      "loss": 0.0844,
      "step": 1694
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3370993137359619,
      "learning_rate": 0.0002739689224513505,
      "loss": 0.095,
      "step": 1695
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4465674161911011,
      "learning_rate": 0.00027394713912285795,
      "loss": 0.1204,
      "step": 1696
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.48558855056762695,
      "learning_rate": 0.00027392535579436533,
      "loss": 0.1924,
      "step": 1697
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.394565612077713,
      "learning_rate": 0.00027390357246587276,
      "loss": 0.1541,
      "step": 1698
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4566270411014557,
      "learning_rate": 0.0002738817891373802,
      "loss": 0.1345,
      "step": 1699
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.689576268196106,
      "learning_rate": 0.00027386000580888756,
      "loss": 0.3476,
      "step": 1700
    },
    {
      "epoch": 0.48,
      "eval_loss": 0.11398544162511826,
      "eval_runtime": 170.6622,
      "eval_samples_per_second": 15.481,
      "eval_steps_per_second": 0.486,
      "eval_wer": 0.11136453788179294,
      "step": 1700
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3091496229171753,
      "learning_rate": 0.000273838222480395,
      "loss": 0.1082,
      "step": 1701
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3246048092842102,
      "learning_rate": 0.00027381643915190237,
      "loss": 0.1534,
      "step": 1702
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4353582561016083,
      "learning_rate": 0.0002737946558234098,
      "loss": 0.1484,
      "step": 1703
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3500809073448181,
      "learning_rate": 0.00027377287249491717,
      "loss": 0.1583,
      "step": 1704
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.402599960565567,
      "learning_rate": 0.0002737510891664246,
      "loss": 0.1694,
      "step": 1705
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.28346553444862366,
      "learning_rate": 0.00027372930583793203,
      "loss": 0.1375,
      "step": 1706
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.4146258533000946,
      "learning_rate": 0.0002737075225094394,
      "loss": 0.1592,
      "step": 1707
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.23401153087615967,
      "learning_rate": 0.00027368573918094683,
      "loss": 0.1106,
      "step": 1708
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5034118890762329,
      "learning_rate": 0.0002736639558524542,
      "loss": 0.0974,
      "step": 1709
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.26963284611701965,
      "learning_rate": 0.00027364217252396164,
      "loss": 0.1091,
      "step": 1710
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.7402094602584839,
      "learning_rate": 0.000273620389195469,
      "loss": 0.1546,
      "step": 1711
    },
    {
      "epoch": 0.48,
      "grad_norm": 1.2832581996917725,
      "learning_rate": 0.00027359860586697644,
      "loss": 0.1835,
      "step": 1712
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6487612128257751,
      "learning_rate": 0.00027357682253848387,
      "loss": 0.2136,
      "step": 1713
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.35600802302360535,
      "learning_rate": 0.0002735550392099913,
      "loss": 0.1265,
      "step": 1714
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.31944432854652405,
      "learning_rate": 0.0002735332558814987,
      "loss": 0.1405,
      "step": 1715
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.2523312270641327,
      "learning_rate": 0.00027351147255300605,
      "loss": 0.0974,
      "step": 1716
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.29397082328796387,
      "learning_rate": 0.0002734896892245135,
      "loss": 0.1277,
      "step": 1717
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3087628185749054,
      "learning_rate": 0.00027346790589602085,
      "loss": 0.1179,
      "step": 1718
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.342648983001709,
      "learning_rate": 0.0002734461225675283,
      "loss": 0.1162,
      "step": 1719
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5960915088653564,
      "learning_rate": 0.0002734243392390357,
      "loss": 0.2154,
      "step": 1720
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3336165249347687,
      "learning_rate": 0.00027340255591054314,
      "loss": 0.1222,
      "step": 1721
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.27517151832580566,
      "learning_rate": 0.0002733807725820505,
      "loss": 0.0691,
      "step": 1722
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.2822885513305664,
      "learning_rate": 0.00027335898925355794,
      "loss": 0.0728,
      "step": 1723
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.5322970151901245,
      "learning_rate": 0.0002733372059250653,
      "loss": 0.0949,
      "step": 1724
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.6350752115249634,
      "learning_rate": 0.0002733154225965727,
      "loss": 0.1814,
      "step": 1725
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.29565706849098206,
      "learning_rate": 0.0002732936392680801,
      "loss": 0.1073,
      "step": 1726
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3125740885734558,
      "learning_rate": 0.00027327185593958755,
      "loss": 0.0844,
      "step": 1727
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.34084367752075195,
      "learning_rate": 0.000273250072611095,
      "loss": 0.1136,
      "step": 1728
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.2717355489730835,
      "learning_rate": 0.00027322828928260236,
      "loss": 0.0862,
      "step": 1729
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.34047991037368774,
      "learning_rate": 0.0002732065059541098,
      "loss": 0.11,
      "step": 1730
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.35060539841651917,
      "learning_rate": 0.00027318472262561716,
      "loss": 0.127,
      "step": 1731
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.2881318926811218,
      "learning_rate": 0.00027316293929712453,
      "loss": 0.0907,
      "step": 1732
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4762703478336334,
      "learning_rate": 0.00027314115596863196,
      "loss": 0.1329,
      "step": 1733
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.34914568066596985,
      "learning_rate": 0.0002731193726401394,
      "loss": 0.1129,
      "step": 1734
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.43245255947113037,
      "learning_rate": 0.0002730975893116468,
      "loss": 0.1068,
      "step": 1735
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4980778694152832,
      "learning_rate": 0.0002730758059831542,
      "loss": 0.1547,
      "step": 1736
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.70832097530365,
      "learning_rate": 0.0002730540226546616,
      "loss": 0.3049,
      "step": 1737
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.7502830028533936,
      "learning_rate": 0.000273032239326169,
      "loss": 0.1498,
      "step": 1738
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.26564961671829224,
      "learning_rate": 0.00027301045599767643,
      "loss": 0.0786,
      "step": 1739
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.22629600763320923,
      "learning_rate": 0.0002729886726691838,
      "loss": 0.0846,
      "step": 1740
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.41015222668647766,
      "learning_rate": 0.00027296688934069123,
      "loss": 0.137,
      "step": 1741
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3597472906112671,
      "learning_rate": 0.00027294510601219866,
      "loss": 0.1102,
      "step": 1742
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3270157277584076,
      "learning_rate": 0.00027292332268370604,
      "loss": 0.1213,
      "step": 1743
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3294276297092438,
      "learning_rate": 0.00027290153935521347,
      "loss": 0.1248,
      "step": 1744
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6278470754623413,
      "learning_rate": 0.00027287975602672084,
      "loss": 0.1219,
      "step": 1745
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.31402266025543213,
      "learning_rate": 0.00027285797269822827,
      "loss": 0.093,
      "step": 1746
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.23775698244571686,
      "learning_rate": 0.00027283618936973565,
      "loss": 0.0765,
      "step": 1747
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3305748701095581,
      "learning_rate": 0.0002728144060412431,
      "loss": 0.0985,
      "step": 1748
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4515131711959839,
      "learning_rate": 0.0002727926227127505,
      "loss": 0.1052,
      "step": 1749
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.3394641876220703,
      "learning_rate": 0.0002727708393842579,
      "loss": 0.1465,
      "step": 1750
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.2101721465587616,
      "learning_rate": 0.0002727490560557653,
      "loss": 0.0823,
      "step": 1751
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.2440473884344101,
      "learning_rate": 0.0002727272727272727,
      "loss": 0.1161,
      "step": 1752
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.2743373513221741,
      "learning_rate": 0.0002727054893987801,
      "loss": 0.1082,
      "step": 1753
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.25008445978164673,
      "learning_rate": 0.0002726837060702875,
      "loss": 0.098,
      "step": 1754
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.22769920527935028,
      "learning_rate": 0.0002726619227417949,
      "loss": 0.0841,
      "step": 1755
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.28188034892082214,
      "learning_rate": 0.00027264013941330235,
      "loss": 0.0864,
      "step": 1756
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.31289830803871155,
      "learning_rate": 0.0002726183560848097,
      "loss": 0.151,
      "step": 1757
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3912213444709778,
      "learning_rate": 0.00027259657275631715,
      "loss": 0.1114,
      "step": 1758
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.4087751805782318,
      "learning_rate": 0.0002725747894278245,
      "loss": 0.1579,
      "step": 1759
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.22840388119220734,
      "learning_rate": 0.00027255300609933195,
      "loss": 0.0693,
      "step": 1760
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.2207099050283432,
      "learning_rate": 0.00027253122277083933,
      "loss": 0.1013,
      "step": 1761
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.6654139161109924,
      "learning_rate": 0.00027250943944234676,
      "loss": 0.1998,
      "step": 1762
    },
    {
      "epoch": 0.49,
      "grad_norm": 1.2237521409988403,
      "learning_rate": 0.0002724876561138542,
      "loss": 0.1412,
      "step": 1763
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3097263276576996,
      "learning_rate": 0.0002724658727853616,
      "loss": 0.1165,
      "step": 1764
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.3006402850151062,
      "learning_rate": 0.000272444089456869,
      "loss": 0.0978,
      "step": 1765
    },
    {
      "epoch": 0.49,
      "grad_norm": 0.37758761644363403,
      "learning_rate": 0.00027242230612837637,
      "loss": 0.1497,
      "step": 1766
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.24910059571266174,
      "learning_rate": 0.0002724005227998838,
      "loss": 0.1106,
      "step": 1767
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3165614902973175,
      "learning_rate": 0.00027237873947139117,
      "loss": 0.0837,
      "step": 1768
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.37238213419914246,
      "learning_rate": 0.0002723569561428986,
      "loss": 0.1159,
      "step": 1769
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39503541588783264,
      "learning_rate": 0.00027233517281440603,
      "loss": 0.1397,
      "step": 1770
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.40963754057884216,
      "learning_rate": 0.00027231338948591346,
      "loss": 0.1053,
      "step": 1771
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3466376066207886,
      "learning_rate": 0.00027229160615742083,
      "loss": 0.1605,
      "step": 1772
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3775203824043274,
      "learning_rate": 0.00027226982282892826,
      "loss": 0.1243,
      "step": 1773
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.1404578685760498,
      "learning_rate": 0.00027224803950043564,
      "loss": 0.1885,
      "step": 1774
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9284986257553101,
      "learning_rate": 0.000272226256171943,
      "loss": 0.2408,
      "step": 1775
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.18073248863220215,
      "learning_rate": 0.00027220447284345044,
      "loss": 0.0599,
      "step": 1776
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.30197757482528687,
      "learning_rate": 0.00027218268951495787,
      "loss": 0.086,
      "step": 1777
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3504870533943176,
      "learning_rate": 0.0002721609061864653,
      "loss": 0.1117,
      "step": 1778
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.1988019496202469,
      "learning_rate": 0.0002721391228579727,
      "loss": 0.0521,
      "step": 1779
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3606191873550415,
      "learning_rate": 0.0002721173395294801,
      "loss": 0.1134,
      "step": 1780
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.24567265808582306,
      "learning_rate": 0.0002720955562009875,
      "loss": 0.0559,
      "step": 1781
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.2813569903373718,
      "learning_rate": 0.00027207377287249485,
      "loss": 0.0844,
      "step": 1782
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5392892360687256,
      "learning_rate": 0.0002720519895440023,
      "loss": 0.119,
      "step": 1783
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.36446306109428406,
      "learning_rate": 0.0002720302062155097,
      "loss": 0.1163,
      "step": 1784
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3711860477924347,
      "learning_rate": 0.00027200842288701714,
      "loss": 0.0554,
      "step": 1785
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.4875929653644562,
      "learning_rate": 0.0002719866395585245,
      "loss": 0.1255,
      "step": 1786
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.5998673439025879,
      "learning_rate": 0.00027196485623003194,
      "loss": 0.1227,
      "step": 1787
    },
    {
      "epoch": 0.5,
      "grad_norm": 1.231937289237976,
      "learning_rate": 0.0002719430729015393,
      "loss": 0.1555,
      "step": 1788
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.21897102892398834,
      "learning_rate": 0.00027192128957304675,
      "loss": 0.0747,
      "step": 1789
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.24829404056072235,
      "learning_rate": 0.0002718995062445541,
      "loss": 0.0793,
      "step": 1790
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.2829986810684204,
      "learning_rate": 0.00027187772291606155,
      "loss": 0.0708,
      "step": 1791
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.42940980195999146,
      "learning_rate": 0.000271855939587569,
      "loss": 0.1127,
      "step": 1792
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.44427841901779175,
      "learning_rate": 0.00027183415625907636,
      "loss": 0.1232,
      "step": 1793
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.3607770800590515,
      "learning_rate": 0.0002718123729305838,
      "loss": 0.0941,
      "step": 1794
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.25542110204696655,
      "learning_rate": 0.00027179058960209116,
      "loss": 0.0809,
      "step": 1795
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.572110652923584,
      "learning_rate": 0.0002717688062735986,
      "loss": 0.2133,
      "step": 1796
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.32691970467567444,
      "learning_rate": 0.00027174702294510596,
      "loss": 0.0968,
      "step": 1797
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.20831574499607086,
      "learning_rate": 0.0002717252396166134,
      "loss": 0.0623,
      "step": 1798
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.39678749442100525,
      "learning_rate": 0.0002717034562881208,
      "loss": 0.0483,
      "step": 1799
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.9229984879493713,
      "learning_rate": 0.0002716816729596282,
      "loss": 0.2538,
      "step": 1800
    },
    {
      "epoch": 0.5,
      "eval_loss": 0.11183902621269226,
      "eval_runtime": 171.2859,
      "eval_samples_per_second": 15.425,
      "eval_steps_per_second": 0.485,
      "eval_wer": 0.10858786195953987,
      "step": 1800
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.25742074847221375,
      "learning_rate": 0.00027165988963113563,
      "loss": 0.0634,
      "step": 1801
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.26512259244918823,
      "learning_rate": 0.000271638106302643,
      "loss": 0.1007,
      "step": 1802
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.2872794270515442,
      "learning_rate": 0.00027161632297415043,
      "loss": 0.1454,
      "step": 1803
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.2531454563140869,
      "learning_rate": 0.0002715945396456578,
      "loss": 0.0811,
      "step": 1804
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.354368656873703,
      "learning_rate": 0.00027157275631716524,
      "loss": 0.0805,
      "step": 1805
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3965233564376831,
      "learning_rate": 0.00027155097298867266,
      "loss": 0.1363,
      "step": 1806
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.23536480963230133,
      "learning_rate": 0.00027152918966018004,
      "loss": 0.0759,
      "step": 1807
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3090343475341797,
      "learning_rate": 0.00027150740633168747,
      "loss": 0.1284,
      "step": 1808
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.27016377449035645,
      "learning_rate": 0.00027148562300319484,
      "loss": 0.0791,
      "step": 1809
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.23282498121261597,
      "learning_rate": 0.00027146383967470227,
      "loss": 0.0773,
      "step": 1810
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.2537473738193512,
      "learning_rate": 0.00027144205634620965,
      "loss": 0.0778,
      "step": 1811
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4312457740306854,
      "learning_rate": 0.0002714202730177171,
      "loss": 0.1547,
      "step": 1812
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.5580915808677673,
      "learning_rate": 0.0002713984896892245,
      "loss": 0.1286,
      "step": 1813
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.2988852262496948,
      "learning_rate": 0.00027137670636073193,
      "loss": 0.1003,
      "step": 1814
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.32366013526916504,
      "learning_rate": 0.0002713549230322393,
      "loss": 0.1277,
      "step": 1815
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.20667235553264618,
      "learning_rate": 0.0002713331397037467,
      "loss": 0.1012,
      "step": 1816
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.4440755546092987,
      "learning_rate": 0.0002713113563752541,
      "loss": 0.1084,
      "step": 1817
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.2841969430446625,
      "learning_rate": 0.0002712895730467615,
      "loss": 0.0549,
      "step": 1818
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.34118565917015076,
      "learning_rate": 0.0002712677897182689,
      "loss": 0.1025,
      "step": 1819
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.41150107979774475,
      "learning_rate": 0.00027124600638977635,
      "loss": 0.0957,
      "step": 1820
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.32387852668762207,
      "learning_rate": 0.0002712242230612838,
      "loss": 0.0956,
      "step": 1821
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.32263869047164917,
      "learning_rate": 0.00027120243973279115,
      "loss": 0.1356,
      "step": 1822
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.30655044317245483,
      "learning_rate": 0.0002711806564042986,
      "loss": 0.09,
      "step": 1823
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.7610956430435181,
      "learning_rate": 0.00027115887307580596,
      "loss": 0.087,
      "step": 1824
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.43923845887184143,
      "learning_rate": 0.00027113708974731333,
      "loss": 0.1,
      "step": 1825
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.22378647327423096,
      "learning_rate": 0.00027111530641882076,
      "loss": 0.0711,
      "step": 1826
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.18779341876506805,
      "learning_rate": 0.0002710935230903282,
      "loss": 0.0752,
      "step": 1827
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.2728136479854584,
      "learning_rate": 0.0002710717397618356,
      "loss": 0.0894,
      "step": 1828
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.27494895458221436,
      "learning_rate": 0.000271049956433343,
      "loss": 0.118,
      "step": 1829
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.3408103585243225,
      "learning_rate": 0.0002710281731048504,
      "loss": 0.0906,
      "step": 1830
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.2548084855079651,
      "learning_rate": 0.0002710063897763578,
      "loss": 0.1117,
      "step": 1831
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.2492152601480484,
      "learning_rate": 0.00027098460644786517,
      "loss": 0.1081,
      "step": 1832
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.22189582884311676,
      "learning_rate": 0.0002709628231193726,
      "loss": 0.0684,
      "step": 1833
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.22560884058475494,
      "learning_rate": 0.00027094103979088003,
      "loss": 0.0818,
      "step": 1834
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.522173285484314,
      "learning_rate": 0.00027091925646238746,
      "loss": 0.1219,
      "step": 1835
    },
    {
      "epoch": 0.51,
      "grad_norm": 0.24947895109653473,
      "learning_rate": 0.00027089747313389483,
      "loss": 0.0691,
      "step": 1836
    },
    {
      "epoch": 0.51,
      "grad_norm": 1.377510666847229,
      "learning_rate": 0.00027087568980540226,
      "loss": 0.1156,
      "step": 1837
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3935241401195526,
      "learning_rate": 0.00027085390647690964,
      "loss": 0.0678,
      "step": 1838
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.26137974858283997,
      "learning_rate": 0.00027083212314841707,
      "loss": 0.1045,
      "step": 1839
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.364769846200943,
      "learning_rate": 0.00027081033981992444,
      "loss": 0.1649,
      "step": 1840
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.2755091190338135,
      "learning_rate": 0.00027078855649143187,
      "loss": 0.0834,
      "step": 1841
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3418622314929962,
      "learning_rate": 0.0002707667731629393,
      "loss": 0.1125,
      "step": 1842
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5264710187911987,
      "learning_rate": 0.0002707449898344467,
      "loss": 0.0945,
      "step": 1843
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.9653623700141907,
      "learning_rate": 0.0002707232065059541,
      "loss": 0.1062,
      "step": 1844
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3273342251777649,
      "learning_rate": 0.0002707014231774615,
      "loss": 0.1098,
      "step": 1845
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.33911195397377014,
      "learning_rate": 0.0002706796398489689,
      "loss": 0.1581,
      "step": 1846
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.22409799695014954,
      "learning_rate": 0.0002706578565204763,
      "loss": 0.0672,
      "step": 1847
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3486524224281311,
      "learning_rate": 0.0002706360731919837,
      "loss": 0.1034,
      "step": 1848
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.6215177178382874,
      "learning_rate": 0.00027061428986349114,
      "loss": 0.1337,
      "step": 1849
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5970341563224792,
      "learning_rate": 0.0002705925065349985,
      "loss": 0.2252,
      "step": 1850
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3248276114463806,
      "learning_rate": 0.00027057072320650595,
      "loss": 0.0754,
      "step": 1851
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.38925817608833313,
      "learning_rate": 0.0002705489398780133,
      "loss": 0.1224,
      "step": 1852
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.274756520986557,
      "learning_rate": 0.00027052715654952075,
      "loss": 0.0953,
      "step": 1853
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.29835569858551025,
      "learning_rate": 0.0002705053732210281,
      "loss": 0.0963,
      "step": 1854
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.31005996465682983,
      "learning_rate": 0.00027048358989253555,
      "loss": 0.1189,
      "step": 1855
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.400928258895874,
      "learning_rate": 0.000270461806564043,
      "loss": 0.0521,
      "step": 1856
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.23668770492076874,
      "learning_rate": 0.0002704400232355504,
      "loss": 0.0731,
      "step": 1857
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.36723485589027405,
      "learning_rate": 0.0002704182399070578,
      "loss": 0.1349,
      "step": 1858
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.27753034234046936,
      "learning_rate": 0.00027039645657856516,
      "loss": 0.1019,
      "step": 1859
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3883552551269531,
      "learning_rate": 0.0002703746732500726,
      "loss": 0.064,
      "step": 1860
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3522704243659973,
      "learning_rate": 0.00027035288992157997,
      "loss": 0.0765,
      "step": 1861
    },
    {
      "epoch": 0.52,
      "grad_norm": 1.288647174835205,
      "learning_rate": 0.0002703311065930874,
      "loss": 0.376,
      "step": 1862
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5550724267959595,
      "learning_rate": 0.0002703093232645948,
      "loss": 0.0818,
      "step": 1863
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.29519718885421753,
      "learning_rate": 0.00027028753993610225,
      "loss": 0.1223,
      "step": 1864
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.20765753090381622,
      "learning_rate": 0.00027026575660760963,
      "loss": 0.0841,
      "step": 1865
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3435957729816437,
      "learning_rate": 0.000270243973279117,
      "loss": 0.0996,
      "step": 1866
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.33673280477523804,
      "learning_rate": 0.00027022218995062443,
      "loss": 0.1001,
      "step": 1867
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.23894363641738892,
      "learning_rate": 0.0002702004066221318,
      "loss": 0.0935,
      "step": 1868
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.3799114525318146,
      "learning_rate": 0.00027017862329363924,
      "loss": 0.1333,
      "step": 1869
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.31383106112480164,
      "learning_rate": 0.00027015683996514667,
      "loss": 0.1161,
      "step": 1870
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.4630882143974304,
      "learning_rate": 0.0002701350566366541,
      "loss": 0.1514,
      "step": 1871
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.23991577327251434,
      "learning_rate": 0.00027011327330816147,
      "loss": 0.1055,
      "step": 1872
    },
    {
      "epoch": 0.52,
      "grad_norm": 0.5922594666481018,
      "learning_rate": 0.0002700914899796689,
      "loss": 0.1612,
      "step": 1873
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.7452598214149475,
      "learning_rate": 0.0002700697066511763,
      "loss": 0.1973,
      "step": 1874
    },
    {
      "epoch": 0.53,
      "grad_norm": 1.0445562601089478,
      "learning_rate": 0.00027004792332268365,
      "loss": 0.2315,
      "step": 1875
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.25892481207847595,
      "learning_rate": 0.0002700261399941911,
      "loss": 0.0764,
      "step": 1876
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.42843204736709595,
      "learning_rate": 0.0002700043566656985,
      "loss": 0.1279,
      "step": 1877
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.42490559816360474,
      "learning_rate": 0.00026998257333720594,
      "loss": 0.1123,
      "step": 1878
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3459174931049347,
      "learning_rate": 0.0002699607900087133,
      "loss": 0.1343,
      "step": 1879
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3366885483264923,
      "learning_rate": 0.00026993900668022074,
      "loss": 0.1054,
      "step": 1880
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3661833703517914,
      "learning_rate": 0.0002699172233517281,
      "loss": 0.0882,
      "step": 1881
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3917333483695984,
      "learning_rate": 0.00026989544002323554,
      "loss": 0.1168,
      "step": 1882
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.34020495414733887,
      "learning_rate": 0.0002698736566947429,
      "loss": 0.1479,
      "step": 1883
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.36174172163009644,
      "learning_rate": 0.00026985187336625035,
      "loss": 0.1022,
      "step": 1884
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5040526986122131,
      "learning_rate": 0.0002698300900377578,
      "loss": 0.202,
      "step": 1885
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6615363359451294,
      "learning_rate": 0.00026980830670926515,
      "loss": 0.1237,
      "step": 1886
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.5622572302818298,
      "learning_rate": 0.0002697865233807726,
      "loss": 0.0796,
      "step": 1887
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6216859817504883,
      "learning_rate": 0.00026976474005227996,
      "loss": 0.1998,
      "step": 1888
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.2720240652561188,
      "learning_rate": 0.0002697429567237874,
      "loss": 0.1015,
      "step": 1889
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.17561101913452148,
      "learning_rate": 0.00026972117339529476,
      "loss": 0.0801,
      "step": 1890
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.23663298785686493,
      "learning_rate": 0.0002696993900668022,
      "loss": 0.1205,
      "step": 1891
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.25972864031791687,
      "learning_rate": 0.0002696776067383096,
      "loss": 0.0932,
      "step": 1892
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.21967440843582153,
      "learning_rate": 0.000269655823409817,
      "loss": 0.0746,
      "step": 1893
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.2458532303571701,
      "learning_rate": 0.0002696340400813244,
      "loss": 0.0707,
      "step": 1894
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.26522696018218994,
      "learning_rate": 0.0002696122567528318,
      "loss": 0.0718,
      "step": 1895
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.23820938169956207,
      "learning_rate": 0.0002695904734243392,
      "loss": 0.0731,
      "step": 1896
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3892483413219452,
      "learning_rate": 0.0002695686900958466,
      "loss": 0.0788,
      "step": 1897
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3527838885784149,
      "learning_rate": 0.00026954690676735403,
      "loss": 0.0767,
      "step": 1898
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.6672021150588989,
      "learning_rate": 0.00026952512343886146,
      "loss": 0.1228,
      "step": 1899
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.499047189950943,
      "learning_rate": 0.00026950334011036883,
      "loss": 0.1296,
      "step": 1900
    },
    {
      "epoch": 0.53,
      "eval_loss": 0.10515230149030685,
      "eval_runtime": 171.0104,
      "eval_samples_per_second": 15.449,
      "eval_steps_per_second": 0.485,
      "eval_wer": 0.10156683855612852,
      "step": 1900
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3229830265045166,
      "learning_rate": 0.00026948155678187626,
      "loss": 0.086,
      "step": 1901
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.24947187304496765,
      "learning_rate": 0.00026945977345338364,
      "loss": 0.0762,
      "step": 1902
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.26136985421180725,
      "learning_rate": 0.00026943799012489107,
      "loss": 0.1063,
      "step": 1903
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3181914985179901,
      "learning_rate": 0.00026941620679639844,
      "loss": 0.1048,
      "step": 1904
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3688834309577942,
      "learning_rate": 0.00026939442346790587,
      "loss": 0.1216,
      "step": 1905
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3636469542980194,
      "learning_rate": 0.0002693726401394133,
      "loss": 0.1597,
      "step": 1906
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.35579508543014526,
      "learning_rate": 0.0002693508568109207,
      "loss": 0.0755,
      "step": 1907
    },
    {
      "epoch": 0.53,
      "grad_norm": 0.3306546211242676,
      "learning_rate": 0.0002693290734824281,
      "loss": 0.1385,
      "step": 1908
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.37847620248794556,
      "learning_rate": 0.0002693072901539355,
      "loss": 0.1627,
      "step": 1909
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3848433196544647,
      "learning_rate": 0.0002692855068254429,
      "loss": 0.1214,
      "step": 1910
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4143616557121277,
      "learning_rate": 0.0002692637234969503,
      "loss": 0.1521,
      "step": 1911
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6752997040748596,
      "learning_rate": 0.0002692419401684577,
      "loss": 0.2488,
      "step": 1912
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.1862077713012695,
      "learning_rate": 0.00026922015683996514,
      "loss": 0.3017,
      "step": 1913
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3070790469646454,
      "learning_rate": 0.0002691983735114725,
      "loss": 0.0891,
      "step": 1914
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.214297816157341,
      "learning_rate": 0.00026917659018297995,
      "loss": 0.0782,
      "step": 1915
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.16752831637859344,
      "learning_rate": 0.0002691548068544873,
      "loss": 0.065,
      "step": 1916
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.42239779233932495,
      "learning_rate": 0.00026913302352599475,
      "loss": 0.0941,
      "step": 1917
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.18994706869125366,
      "learning_rate": 0.0002691112401975021,
      "loss": 0.073,
      "step": 1918
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.30084046721458435,
      "learning_rate": 0.00026908945686900955,
      "loss": 0.1034,
      "step": 1919
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.2385510951280594,
      "learning_rate": 0.000269067673540517,
      "loss": 0.0601,
      "step": 1920
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.35783711075782776,
      "learning_rate": 0.00026904589021202436,
      "loss": 0.1032,
      "step": 1921
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5022327899932861,
      "learning_rate": 0.0002690241068835318,
      "loss": 0.1274,
      "step": 1922
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.6961118578910828,
      "learning_rate": 0.0002690023235550392,
      "loss": 0.0818,
      "step": 1923
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.4955036640167236,
      "learning_rate": 0.0002689805402265466,
      "loss": 0.1686,
      "step": 1924
    },
    {
      "epoch": 0.54,
      "grad_norm": 1.0059055089950562,
      "learning_rate": 0.00026895875689805397,
      "loss": 0.2402,
      "step": 1925
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3771015703678131,
      "learning_rate": 0.0002689369735695614,
      "loss": 0.1214,
      "step": 1926
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.2318728119134903,
      "learning_rate": 0.0002689151902410688,
      "loss": 0.0824,
      "step": 1927
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.2788788974285126,
      "learning_rate": 0.0002688934069125762,
      "loss": 0.0698,
      "step": 1928
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3577424883842468,
      "learning_rate": 0.00026887162358408363,
      "loss": 0.1824,
      "step": 1929
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.24346843361854553,
      "learning_rate": 0.00026884984025559106,
      "loss": 0.1107,
      "step": 1930
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.43130189180374146,
      "learning_rate": 0.00026882805692709843,
      "loss": 0.1196,
      "step": 1931
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.2892201840877533,
      "learning_rate": 0.00026880627359860586,
      "loss": 0.1389,
      "step": 1932
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.31714552640914917,
      "learning_rate": 0.00026878449027011324,
      "loss": 0.1057,
      "step": 1933
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.2815669775009155,
      "learning_rate": 0.00026876270694162067,
      "loss": 0.07,
      "step": 1934
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4129054844379425,
      "learning_rate": 0.00026874092361312804,
      "loss": 0.127,
      "step": 1935
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.4921320080757141,
      "learning_rate": 0.00026871914028463547,
      "loss": 0.1455,
      "step": 1936
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.8801557421684265,
      "learning_rate": 0.0002686973569561429,
      "loss": 0.1592,
      "step": 1937
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5173522233963013,
      "learning_rate": 0.0002686755736276503,
      "loss": 0.1047,
      "step": 1938
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.45894289016723633,
      "learning_rate": 0.0002686537902991577,
      "loss": 0.1119,
      "step": 1939
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3539058268070221,
      "learning_rate": 0.0002686320069706651,
      "loss": 0.0713,
      "step": 1940
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3455754518508911,
      "learning_rate": 0.0002686102236421725,
      "loss": 0.1606,
      "step": 1941
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.3195343613624573,
      "learning_rate": 0.0002685884403136799,
      "loss": 0.1054,
      "step": 1942
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.5339125990867615,
      "learning_rate": 0.0002685666569851873,
      "loss": 0.184,
      "step": 1943
    },
    {
      "epoch": 0.54,
      "grad_norm": 0.29930371046066284,
      "learning_rate": 0.00026854487365669474,
      "loss": 0.1007,
      "step": 1944
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.32732436060905457,
      "learning_rate": 0.0002685230903282021,
      "loss": 0.138,
      "step": 1945
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.301738440990448,
      "learning_rate": 0.00026850130699970955,
      "loss": 0.1162,
      "step": 1946
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.40133747458457947,
      "learning_rate": 0.0002684795236712169,
      "loss": 0.1018,
      "step": 1947
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.30487239360809326,
      "learning_rate": 0.00026845774034272435,
      "loss": 0.1035,
      "step": 1948
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.41516098380088806,
      "learning_rate": 0.0002684359570142317,
      "loss": 0.129,
      "step": 1949
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.8171676397323608,
      "learning_rate": 0.00026841417368573915,
      "loss": 0.1321,
      "step": 1950
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3286667764186859,
      "learning_rate": 0.0002683923903572466,
      "loss": 0.1499,
      "step": 1951
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5095781683921814,
      "learning_rate": 0.00026837060702875396,
      "loss": 0.1231,
      "step": 1952
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.2624388635158539,
      "learning_rate": 0.0002683488237002614,
      "loss": 0.112,
      "step": 1953
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3895157277584076,
      "learning_rate": 0.00026832704037176876,
      "loss": 0.1419,
      "step": 1954
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.31141436100006104,
      "learning_rate": 0.0002683052570432762,
      "loss": 0.0929,
      "step": 1955
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.2700672745704651,
      "learning_rate": 0.00026828347371478357,
      "loss": 0.0703,
      "step": 1956
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5539752244949341,
      "learning_rate": 0.000268261690386291,
      "loss": 0.1151,
      "step": 1957
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.44897201657295227,
      "learning_rate": 0.0002682399070577984,
      "loss": 0.1094,
      "step": 1958
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.28602975606918335,
      "learning_rate": 0.0002682181237293058,
      "loss": 0.0853,
      "step": 1959
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.2269648164510727,
      "learning_rate": 0.00026819634040081323,
      "loss": 0.0519,
      "step": 1960
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3875468969345093,
      "learning_rate": 0.0002681745570723206,
      "loss": 0.1241,
      "step": 1961
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4430885910987854,
      "learning_rate": 0.00026815277374382803,
      "loss": 0.1712,
      "step": 1962
    },
    {
      "epoch": 0.55,
      "grad_norm": 1.623787522315979,
      "learning_rate": 0.0002681309904153354,
      "loss": 0.1209,
      "step": 1963
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.2692264914512634,
      "learning_rate": 0.00026810920708684284,
      "loss": 0.108,
      "step": 1964
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3704541027545929,
      "learning_rate": 0.00026808742375835027,
      "loss": 0.0751,
      "step": 1965
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.30842581391334534,
      "learning_rate": 0.00026806564042985764,
      "loss": 0.1248,
      "step": 1966
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4535238444805145,
      "learning_rate": 0.00026804385710136507,
      "loss": 0.1609,
      "step": 1967
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4433673024177551,
      "learning_rate": 0.00026802207377287244,
      "loss": 0.0944,
      "step": 1968
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5228850245475769,
      "learning_rate": 0.0002680002904443799,
      "loss": 0.2038,
      "step": 1969
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3008067309856415,
      "learning_rate": 0.0002679785071158873,
      "loss": 0.0791,
      "step": 1970
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.1705574244260788,
      "learning_rate": 0.0002679567237873947,
      "loss": 0.0608,
      "step": 1971
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.20744314789772034,
      "learning_rate": 0.0002679349404589021,
      "loss": 0.0538,
      "step": 1972
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.5000626444816589,
      "learning_rate": 0.00026791315713040954,
      "loss": 0.1158,
      "step": 1973
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.29334598779678345,
      "learning_rate": 0.0002678913738019169,
      "loss": 0.0661,
      "step": 1974
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.4711274802684784,
      "learning_rate": 0.0002678695904734243,
      "loss": 0.0733,
      "step": 1975
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.43068259954452515,
      "learning_rate": 0.0002678478071449317,
      "loss": 0.1191,
      "step": 1976
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.343380331993103,
      "learning_rate": 0.00026782602381643914,
      "loss": 0.1289,
      "step": 1977
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3608880937099457,
      "learning_rate": 0.0002678042404879465,
      "loss": 0.0975,
      "step": 1978
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.2580398917198181,
      "learning_rate": 0.00026778245715945395,
      "loss": 0.0956,
      "step": 1979
    },
    {
      "epoch": 0.55,
      "grad_norm": 0.3429875373840332,
      "learning_rate": 0.0002677606738309614,
      "loss": 0.1122,
      "step": 1980
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3570907413959503,
      "learning_rate": 0.00026773889050246875,
      "loss": 0.0624,
      "step": 1981
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.46929094195365906,
      "learning_rate": 0.0002677171071739762,
      "loss": 0.1074,
      "step": 1982
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.29245132207870483,
      "learning_rate": 0.00026769532384548356,
      "loss": 0.1134,
      "step": 1983
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.29415363073349,
      "learning_rate": 0.000267673540516991,
      "loss": 0.0651,
      "step": 1984
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.71253901720047,
      "learning_rate": 0.00026765175718849836,
      "loss": 0.1196,
      "step": 1985
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.5960387587547302,
      "learning_rate": 0.0002676299738600058,
      "loss": 0.131,
      "step": 1986
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.0105279684066772,
      "learning_rate": 0.0002676081905315132,
      "loss": 0.2752,
      "step": 1987
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.4617483615875244,
      "learning_rate": 0.0002675864072030206,
      "loss": 0.0835,
      "step": 1988
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.26564422249794006,
      "learning_rate": 0.000267564623874528,
      "loss": 0.1289,
      "step": 1989
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.25032109022140503,
      "learning_rate": 0.0002675428405460354,
      "loss": 0.1008,
      "step": 1990
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.24460898339748383,
      "learning_rate": 0.0002675210572175428,
      "loss": 0.0828,
      "step": 1991
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.21545235812664032,
      "learning_rate": 0.0002674992738890502,
      "loss": 0.0671,
      "step": 1992
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.21632124483585358,
      "learning_rate": 0.00026747749056055763,
      "loss": 0.0989,
      "step": 1993
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.2381780445575714,
      "learning_rate": 0.00026745570723206506,
      "loss": 0.0803,
      "step": 1994
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.27482569217681885,
      "learning_rate": 0.00026743392390357243,
      "loss": 0.0892,
      "step": 1995
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.7824763655662537,
      "learning_rate": 0.00026741214057507986,
      "loss": 0.0636,
      "step": 1996
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.21194781363010406,
      "learning_rate": 0.00026739035724658724,
      "loss": 0.04,
      "step": 1997
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.29846200346946716,
      "learning_rate": 0.00026736857391809467,
      "loss": 0.0789,
      "step": 1998
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.30791205167770386,
      "learning_rate": 0.00026734679058960204,
      "loss": 0.0493,
      "step": 1999
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.8300069570541382,
      "learning_rate": 0.00026732500726110947,
      "loss": 0.3905,
      "step": 2000
    },
    {
      "epoch": 0.56,
      "eval_loss": 0.1034417450428009,
      "eval_runtime": 170.0372,
      "eval_samples_per_second": 15.538,
      "eval_steps_per_second": 0.488,
      "eval_wer": 0.09500198333994446,
      "step": 2000
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.41779714822769165,
      "learning_rate": 0.0002673032239326169,
      "loss": 0.1587,
      "step": 2001
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.18003372848033905,
      "learning_rate": 0.0002672814406041243,
      "loss": 0.0544,
      "step": 2002
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.2514949440956116,
      "learning_rate": 0.0002672596572756317,
      "loss": 0.0631,
      "step": 2003
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.2653595805168152,
      "learning_rate": 0.0002672378739471391,
      "loss": 0.1225,
      "step": 2004
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.25981405377388,
      "learning_rate": 0.0002672160906186465,
      "loss": 0.1499,
      "step": 2005
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.46896472573280334,
      "learning_rate": 0.0002671943072901539,
      "loss": 0.142,
      "step": 2006
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.24829266965389252,
      "learning_rate": 0.0002671725239616613,
      "loss": 0.0882,
      "step": 2007
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.3115366995334625,
      "learning_rate": 0.00026715074063316874,
      "loss": 0.0829,
      "step": 2008
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.24358223378658295,
      "learning_rate": 0.0002671289573046761,
      "loss": 0.104,
      "step": 2009
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.2292640209197998,
      "learning_rate": 0.00026710717397618355,
      "loss": 0.0775,
      "step": 2010
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.38636913895606995,
      "learning_rate": 0.0002670853906476909,
      "loss": 0.0814,
      "step": 2011
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.9387694597244263,
      "learning_rate": 0.00026706360731919835,
      "loss": 0.2098,
      "step": 2012
    },
    {
      "epoch": 0.56,
      "grad_norm": 1.2214341163635254,
      "learning_rate": 0.0002670418239907057,
      "loss": 0.1438,
      "step": 2013
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.258547842502594,
      "learning_rate": 0.00026702004066221315,
      "loss": 0.0841,
      "step": 2014
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.32643991708755493,
      "learning_rate": 0.0002669982573337206,
      "loss": 0.1155,
      "step": 2015
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.34372439980506897,
      "learning_rate": 0.000266976474005228,
      "loss": 0.1775,
      "step": 2016
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.23070664703845978,
      "learning_rate": 0.0002669546906767354,
      "loss": 0.0769,
      "step": 2017
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.32653215527534485,
      "learning_rate": 0.00026693290734824276,
      "loss": 0.1008,
      "step": 2018
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3213055431842804,
      "learning_rate": 0.0002669111240197502,
      "loss": 0.1262,
      "step": 2019
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.26892855763435364,
      "learning_rate": 0.00026688934069125757,
      "loss": 0.0841,
      "step": 2020
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.2965063154697418,
      "learning_rate": 0.000266867557362765,
      "loss": 0.0915,
      "step": 2021
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4260406196117401,
      "learning_rate": 0.0002668457740342724,
      "loss": 0.1883,
      "step": 2022
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3897075653076172,
      "learning_rate": 0.00026682399070577985,
      "loss": 0.1114,
      "step": 2023
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5225006341934204,
      "learning_rate": 0.00026680220737728723,
      "loss": 0.1016,
      "step": 2024
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.60333251953125,
      "learning_rate": 0.0002667804240487946,
      "loss": 0.1491,
      "step": 2025
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3388100564479828,
      "learning_rate": 0.00026675864072030203,
      "loss": 0.136,
      "step": 2026
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.37332090735435486,
      "learning_rate": 0.0002667368573918094,
      "loss": 0.1577,
      "step": 2027
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.33535242080688477,
      "learning_rate": 0.00026671507406331684,
      "loss": 0.0968,
      "step": 2028
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.5383833050727844,
      "learning_rate": 0.00026669329073482427,
      "loss": 0.1016,
      "step": 2029
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4008411169052124,
      "learning_rate": 0.0002666715074063317,
      "loss": 0.0846,
      "step": 2030
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.360079288482666,
      "learning_rate": 0.00026664972407783907,
      "loss": 0.1039,
      "step": 2031
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.28072604537010193,
      "learning_rate": 0.0002666279407493465,
      "loss": 0.0881,
      "step": 2032
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.32940202951431274,
      "learning_rate": 0.0002666061574208539,
      "loss": 0.1026,
      "step": 2033
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.49818548560142517,
      "learning_rate": 0.00026658437409236125,
      "loss": 0.1208,
      "step": 2034
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.33926156163215637,
      "learning_rate": 0.0002665625907638687,
      "loss": 0.0847,
      "step": 2035
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.44940099120140076,
      "learning_rate": 0.0002665408074353761,
      "loss": 0.1058,
      "step": 2036
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.475949764251709,
      "learning_rate": 0.00026651902410688354,
      "loss": 0.0926,
      "step": 2037
    },
    {
      "epoch": 0.57,
      "grad_norm": 1.3353214263916016,
      "learning_rate": 0.0002664972407783909,
      "loss": 0.2112,
      "step": 2038
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.2529278099536896,
      "learning_rate": 0.00026647545744989834,
      "loss": 0.0663,
      "step": 2039
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3520601987838745,
      "learning_rate": 0.0002664536741214057,
      "loss": 0.1257,
      "step": 2040
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4197917580604553,
      "learning_rate": 0.00026643189079291314,
      "loss": 0.1948,
      "step": 2041
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.3275711238384247,
      "learning_rate": 0.0002664101074644205,
      "loss": 0.1149,
      "step": 2042
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.26116350293159485,
      "learning_rate": 0.00026638832413592795,
      "loss": 0.1302,
      "step": 2043
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.30551987886428833,
      "learning_rate": 0.0002663665408074354,
      "loss": 0.1284,
      "step": 2044
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4502727687358856,
      "learning_rate": 0.00026634475747894275,
      "loss": 0.1378,
      "step": 2045
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.24484115839004517,
      "learning_rate": 0.0002663229741504502,
      "loss": 0.062,
      "step": 2046
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.21943162381649017,
      "learning_rate": 0.00026630119082195756,
      "loss": 0.0895,
      "step": 2047
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4695223867893219,
      "learning_rate": 0.000266279407493465,
      "loss": 0.1392,
      "step": 2048
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.4734538197517395,
      "learning_rate": 0.00026625762416497236,
      "loss": 0.156,
      "step": 2049
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.675938069820404,
      "learning_rate": 0.0002662358408364798,
      "loss": 0.1303,
      "step": 2050
    },
    {
      "epoch": 0.57,
      "grad_norm": 0.27477896213531494,
      "learning_rate": 0.0002662140575079872,
      "loss": 0.0986,
      "step": 2051
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.2301066368818283,
      "learning_rate": 0.0002661922741794946,
      "loss": 0.0718,
      "step": 2052
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.385936439037323,
      "learning_rate": 0.000266170490851002,
      "loss": 0.1293,
      "step": 2053
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.21552486717700958,
      "learning_rate": 0.0002661487075225094,
      "loss": 0.1075,
      "step": 2054
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.30416977405548096,
      "learning_rate": 0.00026612692419401683,
      "loss": 0.0968,
      "step": 2055
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.2199425995349884,
      "learning_rate": 0.0002661051408655242,
      "loss": 0.0573,
      "step": 2056
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4370611608028412,
      "learning_rate": 0.00026608335753703163,
      "loss": 0.1486,
      "step": 2057
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3202913999557495,
      "learning_rate": 0.00026606157420853906,
      "loss": 0.073,
      "step": 2058
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9727762341499329,
      "learning_rate": 0.00026603979088004644,
      "loss": 0.1735,
      "step": 2059
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.41349130868911743,
      "learning_rate": 0.00026601800755155386,
      "loss": 0.1153,
      "step": 2060
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5505785346031189,
      "learning_rate": 0.00026599622422306124,
      "loss": 0.114,
      "step": 2061
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5509510636329651,
      "learning_rate": 0.00026597444089456867,
      "loss": 0.2017,
      "step": 2062
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.9007014036178589,
      "learning_rate": 0.00026595265756607604,
      "loss": 0.1593,
      "step": 2063
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.29591190814971924,
      "learning_rate": 0.00026593087423758347,
      "loss": 0.0943,
      "step": 2064
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.307358980178833,
      "learning_rate": 0.0002659090909090909,
      "loss": 0.1049,
      "step": 2065
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3095768690109253,
      "learning_rate": 0.00026588730758059833,
      "loss": 0.1338,
      "step": 2066
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.44073644280433655,
      "learning_rate": 0.0002658655242521057,
      "loss": 0.0754,
      "step": 2067
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.34697434306144714,
      "learning_rate": 0.0002658437409236131,
      "loss": 0.0791,
      "step": 2068
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.2428939789533615,
      "learning_rate": 0.0002658219575951205,
      "loss": 0.085,
      "step": 2069
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.23287536203861237,
      "learning_rate": 0.0002658001742666279,
      "loss": 0.0908,
      "step": 2070
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3365376889705658,
      "learning_rate": 0.0002657783909381353,
      "loss": 0.0834,
      "step": 2071
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4320712387561798,
      "learning_rate": 0.00026575660760964274,
      "loss": 0.1136,
      "step": 2072
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3466644585132599,
      "learning_rate": 0.00026573482428115017,
      "loss": 0.0839,
      "step": 2073
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3873298168182373,
      "learning_rate": 0.00026571304095265755,
      "loss": 0.0772,
      "step": 2074
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.5244976282119751,
      "learning_rate": 0.0002656912576241649,
      "loss": 0.2105,
      "step": 2075
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3544425070285797,
      "learning_rate": 0.00026566947429567235,
      "loss": 0.1212,
      "step": 2076
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3547743856906891,
      "learning_rate": 0.0002656476909671797,
      "loss": 0.0956,
      "step": 2077
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.24665844440460205,
      "learning_rate": 0.00026562590763868716,
      "loss": 0.0798,
      "step": 2078
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.2383360117673874,
      "learning_rate": 0.0002656041243101946,
      "loss": 0.1114,
      "step": 2079
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3028978109359741,
      "learning_rate": 0.000265582340981702,
      "loss": 0.1206,
      "step": 2080
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.29990488290786743,
      "learning_rate": 0.0002655605576532094,
      "loss": 0.1156,
      "step": 2081
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.35063251852989197,
      "learning_rate": 0.0002655387743247168,
      "loss": 0.1126,
      "step": 2082
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3370073735713959,
      "learning_rate": 0.0002655169909962242,
      "loss": 0.1198,
      "step": 2083
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.37960031628608704,
      "learning_rate": 0.00026549520766773157,
      "loss": 0.1111,
      "step": 2084
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.4685192406177521,
      "learning_rate": 0.000265473424339239,
      "loss": 0.0863,
      "step": 2085
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3889233469963074,
      "learning_rate": 0.0002654516410107464,
      "loss": 0.1119,
      "step": 2086
    },
    {
      "epoch": 0.58,
      "grad_norm": 0.3182488977909088,
      "learning_rate": 0.00026542985768225385,
      "loss": 0.0796,
      "step": 2087
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.8904387354850769,
      "learning_rate": 0.00026540807435376123,
      "loss": 0.1542,
      "step": 2088
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3061954379081726,
      "learning_rate": 0.00026538629102526866,
      "loss": 0.1084,
      "step": 2089
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.27894482016563416,
      "learning_rate": 0.00026536450769677603,
      "loss": 0.1021,
      "step": 2090
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.48454880714416504,
      "learning_rate": 0.00026534272436828346,
      "loss": 0.0982,
      "step": 2091
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.23627915978431702,
      "learning_rate": 0.00026532094103979084,
      "loss": 0.0741,
      "step": 2092
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.27961286902427673,
      "learning_rate": 0.00026529915771129827,
      "loss": 0.0784,
      "step": 2093
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.38653069734573364,
      "learning_rate": 0.0002652773743828057,
      "loss": 0.1075,
      "step": 2094
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.18947526812553406,
      "learning_rate": 0.00026525559105431307,
      "loss": 0.0487,
      "step": 2095
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.23664845526218414,
      "learning_rate": 0.0002652338077258205,
      "loss": 0.0708,
      "step": 2096
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.589491605758667,
      "learning_rate": 0.0002652120243973279,
      "loss": 0.1032,
      "step": 2097
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3625462055206299,
      "learning_rate": 0.0002651902410688353,
      "loss": 0.144,
      "step": 2098
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.30724918842315674,
      "learning_rate": 0.0002651684577403427,
      "loss": 0.0606,
      "step": 2099
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.5702885389328003,
      "learning_rate": 0.0002651466744118501,
      "loss": 0.2085,
      "step": 2100
    },
    {
      "epoch": 0.59,
      "eval_loss": 0.10007133334875107,
      "eval_runtime": 170.2657,
      "eval_samples_per_second": 15.517,
      "eval_steps_per_second": 0.487,
      "eval_wer": 0.10029750099166997,
      "step": 2100
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4810713529586792,
      "learning_rate": 0.00026512489108335754,
      "loss": 0.1028,
      "step": 2101
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3561963140964508,
      "learning_rate": 0.0002651031077548649,
      "loss": 0.0878,
      "step": 2102
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.4527568817138672,
      "learning_rate": 0.00026508132442637234,
      "loss": 0.1053,
      "step": 2103
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.464445561170578,
      "learning_rate": 0.0002650595410978797,
      "loss": 0.0996,
      "step": 2104
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.26925963163375854,
      "learning_rate": 0.00026503775776938715,
      "loss": 0.0913,
      "step": 2105
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.32560262084007263,
      "learning_rate": 0.0002650159744408945,
      "loss": 0.0863,
      "step": 2106
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.42003169655799866,
      "learning_rate": 0.00026499419111240195,
      "loss": 0.135,
      "step": 2107
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.32713645696640015,
      "learning_rate": 0.0002649724077839094,
      "loss": 0.1092,
      "step": 2108
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3589165210723877,
      "learning_rate": 0.00026495062445541675,
      "loss": 0.1262,
      "step": 2109
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.35712930560112,
      "learning_rate": 0.0002649288411269242,
      "loss": 0.17,
      "step": 2110
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.3882927894592285,
      "learning_rate": 0.00026490705779843156,
      "loss": 0.1079,
      "step": 2111
    },
    {
      "epoch": 0.59,
      "grad_norm": 1.0035368204116821,
      "learning_rate": 0.000264885274469939,
      "loss": 0.3818,
      "step": 2112
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3908156454563141,
      "learning_rate": 0.00026486349114144636,
      "loss": 0.1044,
      "step": 2113
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.26567843556404114,
      "learning_rate": 0.0002648417078129538,
      "loss": 0.0764,
      "step": 2114
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.2797105014324188,
      "learning_rate": 0.0002648199244844612,
      "loss": 0.103,
      "step": 2115
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.37274518609046936,
      "learning_rate": 0.00026479814115596865,
      "loss": 0.1156,
      "step": 2116
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3030414581298828,
      "learning_rate": 0.000264776357827476,
      "loss": 0.1369,
      "step": 2117
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3396877944469452,
      "learning_rate": 0.0002647545744989834,
      "loss": 0.1206,
      "step": 2118
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.26245635747909546,
      "learning_rate": 0.00026473279117049083,
      "loss": 0.1123,
      "step": 2119
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.24933446943759918,
      "learning_rate": 0.0002647110078419982,
      "loss": 0.0956,
      "step": 2120
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.3369416296482086,
      "learning_rate": 0.00026468922451350563,
      "loss": 0.101,
      "step": 2121
    },
    {
      "epoch": 0.59,
      "grad_norm": 0.2766883969306946,
      "learning_rate": 0.00026466744118501306,
      "loss": 0.0729,
      "step": 2122
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3832741975784302,
      "learning_rate": 0.0002646456578565205,
      "loss": 0.136,
      "step": 2123
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.6597175002098083,
      "learning_rate": 0.00026462387452802787,
      "loss": 0.1664,
      "step": 2124
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.666221559047699,
      "learning_rate": 0.0002646020911995353,
      "loss": 0.1147,
      "step": 2125
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.29101210832595825,
      "learning_rate": 0.00026458030787104267,
      "loss": 0.0421,
      "step": 2126
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.33305487036705017,
      "learning_rate": 0.00026455852454255004,
      "loss": 0.1327,
      "step": 2127
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.26803141832351685,
      "learning_rate": 0.0002645367412140575,
      "loss": 0.0646,
      "step": 2128
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3544541001319885,
      "learning_rate": 0.0002645149578855649,
      "loss": 0.1958,
      "step": 2129
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.39780354499816895,
      "learning_rate": 0.00026449317455707233,
      "loss": 0.0911,
      "step": 2130
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.25391799211502075,
      "learning_rate": 0.0002644713912285797,
      "loss": 0.0929,
      "step": 2131
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3267037272453308,
      "learning_rate": 0.00026444960790008714,
      "loss": 0.0976,
      "step": 2132
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.44184955954551697,
      "learning_rate": 0.0002644278245715945,
      "loss": 0.1844,
      "step": 2133
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4637692868709564,
      "learning_rate": 0.0002644060412431019,
      "loss": 0.1421,
      "step": 2134
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4649147391319275,
      "learning_rate": 0.0002643842579146093,
      "loss": 0.1335,
      "step": 2135
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3281046450138092,
      "learning_rate": 0.00026436247458611674,
      "loss": 0.0766,
      "step": 2136
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.23702849447727203,
      "learning_rate": 0.0002643406912576242,
      "loss": 0.0354,
      "step": 2137
    },
    {
      "epoch": 0.6,
      "grad_norm": 1.2070817947387695,
      "learning_rate": 0.00026431890792913155,
      "loss": 0.3215,
      "step": 2138
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.22793394327163696,
      "learning_rate": 0.000264297124600639,
      "loss": 0.0675,
      "step": 2139
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3501569330692291,
      "learning_rate": 0.00026427534127214635,
      "loss": 0.1128,
      "step": 2140
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.27533653378486633,
      "learning_rate": 0.0002642535579436538,
      "loss": 0.0608,
      "step": 2141
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.20005743205547333,
      "learning_rate": 0.00026423177461516116,
      "loss": 0.0666,
      "step": 2142
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.32659831643104553,
      "learning_rate": 0.0002642099912866686,
      "loss": 0.0762,
      "step": 2143
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4340810477733612,
      "learning_rate": 0.000264188207958176,
      "loss": 0.1106,
      "step": 2144
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.28067100048065186,
      "learning_rate": 0.0002641664246296834,
      "loss": 0.106,
      "step": 2145
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4354696273803711,
      "learning_rate": 0.0002641446413011908,
      "loss": 0.2334,
      "step": 2146
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.32482028007507324,
      "learning_rate": 0.0002641228579726982,
      "loss": 0.0798,
      "step": 2147
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3014935255050659,
      "learning_rate": 0.0002641010746442056,
      "loss": 0.0683,
      "step": 2148
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3357723355293274,
      "learning_rate": 0.000264079291315713,
      "loss": 0.0883,
      "step": 2149
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.529679536819458,
      "learning_rate": 0.0002640575079872204,
      "loss": 0.1251,
      "step": 2150
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.19138014316558838,
      "learning_rate": 0.00026403572465872786,
      "loss": 0.0601,
      "step": 2151
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.36928415298461914,
      "learning_rate": 0.00026401394133023523,
      "loss": 0.1201,
      "step": 2152
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3099345862865448,
      "learning_rate": 0.00026399215800174266,
      "loss": 0.1115,
      "step": 2153
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.1742149144411087,
      "learning_rate": 0.00026397037467325003,
      "loss": 0.0717,
      "step": 2154
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.29815682768821716,
      "learning_rate": 0.00026394859134475746,
      "loss": 0.1085,
      "step": 2155
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.1752694845199585,
      "learning_rate": 0.00026392680801626484,
      "loss": 0.0648,
      "step": 2156
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.3682599663734436,
      "learning_rate": 0.00026390502468777227,
      "loss": 0.1291,
      "step": 2157
    },
    {
      "epoch": 0.6,
      "grad_norm": 0.4588276445865631,
      "learning_rate": 0.0002638832413592797,
      "loss": 0.1734,
      "step": 2158
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.716042697429657,
      "learning_rate": 0.00026386145803078707,
      "loss": 0.1356,
      "step": 2159
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3464096486568451,
      "learning_rate": 0.0002638396747022945,
      "loss": 0.0775,
      "step": 2160
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3083215653896332,
      "learning_rate": 0.0002638178913738019,
      "loss": 0.0913,
      "step": 2161
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3342341482639313,
      "learning_rate": 0.0002637961080453093,
      "loss": 0.0483,
      "step": 2162
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.2409579753875732,
      "learning_rate": 0.0002637743247168167,
      "loss": 0.2054,
      "step": 2163
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.1662818342447281,
      "learning_rate": 0.0002637525413883241,
      "loss": 0.0758,
      "step": 2164
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.35270869731903076,
      "learning_rate": 0.00026373075805983154,
      "loss": 0.0701,
      "step": 2165
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3378872275352478,
      "learning_rate": 0.0002637089747313389,
      "loss": 0.1043,
      "step": 2166
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.32760345935821533,
      "learning_rate": 0.00026368719140284634,
      "loss": 0.1196,
      "step": 2167
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3205206096172333,
      "learning_rate": 0.0002636654080743537,
      "loss": 0.1078,
      "step": 2168
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.1773696094751358,
      "learning_rate": 0.00026364362474586115,
      "loss": 0.0628,
      "step": 2169
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.23503044247627258,
      "learning_rate": 0.0002636218414173685,
      "loss": 0.0567,
      "step": 2170
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.391305536031723,
      "learning_rate": 0.00026360005808887595,
      "loss": 0.1164,
      "step": 2171
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.4947860836982727,
      "learning_rate": 0.0002635782747603834,
      "loss": 0.0936,
      "step": 2172
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.34668630361557007,
      "learning_rate": 0.00026355649143189075,
      "loss": 0.0899,
      "step": 2173
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.39552000164985657,
      "learning_rate": 0.0002635347081033982,
      "loss": 0.0642,
      "step": 2174
    },
    {
      "epoch": 0.61,
      "grad_norm": 1.1281228065490723,
      "learning_rate": 0.0002635129247749056,
      "loss": 0.1531,
      "step": 2175
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.34117645025253296,
      "learning_rate": 0.000263491141446413,
      "loss": 0.0669,
      "step": 2176
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.40605583786964417,
      "learning_rate": 0.00026346935811792036,
      "loss": 0.1059,
      "step": 2177
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.25883594155311584,
      "learning_rate": 0.0002634475747894278,
      "loss": 0.1002,
      "step": 2178
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.24626687169075012,
      "learning_rate": 0.0002634257914609352,
      "loss": 0.1086,
      "step": 2179
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.25691431760787964,
      "learning_rate": 0.0002634040081324426,
      "loss": 0.0857,
      "step": 2180
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3417845368385315,
      "learning_rate": 0.00026338222480395,
      "loss": 0.0868,
      "step": 2181
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.35406291484832764,
      "learning_rate": 0.00026336044147545745,
      "loss": 0.0971,
      "step": 2182
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.26856184005737305,
      "learning_rate": 0.00026333865814696483,
      "loss": 0.0714,
      "step": 2183
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.45354512333869934,
      "learning_rate": 0.0002633168748184722,
      "loss": 0.2067,
      "step": 2184
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.32124894857406616,
      "learning_rate": 0.00026329509148997963,
      "loss": 0.2097,
      "step": 2185
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5413055419921875,
      "learning_rate": 0.00026327330816148706,
      "loss": 0.1734,
      "step": 2186
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.9314236640930176,
      "learning_rate": 0.0002632515248329945,
      "loss": 0.2163,
      "step": 2187
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.7952964305877686,
      "learning_rate": 0.00026322974150450187,
      "loss": 0.1277,
      "step": 2188
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.1582702249288559,
      "learning_rate": 0.0002632079581760093,
      "loss": 0.0381,
      "step": 2189
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.5093626976013184,
      "learning_rate": 0.00026318617484751667,
      "loss": 0.1142,
      "step": 2190
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.23918622732162476,
      "learning_rate": 0.0002631643915190241,
      "loss": 0.0565,
      "step": 2191
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.33294209837913513,
      "learning_rate": 0.0002631426081905315,
      "loss": 0.1229,
      "step": 2192
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.21038700640201569,
      "learning_rate": 0.0002631208248620389,
      "loss": 0.0661,
      "step": 2193
    },
    {
      "epoch": 0.61,
      "grad_norm": 0.3099116086959839,
      "learning_rate": 0.00026309904153354633,
      "loss": 0.0931,
      "step": 2194
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3643881678581238,
      "learning_rate": 0.0002630772582050537,
      "loss": 0.0867,
      "step": 2195
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.32032206654548645,
      "learning_rate": 0.00026305547487656114,
      "loss": 0.0615,
      "step": 2196
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.33834779262542725,
      "learning_rate": 0.0002630336915480685,
      "loss": 0.0955,
      "step": 2197
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.1707196831703186,
      "learning_rate": 0.00026301190821957594,
      "loss": 0.0399,
      "step": 2198
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.8181841969490051,
      "learning_rate": 0.0002629901248910833,
      "loss": 0.1095,
      "step": 2199
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.4253897666931152,
      "learning_rate": 0.00026296834156259075,
      "loss": 0.3563,
      "step": 2200
    },
    {
      "epoch": 0.62,
      "eval_loss": 0.09736131131649017,
      "eval_runtime": 171.855,
      "eval_samples_per_second": 15.373,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.09583498611662039,
      "step": 2200
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.27321720123291016,
      "learning_rate": 0.0002629465582340982,
      "loss": 0.0649,
      "step": 2201
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3650624454021454,
      "learning_rate": 0.00026292477490560555,
      "loss": 0.09,
      "step": 2202
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.23193657398223877,
      "learning_rate": 0.000262902991577113,
      "loss": 0.0801,
      "step": 2203
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.282388299703598,
      "learning_rate": 0.00026288120824862035,
      "loss": 0.0959,
      "step": 2204
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.20367330312728882,
      "learning_rate": 0.0002628594249201278,
      "loss": 0.0517,
      "step": 2205
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.22039277851581573,
      "learning_rate": 0.00026283764159163516,
      "loss": 0.0895,
      "step": 2206
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3061734437942505,
      "learning_rate": 0.0002628158582631426,
      "loss": 0.0832,
      "step": 2207
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.32436543703079224,
      "learning_rate": 0.00026279407493465,
      "loss": 0.0987,
      "step": 2208
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.20423951745033264,
      "learning_rate": 0.0002627722916061574,
      "loss": 0.0447,
      "step": 2209
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4271319806575775,
      "learning_rate": 0.0002627505082776648,
      "loss": 0.0778,
      "step": 2210
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.41555255651474,
      "learning_rate": 0.0002627287249491722,
      "loss": 0.1116,
      "step": 2211
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.7371816635131836,
      "learning_rate": 0.0002627069416206796,
      "loss": 0.0826,
      "step": 2212
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.5431116223335266,
      "learning_rate": 0.000262685158292187,
      "loss": 0.0996,
      "step": 2213
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.2702842652797699,
      "learning_rate": 0.00026266337496369443,
      "loss": 0.0975,
      "step": 2214
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3300897479057312,
      "learning_rate": 0.00026264159163520186,
      "loss": 0.0903,
      "step": 2215
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.23271578550338745,
      "learning_rate": 0.00026261980830670923,
      "loss": 0.0533,
      "step": 2216
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.2724027633666992,
      "learning_rate": 0.00026259802497821666,
      "loss": 0.1027,
      "step": 2217
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.2877480685710907,
      "learning_rate": 0.00026257624164972404,
      "loss": 0.1167,
      "step": 2218
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3813115954399109,
      "learning_rate": 0.00026255445832123147,
      "loss": 0.1826,
      "step": 2219
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.28556904196739197,
      "learning_rate": 0.00026253267499273884,
      "loss": 0.1032,
      "step": 2220
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.41447779536247253,
      "learning_rate": 0.00026251089166424627,
      "loss": 0.1215,
      "step": 2221
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.26986393332481384,
      "learning_rate": 0.0002624891083357537,
      "loss": 0.0867,
      "step": 2222
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.31991127133369446,
      "learning_rate": 0.0002624673250072611,
      "loss": 0.0868,
      "step": 2223
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.4058988094329834,
      "learning_rate": 0.0002624455416787685,
      "loss": 0.1111,
      "step": 2224
    },
    {
      "epoch": 0.62,
      "grad_norm": 1.0362228155136108,
      "learning_rate": 0.00026242375835027593,
      "loss": 0.1527,
      "step": 2225
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3282279670238495,
      "learning_rate": 0.0002624019750217833,
      "loss": 0.1146,
      "step": 2226
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.18965266644954681,
      "learning_rate": 0.0002623801916932907,
      "loss": 0.0774,
      "step": 2227
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.27862548828125,
      "learning_rate": 0.0002623584083647981,
      "loss": 0.0775,
      "step": 2228
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.268473356962204,
      "learning_rate": 0.00026233662503630554,
      "loss": 0.0648,
      "step": 2229
    },
    {
      "epoch": 0.62,
      "grad_norm": 0.3117861747741699,
      "learning_rate": 0.0002623148417078129,
      "loss": 0.0962,
      "step": 2230
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.19796036183834076,
      "learning_rate": 0.00026229305837932034,
      "loss": 0.0714,
      "step": 2231
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.2813652455806732,
      "learning_rate": 0.00026227127505082777,
      "loss": 0.0808,
      "step": 2232
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.25613829493522644,
      "learning_rate": 0.00026224949172233515,
      "loss": 0.088,
      "step": 2233
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3614763915538788,
      "learning_rate": 0.0002622277083938426,
      "loss": 0.1073,
      "step": 2234
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3170771598815918,
      "learning_rate": 0.00026220592506534995,
      "loss": 0.1425,
      "step": 2235
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.429514616727829,
      "learning_rate": 0.0002621841417368574,
      "loss": 0.0883,
      "step": 2236
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.392651915550232,
      "learning_rate": 0.00026216235840836476,
      "loss": 0.3003,
      "step": 2237
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.0441887378692627,
      "learning_rate": 0.0002621405750798722,
      "loss": 0.1333,
      "step": 2238
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3117413818836212,
      "learning_rate": 0.0002621187917513796,
      "loss": 0.1238,
      "step": 2239
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.2268221229314804,
      "learning_rate": 0.000262097008422887,
      "loss": 0.0833,
      "step": 2240
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.2821849286556244,
      "learning_rate": 0.0002620752250943944,
      "loss": 0.0652,
      "step": 2241
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.22553493082523346,
      "learning_rate": 0.0002620534417659018,
      "loss": 0.0657,
      "step": 2242
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.2888053059577942,
      "learning_rate": 0.0002620316584374092,
      "loss": 0.1151,
      "step": 2243
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.44121450185775757,
      "learning_rate": 0.0002620098751089166,
      "loss": 0.1514,
      "step": 2244
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3425678312778473,
      "learning_rate": 0.000261988091780424,
      "loss": 0.0694,
      "step": 2245
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3330228924751282,
      "learning_rate": 0.00026196630845193146,
      "loss": 0.0851,
      "step": 2246
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3218928277492523,
      "learning_rate": 0.00026194452512343883,
      "loss": 0.1115,
      "step": 2247
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.30088987946510315,
      "learning_rate": 0.00026192274179494626,
      "loss": 0.1028,
      "step": 2248
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.36993086338043213,
      "learning_rate": 0.00026190095846645363,
      "loss": 0.0753,
      "step": 2249
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.9787150621414185,
      "learning_rate": 0.00026187917513796106,
      "loss": 0.2627,
      "step": 2250
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.1610213667154312,
      "learning_rate": 0.00026185739180946844,
      "loss": 0.056,
      "step": 2251
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.19237102568149567,
      "learning_rate": 0.00026183560848097587,
      "loss": 0.0722,
      "step": 2252
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.29072386026382446,
      "learning_rate": 0.0002618138251524833,
      "loss": 0.0832,
      "step": 2253
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6918939352035522,
      "learning_rate": 0.00026179204182399067,
      "loss": 0.126,
      "step": 2254
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.3821777105331421,
      "learning_rate": 0.0002617702584954981,
      "loss": 0.1065,
      "step": 2255
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.24422602355480194,
      "learning_rate": 0.0002617484751670055,
      "loss": 0.0602,
      "step": 2256
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.2798807919025421,
      "learning_rate": 0.0002617266918385129,
      "loss": 0.0748,
      "step": 2257
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.271661639213562,
      "learning_rate": 0.0002617049085100203,
      "loss": 0.1258,
      "step": 2258
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5988128781318665,
      "learning_rate": 0.0002616831251815277,
      "loss": 0.0547,
      "step": 2259
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.27596011757850647,
      "learning_rate": 0.00026166134185303514,
      "loss": 0.0947,
      "step": 2260
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.526002824306488,
      "learning_rate": 0.0002616395585245425,
      "loss": 0.1309,
      "step": 2261
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.6710909605026245,
      "learning_rate": 0.00026161777519604994,
      "loss": 0.1584,
      "step": 2262
    },
    {
      "epoch": 0.63,
      "grad_norm": 1.6591157913208008,
      "learning_rate": 0.0002615959918675573,
      "loss": 0.1466,
      "step": 2263
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.4662347733974457,
      "learning_rate": 0.00026157420853906475,
      "loss": 0.1092,
      "step": 2264
    },
    {
      "epoch": 0.63,
      "grad_norm": 0.5071206092834473,
      "learning_rate": 0.0002615524252105721,
      "loss": 0.0833,
      "step": 2265
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.36848485469818115,
      "learning_rate": 0.00026153064188207955,
      "loss": 0.0631,
      "step": 2266
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3581849932670593,
      "learning_rate": 0.000261508858553587,
      "loss": 0.0841,
      "step": 2267
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.417961984872818,
      "learning_rate": 0.00026148707522509435,
      "loss": 0.1031,
      "step": 2268
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.34469085931777954,
      "learning_rate": 0.0002614652918966018,
      "loss": 0.0933,
      "step": 2269
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.31673407554626465,
      "learning_rate": 0.00026144350856810916,
      "loss": 0.0789,
      "step": 2270
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.37446948885917664,
      "learning_rate": 0.0002614217252396166,
      "loss": 0.0739,
      "step": 2271
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.6884597539901733,
      "learning_rate": 0.00026139994191112396,
      "loss": 0.1727,
      "step": 2272
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.26797565817832947,
      "learning_rate": 0.0002613781585826314,
      "loss": 0.0907,
      "step": 2273
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.43521758913993835,
      "learning_rate": 0.0002613563752541388,
      "loss": 0.1478,
      "step": 2274
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.43811163306236267,
      "learning_rate": 0.00026133459192564625,
      "loss": 0.0871,
      "step": 2275
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3110063672065735,
      "learning_rate": 0.0002613128085971536,
      "loss": 0.1011,
      "step": 2276
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.24617694318294525,
      "learning_rate": 0.000261291025268661,
      "loss": 0.0724,
      "step": 2277
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3652370572090149,
      "learning_rate": 0.00026126924194016843,
      "loss": 0.0688,
      "step": 2278
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4887095093727112,
      "learning_rate": 0.0002612474586116758,
      "loss": 0.128,
      "step": 2279
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.2868339717388153,
      "learning_rate": 0.00026122567528318323,
      "loss": 0.0844,
      "step": 2280
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.24493755400180817,
      "learning_rate": 0.00026120389195469066,
      "loss": 0.0715,
      "step": 2281
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3296429216861725,
      "learning_rate": 0.0002611821086261981,
      "loss": 0.0939,
      "step": 2282
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.35384640097618103,
      "learning_rate": 0.00026116032529770547,
      "loss": 0.116,
      "step": 2283
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.23204036056995392,
      "learning_rate": 0.0002611385419692129,
      "loss": 0.0766,
      "step": 2284
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4106246531009674,
      "learning_rate": 0.00026111675864072027,
      "loss": 0.0957,
      "step": 2285
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.5857918858528137,
      "learning_rate": 0.00026109497531222765,
      "loss": 0.1845,
      "step": 2286
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.27260661125183105,
      "learning_rate": 0.0002610731919837351,
      "loss": 0.0474,
      "step": 2287
    },
    {
      "epoch": 0.64,
      "grad_norm": 1.3269048929214478,
      "learning_rate": 0.0002610514086552425,
      "loss": 0.2468,
      "step": 2288
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3848316967487335,
      "learning_rate": 0.00026102962532674993,
      "loss": 0.1718,
      "step": 2289
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.21886837482452393,
      "learning_rate": 0.0002610078419982573,
      "loss": 0.0423,
      "step": 2290
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.2504108250141144,
      "learning_rate": 0.00026098605866976474,
      "loss": 0.0781,
      "step": 2291
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.2778550386428833,
      "learning_rate": 0.0002609642753412721,
      "loss": 0.0932,
      "step": 2292
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.2508898377418518,
      "learning_rate": 0.00026094249201277954,
      "loss": 0.0974,
      "step": 2293
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3020833134651184,
      "learning_rate": 0.0002609207086842869,
      "loss": 0.1109,
      "step": 2294
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3231108784675598,
      "learning_rate": 0.00026089892535579434,
      "loss": 0.0922,
      "step": 2295
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.26316365599632263,
      "learning_rate": 0.0002608771420273018,
      "loss": 0.0694,
      "step": 2296
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.25208351016044617,
      "learning_rate": 0.00026085535869880915,
      "loss": 0.0834,
      "step": 2297
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.2889602482318878,
      "learning_rate": 0.0002608335753703166,
      "loss": 0.1051,
      "step": 2298
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3747580945491791,
      "learning_rate": 0.00026081179204182395,
      "loss": 0.1021,
      "step": 2299
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.4508576989173889,
      "learning_rate": 0.0002607900087133314,
      "loss": 0.1258,
      "step": 2300
    },
    {
      "epoch": 0.64,
      "eval_loss": 0.1066865622997284,
      "eval_runtime": 171.0388,
      "eval_samples_per_second": 15.447,
      "eval_steps_per_second": 0.485,
      "eval_wer": 0.1018048393494645,
      "step": 2300
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.428039014339447,
      "learning_rate": 0.00026076822538483876,
      "loss": 0.1088,
      "step": 2301
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2763161063194275,
      "learning_rate": 0.0002607464420563462,
      "loss": 0.0598,
      "step": 2302
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2321319431066513,
      "learning_rate": 0.0002607246587278536,
      "loss": 0.0862,
      "step": 2303
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3383743464946747,
      "learning_rate": 0.000260702875399361,
      "loss": 0.0746,
      "step": 2304
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.20657390356063843,
      "learning_rate": 0.0002606810920708684,
      "loss": 0.0959,
      "step": 2305
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.20224758982658386,
      "learning_rate": 0.0002606593087423758,
      "loss": 0.0496,
      "step": 2306
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.20619693398475647,
      "learning_rate": 0.0002606375254138832,
      "loss": 0.0902,
      "step": 2307
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.21375106275081635,
      "learning_rate": 0.0002606157420853906,
      "loss": 0.0795,
      "step": 2308
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4290194511413574,
      "learning_rate": 0.00026059395875689803,
      "loss": 0.0463,
      "step": 2309
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2577488124370575,
      "learning_rate": 0.00026057217542840546,
      "loss": 0.0734,
      "step": 2310
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.4945938289165497,
      "learning_rate": 0.00026055039209991283,
      "loss": 0.1251,
      "step": 2311
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0409249067306519,
      "learning_rate": 0.00026052860877142026,
      "loss": 0.1448,
      "step": 2312
    },
    {
      "epoch": 0.65,
      "grad_norm": 2.9808008670806885,
      "learning_rate": 0.00026050682544292764,
      "loss": 0.2195,
      "step": 2313
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3420652449131012,
      "learning_rate": 0.00026048504211443506,
      "loss": 0.1475,
      "step": 2314
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2899702787399292,
      "learning_rate": 0.00026046325878594244,
      "loss": 0.0827,
      "step": 2315
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.20496930181980133,
      "learning_rate": 0.00026044147545744987,
      "loss": 0.0734,
      "step": 2316
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.37890177965164185,
      "learning_rate": 0.0002604196921289573,
      "loss": 0.0698,
      "step": 2317
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.28363022208213806,
      "learning_rate": 0.00026039790880046467,
      "loss": 0.0901,
      "step": 2318
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.20201291143894196,
      "learning_rate": 0.0002603761254719721,
      "loss": 0.0634,
      "step": 2319
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.31201547384262085,
      "learning_rate": 0.0002603543421434795,
      "loss": 0.065,
      "step": 2320
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.328385591506958,
      "learning_rate": 0.0002603325588149869,
      "loss": 0.1043,
      "step": 2321
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2808457314968109,
      "learning_rate": 0.0002603107754864943,
      "loss": 0.0599,
      "step": 2322
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.35082679986953735,
      "learning_rate": 0.0002602889921580017,
      "loss": 0.0992,
      "step": 2323
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.30887556076049805,
      "learning_rate": 0.00026026720882950914,
      "loss": 0.0715,
      "step": 2324
    },
    {
      "epoch": 0.65,
      "grad_norm": 1.0186847448349,
      "learning_rate": 0.00026024542550101657,
      "loss": 0.2272,
      "step": 2325
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.32626110315322876,
      "learning_rate": 0.00026022364217252394,
      "loss": 0.0692,
      "step": 2326
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2664701044559479,
      "learning_rate": 0.0002602018588440313,
      "loss": 0.094,
      "step": 2327
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.23845328390598297,
      "learning_rate": 0.00026018007551553875,
      "loss": 0.0889,
      "step": 2328
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2003096044063568,
      "learning_rate": 0.0002601582921870461,
      "loss": 0.0742,
      "step": 2329
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.26854968070983887,
      "learning_rate": 0.00026013650885855355,
      "loss": 0.0821,
      "step": 2330
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.36566677689552307,
      "learning_rate": 0.000260114725530061,
      "loss": 0.1133,
      "step": 2331
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.24061349034309387,
      "learning_rate": 0.0002600929422015684,
      "loss": 0.102,
      "step": 2332
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.3172179162502289,
      "learning_rate": 0.0002600711588730758,
      "loss": 0.0952,
      "step": 2333
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.33579644560813904,
      "learning_rate": 0.0002600493755445832,
      "loss": 0.0521,
      "step": 2334
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2587236762046814,
      "learning_rate": 0.0002600275922160906,
      "loss": 0.0674,
      "step": 2335
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.2590107321739197,
      "learning_rate": 0.00026000580888759796,
      "loss": 0.0856,
      "step": 2336
    },
    {
      "epoch": 0.65,
      "grad_norm": 0.5245566964149475,
      "learning_rate": 0.0002599840255591054,
      "loss": 0.1144,
      "step": 2337
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.7053326368331909,
      "learning_rate": 0.0002599622422306128,
      "loss": 0.0995,
      "step": 2338
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.287140429019928,
      "learning_rate": 0.00025994045890212025,
      "loss": 0.0981,
      "step": 2339
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.30697304010391235,
      "learning_rate": 0.0002599186755736276,
      "loss": 0.1388,
      "step": 2340
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.2671695947647095,
      "learning_rate": 0.00025989689224513506,
      "loss": 0.0888,
      "step": 2341
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.19856171309947968,
      "learning_rate": 0.00025987510891664243,
      "loss": 0.0879,
      "step": 2342
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3784964084625244,
      "learning_rate": 0.0002598533255881498,
      "loss": 0.1116,
      "step": 2343
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3283868432044983,
      "learning_rate": 0.00025983154225965723,
      "loss": 0.1191,
      "step": 2344
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.58683180809021,
      "learning_rate": 0.00025980975893116466,
      "loss": 0.1719,
      "step": 2345
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4810238778591156,
      "learning_rate": 0.0002597879756026721,
      "loss": 0.0695,
      "step": 2346
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.29821160435676575,
      "learning_rate": 0.00025976619227417947,
      "loss": 0.0643,
      "step": 2347
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.2523948550224304,
      "learning_rate": 0.0002597444089456869,
      "loss": 0.053,
      "step": 2348
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3560982644557953,
      "learning_rate": 0.00025972262561719427,
      "loss": 0.0468,
      "step": 2349
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.5422415733337402,
      "learning_rate": 0.0002597008422887017,
      "loss": 0.2067,
      "step": 2350
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.24790982902050018,
      "learning_rate": 0.0002596790589602091,
      "loss": 0.0721,
      "step": 2351
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.2846224904060364,
      "learning_rate": 0.0002596572756317165,
      "loss": 0.117,
      "step": 2352
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.28980207443237305,
      "learning_rate": 0.00025963549230322393,
      "loss": 0.0561,
      "step": 2353
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.34834054112434387,
      "learning_rate": 0.0002596137089747313,
      "loss": 0.1023,
      "step": 2354
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.27250567078590393,
      "learning_rate": 0.00025959192564623874,
      "loss": 0.0778,
      "step": 2355
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.5518169403076172,
      "learning_rate": 0.0002595701423177461,
      "loss": 0.1144,
      "step": 2356
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.35509100556373596,
      "learning_rate": 0.00025954835898925354,
      "loss": 0.1147,
      "step": 2357
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3212491571903229,
      "learning_rate": 0.0002595265756607609,
      "loss": 0.1061,
      "step": 2358
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.20291757583618164,
      "learning_rate": 0.00025950479233226835,
      "loss": 0.0646,
      "step": 2359
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.21378368139266968,
      "learning_rate": 0.0002594830090037758,
      "loss": 0.0674,
      "step": 2360
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4596279561519623,
      "learning_rate": 0.00025946122567528315,
      "loss": 0.0994,
      "step": 2361
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.9083986282348633,
      "learning_rate": 0.0002594394423467906,
      "loss": 0.1793,
      "step": 2362
    },
    {
      "epoch": 0.66,
      "grad_norm": 1.145022988319397,
      "learning_rate": 0.00025941765901829795,
      "loss": 0.2336,
      "step": 2363
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.20815250277519226,
      "learning_rate": 0.0002593958756898054,
      "loss": 0.0585,
      "step": 2364
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.22298042476177216,
      "learning_rate": 0.00025937409236131276,
      "loss": 0.0721,
      "step": 2365
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.24132178723812103,
      "learning_rate": 0.0002593523090328202,
      "loss": 0.0908,
      "step": 2366
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.26508456468582153,
      "learning_rate": 0.0002593305257043276,
      "loss": 0.0866,
      "step": 2367
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.3014419674873352,
      "learning_rate": 0.00025930874237583505,
      "loss": 0.1086,
      "step": 2368
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4399641752243042,
      "learning_rate": 0.0002592869590473424,
      "loss": 0.117,
      "step": 2369
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.2852995991706848,
      "learning_rate": 0.0002592651757188498,
      "loss": 0.1001,
      "step": 2370
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.4417426288127899,
      "learning_rate": 0.0002592433923903572,
      "loss": 0.101,
      "step": 2371
    },
    {
      "epoch": 0.66,
      "grad_norm": 0.369682639837265,
      "learning_rate": 0.0002592216090618646,
      "loss": 0.0799,
      "step": 2372
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3604544699192047,
      "learning_rate": 0.00025919982573337203,
      "loss": 0.1114,
      "step": 2373
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4058430790901184,
      "learning_rate": 0.00025917804240487946,
      "loss": 0.1043,
      "step": 2374
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.49695074558258057,
      "learning_rate": 0.0002591562590763869,
      "loss": 0.1356,
      "step": 2375
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.33614251017570496,
      "learning_rate": 0.00025913447574789426,
      "loss": 0.083,
      "step": 2376
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.25709131360054016,
      "learning_rate": 0.00025911269241940164,
      "loss": 0.1184,
      "step": 2377
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4332447946071625,
      "learning_rate": 0.00025909090909090907,
      "loss": 0.1077,
      "step": 2378
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.2933734357357025,
      "learning_rate": 0.00025906912576241644,
      "loss": 0.0991,
      "step": 2379
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.35487762093544006,
      "learning_rate": 0.00025904734243392387,
      "loss": 0.145,
      "step": 2380
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3263404071331024,
      "learning_rate": 0.0002590255591054313,
      "loss": 0.0868,
      "step": 2381
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.24391940236091614,
      "learning_rate": 0.00025900377577693873,
      "loss": 0.0938,
      "step": 2382
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.35379233956336975,
      "learning_rate": 0.0002589819924484461,
      "loss": 0.1077,
      "step": 2383
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.2795865535736084,
      "learning_rate": 0.00025896020911995353,
      "loss": 0.0898,
      "step": 2384
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.31789955496788025,
      "learning_rate": 0.0002589384257914609,
      "loss": 0.1333,
      "step": 2385
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.34400010108947754,
      "learning_rate": 0.0002589166424629683,
      "loss": 0.0971,
      "step": 2386
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.437252014875412,
      "learning_rate": 0.0002588948591344757,
      "loss": 0.0834,
      "step": 2387
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4147092401981354,
      "learning_rate": 0.00025887307580598314,
      "loss": 0.0965,
      "step": 2388
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.22448185086250305,
      "learning_rate": 0.00025885129247749057,
      "loss": 0.1339,
      "step": 2389
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.37475329637527466,
      "learning_rate": 0.00025882950914899794,
      "loss": 0.0983,
      "step": 2390
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.2962537109851837,
      "learning_rate": 0.0002588077258205054,
      "loss": 0.0686,
      "step": 2391
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3449938893318176,
      "learning_rate": 0.00025878594249201275,
      "loss": 0.1098,
      "step": 2392
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.2632269561290741,
      "learning_rate": 0.0002587641591635202,
      "loss": 0.0497,
      "step": 2393
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4494321644306183,
      "learning_rate": 0.00025874237583502755,
      "loss": 0.1084,
      "step": 2394
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.18984940648078918,
      "learning_rate": 0.000258720592506535,
      "loss": 0.0839,
      "step": 2395
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3074917197227478,
      "learning_rate": 0.0002586988091780424,
      "loss": 0.1653,
      "step": 2396
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.2810419797897339,
      "learning_rate": 0.0002586770258495498,
      "loss": 0.08,
      "step": 2397
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.359557181596756,
      "learning_rate": 0.0002586552425210572,
      "loss": 0.0746,
      "step": 2398
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.48547104001045227,
      "learning_rate": 0.0002586334591925646,
      "loss": 0.1476,
      "step": 2399
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.45202043652534485,
      "learning_rate": 0.000258611675864072,
      "loss": 0.0972,
      "step": 2400
    },
    {
      "epoch": 0.67,
      "eval_loss": 0.09377706050872803,
      "eval_runtime": 171.7413,
      "eval_samples_per_second": 15.384,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.09299880999603333,
      "step": 2400
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.28315606713294983,
      "learning_rate": 0.0002585898925355794,
      "loss": 0.0761,
      "step": 2401
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.15656374394893646,
      "learning_rate": 0.0002585681092070868,
      "loss": 0.045,
      "step": 2402
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.14252057671546936,
      "learning_rate": 0.00025854632587859425,
      "loss": 0.0401,
      "step": 2403
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.2897205054759979,
      "learning_rate": 0.0002585245425501016,
      "loss": 0.0787,
      "step": 2404
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.22116005420684814,
      "learning_rate": 0.00025850275922160906,
      "loss": 0.0522,
      "step": 2405
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.5767881870269775,
      "learning_rate": 0.00025848097589311643,
      "loss": 0.0827,
      "step": 2406
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.3976749777793884,
      "learning_rate": 0.00025845919256462386,
      "loss": 0.0735,
      "step": 2407
    },
    {
      "epoch": 0.67,
      "grad_norm": 0.4508812725543976,
      "learning_rate": 0.00025843740923613124,
      "loss": 0.0827,
      "step": 2408
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.21667049825191498,
      "learning_rate": 0.00025841562590763866,
      "loss": 0.0535,
      "step": 2409
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.27626296877861023,
      "learning_rate": 0.0002583938425791461,
      "loss": 0.0804,
      "step": 2410
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.28551092743873596,
      "learning_rate": 0.00025837205925065347,
      "loss": 0.0643,
      "step": 2411
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9965007305145264,
      "learning_rate": 0.0002583502759221609,
      "loss": 0.1193,
      "step": 2412
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7040140628814697,
      "learning_rate": 0.00025832849259366827,
      "loss": 0.1374,
      "step": 2413
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.21312369406223297,
      "learning_rate": 0.0002583067092651757,
      "loss": 0.0741,
      "step": 2414
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.238425150513649,
      "learning_rate": 0.0002582849259366831,
      "loss": 0.0831,
      "step": 2415
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.24820829927921295,
      "learning_rate": 0.0002582631426081905,
      "loss": 0.0605,
      "step": 2416
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.24473144114017487,
      "learning_rate": 0.00025824135927969793,
      "loss": 0.0572,
      "step": 2417
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.31506505608558655,
      "learning_rate": 0.00025821957595120536,
      "loss": 0.0685,
      "step": 2418
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.42994725704193115,
      "learning_rate": 0.00025819779262271274,
      "loss": 0.147,
      "step": 2419
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.6365588903427124,
      "learning_rate": 0.0002581760092942201,
      "loss": 0.1491,
      "step": 2420
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.19639432430267334,
      "learning_rate": 0.00025815422596572754,
      "loss": 0.0473,
      "step": 2421
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.21278978884220123,
      "learning_rate": 0.0002581324426372349,
      "loss": 0.0589,
      "step": 2422
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.37160080671310425,
      "learning_rate": 0.00025811065930874235,
      "loss": 0.1282,
      "step": 2423
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3696696162223816,
      "learning_rate": 0.0002580888759802498,
      "loss": 0.0648,
      "step": 2424
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.9294793605804443,
      "learning_rate": 0.0002580670926517572,
      "loss": 0.2513,
      "step": 2425
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.22601063549518585,
      "learning_rate": 0.0002580453093232646,
      "loss": 0.0835,
      "step": 2426
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.14016340672969818,
      "learning_rate": 0.00025802352599477196,
      "loss": 0.0487,
      "step": 2427
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.2181345671415329,
      "learning_rate": 0.0002580017426662794,
      "loss": 0.0938,
      "step": 2428
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.23712478578090668,
      "learning_rate": 0.00025797995933778676,
      "loss": 0.0835,
      "step": 2429
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.24294981360435486,
      "learning_rate": 0.0002579581760092942,
      "loss": 0.1177,
      "step": 2430
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.29098567366600037,
      "learning_rate": 0.0002579363926808016,
      "loss": 0.143,
      "step": 2431
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.1955956667661667,
      "learning_rate": 0.00025791460935230905,
      "loss": 0.08,
      "step": 2432
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.24729950726032257,
      "learning_rate": 0.0002578928260238164,
      "loss": 0.0739,
      "step": 2433
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.43844059109687805,
      "learning_rate": 0.00025787104269532385,
      "loss": 0.1409,
      "step": 2434
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.2777220904827118,
      "learning_rate": 0.0002578492593668312,
      "loss": 0.0966,
      "step": 2435
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3406318128108978,
      "learning_rate": 0.0002578274760383386,
      "loss": 0.0903,
      "step": 2436
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.7294881939888,
      "learning_rate": 0.00025780569270984603,
      "loss": 0.1641,
      "step": 2437
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3176097869873047,
      "learning_rate": 0.00025778390938135346,
      "loss": 0.1296,
      "step": 2438
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.24709737300872803,
      "learning_rate": 0.0002577621260528609,
      "loss": 0.0846,
      "step": 2439
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.3711378276348114,
      "learning_rate": 0.00025774034272436826,
      "loss": 0.0889,
      "step": 2440
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.34411293268203735,
      "learning_rate": 0.0002577185593958757,
      "loss": 0.0617,
      "step": 2441
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.19374017417430878,
      "learning_rate": 0.00025769677606738307,
      "loss": 0.0516,
      "step": 2442
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.24664266407489777,
      "learning_rate": 0.0002576749927388905,
      "loss": 0.0537,
      "step": 2443
    },
    {
      "epoch": 0.68,
      "grad_norm": 0.29096153378486633,
      "learning_rate": 0.00025765320941039787,
      "loss": 0.0846,
      "step": 2444
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.35287296772003174,
      "learning_rate": 0.0002576314260819053,
      "loss": 0.1446,
      "step": 2445
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4350108802318573,
      "learning_rate": 0.00025760964275341273,
      "loss": 0.1406,
      "step": 2446
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3514857888221741,
      "learning_rate": 0.0002575878594249201,
      "loss": 0.065,
      "step": 2447
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.2585602104663849,
      "learning_rate": 0.00025756607609642753,
      "loss": 0.0695,
      "step": 2448
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.6990225315093994,
      "learning_rate": 0.0002575442927679349,
      "loss": 0.327,
      "step": 2449
    },
    {
      "epoch": 0.69,
      "grad_norm": 1.0863709449768066,
      "learning_rate": 0.00025752250943944234,
      "loss": 0.1029,
      "step": 2450
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.31965532898902893,
      "learning_rate": 0.0002575007261109497,
      "loss": 0.112,
      "step": 2451
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3132460415363312,
      "learning_rate": 0.00025747894278245714,
      "loss": 0.1092,
      "step": 2452
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.2078174501657486,
      "learning_rate": 0.00025745715945396457,
      "loss": 0.1091,
      "step": 2453
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.2937471568584442,
      "learning_rate": 0.00025743537612547195,
      "loss": 0.0913,
      "step": 2454
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.1467421054840088,
      "learning_rate": 0.0002574135927969794,
      "loss": 0.0404,
      "step": 2455
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.2631867825984955,
      "learning_rate": 0.00025739180946848675,
      "loss": 0.0818,
      "step": 2456
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.34716546535491943,
      "learning_rate": 0.0002573700261399942,
      "loss": 0.0632,
      "step": 2457
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.220916286110878,
      "learning_rate": 0.00025734824281150155,
      "loss": 0.0752,
      "step": 2458
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4063226282596588,
      "learning_rate": 0.000257326459483009,
      "loss": 0.1312,
      "step": 2459
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5950708985328674,
      "learning_rate": 0.0002573046761545164,
      "loss": 0.1068,
      "step": 2460
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5231345295906067,
      "learning_rate": 0.0002572828928260238,
      "loss": 0.1621,
      "step": 2461
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3596046268939972,
      "learning_rate": 0.0002572611094975312,
      "loss": 0.0416,
      "step": 2462
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4069429039955139,
      "learning_rate": 0.0002572393261690386,
      "loss": 0.1125,
      "step": 2463
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.40690287947654724,
      "learning_rate": 0.000257217542840546,
      "loss": 0.1063,
      "step": 2464
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.2143080085515976,
      "learning_rate": 0.0002571957595120534,
      "loss": 0.076,
      "step": 2465
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3027876913547516,
      "learning_rate": 0.0002571739761835608,
      "loss": 0.0897,
      "step": 2466
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.36160358786582947,
      "learning_rate": 0.00025715219285506825,
      "loss": 0.1381,
      "step": 2467
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.19856171309947968,
      "learning_rate": 0.00025713040952657563,
      "loss": 0.0581,
      "step": 2468
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5431126356124878,
      "learning_rate": 0.00025710862619808306,
      "loss": 0.1076,
      "step": 2469
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.2101280689239502,
      "learning_rate": 0.00025708684286959043,
      "loss": 0.0535,
      "step": 2470
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.33487367630004883,
      "learning_rate": 0.00025706505954109786,
      "loss": 0.0918,
      "step": 2471
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.24543842673301697,
      "learning_rate": 0.00025704327621260524,
      "loss": 0.0743,
      "step": 2472
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.30212002992630005,
      "learning_rate": 0.00025702149288411267,
      "loss": 0.0862,
      "step": 2473
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.4259647727012634,
      "learning_rate": 0.0002569997095556201,
      "loss": 0.097,
      "step": 2474
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.5355023741722107,
      "learning_rate": 0.00025697792622712747,
      "loss": 0.1577,
      "step": 2475
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3891597092151642,
      "learning_rate": 0.0002569561428986349,
      "loss": 0.1265,
      "step": 2476
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.256796270608902,
      "learning_rate": 0.00025693435957014233,
      "loss": 0.1199,
      "step": 2477
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.28545907139778137,
      "learning_rate": 0.0002569125762416497,
      "loss": 0.1225,
      "step": 2478
    },
    {
      "epoch": 0.69,
      "grad_norm": 0.3739027678966522,
      "learning_rate": 0.0002568907929131571,
      "loss": 0.1238,
      "step": 2479
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.21435220539569855,
      "learning_rate": 0.0002568690095846645,
      "loss": 0.0834,
      "step": 2480
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.24842743575572968,
      "learning_rate": 0.00025684722625617194,
      "loss": 0.0915,
      "step": 2481
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.18738055229187012,
      "learning_rate": 0.0002568254429276793,
      "loss": 0.0457,
      "step": 2482
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3231922686100006,
      "learning_rate": 0.00025680365959918674,
      "loss": 0.0989,
      "step": 2483
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3791995346546173,
      "learning_rate": 0.00025678187627069417,
      "loss": 0.1213,
      "step": 2484
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.21973496675491333,
      "learning_rate": 0.00025676009294220154,
      "loss": 0.0623,
      "step": 2485
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.2337220460176468,
      "learning_rate": 0.0002567383096137089,
      "loss": 0.0736,
      "step": 2486
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.2984684705734253,
      "learning_rate": 0.00025671652628521635,
      "loss": 0.0877,
      "step": 2487
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3629206717014313,
      "learning_rate": 0.0002566947429567238,
      "loss": 0.0665,
      "step": 2488
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.24555210769176483,
      "learning_rate": 0.00025667295962823115,
      "loss": 0.0707,
      "step": 2489
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4118254482746124,
      "learning_rate": 0.0002566511762997386,
      "loss": 0.1163,
      "step": 2490
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4145596921443939,
      "learning_rate": 0.000256629392971246,
      "loss": 0.0546,
      "step": 2491
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4594305157661438,
      "learning_rate": 0.0002566076096427534,
      "loss": 0.1146,
      "step": 2492
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.33066001534461975,
      "learning_rate": 0.0002565858263142608,
      "loss": 0.1147,
      "step": 2493
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.2833922803401947,
      "learning_rate": 0.0002565640429857682,
      "loss": 0.0656,
      "step": 2494
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.39240750670433044,
      "learning_rate": 0.0002565422596572756,
      "loss": 0.0953,
      "step": 2495
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.19847336411476135,
      "learning_rate": 0.000256520476328783,
      "loss": 0.0688,
      "step": 2496
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3973487913608551,
      "learning_rate": 0.0002564986930002904,
      "loss": 0.131,
      "step": 2497
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4663929343223572,
      "learning_rate": 0.00025647690967179785,
      "loss": 0.1177,
      "step": 2498
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.386264830827713,
      "learning_rate": 0.0002564551263433052,
      "loss": 0.1213,
      "step": 2499
    },
    {
      "epoch": 0.7,
      "grad_norm": 1.0307313203811646,
      "learning_rate": 0.00025643334301481266,
      "loss": 0.2588,
      "step": 2500
    },
    {
      "epoch": 0.7,
      "eval_loss": 0.0913284569978714,
      "eval_runtime": 171.9096,
      "eval_samples_per_second": 15.369,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.08611662038873463,
      "step": 2500
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3353390097618103,
      "learning_rate": 0.00025641155968632003,
      "loss": 0.0795,
      "step": 2501
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.46686825156211853,
      "learning_rate": 0.00025638977635782746,
      "loss": 0.1333,
      "step": 2502
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.2840161919593811,
      "learning_rate": 0.00025636799302933483,
      "loss": 0.0838,
      "step": 2503
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.31721705198287964,
      "learning_rate": 0.00025634620970084226,
      "loss": 0.0811,
      "step": 2504
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.15417449176311493,
      "learning_rate": 0.0002563244263723497,
      "loss": 0.0667,
      "step": 2505
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.38268086314201355,
      "learning_rate": 0.00025630264304385707,
      "loss": 0.1676,
      "step": 2506
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3480154573917389,
      "learning_rate": 0.0002562808597153645,
      "loss": 0.0942,
      "step": 2507
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.22416827082633972,
      "learning_rate": 0.00025625907638687187,
      "loss": 0.0629,
      "step": 2508
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.42478036880493164,
      "learning_rate": 0.0002562372930583793,
      "loss": 0.0999,
      "step": 2509
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.3054114580154419,
      "learning_rate": 0.00025621550972988673,
      "loss": 0.0698,
      "step": 2510
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4065141975879669,
      "learning_rate": 0.0002561937264013941,
      "loss": 0.1139,
      "step": 2511
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.4908909499645233,
      "learning_rate": 0.00025617194307290153,
      "loss": 0.1289,
      "step": 2512
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.42969751358032227,
      "learning_rate": 0.0002561501597444089,
      "loss": 0.0917,
      "step": 2513
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.2560964822769165,
      "learning_rate": 0.00025612837641591634,
      "loss": 0.0615,
      "step": 2514
    },
    {
      "epoch": 0.7,
      "grad_norm": 0.23609237372875214,
      "learning_rate": 0.0002561065930874237,
      "loss": 0.0854,
      "step": 2515
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3100181221961975,
      "learning_rate": 0.00025608480975893114,
      "loss": 0.1028,
      "step": 2516
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3077264726161957,
      "learning_rate": 0.00025606302643043857,
      "loss": 0.1011,
      "step": 2517
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.2741696536540985,
      "learning_rate": 0.00025604124310194595,
      "loss": 0.1168,
      "step": 2518
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.5013039112091064,
      "learning_rate": 0.0002560194597734534,
      "loss": 0.083,
      "step": 2519
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.1846659928560257,
      "learning_rate": 0.00025599767644496075,
      "loss": 0.0519,
      "step": 2520
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.25387701392173767,
      "learning_rate": 0.0002559758931164682,
      "loss": 0.0891,
      "step": 2521
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.2698596119880676,
      "learning_rate": 0.00025595410978797555,
      "loss": 0.0734,
      "step": 2522
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.379645973443985,
      "learning_rate": 0.000255932326459483,
      "loss": 0.1779,
      "step": 2523
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.46257662773132324,
      "learning_rate": 0.0002559105431309904,
      "loss": 0.174,
      "step": 2524
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4980117082595825,
      "learning_rate": 0.0002558887598024978,
      "loss": 0.1293,
      "step": 2525
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.18226826190948486,
      "learning_rate": 0.0002558669764740052,
      "loss": 0.0578,
      "step": 2526
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.25638097524642944,
      "learning_rate": 0.00025584519314551265,
      "loss": 0.0831,
      "step": 2527
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.26141077280044556,
      "learning_rate": 0.00025582340981702,
      "loss": 0.086,
      "step": 2528
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.46938690543174744,
      "learning_rate": 0.0002558016264885274,
      "loss": 0.06,
      "step": 2529
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3628676235675812,
      "learning_rate": 0.0002557798431600348,
      "loss": 0.0641,
      "step": 2530
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.32877135276794434,
      "learning_rate": 0.00025575805983154225,
      "loss": 0.0834,
      "step": 2531
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3778615891933441,
      "learning_rate": 0.00025573627650304963,
      "loss": 0.1399,
      "step": 2532
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4093504548072815,
      "learning_rate": 0.00025571449317455706,
      "loss": 0.1253,
      "step": 2533
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.25137582421302795,
      "learning_rate": 0.0002556927098460645,
      "loss": 0.0992,
      "step": 2534
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.14953337609767914,
      "learning_rate": 0.00025567092651757186,
      "loss": 0.0675,
      "step": 2535
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.30795884132385254,
      "learning_rate": 0.00025564914318907924,
      "loss": 0.083,
      "step": 2536
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4626025855541229,
      "learning_rate": 0.00025562735986058667,
      "loss": 0.0811,
      "step": 2537
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.44544199109077454,
      "learning_rate": 0.0002556055765320941,
      "loss": 0.0867,
      "step": 2538
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.31740182638168335,
      "learning_rate": 0.00025558379320360147,
      "loss": 0.0829,
      "step": 2539
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.2993833124637604,
      "learning_rate": 0.0002555620098751089,
      "loss": 0.1083,
      "step": 2540
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.44156312942504883,
      "learning_rate": 0.00025554022654661633,
      "loss": 0.0874,
      "step": 2541
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.33762985467910767,
      "learning_rate": 0.0002555184432181237,
      "loss": 0.1067,
      "step": 2542
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3860429525375366,
      "learning_rate": 0.00025549665988963113,
      "loss": 0.1029,
      "step": 2543
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.4110700488090515,
      "learning_rate": 0.0002554748765611385,
      "loss": 0.0777,
      "step": 2544
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.30838367342948914,
      "learning_rate": 0.00025545309323264594,
      "loss": 0.0989,
      "step": 2545
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.21534599363803864,
      "learning_rate": 0.0002554313099041533,
      "loss": 0.0767,
      "step": 2546
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3326757252216339,
      "learning_rate": 0.00025540952657566074,
      "loss": 0.1299,
      "step": 2547
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.2586565911769867,
      "learning_rate": 0.00025538774324716817,
      "loss": 0.0571,
      "step": 2548
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.3430050015449524,
      "learning_rate": 0.00025536595991867554,
      "loss": 0.0568,
      "step": 2549
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.44690391421318054,
      "learning_rate": 0.000255344176590183,
      "loss": 0.0578,
      "step": 2550
    },
    {
      "epoch": 0.71,
      "grad_norm": 0.2957112193107605,
      "learning_rate": 0.00025532239326169035,
      "loss": 0.075,
      "step": 2551
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.2208613157272339,
      "learning_rate": 0.0002553006099331978,
      "loss": 0.0446,
      "step": 2552
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.259146124124527,
      "learning_rate": 0.00025527882660470515,
      "loss": 0.0705,
      "step": 2553
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3542848527431488,
      "learning_rate": 0.0002552570432762126,
      "loss": 0.0948,
      "step": 2554
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.2353423684835434,
      "learning_rate": 0.00025523525994772,
      "loss": 0.0738,
      "step": 2555
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.23000609874725342,
      "learning_rate": 0.0002552134766192274,
      "loss": 0.0461,
      "step": 2556
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3860818147659302,
      "learning_rate": 0.0002551916932907348,
      "loss": 0.1016,
      "step": 2557
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.47925975918769836,
      "learning_rate": 0.0002551699099622422,
      "loss": 0.0736,
      "step": 2558
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.4454290866851807,
      "learning_rate": 0.0002551481266337496,
      "loss": 0.1091,
      "step": 2559
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.43057262897491455,
      "learning_rate": 0.000255126343305257,
      "loss": 0.1123,
      "step": 2560
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.48432275652885437,
      "learning_rate": 0.0002551045599767644,
      "loss": 0.1008,
      "step": 2561
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.6327234506607056,
      "learning_rate": 0.00025508277664827185,
      "loss": 0.1544,
      "step": 2562
    },
    {
      "epoch": 0.72,
      "grad_norm": 1.084397315979004,
      "learning_rate": 0.00025506099331977923,
      "loss": 0.1334,
      "step": 2563
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.20875000953674316,
      "learning_rate": 0.00025503920999128666,
      "loss": 0.0702,
      "step": 2564
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.23751536011695862,
      "learning_rate": 0.00025501742666279403,
      "loss": 0.0622,
      "step": 2565
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3144671618938446,
      "learning_rate": 0.00025499564333430146,
      "loss": 0.1316,
      "step": 2566
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.20689605176448822,
      "learning_rate": 0.00025497386000580884,
      "loss": 0.0677,
      "step": 2567
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.15787273645401,
      "learning_rate": 0.00025495207667731626,
      "loss": 0.0575,
      "step": 2568
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.5026397705078125,
      "learning_rate": 0.0002549302933488237,
      "loss": 0.0987,
      "step": 2569
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.2550087571144104,
      "learning_rate": 0.00025490851002033107,
      "loss": 0.068,
      "step": 2570
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.20073379576206207,
      "learning_rate": 0.0002548867266918385,
      "loss": 0.0558,
      "step": 2571
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.4700084924697876,
      "learning_rate": 0.0002548649433633459,
      "loss": 0.1179,
      "step": 2572
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.36649078130722046,
      "learning_rate": 0.0002548431600348533,
      "loss": 0.0714,
      "step": 2573
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39181867241859436,
      "learning_rate": 0.0002548213767063607,
      "loss": 0.0491,
      "step": 2574
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.9445067048072815,
      "learning_rate": 0.0002547995933778681,
      "loss": 0.172,
      "step": 2575
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.28946104645729065,
      "learning_rate": 0.00025477781004937554,
      "loss": 0.104,
      "step": 2576
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.25391513109207153,
      "learning_rate": 0.00025475602672088296,
      "loss": 0.0892,
      "step": 2577
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.25684937834739685,
      "learning_rate": 0.00025473424339239034,
      "loss": 0.093,
      "step": 2578
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3376968502998352,
      "learning_rate": 0.0002547124600638977,
      "loss": 0.0711,
      "step": 2579
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3098922669887543,
      "learning_rate": 0.00025469067673540514,
      "loss": 0.0783,
      "step": 2580
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.46607112884521484,
      "learning_rate": 0.0002546688934069125,
      "loss": 0.1381,
      "step": 2581
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.16699078679084778,
      "learning_rate": 0.00025464711007841995,
      "loss": 0.0377,
      "step": 2582
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.30253875255584717,
      "learning_rate": 0.0002546253267499274,
      "loss": 0.0487,
      "step": 2583
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.22522161900997162,
      "learning_rate": 0.0002546035434214348,
      "loss": 0.064,
      "step": 2584
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.2690126299858093,
      "learning_rate": 0.0002545817600929422,
      "loss": 0.1012,
      "step": 2585
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.39540913701057434,
      "learning_rate": 0.00025455997676444956,
      "loss": 0.063,
      "step": 2586
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.45603448152542114,
      "learning_rate": 0.000254538193435957,
      "loss": 0.0489,
      "step": 2587
    },
    {
      "epoch": 0.73,
      "grad_norm": 2.113785982131958,
      "learning_rate": 0.00025451641010746436,
      "loss": 0.2474,
      "step": 2588
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.36101821064949036,
      "learning_rate": 0.0002544946267789718,
      "loss": 0.1334,
      "step": 2589
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3092600703239441,
      "learning_rate": 0.0002544728434504792,
      "loss": 0.0801,
      "step": 2590
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.34657564759254456,
      "learning_rate": 0.00025445106012198665,
      "loss": 0.084,
      "step": 2591
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3278183937072754,
      "learning_rate": 0.000254429276793494,
      "loss": 0.1641,
      "step": 2592
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.1704455018043518,
      "learning_rate": 0.00025440749346500145,
      "loss": 0.0444,
      "step": 2593
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3661973178386688,
      "learning_rate": 0.0002543857101365088,
      "loss": 0.0948,
      "step": 2594
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.35874488949775696,
      "learning_rate": 0.0002543639268080162,
      "loss": 0.1189,
      "step": 2595
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.28353580832481384,
      "learning_rate": 0.00025434214347952363,
      "loss": 0.1138,
      "step": 2596
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.35054686665534973,
      "learning_rate": 0.00025432036015103106,
      "loss": 0.1431,
      "step": 2597
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.36820513010025024,
      "learning_rate": 0.0002542985768225385,
      "loss": 0.0701,
      "step": 2598
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5308845043182373,
      "learning_rate": 0.00025427679349404586,
      "loss": 0.108,
      "step": 2599
    },
    {
      "epoch": 0.73,
      "grad_norm": 1.0566219091415405,
      "learning_rate": 0.0002542550101655533,
      "loss": 0.2066,
      "step": 2600
    },
    {
      "epoch": 0.73,
      "eval_loss": 0.09456813335418701,
      "eval_runtime": 181.1651,
      "eval_samples_per_second": 14.583,
      "eval_steps_per_second": 0.458,
      "eval_wer": 0.09022213407378024,
      "step": 2600
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.21798424422740936,
      "learning_rate": 0.00025423322683706067,
      "loss": 0.0779,
      "step": 2601
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.2366083264350891,
      "learning_rate": 0.0002542114435085681,
      "loss": 0.0981,
      "step": 2602
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.21621586382389069,
      "learning_rate": 0.00025418966018007547,
      "loss": 0.0566,
      "step": 2603
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.165498748421669,
      "learning_rate": 0.0002541678768515829,
      "loss": 0.0618,
      "step": 2604
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.32681214809417725,
      "learning_rate": 0.00025414609352309033,
      "loss": 0.072,
      "step": 2605
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.30771777033805847,
      "learning_rate": 0.0002541243101945977,
      "loss": 0.1068,
      "step": 2606
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.2832072973251343,
      "learning_rate": 0.00025410252686610513,
      "loss": 0.112,
      "step": 2607
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.2905745506286621,
      "learning_rate": 0.0002540807435376125,
      "loss": 0.0758,
      "step": 2608
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.29858317971229553,
      "learning_rate": 0.00025405896020911994,
      "loss": 0.089,
      "step": 2609
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.19519777595996857,
      "learning_rate": 0.0002540371768806273,
      "loss": 0.0575,
      "step": 2610
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7980732917785645,
      "learning_rate": 0.00025401539355213474,
      "loss": 0.2294,
      "step": 2611
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.7842925786972046,
      "learning_rate": 0.00025399361022364217,
      "loss": 0.1124,
      "step": 2612
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.48426553606987,
      "learning_rate": 0.00025397182689514955,
      "loss": 0.111,
      "step": 2613
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.16420878469944,
      "learning_rate": 0.000253950043566657,
      "loss": 0.0402,
      "step": 2614
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.2851938009262085,
      "learning_rate": 0.00025392826023816435,
      "loss": 0.047,
      "step": 2615
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.2277255803346634,
      "learning_rate": 0.0002539064769096718,
      "loss": 0.0736,
      "step": 2616
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.26205649971961975,
      "learning_rate": 0.00025388469358117915,
      "loss": 0.0933,
      "step": 2617
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.30753961205482483,
      "learning_rate": 0.0002538629102526866,
      "loss": 0.0942,
      "step": 2618
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.5112254023551941,
      "learning_rate": 0.000253841126924194,
      "loss": 0.1692,
      "step": 2619
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.3946232497692108,
      "learning_rate": 0.0002538193435957014,
      "loss": 0.0972,
      "step": 2620
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.23083187639713287,
      "learning_rate": 0.0002537975602672088,
      "loss": 0.0614,
      "step": 2621
    },
    {
      "epoch": 0.73,
      "grad_norm": 0.26639795303344727,
      "learning_rate": 0.0002537757769387162,
      "loss": 0.0749,
      "step": 2622
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.2317098081111908,
      "learning_rate": 0.0002537539936102236,
      "loss": 0.0697,
      "step": 2623
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4291478395462036,
      "learning_rate": 0.000253732210281731,
      "loss": 0.1206,
      "step": 2624
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.45333296060562134,
      "learning_rate": 0.0002537104269532384,
      "loss": 0.0517,
      "step": 2625
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3588372766971588,
      "learning_rate": 0.00025368864362474585,
      "loss": 0.126,
      "step": 2626
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.2482273131608963,
      "learning_rate": 0.0002536668602962533,
      "loss": 0.0619,
      "step": 2627
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.2294253408908844,
      "learning_rate": 0.00025364507696776066,
      "loss": 0.0759,
      "step": 2628
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.2615499496459961,
      "learning_rate": 0.00025362329363926803,
      "loss": 0.0607,
      "step": 2629
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.47049084305763245,
      "learning_rate": 0.00025360151031077546,
      "loss": 0.0874,
      "step": 2630
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3761132061481476,
      "learning_rate": 0.00025357972698228284,
      "loss": 0.0994,
      "step": 2631
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.32950103282928467,
      "learning_rate": 0.00025355794365379027,
      "loss": 0.0714,
      "step": 2632
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.37417900562286377,
      "learning_rate": 0.0002535361603252977,
      "loss": 0.0946,
      "step": 2633
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.338532954454422,
      "learning_rate": 0.0002535143769968051,
      "loss": 0.1353,
      "step": 2634
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.40787583589553833,
      "learning_rate": 0.0002534925936683125,
      "loss": 0.0987,
      "step": 2635
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3572515845298767,
      "learning_rate": 0.00025347081033981993,
      "loss": 0.0683,
      "step": 2636
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.543446958065033,
      "learning_rate": 0.0002534490270113273,
      "loss": 0.1866,
      "step": 2637
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.496840238571167,
      "learning_rate": 0.0002534272436828347,
      "loss": 0.063,
      "step": 2638
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.562402069568634,
      "learning_rate": 0.0002534054603543421,
      "loss": 0.0785,
      "step": 2639
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.501523494720459,
      "learning_rate": 0.00025338367702584954,
      "loss": 0.0725,
      "step": 2640
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.410926878452301,
      "learning_rate": 0.00025336189369735697,
      "loss": 0.0803,
      "step": 2641
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.43213576078414917,
      "learning_rate": 0.00025334011036886434,
      "loss": 0.1223,
      "step": 2642
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3646828234195709,
      "learning_rate": 0.00025331832704037177,
      "loss": 0.0862,
      "step": 2643
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.21756713092327118,
      "learning_rate": 0.00025329654371187914,
      "loss": 0.0819,
      "step": 2644
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.17969241738319397,
      "learning_rate": 0.0002532747603833865,
      "loss": 0.0518,
      "step": 2645
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3494913578033447,
      "learning_rate": 0.00025325297705489395,
      "loss": 0.1276,
      "step": 2646
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.21654437482357025,
      "learning_rate": 0.0002532311937264014,
      "loss": 0.0454,
      "step": 2647
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.5808109045028687,
      "learning_rate": 0.0002532094103979088,
      "loss": 0.1376,
      "step": 2648
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.2572299838066101,
      "learning_rate": 0.0002531876270694162,
      "loss": 0.0712,
      "step": 2649
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.4953165352344513,
      "learning_rate": 0.0002531658437409236,
      "loss": 0.1068,
      "step": 2650
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3434368371963501,
      "learning_rate": 0.000253144060412431,
      "loss": 0.0872,
      "step": 2651
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.3100162744522095,
      "learning_rate": 0.0002531222770839384,
      "loss": 0.0937,
      "step": 2652
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.2009829729795456,
      "learning_rate": 0.0002531004937554458,
      "loss": 0.0552,
      "step": 2653
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.27229025959968567,
      "learning_rate": 0.0002530787104269532,
      "loss": 0.0715,
      "step": 2654
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.17391377687454224,
      "learning_rate": 0.00025305692709846065,
      "loss": 0.0532,
      "step": 2655
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.23594515025615692,
      "learning_rate": 0.000253035143769968,
      "loss": 0.0651,
      "step": 2656
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.24649310111999512,
      "learning_rate": 0.00025301336044147545,
      "loss": 0.0563,
      "step": 2657
    },
    {
      "epoch": 0.74,
      "grad_norm": 0.24669721722602844,
      "learning_rate": 0.00025299157711298283,
      "loss": 0.0958,
      "step": 2658
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3284628391265869,
      "learning_rate": 0.00025296979378449026,
      "loss": 0.103,
      "step": 2659
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5071757435798645,
      "learning_rate": 0.00025294801045599763,
      "loss": 0.1753,
      "step": 2660
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3543449640274048,
      "learning_rate": 0.00025292622712750506,
      "loss": 0.107,
      "step": 2661
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5847637057304382,
      "learning_rate": 0.0002529044437990125,
      "loss": 0.1061,
      "step": 2662
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.8957175612449646,
      "learning_rate": 0.00025288266047051986,
      "loss": 0.0891,
      "step": 2663
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4312889873981476,
      "learning_rate": 0.0002528608771420273,
      "loss": 0.0782,
      "step": 2664
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.16893084347248077,
      "learning_rate": 0.00025283909381353467,
      "loss": 0.055,
      "step": 2665
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.19926442205905914,
      "learning_rate": 0.0002528173104850421,
      "loss": 0.0827,
      "step": 2666
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.18590575456619263,
      "learning_rate": 0.00025279552715654947,
      "loss": 0.0584,
      "step": 2667
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.25405094027519226,
      "learning_rate": 0.0002527737438280569,
      "loss": 0.0748,
      "step": 2668
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.21589462459087372,
      "learning_rate": 0.00025275196049956433,
      "loss": 0.0787,
      "step": 2669
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5881146192550659,
      "learning_rate": 0.0002527301771710717,
      "loss": 0.1429,
      "step": 2670
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.24324573576450348,
      "learning_rate": 0.00025270839384257913,
      "loss": 0.0855,
      "step": 2671
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.274454802274704,
      "learning_rate": 0.0002526866105140865,
      "loss": 0.086,
      "step": 2672
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.36396682262420654,
      "learning_rate": 0.00025266482718559394,
      "loss": 0.0524,
      "step": 2673
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.5053383708000183,
      "learning_rate": 0.0002526430438571013,
      "loss": 0.0775,
      "step": 2674
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.9482300877571106,
      "learning_rate": 0.00025262126052860874,
      "loss": 0.1734,
      "step": 2675
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4227675497531891,
      "learning_rate": 0.00025259947720011617,
      "loss": 0.1521,
      "step": 2676
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3327118754386902,
      "learning_rate": 0.0002525776938716236,
      "loss": 0.1118,
      "step": 2677
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.40821215510368347,
      "learning_rate": 0.000252555910543131,
      "loss": 0.1311,
      "step": 2678
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.17896400392055511,
      "learning_rate": 0.00025253412721463835,
      "loss": 0.0449,
      "step": 2679
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.18887659907341003,
      "learning_rate": 0.0002525123438861458,
      "loss": 0.061,
      "step": 2680
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.7042403221130371,
      "learning_rate": 0.00025249056055765316,
      "loss": 0.1283,
      "step": 2681
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.31422796845436096,
      "learning_rate": 0.0002524687772291606,
      "loss": 0.07,
      "step": 2682
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.25097811222076416,
      "learning_rate": 0.000252446993900668,
      "loss": 0.0653,
      "step": 2683
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3230946660041809,
      "learning_rate": 0.00025242521057217544,
      "loss": 0.1216,
      "step": 2684
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3334950804710388,
      "learning_rate": 0.0002524034272436828,
      "loss": 0.1143,
      "step": 2685
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.37789469957351685,
      "learning_rate": 0.00025238164391519025,
      "loss": 0.109,
      "step": 2686
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.44515204429626465,
      "learning_rate": 0.0002523598605866976,
      "loss": 0.0883,
      "step": 2687
    },
    {
      "epoch": 0.75,
      "grad_norm": 1.2302356958389282,
      "learning_rate": 0.000252338077258205,
      "loss": 0.2417,
      "step": 2688
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.24189864099025726,
      "learning_rate": 0.0002523162939297124,
      "loss": 0.0765,
      "step": 2689
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.20163433253765106,
      "learning_rate": 0.00025229451060121985,
      "loss": 0.0644,
      "step": 2690
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.4871831238269806,
      "learning_rate": 0.0002522727272727273,
      "loss": 0.1,
      "step": 2691
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.3025408089160919,
      "learning_rate": 0.00025225094394423466,
      "loss": 0.0765,
      "step": 2692
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.2861042618751526,
      "learning_rate": 0.0002522291606157421,
      "loss": 0.0665,
      "step": 2693
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.33427709341049194,
      "learning_rate": 0.00025220737728724946,
      "loss": 0.1096,
      "step": 2694
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3179512619972229,
      "learning_rate": 0.00025218559395875684,
      "loss": 0.0862,
      "step": 2695
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.34448888897895813,
      "learning_rate": 0.00025216381063026427,
      "loss": 0.1039,
      "step": 2696
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.36056169867515564,
      "learning_rate": 0.0002521420273017717,
      "loss": 0.0665,
      "step": 2697
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6550403237342834,
      "learning_rate": 0.0002521202439732791,
      "loss": 0.1459,
      "step": 2698
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.7946571707725525,
      "learning_rate": 0.0002520984606447865,
      "loss": 0.1387,
      "step": 2699
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.5125282406806946,
      "learning_rate": 0.00025207667731629393,
      "loss": 0.1706,
      "step": 2700
    },
    {
      "epoch": 0.76,
      "eval_loss": 0.09441602975130081,
      "eval_runtime": 173.4918,
      "eval_samples_per_second": 15.228,
      "eval_steps_per_second": 0.478,
      "eval_wer": 0.09559698532328441,
      "step": 2700
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.2322932928800583,
      "learning_rate": 0.0002520548939878013,
      "loss": 0.0676,
      "step": 2701
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.21619096398353577,
      "learning_rate": 0.00025203311065930873,
      "loss": 0.0501,
      "step": 2702
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3317853510379791,
      "learning_rate": 0.0002520113273308161,
      "loss": 0.1465,
      "step": 2703
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.2341965138912201,
      "learning_rate": 0.00025198954400232354,
      "loss": 0.0968,
      "step": 2704
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.27000731229782104,
      "learning_rate": 0.00025196776067383097,
      "loss": 0.0671,
      "step": 2705
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.31392598152160645,
      "learning_rate": 0.00025194597734533834,
      "loss": 0.1068,
      "step": 2706
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.28820574283599854,
      "learning_rate": 0.00025192419401684577,
      "loss": 0.0554,
      "step": 2707
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.2910583019256592,
      "learning_rate": 0.00025190241068835315,
      "loss": 0.0953,
      "step": 2708
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.44576001167297363,
      "learning_rate": 0.0002518806273598606,
      "loss": 0.1413,
      "step": 2709
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.2164902240037918,
      "learning_rate": 0.00025185884403136795,
      "loss": 0.0552,
      "step": 2710
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.31049463152885437,
      "learning_rate": 0.0002518370607028754,
      "loss": 0.0738,
      "step": 2711
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6851828694343567,
      "learning_rate": 0.0002518152773743828,
      "loss": 0.2842,
      "step": 2712
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6864340901374817,
      "learning_rate": 0.0002517934940458902,
      "loss": 0.1165,
      "step": 2713
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.3881688117980957,
      "learning_rate": 0.0002517717107173976,
      "loss": 0.0995,
      "step": 2714
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.24438998103141785,
      "learning_rate": 0.000251749927388905,
      "loss": 0.0756,
      "step": 2715
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.22086575627326965,
      "learning_rate": 0.0002517281440604124,
      "loss": 0.0777,
      "step": 2716
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.39918938279151917,
      "learning_rate": 0.0002517063607319198,
      "loss": 0.1092,
      "step": 2717
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.19191275537014008,
      "learning_rate": 0.0002516845774034272,
      "loss": 0.0596,
      "step": 2718
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.20937539637088776,
      "learning_rate": 0.00025166279407493465,
      "loss": 0.1038,
      "step": 2719
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.2990752160549164,
      "learning_rate": 0.000251641010746442,
      "loss": 0.076,
      "step": 2720
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.18708942830562592,
      "learning_rate": 0.00025161922741794945,
      "loss": 0.0398,
      "step": 2721
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.21915048360824585,
      "learning_rate": 0.00025159744408945683,
      "loss": 0.0587,
      "step": 2722
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.2367657572031021,
      "learning_rate": 0.00025157566076096426,
      "loss": 0.1058,
      "step": 2723
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.42014196515083313,
      "learning_rate": 0.00025155387743247163,
      "loss": 0.0632,
      "step": 2724
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.7882093787193298,
      "learning_rate": 0.00025153209410397906,
      "loss": 0.1653,
      "step": 2725
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.20642580091953278,
      "learning_rate": 0.0002515103107754865,
      "loss": 0.058,
      "step": 2726
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.32971325516700745,
      "learning_rate": 0.0002514885274469939,
      "loss": 0.1428,
      "step": 2727
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.28117290139198303,
      "learning_rate": 0.0002514667441185013,
      "loss": 0.1,
      "step": 2728
    },
    {
      "epoch": 0.76,
      "grad_norm": 0.6946860551834106,
      "learning_rate": 0.00025144496079000867,
      "loss": 0.1138,
      "step": 2729
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.18903595209121704,
      "learning_rate": 0.0002514231774615161,
      "loss": 0.0645,
      "step": 2730
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2746526002883911,
      "learning_rate": 0.0002514013941330235,
      "loss": 0.0835,
      "step": 2731
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.33611753582954407,
      "learning_rate": 0.0002513796108045309,
      "loss": 0.0725,
      "step": 2732
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2719724476337433,
      "learning_rate": 0.00025135782747603833,
      "loss": 0.0716,
      "step": 2733
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3477887213230133,
      "learning_rate": 0.00025133604414754576,
      "loss": 0.0906,
      "step": 2734
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2281280905008316,
      "learning_rate": 0.00025131426081905314,
      "loss": 0.0582,
      "step": 2735
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3964296579360962,
      "learning_rate": 0.00025129247749056057,
      "loss": 0.0573,
      "step": 2736
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.5021127462387085,
      "learning_rate": 0.00025127069416206794,
      "loss": 0.1078,
      "step": 2737
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.8291983008384705,
      "learning_rate": 0.0002512489108335753,
      "loss": 0.2174,
      "step": 2738
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.382816880941391,
      "learning_rate": 0.00025122712750508274,
      "loss": 0.1119,
      "step": 2739
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.27462881803512573,
      "learning_rate": 0.0002512053441765902,
      "loss": 0.0939,
      "step": 2740
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.34365537762641907,
      "learning_rate": 0.0002511835608480976,
      "loss": 0.1001,
      "step": 2741
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.47244566679000854,
      "learning_rate": 0.000251161777519605,
      "loss": 0.0878,
      "step": 2742
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3324029743671417,
      "learning_rate": 0.0002511399941911124,
      "loss": 0.1072,
      "step": 2743
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2607913911342621,
      "learning_rate": 0.0002511182108626198,
      "loss": 0.0803,
      "step": 2744
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3223918676376343,
      "learning_rate": 0.0002510964275341272,
      "loss": 0.0856,
      "step": 2745
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.25663480162620544,
      "learning_rate": 0.0002510746442056346,
      "loss": 0.0542,
      "step": 2746
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.3470073938369751,
      "learning_rate": 0.000251052860877142,
      "loss": 0.1368,
      "step": 2747
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2722567319869995,
      "learning_rate": 0.00025103107754864944,
      "loss": 0.0879,
      "step": 2748
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37332624197006226,
      "learning_rate": 0.0002510092942201568,
      "loss": 0.1028,
      "step": 2749
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.0392767190933228,
      "learning_rate": 0.00025098751089166425,
      "loss": 0.1304,
      "step": 2750
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2386150062084198,
      "learning_rate": 0.0002509657275631716,
      "loss": 0.0671,
      "step": 2751
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.19156292080879211,
      "learning_rate": 0.00025094394423467905,
      "loss": 0.0514,
      "step": 2752
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.37867382168769836,
      "learning_rate": 0.0002509221609061864,
      "loss": 0.1007,
      "step": 2753
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4363831877708435,
      "learning_rate": 0.00025090037757769386,
      "loss": 0.1283,
      "step": 2754
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4319925606250763,
      "learning_rate": 0.0002508785942492013,
      "loss": 0.1134,
      "step": 2755
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.2533382773399353,
      "learning_rate": 0.00025085681092070866,
      "loss": 0.0771,
      "step": 2756
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.26139596104621887,
      "learning_rate": 0.0002508350275922161,
      "loss": 0.0599,
      "step": 2757
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4156172275543213,
      "learning_rate": 0.00025081324426372346,
      "loss": 0.0844,
      "step": 2758
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.36966991424560547,
      "learning_rate": 0.0002507914609352309,
      "loss": 0.1307,
      "step": 2759
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.4731040894985199,
      "learning_rate": 0.00025076967760673827,
      "loss": 0.1434,
      "step": 2760
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.26539841294288635,
      "learning_rate": 0.0002507478942782457,
      "loss": 0.0638,
      "step": 2761
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.7973171472549438,
      "learning_rate": 0.0002507261109497531,
      "loss": 0.2328,
      "step": 2762
    },
    {
      "epoch": 0.77,
      "grad_norm": 1.1171616315841675,
      "learning_rate": 0.0002507043276212605,
      "loss": 0.2007,
      "step": 2763
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.22142678499221802,
      "learning_rate": 0.00025068254429276793,
      "loss": 0.0904,
      "step": 2764
    },
    {
      "epoch": 0.77,
      "grad_norm": 0.26237058639526367,
      "learning_rate": 0.0002506607609642753,
      "loss": 0.089,
      "step": 2765
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.40382272005081177,
      "learning_rate": 0.00025063897763578273,
      "loss": 0.0902,
      "step": 2766
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.19462531805038452,
      "learning_rate": 0.0002506171943072901,
      "loss": 0.0647,
      "step": 2767
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.18920813500881195,
      "learning_rate": 0.00025059541097879754,
      "loss": 0.0591,
      "step": 2768
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.23488308489322662,
      "learning_rate": 0.00025057362765030497,
      "loss": 0.1151,
      "step": 2769
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.27464187145233154,
      "learning_rate": 0.00025055184432181234,
      "loss": 0.0814,
      "step": 2770
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.21554212272167206,
      "learning_rate": 0.00025053006099331977,
      "loss": 0.0496,
      "step": 2771
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.2340145707130432,
      "learning_rate": 0.00025050827766482715,
      "loss": 0.1158,
      "step": 2772
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4329827129840851,
      "learning_rate": 0.0002504864943363346,
      "loss": 0.2008,
      "step": 2773
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3602250814437866,
      "learning_rate": 0.00025046471100784195,
      "loss": 0.1397,
      "step": 2774
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9551045894622803,
      "learning_rate": 0.0002504429276793494,
      "loss": 0.1818,
      "step": 2775
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.19495543837547302,
      "learning_rate": 0.0002504211443508568,
      "loss": 0.0615,
      "step": 2776
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.4005366265773773,
      "learning_rate": 0.0002503993610223642,
      "loss": 0.0727,
      "step": 2777
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.32078614830970764,
      "learning_rate": 0.0002503775776938716,
      "loss": 0.1376,
      "step": 2778
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.21237556636333466,
      "learning_rate": 0.000250355794365379,
      "loss": 0.0768,
      "step": 2779
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.20990173518657684,
      "learning_rate": 0.0002503340110368864,
      "loss": 0.0439,
      "step": 2780
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.22250352799892426,
      "learning_rate": 0.0002503122277083938,
      "loss": 0.1011,
      "step": 2781
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.26533475518226624,
      "learning_rate": 0.0002502904443799012,
      "loss": 0.0813,
      "step": 2782
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.23518706858158112,
      "learning_rate": 0.00025026866105140865,
      "loss": 0.0723,
      "step": 2783
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.25213751196861267,
      "learning_rate": 0.000250246877722916,
      "loss": 0.0641,
      "step": 2784
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.2807060778141022,
      "learning_rate": 0.00025022509439442345,
      "loss": 0.108,
      "step": 2785
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.6945421099662781,
      "learning_rate": 0.0002502033110659309,
      "loss": 0.2118,
      "step": 2786
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.9970149397850037,
      "learning_rate": 0.00025018152773743826,
      "loss": 0.1311,
      "step": 2787
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5347913503646851,
      "learning_rate": 0.00025015974440894563,
      "loss": 0.1164,
      "step": 2788
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.23096925020217896,
      "learning_rate": 0.00025013796108045306,
      "loss": 0.0593,
      "step": 2789
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3498072922229767,
      "learning_rate": 0.0002501161777519605,
      "loss": 0.0787,
      "step": 2790
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.20072434842586517,
      "learning_rate": 0.00025009439442346787,
      "loss": 0.0628,
      "step": 2791
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.25418099761009216,
      "learning_rate": 0.0002500726110949753,
      "loss": 0.1208,
      "step": 2792
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.26721662282943726,
      "learning_rate": 0.0002500508277664827,
      "loss": 0.0967,
      "step": 2793
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.2545926868915558,
      "learning_rate": 0.0002500290444379901,
      "loss": 0.0892,
      "step": 2794
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.29391464591026306,
      "learning_rate": 0.00025000726110949753,
      "loss": 0.1423,
      "step": 2795
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3331887125968933,
      "learning_rate": 0.0002499854777810049,
      "loss": 0.1211,
      "step": 2796
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.2251674085855484,
      "learning_rate": 0.00024996369445251233,
      "loss": 0.0637,
      "step": 2797
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.3086526691913605,
      "learning_rate": 0.0002499419111240197,
      "loss": 0.0791,
      "step": 2798
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.5268282890319824,
      "learning_rate": 0.00024992012779552714,
      "loss": 0.1813,
      "step": 2799
    },
    {
      "epoch": 0.78,
      "grad_norm": 0.7272347211837769,
      "learning_rate": 0.00024989834446703457,
      "loss": 0.1129,
      "step": 2800
    },
    {
      "epoch": 0.78,
      "eval_loss": 0.09183406084775925,
      "eval_runtime": 170.6963,
      "eval_samples_per_second": 15.478,
      "eval_steps_per_second": 0.486,
      "eval_wer": 0.0904204680682269,
      "step": 2800
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.24806611239910126,
      "learning_rate": 0.00024987656113854194,
      "loss": 0.0817,
      "step": 2801
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.24975259602069855,
      "learning_rate": 0.00024985477781004937,
      "loss": 0.0806,
      "step": 2802
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.29858893156051636,
      "learning_rate": 0.00024983299448155675,
      "loss": 0.0846,
      "step": 2803
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.27434882521629333,
      "learning_rate": 0.0002498112111530642,
      "loss": 0.0935,
      "step": 2804
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3929899036884308,
      "learning_rate": 0.00024978942782457155,
      "loss": 0.1191,
      "step": 2805
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.26451483368873596,
      "learning_rate": 0.000249767644496079,
      "loss": 0.0798,
      "step": 2806
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.17453040182590485,
      "learning_rate": 0.0002497458611675864,
      "loss": 0.0478,
      "step": 2807
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3528746962547302,
      "learning_rate": 0.0002497240778390938,
      "loss": 0.1045,
      "step": 2808
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5136829614639282,
      "learning_rate": 0.0002497022945106012,
      "loss": 0.13,
      "step": 2809
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.31433627009391785,
      "learning_rate": 0.0002496805111821086,
      "loss": 0.1195,
      "step": 2810
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.2669994533061981,
      "learning_rate": 0.000249658727853616,
      "loss": 0.083,
      "step": 2811
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.5116779804229736,
      "learning_rate": 0.0002496369445251234,
      "loss": 0.1306,
      "step": 2812
    },
    {
      "epoch": 0.79,
      "grad_norm": 1.9611700773239136,
      "learning_rate": 0.0002496151611966308,
      "loss": 0.4245,
      "step": 2813
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.30454355478286743,
      "learning_rate": 0.00024959337786813825,
      "loss": 0.0711,
      "step": 2814
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.29909706115722656,
      "learning_rate": 0.0002495715945396456,
      "loss": 0.0585,
      "step": 2815
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.231543630361557,
      "learning_rate": 0.00024954981121115305,
      "loss": 0.1051,
      "step": 2816
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.2577454745769501,
      "learning_rate": 0.00024952802788266043,
      "loss": 0.0857,
      "step": 2817
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.15132491290569305,
      "learning_rate": 0.00024950624455416786,
      "loss": 0.0432,
      "step": 2818
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.2942904829978943,
      "learning_rate": 0.00024948446122567523,
      "loss": 0.0767,
      "step": 2819
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.23223136365413666,
      "learning_rate": 0.00024946267789718266,
      "loss": 0.0726,
      "step": 2820
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.2468387335538864,
      "learning_rate": 0.0002494408945686901,
      "loss": 0.0635,
      "step": 2821
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3183276355266571,
      "learning_rate": 0.00024941911124019746,
      "loss": 0.0966,
      "step": 2822
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.32378631830215454,
      "learning_rate": 0.0002493973279117049,
      "loss": 0.0695,
      "step": 2823
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.6402868032455444,
      "learning_rate": 0.00024937554458321227,
      "loss": 0.0748,
      "step": 2824
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.7817540764808655,
      "learning_rate": 0.0002493537612547197,
      "loss": 0.1337,
      "step": 2825
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.2728647291660309,
      "learning_rate": 0.0002493319779262271,
      "loss": 0.0515,
      "step": 2826
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.23515154421329498,
      "learning_rate": 0.0002493101945977345,
      "loss": 0.0701,
      "step": 2827
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.26468655467033386,
      "learning_rate": 0.00024928841126924193,
      "loss": 0.0835,
      "step": 2828
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.2748248279094696,
      "learning_rate": 0.0002492666279407493,
      "loss": 0.0909,
      "step": 2829
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.26826006174087524,
      "learning_rate": 0.00024924484461225674,
      "loss": 0.0876,
      "step": 2830
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3055393099784851,
      "learning_rate": 0.0002492230612837641,
      "loss": 0.0757,
      "step": 2831
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.44972506165504456,
      "learning_rate": 0.00024920127795527154,
      "loss": 0.0777,
      "step": 2832
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4228224456310272,
      "learning_rate": 0.00024917949462677897,
      "loss": 0.0446,
      "step": 2833
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.3616108298301697,
      "learning_rate": 0.00024915771129828634,
      "loss": 0.0778,
      "step": 2834
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.4480638802051544,
      "learning_rate": 0.00024913592796979377,
      "loss": 0.1364,
      "step": 2835
    },
    {
      "epoch": 0.79,
      "grad_norm": 0.38387587666511536,
      "learning_rate": 0.0002491141446413012,
      "loss": 0.0971,
      "step": 2836
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.7172824740409851,
      "learning_rate": 0.0002490923613128086,
      "loss": 0.0949,
      "step": 2837
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3536020815372467,
      "learning_rate": 0.00024907057798431595,
      "loss": 0.0484,
      "step": 2838
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.29183605313301086,
      "learning_rate": 0.0002490487946558234,
      "loss": 0.0752,
      "step": 2839
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.331624835729599,
      "learning_rate": 0.0002490270113273308,
      "loss": 0.0907,
      "step": 2840
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.20157232880592346,
      "learning_rate": 0.0002490052279988382,
      "loss": 0.056,
      "step": 2841
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.2441437691450119,
      "learning_rate": 0.0002489834446703456,
      "loss": 0.0606,
      "step": 2842
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.39078521728515625,
      "learning_rate": 0.00024896166134185304,
      "loss": 0.1127,
      "step": 2843
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3017294108867645,
      "learning_rate": 0.0002489398780133604,
      "loss": 0.0725,
      "step": 2844
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.30841758847236633,
      "learning_rate": 0.00024891809468486785,
      "loss": 0.0431,
      "step": 2845
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.28844958543777466,
      "learning_rate": 0.0002488963113563752,
      "loss": 0.0668,
      "step": 2846
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3008251190185547,
      "learning_rate": 0.00024887452802788265,
      "loss": 0.0801,
      "step": 2847
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.2095520943403244,
      "learning_rate": 0.00024885274469939,
      "loss": 0.0454,
      "step": 2848
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4883512556552887,
      "learning_rate": 0.00024883096137089746,
      "loss": 0.136,
      "step": 2849
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5193161368370056,
      "learning_rate": 0.0002488091780424049,
      "loss": 0.1496,
      "step": 2850
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.378773957490921,
      "learning_rate": 0.00024878739471391226,
      "loss": 0.1203,
      "step": 2851
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.24677930772304535,
      "learning_rate": 0.0002487656113854197,
      "loss": 0.0907,
      "step": 2852
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3213377296924591,
      "learning_rate": 0.00024874382805692706,
      "loss": 0.1004,
      "step": 2853
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.2630472481250763,
      "learning_rate": 0.0002487220447284345,
      "loss": 0.0847,
      "step": 2854
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.2486228346824646,
      "learning_rate": 0.00024870026139994187,
      "loss": 0.0764,
      "step": 2855
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.2938515543937683,
      "learning_rate": 0.0002486784780714493,
      "loss": 0.127,
      "step": 2856
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.1960807740688324,
      "learning_rate": 0.0002486566947429567,
      "loss": 0.0637,
      "step": 2857
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.5386428833007812,
      "learning_rate": 0.0002486349114144641,
      "loss": 0.0972,
      "step": 2858
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.49560225009918213,
      "learning_rate": 0.00024861312808597153,
      "loss": 0.0628,
      "step": 2859
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.45375460386276245,
      "learning_rate": 0.0002485913447574789,
      "loss": 0.1016,
      "step": 2860
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.24703162908554077,
      "learning_rate": 0.00024856956142898633,
      "loss": 0.0509,
      "step": 2861
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.49129411578178406,
      "learning_rate": 0.0002485477781004937,
      "loss": 0.1996,
      "step": 2862
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.926568329334259,
      "learning_rate": 0.00024852599477200114,
      "loss": 0.2161,
      "step": 2863
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.19516591727733612,
      "learning_rate": 0.00024850421144350857,
      "loss": 0.0529,
      "step": 2864
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.24855591356754303,
      "learning_rate": 0.00024848242811501594,
      "loss": 0.0571,
      "step": 2865
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.27631327509880066,
      "learning_rate": 0.00024846064478652337,
      "loss": 0.1074,
      "step": 2866
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.3141770660877228,
      "learning_rate": 0.00024843886145803075,
      "loss": 0.0871,
      "step": 2867
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.28627902269363403,
      "learning_rate": 0.0002484170781295382,
      "loss": 0.0549,
      "step": 2868
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.36913934350013733,
      "learning_rate": 0.00024839529480104555,
      "loss": 0.1324,
      "step": 2869
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.2674027383327484,
      "learning_rate": 0.000248373511472553,
      "loss": 0.0762,
      "step": 2870
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.20240911841392517,
      "learning_rate": 0.0002483517281440604,
      "loss": 0.0458,
      "step": 2871
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.2461589276790619,
      "learning_rate": 0.0002483299448155678,
      "loss": 0.082,
      "step": 2872
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.6112200021743774,
      "learning_rate": 0.0002483081614870752,
      "loss": 0.1416,
      "step": 2873
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4615021049976349,
      "learning_rate": 0.0002482863781585826,
      "loss": 0.1797,
      "step": 2874
    },
    {
      "epoch": 0.81,
      "grad_norm": 3.2225961685180664,
      "learning_rate": 0.00024826459483009,
      "loss": 0.1663,
      "step": 2875
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.23274332284927368,
      "learning_rate": 0.0002482428115015974,
      "loss": 0.0855,
      "step": 2876
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.2585189640522003,
      "learning_rate": 0.0002482210281731048,
      "loss": 0.1009,
      "step": 2877
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.309279203414917,
      "learning_rate": 0.00024819924484461225,
      "loss": 0.0714,
      "step": 2878
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.33786147832870483,
      "learning_rate": 0.0002481774615161197,
      "loss": 0.0927,
      "step": 2879
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.20716656744480133,
      "learning_rate": 0.00024815567818762705,
      "loss": 0.0879,
      "step": 2880
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.35389062762260437,
      "learning_rate": 0.00024813389485913443,
      "loss": 0.1127,
      "step": 2881
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3407703936100006,
      "learning_rate": 0.00024811211153064186,
      "loss": 0.0843,
      "step": 2882
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.37883707880973816,
      "learning_rate": 0.00024809032820214923,
      "loss": 0.0816,
      "step": 2883
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.21749061346054077,
      "learning_rate": 0.00024806854487365666,
      "loss": 0.0823,
      "step": 2884
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3291250765323639,
      "learning_rate": 0.0002480467615451641,
      "loss": 0.0742,
      "step": 2885
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.46017467975616455,
      "learning_rate": 0.0002480249782166715,
      "loss": 0.1007,
      "step": 2886
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.5159705877304077,
      "learning_rate": 0.0002480031948881789,
      "loss": 0.1569,
      "step": 2887
    },
    {
      "epoch": 0.81,
      "grad_norm": 1.1585270166397095,
      "learning_rate": 0.00024798141155968627,
      "loss": 0.1105,
      "step": 2888
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.389331191778183,
      "learning_rate": 0.0002479596282311937,
      "loss": 0.0764,
      "step": 2889
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.23484529554843903,
      "learning_rate": 0.0002479378449027011,
      "loss": 0.0672,
      "step": 2890
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.26701343059539795,
      "learning_rate": 0.0002479160615742085,
      "loss": 0.0884,
      "step": 2891
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.2367423176765442,
      "learning_rate": 0.00024789427824571593,
      "loss": 0.0957,
      "step": 2892
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3740367889404297,
      "learning_rate": 0.00024787249491722336,
      "loss": 0.1301,
      "step": 2893
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3182888627052307,
      "learning_rate": 0.00024785071158873074,
      "loss": 0.0879,
      "step": 2894
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.24984590709209442,
      "learning_rate": 0.00024782892826023817,
      "loss": 0.0823,
      "step": 2895
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38130152225494385,
      "learning_rate": 0.00024780714493174554,
      "loss": 0.1305,
      "step": 2896
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.4597501754760742,
      "learning_rate": 0.0002477853616032529,
      "loss": 0.2241,
      "step": 2897
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.32142579555511475,
      "learning_rate": 0.00024776357827476034,
      "loss": 0.057,
      "step": 2898
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.38471177220344543,
      "learning_rate": 0.0002477417949462678,
      "loss": 0.1053,
      "step": 2899
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.9648592472076416,
      "learning_rate": 0.0002477200116177752,
      "loss": 0.1805,
      "step": 2900
    },
    {
      "epoch": 0.81,
      "eval_loss": 0.09134259819984436,
      "eval_runtime": 171.3893,
      "eval_samples_per_second": 15.415,
      "eval_steps_per_second": 0.484,
      "eval_wer": 0.08897262990876637,
      "step": 2900
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.24553483724594116,
      "learning_rate": 0.0002476982282892826,
      "loss": 0.0576,
      "step": 2901
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.22279012203216553,
      "learning_rate": 0.00024767644496079,
      "loss": 0.0588,
      "step": 2902
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.22360052168369293,
      "learning_rate": 0.0002476546616322974,
      "loss": 0.0837,
      "step": 2903
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.3139723241329193,
      "learning_rate": 0.0002476328783038048,
      "loss": 0.0911,
      "step": 2904
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.26372361183166504,
      "learning_rate": 0.0002476110949753122,
      "loss": 0.0762,
      "step": 2905
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.18511320650577545,
      "learning_rate": 0.0002475893116468196,
      "loss": 0.0375,
      "step": 2906
    },
    {
      "epoch": 0.81,
      "grad_norm": 0.26931843161582947,
      "learning_rate": 0.00024756752831832704,
      "loss": 0.0994,
      "step": 2907
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.36007198691368103,
      "learning_rate": 0.0002475457449898344,
      "loss": 0.1017,
      "step": 2908
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.43576326966285706,
      "learning_rate": 0.00024752396166134185,
      "loss": 0.1298,
      "step": 2909
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3432289958000183,
      "learning_rate": 0.0002475021783328492,
      "loss": 0.0829,
      "step": 2910
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.33320286870002747,
      "learning_rate": 0.00024748039500435665,
      "loss": 0.0763,
      "step": 2911
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.7957960367202759,
      "learning_rate": 0.00024745861167586403,
      "loss": 0.1287,
      "step": 2912
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.172291874885559,
      "learning_rate": 0.00024743682834737146,
      "loss": 0.2124,
      "step": 2913
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.44993484020233154,
      "learning_rate": 0.0002474150450188789,
      "loss": 0.1288,
      "step": 2914
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.36335429549217224,
      "learning_rate": 0.00024739326169038626,
      "loss": 0.0829,
      "step": 2915
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3088828921318054,
      "learning_rate": 0.0002473714783618937,
      "loss": 0.0884,
      "step": 2916
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.2732474207878113,
      "learning_rate": 0.00024734969503340106,
      "loss": 0.0726,
      "step": 2917
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3688364624977112,
      "learning_rate": 0.0002473279117049085,
      "loss": 0.104,
      "step": 2918
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.22899261116981506,
      "learning_rate": 0.00024730612837641587,
      "loss": 0.0616,
      "step": 2919
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3633889853954315,
      "learning_rate": 0.0002472843450479233,
      "loss": 0.1398,
      "step": 2920
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.2157503366470337,
      "learning_rate": 0.0002472625617194307,
      "loss": 0.052,
      "step": 2921
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.17309215664863586,
      "learning_rate": 0.0002472407783909381,
      "loss": 0.0717,
      "step": 2922
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.23694589734077454,
      "learning_rate": 0.00024721899506244553,
      "loss": 0.0659,
      "step": 2923
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.1695808619260788,
      "learning_rate": 0.0002471972117339529,
      "loss": 0.0324,
      "step": 2924
    },
    {
      "epoch": 0.82,
      "grad_norm": 1.533088207244873,
      "learning_rate": 0.00024717542840546033,
      "loss": 0.1492,
      "step": 2925
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.23498421907424927,
      "learning_rate": 0.0002471536450769677,
      "loss": 0.0714,
      "step": 2926
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.22645263373851776,
      "learning_rate": 0.00024713186174847514,
      "loss": 0.1268,
      "step": 2927
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.20858299732208252,
      "learning_rate": 0.00024711007841998257,
      "loss": 0.062,
      "step": 2928
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.22380180656909943,
      "learning_rate": 0.00024708829509149,
      "loss": 0.0496,
      "step": 2929
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.26705849170684814,
      "learning_rate": 0.00024706651176299737,
      "loss": 0.0705,
      "step": 2930
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3209632933139801,
      "learning_rate": 0.00024704472843450475,
      "loss": 0.0705,
      "step": 2931
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3324727714061737,
      "learning_rate": 0.0002470229451060122,
      "loss": 0.0676,
      "step": 2932
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.2811031639575958,
      "learning_rate": 0.00024700116177751955,
      "loss": 0.063,
      "step": 2933
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.17643043398857117,
      "learning_rate": 0.000246979378449027,
      "loss": 0.0631,
      "step": 2934
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.5170764327049255,
      "learning_rate": 0.0002469575951205344,
      "loss": 0.0658,
      "step": 2935
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.3559039235115051,
      "learning_rate": 0.00024693581179204184,
      "loss": 0.0719,
      "step": 2936
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.6269503235816956,
      "learning_rate": 0.0002469140284635492,
      "loss": 0.0815,
      "step": 2937
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.9569749236106873,
      "learning_rate": 0.0002468922451350566,
      "loss": 0.1145,
      "step": 2938
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.33170241117477417,
      "learning_rate": 0.000246870461806564,
      "loss": 0.0565,
      "step": 2939
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.39027655124664307,
      "learning_rate": 0.0002468486784780714,
      "loss": 0.0989,
      "step": 2940
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.2595582902431488,
      "learning_rate": 0.0002468268951495788,
      "loss": 0.0693,
      "step": 2941
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.25635766983032227,
      "learning_rate": 0.00024680511182108625,
      "loss": 0.0798,
      "step": 2942
    },
    {
      "epoch": 0.82,
      "grad_norm": 0.351011723279953,
      "learning_rate": 0.0002467833284925937,
      "loss": 0.0779,
      "step": 2943
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.2265920788049698,
      "learning_rate": 0.00024676154516410105,
      "loss": 0.0585,
      "step": 2944
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.44479772448539734,
      "learning_rate": 0.0002467397618356085,
      "loss": 0.1133,
      "step": 2945
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38620051741600037,
      "learning_rate": 0.00024671797850711586,
      "loss": 0.1223,
      "step": 2946
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.16136004030704498,
      "learning_rate": 0.00024669619517862323,
      "loss": 0.0323,
      "step": 2947
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5346166491508484,
      "learning_rate": 0.00024667441185013066,
      "loss": 0.0989,
      "step": 2948
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.5563431978225708,
      "learning_rate": 0.0002466526285216381,
      "loss": 0.0874,
      "step": 2949
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.532163143157959,
      "learning_rate": 0.0002466308451931455,
      "loss": 0.105,
      "step": 2950
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.21332138776779175,
      "learning_rate": 0.0002466090618646529,
      "loss": 0.0981,
      "step": 2951
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.26748499274253845,
      "learning_rate": 0.0002465872785361603,
      "loss": 0.1193,
      "step": 2952
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3468237519264221,
      "learning_rate": 0.0002465654952076677,
      "loss": 0.0961,
      "step": 2953
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3579680323600769,
      "learning_rate": 0.00024654371187917513,
      "loss": 0.1238,
      "step": 2954
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.2577533423900604,
      "learning_rate": 0.0002465219285506825,
      "loss": 0.1035,
      "step": 2955
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.33846238255500793,
      "learning_rate": 0.00024650014522218993,
      "loss": 0.0774,
      "step": 2956
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.28170257806777954,
      "learning_rate": 0.00024647836189369736,
      "loss": 0.0611,
      "step": 2957
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.38734889030456543,
      "learning_rate": 0.00024645657856520474,
      "loss": 0.0812,
      "step": 2958
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.27802160382270813,
      "learning_rate": 0.00024643479523671217,
      "loss": 0.1138,
      "step": 2959
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3807002604007721,
      "learning_rate": 0.00024641301190821954,
      "loss": 0.124,
      "step": 2960
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3435881733894348,
      "learning_rate": 0.00024639122857972697,
      "loss": 0.1029,
      "step": 2961
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.2885203957557678,
      "learning_rate": 0.00024636944525123435,
      "loss": 0.0472,
      "step": 2962
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.8248391151428223,
      "learning_rate": 0.0002463476619227418,
      "loss": 0.1998,
      "step": 2963
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3072826564311981,
      "learning_rate": 0.0002463258785942492,
      "loss": 0.0986,
      "step": 2964
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.25162312388420105,
      "learning_rate": 0.0002463040952657566,
      "loss": 0.08,
      "step": 2965
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.22839690744876862,
      "learning_rate": 0.000246282311937264,
      "loss": 0.0574,
      "step": 2966
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.19840458035469055,
      "learning_rate": 0.0002462605286087714,
      "loss": 0.0552,
      "step": 2967
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.25514671206474304,
      "learning_rate": 0.0002462387452802788,
      "loss": 0.074,
      "step": 2968
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.2908787131309509,
      "learning_rate": 0.0002462169619517862,
      "loss": 0.0546,
      "step": 2969
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.3609234094619751,
      "learning_rate": 0.0002461951786232936,
      "loss": 0.1181,
      "step": 2970
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.2859219014644623,
      "learning_rate": 0.00024617339529480105,
      "loss": 0.0714,
      "step": 2971
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.19816890358924866,
      "learning_rate": 0.0002461516119663084,
      "loss": 0.0365,
      "step": 2972
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.24278511106967926,
      "learning_rate": 0.00024612982863781585,
      "loss": 0.0577,
      "step": 2973
    },
    {
      "epoch": 0.83,
      "grad_norm": 1.1672484874725342,
      "learning_rate": 0.0002461080453093232,
      "loss": 0.1478,
      "step": 2974
    },
    {
      "epoch": 0.83,
      "grad_norm": 2.3308799266815186,
      "learning_rate": 0.00024608626198083065,
      "loss": 0.2716,
      "step": 2975
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.285480797290802,
      "learning_rate": 0.00024606447865233803,
      "loss": 0.0528,
      "step": 2976
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.18806925415992737,
      "learning_rate": 0.00024604269532384546,
      "loss": 0.0429,
      "step": 2977
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.24149541556835175,
      "learning_rate": 0.0002460209119953529,
      "loss": 0.0746,
      "step": 2978
    },
    {
      "epoch": 0.83,
      "grad_norm": 0.1977730691432953,
      "learning_rate": 0.0002459991286668603,
      "loss": 0.079,
      "step": 2979
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.1907486468553543,
      "learning_rate": 0.0002459773453383677,
      "loss": 0.0433,
      "step": 2980
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.23240500688552856,
      "learning_rate": 0.00024595556200987507,
      "loss": 0.0913,
      "step": 2981
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.23519974946975708,
      "learning_rate": 0.0002459337786813825,
      "loss": 0.0671,
      "step": 2982
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.24483156204223633,
      "learning_rate": 0.00024591199535288987,
      "loss": 0.0977,
      "step": 2983
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.27028536796569824,
      "learning_rate": 0.0002458902120243973,
      "loss": 0.0778,
      "step": 2984
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.2717357575893402,
      "learning_rate": 0.00024586842869590473,
      "loss": 0.0803,
      "step": 2985
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3745068907737732,
      "learning_rate": 0.00024584664536741216,
      "loss": 0.1201,
      "step": 2986
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4935654401779175,
      "learning_rate": 0.00024582486203891953,
      "loss": 0.0839,
      "step": 2987
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.33386310935020447,
      "learning_rate": 0.00024580307871042696,
      "loss": 0.0853,
      "step": 2988
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.22654332220554352,
      "learning_rate": 0.00024578129538193434,
      "loss": 0.1005,
      "step": 2989
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3254367709159851,
      "learning_rate": 0.0002457595120534417,
      "loss": 0.0829,
      "step": 2990
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.1679326295852661,
      "learning_rate": 0.00024573772872494914,
      "loss": 0.0413,
      "step": 2991
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.36225706338882446,
      "learning_rate": 0.00024571594539645657,
      "loss": 0.0979,
      "step": 2992
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.32237717509269714,
      "learning_rate": 0.000245694162067964,
      "loss": 0.0693,
      "step": 2993
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.229643777012825,
      "learning_rate": 0.0002456723787394714,
      "loss": 0.0455,
      "step": 2994
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.23449692130088806,
      "learning_rate": 0.0002456505954109788,
      "loss": 0.1118,
      "step": 2995
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.31680285930633545,
      "learning_rate": 0.0002456288120824862,
      "loss": 0.0659,
      "step": 2996
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.28149929642677307,
      "learning_rate": 0.00024560702875399355,
      "loss": 0.0571,
      "step": 2997
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.19525246322155,
      "learning_rate": 0.000245585245425501,
      "loss": 0.0362,
      "step": 2998
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.5284133553504944,
      "learning_rate": 0.0002455634620970084,
      "loss": 0.1368,
      "step": 2999
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.9488324522972107,
      "learning_rate": 0.00024554167876851584,
      "loss": 0.2328,
      "step": 3000
    },
    {
      "epoch": 0.84,
      "eval_loss": 0.0907135084271431,
      "eval_runtime": 184.1425,
      "eval_samples_per_second": 14.348,
      "eval_steps_per_second": 0.451,
      "eval_wer": 0.08927013090043634,
      "step": 3000
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.4016752243041992,
      "learning_rate": 0.0002455198954400232,
      "loss": 0.1044,
      "step": 3001
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.2908327281475067,
      "learning_rate": 0.00024549811211153064,
      "loss": 0.0981,
      "step": 3002
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.2967609763145447,
      "learning_rate": 0.000245476328783038,
      "loss": 0.078,
      "step": 3003
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.18132227659225464,
      "learning_rate": 0.00024545454545454545,
      "loss": 0.033,
      "step": 3004
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.22026795148849487,
      "learning_rate": 0.0002454327621260528,
      "loss": 0.069,
      "step": 3005
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.24254165589809418,
      "learning_rate": 0.00024541097879756025,
      "loss": 0.0677,
      "step": 3006
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.2618207037448883,
      "learning_rate": 0.0002453891954690677,
      "loss": 0.0569,
      "step": 3007
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.25944337248802185,
      "learning_rate": 0.00024536741214057506,
      "loss": 0.0798,
      "step": 3008
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.27103644609451294,
      "learning_rate": 0.0002453456288120825,
      "loss": 0.0698,
      "step": 3009
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.42906203866004944,
      "learning_rate": 0.00024532384548358986,
      "loss": 0.0888,
      "step": 3010
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.36025550961494446,
      "learning_rate": 0.0002453020621550973,
      "loss": 0.1126,
      "step": 3011
    },
    {
      "epoch": 0.84,
      "grad_norm": 2.834444761276245,
      "learning_rate": 0.00024528027882660466,
      "loss": 0.1777,
      "step": 3012
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.6007323265075684,
      "learning_rate": 0.0002452584954981121,
      "loss": 0.2042,
      "step": 3013
    },
    {
      "epoch": 0.84,
      "grad_norm": 0.3041590452194214,
      "learning_rate": 0.0002452367121696195,
      "loss": 0.1295,
      "step": 3014
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.2358931601047516,
      "learning_rate": 0.0002452149288411269,
      "loss": 0.0761,
      "step": 3015
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.30867740511894226,
      "learning_rate": 0.0002451931455126343,
      "loss": 0.0741,
      "step": 3016
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.41841453313827515,
      "learning_rate": 0.0002451713621841417,
      "loss": 0.0768,
      "step": 3017
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.28141582012176514,
      "learning_rate": 0.00024514957885564913,
      "loss": 0.0594,
      "step": 3018
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.25108498334884644,
      "learning_rate": 0.0002451277955271565,
      "loss": 0.0812,
      "step": 3019
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.30762094259262085,
      "learning_rate": 0.00024510601219866393,
      "loss": 0.1231,
      "step": 3020
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.2701149582862854,
      "learning_rate": 0.00024508422887017136,
      "loss": 0.0844,
      "step": 3021
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.23547780513763428,
      "learning_rate": 0.00024506244554167874,
      "loss": 0.0779,
      "step": 3022
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.21174222230911255,
      "learning_rate": 0.00024504066221318617,
      "loss": 0.0483,
      "step": 3023
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.21910478174686432,
      "learning_rate": 0.00024501887888469354,
      "loss": 0.0351,
      "step": 3024
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.570641040802002,
      "learning_rate": 0.00024499709555620097,
      "loss": 0.0846,
      "step": 3025
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.30518120527267456,
      "learning_rate": 0.00024497531222770835,
      "loss": 0.0809,
      "step": 3026
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3290420174598694,
      "learning_rate": 0.0002449535288992158,
      "loss": 0.0828,
      "step": 3027
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.18972036242485046,
      "learning_rate": 0.0002449317455707232,
      "loss": 0.0546,
      "step": 3028
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.29176583886146545,
      "learning_rate": 0.0002449099622422306,
      "loss": 0.0848,
      "step": 3029
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.32849714159965515,
      "learning_rate": 0.000244888178913738,
      "loss": 0.0861,
      "step": 3030
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.39296406507492065,
      "learning_rate": 0.0002448663955852454,
      "loss": 0.0691,
      "step": 3031
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3610188663005829,
      "learning_rate": 0.0002448446122567528,
      "loss": 0.1056,
      "step": 3032
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.20562207698822021,
      "learning_rate": 0.0002448228289282602,
      "loss": 0.0562,
      "step": 3033
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.24346141517162323,
      "learning_rate": 0.0002448010455997676,
      "loss": 0.0601,
      "step": 3034
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4299362301826477,
      "learning_rate": 0.00024477926227127505,
      "loss": 0.0879,
      "step": 3035
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3028690218925476,
      "learning_rate": 0.0002447574789427824,
      "loss": 0.0717,
      "step": 3036
    },
    {
      "epoch": 0.85,
      "grad_norm": 4.343702793121338,
      "learning_rate": 0.00024473569561428985,
      "loss": 0.1069,
      "step": 3037
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.9520305395126343,
      "learning_rate": 0.0002447139122857973,
      "loss": 0.129,
      "step": 3038
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.20317210257053375,
      "learning_rate": 0.00024469212895730465,
      "loss": 0.0522,
      "step": 3039
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.4200505316257477,
      "learning_rate": 0.00024467034562881203,
      "loss": 0.1012,
      "step": 3040
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3537943363189697,
      "learning_rate": 0.00024464856230031946,
      "loss": 0.0893,
      "step": 3041
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.2676540017127991,
      "learning_rate": 0.0002446267789718269,
      "loss": 0.0807,
      "step": 3042
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.18788927793502808,
      "learning_rate": 0.00024460499564333426,
      "loss": 0.0516,
      "step": 3043
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.33246150612831116,
      "learning_rate": 0.0002445832123148417,
      "loss": 0.066,
      "step": 3044
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.338758260011673,
      "learning_rate": 0.0002445614289863491,
      "loss": 0.1173,
      "step": 3045
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.2059873789548874,
      "learning_rate": 0.0002445396456578565,
      "loss": 0.0714,
      "step": 3046
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.38437771797180176,
      "learning_rate": 0.00024451786232936387,
      "loss": 0.0913,
      "step": 3047
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.3180008828639984,
      "learning_rate": 0.0002444960790008713,
      "loss": 0.0976,
      "step": 3048
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.6736353039741516,
      "learning_rate": 0.00024447429567237873,
      "loss": 0.2081,
      "step": 3049
    },
    {
      "epoch": 0.85,
      "grad_norm": 0.5225393772125244,
      "learning_rate": 0.00024445251234388616,
      "loss": 0.0866,
      "step": 3050
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3024607300758362,
      "learning_rate": 0.00024443072901539353,
      "loss": 0.1189,
      "step": 3051
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.27390363812446594,
      "learning_rate": 0.00024440894568690096,
      "loss": 0.0637,
      "step": 3052
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.25929704308509827,
      "learning_rate": 0.00024438716235840834,
      "loss": 0.0579,
      "step": 3053
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.18207742273807526,
      "learning_rate": 0.00024436537902991577,
      "loss": 0.0714,
      "step": 3054
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3098289370536804,
      "learning_rate": 0.00024434359570142314,
      "loss": 0.0665,
      "step": 3055
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.17556381225585938,
      "learning_rate": 0.00024432181237293057,
      "loss": 0.058,
      "step": 3056
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.32216763496398926,
      "learning_rate": 0.000244300029044438,
      "loss": 0.1389,
      "step": 3057
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.7392657399177551,
      "learning_rate": 0.0002442782457159454,
      "loss": 0.1377,
      "step": 3058
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.2239857167005539,
      "learning_rate": 0.0002442564623874528,
      "loss": 0.07,
      "step": 3059
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.34066373109817505,
      "learning_rate": 0.0002442346790589602,
      "loss": 0.0675,
      "step": 3060
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3064795136451721,
      "learning_rate": 0.0002442128957304676,
      "loss": 0.0761,
      "step": 3061
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5176934599876404,
      "learning_rate": 0.000244191112401975,
      "loss": 0.1013,
      "step": 3062
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3659803569316864,
      "learning_rate": 0.0002441693290734824,
      "loss": 0.1339,
      "step": 3063
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.29749488830566406,
      "learning_rate": 0.00024414754574498984,
      "loss": 0.0722,
      "step": 3064
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.19644299149513245,
      "learning_rate": 0.00024412576241649722,
      "loss": 0.0323,
      "step": 3065
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3604700565338135,
      "learning_rate": 0.00024410397908800462,
      "loss": 0.1142,
      "step": 3066
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.25096288323402405,
      "learning_rate": 0.00024408219575951202,
      "loss": 0.0886,
      "step": 3067
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.2433478832244873,
      "learning_rate": 0.00024406041243101945,
      "loss": 0.0669,
      "step": 3068
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.3874717652797699,
      "learning_rate": 0.00024403862910252685,
      "loss": 0.0521,
      "step": 3069
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.16187132894992828,
      "learning_rate": 0.00024401684577403425,
      "loss": 0.0468,
      "step": 3070
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.1802222579717636,
      "learning_rate": 0.00024399506244554165,
      "loss": 0.0748,
      "step": 3071
    },
    {
      "epoch": 0.86,
      "grad_norm": 1.0604850053787231,
      "learning_rate": 0.00024397327911704906,
      "loss": 0.0521,
      "step": 3072
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5550523996353149,
      "learning_rate": 0.00024395149578855646,
      "loss": 0.0628,
      "step": 3073
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.45845484733581543,
      "learning_rate": 0.00024392971246006386,
      "loss": 0.0769,
      "step": 3074
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8600530624389648,
      "learning_rate": 0.0002439079291315713,
      "loss": 0.0817,
      "step": 3075
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.17234604060649872,
      "learning_rate": 0.0002438861458030787,
      "loss": 0.0552,
      "step": 3076
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.23774553835391998,
      "learning_rate": 0.0002438643624745861,
      "loss": 0.0631,
      "step": 3077
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.32565173506736755,
      "learning_rate": 0.0002438425791460935,
      "loss": 0.0967,
      "step": 3078
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.22778518497943878,
      "learning_rate": 0.00024382079581760093,
      "loss": 0.0677,
      "step": 3079
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.23812247812747955,
      "learning_rate": 0.00024379901248910833,
      "loss": 0.0602,
      "step": 3080
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.33024170994758606,
      "learning_rate": 0.0002437772291606157,
      "loss": 0.088,
      "step": 3081
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.24067902565002441,
      "learning_rate": 0.00024375544583212313,
      "loss": 0.0686,
      "step": 3082
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.5587281584739685,
      "learning_rate": 0.00024373366250363053,
      "loss": 0.1188,
      "step": 3083
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.8371902704238892,
      "learning_rate": 0.00024371187917513794,
      "loss": 0.1457,
      "step": 3084
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.26066479086875916,
      "learning_rate": 0.00024369009584664534,
      "loss": 0.0568,
      "step": 3085
    },
    {
      "epoch": 0.86,
      "grad_norm": 0.228123739361763,
      "learning_rate": 0.00024366831251815277,
      "loss": 0.0722,
      "step": 3086
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.8467252850532532,
      "learning_rate": 0.00024364652918966017,
      "loss": 0.107,
      "step": 3087
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.38309812545776367,
      "learning_rate": 0.00024362474586116757,
      "loss": 0.0862,
      "step": 3088
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2234613448381424,
      "learning_rate": 0.00024360296253267497,
      "loss": 0.0603,
      "step": 3089
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2450857162475586,
      "learning_rate": 0.00024358117920418237,
      "loss": 0.0604,
      "step": 3090
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.21998107433319092,
      "learning_rate": 0.00024355939587568978,
      "loss": 0.0529,
      "step": 3091
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3152230679988861,
      "learning_rate": 0.00024353761254719718,
      "loss": 0.0774,
      "step": 3092
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.36532092094421387,
      "learning_rate": 0.0002435158292187046,
      "loss": 0.0992,
      "step": 3093
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.24010822176933289,
      "learning_rate": 0.000243494045890212,
      "loss": 0.0664,
      "step": 3094
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.268143892288208,
      "learning_rate": 0.0002434722625617194,
      "loss": 0.0697,
      "step": 3095
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2725081741809845,
      "learning_rate": 0.00024345047923322681,
      "loss": 0.0886,
      "step": 3096
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.43577611446380615,
      "learning_rate": 0.00024342869590473422,
      "loss": 0.1563,
      "step": 3097
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.30367663502693176,
      "learning_rate": 0.00024340691257624162,
      "loss": 0.08,
      "step": 3098
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.621274471282959,
      "learning_rate": 0.00024338512924774902,
      "loss": 0.0864,
      "step": 3099
    },
    {
      "epoch": 0.87,
      "grad_norm": 1.4964603185653687,
      "learning_rate": 0.00024336334591925645,
      "loss": 0.2699,
      "step": 3100
    },
    {
      "epoch": 0.87,
      "eval_loss": 0.09182168543338776,
      "eval_runtime": 172.5702,
      "eval_samples_per_second": 15.31,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.08488694962316541,
      "step": 3100
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.1907455325126648,
      "learning_rate": 0.00024334156259076385,
      "loss": 0.0585,
      "step": 3101
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2428908795118332,
      "learning_rate": 0.00024331977926227125,
      "loss": 0.0714,
      "step": 3102
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2673395276069641,
      "learning_rate": 0.00024329799593377866,
      "loss": 0.0974,
      "step": 3103
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3228612244129181,
      "learning_rate": 0.00024327621260528608,
      "loss": 0.0885,
      "step": 3104
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.39304855465888977,
      "learning_rate": 0.00024325442927679346,
      "loss": 0.0667,
      "step": 3105
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2464635968208313,
      "learning_rate": 0.00024323264594830086,
      "loss": 0.0723,
      "step": 3106
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.24407804012298584,
      "learning_rate": 0.0002432108626198083,
      "loss": 0.0705,
      "step": 3107
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2545211613178253,
      "learning_rate": 0.0002431890792913157,
      "loss": 0.0616,
      "step": 3108
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.5474681258201599,
      "learning_rate": 0.0002431672959628231,
      "loss": 0.1611,
      "step": 3109
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.3197394013404846,
      "learning_rate": 0.0002431455126343305,
      "loss": 0.0818,
      "step": 3110
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4543820321559906,
      "learning_rate": 0.00024312372930583793,
      "loss": 0.1161,
      "step": 3111
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.30991438031196594,
      "learning_rate": 0.0002431019459773453,
      "loss": 0.0765,
      "step": 3112
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.25444334745407104,
      "learning_rate": 0.00024308016264885273,
      "loss": 0.0361,
      "step": 3113
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.36940136551856995,
      "learning_rate": 0.00024305837932036013,
      "loss": 0.115,
      "step": 3114
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2859745919704437,
      "learning_rate": 0.00024303659599186753,
      "loss": 0.0951,
      "step": 3115
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2455785870552063,
      "learning_rate": 0.00024301481266337494,
      "loss": 0.0443,
      "step": 3116
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4203016757965088,
      "learning_rate": 0.00024299302933488234,
      "loss": 0.1002,
      "step": 3117
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.21104270219802856,
      "learning_rate": 0.00024297124600638977,
      "loss": 0.0562,
      "step": 3118
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4607756733894348,
      "learning_rate": 0.00024294946267789714,
      "loss": 0.0892,
      "step": 3119
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.2330908328294754,
      "learning_rate": 0.00024292767934940457,
      "loss": 0.0538,
      "step": 3120
    },
    {
      "epoch": 0.87,
      "grad_norm": 0.4957467019557953,
      "learning_rate": 0.00024290589602091197,
      "loss": 0.0952,
      "step": 3121
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3176593780517578,
      "learning_rate": 0.0002428841126924194,
      "loss": 0.0828,
      "step": 3122
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3690550923347473,
      "learning_rate": 0.00024286232936392678,
      "loss": 0.0657,
      "step": 3123
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.2754276394844055,
      "learning_rate": 0.00024284054603543418,
      "loss": 0.0612,
      "step": 3124
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5189310908317566,
      "learning_rate": 0.0002428187627069416,
      "loss": 0.0691,
      "step": 3125
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3239910304546356,
      "learning_rate": 0.00024279697937844898,
      "loss": 0.1288,
      "step": 3126
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.7404131293296814,
      "learning_rate": 0.0002427751960499564,
      "loss": 0.0768,
      "step": 3127
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.2751066982746124,
      "learning_rate": 0.00024275341272146381,
      "loss": 0.0821,
      "step": 3128
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3543357253074646,
      "learning_rate": 0.00024273162939297124,
      "loss": 0.1609,
      "step": 3129
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.5398803949356079,
      "learning_rate": 0.00024270984606447862,
      "loss": 0.0827,
      "step": 3130
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.2345835268497467,
      "learning_rate": 0.00024268806273598602,
      "loss": 0.0648,
      "step": 3131
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.19031603634357452,
      "learning_rate": 0.00024266627940749345,
      "loss": 0.0705,
      "step": 3132
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3259134292602539,
      "learning_rate": 0.00024264449607900085,
      "loss": 0.0732,
      "step": 3133
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.2263326793909073,
      "learning_rate": 0.00024262271275050825,
      "loss": 0.0546,
      "step": 3134
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.32595542073249817,
      "learning_rate": 0.00024260092942201566,
      "loss": 0.1133,
      "step": 3135
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.3436441123485565,
      "learning_rate": 0.00024257914609352309,
      "loss": 0.058,
      "step": 3136
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.612787663936615,
      "learning_rate": 0.00024255736276503046,
      "loss": 0.0833,
      "step": 3137
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.6087736487388611,
      "learning_rate": 0.0002425355794365379,
      "loss": 0.1054,
      "step": 3138
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.1871907263994217,
      "learning_rate": 0.0002425137961080453,
      "loss": 0.0574,
      "step": 3139
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.275584876537323,
      "learning_rate": 0.0002424920127795527,
      "loss": 0.1191,
      "step": 3140
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.21114188432693481,
      "learning_rate": 0.0002424702294510601,
      "loss": 0.057,
      "step": 3141
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.32465532422065735,
      "learning_rate": 0.0002424484461225675,
      "loss": 0.1134,
      "step": 3142
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.26967450976371765,
      "learning_rate": 0.00024242666279407493,
      "loss": 0.0344,
      "step": 3143
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.320400595664978,
      "learning_rate": 0.0002424048794655823,
      "loss": 0.0792,
      "step": 3144
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.2783297896385193,
      "learning_rate": 0.00024238309613708973,
      "loss": 0.0838,
      "step": 3145
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4472273588180542,
      "learning_rate": 0.00024236131280859713,
      "loss": 0.0866,
      "step": 3146
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.32819223403930664,
      "learning_rate": 0.00024233952948010456,
      "loss": 0.0906,
      "step": 3147
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.43475258350372314,
      "learning_rate": 0.00024231774615161194,
      "loss": 0.0699,
      "step": 3148
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.2858607769012451,
      "learning_rate": 0.00024229596282311934,
      "loss": 0.0812,
      "step": 3149
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.876596987247467,
      "learning_rate": 0.00024227417949462677,
      "loss": 0.1979,
      "step": 3150
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.37270328402519226,
      "learning_rate": 0.00024225239616613414,
      "loss": 0.0963,
      "step": 3151
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4104406237602234,
      "learning_rate": 0.00024223061283764157,
      "loss": 0.1027,
      "step": 3152
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.27219563722610474,
      "learning_rate": 0.00024220882950914897,
      "loss": 0.1068,
      "step": 3153
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.18017739057540894,
      "learning_rate": 0.0002421870461806564,
      "loss": 0.0603,
      "step": 3154
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.14425581693649292,
      "learning_rate": 0.00024216526285216378,
      "loss": 0.0365,
      "step": 3155
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.21812184154987335,
      "learning_rate": 0.00024214347952367118,
      "loss": 0.073,
      "step": 3156
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.268167108297348,
      "learning_rate": 0.0002421216961951786,
      "loss": 0.0743,
      "step": 3157
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.16928306221961975,
      "learning_rate": 0.00024209991286668598,
      "loss": 0.0647,
      "step": 3158
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4312341809272766,
      "learning_rate": 0.0002420781295381934,
      "loss": 0.1002,
      "step": 3159
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.23592914640903473,
      "learning_rate": 0.00024205634620970082,
      "loss": 0.0776,
      "step": 3160
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38102760910987854,
      "learning_rate": 0.00024203456288120824,
      "loss": 0.1261,
      "step": 3161
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.36567604541778564,
      "learning_rate": 0.00024201277955271562,
      "loss": 0.0837,
      "step": 3162
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.1573023796081543,
      "learning_rate": 0.00024199099622422305,
      "loss": 0.1807,
      "step": 3163
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.17931263148784637,
      "learning_rate": 0.00024196921289573045,
      "loss": 0.0455,
      "step": 3164
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3999367952346802,
      "learning_rate": 0.00024194742956723783,
      "loss": 0.0944,
      "step": 3165
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.24891288578510284,
      "learning_rate": 0.00024192564623874525,
      "loss": 0.091,
      "step": 3166
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.26505374908447266,
      "learning_rate": 0.00024190386291025266,
      "loss": 0.0913,
      "step": 3167
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.277450829744339,
      "learning_rate": 0.00024188207958176009,
      "loss": 0.0851,
      "step": 3168
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5115546584129333,
      "learning_rate": 0.00024186029625326746,
      "loss": 0.1181,
      "step": 3169
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.23554976284503937,
      "learning_rate": 0.0002418385129247749,
      "loss": 0.0756,
      "step": 3170
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.21585571765899658,
      "learning_rate": 0.0002418167295962823,
      "loss": 0.0798,
      "step": 3171
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4016611874103546,
      "learning_rate": 0.00024179494626778972,
      "loss": 0.143,
      "step": 3172
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4386632740497589,
      "learning_rate": 0.0002417731629392971,
      "loss": 0.1111,
      "step": 3173
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.39327454566955566,
      "learning_rate": 0.0002417513796108045,
      "loss": 0.0775,
      "step": 3174
    },
    {
      "epoch": 0.89,
      "grad_norm": 1.0128886699676514,
      "learning_rate": 0.00024172959628231193,
      "loss": 0.3079,
      "step": 3175
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.2424372434616089,
      "learning_rate": 0.0002417078129538193,
      "loss": 0.0739,
      "step": 3176
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.31710365414619446,
      "learning_rate": 0.00024168602962532673,
      "loss": 0.0917,
      "step": 3177
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.20149438083171844,
      "learning_rate": 0.00024166424629683413,
      "loss": 0.0641,
      "step": 3178
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3158554434776306,
      "learning_rate": 0.00024164246296834156,
      "loss": 0.0896,
      "step": 3179
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3489798605442047,
      "learning_rate": 0.00024162067963984894,
      "loss": 0.072,
      "step": 3180
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.24730972945690155,
      "learning_rate": 0.00024159889631135634,
      "loss": 0.0544,
      "step": 3181
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4532146155834198,
      "learning_rate": 0.00024157711298286377,
      "loss": 0.0869,
      "step": 3182
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3225299119949341,
      "learning_rate": 0.00024155532965437114,
      "loss": 0.0546,
      "step": 3183
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.40493613481521606,
      "learning_rate": 0.00024153354632587857,
      "loss": 0.081,
      "step": 3184
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4743080139160156,
      "learning_rate": 0.00024151176299738597,
      "loss": 0.1347,
      "step": 3185
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.4153987467288971,
      "learning_rate": 0.0002414899796688934,
      "loss": 0.0883,
      "step": 3186
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.5675734877586365,
      "learning_rate": 0.00024146819634040078,
      "loss": 0.1197,
      "step": 3187
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3943425416946411,
      "learning_rate": 0.0002414464130119082,
      "loss": 0.1005,
      "step": 3188
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.26326876878738403,
      "learning_rate": 0.0002414246296834156,
      "loss": 0.0614,
      "step": 3189
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.38684606552124023,
      "learning_rate": 0.00024140284635492298,
      "loss": 0.0703,
      "step": 3190
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.3484452962875366,
      "learning_rate": 0.00024138106302643041,
      "loss": 0.1103,
      "step": 3191
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.32942822575569153,
      "learning_rate": 0.00024135927969793782,
      "loss": 0.0671,
      "step": 3192
    },
    {
      "epoch": 0.89,
      "grad_norm": 0.2217571884393692,
      "learning_rate": 0.00024133749636944524,
      "loss": 0.0582,
      "step": 3193
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.2735014259815216,
      "learning_rate": 0.00024131571304095262,
      "loss": 0.0818,
      "step": 3194
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3366861045360565,
      "learning_rate": 0.00024129392971246005,
      "loss": 0.1183,
      "step": 3195
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.6768752932548523,
      "learning_rate": 0.00024127214638396745,
      "loss": 0.1027,
      "step": 3196
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.27247336506843567,
      "learning_rate": 0.00024125036305547488,
      "loss": 0.047,
      "step": 3197
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.24018223583698273,
      "learning_rate": 0.00024122857972698226,
      "loss": 0.0556,
      "step": 3198
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.32250940799713135,
      "learning_rate": 0.00024120679639848966,
      "loss": 0.0554,
      "step": 3199
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7176167964935303,
      "learning_rate": 0.00024118501306999709,
      "loss": 0.1653,
      "step": 3200
    },
    {
      "epoch": 0.9,
      "eval_loss": 0.090228371322155,
      "eval_runtime": 171.4506,
      "eval_samples_per_second": 15.41,
      "eval_steps_per_second": 0.484,
      "eval_wer": 0.08268544228480762,
      "step": 3200
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.2695041596889496,
      "learning_rate": 0.00024116322974150446,
      "loss": 0.0497,
      "step": 3201
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.21461142599582672,
      "learning_rate": 0.0002411414464130119,
      "loss": 0.0413,
      "step": 3202
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.2482551485300064,
      "learning_rate": 0.0002411196630845193,
      "loss": 0.0463,
      "step": 3203
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.32335492968559265,
      "learning_rate": 0.00024109787975602672,
      "loss": 0.1095,
      "step": 3204
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.25944003462791443,
      "learning_rate": 0.0002410760964275341,
      "loss": 0.0886,
      "step": 3205
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.23751460015773773,
      "learning_rate": 0.0002410543130990415,
      "loss": 0.0689,
      "step": 3206
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.32004937529563904,
      "learning_rate": 0.00024103252977054893,
      "loss": 0.0668,
      "step": 3207
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.5024970173835754,
      "learning_rate": 0.0002410107464420563,
      "loss": 0.1063,
      "step": 3208
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.20855213701725006,
      "learning_rate": 0.00024098896311356373,
      "loss": 0.0508,
      "step": 3209
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3149684965610504,
      "learning_rate": 0.00024096717978507113,
      "loss": 0.1087,
      "step": 3210
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3602070212364197,
      "learning_rate": 0.00024094539645657856,
      "loss": 0.0525,
      "step": 3211
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.28422319889068604,
      "learning_rate": 0.00024092361312808594,
      "loss": 0.0445,
      "step": 3212
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.34979620575904846,
      "learning_rate": 0.00024090182979959337,
      "loss": 0.0502,
      "step": 3213
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.2490660548210144,
      "learning_rate": 0.00024088004647110077,
      "loss": 0.0781,
      "step": 3214
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.22848668694496155,
      "learning_rate": 0.00024085826314260814,
      "loss": 0.0719,
      "step": 3215
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.29892563819885254,
      "learning_rate": 0.00024083647981411557,
      "loss": 0.0495,
      "step": 3216
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.23010505735874176,
      "learning_rate": 0.00024081469648562297,
      "loss": 0.0753,
      "step": 3217
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3678268790245056,
      "learning_rate": 0.0002407929131571304,
      "loss": 0.0844,
      "step": 3218
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.19377897679805756,
      "learning_rate": 0.00024077112982863778,
      "loss": 0.0593,
      "step": 3219
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3772048056125641,
      "learning_rate": 0.0002407493465001452,
      "loss": 0.066,
      "step": 3220
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.29651501774787903,
      "learning_rate": 0.0002407275631716526,
      "loss": 0.0718,
      "step": 3221
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.2632525861263275,
      "learning_rate": 0.00024070577984316004,
      "loss": 0.0649,
      "step": 3222
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.26377397775650024,
      "learning_rate": 0.00024068399651466741,
      "loss": 0.0646,
      "step": 3223
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.3658510148525238,
      "learning_rate": 0.00024066221318617482,
      "loss": 0.0941,
      "step": 3224
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.7121214270591736,
      "learning_rate": 0.00024064042985768225,
      "loss": 0.1125,
      "step": 3225
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.1914767026901245,
      "learning_rate": 0.00024061864652918962,
      "loss": 0.0482,
      "step": 3226
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.22126810252666473,
      "learning_rate": 0.00024059686320069705,
      "loss": 0.0471,
      "step": 3227
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.2969972491264343,
      "learning_rate": 0.00024057507987220445,
      "loss": 0.1012,
      "step": 3228
    },
    {
      "epoch": 0.9,
      "grad_norm": 0.1929575651884079,
      "learning_rate": 0.00024055329654371188,
      "loss": 0.0669,
      "step": 3229
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.21332018077373505,
      "learning_rate": 0.00024053151321521926,
      "loss": 0.0659,
      "step": 3230
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3409801721572876,
      "learning_rate": 0.00024050972988672666,
      "loss": 0.1109,
      "step": 3231
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.2684052884578705,
      "learning_rate": 0.0002404879465582341,
      "loss": 0.0602,
      "step": 3232
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.29640910029411316,
      "learning_rate": 0.00024046616322974146,
      "loss": 0.072,
      "step": 3233
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.23867551982402802,
      "learning_rate": 0.0002404443799012489,
      "loss": 0.0633,
      "step": 3234
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.23396015167236328,
      "learning_rate": 0.0002404225965727563,
      "loss": 0.0597,
      "step": 3235
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4555891454219818,
      "learning_rate": 0.00024040081324426372,
      "loss": 0.1283,
      "step": 3236
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3386034071445465,
      "learning_rate": 0.0002403790299157711,
      "loss": 0.0962,
      "step": 3237
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.7419818043708801,
      "learning_rate": 0.00024035724658727853,
      "loss": 0.0865,
      "step": 3238
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.16829970479011536,
      "learning_rate": 0.00024033546325878593,
      "loss": 0.0459,
      "step": 3239
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.2759697735309601,
      "learning_rate": 0.0002403136799302933,
      "loss": 0.0609,
      "step": 3240
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3580995500087738,
      "learning_rate": 0.00024029189660180073,
      "loss": 0.0877,
      "step": 3241
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.2669924199581146,
      "learning_rate": 0.00024027011327330813,
      "loss": 0.0708,
      "step": 3242
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.248999685049057,
      "learning_rate": 0.00024024832994481556,
      "loss": 0.0487,
      "step": 3243
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3375779092311859,
      "learning_rate": 0.00024022654661632294,
      "loss": 0.0625,
      "step": 3244
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.19741158187389374,
      "learning_rate": 0.00024020476328783037,
      "loss": 0.058,
      "step": 3245
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.4705110490322113,
      "learning_rate": 0.00024018297995933777,
      "loss": 0.1155,
      "step": 3246
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.20858846604824066,
      "learning_rate": 0.0002401611966308452,
      "loss": 0.0486,
      "step": 3247
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5520001649856567,
      "learning_rate": 0.00024013941330235257,
      "loss": 0.098,
      "step": 3248
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.6654443740844727,
      "learning_rate": 0.00024011762997385998,
      "loss": 0.1092,
      "step": 3249
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.2162235975265503,
      "learning_rate": 0.0002400958466453674,
      "loss": 0.2932,
      "step": 3250
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.2472083419561386,
      "learning_rate": 0.00024007406331687478,
      "loss": 0.0661,
      "step": 3251
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.27494001388549805,
      "learning_rate": 0.0002400522799883822,
      "loss": 0.1036,
      "step": 3252
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.25376200675964355,
      "learning_rate": 0.0002400304966598896,
      "loss": 0.0736,
      "step": 3253
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.2365506887435913,
      "learning_rate": 0.00024000871333139704,
      "loss": 0.1018,
      "step": 3254
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3566495180130005,
      "learning_rate": 0.00023998693000290441,
      "loss": 0.0932,
      "step": 3255
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.23173584043979645,
      "learning_rate": 0.00023996514667441184,
      "loss": 0.0752,
      "step": 3256
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.3903735876083374,
      "learning_rate": 0.00023994336334591925,
      "loss": 0.1198,
      "step": 3257
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.48868265748023987,
      "learning_rate": 0.00023992158001742662,
      "loss": 0.1106,
      "step": 3258
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.23624686896800995,
      "learning_rate": 0.00023989979668893405,
      "loss": 0.053,
      "step": 3259
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.24160011112689972,
      "learning_rate": 0.00023987801336044145,
      "loss": 0.0804,
      "step": 3260
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.5969890356063843,
      "learning_rate": 0.00023985623003194888,
      "loss": 0.0826,
      "step": 3261
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.932226836681366,
      "learning_rate": 0.00023983444670345626,
      "loss": 0.2341,
      "step": 3262
    },
    {
      "epoch": 0.91,
      "grad_norm": 1.0022286176681519,
      "learning_rate": 0.00023981266337496369,
      "loss": 0.2399,
      "step": 3263
    },
    {
      "epoch": 0.91,
      "grad_norm": 0.2755793631076813,
      "learning_rate": 0.0002397908800464711,
      "loss": 0.0876,
      "step": 3264
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3159499168395996,
      "learning_rate": 0.00023976909671797846,
      "loss": 0.0629,
      "step": 3265
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.21505354344844818,
      "learning_rate": 0.0002397473133894859,
      "loss": 0.046,
      "step": 3266
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.30418145656585693,
      "learning_rate": 0.0002397255300609933,
      "loss": 0.081,
      "step": 3267
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3570806384086609,
      "learning_rate": 0.00023970374673250072,
      "loss": 0.0881,
      "step": 3268
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3053140342235565,
      "learning_rate": 0.0002396819634040081,
      "loss": 0.0695,
      "step": 3269
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.18193887174129486,
      "learning_rate": 0.00023966018007551553,
      "loss": 0.0568,
      "step": 3270
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.23240114748477936,
      "learning_rate": 0.00023963839674702293,
      "loss": 0.0574,
      "step": 3271
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.42859840393066406,
      "learning_rate": 0.00023961661341853036,
      "loss": 0.1059,
      "step": 3272
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4483429491519928,
      "learning_rate": 0.00023959483009003773,
      "loss": 0.0527,
      "step": 3273
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.5221218466758728,
      "learning_rate": 0.00023957304676154513,
      "loss": 0.0669,
      "step": 3274
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.758037805557251,
      "learning_rate": 0.00023955126343305256,
      "loss": 0.1794,
      "step": 3275
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.47149786353111267,
      "learning_rate": 0.00023952948010455994,
      "loss": 0.093,
      "step": 3276
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.2665505111217499,
      "learning_rate": 0.00023950769677606737,
      "loss": 0.0738,
      "step": 3277
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3096277713775635,
      "learning_rate": 0.00023948591344757477,
      "loss": 0.0984,
      "step": 3278
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.24896858632564545,
      "learning_rate": 0.0002394641301190822,
      "loss": 0.0534,
      "step": 3279
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.42841145396232605,
      "learning_rate": 0.00023944234679058957,
      "loss": 0.0836,
      "step": 3280
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.35066476464271545,
      "learning_rate": 0.000239420563462097,
      "loss": 0.0417,
      "step": 3281
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.46878182888031006,
      "learning_rate": 0.0002393987801336044,
      "loss": 0.0959,
      "step": 3282
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.23542550206184387,
      "learning_rate": 0.00023937699680511178,
      "loss": 0.0548,
      "step": 3283
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4884643852710724,
      "learning_rate": 0.0002393552134766192,
      "loss": 0.1574,
      "step": 3284
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.40016409754753113,
      "learning_rate": 0.0002393334301481266,
      "loss": 0.0667,
      "step": 3285
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.30577972531318665,
      "learning_rate": 0.00023931164681963404,
      "loss": 0.0802,
      "step": 3286
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.8319886922836304,
      "learning_rate": 0.00023928986349114142,
      "loss": 0.1489,
      "step": 3287
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.6776240468025208,
      "learning_rate": 0.00023926808016264884,
      "loss": 0.1069,
      "step": 3288
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.42434993386268616,
      "learning_rate": 0.00023924629683415625,
      "loss": 0.1409,
      "step": 3289
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.317461222410202,
      "learning_rate": 0.00023922451350566362,
      "loss": 0.069,
      "step": 3290
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.28646039962768555,
      "learning_rate": 0.00023920273017717105,
      "loss": 0.0706,
      "step": 3291
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.277704656124115,
      "learning_rate": 0.00023918094684867845,
      "loss": 0.0437,
      "step": 3292
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.3950154483318329,
      "learning_rate": 0.00023915916352018588,
      "loss": 0.0634,
      "step": 3293
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.2389751523733139,
      "learning_rate": 0.00023913738019169326,
      "loss": 0.0499,
      "step": 3294
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.33294689655303955,
      "learning_rate": 0.00023911559686320069,
      "loss": 0.0893,
      "step": 3295
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.4073752164840698,
      "learning_rate": 0.0002390938135347081,
      "loss": 0.1157,
      "step": 3296
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.2027568817138672,
      "learning_rate": 0.00023907203020621552,
      "loss": 0.0381,
      "step": 3297
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.33477914333343506,
      "learning_rate": 0.0002390502468777229,
      "loss": 0.0624,
      "step": 3298
    },
    {
      "epoch": 0.92,
      "grad_norm": 0.38593539595603943,
      "learning_rate": 0.0002390284635492303,
      "loss": 0.1426,
      "step": 3299
    },
    {
      "epoch": 0.92,
      "grad_norm": 1.329689621925354,
      "learning_rate": 0.00023900668022073772,
      "loss": 0.2637,
      "step": 3300
    },
    {
      "epoch": 0.92,
      "eval_loss": 0.08725513517856598,
      "eval_runtime": 173.6287,
      "eval_samples_per_second": 15.216,
      "eval_steps_per_second": 0.478,
      "eval_wer": 0.08357794525981753,
      "step": 3300
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3351638913154602,
      "learning_rate": 0.0002389848968922451,
      "loss": 0.073,
      "step": 3301
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.38909807801246643,
      "learning_rate": 0.00023896311356375253,
      "loss": 0.1055,
      "step": 3302
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.28548407554626465,
      "learning_rate": 0.00023894133023525993,
      "loss": 0.0747,
      "step": 3303
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.21004287898540497,
      "learning_rate": 0.00023891954690676736,
      "loss": 0.0718,
      "step": 3304
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.25901907682418823,
      "learning_rate": 0.00023889776357827473,
      "loss": 0.0477,
      "step": 3305
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.29875150322914124,
      "learning_rate": 0.00023887598024978216,
      "loss": 0.0697,
      "step": 3306
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.26284560561180115,
      "learning_rate": 0.00023885419692128956,
      "loss": 0.0538,
      "step": 3307
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.6037241816520691,
      "learning_rate": 0.00023883241359279694,
      "loss": 0.1415,
      "step": 3308
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.42584314942359924,
      "learning_rate": 0.00023881063026430437,
      "loss": 0.1412,
      "step": 3309
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3649824857711792,
      "learning_rate": 0.00023878884693581177,
      "loss": 0.0839,
      "step": 3310
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4720053970813751,
      "learning_rate": 0.0002387670636073192,
      "loss": 0.0798,
      "step": 3311
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.47565120458602905,
      "learning_rate": 0.00023874528027882657,
      "loss": 0.1825,
      "step": 3312
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3929150402545929,
      "learning_rate": 0.000238723496950334,
      "loss": 0.0526,
      "step": 3313
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.22751463949680328,
      "learning_rate": 0.0002387017136218414,
      "loss": 0.0614,
      "step": 3314
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.31331396102905273,
      "learning_rate": 0.00023867993029334878,
      "loss": 0.0805,
      "step": 3315
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3087550699710846,
      "learning_rate": 0.0002386581469648562,
      "loss": 0.0767,
      "step": 3316
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.22458845376968384,
      "learning_rate": 0.0002386363636363636,
      "loss": 0.072,
      "step": 3317
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.28146809339523315,
      "learning_rate": 0.00023861458030787104,
      "loss": 0.103,
      "step": 3318
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.24288779497146606,
      "learning_rate": 0.00023859279697937842,
      "loss": 0.0731,
      "step": 3319
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.2840307950973511,
      "learning_rate": 0.00023857101365088584,
      "loss": 0.0898,
      "step": 3320
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4683811664581299,
      "learning_rate": 0.00023854923032239325,
      "loss": 0.1032,
      "step": 3321
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.16627129912376404,
      "learning_rate": 0.00023852744699390065,
      "loss": 0.0494,
      "step": 3322
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.35665276646614075,
      "learning_rate": 0.00023850566366540805,
      "loss": 0.1432,
      "step": 3323
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.45606595277786255,
      "learning_rate": 0.00023848388033691545,
      "loss": 0.1296,
      "step": 3324
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.7974785566329956,
      "learning_rate": 0.00023846209700842288,
      "loss": 0.1029,
      "step": 3325
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.22794602811336517,
      "learning_rate": 0.00023844031367993026,
      "loss": 0.079,
      "step": 3326
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3408985733985901,
      "learning_rate": 0.00023841853035143769,
      "loss": 0.0913,
      "step": 3327
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.4393033981323242,
      "learning_rate": 0.0002383967470229451,
      "loss": 0.0898,
      "step": 3328
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.17520283162593842,
      "learning_rate": 0.0002383749636944525,
      "loss": 0.0463,
      "step": 3329
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.2977732717990875,
      "learning_rate": 0.0002383531803659599,
      "loss": 0.067,
      "step": 3330
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.2651982307434082,
      "learning_rate": 0.00023833139703746732,
      "loss": 0.1045,
      "step": 3331
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3020046055316925,
      "learning_rate": 0.00023830961370897472,
      "loss": 0.1445,
      "step": 3332
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5485048294067383,
      "learning_rate": 0.0002382878303804821,
      "loss": 0.0737,
      "step": 3333
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.5653681755065918,
      "learning_rate": 0.00023826604705198953,
      "loss": 0.0768,
      "step": 3334
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.20427995920181274,
      "learning_rate": 0.00023824426372349693,
      "loss": 0.0473,
      "step": 3335
    },
    {
      "epoch": 0.93,
      "grad_norm": 0.3095940351486206,
      "learning_rate": 0.00023822248039500433,
      "loss": 0.0699,
      "step": 3336
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6580732464790344,
      "learning_rate": 0.00023820069706651173,
      "loss": 0.0996,
      "step": 3337
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3252190053462982,
      "learning_rate": 0.00023817891373801916,
      "loss": 0.0437,
      "step": 3338
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.1740264594554901,
      "learning_rate": 0.00023815713040952656,
      "loss": 0.0553,
      "step": 3339
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.28156372904777527,
      "learning_rate": 0.00023813534708103394,
      "loss": 0.0734,
      "step": 3340
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.24116791784763336,
      "learning_rate": 0.00023811356375254137,
      "loss": 0.0855,
      "step": 3341
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2562463879585266,
      "learning_rate": 0.00023809178042404877,
      "loss": 0.0586,
      "step": 3342
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.27027684450149536,
      "learning_rate": 0.00023806999709555617,
      "loss": 0.0628,
      "step": 3343
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2779633700847626,
      "learning_rate": 0.00023804821376706358,
      "loss": 0.0827,
      "step": 3344
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2357492595911026,
      "learning_rate": 0.000238026430438571,
      "loss": 0.0541,
      "step": 3345
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3094142973423004,
      "learning_rate": 0.0002380046471100784,
      "loss": 0.0671,
      "step": 3346
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.35009101033210754,
      "learning_rate": 0.0002379828637815858,
      "loss": 0.0707,
      "step": 3347
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4628715217113495,
      "learning_rate": 0.0002379610804530932,
      "loss": 0.0892,
      "step": 3348
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.6442481875419617,
      "learning_rate": 0.0002379392971246006,
      "loss": 0.1588,
      "step": 3349
    },
    {
      "epoch": 0.94,
      "grad_norm": 2.5711939334869385,
      "learning_rate": 0.00023791751379610804,
      "loss": 0.0521,
      "step": 3350
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.27333882451057434,
      "learning_rate": 0.00023789573046761542,
      "loss": 0.0777,
      "step": 3351
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.18027092516422272,
      "learning_rate": 0.00023787394713912285,
      "loss": 0.046,
      "step": 3352
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.7053183317184448,
      "learning_rate": 0.00023785216381063025,
      "loss": 0.1242,
      "step": 3353
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2397269308567047,
      "learning_rate": 0.00023783038048213765,
      "loss": 0.0695,
      "step": 3354
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.18271994590759277,
      "learning_rate": 0.00023780859715364505,
      "loss": 0.0555,
      "step": 3355
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2643311619758606,
      "learning_rate": 0.00023778681382515248,
      "loss": 0.0808,
      "step": 3356
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.44086378812789917,
      "learning_rate": 0.00023776503049665988,
      "loss": 0.0896,
      "step": 3357
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2471114993095398,
      "learning_rate": 0.00023774324716816726,
      "loss": 0.0783,
      "step": 3358
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2571572959423065,
      "learning_rate": 0.0002377214638396747,
      "loss": 0.0769,
      "step": 3359
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.34587031602859497,
      "learning_rate": 0.0002376996805111821,
      "loss": 0.0754,
      "step": 3360
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.35827815532684326,
      "learning_rate": 0.0002376778971826895,
      "loss": 0.0753,
      "step": 3361
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.37232521176338196,
      "learning_rate": 0.0002376561138541969,
      "loss": 0.0684,
      "step": 3362
    },
    {
      "epoch": 0.94,
      "grad_norm": 1.2104169130325317,
      "learning_rate": 0.00023763433052570432,
      "loss": 0.1501,
      "step": 3363
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.26359492540359497,
      "learning_rate": 0.00023761254719721172,
      "loss": 0.0668,
      "step": 3364
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.3568524718284607,
      "learning_rate": 0.0002375907638687191,
      "loss": 0.1063,
      "step": 3365
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.4405609667301178,
      "learning_rate": 0.00023756898054022653,
      "loss": 0.088,
      "step": 3366
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.31738990545272827,
      "learning_rate": 0.00023754719721173393,
      "loss": 0.0678,
      "step": 3367
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.28849542140960693,
      "learning_rate": 0.00023752541388324133,
      "loss": 0.07,
      "step": 3368
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.2446754425764084,
      "learning_rate": 0.00023750363055474873,
      "loss": 0.0742,
      "step": 3369
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.33920177817344666,
      "learning_rate": 0.00023748184722625616,
      "loss": 0.0639,
      "step": 3370
    },
    {
      "epoch": 0.94,
      "grad_norm": 0.39366090297698975,
      "learning_rate": 0.00023746006389776357,
      "loss": 0.1149,
      "step": 3371
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.45038366317749023,
      "learning_rate": 0.00023743828056927097,
      "loss": 0.0948,
      "step": 3372
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3402338922023773,
      "learning_rate": 0.00023741649724077837,
      "loss": 0.0566,
      "step": 3373
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9035887122154236,
      "learning_rate": 0.00023739471391228577,
      "loss": 0.12,
      "step": 3374
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.041858434677124,
      "learning_rate": 0.00023737293058379317,
      "loss": 0.1625,
      "step": 3375
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3741990625858307,
      "learning_rate": 0.00023735114725530058,
      "loss": 0.1082,
      "step": 3376
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3122643828392029,
      "learning_rate": 0.000237329363926808,
      "loss": 0.1105,
      "step": 3377
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3524055778980255,
      "learning_rate": 0.0002373075805983154,
      "loss": 0.0711,
      "step": 3378
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2000204622745514,
      "learning_rate": 0.0002372857972698228,
      "loss": 0.0755,
      "step": 3379
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3017632067203522,
      "learning_rate": 0.0002372640139413302,
      "loss": 0.0966,
      "step": 3380
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.29598283767700195,
      "learning_rate": 0.00023724223061283764,
      "loss": 0.1056,
      "step": 3381
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2590661942958832,
      "learning_rate": 0.00023722044728434501,
      "loss": 0.1051,
      "step": 3382
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.376531720161438,
      "learning_rate": 0.00023719866395585242,
      "loss": 0.0833,
      "step": 3383
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.33338502049446106,
      "learning_rate": 0.00023717688062735985,
      "loss": 0.119,
      "step": 3384
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5035915374755859,
      "learning_rate": 0.00023715509729886725,
      "loss": 0.0961,
      "step": 3385
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.6126925349235535,
      "learning_rate": 0.00023713331397037465,
      "loss": 0.093,
      "step": 3386
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5271380543708801,
      "learning_rate": 0.00023711153064188205,
      "loss": 0.104,
      "step": 3387
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3298974335193634,
      "learning_rate": 0.00023708974731338948,
      "loss": 0.0443,
      "step": 3388
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2763039469718933,
      "learning_rate": 0.00023706796398489686,
      "loss": 0.092,
      "step": 3389
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2180156111717224,
      "learning_rate": 0.00023704618065640429,
      "loss": 0.0553,
      "step": 3390
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2210286259651184,
      "learning_rate": 0.0002370243973279117,
      "loss": 0.0683,
      "step": 3391
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.24579599499702454,
      "learning_rate": 0.0002370026139994191,
      "loss": 0.055,
      "step": 3392
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.26763972640037537,
      "learning_rate": 0.0002369808306709265,
      "loss": 0.0731,
      "step": 3393
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.23613591492176056,
      "learning_rate": 0.0002369590473424339,
      "loss": 0.0659,
      "step": 3394
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.34732791781425476,
      "learning_rate": 0.00023693726401394132,
      "loss": 0.0525,
      "step": 3395
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.3725918233394623,
      "learning_rate": 0.0002369154806854487,
      "loss": 0.0662,
      "step": 3396
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.5779900550842285,
      "learning_rate": 0.00023689369735695613,
      "loss": 0.1409,
      "step": 3397
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.672887921333313,
      "learning_rate": 0.00023687191402846353,
      "loss": 0.2109,
      "step": 3398
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.9040696620941162,
      "learning_rate": 0.00023685013069997093,
      "loss": 0.3101,
      "step": 3399
    },
    {
      "epoch": 0.95,
      "grad_norm": 1.5386401414871216,
      "learning_rate": 0.00023682834737147833,
      "loss": 0.2511,
      "step": 3400
    },
    {
      "epoch": 0.95,
      "eval_loss": 0.09019910544157028,
      "eval_runtime": 171.3353,
      "eval_samples_per_second": 15.42,
      "eval_steps_per_second": 0.484,
      "eval_wer": 0.08508528361761206,
      "step": 3400
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4263922870159149,
      "learning_rate": 0.00023680656404298573,
      "loss": 0.0935,
      "step": 3401
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2877797484397888,
      "learning_rate": 0.00023678478071449316,
      "loss": 0.0709,
      "step": 3402
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.22488002479076385,
      "learning_rate": 0.00023676299738600057,
      "loss": 0.0575,
      "step": 3403
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2337564080953598,
      "learning_rate": 0.00023674121405750797,
      "loss": 0.0824,
      "step": 3404
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.4121648371219635,
      "learning_rate": 0.00023671943072901537,
      "loss": 0.1193,
      "step": 3405
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.2895328402519226,
      "learning_rate": 0.0002366976474005228,
      "loss": 0.0971,
      "step": 3406
    },
    {
      "epoch": 0.95,
      "grad_norm": 0.22277572751045227,
      "learning_rate": 0.00023667586407203017,
      "loss": 0.08,
      "step": 3407
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.23548810184001923,
      "learning_rate": 0.00023665408074353758,
      "loss": 0.068,
      "step": 3408
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.2245182991027832,
      "learning_rate": 0.000236632297415045,
      "loss": 0.0667,
      "step": 3409
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3535633385181427,
      "learning_rate": 0.0002366105140865524,
      "loss": 0.1411,
      "step": 3410
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.2906271517276764,
      "learning_rate": 0.0002365887307580598,
      "loss": 0.0822,
      "step": 3411
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6519874930381775,
      "learning_rate": 0.0002365669474295672,
      "loss": 0.1251,
      "step": 3412
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.6392066478729248,
      "learning_rate": 0.00023654516410107464,
      "loss": 0.3224,
      "step": 3413
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3252740800380707,
      "learning_rate": 0.00023652338077258202,
      "loss": 0.0775,
      "step": 3414
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3011680543422699,
      "learning_rate": 0.00023650159744408944,
      "loss": 0.1274,
      "step": 3415
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.2214645892381668,
      "learning_rate": 0.00023647981411559685,
      "loss": 0.0629,
      "step": 3416
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.35564514994621277,
      "learning_rate": 0.00023645803078710425,
      "loss": 0.0695,
      "step": 3417
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.29510432481765747,
      "learning_rate": 0.00023643624745861165,
      "loss": 0.0963,
      "step": 3418
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4531227946281433,
      "learning_rate": 0.00023641446413011905,
      "loss": 0.0844,
      "step": 3419
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.24197570979595184,
      "learning_rate": 0.00023639268080162648,
      "loss": 0.0814,
      "step": 3420
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.29762518405914307,
      "learning_rate": 0.00023637089747313386,
      "loss": 0.0582,
      "step": 3421
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5880304574966431,
      "learning_rate": 0.00023634911414464129,
      "loss": 0.0953,
      "step": 3422
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.20579102635383606,
      "learning_rate": 0.0002363273308161487,
      "loss": 0.0227,
      "step": 3423
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.5080821514129639,
      "learning_rate": 0.0002363055474876561,
      "loss": 0.0678,
      "step": 3424
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9657082557678223,
      "learning_rate": 0.0002362837641591635,
      "loss": 0.2481,
      "step": 3425
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.17942441999912262,
      "learning_rate": 0.0002362619808306709,
      "loss": 0.0508,
      "step": 3426
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3781971037387848,
      "learning_rate": 0.00023624019750217832,
      "loss": 0.0867,
      "step": 3427
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.18237411975860596,
      "learning_rate": 0.0002362184141736857,
      "loss": 0.0807,
      "step": 3428
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.2517024576663971,
      "learning_rate": 0.00023619663084519313,
      "loss": 0.0891,
      "step": 3429
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3277152180671692,
      "learning_rate": 0.00023617484751670053,
      "loss": 0.0681,
      "step": 3430
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.22900202870368958,
      "learning_rate": 0.00023615306418820796,
      "loss": 0.0798,
      "step": 3431
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.2522291839122772,
      "learning_rate": 0.00023613128085971533,
      "loss": 0.0594,
      "step": 3432
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.2322138547897339,
      "learning_rate": 0.00023610949753122274,
      "loss": 0.0637,
      "step": 3433
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.26996520161628723,
      "learning_rate": 0.00023608771420273016,
      "loss": 0.0924,
      "step": 3434
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.20920808613300323,
      "learning_rate": 0.00023606593087423754,
      "loss": 0.0925,
      "step": 3435
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.38359788060188293,
      "learning_rate": 0.00023604414754574497,
      "loss": 0.0733,
      "step": 3436
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.9975993633270264,
      "learning_rate": 0.00023602236421725237,
      "loss": 0.267,
      "step": 3437
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.6989663243293762,
      "learning_rate": 0.0002360005808887598,
      "loss": 0.0872,
      "step": 3438
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.22973841428756714,
      "learning_rate": 0.00023597879756026717,
      "loss": 0.0759,
      "step": 3439
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.19131797552108765,
      "learning_rate": 0.0002359570142317746,
      "loss": 0.0411,
      "step": 3440
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.22269371151924133,
      "learning_rate": 0.000235935230903282,
      "loss": 0.0957,
      "step": 3441
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.25399675965309143,
      "learning_rate": 0.00023591344757478938,
      "loss": 0.0593,
      "step": 3442
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.3822307586669922,
      "learning_rate": 0.0002358916642462968,
      "loss": 0.0853,
      "step": 3443
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.39129388332366943,
      "learning_rate": 0.0002358698809178042,
      "loss": 0.1094,
      "step": 3444
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3087809979915619,
      "learning_rate": 0.00023584809758931164,
      "loss": 0.1027,
      "step": 3445
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.29213640093803406,
      "learning_rate": 0.00023582631426081902,
      "loss": 0.0623,
      "step": 3446
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.45051613450050354,
      "learning_rate": 0.00023580453093232645,
      "loss": 0.1039,
      "step": 3447
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.31821513175964355,
      "learning_rate": 0.00023578274760383385,
      "loss": 0.0626,
      "step": 3448
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6295130252838135,
      "learning_rate": 0.00023576096427534122,
      "loss": 0.1404,
      "step": 3449
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.6253839731216431,
      "learning_rate": 0.00023573918094684865,
      "loss": 0.1462,
      "step": 3450
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3016027510166168,
      "learning_rate": 0.00023571739761835605,
      "loss": 0.0835,
      "step": 3451
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.40934619307518005,
      "learning_rate": 0.00023569561428986348,
      "loss": 0.1044,
      "step": 3452
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.29153475165367126,
      "learning_rate": 0.00023567383096137086,
      "loss": 0.0667,
      "step": 3453
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.386135458946228,
      "learning_rate": 0.00023565204763287829,
      "loss": 0.0919,
      "step": 3454
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.18819598853588104,
      "learning_rate": 0.0002356302643043857,
      "loss": 0.0423,
      "step": 3455
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3760206997394562,
      "learning_rate": 0.00023560848097589312,
      "loss": 0.1107,
      "step": 3456
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.19941508769989014,
      "learning_rate": 0.0002355866976474005,
      "loss": 0.0646,
      "step": 3457
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.41934552788734436,
      "learning_rate": 0.0002355649143189079,
      "loss": 0.0869,
      "step": 3458
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.18023599684238434,
      "learning_rate": 0.00023554313099041532,
      "loss": 0.0468,
      "step": 3459
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3138520121574402,
      "learning_rate": 0.0002355213476619227,
      "loss": 0.0466,
      "step": 3460
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.25581538677215576,
      "learning_rate": 0.00023549956433343013,
      "loss": 0.0484,
      "step": 3461
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.7705249786376953,
      "learning_rate": 0.00023547778100493753,
      "loss": 0.1197,
      "step": 3462
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.4635222852230072,
      "learning_rate": 0.00023545599767644496,
      "loss": 0.0931,
      "step": 3463
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.22846266627311707,
      "learning_rate": 0.00023543421434795233,
      "loss": 0.0465,
      "step": 3464
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3901141583919525,
      "learning_rate": 0.00023541243101945976,
      "loss": 0.11,
      "step": 3465
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.16264960169792175,
      "learning_rate": 0.00023539064769096716,
      "loss": 0.0409,
      "step": 3466
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.23118296265602112,
      "learning_rate": 0.00023536886436247454,
      "loss": 0.0938,
      "step": 3467
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.3930191695690155,
      "learning_rate": 0.00023534708103398197,
      "loss": 0.0556,
      "step": 3468
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.2300887107849121,
      "learning_rate": 0.00023532529770548937,
      "loss": 0.0551,
      "step": 3469
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.19000819325447083,
      "learning_rate": 0.0002353035143769968,
      "loss": 0.042,
      "step": 3470
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.24883121252059937,
      "learning_rate": 0.00023528173104850418,
      "loss": 0.0665,
      "step": 3471
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.42232149839401245,
      "learning_rate": 0.0002352599477200116,
      "loss": 0.088,
      "step": 3472
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.38585060834884644,
      "learning_rate": 0.000235238164391519,
      "loss": 0.078,
      "step": 3473
    },
    {
      "epoch": 0.97,
      "grad_norm": 1.0931007862091064,
      "learning_rate": 0.00023521638106302638,
      "loss": 0.1332,
      "step": 3474
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.9677883386611938,
      "learning_rate": 0.0002351945977345338,
      "loss": 0.1066,
      "step": 3475
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.2151820808649063,
      "learning_rate": 0.0002351728144060412,
      "loss": 0.0429,
      "step": 3476
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.25604185461997986,
      "learning_rate": 0.00023515103107754864,
      "loss": 0.0742,
      "step": 3477
    },
    {
      "epoch": 0.97,
      "grad_norm": 0.13513170182704926,
      "learning_rate": 0.00023512924774905602,
      "loss": 0.0367,
      "step": 3478
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.24028293788433075,
      "learning_rate": 0.00023510746442056345,
      "loss": 0.077,
      "step": 3479
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.35035452246665955,
      "learning_rate": 0.00023508568109207085,
      "loss": 0.096,
      "step": 3480
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.25398457050323486,
      "learning_rate": 0.00023506389776357828,
      "loss": 0.0724,
      "step": 3481
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.13464191555976868,
      "learning_rate": 0.00023504211443508565,
      "loss": 0.0305,
      "step": 3482
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.24217993021011353,
      "learning_rate": 0.00023502033110659305,
      "loss": 0.0429,
      "step": 3483
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.7679674625396729,
      "learning_rate": 0.00023499854777810048,
      "loss": 0.0653,
      "step": 3484
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3754504919052124,
      "learning_rate": 0.00023497676444960786,
      "loss": 0.1195,
      "step": 3485
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.33599853515625,
      "learning_rate": 0.0002349549811211153,
      "loss": 0.1186,
      "step": 3486
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.4743702709674835,
      "learning_rate": 0.0002349331977926227,
      "loss": 0.0796,
      "step": 3487
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.0433250665664673,
      "learning_rate": 0.00023491141446413012,
      "loss": 0.2172,
      "step": 3488
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.2640320956707001,
      "learning_rate": 0.0002348896311356375,
      "loss": 0.0977,
      "step": 3489
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.2421146035194397,
      "learning_rate": 0.00023486784780714492,
      "loss": 0.0564,
      "step": 3490
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.44258224964141846,
      "learning_rate": 0.00023484606447865232,
      "loss": 0.0812,
      "step": 3491
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.2382832020521164,
      "learning_rate": 0.0002348242811501597,
      "loss": 0.0645,
      "step": 3492
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.24121659994125366,
      "learning_rate": 0.00023480249782166713,
      "loss": 0.0665,
      "step": 3493
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.2435273975133896,
      "learning_rate": 0.00023478071449317453,
      "loss": 0.1218,
      "step": 3494
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.26824405789375305,
      "learning_rate": 0.00023475893116468196,
      "loss": 0.0769,
      "step": 3495
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.23226553201675415,
      "learning_rate": 0.00023473714783618933,
      "loss": 0.0669,
      "step": 3496
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.2607588768005371,
      "learning_rate": 0.00023471536450769676,
      "loss": 0.067,
      "step": 3497
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.31097733974456787,
      "learning_rate": 0.00023469358117920417,
      "loss": 0.0592,
      "step": 3498
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.36173346638679504,
      "learning_rate": 0.0002346717978507116,
      "loss": 0.0924,
      "step": 3499
    },
    {
      "epoch": 0.98,
      "grad_norm": 1.5762768983840942,
      "learning_rate": 0.00023465001452221897,
      "loss": 0.2053,
      "step": 3500
    },
    {
      "epoch": 0.98,
      "eval_loss": 0.09074819833040237,
      "eval_runtime": 171.3587,
      "eval_samples_per_second": 15.418,
      "eval_steps_per_second": 0.484,
      "eval_wer": 0.0842126140420468,
      "step": 3500
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.15919992327690125,
      "learning_rate": 0.00023462823119372637,
      "loss": 0.0376,
      "step": 3501
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.20545020699501038,
      "learning_rate": 0.0002346064478652338,
      "loss": 0.0568,
      "step": 3502
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.19058386981487274,
      "learning_rate": 0.00023458466453674118,
      "loss": 0.0683,
      "step": 3503
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.2066650241613388,
      "learning_rate": 0.0002345628812082486,
      "loss": 0.0802,
      "step": 3504
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.37854042649269104,
      "learning_rate": 0.000234541097879756,
      "loss": 0.11,
      "step": 3505
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.2888626456260681,
      "learning_rate": 0.00023451931455126344,
      "loss": 0.1045,
      "step": 3506
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.38402751088142395,
      "learning_rate": 0.0002344975312227708,
      "loss": 0.0956,
      "step": 3507
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.26867568492889404,
      "learning_rate": 0.0002344757478942782,
      "loss": 0.0542,
      "step": 3508
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3627077341079712,
      "learning_rate": 0.00023445396456578564,
      "loss": 0.0824,
      "step": 3509
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3607267439365387,
      "learning_rate": 0.00023443218123729302,
      "loss": 0.0842,
      "step": 3510
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.5032050609588623,
      "learning_rate": 0.00023441039790880045,
      "loss": 0.1334,
      "step": 3511
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.6043667793273926,
      "learning_rate": 0.00023438861458030785,
      "loss": 0.1325,
      "step": 3512
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3027547299861908,
      "learning_rate": 0.00023436683125181528,
      "loss": 0.1115,
      "step": 3513
    },
    {
      "epoch": 0.98,
      "grad_norm": 0.3059024214744568,
      "learning_rate": 0.00023434504792332265,
      "loss": 0.0767,
      "step": 3514
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.295530766248703,
      "learning_rate": 0.00023432326459483008,
      "loss": 0.0453,
      "step": 3515
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.23630701005458832,
      "learning_rate": 0.00023430148126633748,
      "loss": 0.0702,
      "step": 3516
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.1852509081363678,
      "learning_rate": 0.00023427969793784486,
      "loss": 0.0471,
      "step": 3517
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.2299516350030899,
      "learning_rate": 0.0002342579146093523,
      "loss": 0.0395,
      "step": 3518
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.43185004591941833,
      "learning_rate": 0.0002342361312808597,
      "loss": 0.0995,
      "step": 3519
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4783512353897095,
      "learning_rate": 0.00023421434795236712,
      "loss": 0.0627,
      "step": 3520
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3713510036468506,
      "learning_rate": 0.0002341925646238745,
      "loss": 0.0865,
      "step": 3521
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.28358927369117737,
      "learning_rate": 0.00023417078129538192,
      "loss": 0.1053,
      "step": 3522
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.4718528389930725,
      "learning_rate": 0.00023414899796688932,
      "loss": 0.0641,
      "step": 3523
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.27581310272216797,
      "learning_rate": 0.00023412721463839675,
      "loss": 0.0838,
      "step": 3524
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.2589876055717468,
      "learning_rate": 0.00023410543130990413,
      "loss": 0.0601,
      "step": 3525
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.29128915071487427,
      "learning_rate": 0.00023408364798141153,
      "loss": 0.1089,
      "step": 3526
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.25835466384887695,
      "learning_rate": 0.00023406186465291896,
      "loss": 0.0511,
      "step": 3527
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.23010243475437164,
      "learning_rate": 0.00023404008132442633,
      "loss": 0.0572,
      "step": 3528
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.23670653998851776,
      "learning_rate": 0.00023401829799593376,
      "loss": 0.0761,
      "step": 3529
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.2941577136516571,
      "learning_rate": 0.00023399651466744117,
      "loss": 0.0557,
      "step": 3530
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.2781285047531128,
      "learning_rate": 0.0002339747313389486,
      "loss": 0.0599,
      "step": 3531
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.28444647789001465,
      "learning_rate": 0.00023395294801045597,
      "loss": 0.08,
      "step": 3532
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.31370145082473755,
      "learning_rate": 0.00023393116468196337,
      "loss": 0.1033,
      "step": 3533
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.24002844095230103,
      "learning_rate": 0.0002339093813534708,
      "loss": 0.0642,
      "step": 3534
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.2431625872850418,
      "learning_rate": 0.00023388759802497818,
      "loss": 0.0457,
      "step": 3535
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.2791631817817688,
      "learning_rate": 0.0002338658146964856,
      "loss": 0.0404,
      "step": 3536
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5788273811340332,
      "learning_rate": 0.000233844031367993,
      "loss": 0.0891,
      "step": 3537
    },
    {
      "epoch": 0.99,
      "grad_norm": 1.0368989706039429,
      "learning_rate": 0.00023382224803950044,
      "loss": 0.2269,
      "step": 3538
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.21314096450805664,
      "learning_rate": 0.0002338004647110078,
      "loss": 0.1254,
      "step": 3539
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.2736789584159851,
      "learning_rate": 0.00023377868138251524,
      "loss": 0.0856,
      "step": 3540
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.21491408348083496,
      "learning_rate": 0.00023375689805402264,
      "loss": 0.0513,
      "step": 3541
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.2017994374036789,
      "learning_rate": 0.00023373511472553002,
      "loss": 0.0568,
      "step": 3542
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.24450355768203735,
      "learning_rate": 0.00023371333139703745,
      "loss": 0.0807,
      "step": 3543
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.27080899477005005,
      "learning_rate": 0.00023369154806854485,
      "loss": 0.1051,
      "step": 3544
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.30374014377593994,
      "learning_rate": 0.00023366976474005228,
      "loss": 0.119,
      "step": 3545
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.5269960165023804,
      "learning_rate": 0.00023364798141155965,
      "loss": 0.1769,
      "step": 3546
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.24985529482364655,
      "learning_rate": 0.00023362619808306708,
      "loss": 0.0642,
      "step": 3547
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.44632312655448914,
      "learning_rate": 0.00023360441475457448,
      "loss": 0.0726,
      "step": 3548
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.547958254814148,
      "learning_rate": 0.0002335826314260819,
      "loss": 0.0695,
      "step": 3549
    },
    {
      "epoch": 0.99,
      "grad_norm": 0.3780260384082794,
      "learning_rate": 0.0002335608480975893,
      "loss": 0.0796,
      "step": 3550
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.29547983407974243,
      "learning_rate": 0.0002335390647690967,
      "loss": 0.0955,
      "step": 3551
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.26919347047805786,
      "learning_rate": 0.00023351728144060412,
      "loss": 0.0855,
      "step": 3552
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.22438298165798187,
      "learning_rate": 0.0002334954981121115,
      "loss": 0.0636,
      "step": 3553
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.18232297897338867,
      "learning_rate": 0.00023347371478361892,
      "loss": 0.0659,
      "step": 3554
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.2789895832538605,
      "learning_rate": 0.00023345193145512633,
      "loss": 0.0758,
      "step": 3555
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.39216697216033936,
      "learning_rate": 0.00023343014812663375,
      "loss": 0.0987,
      "step": 3556
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.2883149981498718,
      "learning_rate": 0.00023340836479814113,
      "loss": 0.0621,
      "step": 3557
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.30418333411216736,
      "learning_rate": 0.00023338658146964853,
      "loss": 0.0864,
      "step": 3558
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.1881418079137802,
      "learning_rate": 0.00023336479814115596,
      "loss": 0.0868,
      "step": 3559
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3190266191959381,
      "learning_rate": 0.00023334301481266334,
      "loss": 0.1095,
      "step": 3560
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.33962178230285645,
      "learning_rate": 0.00023332123148417076,
      "loss": 0.068,
      "step": 3561
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.4389602839946747,
      "learning_rate": 0.00023329944815567817,
      "loss": 0.0772,
      "step": 3562
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.5180584788322449,
      "learning_rate": 0.0002332776648271856,
      "loss": 0.0547,
      "step": 3563
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.2320263385772705,
      "learning_rate": 0.00023325588149869297,
      "loss": 0.0515,
      "step": 3564
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.23990219831466675,
      "learning_rate": 0.0002332340981702004,
      "loss": 0.0733,
      "step": 3565
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.253460556268692,
      "learning_rate": 0.0002332123148417078,
      "loss": 0.079,
      "step": 3566
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.30634674429893494,
      "learning_rate": 0.00023319053151321518,
      "loss": 0.1108,
      "step": 3567
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.3806125223636627,
      "learning_rate": 0.0002331687481847226,
      "loss": 0.0564,
      "step": 3568
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.14549404382705688,
      "learning_rate": 0.00023314696485623,
      "loss": 0.0395,
      "step": 3569
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.33180657029151917,
      "learning_rate": 0.00023312518152773744,
      "loss": 0.1438,
      "step": 3570
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.2830182611942291,
      "learning_rate": 0.0002331033981992448,
      "loss": 0.0946,
      "step": 3571
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.24783073365688324,
      "learning_rate": 0.00023308161487075224,
      "loss": 0.0501,
      "step": 3572
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.17179346084594727,
      "learning_rate": 0.00023305983154225964,
      "loss": 0.0314,
      "step": 3573
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.20900562405586243,
      "learning_rate": 0.00023303804821376707,
      "loss": 0.0519,
      "step": 3574
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.27434247732162476,
      "learning_rate": 0.00023301626488527445,
      "loss": 0.0844,
      "step": 3575
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.15244480967521667,
      "learning_rate": 0.00023299448155678185,
      "loss": 0.0359,
      "step": 3576
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.2835904061794281,
      "learning_rate": 0.00023297269822828928,
      "loss": 0.0635,
      "step": 3577
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.22178256511688232,
      "learning_rate": 0.00023295091489979665,
      "loss": 0.0378,
      "step": 3578
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.24780216813087463,
      "learning_rate": 0.00023292913157130408,
      "loss": 0.042,
      "step": 3579
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.2919585704803467,
      "learning_rate": 0.00023290734824281148,
      "loss": 0.0511,
      "step": 3580
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.21304647624492645,
      "learning_rate": 0.0002328855649143189,
      "loss": 0.0393,
      "step": 3581
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.23330655694007874,
      "learning_rate": 0.0002328637815858263,
      "loss": 0.0478,
      "step": 3582
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.22127187252044678,
      "learning_rate": 0.0002328419982573337,
      "loss": 0.0617,
      "step": 3583
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.26147645711898804,
      "learning_rate": 0.00023282021492884112,
      "loss": 0.1059,
      "step": 3584
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.12026020884513855,
      "learning_rate": 0.0002327984316003485,
      "loss": 0.0228,
      "step": 3585
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.17797519266605377,
      "learning_rate": 0.00023277664827185592,
      "loss": 0.0433,
      "step": 3586
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.19374603033065796,
      "learning_rate": 0.00023275486494336333,
      "loss": 0.0523,
      "step": 3587
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.1412738561630249,
      "learning_rate": 0.00023273308161487075,
      "loss": 0.0534,
      "step": 3588
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.5663183927536011,
      "learning_rate": 0.00023271129828637813,
      "loss": 0.0591,
      "step": 3589
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.26206275820732117,
      "learning_rate": 0.00023268951495788556,
      "loss": 0.0397,
      "step": 3590
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.43584802746772766,
      "learning_rate": 0.00023266773162939296,
      "loss": 0.0366,
      "step": 3591
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.38996580243110657,
      "learning_rate": 0.00023264594830090034,
      "loss": 0.1184,
      "step": 3592
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.2680087089538574,
      "learning_rate": 0.00023262416497240777,
      "loss": 0.0308,
      "step": 3593
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.2572749853134155,
      "learning_rate": 0.00023260238164391517,
      "loss": 0.074,
      "step": 3594
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.2799586057662964,
      "learning_rate": 0.0002325805983154226,
      "loss": 0.059,
      "step": 3595
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.24580040574073792,
      "learning_rate": 0.00023255881498692997,
      "loss": 0.0518,
      "step": 3596
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.2732296288013458,
      "learning_rate": 0.0002325370316584374,
      "loss": 0.062,
      "step": 3597
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.17239470779895782,
      "learning_rate": 0.0002325152483299448,
      "loss": 0.0639,
      "step": 3598
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.33547157049179077,
      "learning_rate": 0.0002324934650014522,
      "loss": 0.0809,
      "step": 3599
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.24458947777748108,
      "learning_rate": 0.0002324716816729596,
      "loss": 0.0719,
      "step": 3600
    },
    {
      "epoch": 1.01,
      "eval_loss": 0.08082058280706406,
      "eval_runtime": 173.4059,
      "eval_samples_per_second": 15.236,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.07524791749305831,
      "step": 3600
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3792320787906647,
      "learning_rate": 0.000232449898344467,
      "loss": 0.0935,
      "step": 3601
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.35306844115257263,
      "learning_rate": 0.00023242811501597444,
      "loss": 0.08,
      "step": 3602
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.27917003631591797,
      "learning_rate": 0.0002324063316874818,
      "loss": 0.048,
      "step": 3603
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.5190857648849487,
      "learning_rate": 0.00023238454835898924,
      "loss": 0.056,
      "step": 3604
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.48870983719825745,
      "learning_rate": 0.00023236276503049664,
      "loss": 0.0814,
      "step": 3605
    },
    {
      "epoch": 1.01,
      "grad_norm": 1.2181087732315063,
      "learning_rate": 0.00023234098170200405,
      "loss": 0.1088,
      "step": 3606
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.21458736062049866,
      "learning_rate": 0.00023231919837351145,
      "loss": 0.0769,
      "step": 3607
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.19892871379852295,
      "learning_rate": 0.00023229741504501885,
      "loss": 0.0377,
      "step": 3608
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.24286773800849915,
      "learning_rate": 0.00023227563171652628,
      "loss": 0.0697,
      "step": 3609
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.24531687796115875,
      "learning_rate": 0.00023225384838803365,
      "loss": 0.0708,
      "step": 3610
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.269819438457489,
      "learning_rate": 0.00023223206505954108,
      "loss": 0.0633,
      "step": 3611
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.31557804346084595,
      "learning_rate": 0.00023221028173104848,
      "loss": 0.0967,
      "step": 3612
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.32628101110458374,
      "learning_rate": 0.0002321884984025559,
      "loss": 0.1205,
      "step": 3613
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.27355441451072693,
      "learning_rate": 0.0002321667150740633,
      "loss": 0.0679,
      "step": 3614
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.15734368562698364,
      "learning_rate": 0.00023214493174557072,
      "loss": 0.0486,
      "step": 3615
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.20140224695205688,
      "learning_rate": 0.00023212314841707812,
      "loss": 0.0313,
      "step": 3616
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.31837591528892517,
      "learning_rate": 0.0002321013650885855,
      "loss": 0.063,
      "step": 3617
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.6927526593208313,
      "learning_rate": 0.00023207958176009292,
      "loss": 0.0982,
      "step": 3618
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.2072126865386963,
      "learning_rate": 0.00023205779843160033,
      "loss": 0.0551,
      "step": 3619
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.3320278525352478,
      "learning_rate": 0.00023203601510310776,
      "loss": 0.0838,
      "step": 3620
    },
    {
      "epoch": 1.01,
      "grad_norm": 0.18793977797031403,
      "learning_rate": 0.00023201423177461513,
      "loss": 0.0595,
      "step": 3621
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.16671043634414673,
      "learning_rate": 0.00023199244844612256,
      "loss": 0.0617,
      "step": 3622
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.18512587249279022,
      "learning_rate": 0.00023197066511762996,
      "loss": 0.0443,
      "step": 3623
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.23090152442455292,
      "learning_rate": 0.00023194888178913736,
      "loss": 0.046,
      "step": 3624
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.27813538908958435,
      "learning_rate": 0.00023192709846064477,
      "loss": 0.0588,
      "step": 3625
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.21679353713989258,
      "learning_rate": 0.00023190531513215217,
      "loss": 0.0516,
      "step": 3626
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.24988068640232086,
      "learning_rate": 0.0002318835318036596,
      "loss": 0.0528,
      "step": 3627
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.1443464607000351,
      "learning_rate": 0.00023186174847516697,
      "loss": 0.0368,
      "step": 3628
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.19349078834056854,
      "learning_rate": 0.0002318399651466744,
      "loss": 0.0375,
      "step": 3629
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.7981037497520447,
      "learning_rate": 0.0002318181818181818,
      "loss": 0.0488,
      "step": 3630
    },
    {
      "epoch": 1.02,
      "grad_norm": 1.0441560745239258,
      "learning_rate": 0.0002317963984896892,
      "loss": 0.1399,
      "step": 3631
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.2448776215314865,
      "learning_rate": 0.0002317746151611966,
      "loss": 0.0775,
      "step": 3632
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.24611859023571014,
      "learning_rate": 0.00023175283183270404,
      "loss": 0.0635,
      "step": 3633
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.2594314217567444,
      "learning_rate": 0.00023173104850421144,
      "loss": 0.0456,
      "step": 3634
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.263965904712677,
      "learning_rate": 0.0002317092651757188,
      "loss": 0.118,
      "step": 3635
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4227036237716675,
      "learning_rate": 0.00023168748184722624,
      "loss": 0.0766,
      "step": 3636
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.21732738614082336,
      "learning_rate": 0.00023166569851873364,
      "loss": 0.0897,
      "step": 3637
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.2149631381034851,
      "learning_rate": 0.00023164391519024105,
      "loss": 0.0568,
      "step": 3638
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.22161172330379486,
      "learning_rate": 0.00023162213186174845,
      "loss": 0.0649,
      "step": 3639
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.16438941657543182,
      "learning_rate": 0.00023160034853325588,
      "loss": 0.0408,
      "step": 3640
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.1942528337240219,
      "learning_rate": 0.00023157856520476328,
      "loss": 0.0408,
      "step": 3641
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.4863032102584839,
      "learning_rate": 0.00023155678187627065,
      "loss": 0.0534,
      "step": 3642
    },
    {
      "epoch": 1.02,
      "grad_norm": 1.5765178203582764,
      "learning_rate": 0.00023153499854777808,
      "loss": 0.2569,
      "step": 3643
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.36094245314598083,
      "learning_rate": 0.00023151321521928549,
      "loss": 0.0809,
      "step": 3644
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.15938937664031982,
      "learning_rate": 0.0002314914318907929,
      "loss": 0.0331,
      "step": 3645
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.1534683108329773,
      "learning_rate": 0.0002314696485623003,
      "loss": 0.0479,
      "step": 3646
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.23555035889148712,
      "learning_rate": 0.00023144786523380772,
      "loss": 0.0817,
      "step": 3647
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.27458518743515015,
      "learning_rate": 0.00023142608190531512,
      "loss": 0.0633,
      "step": 3648
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.24007201194763184,
      "learning_rate": 0.00023140429857682252,
      "loss": 0.0589,
      "step": 3649
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.2242429554462433,
      "learning_rate": 0.00023138251524832992,
      "loss": 0.0724,
      "step": 3650
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.23455658555030823,
      "learning_rate": 0.00023136073191983733,
      "loss": 0.0376,
      "step": 3651
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.2972028851509094,
      "learning_rate": 0.00023133894859134473,
      "loss": 0.0735,
      "step": 3652
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.3429456949234009,
      "learning_rate": 0.00023131716526285213,
      "loss": 0.0857,
      "step": 3653
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.5041710138320923,
      "learning_rate": 0.00023129538193435956,
      "loss": 0.1065,
      "step": 3654
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.9123682379722595,
      "learning_rate": 0.00023127359860586696,
      "loss": 0.0647,
      "step": 3655
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.23527386784553528,
      "learning_rate": 0.00023125181527737436,
      "loss": 0.0386,
      "step": 3656
    },
    {
      "epoch": 1.02,
      "grad_norm": 0.16796422004699707,
      "learning_rate": 0.00023123003194888177,
      "loss": 0.0422,
      "step": 3657
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.31085923314094543,
      "learning_rate": 0.0002312082486203892,
      "loss": 0.0591,
      "step": 3658
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.2868466377258301,
      "learning_rate": 0.00023118646529189657,
      "loss": 0.0536,
      "step": 3659
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.2329663187265396,
      "learning_rate": 0.00023116468196340397,
      "loss": 0.0576,
      "step": 3660
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.18720918893814087,
      "learning_rate": 0.0002311428986349114,
      "loss": 0.0418,
      "step": 3661
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.2897871732711792,
      "learning_rate": 0.0002311211153064188,
      "loss": 0.0906,
      "step": 3662
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.25697362422943115,
      "learning_rate": 0.0002310993319779262,
      "loss": 0.0489,
      "step": 3663
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.34921562671661377,
      "learning_rate": 0.0002310775486494336,
      "loss": 0.0453,
      "step": 3664
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.28011515736579895,
      "learning_rate": 0.00023105576532094104,
      "loss": 0.0816,
      "step": 3665
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.20045919716358185,
      "learning_rate": 0.0002310339819924484,
      "loss": 0.043,
      "step": 3666
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.2633562386035919,
      "learning_rate": 0.0002310121986639558,
      "loss": 0.0723,
      "step": 3667
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.5466627478599548,
      "learning_rate": 0.00023099041533546324,
      "loss": 0.0624,
      "step": 3668
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.17450276017189026,
      "learning_rate": 0.00023096863200697064,
      "loss": 0.0266,
      "step": 3669
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.36127012968063354,
      "learning_rate": 0.00023094684867847805,
      "loss": 0.0513,
      "step": 3670
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.22085116803646088,
      "learning_rate": 0.00023092506534998545,
      "loss": 0.0595,
      "step": 3671
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.09275903552770615,
      "learning_rate": 0.00023090328202149288,
      "loss": 0.0313,
      "step": 3672
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.25656408071517944,
      "learning_rate": 0.00023088149869300028,
      "loss": 0.0887,
      "step": 3673
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.367786705493927,
      "learning_rate": 0.00023085971536450768,
      "loss": 0.0551,
      "step": 3674
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.22015231847763062,
      "learning_rate": 0.00023083793203601508,
      "loss": 0.033,
      "step": 3675
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40430694818496704,
      "learning_rate": 0.00023081614870752249,
      "loss": 0.0512,
      "step": 3676
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.6862632036209106,
      "learning_rate": 0.0002307943653790299,
      "loss": 0.1028,
      "step": 3677
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.179933100938797,
      "learning_rate": 0.0002307725820505373,
      "loss": 0.0334,
      "step": 3678
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.31234338879585266,
      "learning_rate": 0.00023075079872204472,
      "loss": 0.026,
      "step": 3679
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.37330904603004456,
      "learning_rate": 0.00023072901539355212,
      "loss": 0.0279,
      "step": 3680
    },
    {
      "epoch": 1.03,
      "grad_norm": 1.0667622089385986,
      "learning_rate": 0.00023070723206505952,
      "loss": 0.1134,
      "step": 3681
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.18763381242752075,
      "learning_rate": 0.00023068544873656693,
      "loss": 0.0795,
      "step": 3682
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.40287384390830994,
      "learning_rate": 0.00023066366540807435,
      "loss": 0.0542,
      "step": 3683
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.5177627205848694,
      "learning_rate": 0.00023064188207958173,
      "loss": 0.1104,
      "step": 3684
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.19261181354522705,
      "learning_rate": 0.00023062009875108913,
      "loss": 0.0351,
      "step": 3685
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.19422508776187897,
      "learning_rate": 0.00023059831542259656,
      "loss": 0.0514,
      "step": 3686
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.12060217559337616,
      "learning_rate": 0.00023057653209410396,
      "loss": 0.0183,
      "step": 3687
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.30016303062438965,
      "learning_rate": 0.00023055474876561136,
      "loss": 0.0649,
      "step": 3688
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.16590401530265808,
      "learning_rate": 0.00023053296543711877,
      "loss": 0.029,
      "step": 3689
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.45585763454437256,
      "learning_rate": 0.0002305111821086262,
      "loss": 0.0823,
      "step": 3690
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.17394854128360748,
      "learning_rate": 0.00023048939878013357,
      "loss": 0.0265,
      "step": 3691
    },
    {
      "epoch": 1.03,
      "grad_norm": 0.4728100597858429,
      "learning_rate": 0.00023046761545164097,
      "loss": 0.0633,
      "step": 3692
    },
    {
      "epoch": 1.04,
      "grad_norm": 1.645020604133606,
      "learning_rate": 0.0002304458321231484,
      "loss": 0.2181,
      "step": 3693
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3847081959247589,
      "learning_rate": 0.0002304240487946558,
      "loss": 0.0666,
      "step": 3694
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.25627532601356506,
      "learning_rate": 0.0002304022654661632,
      "loss": 0.0674,
      "step": 3695
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.37062254548072815,
      "learning_rate": 0.0002303804821376706,
      "loss": 0.0849,
      "step": 3696
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4362121522426605,
      "learning_rate": 0.00023035869880917804,
      "loss": 0.1086,
      "step": 3697
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4690541923046112,
      "learning_rate": 0.0002303369154806854,
      "loss": 0.0606,
      "step": 3698
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4839649796485901,
      "learning_rate": 0.00023031513215219284,
      "loss": 0.094,
      "step": 3699
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.2972099781036377,
      "learning_rate": 0.00023029334882370024,
      "loss": 0.0633,
      "step": 3700
    },
    {
      "epoch": 1.04,
      "eval_loss": 0.08735064417123795,
      "eval_runtime": 172.1357,
      "eval_samples_per_second": 15.348,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.0775089250297501,
      "step": 3700
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.38102397322654724,
      "learning_rate": 0.00023027156549520765,
      "loss": 0.0592,
      "step": 3701
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.4305981993675232,
      "learning_rate": 0.00023024978216671505,
      "loss": 0.093,
      "step": 3702
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.38800162076950073,
      "learning_rate": 0.00023022799883822245,
      "loss": 0.06,
      "step": 3703
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.42814046144485474,
      "learning_rate": 0.00023020621550972988,
      "loss": 0.0548,
      "step": 3704
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.5665113925933838,
      "learning_rate": 0.00023018443218123725,
      "loss": 0.0796,
      "step": 3705
    },
    {
      "epoch": 1.04,
      "grad_norm": 1.4080712795257568,
      "learning_rate": 0.00023016264885274468,
      "loss": 0.131,
      "step": 3706
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.30461016297340393,
      "learning_rate": 0.00023014086552425208,
      "loss": 0.0993,
      "step": 3707
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.19957491755485535,
      "learning_rate": 0.00023011908219575951,
      "loss": 0.0477,
      "step": 3708
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.1735268533229828,
      "learning_rate": 0.0002300972988672669,
      "loss": 0.0394,
      "step": 3709
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.2625808119773865,
      "learning_rate": 0.0002300755155387743,
      "loss": 0.0918,
      "step": 3710
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.2520507574081421,
      "learning_rate": 0.00023005373221028172,
      "loss": 0.0545,
      "step": 3711
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.2310286909341812,
      "learning_rate": 0.0002300319488817891,
      "loss": 0.0631,
      "step": 3712
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.14802774786949158,
      "learning_rate": 0.00023001016555329652,
      "loss": 0.0321,
      "step": 3713
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.09185965359210968,
      "learning_rate": 0.00022998838222480393,
      "loss": 0.0171,
      "step": 3714
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.17586219310760498,
      "learning_rate": 0.00022996659889631135,
      "loss": 0.0343,
      "step": 3715
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.23143146932125092,
      "learning_rate": 0.00022994481556781873,
      "loss": 0.0368,
      "step": 3716
    },
    {
      "epoch": 1.04,
      "grad_norm": 1.3143714666366577,
      "learning_rate": 0.00022992303223932613,
      "loss": 0.0747,
      "step": 3717
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.6632983088493347,
      "learning_rate": 0.00022990124891083356,
      "loss": 0.0414,
      "step": 3718
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.35226887464523315,
      "learning_rate": 0.00022987946558234094,
      "loss": 0.068,
      "step": 3719
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.5000950694084167,
      "learning_rate": 0.00022985768225384837,
      "loss": 0.1025,
      "step": 3720
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.15164780616760254,
      "learning_rate": 0.00022983589892535577,
      "loss": 0.0309,
      "step": 3721
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.17665596306324005,
      "learning_rate": 0.0002298141155968632,
      "loss": 0.0489,
      "step": 3722
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.2337796539068222,
      "learning_rate": 0.00022979233226837057,
      "loss": 0.0466,
      "step": 3723
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.1541132926940918,
      "learning_rate": 0.000229770548939878,
      "loss": 0.0261,
      "step": 3724
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.32255658507347107,
      "learning_rate": 0.0002297487656113854,
      "loss": 0.0637,
      "step": 3725
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3589693009853363,
      "learning_rate": 0.0002297269822828928,
      "loss": 0.0664,
      "step": 3726
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.3310340344905853,
      "learning_rate": 0.0002297051989544002,
      "loss": 0.0823,
      "step": 3727
    },
    {
      "epoch": 1.04,
      "grad_norm": 0.23878784477710724,
      "learning_rate": 0.0002296834156259076,
      "loss": 0.0507,
      "step": 3728
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.20657159388065338,
      "learning_rate": 0.00022966163229741504,
      "loss": 0.0434,
      "step": 3729
    },
    {
      "epoch": 1.05,
      "grad_norm": 1.0691031217575073,
      "learning_rate": 0.0002296398489689224,
      "loss": 0.1331,
      "step": 3730
    },
    {
      "epoch": 1.05,
      "grad_norm": 2.302063226699829,
      "learning_rate": 0.00022961806564042984,
      "loss": 0.1512,
      "step": 3731
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.20065322518348694,
      "learning_rate": 0.00022959628231193724,
      "loss": 0.0368,
      "step": 3732
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.3256744146347046,
      "learning_rate": 0.00022957449898344467,
      "loss": 0.0395,
      "step": 3733
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.21036630868911743,
      "learning_rate": 0.00022955271565495205,
      "loss": 0.0612,
      "step": 3734
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.34183114767074585,
      "learning_rate": 0.00022953093232645945,
      "loss": 0.0693,
      "step": 3735
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.37512871623039246,
      "learning_rate": 0.00022950914899796688,
      "loss": 0.0633,
      "step": 3736
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.17384356260299683,
      "learning_rate": 0.00022948736566947425,
      "loss": 0.0314,
      "step": 3737
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.3417152762413025,
      "learning_rate": 0.00022946558234098168,
      "loss": 0.1109,
      "step": 3738
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.2978857755661011,
      "learning_rate": 0.00022944379901248908,
      "loss": 0.0663,
      "step": 3739
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.31284382939338684,
      "learning_rate": 0.00022942201568399651,
      "loss": 0.0604,
      "step": 3740
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.3616223931312561,
      "learning_rate": 0.0002294002323555039,
      "loss": 0.059,
      "step": 3741
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.20244106650352478,
      "learning_rate": 0.0002293784490270113,
      "loss": 0.05,
      "step": 3742
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.7239680886268616,
      "learning_rate": 0.00022935666569851872,
      "loss": 0.2554,
      "step": 3743
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.2156786173582077,
      "learning_rate": 0.0002293348823700261,
      "loss": 0.0771,
      "step": 3744
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.18686629831790924,
      "learning_rate": 0.00022931309904153352,
      "loss": 0.0615,
      "step": 3745
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.2531369924545288,
      "learning_rate": 0.00022929131571304093,
      "loss": 0.0454,
      "step": 3746
    },
    {
      "epoch": 1.05,
      "grad_norm": 1.9056305885314941,
      "learning_rate": 0.00022926953238454836,
      "loss": 0.0455,
      "step": 3747
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.36133530735969543,
      "learning_rate": 0.00022924774905605573,
      "loss": 0.0731,
      "step": 3748
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.1288144290447235,
      "learning_rate": 0.00022922596572756316,
      "loss": 0.0258,
      "step": 3749
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.1846373975276947,
      "learning_rate": 0.00022920418239907056,
      "loss": 0.0453,
      "step": 3750
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.24387119710445404,
      "learning_rate": 0.00022918239907057794,
      "loss": 0.0633,
      "step": 3751
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.22739768028259277,
      "learning_rate": 0.00022916061574208537,
      "loss": 0.0461,
      "step": 3752
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.655994713306427,
      "learning_rate": 0.00022913883241359277,
      "loss": 0.0437,
      "step": 3753
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.3441718816757202,
      "learning_rate": 0.0002291170490851002,
      "loss": 0.0716,
      "step": 3754
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.46749478578567505,
      "learning_rate": 0.00022909526575660757,
      "loss": 0.0816,
      "step": 3755
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.29544636607170105,
      "learning_rate": 0.000229073482428115,
      "loss": 0.0527,
      "step": 3756
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.24132324755191803,
      "learning_rate": 0.0002290516990996224,
      "loss": 0.0472,
      "step": 3757
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.30429190397262573,
      "learning_rate": 0.00022902991577112983,
      "loss": 0.0875,
      "step": 3758
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.22024929523468018,
      "learning_rate": 0.0002290081324426372,
      "loss": 0.0317,
      "step": 3759
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.4153203070163727,
      "learning_rate": 0.0002289863491141446,
      "loss": 0.0676,
      "step": 3760
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.25831153988838196,
      "learning_rate": 0.00022896456578565204,
      "loss": 0.0506,
      "step": 3761
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.2174442559480667,
      "learning_rate": 0.0002289427824571594,
      "loss": 0.048,
      "step": 3762
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.5750511288642883,
      "learning_rate": 0.00022892099912866684,
      "loss": 0.1017,
      "step": 3763
    },
    {
      "epoch": 1.05,
      "grad_norm": 0.21919837594032288,
      "learning_rate": 0.00022889921580017424,
      "loss": 0.0605,
      "step": 3764
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.24774450063705444,
      "learning_rate": 0.00022887743247168167,
      "loss": 0.0834,
      "step": 3765
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42015939950942993,
      "learning_rate": 0.00022885564914318905,
      "loss": 0.0396,
      "step": 3766
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.22411377727985382,
      "learning_rate": 0.00022883386581469648,
      "loss": 0.0599,
      "step": 3767
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.31897100806236267,
      "learning_rate": 0.00022881208248620388,
      "loss": 0.0432,
      "step": 3768
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.23325492441654205,
      "learning_rate": 0.00022879029915771125,
      "loss": 0.0467,
      "step": 3769
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.20466499030590057,
      "learning_rate": 0.00022876851582921868,
      "loss": 0.0454,
      "step": 3770
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.37144744396209717,
      "learning_rate": 0.00022874673250072609,
      "loss": 0.0928,
      "step": 3771
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.3128889799118042,
      "learning_rate": 0.00022872494917223351,
      "loss": 0.0583,
      "step": 3772
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.19788935780525208,
      "learning_rate": 0.0002287031658437409,
      "loss": 0.0549,
      "step": 3773
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.29921120405197144,
      "learning_rate": 0.00022868138251524832,
      "loss": 0.0528,
      "step": 3774
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.3251640498638153,
      "learning_rate": 0.00022865959918675572,
      "loss": 0.0857,
      "step": 3775
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.31986501812934875,
      "learning_rate": 0.0002286378158582631,
      "loss": 0.0677,
      "step": 3776
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.2871532142162323,
      "learning_rate": 0.00022861603252977052,
      "loss": 0.0562,
      "step": 3777
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.26410576701164246,
      "learning_rate": 0.00022859424920127793,
      "loss": 0.0305,
      "step": 3778
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.2691158652305603,
      "learning_rate": 0.00022857246587278536,
      "loss": 0.0456,
      "step": 3779
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.4378146231174469,
      "learning_rate": 0.00022855068254429273,
      "loss": 0.0785,
      "step": 3780
    },
    {
      "epoch": 1.06,
      "grad_norm": 1.0986677408218384,
      "learning_rate": 0.00022852889921580016,
      "loss": 0.336,
      "step": 3781
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.19256962835788727,
      "learning_rate": 0.00022850711588730756,
      "loss": 0.0832,
      "step": 3782
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.24204038083553314,
      "learning_rate": 0.000228485332558815,
      "loss": 0.0376,
      "step": 3783
    },
    {
      "epoch": 1.06,
      "grad_norm": 1.6180955171585083,
      "learning_rate": 0.00022846354923032237,
      "loss": 0.0705,
      "step": 3784
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.2726207673549652,
      "learning_rate": 0.00022844176590182977,
      "loss": 0.0753,
      "step": 3785
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.3591780662536621,
      "learning_rate": 0.0002284199825733372,
      "loss": 0.0803,
      "step": 3786
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.19975842535495758,
      "learning_rate": 0.00022839819924484457,
      "loss": 0.0451,
      "step": 3787
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.19058111310005188,
      "learning_rate": 0.000228376415916352,
      "loss": 0.0611,
      "step": 3788
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.292481005191803,
      "learning_rate": 0.0002283546325878594,
      "loss": 0.1074,
      "step": 3789
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.42574232816696167,
      "learning_rate": 0.00022833284925936683,
      "loss": 0.0734,
      "step": 3790
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.5506306886672974,
      "learning_rate": 0.0002283110659308742,
      "loss": 0.0449,
      "step": 3791
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.26263466477394104,
      "learning_rate": 0.00022828928260238164,
      "loss": 0.0865,
      "step": 3792
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.5215568542480469,
      "learning_rate": 0.00022826749927388904,
      "loss": 0.12,
      "step": 3793
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.6833640933036804,
      "learning_rate": 0.00022824571594539641,
      "loss": 0.0782,
      "step": 3794
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.2599988281726837,
      "learning_rate": 0.00022822393261690384,
      "loss": 0.0329,
      "step": 3795
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.2396288365125656,
      "learning_rate": 0.00022820214928841124,
      "loss": 0.0819,
      "step": 3796
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.15817631781101227,
      "learning_rate": 0.00022818036595991867,
      "loss": 0.0442,
      "step": 3797
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.2847709357738495,
      "learning_rate": 0.00022815858263142605,
      "loss": 0.069,
      "step": 3798
    },
    {
      "epoch": 1.06,
      "grad_norm": 0.2591213583946228,
      "learning_rate": 0.00022813679930293348,
      "loss": 0.0687,
      "step": 3799
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.2929856777191162,
      "learning_rate": 0.00022811501597444088,
      "loss": 0.063,
      "step": 3800
    },
    {
      "epoch": 1.07,
      "eval_loss": 0.08551077544689178,
      "eval_runtime": 174.877,
      "eval_samples_per_second": 15.108,
      "eval_steps_per_second": 0.475,
      "eval_wer": 0.07566441888139627,
      "step": 3800
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3372649550437927,
      "learning_rate": 0.00022809323264594825,
      "loss": 0.0853,
      "step": 3801
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3908237814903259,
      "learning_rate": 0.00022807144931745568,
      "loss": 0.0729,
      "step": 3802
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3234230577945709,
      "learning_rate": 0.00022804966598896309,
      "loss": 0.046,
      "step": 3803
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3607313930988312,
      "learning_rate": 0.00022802788266047052,
      "loss": 0.0767,
      "step": 3804
    },
    {
      "epoch": 1.07,
      "grad_norm": 1.6565203666687012,
      "learning_rate": 0.0002280060993319779,
      "loss": 0.0938,
      "step": 3805
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.9363442659378052,
      "learning_rate": 0.00022798431600348532,
      "loss": 0.1561,
      "step": 3806
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.24506664276123047,
      "learning_rate": 0.00022796253267499272,
      "loss": 0.0785,
      "step": 3807
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3138461112976074,
      "learning_rate": 0.00022794074934650015,
      "loss": 0.0656,
      "step": 3808
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.1604967564344406,
      "learning_rate": 0.00022791896601800753,
      "loss": 0.0288,
      "step": 3809
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.20532509684562683,
      "learning_rate": 0.00022789718268951493,
      "loss": 0.0775,
      "step": 3810
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.23121751844882965,
      "learning_rate": 0.00022787539936102236,
      "loss": 0.0319,
      "step": 3811
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.34352168440818787,
      "learning_rate": 0.00022785361603252973,
      "loss": 0.0758,
      "step": 3812
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.38608473539352417,
      "learning_rate": 0.00022783183270403716,
      "loss": 0.0775,
      "step": 3813
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.21875043213367462,
      "learning_rate": 0.00022781004937554456,
      "loss": 0.0366,
      "step": 3814
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.13171257078647614,
      "learning_rate": 0.000227788266047052,
      "loss": 0.0267,
      "step": 3815
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.36387696862220764,
      "learning_rate": 0.00022776648271855937,
      "loss": 0.0905,
      "step": 3816
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.22293643653392792,
      "learning_rate": 0.0002277446993900668,
      "loss": 0.0245,
      "step": 3817
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3318784236907959,
      "learning_rate": 0.0002277229160615742,
      "loss": 0.0599,
      "step": 3818
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.23943009972572327,
      "learning_rate": 0.00022770113273308157,
      "loss": 0.0661,
      "step": 3819
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.23262479901313782,
      "learning_rate": 0.000227679349404589,
      "loss": 0.0951,
      "step": 3820
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.1360819935798645,
      "learning_rate": 0.0002276575660760964,
      "loss": 0.0384,
      "step": 3821
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.22060823440551758,
      "learning_rate": 0.00022763578274760383,
      "loss": 0.0515,
      "step": 3822
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.20237641036510468,
      "learning_rate": 0.0002276139994191112,
      "loss": 0.0444,
      "step": 3823
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.2902028560638428,
      "learning_rate": 0.00022759221609061864,
      "loss": 0.0683,
      "step": 3824
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.2847621738910675,
      "learning_rate": 0.00022757043276212604,
      "loss": 0.0515,
      "step": 3825
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.4233776032924652,
      "learning_rate": 0.00022754864943363341,
      "loss": 0.0661,
      "step": 3826
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.22044913470745087,
      "learning_rate": 0.00022752686610514084,
      "loss": 0.045,
      "step": 3827
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.2577621042728424,
      "learning_rate": 0.00022750508277664825,
      "loss": 0.0766,
      "step": 3828
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.26577186584472656,
      "learning_rate": 0.00022748329944815567,
      "loss": 0.0375,
      "step": 3829
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.3247010409832001,
      "learning_rate": 0.00022746151611966305,
      "loss": 0.1173,
      "step": 3830
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.661543071269989,
      "learning_rate": 0.00022743973279117048,
      "loss": 0.1415,
      "step": 3831
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.35214248299598694,
      "learning_rate": 0.00022741794946267788,
      "loss": 0.0999,
      "step": 3832
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.15531176328659058,
      "learning_rate": 0.0002273961661341853,
      "loss": 0.0277,
      "step": 3833
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.19237492978572845,
      "learning_rate": 0.00022737438280569268,
      "loss": 0.0458,
      "step": 3834
    },
    {
      "epoch": 1.07,
      "grad_norm": 0.22674661874771118,
      "learning_rate": 0.0002273525994772001,
      "loss": 0.0646,
      "step": 3835
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.16597892343997955,
      "learning_rate": 0.00022733081614870752,
      "loss": 0.0238,
      "step": 3836
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.30239877104759216,
      "learning_rate": 0.0002273090328202149,
      "loss": 0.0969,
      "step": 3837
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.38050299882888794,
      "learning_rate": 0.00022728724949172232,
      "loss": 0.0582,
      "step": 3838
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.28994283080101013,
      "learning_rate": 0.00022726546616322972,
      "loss": 0.071,
      "step": 3839
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.16153179109096527,
      "learning_rate": 0.00022724368283473715,
      "loss": 0.0411,
      "step": 3840
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.193526491522789,
      "learning_rate": 0.00022722189950624453,
      "loss": 0.0375,
      "step": 3841
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.18059460818767548,
      "learning_rate": 0.00022720011617775196,
      "loss": 0.023,
      "step": 3842
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.6717528104782104,
      "learning_rate": 0.00022717833284925936,
      "loss": 0.1443,
      "step": 3843
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.21480122208595276,
      "learning_rate": 0.00022715654952076673,
      "loss": 0.0731,
      "step": 3844
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.2779753804206848,
      "learning_rate": 0.00022713476619227416,
      "loss": 0.0565,
      "step": 3845
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.2756893038749695,
      "learning_rate": 0.00022711298286378156,
      "loss": 0.0497,
      "step": 3846
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.39840036630630493,
      "learning_rate": 0.000227091199535289,
      "loss": 0.1069,
      "step": 3847
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.24046078324317932,
      "learning_rate": 0.00022706941620679637,
      "loss": 0.0396,
      "step": 3848
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.2452995330095291,
      "learning_rate": 0.0002270476328783038,
      "loss": 0.0372,
      "step": 3849
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.18666774034500122,
      "learning_rate": 0.0002270258495498112,
      "loss": 0.0275,
      "step": 3850
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.368184357881546,
      "learning_rate": 0.00022700406622131857,
      "loss": 0.063,
      "step": 3851
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.3817290663719177,
      "learning_rate": 0.000226982282892826,
      "loss": 0.0538,
      "step": 3852
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.24077628552913666,
      "learning_rate": 0.0002269604995643334,
      "loss": 0.0402,
      "step": 3853
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.27935588359832764,
      "learning_rate": 0.00022693871623584083,
      "loss": 0.0799,
      "step": 3854
    },
    {
      "epoch": 1.08,
      "grad_norm": 1.0086448192596436,
      "learning_rate": 0.0002269169329073482,
      "loss": 0.1398,
      "step": 3855
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.6609445810317993,
      "learning_rate": 0.00022689514957885564,
      "loss": 0.1219,
      "step": 3856
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.3151988685131073,
      "learning_rate": 0.00022687336625036304,
      "loss": 0.0424,
      "step": 3857
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.3983694612979889,
      "learning_rate": 0.00022685158292187047,
      "loss": 0.073,
      "step": 3858
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.21221327781677246,
      "learning_rate": 0.00022682979959337784,
      "loss": 0.0753,
      "step": 3859
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.23337818682193756,
      "learning_rate": 0.00022680801626488525,
      "loss": 0.0546,
      "step": 3860
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.23402316868305206,
      "learning_rate": 0.00022678623293639267,
      "loss": 0.053,
      "step": 3861
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.31059786677360535,
      "learning_rate": 0.00022676444960790005,
      "loss": 0.0605,
      "step": 3862
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.30459004640579224,
      "learning_rate": 0.00022674266627940748,
      "loss": 0.0783,
      "step": 3863
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.2020546793937683,
      "learning_rate": 0.00022672088295091488,
      "loss": 0.0506,
      "step": 3864
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.32504794001579285,
      "learning_rate": 0.0002266990996224223,
      "loss": 0.0598,
      "step": 3865
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.19233280420303345,
      "learning_rate": 0.00022667731629392969,
      "loss": 0.0407,
      "step": 3866
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.5474264621734619,
      "learning_rate": 0.00022665553296543711,
      "loss": 0.097,
      "step": 3867
    },
    {
      "epoch": 1.08,
      "grad_norm": 1.2590606212615967,
      "learning_rate": 0.00022663374963694452,
      "loss": 0.116,
      "step": 3868
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.15896554291248322,
      "learning_rate": 0.0002266119663084519,
      "loss": 0.0376,
      "step": 3869
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.19999338686466217,
      "learning_rate": 0.00022659018297995932,
      "loss": 0.0359,
      "step": 3870
    },
    {
      "epoch": 1.08,
      "grad_norm": 0.32645806670188904,
      "learning_rate": 0.00022656839965146672,
      "loss": 0.0683,
      "step": 3871
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.17880965769290924,
      "learning_rate": 0.00022654661632297415,
      "loss": 0.0313,
      "step": 3872
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.210639089345932,
      "learning_rate": 0.00022652483299448153,
      "loss": 0.0474,
      "step": 3873
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.2769123613834381,
      "learning_rate": 0.00022650304966598896,
      "loss": 0.0837,
      "step": 3874
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.17575842142105103,
      "learning_rate": 0.00022648126633749636,
      "loss": 0.0645,
      "step": 3875
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.3485229015350342,
      "learning_rate": 0.00022645948300900373,
      "loss": 0.0691,
      "step": 3876
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.24634264409542084,
      "learning_rate": 0.00022643769968051116,
      "loss": 0.0651,
      "step": 3877
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.30978459119796753,
      "learning_rate": 0.00022641591635201856,
      "loss": 0.0843,
      "step": 3878
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.3604455292224884,
      "learning_rate": 0.000226394133023526,
      "loss": 0.1176,
      "step": 3879
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.3472582995891571,
      "learning_rate": 0.00022637234969503337,
      "loss": 0.0541,
      "step": 3880
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.5785675048828125,
      "learning_rate": 0.0002263505663665408,
      "loss": 0.0556,
      "step": 3881
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.29775470495224,
      "learning_rate": 0.0002263287830380482,
      "loss": 0.0525,
      "step": 3882
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.24017582833766937,
      "learning_rate": 0.0002263069997095556,
      "loss": 0.058,
      "step": 3883
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.31926149129867554,
      "learning_rate": 0.000226285216381063,
      "loss": 0.0572,
      "step": 3884
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.289153516292572,
      "learning_rate": 0.0002262634330525704,
      "loss": 0.0917,
      "step": 3885
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.1882661134004593,
      "learning_rate": 0.00022624164972407783,
      "loss": 0.0356,
      "step": 3886
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.16602274775505066,
      "learning_rate": 0.0002262198663955852,
      "loss": 0.0436,
      "step": 3887
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.31377071142196655,
      "learning_rate": 0.00022619808306709264,
      "loss": 0.0571,
      "step": 3888
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.4276762306690216,
      "learning_rate": 0.00022617629973860004,
      "loss": 0.0578,
      "step": 3889
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.39428213238716125,
      "learning_rate": 0.00022615451641010747,
      "loss": 0.0672,
      "step": 3890
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.8015583157539368,
      "learning_rate": 0.00022613273308161484,
      "loss": 0.0638,
      "step": 3891
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.33759379386901855,
      "learning_rate": 0.00022611094975312227,
      "loss": 0.0466,
      "step": 3892
    },
    {
      "epoch": 1.09,
      "grad_norm": 1.5272189378738403,
      "learning_rate": 0.00022608916642462968,
      "loss": 0.147,
      "step": 3893
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.20393314957618713,
      "learning_rate": 0.00022606738309613705,
      "loss": 0.0698,
      "step": 3894
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.2022269070148468,
      "learning_rate": 0.00022604559976764448,
      "loss": 0.0428,
      "step": 3895
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.2007366567850113,
      "learning_rate": 0.00022602381643915188,
      "loss": 0.0535,
      "step": 3896
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.3281742036342621,
      "learning_rate": 0.0002260020331106593,
      "loss": 0.0732,
      "step": 3897
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.18540890514850616,
      "learning_rate": 0.00022598024978216669,
      "loss": 0.0399,
      "step": 3898
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.23206619918346405,
      "learning_rate": 0.00022595846645367411,
      "loss": 0.0514,
      "step": 3899
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.2857447862625122,
      "learning_rate": 0.00022593668312518152,
      "loss": 0.0653,
      "step": 3900
    },
    {
      "epoch": 1.09,
      "eval_loss": 0.09156188368797302,
      "eval_runtime": 172.7623,
      "eval_samples_per_second": 15.293,
      "eval_steps_per_second": 0.48,
      "eval_wer": 0.07661642205474019,
      "step": 3900
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.2144973874092102,
      "learning_rate": 0.00022591489979668892,
      "loss": 0.0649,
      "step": 3901
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.22088183462619781,
      "learning_rate": 0.00022589311646819632,
      "loss": 0.0841,
      "step": 3902
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.27408742904663086,
      "learning_rate": 0.00022587133313970372,
      "loss": 0.1092,
      "step": 3903
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.6308605074882507,
      "learning_rate": 0.00022584954981121115,
      "loss": 0.1166,
      "step": 3904
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.2964146137237549,
      "learning_rate": 0.00022582776648271853,
      "loss": 0.0656,
      "step": 3905
    },
    {
      "epoch": 1.09,
      "grad_norm": 0.6535994410514832,
      "learning_rate": 0.00022580598315422596,
      "loss": 0.1287,
      "step": 3906
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.20726850628852844,
      "learning_rate": 0.00022578419982573336,
      "loss": 0.0454,
      "step": 3907
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.1700635552406311,
      "learning_rate": 0.00022576241649724076,
      "loss": 0.0392,
      "step": 3908
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.2943125069141388,
      "learning_rate": 0.00022574063316874816,
      "loss": 0.08,
      "step": 3909
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.40681901574134827,
      "learning_rate": 0.00022571884984025556,
      "loss": 0.0864,
      "step": 3910
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.26406317949295044,
      "learning_rate": 0.000225697066511763,
      "loss": 0.0661,
      "step": 3911
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.2596723735332489,
      "learning_rate": 0.00022567528318327037,
      "loss": 0.0844,
      "step": 3912
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.34870439767837524,
      "learning_rate": 0.0002256534998547778,
      "loss": 0.0875,
      "step": 3913
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.3636488616466522,
      "learning_rate": 0.0002256317165262852,
      "loss": 0.0885,
      "step": 3914
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.19457797706127167,
      "learning_rate": 0.0002256099331977926,
      "loss": 0.0711,
      "step": 3915
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.509040892124176,
      "learning_rate": 0.0002255881498693,
      "loss": 0.1408,
      "step": 3916
    },
    {
      "epoch": 1.1,
      "grad_norm": 1.7273327112197876,
      "learning_rate": 0.00022556636654080743,
      "loss": 0.1856,
      "step": 3917
    },
    {
      "epoch": 1.1,
      "grad_norm": 1.2590545415878296,
      "learning_rate": 0.00022554458321231483,
      "loss": 0.4477,
      "step": 3918
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.2110208123922348,
      "learning_rate": 0.0002255227998838222,
      "loss": 0.0533,
      "step": 3919
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.2338005006313324,
      "learning_rate": 0.00022550101655532964,
      "loss": 0.0569,
      "step": 3920
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.18405629694461823,
      "learning_rate": 0.00022547923322683704,
      "loss": 0.0319,
      "step": 3921
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.24212954938411713,
      "learning_rate": 0.00022545744989834444,
      "loss": 0.072,
      "step": 3922
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.1504206508398056,
      "learning_rate": 0.00022543566656985184,
      "loss": 0.0538,
      "step": 3923
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.1583835780620575,
      "learning_rate": 0.00022541388324135927,
      "loss": 0.0426,
      "step": 3924
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.27663248777389526,
      "learning_rate": 0.00022539209991286668,
      "loss": 0.0619,
      "step": 3925
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.2702468931674957,
      "learning_rate": 0.00022537031658437408,
      "loss": 0.087,
      "step": 3926
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.403659850358963,
      "learning_rate": 0.00022534853325588148,
      "loss": 0.1098,
      "step": 3927
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.30435511469841003,
      "learning_rate": 0.00022532674992738888,
      "loss": 0.0869,
      "step": 3928
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.2315254807472229,
      "learning_rate": 0.00022530496659889628,
      "loss": 0.0401,
      "step": 3929
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4281041622161865,
      "learning_rate": 0.00022528318327040369,
      "loss": 0.1228,
      "step": 3930
    },
    {
      "epoch": 1.1,
      "grad_norm": 1.2240372896194458,
      "learning_rate": 0.00022526139994191112,
      "loss": 0.3043,
      "step": 3931
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.27402472496032715,
      "learning_rate": 0.00022523961661341852,
      "loss": 0.0982,
      "step": 3932
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.16664935648441315,
      "learning_rate": 0.00022521783328492592,
      "loss": 0.0291,
      "step": 3933
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.18290960788726807,
      "learning_rate": 0.00022519604995643332,
      "loss": 0.0787,
      "step": 3934
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.26925477385520935,
      "learning_rate": 0.00022517426662794072,
      "loss": 0.0622,
      "step": 3935
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.2434128075838089,
      "learning_rate": 0.00022515248329944813,
      "loss": 0.0565,
      "step": 3936
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.22552117705345154,
      "learning_rate": 0.00022513069997095553,
      "loss": 0.0588,
      "step": 3937
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.17602214217185974,
      "learning_rate": 0.00022510891664246296,
      "loss": 0.0527,
      "step": 3938
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.1745242327451706,
      "learning_rate": 0.00022508713331397036,
      "loss": 0.0469,
      "step": 3939
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.2628341317176819,
      "learning_rate": 0.00022506534998547776,
      "loss": 0.0821,
      "step": 3940
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.45437249541282654,
      "learning_rate": 0.00022504356665698516,
      "loss": 0.1487,
      "step": 3941
    },
    {
      "epoch": 1.1,
      "grad_norm": 0.4050652086734772,
      "learning_rate": 0.0002250217833284926,
      "loss": 0.0813,
      "step": 3942
    },
    {
      "epoch": 1.11,
      "grad_norm": 1.3040443658828735,
      "learning_rate": 0.000225,
      "loss": 0.1821,
      "step": 3943
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.16852332651615143,
      "learning_rate": 0.00022497821667150737,
      "loss": 0.0553,
      "step": 3944
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.2626223564147949,
      "learning_rate": 0.0002249564333430148,
      "loss": 0.0709,
      "step": 3945
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.27446749806404114,
      "learning_rate": 0.0002249346500145222,
      "loss": 0.0561,
      "step": 3946
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.2728615999221802,
      "learning_rate": 0.0002249128666860296,
      "loss": 0.086,
      "step": 3947
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.21983052790164948,
      "learning_rate": 0.000224891083357537,
      "loss": 0.0517,
      "step": 3948
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.3271807134151459,
      "learning_rate": 0.00022486930002904443,
      "loss": 0.0576,
      "step": 3949
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.21551990509033203,
      "learning_rate": 0.00022484751670055184,
      "loss": 0.0399,
      "step": 3950
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.36530500650405884,
      "learning_rate": 0.00022482573337205924,
      "loss": 0.1081,
      "step": 3951
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.3468104302883148,
      "learning_rate": 0.00022480395004356664,
      "loss": 0.0652,
      "step": 3952
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.19855788350105286,
      "learning_rate": 0.00022478216671507404,
      "loss": 0.0537,
      "step": 3953
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.36473625898361206,
      "learning_rate": 0.00022476038338658144,
      "loss": 0.1337,
      "step": 3954
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.47952887415885925,
      "learning_rate": 0.00022473860005808885,
      "loss": 0.0767,
      "step": 3955
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.32101285457611084,
      "learning_rate": 0.00022471681672959627,
      "loss": 0.0624,
      "step": 3956
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.16994769871234894,
      "learning_rate": 0.00022469503340110368,
      "loss": 0.043,
      "step": 3957
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.18562506139278412,
      "learning_rate": 0.00022467325007261108,
      "loss": 0.0525,
      "step": 3958
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.34376049041748047,
      "learning_rate": 0.00022465146674411848,
      "loss": 0.0922,
      "step": 3959
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.16796857118606567,
      "learning_rate": 0.00022462968341562588,
      "loss": 0.0184,
      "step": 3960
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.25472790002822876,
      "learning_rate": 0.00022460790008713328,
      "loss": 0.0404,
      "step": 3961
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.18235130608081818,
      "learning_rate": 0.0002245861167586407,
      "loss": 0.0398,
      "step": 3962
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.3093222975730896,
      "learning_rate": 0.00022456433343014812,
      "loss": 0.0524,
      "step": 3963
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.19418492913246155,
      "learning_rate": 0.00022454255010165552,
      "loss": 0.0406,
      "step": 3964
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.36266055703163147,
      "learning_rate": 0.00022452076677316292,
      "loss": 0.1476,
      "step": 3965
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.2962285876274109,
      "learning_rate": 0.00022449898344467032,
      "loss": 0.0603,
      "step": 3966
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.30435916781425476,
      "learning_rate": 0.00022447720011617775,
      "loss": 0.0427,
      "step": 3967
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.44885408878326416,
      "learning_rate": 0.00022445541678768513,
      "loss": 0.0487,
      "step": 3968
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.34899285435676575,
      "learning_rate": 0.00022443363345919253,
      "loss": 0.0884,
      "step": 3969
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.316175252199173,
      "learning_rate": 0.00022441185013069996,
      "loss": 0.0919,
      "step": 3970
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.2094380110502243,
      "learning_rate": 0.00022439006680220736,
      "loss": 0.0587,
      "step": 3971
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.28335970640182495,
      "learning_rate": 0.00022436828347371476,
      "loss": 0.0871,
      "step": 3972
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.3263348340988159,
      "learning_rate": 0.00022434650014522216,
      "loss": 0.0386,
      "step": 3973
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.2073730230331421,
      "learning_rate": 0.0002243247168167296,
      "loss": 0.0539,
      "step": 3974
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.1422998011112213,
      "learning_rate": 0.00022430293348823697,
      "loss": 0.0331,
      "step": 3975
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.19544991850852966,
      "learning_rate": 0.0002242811501597444,
      "loss": 0.0573,
      "step": 3976
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.3026147782802582,
      "learning_rate": 0.0002242593668312518,
      "loss": 0.0485,
      "step": 3977
    },
    {
      "epoch": 1.11,
      "grad_norm": 0.12590567767620087,
      "learning_rate": 0.0002242375835027592,
      "loss": 0.0229,
      "step": 3978
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.27506232261657715,
      "learning_rate": 0.0002242158001742666,
      "loss": 0.0561,
      "step": 3979
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.5664181113243103,
      "learning_rate": 0.000224194016845774,
      "loss": 0.1006,
      "step": 3980
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.45987623929977417,
      "learning_rate": 0.00022417223351728143,
      "loss": 0.0424,
      "step": 3981
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.1539057195186615,
      "learning_rate": 0.0002241504501887888,
      "loss": 0.0299,
      "step": 3982
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.157140851020813,
      "learning_rate": 0.00022412866686029624,
      "loss": 0.032,
      "step": 3983
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.19606949388980865,
      "learning_rate": 0.00022410688353180364,
      "loss": 0.0382,
      "step": 3984
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.12870031595230103,
      "learning_rate": 0.00022408510020331104,
      "loss": 0.023,
      "step": 3985
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.40256214141845703,
      "learning_rate": 0.00022406331687481844,
      "loss": 0.0443,
      "step": 3986
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.3184964954853058,
      "learning_rate": 0.00022404153354632585,
      "loss": 0.0799,
      "step": 3987
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.1950383186340332,
      "learning_rate": 0.00022401975021783327,
      "loss": 0.0668,
      "step": 3988
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.21356044709682465,
      "learning_rate": 0.00022399796688934065,
      "loss": 0.0606,
      "step": 3989
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.22695232927799225,
      "learning_rate": 0.00022397618356084808,
      "loss": 0.0387,
      "step": 3990
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.22420604526996613,
      "learning_rate": 0.00022395440023235548,
      "loss": 0.0431,
      "step": 3991
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.17684948444366455,
      "learning_rate": 0.0002239326169038629,
      "loss": 0.0423,
      "step": 3992
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.934796154499054,
      "learning_rate": 0.00022391083357537029,
      "loss": 0.1379,
      "step": 3993
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.11818059533834457,
      "learning_rate": 0.0002238890502468777,
      "loss": 0.0258,
      "step": 3994
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.25194472074508667,
      "learning_rate": 0.00022386726691838512,
      "loss": 0.0781,
      "step": 3995
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.20371805131435394,
      "learning_rate": 0.0002238454835898925,
      "loss": 0.0582,
      "step": 3996
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.24613304436206818,
      "learning_rate": 0.00022382370026139992,
      "loss": 0.0551,
      "step": 3997
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.30753159523010254,
      "learning_rate": 0.00022380191693290732,
      "loss": 0.056,
      "step": 3998
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.2618195712566376,
      "learning_rate": 0.00022378013360441475,
      "loss": 0.0754,
      "step": 3999
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.43492498993873596,
      "learning_rate": 0.00022375835027592213,
      "loss": 0.0381,
      "step": 4000
    },
    {
      "epoch": 1.12,
      "eval_loss": 0.08637809753417969,
      "eval_runtime": 171.2552,
      "eval_samples_per_second": 15.427,
      "eval_steps_per_second": 0.485,
      "eval_wer": 0.07562475208250694,
      "step": 4000
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.21772432327270508,
      "learning_rate": 0.00022373656694742956,
      "loss": 0.0673,
      "step": 4001
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.27814650535583496,
      "learning_rate": 0.00022371478361893696,
      "loss": 0.0558,
      "step": 4002
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.2215459942817688,
      "learning_rate": 0.00022369300029044436,
      "loss": 0.0313,
      "step": 4003
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.14956431090831757,
      "learning_rate": 0.00022367121696195176,
      "loss": 0.0265,
      "step": 4004
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.4686727523803711,
      "learning_rate": 0.00022364943363345916,
      "loss": 0.0757,
      "step": 4005
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.5857087969779968,
      "learning_rate": 0.0002236276503049666,
      "loss": 0.0488,
      "step": 4006
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.15643756091594696,
      "learning_rate": 0.00022360586697647397,
      "loss": 0.0415,
      "step": 4007
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.15490564703941345,
      "learning_rate": 0.0002235840836479814,
      "loss": 0.0376,
      "step": 4008
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.26193270087242126,
      "learning_rate": 0.0002235623003194888,
      "loss": 0.0958,
      "step": 4009
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.3223697245121002,
      "learning_rate": 0.00022354051699099623,
      "loss": 0.0583,
      "step": 4010
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.1701589673757553,
      "learning_rate": 0.0002235187336625036,
      "loss": 0.0441,
      "step": 4011
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.22946377098560333,
      "learning_rate": 0.000223496950334011,
      "loss": 0.0485,
      "step": 4012
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.254130095243454,
      "learning_rate": 0.00022347516700551843,
      "loss": 0.0467,
      "step": 4013
    },
    {
      "epoch": 1.12,
      "grad_norm": 0.23252372443675995,
      "learning_rate": 0.0002234533836770258,
      "loss": 0.0678,
      "step": 4014
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.49880874156951904,
      "learning_rate": 0.00022343160034853324,
      "loss": 0.1168,
      "step": 4015
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4622500538825989,
      "learning_rate": 0.00022340981702004064,
      "loss": 0.0942,
      "step": 4016
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.46363571286201477,
      "learning_rate": 0.00022338803369154807,
      "loss": 0.0355,
      "step": 4017
    },
    {
      "epoch": 1.13,
      "grad_norm": 1.281448245048523,
      "learning_rate": 0.00022336625036305544,
      "loss": 0.2575,
      "step": 4018
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.3304111361503601,
      "learning_rate": 0.00022334446703456285,
      "loss": 0.0478,
      "step": 4019
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.211586594581604,
      "learning_rate": 0.00022332268370607028,
      "loss": 0.0647,
      "step": 4020
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.30245810747146606,
      "learning_rate": 0.00022330090037757765,
      "loss": 0.0627,
      "step": 4021
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.1513989120721817,
      "learning_rate": 0.00022327911704908508,
      "loss": 0.0429,
      "step": 4022
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4117186665534973,
      "learning_rate": 0.00022325733372059248,
      "loss": 0.1026,
      "step": 4023
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.18288978934288025,
      "learning_rate": 0.0002232355503920999,
      "loss": 0.0407,
      "step": 4024
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.2692708969116211,
      "learning_rate": 0.00022321376706360729,
      "loss": 0.0579,
      "step": 4025
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.226707324385643,
      "learning_rate": 0.00022319198373511471,
      "loss": 0.0508,
      "step": 4026
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.19050048291683197,
      "learning_rate": 0.00022317020040662212,
      "loss": 0.0369,
      "step": 4027
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.2710198760032654,
      "learning_rate": 0.0002231484170781295,
      "loss": 0.0685,
      "step": 4028
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.6430329084396362,
      "learning_rate": 0.00022312663374963692,
      "loss": 0.0762,
      "step": 4029
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.669320821762085,
      "learning_rate": 0.00022310485042114432,
      "loss": 0.1015,
      "step": 4030
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.31994545459747314,
      "learning_rate": 0.00022308306709265175,
      "loss": 0.0753,
      "step": 4031
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.3115648627281189,
      "learning_rate": 0.00022306128376415913,
      "loss": 0.058,
      "step": 4032
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.17986352741718292,
      "learning_rate": 0.00022303950043566656,
      "loss": 0.0329,
      "step": 4033
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.32126951217651367,
      "learning_rate": 0.00022301771710717396,
      "loss": 0.0416,
      "step": 4034
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.2094070166349411,
      "learning_rate": 0.0002229959337786814,
      "loss": 0.0682,
      "step": 4035
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.24582745134830475,
      "learning_rate": 0.00022297415045018876,
      "loss": 0.0577,
      "step": 4036
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.15792237222194672,
      "learning_rate": 0.00022295236712169616,
      "loss": 0.0373,
      "step": 4037
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.21080778539180756,
      "learning_rate": 0.0002229305837932036,
      "loss": 0.0454,
      "step": 4038
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.1649031788110733,
      "learning_rate": 0.00022290880046471097,
      "loss": 0.0355,
      "step": 4039
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.4760265350341797,
      "learning_rate": 0.0002228870171362184,
      "loss": 0.0593,
      "step": 4040
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.3868134021759033,
      "learning_rate": 0.0002228652338077258,
      "loss": 0.0959,
      "step": 4041
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.5002173781394958,
      "learning_rate": 0.00022284345047923323,
      "loss": 0.0652,
      "step": 4042
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.7129601836204529,
      "learning_rate": 0.0002228216671507406,
      "loss": 0.1031,
      "step": 4043
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.20711493492126465,
      "learning_rate": 0.000222799883822248,
      "loss": 0.0746,
      "step": 4044
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.20407423377037048,
      "learning_rate": 0.00022277810049375543,
      "loss": 0.0545,
      "step": 4045
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.2284611314535141,
      "learning_rate": 0.0002227563171652628,
      "loss": 0.0521,
      "step": 4046
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.23561343550682068,
      "learning_rate": 0.00022273453383677024,
      "loss": 0.0338,
      "step": 4047
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.28177204728126526,
      "learning_rate": 0.00022271275050827764,
      "loss": 0.0432,
      "step": 4048
    },
    {
      "epoch": 1.13,
      "grad_norm": 0.6834972500801086,
      "learning_rate": 0.00022269096717978507,
      "loss": 0.059,
      "step": 4049
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.23440101742744446,
      "learning_rate": 0.00022266918385129244,
      "loss": 0.0581,
      "step": 4050
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.3399038016796112,
      "learning_rate": 0.00022264740052279987,
      "loss": 0.0855,
      "step": 4051
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.1614145040512085,
      "learning_rate": 0.00022262561719430728,
      "loss": 0.024,
      "step": 4052
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.3685726225376129,
      "learning_rate": 0.00022260383386581465,
      "loss": 0.0737,
      "step": 4053
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.19571347534656525,
      "learning_rate": 0.00022258205053732208,
      "loss": 0.0502,
      "step": 4054
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.40257370471954346,
      "learning_rate": 0.00022256026720882948,
      "loss": 0.0712,
      "step": 4055
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.44030219316482544,
      "learning_rate": 0.0002225384838803369,
      "loss": 0.1165,
      "step": 4056
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.252611368894577,
      "learning_rate": 0.00022251670055184429,
      "loss": 0.0692,
      "step": 4057
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.20932230353355408,
      "learning_rate": 0.00022249491722335172,
      "loss": 0.04,
      "step": 4058
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.2610763609409332,
      "learning_rate": 0.00022247313389485912,
      "loss": 0.064,
      "step": 4059
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.338331401348114,
      "learning_rate": 0.00022245135056636655,
      "loss": 0.0797,
      "step": 4060
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.20704138278961182,
      "learning_rate": 0.00022242956723787392,
      "loss": 0.033,
      "step": 4061
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.36602410674095154,
      "learning_rate": 0.00022240778390938132,
      "loss": 0.0733,
      "step": 4062
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.22467002272605896,
      "learning_rate": 0.00022238600058088875,
      "loss": 0.0603,
      "step": 4063
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.27601322531700134,
      "learning_rate": 0.00022236421725239613,
      "loss": 0.0468,
      "step": 4064
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.24734021723270416,
      "learning_rate": 0.00022234243392390356,
      "loss": 0.0785,
      "step": 4065
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.25677821040153503,
      "learning_rate": 0.00022232065059541096,
      "loss": 0.0365,
      "step": 4066
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.1765751987695694,
      "learning_rate": 0.0002222988672669184,
      "loss": 0.0372,
      "step": 4067
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.7589231133460999,
      "learning_rate": 0.00022227708393842576,
      "loss": 0.1033,
      "step": 4068
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.19360052049160004,
      "learning_rate": 0.00022225530060993316,
      "loss": 0.06,
      "step": 4069
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.1916223168373108,
      "learning_rate": 0.0002222335172814406,
      "loss": 0.0388,
      "step": 4070
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.2898760735988617,
      "learning_rate": 0.00022221173395294797,
      "loss": 0.0687,
      "step": 4071
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.30742788314819336,
      "learning_rate": 0.0002221899506244554,
      "loss": 0.0655,
      "step": 4072
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.270081490278244,
      "learning_rate": 0.0002221681672959628,
      "loss": 0.0474,
      "step": 4073
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.2516764998435974,
      "learning_rate": 0.00022214638396747023,
      "loss": 0.0875,
      "step": 4074
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.2813418507575989,
      "learning_rate": 0.0002221246006389776,
      "loss": 0.0677,
      "step": 4075
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.2813330888748169,
      "learning_rate": 0.00022210281731048503,
      "loss": 0.0467,
      "step": 4076
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.3942023515701294,
      "learning_rate": 0.00022208103398199244,
      "loss": 0.1492,
      "step": 4077
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.3055103123188019,
      "learning_rate": 0.0002220592506534998,
      "loss": 0.0463,
      "step": 4078
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.17951734364032745,
      "learning_rate": 0.00022203746732500724,
      "loss": 0.0491,
      "step": 4079
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.4326368272304535,
      "learning_rate": 0.00022201568399651464,
      "loss": 0.1638,
      "step": 4080
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.9443312883377075,
      "learning_rate": 0.00022199390066802207,
      "loss": 0.1919,
      "step": 4081
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.12716354429721832,
      "learning_rate": 0.00022197211733952945,
      "loss": 0.0348,
      "step": 4082
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.25018110871315,
      "learning_rate": 0.00022195033401103687,
      "loss": 0.0541,
      "step": 4083
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.19948913156986237,
      "learning_rate": 0.00022192855068254428,
      "loss": 0.0639,
      "step": 4084
    },
    {
      "epoch": 1.14,
      "grad_norm": 0.1424521803855896,
      "learning_rate": 0.0002219067673540517,
      "loss": 0.0493,
      "step": 4085
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.21944768726825714,
      "learning_rate": 0.00022188498402555908,
      "loss": 0.06,
      "step": 4086
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.16423271596431732,
      "learning_rate": 0.00022186320069706648,
      "loss": 0.0368,
      "step": 4087
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.1947627067565918,
      "learning_rate": 0.0002218414173685739,
      "loss": 0.0578,
      "step": 4088
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.26860541105270386,
      "learning_rate": 0.0002218196340400813,
      "loss": 0.0729,
      "step": 4089
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.1861860603094101,
      "learning_rate": 0.00022179785071158872,
      "loss": 0.0474,
      "step": 4090
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.34802892804145813,
      "learning_rate": 0.00022177606738309612,
      "loss": 0.0526,
      "step": 4091
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.32865142822265625,
      "learning_rate": 0.00022175428405460355,
      "loss": 0.0488,
      "step": 4092
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.7113063931465149,
      "learning_rate": 0.00022173250072611092,
      "loss": 0.112,
      "step": 4093
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.21545462310314178,
      "learning_rate": 0.00022171071739761832,
      "loss": 0.0561,
      "step": 4094
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.37686845660209656,
      "learning_rate": 0.00022168893406912575,
      "loss": 0.0472,
      "step": 4095
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.3537151515483856,
      "learning_rate": 0.00022166715074063313,
      "loss": 0.0968,
      "step": 4096
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.19943739473819733,
      "learning_rate": 0.00022164536741214056,
      "loss": 0.0463,
      "step": 4097
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.275463342666626,
      "learning_rate": 0.00022162358408364796,
      "loss": 0.0615,
      "step": 4098
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.22793549299240112,
      "learning_rate": 0.0002216018007551554,
      "loss": 0.0493,
      "step": 4099
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.20907875895500183,
      "learning_rate": 0.00022158001742666276,
      "loss": 0.0457,
      "step": 4100
    },
    {
      "epoch": 1.15,
      "eval_loss": 0.08496265858411789,
      "eval_runtime": 172.2878,
      "eval_samples_per_second": 15.335,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.07612058706862357,
      "step": 4100
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.214036762714386,
      "learning_rate": 0.0002215582340981702,
      "loss": 0.0601,
      "step": 4101
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.23439401388168335,
      "learning_rate": 0.0002215364507696776,
      "loss": 0.0325,
      "step": 4102
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.30195730924606323,
      "learning_rate": 0.00022151466744118497,
      "loss": 0.0582,
      "step": 4103
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.37013569474220276,
      "learning_rate": 0.0002214928841126924,
      "loss": 0.0555,
      "step": 4104
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.520226776599884,
      "learning_rate": 0.0002214711007841998,
      "loss": 0.133,
      "step": 4105
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.19312439858913422,
      "learning_rate": 0.00022144931745570723,
      "loss": 0.0349,
      "step": 4106
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.20496897399425507,
      "learning_rate": 0.0002214275341272146,
      "loss": 0.0605,
      "step": 4107
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.20938940346240997,
      "learning_rate": 0.00022140575079872203,
      "loss": 0.0633,
      "step": 4108
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.22790731489658356,
      "learning_rate": 0.00022138396747022944,
      "loss": 0.0292,
      "step": 4109
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.2599233388900757,
      "learning_rate": 0.00022136218414173686,
      "loss": 0.0678,
      "step": 4110
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.2172674685716629,
      "learning_rate": 0.00022134040081324424,
      "loss": 0.0502,
      "step": 4111
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.2511265277862549,
      "learning_rate": 0.00022131861748475164,
      "loss": 0.0394,
      "step": 4112
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.6952095627784729,
      "learning_rate": 0.00022129683415625907,
      "loss": 0.1023,
      "step": 4113
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.29948291182518005,
      "learning_rate": 0.00022127505082776645,
      "loss": 0.0484,
      "step": 4114
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.5788779258728027,
      "learning_rate": 0.00022125326749927388,
      "loss": 0.0912,
      "step": 4115
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.26735919713974,
      "learning_rate": 0.00022123148417078128,
      "loss": 0.0796,
      "step": 4116
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.49880510568618774,
      "learning_rate": 0.0002212097008422887,
      "loss": 0.1573,
      "step": 4117
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.5109336972236633,
      "learning_rate": 0.00022118791751379608,
      "loss": 0.0816,
      "step": 4118
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.1981058120727539,
      "learning_rate": 0.00022116613418530348,
      "loss": 0.0429,
      "step": 4119
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.2428504377603531,
      "learning_rate": 0.0002211443508568109,
      "loss": 0.0526,
      "step": 4120
    },
    {
      "epoch": 1.15,
      "grad_norm": 0.30199894309043884,
      "learning_rate": 0.0002211225675283183,
      "loss": 0.0403,
      "step": 4121
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.22901253402233124,
      "learning_rate": 0.00022110078419982572,
      "loss": 0.0671,
      "step": 4122
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.33911508321762085,
      "learning_rate": 0.00022107900087133312,
      "loss": 0.0796,
      "step": 4123
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.451244056224823,
      "learning_rate": 0.00022105721754284055,
      "loss": 0.0925,
      "step": 4124
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.369724839925766,
      "learning_rate": 0.00022103543421434792,
      "loss": 0.0652,
      "step": 4125
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.2592131197452545,
      "learning_rate": 0.00022101365088585535,
      "loss": 0.0528,
      "step": 4126
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.24970419704914093,
      "learning_rate": 0.00022099186755736275,
      "loss": 0.0832,
      "step": 4127
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.1785217970609665,
      "learning_rate": 0.00022097008422887013,
      "loss": 0.035,
      "step": 4128
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.14465433359146118,
      "learning_rate": 0.00022094830090037756,
      "loss": 0.0348,
      "step": 4129
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.4050997197628021,
      "learning_rate": 0.00022092651757188496,
      "loss": 0.045,
      "step": 4130
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.3063243329524994,
      "learning_rate": 0.0002209047342433924,
      "loss": 0.0245,
      "step": 4131
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.21085380017757416,
      "learning_rate": 0.00022088295091489976,
      "loss": 0.0625,
      "step": 4132
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.15699997544288635,
      "learning_rate": 0.0002208611675864072,
      "loss": 0.0215,
      "step": 4133
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.5006586909294128,
      "learning_rate": 0.0002208393842579146,
      "loss": 0.126,
      "step": 4134
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.16668860614299774,
      "learning_rate": 0.00022081760092942202,
      "loss": 0.0545,
      "step": 4135
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.302121102809906,
      "learning_rate": 0.0002207958176009294,
      "loss": 0.0675,
      "step": 4136
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.47978997230529785,
      "learning_rate": 0.0002207740342724368,
      "loss": 0.0833,
      "step": 4137
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.19347599148750305,
      "learning_rate": 0.00022075225094394423,
      "loss": 0.0525,
      "step": 4138
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.19289745390415192,
      "learning_rate": 0.0002207304676154516,
      "loss": 0.0332,
      "step": 4139
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.22087159752845764,
      "learning_rate": 0.00022070868428695903,
      "loss": 0.0448,
      "step": 4140
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.1919802725315094,
      "learning_rate": 0.00022068690095846644,
      "loss": 0.0424,
      "step": 4141
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.44184592366218567,
      "learning_rate": 0.00022066511762997387,
      "loss": 0.1115,
      "step": 4142
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.9230990409851074,
      "learning_rate": 0.00022064333430148124,
      "loss": 0.1158,
      "step": 4143
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.3089483678340912,
      "learning_rate": 0.00022062155097298867,
      "loss": 0.0588,
      "step": 4144
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.17904911935329437,
      "learning_rate": 0.00022059976764449607,
      "loss": 0.0548,
      "step": 4145
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.2720598578453064,
      "learning_rate": 0.00022057798431600345,
      "loss": 0.0858,
      "step": 4146
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.2197743058204651,
      "learning_rate": 0.00022055620098751088,
      "loss": 0.0509,
      "step": 4147
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.26329025626182556,
      "learning_rate": 0.00022053441765901828,
      "loss": 0.1235,
      "step": 4148
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.24102658033370972,
      "learning_rate": 0.0002205126343305257,
      "loss": 0.0731,
      "step": 4149
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.1876344382762909,
      "learning_rate": 0.00022049085100203308,
      "loss": 0.0592,
      "step": 4150
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.22140030562877655,
      "learning_rate": 0.0002204690676735405,
      "loss": 0.0802,
      "step": 4151
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.363197922706604,
      "learning_rate": 0.0002204472843450479,
      "loss": 0.0639,
      "step": 4152
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.2441975474357605,
      "learning_rate": 0.0002204255010165553,
      "loss": 0.068,
      "step": 4153
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.24099129438400269,
      "learning_rate": 0.00022040371768806272,
      "loss": 0.0474,
      "step": 4154
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.9750087261199951,
      "learning_rate": 0.00022038193435957012,
      "loss": 0.2014,
      "step": 4155
    },
    {
      "epoch": 1.16,
      "grad_norm": 0.5200095772743225,
      "learning_rate": 0.00022036015103107755,
      "loss": 0.068,
      "step": 4156
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.2076728194952011,
      "learning_rate": 0.00022033836770258492,
      "loss": 0.0748,
      "step": 4157
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.13462188839912415,
      "learning_rate": 0.00022031658437409235,
      "loss": 0.0277,
      "step": 4158
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.15584227442741394,
      "learning_rate": 0.00022029480104559975,
      "loss": 0.0473,
      "step": 4159
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.17075411975383759,
      "learning_rate": 0.00022027301771710716,
      "loss": 0.0491,
      "step": 4160
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.10753622651100159,
      "learning_rate": 0.00022025123438861456,
      "loss": 0.0213,
      "step": 4161
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.1938381791114807,
      "learning_rate": 0.00022022945106012196,
      "loss": 0.0324,
      "step": 4162
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.5057611465454102,
      "learning_rate": 0.0002202076677316294,
      "loss": 0.0369,
      "step": 4163
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.15992960333824158,
      "learning_rate": 0.00022018588440313676,
      "loss": 0.0459,
      "step": 4164
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.1640518754720688,
      "learning_rate": 0.0002201641010746442,
      "loss": 0.0349,
      "step": 4165
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.21597501635551453,
      "learning_rate": 0.0002201423177461516,
      "loss": 0.0455,
      "step": 4166
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.32101261615753174,
      "learning_rate": 0.00022012053441765902,
      "loss": 0.1125,
      "step": 4167
    },
    {
      "epoch": 1.17,
      "grad_norm": 1.2138850688934326,
      "learning_rate": 0.0002200987510891664,
      "loss": 0.136,
      "step": 4168
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.18012240529060364,
      "learning_rate": 0.00022007696776067383,
      "loss": 0.0416,
      "step": 4169
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.2424614131450653,
      "learning_rate": 0.00022005518443218123,
      "loss": 0.0638,
      "step": 4170
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.34410157799720764,
      "learning_rate": 0.0002200334011036886,
      "loss": 0.0645,
      "step": 4171
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.23577599227428436,
      "learning_rate": 0.00022001161777519603,
      "loss": 0.0813,
      "step": 4172
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4018535912036896,
      "learning_rate": 0.00021998983444670344,
      "loss": 0.0737,
      "step": 4173
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.34421396255493164,
      "learning_rate": 0.00021996805111821087,
      "loss": 0.0574,
      "step": 4174
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.3655512034893036,
      "learning_rate": 0.00021994626778971824,
      "loss": 0.0849,
      "step": 4175
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.2938027083873749,
      "learning_rate": 0.00021992448446122567,
      "loss": 0.0381,
      "step": 4176
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.29348865151405334,
      "learning_rate": 0.00021990270113273307,
      "loss": 0.0429,
      "step": 4177
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.2843293249607086,
      "learning_rate": 0.00021988091780424045,
      "loss": 0.0755,
      "step": 4178
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4275641143321991,
      "learning_rate": 0.00021985913447574788,
      "loss": 0.0807,
      "step": 4179
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.8332071304321289,
      "learning_rate": 0.00021983735114725528,
      "loss": 0.2057,
      "step": 4180
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.38562384247779846,
      "learning_rate": 0.0002198155678187627,
      "loss": 0.0582,
      "step": 4181
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.4212392568588257,
      "learning_rate": 0.00021979378449027008,
      "loss": 0.1056,
      "step": 4182
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.24531783163547516,
      "learning_rate": 0.0002197720011617775,
      "loss": 0.0657,
      "step": 4183
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.3608190715312958,
      "learning_rate": 0.0002197502178332849,
      "loss": 0.0825,
      "step": 4184
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.2466980665922165,
      "learning_rate": 0.00021972843450479232,
      "loss": 0.075,
      "step": 4185
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.40479162335395813,
      "learning_rate": 0.00021970665117629972,
      "loss": 0.064,
      "step": 4186
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.41987699270248413,
      "learning_rate": 0.00021968486784780712,
      "loss": 0.0864,
      "step": 4187
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.12549471855163574,
      "learning_rate": 0.00021966308451931455,
      "loss": 0.0359,
      "step": 4188
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.22884519398212433,
      "learning_rate": 0.00021964130119082192,
      "loss": 0.0715,
      "step": 4189
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.22180624306201935,
      "learning_rate": 0.00021961951786232935,
      "loss": 0.0493,
      "step": 4190
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.32199475169181824,
      "learning_rate": 0.00021959773453383675,
      "loss": 0.0608,
      "step": 4191
    },
    {
      "epoch": 1.17,
      "grad_norm": 0.8400077223777771,
      "learning_rate": 0.00021957595120534416,
      "loss": 0.0653,
      "step": 4192
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.40143853425979614,
      "learning_rate": 0.00021955416787685156,
      "loss": 0.1262,
      "step": 4193
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.24848631024360657,
      "learning_rate": 0.000219532384548359,
      "loss": 0.0764,
      "step": 4194
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4135030508041382,
      "learning_rate": 0.0002195106012198664,
      "loss": 0.1106,
      "step": 4195
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.23426228761672974,
      "learning_rate": 0.00021948881789137376,
      "loss": 0.0956,
      "step": 4196
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.28310200572013855,
      "learning_rate": 0.0002194670345628812,
      "loss": 0.0669,
      "step": 4197
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.2752130329608917,
      "learning_rate": 0.0002194452512343886,
      "loss": 0.055,
      "step": 4198
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.24059730768203735,
      "learning_rate": 0.000219423467905896,
      "loss": 0.0777,
      "step": 4199
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.22678539156913757,
      "learning_rate": 0.0002194016845774034,
      "loss": 0.0399,
      "step": 4200
    },
    {
      "epoch": 1.18,
      "eval_loss": 0.0842050090432167,
      "eval_runtime": 172.8171,
      "eval_samples_per_second": 15.288,
      "eval_steps_per_second": 0.48,
      "eval_wer": 0.08419278064260215,
      "step": 4200
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.18896907567977905,
      "learning_rate": 0.00021937990124891083,
      "loss": 0.0322,
      "step": 4201
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.3522179126739502,
      "learning_rate": 0.00021935811792041823,
      "loss": 0.062,
      "step": 4202
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.3941664695739746,
      "learning_rate": 0.0002193363345919256,
      "loss": 0.0688,
      "step": 4203
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.26627665758132935,
      "learning_rate": 0.00021931455126343304,
      "loss": 0.0486,
      "step": 4204
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.24214625358581543,
      "learning_rate": 0.00021929276793494044,
      "loss": 0.0412,
      "step": 4205
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.5856510400772095,
      "learning_rate": 0.00021927098460644784,
      "loss": 0.0423,
      "step": 4206
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4447080194950104,
      "learning_rate": 0.00021924920127795524,
      "loss": 0.1278,
      "step": 4207
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.3098735809326172,
      "learning_rate": 0.00021922741794946267,
      "loss": 0.0658,
      "step": 4208
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.7913364171981812,
      "learning_rate": 0.00021920563462097007,
      "loss": 0.0609,
      "step": 4209
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.27113959193229675,
      "learning_rate": 0.00021918385129247747,
      "loss": 0.039,
      "step": 4210
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.15927617251873016,
      "learning_rate": 0.00021916206796398488,
      "loss": 0.0279,
      "step": 4211
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.19625118374824524,
      "learning_rate": 0.00021914028463549228,
      "loss": 0.0276,
      "step": 4212
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.3172363340854645,
      "learning_rate": 0.00021911850130699968,
      "loss": 0.0568,
      "step": 4213
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.21020996570587158,
      "learning_rate": 0.00021909671797850708,
      "loss": 0.0385,
      "step": 4214
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.28636959195137024,
      "learning_rate": 0.0002190749346500145,
      "loss": 0.0501,
      "step": 4215
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.27134647965431213,
      "learning_rate": 0.00021905315132152191,
      "loss": 0.0378,
      "step": 4216
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.29910358786582947,
      "learning_rate": 0.00021903136799302932,
      "loss": 0.033,
      "step": 4217
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.7339795231819153,
      "learning_rate": 0.00021900958466453672,
      "loss": 0.0771,
      "step": 4218
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.3210410177707672,
      "learning_rate": 0.00021898780133604415,
      "loss": 0.1022,
      "step": 4219
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.4298435151576996,
      "learning_rate": 0.00021896601800755155,
      "loss": 0.062,
      "step": 4220
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.1713930368423462,
      "learning_rate": 0.00021894423467905892,
      "loss": 0.0408,
      "step": 4221
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.31338492035865784,
      "learning_rate": 0.00021892245135056635,
      "loss": 0.0648,
      "step": 4222
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.26412197947502136,
      "learning_rate": 0.00021890066802207376,
      "loss": 0.0668,
      "step": 4223
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.313376247882843,
      "learning_rate": 0.00021887888469358116,
      "loss": 0.0463,
      "step": 4224
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.2674257755279541,
      "learning_rate": 0.00021885710136508856,
      "loss": 0.0597,
      "step": 4225
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.5827594995498657,
      "learning_rate": 0.000218835318036596,
      "loss": 0.1062,
      "step": 4226
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.26949867606163025,
      "learning_rate": 0.0002188135347081034,
      "loss": 0.0506,
      "step": 4227
    },
    {
      "epoch": 1.18,
      "grad_norm": 0.3161000907421112,
      "learning_rate": 0.00021879175137961077,
      "loss": 0.0728,
      "step": 4228
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.8904746174812317,
      "learning_rate": 0.0002187699680511182,
      "loss": 0.1327,
      "step": 4229
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3408052921295166,
      "learning_rate": 0.0002187481847226256,
      "loss": 0.0549,
      "step": 4230
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.8153090476989746,
      "learning_rate": 0.000218726401394133,
      "loss": 0.1072,
      "step": 4231
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.2998104393482208,
      "learning_rate": 0.0002187046180656404,
      "loss": 0.0962,
      "step": 4232
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.25471651554107666,
      "learning_rate": 0.00021868283473714783,
      "loss": 0.0543,
      "step": 4233
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.2407754808664322,
      "learning_rate": 0.00021866105140865523,
      "loss": 0.0894,
      "step": 4234
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.16147388517856598,
      "learning_rate": 0.00021863926808016263,
      "loss": 0.0399,
      "step": 4235
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.26681768894195557,
      "learning_rate": 0.00021861748475167004,
      "loss": 0.051,
      "step": 4236
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3532213270664215,
      "learning_rate": 0.00021859570142317744,
      "loss": 0.0507,
      "step": 4237
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.2719555199146271,
      "learning_rate": 0.00021857391809468484,
      "loss": 0.0779,
      "step": 4238
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3849235773086548,
      "learning_rate": 0.00021855213476619224,
      "loss": 0.1081,
      "step": 4239
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3109472095966339,
      "learning_rate": 0.00021853035143769967,
      "loss": 0.0543,
      "step": 4240
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.18106167018413544,
      "learning_rate": 0.00021850856810920707,
      "loss": 0.0405,
      "step": 4241
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3935790956020355,
      "learning_rate": 0.00021848678478071448,
      "loss": 0.1031,
      "step": 4242
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.35870227217674255,
      "learning_rate": 0.00021846500145222188,
      "loss": 0.0221,
      "step": 4243
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.18705281615257263,
      "learning_rate": 0.0002184432181237293,
      "loss": 0.0466,
      "step": 4244
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.2044568806886673,
      "learning_rate": 0.00021842143479523668,
      "loss": 0.0452,
      "step": 4245
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3413088917732239,
      "learning_rate": 0.00021839965146674408,
      "loss": 0.0832,
      "step": 4246
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.2989848852157593,
      "learning_rate": 0.0002183778681382515,
      "loss": 0.0636,
      "step": 4247
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.24833586812019348,
      "learning_rate": 0.00021835608480975891,
      "loss": 0.0722,
      "step": 4248
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.33081814646720886,
      "learning_rate": 0.00021833430148126632,
      "loss": 0.0911,
      "step": 4249
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.2095722258090973,
      "learning_rate": 0.00021831251815277372,
      "loss": 0.054,
      "step": 4250
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3375587463378906,
      "learning_rate": 0.00021829073482428115,
      "loss": 0.0583,
      "step": 4251
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.2632153332233429,
      "learning_rate": 0.00021826895149578852,
      "loss": 0.0965,
      "step": 4252
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.27710071206092834,
      "learning_rate": 0.00021824716816729592,
      "loss": 0.0577,
      "step": 4253
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.24138323962688446,
      "learning_rate": 0.00021822538483880335,
      "loss": 0.0475,
      "step": 4254
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.7227147221565247,
      "learning_rate": 0.00021820360151031076,
      "loss": 0.0496,
      "step": 4255
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.41149020195007324,
      "learning_rate": 0.00021818181818181816,
      "loss": 0.0427,
      "step": 4256
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.20216844975948334,
      "learning_rate": 0.00021816003485332556,
      "loss": 0.0478,
      "step": 4257
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.1874798685312271,
      "learning_rate": 0.000218138251524833,
      "loss": 0.0605,
      "step": 4258
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3184226155281067,
      "learning_rate": 0.00021811646819634036,
      "loss": 0.1028,
      "step": 4259
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3180862069129944,
      "learning_rate": 0.0002180946848678478,
      "loss": 0.056,
      "step": 4260
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.11869800090789795,
      "learning_rate": 0.0002180729015393552,
      "loss": 0.0263,
      "step": 4261
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.39907166361808777,
      "learning_rate": 0.0002180511182108626,
      "loss": 0.0862,
      "step": 4262
    },
    {
      "epoch": 1.19,
      "grad_norm": 0.3873712718486786,
      "learning_rate": 0.00021802933488237,
      "loss": 0.1021,
      "step": 4263
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.2928473651409149,
      "learning_rate": 0.0002180075515538774,
      "loss": 0.0377,
      "step": 4264
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.3866235911846161,
      "learning_rate": 0.00021798576822538483,
      "loss": 0.0767,
      "step": 4265
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.46553048491477966,
      "learning_rate": 0.0002179639848968922,
      "loss": 0.0578,
      "step": 4266
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.3861749470233917,
      "learning_rate": 0.00021794220156839963,
      "loss": 0.0837,
      "step": 4267
    },
    {
      "epoch": 1.2,
      "grad_norm": 1.7957597970962524,
      "learning_rate": 0.00021792041823990704,
      "loss": 0.2094,
      "step": 4268
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.29521188139915466,
      "learning_rate": 0.00021789863491141447,
      "loss": 0.0595,
      "step": 4269
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.1173383891582489,
      "learning_rate": 0.00021787685158292184,
      "loss": 0.0274,
      "step": 4270
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.23277588188648224,
      "learning_rate": 0.00021785506825442924,
      "loss": 0.0534,
      "step": 4271
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.3086306154727936,
      "learning_rate": 0.00021783328492593667,
      "loss": 0.0683,
      "step": 4272
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.18449272215366364,
      "learning_rate": 0.00021781150159744407,
      "loss": 0.0543,
      "step": 4273
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.3318372666835785,
      "learning_rate": 0.00021778971826895148,
      "loss": 0.0718,
      "step": 4274
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.17068791389465332,
      "learning_rate": 0.00021776793494045888,
      "loss": 0.0346,
      "step": 4275
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.14176709949970245,
      "learning_rate": 0.0002177461516119663,
      "loss": 0.038,
      "step": 4276
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.27001020312309265,
      "learning_rate": 0.00021772436828347368,
      "loss": 0.0658,
      "step": 4277
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.3540142774581909,
      "learning_rate": 0.0002177025849549811,
      "loss": 0.1232,
      "step": 4278
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.3435918390750885,
      "learning_rate": 0.0002176808016264885,
      "loss": 0.1158,
      "step": 4279
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.7783295512199402,
      "learning_rate": 0.00021765901829799591,
      "loss": 0.091,
      "step": 4280
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.44641247391700745,
      "learning_rate": 0.00021763723496950332,
      "loss": 0.0689,
      "step": 4281
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.3127058744430542,
      "learning_rate": 0.00021761545164101072,
      "loss": 0.0755,
      "step": 4282
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.17708173394203186,
      "learning_rate": 0.00021759366831251815,
      "loss": 0.0362,
      "step": 4283
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.1913287490606308,
      "learning_rate": 0.00021757188498402552,
      "loss": 0.0398,
      "step": 4284
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.20977036654949188,
      "learning_rate": 0.00021755010165553295,
      "loss": 0.0776,
      "step": 4285
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.20060570538043976,
      "learning_rate": 0.00021752831832704035,
      "loss": 0.0502,
      "step": 4286
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.16316115856170654,
      "learning_rate": 0.00021750653499854776,
      "loss": 0.0374,
      "step": 4287
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.21259383857250214,
      "learning_rate": 0.00021748475167005516,
      "loss": 0.0724,
      "step": 4288
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.23012259602546692,
      "learning_rate": 0.00021746296834156256,
      "loss": 0.0527,
      "step": 4289
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.10600065439939499,
      "learning_rate": 0.00021744118501307,
      "loss": 0.0196,
      "step": 4290
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.40279918909072876,
      "learning_rate": 0.00021741940168457736,
      "loss": 0.0393,
      "step": 4291
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.3070301413536072,
      "learning_rate": 0.0002173976183560848,
      "loss": 0.0393,
      "step": 4292
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.48124298453330994,
      "learning_rate": 0.0002173758350275922,
      "loss": 0.0309,
      "step": 4293
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.2336675524711609,
      "learning_rate": 0.00021735405169909962,
      "loss": 0.0579,
      "step": 4294
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.1502332240343094,
      "learning_rate": 0.000217332268370607,
      "loss": 0.0398,
      "step": 4295
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.29591646790504456,
      "learning_rate": 0.0002173104850421144,
      "loss": 0.1308,
      "step": 4296
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.14049585163593292,
      "learning_rate": 0.00021728870171362183,
      "loss": 0.0182,
      "step": 4297
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.328789085149765,
      "learning_rate": 0.0002172669183851292,
      "loss": 0.05,
      "step": 4298
    },
    {
      "epoch": 1.2,
      "grad_norm": 0.19645236432552338,
      "learning_rate": 0.00021724513505663663,
      "loss": 0.0629,
      "step": 4299
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.41258931159973145,
      "learning_rate": 0.00021722335172814404,
      "loss": 0.0403,
      "step": 4300
    },
    {
      "epoch": 1.21,
      "eval_loss": 0.08342664688825607,
      "eval_runtime": 171.3459,
      "eval_samples_per_second": 15.419,
      "eval_steps_per_second": 0.484,
      "eval_wer": 0.07544625148750496,
      "step": 4300
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.36790573596954346,
      "learning_rate": 0.00021720156839965147,
      "loss": 0.0787,
      "step": 4301
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.20788344740867615,
      "learning_rate": 0.00021717978507115884,
      "loss": 0.0656,
      "step": 4302
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.33328893780708313,
      "learning_rate": 0.00021715800174266627,
      "loss": 0.038,
      "step": 4303
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.44096481800079346,
      "learning_rate": 0.00021713621841417367,
      "loss": 0.0628,
      "step": 4304
    },
    {
      "epoch": 1.21,
      "grad_norm": 1.0750823020935059,
      "learning_rate": 0.00021711443508568105,
      "loss": 0.0797,
      "step": 4305
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.7468034029006958,
      "learning_rate": 0.00021709265175718848,
      "loss": 0.177,
      "step": 4306
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.24999171495437622,
      "learning_rate": 0.00021707086842869588,
      "loss": 0.0685,
      "step": 4307
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.20195086300373077,
      "learning_rate": 0.0002170490851002033,
      "loss": 0.0517,
      "step": 4308
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.17655788362026215,
      "learning_rate": 0.00021702730177171068,
      "loss": 0.0447,
      "step": 4309
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.1878436803817749,
      "learning_rate": 0.0002170055184432181,
      "loss": 0.0325,
      "step": 4310
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4227650463581085,
      "learning_rate": 0.0002169837351147255,
      "loss": 0.0392,
      "step": 4311
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.18947726488113403,
      "learning_rate": 0.0002169619517862329,
      "loss": 0.0498,
      "step": 4312
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.23278804123401642,
      "learning_rate": 0.00021694016845774032,
      "loss": 0.0556,
      "step": 4313
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.23138734698295593,
      "learning_rate": 0.00021691838512924772,
      "loss": 0.0537,
      "step": 4314
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.22488979995250702,
      "learning_rate": 0.00021689660180075515,
      "loss": 0.0716,
      "step": 4315
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.38543757796287537,
      "learning_rate": 0.00021687481847226252,
      "loss": 0.0889,
      "step": 4316
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.5622394680976868,
      "learning_rate": 0.00021685303514376995,
      "loss": 0.1023,
      "step": 4317
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.6671326756477356,
      "learning_rate": 0.00021683125181527735,
      "loss": 0.0574,
      "step": 4318
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.20688344538211823,
      "learning_rate": 0.00021680946848678478,
      "loss": 0.0708,
      "step": 4319
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.2698386609554291,
      "learning_rate": 0.00021678768515829216,
      "loss": 0.0534,
      "step": 4320
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.353626549243927,
      "learning_rate": 0.00021676590182979956,
      "loss": 0.0778,
      "step": 4321
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.20083896815776825,
      "learning_rate": 0.000216744118501307,
      "loss": 0.06,
      "step": 4322
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.24328261613845825,
      "learning_rate": 0.00021672233517281436,
      "loss": 0.0451,
      "step": 4323
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.22145745158195496,
      "learning_rate": 0.0002167005518443218,
      "loss": 0.0748,
      "step": 4324
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.2775227129459381,
      "learning_rate": 0.0002166787685158292,
      "loss": 0.0633,
      "step": 4325
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.1869753748178482,
      "learning_rate": 0.00021665698518733663,
      "loss": 0.0236,
      "step": 4326
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.2308931201696396,
      "learning_rate": 0.000216635201858844,
      "loss": 0.0481,
      "step": 4327
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4427386522293091,
      "learning_rate": 0.00021661341853035143,
      "loss": 0.0872,
      "step": 4328
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.15527234971523285,
      "learning_rate": 0.00021659163520185883,
      "loss": 0.0247,
      "step": 4329
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.5346826910972595,
      "learning_rate": 0.0002165698518733662,
      "loss": 0.0805,
      "step": 4330
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.4466482698917389,
      "learning_rate": 0.00021654806854487364,
      "loss": 0.1042,
      "step": 4331
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.2501547336578369,
      "learning_rate": 0.00021652628521638104,
      "loss": 0.0726,
      "step": 4332
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.33828747272491455,
      "learning_rate": 0.00021650450188788847,
      "loss": 0.0733,
      "step": 4333
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.2580187916755676,
      "learning_rate": 0.00021648271855939584,
      "loss": 0.0565,
      "step": 4334
    },
    {
      "epoch": 1.21,
      "grad_norm": 0.23325979709625244,
      "learning_rate": 0.00021646093523090327,
      "loss": 0.0631,
      "step": 4335
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.3222113251686096,
      "learning_rate": 0.00021643915190241067,
      "loss": 0.1108,
      "step": 4336
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.19903472065925598,
      "learning_rate": 0.00021641736857391805,
      "loss": 0.04,
      "step": 4337
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.3226047456264496,
      "learning_rate": 0.00021639558524542548,
      "loss": 0.0762,
      "step": 4338
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.3594231605529785,
      "learning_rate": 0.00021637380191693288,
      "loss": 0.0955,
      "step": 4339
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.28472915291786194,
      "learning_rate": 0.0002163520185884403,
      "loss": 0.0759,
      "step": 4340
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.16356439888477325,
      "learning_rate": 0.00021633023525994768,
      "loss": 0.0635,
      "step": 4341
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.1662365049123764,
      "learning_rate": 0.0002163084519314551,
      "loss": 0.0373,
      "step": 4342
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.2600724399089813,
      "learning_rate": 0.00021628666860296251,
      "loss": 0.0519,
      "step": 4343
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.2282770872116089,
      "learning_rate": 0.00021626488527446994,
      "loss": 0.064,
      "step": 4344
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.1927872896194458,
      "learning_rate": 0.00021624310194597732,
      "loss": 0.034,
      "step": 4345
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.3007972538471222,
      "learning_rate": 0.00021622131861748472,
      "loss": 0.1036,
      "step": 4346
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.24042242765426636,
      "learning_rate": 0.00021619953528899215,
      "loss": 0.0309,
      "step": 4347
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.18570159375667572,
      "learning_rate": 0.00021617775196049952,
      "loss": 0.0289,
      "step": 4348
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.2505132555961609,
      "learning_rate": 0.00021615596863200695,
      "loss": 0.0521,
      "step": 4349
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.2172611802816391,
      "learning_rate": 0.00021613418530351436,
      "loss": 0.0655,
      "step": 4350
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.19709117710590363,
      "learning_rate": 0.00021611240197502178,
      "loss": 0.0528,
      "step": 4351
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.18571528792381287,
      "learning_rate": 0.00021609061864652916,
      "loss": 0.0328,
      "step": 4352
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.33319464325904846,
      "learning_rate": 0.0002160688353180366,
      "loss": 0.0741,
      "step": 4353
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.19659242033958435,
      "learning_rate": 0.000216047051989544,
      "loss": 0.0351,
      "step": 4354
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.6883732080459595,
      "learning_rate": 0.00021602526866105137,
      "loss": 0.046,
      "step": 4355
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.5020695328712463,
      "learning_rate": 0.0002160034853325588,
      "loss": 0.0568,
      "step": 4356
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.2341253012418747,
      "learning_rate": 0.0002159817020040662,
      "loss": 0.0648,
      "step": 4357
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.38291335105895996,
      "learning_rate": 0.00021595991867557363,
      "loss": 0.0323,
      "step": 4358
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.1581764668226242,
      "learning_rate": 0.000215938135347081,
      "loss": 0.0337,
      "step": 4359
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.1544918417930603,
      "learning_rate": 0.00021591635201858843,
      "loss": 0.0377,
      "step": 4360
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.22546370327472687,
      "learning_rate": 0.00021589456869009583,
      "loss": 0.0597,
      "step": 4361
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.17396613955497742,
      "learning_rate": 0.0002158727853616032,
      "loss": 0.061,
      "step": 4362
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.23786823451519012,
      "learning_rate": 0.00021585100203311064,
      "loss": 0.0479,
      "step": 4363
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.2689603865146637,
      "learning_rate": 0.00021582921870461804,
      "loss": 0.074,
      "step": 4364
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.24156616628170013,
      "learning_rate": 0.00021580743537612547,
      "loss": 0.0535,
      "step": 4365
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.20979364216327667,
      "learning_rate": 0.00021578565204763284,
      "loss": 0.0307,
      "step": 4366
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.23856757581233978,
      "learning_rate": 0.00021576386871914027,
      "loss": 0.0554,
      "step": 4367
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.34375423192977905,
      "learning_rate": 0.00021574208539064767,
      "loss": 0.0839,
      "step": 4368
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.18751661479473114,
      "learning_rate": 0.0002157203020621551,
      "loss": 0.03,
      "step": 4369
    },
    {
      "epoch": 1.22,
      "grad_norm": 0.1798723191022873,
      "learning_rate": 0.00021569851873366248,
      "loss": 0.0488,
      "step": 4370
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.1773972511291504,
      "learning_rate": 0.00021567673540516988,
      "loss": 0.0474,
      "step": 4371
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.2553979158401489,
      "learning_rate": 0.0002156549520766773,
      "loss": 0.0759,
      "step": 4372
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.2732550799846649,
      "learning_rate": 0.00021563316874818468,
      "loss": 0.0584,
      "step": 4373
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.2179083228111267,
      "learning_rate": 0.0002156113854196921,
      "loss": 0.0491,
      "step": 4374
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.23815828561782837,
      "learning_rate": 0.00021558960209119951,
      "loss": 0.0633,
      "step": 4375
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.13262255489826202,
      "learning_rate": 0.00021556781876270694,
      "loss": 0.0434,
      "step": 4376
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.3022109270095825,
      "learning_rate": 0.00021554603543421432,
      "loss": 0.0523,
      "step": 4377
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.22799347341060638,
      "learning_rate": 0.00021552425210572175,
      "loss": 0.0415,
      "step": 4378
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.1972932517528534,
      "learning_rate": 0.00021550246877722915,
      "loss": 0.0419,
      "step": 4379
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.6204591989517212,
      "learning_rate": 0.00021548068544873652,
      "loss": 0.0523,
      "step": 4380
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.7057307958602905,
      "learning_rate": 0.00021545890212024395,
      "loss": 0.1019,
      "step": 4381
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.13061773777008057,
      "learning_rate": 0.00021543711879175136,
      "loss": 0.0243,
      "step": 4382
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.23912125825881958,
      "learning_rate": 0.00021541533546325878,
      "loss": 0.0509,
      "step": 4383
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.18654145300388336,
      "learning_rate": 0.00021539355213476616,
      "loss": 0.0339,
      "step": 4384
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.30868735909461975,
      "learning_rate": 0.0002153717688062736,
      "loss": 0.0845,
      "step": 4385
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.1915263533592224,
      "learning_rate": 0.000215349985477781,
      "loss": 0.0569,
      "step": 4386
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.26809608936309814,
      "learning_rate": 0.00021532820214928837,
      "loss": 0.0572,
      "step": 4387
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.2236577272415161,
      "learning_rate": 0.0002153064188207958,
      "loss": 0.0491,
      "step": 4388
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.24013788998126984,
      "learning_rate": 0.0002152846354923032,
      "loss": 0.0392,
      "step": 4389
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.19580918550491333,
      "learning_rate": 0.00021526285216381063,
      "loss": 0.0445,
      "step": 4390
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.30661675333976746,
      "learning_rate": 0.000215241068835318,
      "loss": 0.0863,
      "step": 4391
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.42256245017051697,
      "learning_rate": 0.00021521928550682543,
      "loss": 0.0819,
      "step": 4392
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.8419423699378967,
      "learning_rate": 0.00021519750217833283,
      "loss": 0.1317,
      "step": 4393
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.17356963455677032,
      "learning_rate": 0.00021517571884984026,
      "loss": 0.0404,
      "step": 4394
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.254709929227829,
      "learning_rate": 0.00021515393552134764,
      "loss": 0.0838,
      "step": 4395
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.1446342170238495,
      "learning_rate": 0.00021513215219285504,
      "loss": 0.0548,
      "step": 4396
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.3006806969642639,
      "learning_rate": 0.00021511036886436247,
      "loss": 0.0377,
      "step": 4397
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.2764546871185303,
      "learning_rate": 0.00021508858553586984,
      "loss": 0.0604,
      "step": 4398
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.21832282841205597,
      "learning_rate": 0.00021506680220737727,
      "loss": 0.0271,
      "step": 4399
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.1385175734758377,
      "learning_rate": 0.00021504501887888467,
      "loss": 0.0462,
      "step": 4400
    },
    {
      "epoch": 1.23,
      "eval_loss": 0.08328758180141449,
      "eval_runtime": 173.6443,
      "eval_samples_per_second": 15.215,
      "eval_steps_per_second": 0.478,
      "eval_wer": 0.07528758429194764,
      "step": 4400
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.20905070006847382,
      "learning_rate": 0.0002150232355503921,
      "loss": 0.0674,
      "step": 4401
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.24037490785121918,
      "learning_rate": 0.00021500145222189948,
      "loss": 0.0548,
      "step": 4402
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.23806190490722656,
      "learning_rate": 0.0002149796688934069,
      "loss": 0.0644,
      "step": 4403
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.34885460138320923,
      "learning_rate": 0.0002149578855649143,
      "loss": 0.0844,
      "step": 4404
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.571581244468689,
      "learning_rate": 0.00021493610223642168,
      "loss": 0.1526,
      "step": 4405
    },
    {
      "epoch": 1.23,
      "grad_norm": 0.8001914024353027,
      "learning_rate": 0.0002149143189079291,
      "loss": 0.0769,
      "step": 4406
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.19009847939014435,
      "learning_rate": 0.00021489253557943652,
      "loss": 0.091,
      "step": 4407
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.26479578018188477,
      "learning_rate": 0.00021487075225094394,
      "loss": 0.0609,
      "step": 4408
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.2675468623638153,
      "learning_rate": 0.00021484896892245132,
      "loss": 0.0608,
      "step": 4409
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.24927577376365662,
      "learning_rate": 0.00021482718559395875,
      "loss": 0.0356,
      "step": 4410
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.2721974849700928,
      "learning_rate": 0.00021480540226546615,
      "loss": 0.0798,
      "step": 4411
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.32671058177948,
      "learning_rate": 0.00021478361893697358,
      "loss": 0.0666,
      "step": 4412
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.41050291061401367,
      "learning_rate": 0.00021476183560848095,
      "loss": 0.074,
      "step": 4413
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.2719096839427948,
      "learning_rate": 0.00021474005227998836,
      "loss": 0.0325,
      "step": 4414
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.3133987784385681,
      "learning_rate": 0.00021471826895149579,
      "loss": 0.0423,
      "step": 4415
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.32966819405555725,
      "learning_rate": 0.00021469648562300316,
      "loss": 0.0618,
      "step": 4416
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.3593657612800598,
      "learning_rate": 0.0002146747022945106,
      "loss": 0.058,
      "step": 4417
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.6031650304794312,
      "learning_rate": 0.000214652918966018,
      "loss": 0.1333,
      "step": 4418
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.19483038783073425,
      "learning_rate": 0.00021463113563752542,
      "loss": 0.0479,
      "step": 4419
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.22722949087619781,
      "learning_rate": 0.0002146093523090328,
      "loss": 0.0524,
      "step": 4420
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.24474550783634186,
      "learning_rate": 0.0002145875689805402,
      "loss": 0.0546,
      "step": 4421
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.21806557476520538,
      "learning_rate": 0.00021456578565204763,
      "loss": 0.0273,
      "step": 4422
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.3825276792049408,
      "learning_rate": 0.000214544002323555,
      "loss": 0.0885,
      "step": 4423
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.25848332047462463,
      "learning_rate": 0.00021452221899506243,
      "loss": 0.0601,
      "step": 4424
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.16190160810947418,
      "learning_rate": 0.00021450043566656983,
      "loss": 0.0536,
      "step": 4425
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.26120567321777344,
      "learning_rate": 0.00021447865233807726,
      "loss": 0.0455,
      "step": 4426
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.22064220905303955,
      "learning_rate": 0.00021445686900958464,
      "loss": 0.0291,
      "step": 4427
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.41622063517570496,
      "learning_rate": 0.00021443508568109207,
      "loss": 0.0494,
      "step": 4428
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.16467610001564026,
      "learning_rate": 0.00021441330235259947,
      "loss": 0.0287,
      "step": 4429
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.41255277395248413,
      "learning_rate": 0.00021439151902410684,
      "loss": 0.0886,
      "step": 4430
    },
    {
      "epoch": 1.24,
      "grad_norm": 1.134935975074768,
      "learning_rate": 0.00021436973569561427,
      "loss": 0.0933,
      "step": 4431
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.14600196480751038,
      "learning_rate": 0.00021434795236712167,
      "loss": 0.0279,
      "step": 4432
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.20848292112350464,
      "learning_rate": 0.0002143261690386291,
      "loss": 0.0536,
      "step": 4433
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.31141939759254456,
      "learning_rate": 0.00021430438571013648,
      "loss": 0.0473,
      "step": 4434
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.21197493374347687,
      "learning_rate": 0.0002142826023816439,
      "loss": 0.0722,
      "step": 4435
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.26367098093032837,
      "learning_rate": 0.0002142608190531513,
      "loss": 0.0659,
      "step": 4436
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.288116455078125,
      "learning_rate": 0.00021423903572465874,
      "loss": 0.0357,
      "step": 4437
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.3302592635154724,
      "learning_rate": 0.0002142172523961661,
      "loss": 0.0836,
      "step": 4438
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.27065861225128174,
      "learning_rate": 0.00021419546906767352,
      "loss": 0.0723,
      "step": 4439
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.2717873454093933,
      "learning_rate": 0.00021417368573918094,
      "loss": 0.0945,
      "step": 4440
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.1918778121471405,
      "learning_rate": 0.00021415190241068832,
      "loss": 0.0489,
      "step": 4441
    },
    {
      "epoch": 1.24,
      "grad_norm": 0.35497233271598816,
      "learning_rate": 0.00021413011908219575,
      "loss": 0.0511,
      "step": 4442
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.4568816125392914,
      "learning_rate": 0.00021410833575370315,
      "loss": 0.0668,
      "step": 4443
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.1525251865386963,
      "learning_rate": 0.00021408655242521058,
      "loss": 0.0385,
      "step": 4444
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.26578545570373535,
      "learning_rate": 0.00021406476909671795,
      "loss": 0.0993,
      "step": 4445
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.20881927013397217,
      "learning_rate": 0.00021404298576822536,
      "loss": 0.0634,
      "step": 4446
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.25634196400642395,
      "learning_rate": 0.00021402120243973279,
      "loss": 0.0589,
      "step": 4447
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.2259027659893036,
      "learning_rate": 0.00021399941911124016,
      "loss": 0.0428,
      "step": 4448
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.20626461505889893,
      "learning_rate": 0.0002139776357827476,
      "loss": 0.0548,
      "step": 4449
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.2244204878807068,
      "learning_rate": 0.000213955852454255,
      "loss": 0.0442,
      "step": 4450
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.2228449285030365,
      "learning_rate": 0.00021393406912576242,
      "loss": 0.0448,
      "step": 4451
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.2372436672449112,
      "learning_rate": 0.0002139122857972698,
      "loss": 0.0551,
      "step": 4452
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.14712809026241302,
      "learning_rate": 0.00021389050246877723,
      "loss": 0.0202,
      "step": 4453
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.3386985659599304,
      "learning_rate": 0.00021386871914028463,
      "loss": 0.0828,
      "step": 4454
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.37833231687545776,
      "learning_rate": 0.000213846935811792,
      "loss": 0.0728,
      "step": 4455
    },
    {
      "epoch": 1.25,
      "grad_norm": 1.1816606521606445,
      "learning_rate": 0.00021382515248329943,
      "loss": 0.1098,
      "step": 4456
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.30817750096321106,
      "learning_rate": 0.00021380336915480683,
      "loss": 0.0589,
      "step": 4457
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.37254688143730164,
      "learning_rate": 0.00021378158582631426,
      "loss": 0.0546,
      "step": 4458
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.2678849399089813,
      "learning_rate": 0.00021375980249782164,
      "loss": 0.0386,
      "step": 4459
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.12247572094202042,
      "learning_rate": 0.00021373801916932907,
      "loss": 0.0245,
      "step": 4460
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.210908442735672,
      "learning_rate": 0.00021371623584083647,
      "loss": 0.0611,
      "step": 4461
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.21218037605285645,
      "learning_rate": 0.00021369445251234387,
      "loss": 0.0494,
      "step": 4462
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.15355409681797028,
      "learning_rate": 0.00021367266918385127,
      "loss": 0.0529,
      "step": 4463
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.1603163629770279,
      "learning_rate": 0.00021365088585535867,
      "loss": 0.0664,
      "step": 4464
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.23073551058769226,
      "learning_rate": 0.0002136291025268661,
      "loss": 0.0318,
      "step": 4465
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.3700924217700958,
      "learning_rate": 0.00021360731919837348,
      "loss": 0.1416,
      "step": 4466
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.19921590387821198,
      "learning_rate": 0.0002135855358698809,
      "loss": 0.0585,
      "step": 4467
    },
    {
      "epoch": 1.25,
      "grad_norm": 1.244641661643982,
      "learning_rate": 0.0002135637525413883,
      "loss": 0.1095,
      "step": 4468
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.30712854862213135,
      "learning_rate": 0.0002135419692128957,
      "loss": 0.0483,
      "step": 4469
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.26157593727111816,
      "learning_rate": 0.00021352018588440311,
      "loss": 0.0678,
      "step": 4470
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.2770601212978363,
      "learning_rate": 0.00021349840255591052,
      "loss": 0.0853,
      "step": 4471
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.15762875974178314,
      "learning_rate": 0.00021347661922741795,
      "loss": 0.0267,
      "step": 4472
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.19493846595287323,
      "learning_rate": 0.00021345483589892532,
      "loss": 0.0351,
      "step": 4473
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.2381533980369568,
      "learning_rate": 0.00021343305257043275,
      "loss": 0.0566,
      "step": 4474
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.23259347677230835,
      "learning_rate": 0.00021341126924194015,
      "loss": 0.0843,
      "step": 4475
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.2244189977645874,
      "learning_rate": 0.00021338948591344755,
      "loss": 0.0697,
      "step": 4476
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.18308086693286896,
      "learning_rate": 0.00021336770258495496,
      "loss": 0.0526,
      "step": 4477
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4850190579891205,
      "learning_rate": 0.00021334591925646238,
      "loss": 0.0662,
      "step": 4478
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.23049494624137878,
      "learning_rate": 0.0002133241359279698,
      "loss": 0.0549,
      "step": 4479
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.26091307401657104,
      "learning_rate": 0.00021330235259947716,
      "loss": 0.0557,
      "step": 4480
    },
    {
      "epoch": 1.26,
      "grad_norm": 1.3753005266189575,
      "learning_rate": 0.0002132805692709846,
      "loss": 0.0406,
      "step": 4481
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.3334294259548187,
      "learning_rate": 0.000213258785942492,
      "loss": 0.0817,
      "step": 4482
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.2398758828639984,
      "learning_rate": 0.0002132370026139994,
      "loss": 0.0592,
      "step": 4483
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.2848362326622009,
      "learning_rate": 0.0002132152192855068,
      "loss": 0.076,
      "step": 4484
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.19282664358615875,
      "learning_rate": 0.00021319343595701423,
      "loss": 0.046,
      "step": 4485
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.3362869620323181,
      "learning_rate": 0.00021317165262852163,
      "loss": 0.0917,
      "step": 4486
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.2579306662082672,
      "learning_rate": 0.00021314986930002903,
      "loss": 0.04,
      "step": 4487
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.2162685990333557,
      "learning_rate": 0.00021312808597153643,
      "loss": 0.0447,
      "step": 4488
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.23830780386924744,
      "learning_rate": 0.00021310630264304383,
      "loss": 0.0671,
      "step": 4489
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.2772701382637024,
      "learning_rate": 0.00021308451931455126,
      "loss": 0.095,
      "step": 4490
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.311939001083374,
      "learning_rate": 0.00021306273598605864,
      "loss": 0.0598,
      "step": 4491
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.30354589223861694,
      "learning_rate": 0.00021304095265756607,
      "loss": 0.0413,
      "step": 4492
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.4226684272289276,
      "learning_rate": 0.00021301916932907347,
      "loss": 0.0911,
      "step": 4493
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.18445180356502533,
      "learning_rate": 0.00021299738600058087,
      "loss": 0.0521,
      "step": 4494
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.2545391023159027,
      "learning_rate": 0.00021297560267208827,
      "loss": 0.0824,
      "step": 4495
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.23546051979064941,
      "learning_rate": 0.00021295381934359568,
      "loss": 0.0516,
      "step": 4496
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.36873599886894226,
      "learning_rate": 0.0002129320360151031,
      "loss": 0.078,
      "step": 4497
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.30334150791168213,
      "learning_rate": 0.00021291025268661048,
      "loss": 0.0901,
      "step": 4498
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.22467505931854248,
      "learning_rate": 0.0002128884693581179,
      "loss": 0.0343,
      "step": 4499
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.24174731969833374,
      "learning_rate": 0.0002128666860296253,
      "loss": 0.0312,
      "step": 4500
    },
    {
      "epoch": 1.26,
      "eval_loss": 0.08151940256357193,
      "eval_runtime": 175.8261,
      "eval_samples_per_second": 15.026,
      "eval_steps_per_second": 0.472,
      "eval_wer": 0.07310591035303451,
      "step": 4500
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.23463398218154907,
      "learning_rate": 0.0002128449027011327,
      "loss": 0.0588,
      "step": 4501
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.24981248378753662,
      "learning_rate": 0.00021282311937264011,
      "loss": 0.0387,
      "step": 4502
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.3601663112640381,
      "learning_rate": 0.00021280133604414754,
      "loss": 0.0925,
      "step": 4503
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.2245577573776245,
      "learning_rate": 0.00021277955271565495,
      "loss": 0.0258,
      "step": 4504
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42026838660240173,
      "learning_rate": 0.00021275776938716232,
      "loss": 0.0308,
      "step": 4505
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.42907437682151794,
      "learning_rate": 0.00021273598605866975,
      "loss": 0.1012,
      "step": 4506
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.17568451166152954,
      "learning_rate": 0.00021271420273017715,
      "loss": 0.026,
      "step": 4507
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.3736778199672699,
      "learning_rate": 0.00021269241940168455,
      "loss": 0.0799,
      "step": 4508
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.19228656589984894,
      "learning_rate": 0.00021267063607319196,
      "loss": 0.0539,
      "step": 4509
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.3432769775390625,
      "learning_rate": 0.00021264885274469939,
      "loss": 0.083,
      "step": 4510
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.2440432906150818,
      "learning_rate": 0.0002126270694162068,
      "loss": 0.0458,
      "step": 4511
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.2855619192123413,
      "learning_rate": 0.0002126052860877142,
      "loss": 0.0726,
      "step": 4512
    },
    {
      "epoch": 1.26,
      "grad_norm": 0.22456738352775574,
      "learning_rate": 0.0002125835027592216,
      "loss": 0.0323,
      "step": 4513
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.4472607374191284,
      "learning_rate": 0.000212561719430729,
      "loss": 0.0471,
      "step": 4514
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.299751877784729,
      "learning_rate": 0.0002125399361022364,
      "loss": 0.0718,
      "step": 4515
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.35110795497894287,
      "learning_rate": 0.0002125181527737438,
      "loss": 0.0638,
      "step": 4516
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.628005862236023,
      "learning_rate": 0.00021249636944525123,
      "loss": 0.0669,
      "step": 4517
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.5911985039710999,
      "learning_rate": 0.00021247458611675863,
      "loss": 0.1166,
      "step": 4518
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.16442826390266418,
      "learning_rate": 0.00021245280278826603,
      "loss": 0.0259,
      "step": 4519
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.2916458547115326,
      "learning_rate": 0.00021243101945977343,
      "loss": 0.0354,
      "step": 4520
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.30117323994636536,
      "learning_rate": 0.00021240923613128086,
      "loss": 0.0819,
      "step": 4521
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.2186611145734787,
      "learning_rate": 0.00021238745280278824,
      "loss": 0.0447,
      "step": 4522
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.2761521637439728,
      "learning_rate": 0.00021236566947429564,
      "loss": 0.0704,
      "step": 4523
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.36146071553230286,
      "learning_rate": 0.00021234388614580307,
      "loss": 0.0464,
      "step": 4524
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.3435859978199005,
      "learning_rate": 0.00021232210281731047,
      "loss": 0.0745,
      "step": 4525
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.22627006471157074,
      "learning_rate": 0.00021230031948881787,
      "loss": 0.0769,
      "step": 4526
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.29297617077827454,
      "learning_rate": 0.00021227853616032527,
      "loss": 0.0676,
      "step": 4527
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.15763847529888153,
      "learning_rate": 0.0002122567528318327,
      "loss": 0.0638,
      "step": 4528
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.32203665375709534,
      "learning_rate": 0.00021223496950334008,
      "loss": 0.0638,
      "step": 4529
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.18323914706707,
      "learning_rate": 0.00021221318617484748,
      "loss": 0.0227,
      "step": 4530
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.3875257968902588,
      "learning_rate": 0.0002121914028463549,
      "loss": 0.0742,
      "step": 4531
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.2269475758075714,
      "learning_rate": 0.0002121696195178623,
      "loss": 0.0765,
      "step": 4532
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.18038073182106018,
      "learning_rate": 0.0002121478361893697,
      "loss": 0.0611,
      "step": 4533
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.26781442761421204,
      "learning_rate": 0.00021212605286087712,
      "loss": 0.0355,
      "step": 4534
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.20858624577522278,
      "learning_rate": 0.00021210426953238454,
      "loss": 0.0586,
      "step": 4535
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.23867078125476837,
      "learning_rate": 0.00021208248620389192,
      "loss": 0.0593,
      "step": 4536
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.3406294286251068,
      "learning_rate": 0.00021206070287539935,
      "loss": 0.0555,
      "step": 4537
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.10963024199008942,
      "learning_rate": 0.00021203891954690675,
      "loss": 0.0234,
      "step": 4538
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.21613621711730957,
      "learning_rate": 0.00021201713621841415,
      "loss": 0.0565,
      "step": 4539
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.21371716260910034,
      "learning_rate": 0.00021199535288992155,
      "loss": 0.0513,
      "step": 4540
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.357963502407074,
      "learning_rate": 0.00021197356956142896,
      "loss": 0.0461,
      "step": 4541
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.3796412944793701,
      "learning_rate": 0.00021195178623293639,
      "loss": 0.0984,
      "step": 4542
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.15747122466564178,
      "learning_rate": 0.0002119300029044438,
      "loss": 0.0115,
      "step": 4543
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.24866962432861328,
      "learning_rate": 0.0002119082195759512,
      "loss": 0.0874,
      "step": 4544
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.11303550750017166,
      "learning_rate": 0.0002118864362474586,
      "loss": 0.0301,
      "step": 4545
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.13219694793224335,
      "learning_rate": 0.00021186465291896602,
      "loss": 0.0238,
      "step": 4546
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.17458686232566833,
      "learning_rate": 0.0002118428695904734,
      "loss": 0.0302,
      "step": 4547
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.3911536931991577,
      "learning_rate": 0.0002118210862619808,
      "loss": 0.0803,
      "step": 4548
    },
    {
      "epoch": 1.27,
      "grad_norm": 0.35566723346710205,
      "learning_rate": 0.00021179930293348823,
      "loss": 0.0853,
      "step": 4549
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.25108498334884644,
      "learning_rate": 0.00021177751960499563,
      "loss": 0.0499,
      "step": 4550
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.206051304936409,
      "learning_rate": 0.00021175573627650303,
      "loss": 0.0442,
      "step": 4551
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.19215309619903564,
      "learning_rate": 0.00021173395294801043,
      "loss": 0.0297,
      "step": 4552
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.5168073773384094,
      "learning_rate": 0.00021171216961951786,
      "loss": 0.0761,
      "step": 4553
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.16058938205242157,
      "learning_rate": 0.00021169038629102524,
      "loss": 0.0234,
      "step": 4554
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.9702692627906799,
      "learning_rate": 0.00021166860296253264,
      "loss": 0.1696,
      "step": 4555
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.6880348324775696,
      "learning_rate": 0.00021164681963404007,
      "loss": 0.0727,
      "step": 4556
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.5302481055259705,
      "learning_rate": 0.00021162503630554747,
      "loss": 0.116,
      "step": 4557
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.23741725087165833,
      "learning_rate": 0.00021160325297705487,
      "loss": 0.0743,
      "step": 4558
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.33659055829048157,
      "learning_rate": 0.00021158146964856227,
      "loss": 0.079,
      "step": 4559
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.197081059217453,
      "learning_rate": 0.0002115596863200697,
      "loss": 0.0432,
      "step": 4560
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.3176608681678772,
      "learning_rate": 0.00021153790299157708,
      "loss": 0.1053,
      "step": 4561
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.2679568827152252,
      "learning_rate": 0.0002115161196630845,
      "loss": 0.0607,
      "step": 4562
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.3204435408115387,
      "learning_rate": 0.0002114943363345919,
      "loss": 0.1033,
      "step": 4563
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.3515172004699707,
      "learning_rate": 0.0002114725530060993,
      "loss": 0.0945,
      "step": 4564
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.28163427114486694,
      "learning_rate": 0.00021145076967760671,
      "loss": 0.0988,
      "step": 4565
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.22304990887641907,
      "learning_rate": 0.00021142898634911412,
      "loss": 0.0695,
      "step": 4566
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.21624580025672913,
      "learning_rate": 0.00021140720302062154,
      "loss": 0.0252,
      "step": 4567
    },
    {
      "epoch": 1.28,
      "grad_norm": 1.0465922355651855,
      "learning_rate": 0.00021138541969212892,
      "loss": 0.1522,
      "step": 4568
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.2716203033924103,
      "learning_rate": 0.00021136363636363635,
      "loss": 0.07,
      "step": 4569
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.2788149416446686,
      "learning_rate": 0.00021134185303514375,
      "loss": 0.108,
      "step": 4570
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.2002309113740921,
      "learning_rate": 0.00021132006970665118,
      "loss": 0.0812,
      "step": 4571
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.296667218208313,
      "learning_rate": 0.00021129828637815855,
      "loss": 0.106,
      "step": 4572
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.17235326766967773,
      "learning_rate": 0.00021127650304966596,
      "loss": 0.0425,
      "step": 4573
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.16908326745033264,
      "learning_rate": 0.00021125471972117339,
      "loss": 0.0561,
      "step": 4574
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.2472894787788391,
      "learning_rate": 0.00021123293639268076,
      "loss": 0.0826,
      "step": 4575
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.2646469175815582,
      "learning_rate": 0.0002112111530641882,
      "loss": 0.1188,
      "step": 4576
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.26530352234840393,
      "learning_rate": 0.0002111893697356956,
      "loss": 0.0832,
      "step": 4577
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.20755977928638458,
      "learning_rate": 0.00021116758640720302,
      "loss": 0.0746,
      "step": 4578
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.2905905842781067,
      "learning_rate": 0.0002111458030787104,
      "loss": 0.0535,
      "step": 4579
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.6029089689254761,
      "learning_rate": 0.0002111240197502178,
      "loss": 0.0941,
      "step": 4580
    },
    {
      "epoch": 1.28,
      "grad_norm": 1.2961208820343018,
      "learning_rate": 0.00021110223642172523,
      "loss": 0.1838,
      "step": 4581
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.3047405481338501,
      "learning_rate": 0.0002110804530932326,
      "loss": 0.1168,
      "step": 4582
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.48507922887802124,
      "learning_rate": 0.00021105866976474003,
      "loss": 0.0392,
      "step": 4583
    },
    {
      "epoch": 1.28,
      "grad_norm": 0.28361639380455017,
      "learning_rate": 0.00021103688643624743,
      "loss": 0.0792,
      "step": 4584
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.1952206939458847,
      "learning_rate": 0.00021101510310775486,
      "loss": 0.045,
      "step": 4585
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.19082632660865784,
      "learning_rate": 0.00021099331977926224,
      "loss": 0.0431,
      "step": 4586
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.20647168159484863,
      "learning_rate": 0.00021097153645076967,
      "loss": 0.0599,
      "step": 4587
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.37355002760887146,
      "learning_rate": 0.00021094975312227707,
      "loss": 0.074,
      "step": 4588
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.19321434199810028,
      "learning_rate": 0.00021092796979378444,
      "loss": 0.0574,
      "step": 4589
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.29228824377059937,
      "learning_rate": 0.00021090618646529187,
      "loss": 0.0997,
      "step": 4590
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.588684618473053,
      "learning_rate": 0.00021088440313679927,
      "loss": 0.1557,
      "step": 4591
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.42153653502464294,
      "learning_rate": 0.0002108626198083067,
      "loss": 0.0768,
      "step": 4592
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.8245483040809631,
      "learning_rate": 0.00021084083647981408,
      "loss": 0.0667,
      "step": 4593
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.3296892046928406,
      "learning_rate": 0.0002108190531513215,
      "loss": 0.0969,
      "step": 4594
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.15803076326847076,
      "learning_rate": 0.0002107972698228289,
      "loss": 0.0385,
      "step": 4595
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.14464934170246124,
      "learning_rate": 0.00021077548649433634,
      "loss": 0.0364,
      "step": 4596
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.18889842927455902,
      "learning_rate": 0.00021075370316584371,
      "loss": 0.0463,
      "step": 4597
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.20535582304000854,
      "learning_rate": 0.00021073191983735112,
      "loss": 0.0512,
      "step": 4598
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.40876486897468567,
      "learning_rate": 0.00021071013650885855,
      "loss": 0.0846,
      "step": 4599
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.18330055475234985,
      "learning_rate": 0.00021068835318036592,
      "loss": 0.0432,
      "step": 4600
    },
    {
      "epoch": 1.29,
      "eval_loss": 0.0811619758605957,
      "eval_runtime": 172.6082,
      "eval_samples_per_second": 15.306,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.07477191590638635,
      "step": 4600
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.26045089960098267,
      "learning_rate": 0.00021066656985187335,
      "loss": 0.0602,
      "step": 4601
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.18980622291564941,
      "learning_rate": 0.00021064478652338075,
      "loss": 0.0305,
      "step": 4602
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.2180541455745697,
      "learning_rate": 0.00021062300319488818,
      "loss": 0.0457,
      "step": 4603
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.1906452476978302,
      "learning_rate": 0.00021060121986639556,
      "loss": 0.0271,
      "step": 4604
    },
    {
      "epoch": 1.29,
      "grad_norm": 1.0296800136566162,
      "learning_rate": 0.00021057943653790296,
      "loss": 0.2179,
      "step": 4605
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.2759251892566681,
      "learning_rate": 0.0002105576532094104,
      "loss": 0.0623,
      "step": 4606
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4447372853755951,
      "learning_rate": 0.00021053586988091776,
      "loss": 0.0887,
      "step": 4607
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.4266088604927063,
      "learning_rate": 0.0002105140865524252,
      "loss": 0.0792,
      "step": 4608
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.17500679194927216,
      "learning_rate": 0.0002104923032239326,
      "loss": 0.0546,
      "step": 4609
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.21792945265769958,
      "learning_rate": 0.00021047051989544002,
      "loss": 0.0591,
      "step": 4610
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.2743154466152191,
      "learning_rate": 0.0002104487365669474,
      "loss": 0.0923,
      "step": 4611
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.3172835111618042,
      "learning_rate": 0.00021042695323845483,
      "loss": 0.0933,
      "step": 4612
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.3151208758354187,
      "learning_rate": 0.00021040516990996223,
      "loss": 0.0552,
      "step": 4613
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.2547156810760498,
      "learning_rate": 0.0002103833865814696,
      "loss": 0.053,
      "step": 4614
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.49391672015190125,
      "learning_rate": 0.00021036160325297703,
      "loss": 0.0604,
      "step": 4615
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.1968117207288742,
      "learning_rate": 0.00021033981992448443,
      "loss": 0.0465,
      "step": 4616
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.2827785313129425,
      "learning_rate": 0.00021031803659599186,
      "loss": 0.0556,
      "step": 4617
    },
    {
      "epoch": 1.29,
      "grad_norm": 1.1855348348617554,
      "learning_rate": 0.00021029625326749924,
      "loss": 0.0796,
      "step": 4618
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.26289647817611694,
      "learning_rate": 0.00021027446993900667,
      "loss": 0.0794,
      "step": 4619
    },
    {
      "epoch": 1.29,
      "grad_norm": 0.3194807767868042,
      "learning_rate": 0.00021025268661051407,
      "loss": 0.0586,
      "step": 4620
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.24627459049224854,
      "learning_rate": 0.0002102309032820215,
      "loss": 0.0239,
      "step": 4621
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.19253231585025787,
      "learning_rate": 0.00021020911995352887,
      "loss": 0.0325,
      "step": 4622
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.2492542415857315,
      "learning_rate": 0.00021018733662503628,
      "loss": 0.0541,
      "step": 4623
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.21437174081802368,
      "learning_rate": 0.0002101655532965437,
      "loss": 0.048,
      "step": 4624
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.2014445960521698,
      "learning_rate": 0.00021014376996805108,
      "loss": 0.0452,
      "step": 4625
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.2529831528663635,
      "learning_rate": 0.0002101219866395585,
      "loss": 0.0522,
      "step": 4626
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.37765204906463623,
      "learning_rate": 0.0002101002033110659,
      "loss": 0.1379,
      "step": 4627
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.18438512086868286,
      "learning_rate": 0.00021007841998257334,
      "loss": 0.0429,
      "step": 4628
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.33225205540657043,
      "learning_rate": 0.00021005663665408071,
      "loss": 0.0507,
      "step": 4629
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.3224181532859802,
      "learning_rate": 0.00021003485332558812,
      "loss": 0.0325,
      "step": 4630
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.7469834089279175,
      "learning_rate": 0.00021001306999709555,
      "loss": 0.2851,
      "step": 4631
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.47346794605255127,
      "learning_rate": 0.00020999128666860292,
      "loss": 0.0634,
      "step": 4632
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.14232763648033142,
      "learning_rate": 0.00020996950334011035,
      "loss": 0.0353,
      "step": 4633
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.26592060923576355,
      "learning_rate": 0.00020994772001161775,
      "loss": 0.0718,
      "step": 4634
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.25883710384368896,
      "learning_rate": 0.00020992593668312518,
      "loss": 0.0358,
      "step": 4635
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.294159859418869,
      "learning_rate": 0.00020990415335463256,
      "loss": 0.0671,
      "step": 4636
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.2825050354003906,
      "learning_rate": 0.00020988237002613999,
      "loss": 0.0714,
      "step": 4637
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.24037611484527588,
      "learning_rate": 0.0002098605866976474,
      "loss": 0.0589,
      "step": 4638
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.21959780156612396,
      "learning_rate": 0.00020983880336915476,
      "loss": 0.0581,
      "step": 4639
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.223680317401886,
      "learning_rate": 0.0002098170200406622,
      "loss": 0.0493,
      "step": 4640
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.5361030101776123,
      "learning_rate": 0.0002097952367121696,
      "loss": 0.0511,
      "step": 4641
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.22248798608779907,
      "learning_rate": 0.00020977345338367702,
      "loss": 0.0552,
      "step": 4642
    },
    {
      "epoch": 1.3,
      "grad_norm": 1.570074439048767,
      "learning_rate": 0.0002097516700551844,
      "loss": 0.365,
      "step": 4643
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.19835582375526428,
      "learning_rate": 0.00020972988672669183,
      "loss": 0.0368,
      "step": 4644
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.3034340739250183,
      "learning_rate": 0.00020970810339819923,
      "loss": 0.0742,
      "step": 4645
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.14756673574447632,
      "learning_rate": 0.00020968632006970666,
      "loss": 0.0317,
      "step": 4646
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.13485899567604065,
      "learning_rate": 0.00020966453674121403,
      "loss": 0.0444,
      "step": 4647
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.3297199308872223,
      "learning_rate": 0.00020964275341272143,
      "loss": 0.096,
      "step": 4648
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.3112852871417999,
      "learning_rate": 0.00020962097008422886,
      "loss": 0.0815,
      "step": 4649
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.2981952726840973,
      "learning_rate": 0.00020959918675573624,
      "loss": 0.1355,
      "step": 4650
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.3302953243255615,
      "learning_rate": 0.00020957740342724367,
      "loss": 0.0939,
      "step": 4651
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.18737280368804932,
      "learning_rate": 0.00020955562009875107,
      "loss": 0.0398,
      "step": 4652
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.18863923847675323,
      "learning_rate": 0.0002095338367702585,
      "loss": 0.0443,
      "step": 4653
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.3105378746986389,
      "learning_rate": 0.00020951205344176587,
      "loss": 0.109,
      "step": 4654
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.42925307154655457,
      "learning_rate": 0.0002094902701132733,
      "loss": 0.0783,
      "step": 4655
    },
    {
      "epoch": 1.3,
      "grad_norm": 0.16630703210830688,
      "learning_rate": 0.0002094684867847807,
      "loss": 0.0446,
      "step": 4656
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.14421840012073517,
      "learning_rate": 0.00020944670345628808,
      "loss": 0.0317,
      "step": 4657
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.14852190017700195,
      "learning_rate": 0.0002094249201277955,
      "loss": 0.0366,
      "step": 4658
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.22594209015369415,
      "learning_rate": 0.0002094031367993029,
      "loss": 0.0413,
      "step": 4659
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.1507205069065094,
      "learning_rate": 0.00020938135347081034,
      "loss": 0.025,
      "step": 4660
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.2911231517791748,
      "learning_rate": 0.00020935957014231772,
      "loss": 0.0721,
      "step": 4661
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.22500233352184296,
      "learning_rate": 0.00020933778681382514,
      "loss": 0.0645,
      "step": 4662
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.20745044946670532,
      "learning_rate": 0.00020931600348533255,
      "loss": 0.038,
      "step": 4663
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.1749238520860672,
      "learning_rate": 0.00020929422015683992,
      "loss": 0.0449,
      "step": 4664
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.21682630479335785,
      "learning_rate": 0.00020927243682834735,
      "loss": 0.039,
      "step": 4665
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.5973820090293884,
      "learning_rate": 0.00020925065349985475,
      "loss": 0.0773,
      "step": 4666
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.5608128309249878,
      "learning_rate": 0.00020922887017136218,
      "loss": 0.1025,
      "step": 4667
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.5545097589492798,
      "learning_rate": 0.00020920708684286956,
      "loss": 0.1101,
      "step": 4668
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.2356201857328415,
      "learning_rate": 0.00020918530351437699,
      "loss": 0.0979,
      "step": 4669
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.3415837287902832,
      "learning_rate": 0.0002091635201858844,
      "loss": 0.0822,
      "step": 4670
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.2262849360704422,
      "learning_rate": 0.00020914173685739182,
      "loss": 0.0383,
      "step": 4671
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.24092961847782135,
      "learning_rate": 0.0002091199535288992,
      "loss": 0.0458,
      "step": 4672
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.21215394139289856,
      "learning_rate": 0.0002090981702004066,
      "loss": 0.0377,
      "step": 4673
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.27432090044021606,
      "learning_rate": 0.00020907638687191402,
      "loss": 0.0365,
      "step": 4674
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.28346091508865356,
      "learning_rate": 0.0002090546035434214,
      "loss": 0.0856,
      "step": 4675
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.18779917061328888,
      "learning_rate": 0.00020903282021492883,
      "loss": 0.0391,
      "step": 4676
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.17324014008045197,
      "learning_rate": 0.00020901103688643623,
      "loss": 0.0253,
      "step": 4677
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.2756465971469879,
      "learning_rate": 0.00020898925355794366,
      "loss": 0.0363,
      "step": 4678
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.24696892499923706,
      "learning_rate": 0.00020896747022945103,
      "loss": 0.038,
      "step": 4679
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4014641046524048,
      "learning_rate": 0.00020894568690095846,
      "loss": 0.0774,
      "step": 4680
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.5231536030769348,
      "learning_rate": 0.00020892390357246586,
      "loss": 0.1855,
      "step": 4681
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.17812493443489075,
      "learning_rate": 0.00020890212024397324,
      "loss": 0.0448,
      "step": 4682
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.23190556466579437,
      "learning_rate": 0.00020888033691548067,
      "loss": 0.0435,
      "step": 4683
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.28293928503990173,
      "learning_rate": 0.00020885855358698807,
      "loss": 0.0608,
      "step": 4684
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.2694568932056427,
      "learning_rate": 0.0002088367702584955,
      "loss": 0.0847,
      "step": 4685
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.26853758096694946,
      "learning_rate": 0.00020881498693000287,
      "loss": 0.0939,
      "step": 4686
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.27818137407302856,
      "learning_rate": 0.0002087932036015103,
      "loss": 0.0901,
      "step": 4687
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.4111674129962921,
      "learning_rate": 0.0002087714202730177,
      "loss": 0.0691,
      "step": 4688
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.3039853274822235,
      "learning_rate": 0.00020874963694452508,
      "loss": 0.0602,
      "step": 4689
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.7316389679908752,
      "learning_rate": 0.0002087278536160325,
      "loss": 0.061,
      "step": 4690
    },
    {
      "epoch": 1.31,
      "grad_norm": 0.23540371656417847,
      "learning_rate": 0.0002087060702875399,
      "loss": 0.0488,
      "step": 4691
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.20548763871192932,
      "learning_rate": 0.00020868428695904734,
      "loss": 0.0229,
      "step": 4692
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.29954347014427185,
      "learning_rate": 0.00020866250363055472,
      "loss": 0.0548,
      "step": 4693
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.19626614451408386,
      "learning_rate": 0.00020864072030206214,
      "loss": 0.0914,
      "step": 4694
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.2075427919626236,
      "learning_rate": 0.00020861893697356955,
      "loss": 0.0421,
      "step": 4695
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.1996934562921524,
      "learning_rate": 0.00020859715364507698,
      "loss": 0.0333,
      "step": 4696
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.12104526907205582,
      "learning_rate": 0.00020857537031658435,
      "loss": 0.0197,
      "step": 4697
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.23998017609119415,
      "learning_rate": 0.00020855358698809175,
      "loss": 0.0482,
      "step": 4698
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.17759375274181366,
      "learning_rate": 0.00020853180365959918,
      "loss": 0.0579,
      "step": 4699
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.17772217094898224,
      "learning_rate": 0.00020851002033110656,
      "loss": 0.032,
      "step": 4700
    },
    {
      "epoch": 1.32,
      "eval_loss": 0.07830308377742767,
      "eval_runtime": 171.9101,
      "eval_samples_per_second": 15.368,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.0683260610868703,
      "step": 4700
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.2579093873500824,
      "learning_rate": 0.00020848823700261399,
      "loss": 0.0499,
      "step": 4701
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.1504209339618683,
      "learning_rate": 0.0002084664536741214,
      "loss": 0.0387,
      "step": 4702
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.2938217222690582,
      "learning_rate": 0.00020844467034562882,
      "loss": 0.0341,
      "step": 4703
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.1522975116968155,
      "learning_rate": 0.0002084228870171362,
      "loss": 0.0188,
      "step": 4704
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.4935457706451416,
      "learning_rate": 0.00020840110368864362,
      "loss": 0.0952,
      "step": 4705
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.7945038080215454,
      "learning_rate": 0.00020837932036015102,
      "loss": 0.1153,
      "step": 4706
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.18754637241363525,
      "learning_rate": 0.0002083575370316584,
      "loss": 0.0453,
      "step": 4707
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.2651999294757843,
      "learning_rate": 0.00020833575370316583,
      "loss": 0.0777,
      "step": 4708
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.2816368043422699,
      "learning_rate": 0.00020831397037467323,
      "loss": 0.0809,
      "step": 4709
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.3288344144821167,
      "learning_rate": 0.00020829218704618066,
      "loss": 0.0479,
      "step": 4710
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.3412855267524719,
      "learning_rate": 0.00020827040371768803,
      "loss": 0.0836,
      "step": 4711
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.3603358566761017,
      "learning_rate": 0.00020824862038919546,
      "loss": 0.0691,
      "step": 4712
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.2827458083629608,
      "learning_rate": 0.00020822683706070286,
      "loss": 0.0393,
      "step": 4713
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.5418756008148193,
      "learning_rate": 0.00020820505373221024,
      "loss": 0.0475,
      "step": 4714
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.17697566747665405,
      "learning_rate": 0.00020818327040371767,
      "loss": 0.0643,
      "step": 4715
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.17830027639865875,
      "learning_rate": 0.00020816148707522507,
      "loss": 0.0362,
      "step": 4716
    },
    {
      "epoch": 1.32,
      "grad_norm": 1.0727587938308716,
      "learning_rate": 0.0002081397037467325,
      "loss": 0.0736,
      "step": 4717
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.7487154006958008,
      "learning_rate": 0.00020811792041823987,
      "loss": 0.0886,
      "step": 4718
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.20835641026496887,
      "learning_rate": 0.0002080961370897473,
      "loss": 0.0686,
      "step": 4719
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.24881736934185028,
      "learning_rate": 0.0002080743537612547,
      "loss": 0.0575,
      "step": 4720
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.19968338310718536,
      "learning_rate": 0.00020805257043276214,
      "loss": 0.044,
      "step": 4721
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.13993461430072784,
      "learning_rate": 0.0002080307871042695,
      "loss": 0.0488,
      "step": 4722
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.2040172815322876,
      "learning_rate": 0.0002080090037757769,
      "loss": 0.0606,
      "step": 4723
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.33242911100387573,
      "learning_rate": 0.00020798722044728434,
      "loss": 0.0333,
      "step": 4724
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.1988481879234314,
      "learning_rate": 0.00020796543711879172,
      "loss": 0.0348,
      "step": 4725
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.21250320971012115,
      "learning_rate": 0.00020794365379029915,
      "loss": 0.0549,
      "step": 4726
    },
    {
      "epoch": 1.32,
      "grad_norm": 0.21843655407428741,
      "learning_rate": 0.00020792187046180655,
      "loss": 0.0423,
      "step": 4727
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.27713561058044434,
      "learning_rate": 0.00020790008713331398,
      "loss": 0.0473,
      "step": 4728
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.2795027494430542,
      "learning_rate": 0.00020787830380482135,
      "loss": 0.0551,
      "step": 4729
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.8972946405410767,
      "learning_rate": 0.00020785652047632878,
      "loss": 0.113,
      "step": 4730
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.4059888422489166,
      "learning_rate": 0.00020783473714783618,
      "loss": 0.0311,
      "step": 4731
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.372794508934021,
      "learning_rate": 0.00020781295381934356,
      "loss": 0.0609,
      "step": 4732
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.13617125153541565,
      "learning_rate": 0.000207791170490851,
      "loss": 0.0341,
      "step": 4733
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.22665975987911224,
      "learning_rate": 0.0002077693871623584,
      "loss": 0.0484,
      "step": 4734
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.386478990316391,
      "learning_rate": 0.00020774760383386582,
      "loss": 0.0656,
      "step": 4735
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.29884257912635803,
      "learning_rate": 0.0002077258205053732,
      "loss": 0.0693,
      "step": 4736
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.3049996793270111,
      "learning_rate": 0.00020770403717688062,
      "loss": 0.0648,
      "step": 4737
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.2888062000274658,
      "learning_rate": 0.00020768225384838802,
      "loss": 0.041,
      "step": 4738
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.446853905916214,
      "learning_rate": 0.0002076604705198954,
      "loss": 0.0729,
      "step": 4739
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.20802974700927734,
      "learning_rate": 0.00020763868719140283,
      "loss": 0.0486,
      "step": 4740
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.2346394956111908,
      "learning_rate": 0.00020761690386291023,
      "loss": 0.0531,
      "step": 4741
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.22799097001552582,
      "learning_rate": 0.00020759512053441766,
      "loss": 0.0547,
      "step": 4742
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.5557026863098145,
      "learning_rate": 0.00020757333720592503,
      "loss": 0.1217,
      "step": 4743
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.19541685283184052,
      "learning_rate": 0.00020755155387743246,
      "loss": 0.0576,
      "step": 4744
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.2734411656856537,
      "learning_rate": 0.00020752977054893987,
      "loss": 0.0581,
      "step": 4745
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.36432138085365295,
      "learning_rate": 0.00020750798722044727,
      "loss": 0.0614,
      "step": 4746
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.19451996684074402,
      "learning_rate": 0.00020748620389195467,
      "loss": 0.0688,
      "step": 4747
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.2365237921476364,
      "learning_rate": 0.00020746442056346207,
      "loss": 0.0769,
      "step": 4748
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.18951605260372162,
      "learning_rate": 0.0002074426372349695,
      "loss": 0.0309,
      "step": 4749
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.2553309202194214,
      "learning_rate": 0.00020742085390647688,
      "loss": 0.0616,
      "step": 4750
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.32393014430999756,
      "learning_rate": 0.0002073990705779843,
      "loss": 0.0851,
      "step": 4751
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.16270843148231506,
      "learning_rate": 0.0002073772872494917,
      "loss": 0.0539,
      "step": 4752
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.3239685297012329,
      "learning_rate": 0.0002073555039209991,
      "loss": 0.0524,
      "step": 4753
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.3824528455734253,
      "learning_rate": 0.0002073337205925065,
      "loss": 0.0461,
      "step": 4754
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.22145028412342072,
      "learning_rate": 0.00020731193726401394,
      "loss": 0.0587,
      "step": 4755
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.3988552391529083,
      "learning_rate": 0.00020729015393552134,
      "loss": 0.0643,
      "step": 4756
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.2691507339477539,
      "learning_rate": 0.00020726837060702872,
      "loss": 0.0335,
      "step": 4757
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.24266786873340607,
      "learning_rate": 0.00020724658727853615,
      "loss": 0.0569,
      "step": 4758
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.21985909342765808,
      "learning_rate": 0.00020722480395004355,
      "loss": 0.0473,
      "step": 4759
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.2527139484882355,
      "learning_rate": 0.00020720302062155098,
      "loss": 0.0581,
      "step": 4760
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.28237828612327576,
      "learning_rate": 0.00020718123729305835,
      "loss": 0.0798,
      "step": 4761
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.2796221375465393,
      "learning_rate": 0.00020715945396456578,
      "loss": 0.0674,
      "step": 4762
    },
    {
      "epoch": 1.33,
      "grad_norm": 0.17685556411743164,
      "learning_rate": 0.00020713767063607318,
      "loss": 0.0333,
      "step": 4763
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.16891086101531982,
      "learning_rate": 0.00020711588730758056,
      "loss": 0.0371,
      "step": 4764
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.3042687773704529,
      "learning_rate": 0.000207094103979088,
      "loss": 0.073,
      "step": 4765
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.17974942922592163,
      "learning_rate": 0.0002070723206505954,
      "loss": 0.0186,
      "step": 4766
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.3589554727077484,
      "learning_rate": 0.00020705053732210282,
      "loss": 0.1064,
      "step": 4767
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.461416095495224,
      "learning_rate": 0.0002070287539936102,
      "loss": 0.0707,
      "step": 4768
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.2549612522125244,
      "learning_rate": 0.00020700697066511762,
      "loss": 0.0501,
      "step": 4769
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.19776082038879395,
      "learning_rate": 0.00020698518733662502,
      "loss": 0.0446,
      "step": 4770
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.20647044479846954,
      "learning_rate": 0.00020696340400813243,
      "loss": 0.0489,
      "step": 4771
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.1980038285255432,
      "learning_rate": 0.00020694162067963983,
      "loss": 0.0541,
      "step": 4772
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.3240867555141449,
      "learning_rate": 0.00020691983735114723,
      "loss": 0.0702,
      "step": 4773
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.26566579937934875,
      "learning_rate": 0.00020689805402265466,
      "loss": 0.0543,
      "step": 4774
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.25092095136642456,
      "learning_rate": 0.00020687627069416203,
      "loss": 0.0524,
      "step": 4775
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.22087764739990234,
      "learning_rate": 0.00020685448736566946,
      "loss": 0.0436,
      "step": 4776
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.31847986578941345,
      "learning_rate": 0.00020683270403717687,
      "loss": 0.059,
      "step": 4777
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.3419818878173828,
      "learning_rate": 0.00020681092070868427,
      "loss": 0.0504,
      "step": 4778
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.3350828289985657,
      "learning_rate": 0.00020678913738019167,
      "loss": 0.0332,
      "step": 4779
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.3102209270000458,
      "learning_rate": 0.0002067673540516991,
      "loss": 0.0827,
      "step": 4780
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.7010965943336487,
      "learning_rate": 0.0002067455707232065,
      "loss": 0.0969,
      "step": 4781
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.1698540300130844,
      "learning_rate": 0.00020672378739471388,
      "loss": 0.041,
      "step": 4782
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.305350661277771,
      "learning_rate": 0.0002067020040662213,
      "loss": 0.0472,
      "step": 4783
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.2574008107185364,
      "learning_rate": 0.0002066802207377287,
      "loss": 0.0565,
      "step": 4784
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.15551449358463287,
      "learning_rate": 0.0002066584374092361,
      "loss": 0.024,
      "step": 4785
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.17069347202777863,
      "learning_rate": 0.0002066366540807435,
      "loss": 0.0457,
      "step": 4786
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.2805697023868561,
      "learning_rate": 0.00020661487075225094,
      "loss": 0.0735,
      "step": 4787
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.2880519926548004,
      "learning_rate": 0.00020659308742375834,
      "loss": 0.0654,
      "step": 4788
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.3501861095428467,
      "learning_rate": 0.00020657130409526574,
      "loss": 0.0718,
      "step": 4789
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.15186844766139984,
      "learning_rate": 0.00020654952076677315,
      "loss": 0.0346,
      "step": 4790
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.2583865225315094,
      "learning_rate": 0.00020652773743828055,
      "loss": 0.0697,
      "step": 4791
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.30212610960006714,
      "learning_rate": 0.00020650595410978795,
      "loss": 0.0471,
      "step": 4792
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.6290454864501953,
      "learning_rate": 0.00020648417078129535,
      "loss": 0.0612,
      "step": 4793
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.22927497327327728,
      "learning_rate": 0.00020646238745280278,
      "loss": 0.0542,
      "step": 4794
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.16666840016841888,
      "learning_rate": 0.00020644060412431018,
      "loss": 0.0327,
      "step": 4795
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.11378259211778641,
      "learning_rate": 0.00020641882079581759,
      "loss": 0.0195,
      "step": 4796
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.32679444551467896,
      "learning_rate": 0.000206397037467325,
      "loss": 0.0653,
      "step": 4797
    },
    {
      "epoch": 1.34,
      "grad_norm": 0.2549085319042206,
      "learning_rate": 0.0002063752541388324,
      "loss": 0.0349,
      "step": 4798
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.17685598134994507,
      "learning_rate": 0.0002063534708103398,
      "loss": 0.055,
      "step": 4799
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5349080562591553,
      "learning_rate": 0.0002063316874818472,
      "loss": 0.0502,
      "step": 4800
    },
    {
      "epoch": 1.35,
      "eval_loss": 0.07857879996299744,
      "eval_runtime": 172.3097,
      "eval_samples_per_second": 15.333,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.06991273304244347,
      "step": 4800
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.42498233914375305,
      "learning_rate": 0.00020630990415335462,
      "loss": 0.0786,
      "step": 4801
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4173389673233032,
      "learning_rate": 0.00020628812082486202,
      "loss": 0.0739,
      "step": 4802
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.3171515166759491,
      "learning_rate": 0.00020626633749636943,
      "loss": 0.0859,
      "step": 4803
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.4642048180103302,
      "learning_rate": 0.00020624455416787683,
      "loss": 0.1111,
      "step": 4804
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.42784568667411804,
      "learning_rate": 0.00020622277083938426,
      "loss": 0.0767,
      "step": 4805
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5124619603157043,
      "learning_rate": 0.00020620098751089163,
      "loss": 0.0558,
      "step": 4806
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.08298996835947037,
      "learning_rate": 0.00020617920418239904,
      "loss": 0.0292,
      "step": 4807
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.38856083154678345,
      "learning_rate": 0.00020615742085390646,
      "loss": 0.1063,
      "step": 4808
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.28033527731895447,
      "learning_rate": 0.00020613563752541387,
      "loss": 0.0576,
      "step": 4809
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.2586984932422638,
      "learning_rate": 0.00020611385419692127,
      "loss": 0.0611,
      "step": 4810
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.2543915808200836,
      "learning_rate": 0.00020609207086842867,
      "loss": 0.0376,
      "step": 4811
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.2503925561904907,
      "learning_rate": 0.0002060702875399361,
      "loss": 0.0466,
      "step": 4812
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.16652536392211914,
      "learning_rate": 0.0002060485042114435,
      "loss": 0.027,
      "step": 4813
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.32732805609703064,
      "learning_rate": 0.0002060267208829509,
      "loss": 0.1427,
      "step": 4814
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.2983826696872711,
      "learning_rate": 0.0002060049375544583,
      "loss": 0.0567,
      "step": 4815
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.25537946820259094,
      "learning_rate": 0.0002059831542259657,
      "loss": 0.0617,
      "step": 4816
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.42664116621017456,
      "learning_rate": 0.0002059613708974731,
      "loss": 0.0946,
      "step": 4817
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.735256016254425,
      "learning_rate": 0.0002059395875689805,
      "loss": 0.0908,
      "step": 4818
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.24402372539043427,
      "learning_rate": 0.00020591780424048794,
      "loss": 0.1074,
      "step": 4819
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.17616546154022217,
      "learning_rate": 0.00020589602091199534,
      "loss": 0.0353,
      "step": 4820
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.21773657202720642,
      "learning_rate": 0.00020587423758350274,
      "loss": 0.0609,
      "step": 4821
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.15082578361034393,
      "learning_rate": 0.00020585245425501015,
      "loss": 0.0231,
      "step": 4822
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.1562168151140213,
      "learning_rate": 0.00020583067092651755,
      "loss": 0.0433,
      "step": 4823
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.15250925719738007,
      "learning_rate": 0.00020580888759802495,
      "loss": 0.0338,
      "step": 4824
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.18899279832839966,
      "learning_rate": 0.00020578710426953235,
      "loss": 0.032,
      "step": 4825
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.3606176972389221,
      "learning_rate": 0.00020576532094103978,
      "loss": 0.0696,
      "step": 4826
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.3566647171974182,
      "learning_rate": 0.00020574353761254718,
      "loss": 0.0832,
      "step": 4827
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.2739276587963104,
      "learning_rate": 0.00020572175428405459,
      "loss": 0.0663,
      "step": 4828
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.34654709696769714,
      "learning_rate": 0.000205699970955562,
      "loss": 0.0611,
      "step": 4829
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5207075476646423,
      "learning_rate": 0.00020567818762706942,
      "loss": 0.0611,
      "step": 4830
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.5366456508636475,
      "learning_rate": 0.0002056564042985768,
      "loss": 0.0466,
      "step": 4831
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.3792555034160614,
      "learning_rate": 0.0002056346209700842,
      "loss": 0.0614,
      "step": 4832
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.1819937825202942,
      "learning_rate": 0.00020561283764159162,
      "loss": 0.0532,
      "step": 4833
    },
    {
      "epoch": 1.35,
      "grad_norm": 0.2752183973789215,
      "learning_rate": 0.00020559105431309903,
      "loss": 0.0736,
      "step": 4834
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.26527494192123413,
      "learning_rate": 0.00020556927098460643,
      "loss": 0.0763,
      "step": 4835
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.24565716087818146,
      "learning_rate": 0.00020554748765611383,
      "loss": 0.0523,
      "step": 4836
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.18883821368217468,
      "learning_rate": 0.00020552570432762126,
      "loss": 0.0437,
      "step": 4837
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.3104522228240967,
      "learning_rate": 0.00020550392099912863,
      "loss": 0.0263,
      "step": 4838
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.27695849537849426,
      "learning_rate": 0.00020548213767063606,
      "loss": 0.0704,
      "step": 4839
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.27962565422058105,
      "learning_rate": 0.00020546035434214346,
      "loss": 0.0278,
      "step": 4840
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.3392378091812134,
      "learning_rate": 0.00020543857101365087,
      "loss": 0.0619,
      "step": 4841
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.3252982497215271,
      "learning_rate": 0.00020541678768515827,
      "loss": 0.0235,
      "step": 4842
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.5244743824005127,
      "learning_rate": 0.00020539500435666567,
      "loss": 0.0945,
      "step": 4843
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.2062021642923355,
      "learning_rate": 0.0002053732210281731,
      "loss": 0.0476,
      "step": 4844
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.2445043921470642,
      "learning_rate": 0.00020535143769968047,
      "loss": 0.0417,
      "step": 4845
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.2556250989437103,
      "learning_rate": 0.0002053296543711879,
      "loss": 0.0559,
      "step": 4846
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.3275262415409088,
      "learning_rate": 0.0002053078710426953,
      "loss": 0.0899,
      "step": 4847
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.20431432127952576,
      "learning_rate": 0.0002052860877142027,
      "loss": 0.0565,
      "step": 4848
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.20134291052818298,
      "learning_rate": 0.0002052643043857101,
      "loss": 0.0329,
      "step": 4849
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.3044677674770355,
      "learning_rate": 0.0002052425210572175,
      "loss": 0.0878,
      "step": 4850
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.20144619047641754,
      "learning_rate": 0.00020522073772872494,
      "loss": 0.0527,
      "step": 4851
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.14862175285816193,
      "learning_rate": 0.00020519895440023232,
      "loss": 0.0339,
      "step": 4852
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.3017377257347107,
      "learning_rate": 0.00020517717107173975,
      "loss": 0.066,
      "step": 4853
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.24492008984088898,
      "learning_rate": 0.00020515538774324715,
      "loss": 0.0427,
      "step": 4854
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4024620056152344,
      "learning_rate": 0.00020513360441475458,
      "loss": 0.1193,
      "step": 4855
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4503350257873535,
      "learning_rate": 0.00020511182108626195,
      "loss": 0.0888,
      "step": 4856
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.223911315202713,
      "learning_rate": 0.00020509003775776935,
      "loss": 0.0831,
      "step": 4857
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.23206914961338043,
      "learning_rate": 0.00020506825442927678,
      "loss": 0.0866,
      "step": 4858
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.2309451848268509,
      "learning_rate": 0.00020504647110078416,
      "loss": 0.0356,
      "step": 4859
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.4798114001750946,
      "learning_rate": 0.0002050246877722916,
      "loss": 0.0442,
      "step": 4860
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.22850464284420013,
      "learning_rate": 0.000205002904443799,
      "loss": 0.0326,
      "step": 4861
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.16994020342826843,
      "learning_rate": 0.00020498112111530642,
      "loss": 0.0658,
      "step": 4862
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.21873721480369568,
      "learning_rate": 0.0002049593377868138,
      "loss": 0.0358,
      "step": 4863
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.34351015090942383,
      "learning_rate": 0.00020493755445832122,
      "loss": 0.0801,
      "step": 4864
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.2661251425743103,
      "learning_rate": 0.00020491577112982862,
      "loss": 0.036,
      "step": 4865
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.306913822889328,
      "learning_rate": 0.00020489398780133603,
      "loss": 0.054,
      "step": 4866
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.22662675380706787,
      "learning_rate": 0.00020487220447284343,
      "loss": 0.0622,
      "step": 4867
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.45567256212234497,
      "learning_rate": 0.00020485042114435083,
      "loss": 0.04,
      "step": 4868
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.23171372711658478,
      "learning_rate": 0.00020482863781585826,
      "loss": 0.044,
      "step": 4869
    },
    {
      "epoch": 1.36,
      "grad_norm": 0.19855816662311554,
      "learning_rate": 0.00020480685448736563,
      "loss": 0.0347,
      "step": 4870
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.1560785323381424,
      "learning_rate": 0.00020478507115887306,
      "loss": 0.0408,
      "step": 4871
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.12449167668819427,
      "learning_rate": 0.00020476328783038047,
      "loss": 0.0194,
      "step": 4872
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.18167485296726227,
      "learning_rate": 0.00020474150450188787,
      "loss": 0.0448,
      "step": 4873
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.24154353141784668,
      "learning_rate": 0.00020471972117339527,
      "loss": 0.0927,
      "step": 4874
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.678755521774292,
      "learning_rate": 0.00020469793784490267,
      "loss": 0.0746,
      "step": 4875
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4302902817726135,
      "learning_rate": 0.0002046761545164101,
      "loss": 0.0505,
      "step": 4876
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.29880398511886597,
      "learning_rate": 0.00020465437118791748,
      "loss": 0.0737,
      "step": 4877
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.6825845241546631,
      "learning_rate": 0.0002046325878594249,
      "loss": 0.0538,
      "step": 4878
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.24946586787700653,
      "learning_rate": 0.0002046108045309323,
      "loss": 0.0861,
      "step": 4879
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4022795855998993,
      "learning_rate": 0.00020458902120243974,
      "loss": 0.0409,
      "step": 4880
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.6896076202392578,
      "learning_rate": 0.0002045672378739471,
      "loss": 0.0472,
      "step": 4881
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.19966024160385132,
      "learning_rate": 0.0002045454545454545,
      "loss": 0.0497,
      "step": 4882
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.22941337525844574,
      "learning_rate": 0.00020452367121696194,
      "loss": 0.0663,
      "step": 4883
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.2723524272441864,
      "learning_rate": 0.00020450188788846932,
      "loss": 0.0815,
      "step": 4884
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.19098466634750366,
      "learning_rate": 0.00020448010455997675,
      "loss": 0.0451,
      "step": 4885
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.278020977973938,
      "learning_rate": 0.00020445832123148415,
      "loss": 0.0734,
      "step": 4886
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.30090054869651794,
      "learning_rate": 0.00020443653790299158,
      "loss": 0.0682,
      "step": 4887
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.1961868703365326,
      "learning_rate": 0.00020441475457449895,
      "loss": 0.0361,
      "step": 4888
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.2649155259132385,
      "learning_rate": 0.00020439297124600638,
      "loss": 0.0627,
      "step": 4889
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.37646687030792236,
      "learning_rate": 0.00020437118791751378,
      "loss": 0.039,
      "step": 4890
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.18697595596313477,
      "learning_rate": 0.00020434940458902116,
      "loss": 0.061,
      "step": 4891
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.25295087695121765,
      "learning_rate": 0.0002043276212605286,
      "loss": 0.064,
      "step": 4892
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.4276891350746155,
      "learning_rate": 0.000204305837932036,
      "loss": 0.0323,
      "step": 4893
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.15109267830848694,
      "learning_rate": 0.00020428405460354342,
      "loss": 0.0422,
      "step": 4894
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.19570396840572357,
      "learning_rate": 0.0002042622712750508,
      "loss": 0.0501,
      "step": 4895
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.23467719554901123,
      "learning_rate": 0.00020424048794655822,
      "loss": 0.0852,
      "step": 4896
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.2089064121246338,
      "learning_rate": 0.00020421870461806562,
      "loss": 0.0448,
      "step": 4897
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.3430105447769165,
      "learning_rate": 0.000204196921289573,
      "loss": 0.0903,
      "step": 4898
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.19689862430095673,
      "learning_rate": 0.00020417513796108043,
      "loss": 0.0558,
      "step": 4899
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.41254928708076477,
      "learning_rate": 0.00020415335463258783,
      "loss": 0.0743,
      "step": 4900
    },
    {
      "epoch": 1.37,
      "eval_loss": 0.08392433077096939,
      "eval_runtime": 171.2753,
      "eval_samples_per_second": 15.425,
      "eval_steps_per_second": 0.485,
      "eval_wer": 0.06783022610075366,
      "step": 4900
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.12426689267158508,
      "learning_rate": 0.00020413157130409526,
      "loss": 0.0453,
      "step": 4901
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.3538534343242645,
      "learning_rate": 0.00020410978797560263,
      "loss": 0.0582,
      "step": 4902
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.21966534852981567,
      "learning_rate": 0.00020408800464711006,
      "loss": 0.0736,
      "step": 4903
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.24760454893112183,
      "learning_rate": 0.00020406622131861747,
      "loss": 0.0473,
      "step": 4904
    },
    {
      "epoch": 1.37,
      "grad_norm": 0.49345606565475464,
      "learning_rate": 0.0002040444379901249,
      "loss": 0.0793,
      "step": 4905
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.24209554493427277,
      "learning_rate": 0.00020402265466163227,
      "loss": 0.0575,
      "step": 4906
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.46318721771240234,
      "learning_rate": 0.00020400087133313967,
      "loss": 0.0735,
      "step": 4907
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.42131444811820984,
      "learning_rate": 0.0002039790880046471,
      "loss": 0.1054,
      "step": 4908
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.18511927127838135,
      "learning_rate": 0.00020395730467615448,
      "loss": 0.0417,
      "step": 4909
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.3151681423187256,
      "learning_rate": 0.0002039355213476619,
      "loss": 0.0493,
      "step": 4910
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.2944606840610504,
      "learning_rate": 0.0002039137380191693,
      "loss": 0.0774,
      "step": 4911
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.16927950084209442,
      "learning_rate": 0.00020389195469067674,
      "loss": 0.0357,
      "step": 4912
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.1931123286485672,
      "learning_rate": 0.0002038701713621841,
      "loss": 0.0434,
      "step": 4913
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.11365099251270294,
      "learning_rate": 0.00020384838803369154,
      "loss": 0.0282,
      "step": 4914
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.2600463926792145,
      "learning_rate": 0.00020382660470519894,
      "loss": 0.0384,
      "step": 4915
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.1704435497522354,
      "learning_rate": 0.00020380482137670632,
      "loss": 0.049,
      "step": 4916
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.22844935953617096,
      "learning_rate": 0.00020378303804821375,
      "loss": 0.0229,
      "step": 4917
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.41970372200012207,
      "learning_rate": 0.00020376125471972115,
      "loss": 0.0455,
      "step": 4918
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.141786590218544,
      "learning_rate": 0.00020373947139122858,
      "loss": 0.0428,
      "step": 4919
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.22347451746463776,
      "learning_rate": 0.00020371768806273595,
      "loss": 0.0467,
      "step": 4920
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.1311316341161728,
      "learning_rate": 0.00020369590473424338,
      "loss": 0.0293,
      "step": 4921
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.48187255859375,
      "learning_rate": 0.00020367412140575078,
      "loss": 0.101,
      "step": 4922
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.2162807136774063,
      "learning_rate": 0.0002036523380772582,
      "loss": 0.0701,
      "step": 4923
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.18664492666721344,
      "learning_rate": 0.0002036305547487656,
      "loss": 0.0534,
      "step": 4924
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4007797837257385,
      "learning_rate": 0.000203608771420273,
      "loss": 0.0515,
      "step": 4925
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.20783250033855438,
      "learning_rate": 0.00020358698809178042,
      "loss": 0.0366,
      "step": 4926
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.2899172604084015,
      "learning_rate": 0.0002035652047632878,
      "loss": 0.0461,
      "step": 4927
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.22229225933551788,
      "learning_rate": 0.00020354342143479522,
      "loss": 0.0557,
      "step": 4928
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.18437667191028595,
      "learning_rate": 0.00020352163810630263,
      "loss": 0.0266,
      "step": 4929
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4374220371246338,
      "learning_rate": 0.00020349985477781005,
      "loss": 0.0766,
      "step": 4930
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.2718816101551056,
      "learning_rate": 0.00020347807144931743,
      "loss": 0.0492,
      "step": 4931
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.16373451054096222,
      "learning_rate": 0.00020345628812082483,
      "loss": 0.0218,
      "step": 4932
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.1731264889240265,
      "learning_rate": 0.00020343450479233226,
      "loss": 0.0368,
      "step": 4933
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.3678360879421234,
      "learning_rate": 0.00020341272146383964,
      "loss": 0.0502,
      "step": 4934
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.42105790972709656,
      "learning_rate": 0.00020339093813534706,
      "loss": 0.0751,
      "step": 4935
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.2193836122751236,
      "learning_rate": 0.00020336915480685447,
      "loss": 0.0636,
      "step": 4936
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.19990317523479462,
      "learning_rate": 0.0002033473714783619,
      "loss": 0.022,
      "step": 4937
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.15270684659481049,
      "learning_rate": 0.00020332558814986927,
      "loss": 0.0452,
      "step": 4938
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.4297873079776764,
      "learning_rate": 0.0002033038048213767,
      "loss": 0.0316,
      "step": 4939
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.22878164052963257,
      "learning_rate": 0.0002032820214928841,
      "loss": 0.0639,
      "step": 4940
    },
    {
      "epoch": 1.38,
      "grad_norm": 0.20054368674755096,
      "learning_rate": 0.00020326023816439148,
      "loss": 0.0537,
      "step": 4941
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.3662302792072296,
      "learning_rate": 0.0002032384548358989,
      "loss": 0.088,
      "step": 4942
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.5242897868156433,
      "learning_rate": 0.0002032166715074063,
      "loss": 0.0773,
      "step": 4943
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.30153918266296387,
      "learning_rate": 0.00020319488817891374,
      "loss": 0.0773,
      "step": 4944
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.3298908770084381,
      "learning_rate": 0.0002031731048504211,
      "loss": 0.0596,
      "step": 4945
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.26504281163215637,
      "learning_rate": 0.00020315132152192854,
      "loss": 0.0794,
      "step": 4946
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.1953238993883133,
      "learning_rate": 0.00020312953819343594,
      "loss": 0.0436,
      "step": 4947
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.20484672486782074,
      "learning_rate": 0.00020310775486494337,
      "loss": 0.0376,
      "step": 4948
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.33463728427886963,
      "learning_rate": 0.00020308597153645075,
      "loss": 0.0525,
      "step": 4949
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.28857019543647766,
      "learning_rate": 0.00020306418820795815,
      "loss": 0.0915,
      "step": 4950
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.2673638164997101,
      "learning_rate": 0.00020304240487946558,
      "loss": 0.0619,
      "step": 4951
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.34934791922569275,
      "learning_rate": 0.00020302062155097295,
      "loss": 0.0757,
      "step": 4952
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.22587262094020844,
      "learning_rate": 0.00020299883822248038,
      "loss": 0.0392,
      "step": 4953
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.3768025040626526,
      "learning_rate": 0.00020297705489398778,
      "loss": 0.1137,
      "step": 4954
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.43049004673957825,
      "learning_rate": 0.0002029552715654952,
      "loss": 0.056,
      "step": 4955
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.6077654957771301,
      "learning_rate": 0.0002029334882370026,
      "loss": 0.0595,
      "step": 4956
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.2554156184196472,
      "learning_rate": 0.00020291170490851,
      "loss": 0.0476,
      "step": 4957
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.2654286026954651,
      "learning_rate": 0.00020288992158001742,
      "loss": 0.0713,
      "step": 4958
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.21967826783657074,
      "learning_rate": 0.0002028681382515248,
      "loss": 0.0248,
      "step": 4959
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.11240432411432266,
      "learning_rate": 0.00020284635492303222,
      "loss": 0.0224,
      "step": 4960
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.22544492781162262,
      "learning_rate": 0.00020282457159453963,
      "loss": 0.0478,
      "step": 4961
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.13371048867702484,
      "learning_rate": 0.00020280278826604705,
      "loss": 0.0181,
      "step": 4962
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.36146146059036255,
      "learning_rate": 0.00020278100493755443,
      "loss": 0.067,
      "step": 4963
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.18118004500865936,
      "learning_rate": 0.00020275922160906186,
      "loss": 0.0488,
      "step": 4964
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.2718740701675415,
      "learning_rate": 0.00020273743828056926,
      "loss": 0.0461,
      "step": 4965
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.31163880228996277,
      "learning_rate": 0.00020271565495207664,
      "loss": 0.0459,
      "step": 4966
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.3693416714668274,
      "learning_rate": 0.00020269387162358406,
      "loss": 0.0425,
      "step": 4967
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.7071540951728821,
      "learning_rate": 0.00020267208829509147,
      "loss": 0.0955,
      "step": 4968
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.2610872983932495,
      "learning_rate": 0.0002026503049665989,
      "loss": 0.0571,
      "step": 4969
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.2414141744375229,
      "learning_rate": 0.00020262852163810627,
      "loss": 0.0464,
      "step": 4970
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.1663239747285843,
      "learning_rate": 0.0002026067383096137,
      "loss": 0.027,
      "step": 4971
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.18172863125801086,
      "learning_rate": 0.0002025849549811211,
      "loss": 0.0533,
      "step": 4972
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.28572195768356323,
      "learning_rate": 0.00020256317165262853,
      "loss": 0.0376,
      "step": 4973
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.2949989140033722,
      "learning_rate": 0.0002025413883241359,
      "loss": 0.0363,
      "step": 4974
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.2550528943538666,
      "learning_rate": 0.0002025196049956433,
      "loss": 0.0704,
      "step": 4975
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.19172997772693634,
      "learning_rate": 0.00020249782166715074,
      "loss": 0.0594,
      "step": 4976
    },
    {
      "epoch": 1.39,
      "grad_norm": 0.4248185157775879,
      "learning_rate": 0.0002024760383386581,
      "loss": 0.0913,
      "step": 4977
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.3056192994117737,
      "learning_rate": 0.00020245425501016554,
      "loss": 0.1056,
      "step": 4978
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.6721956729888916,
      "learning_rate": 0.00020243247168167294,
      "loss": 0.0611,
      "step": 4979
    },
    {
      "epoch": 1.4,
      "grad_norm": 1.1584339141845703,
      "learning_rate": 0.00020241068835318037,
      "loss": 0.1874,
      "step": 4980
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.29955002665519714,
      "learning_rate": 0.00020238890502468775,
      "loss": 0.0494,
      "step": 4981
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.30253106355667114,
      "learning_rate": 0.00020236712169619515,
      "loss": 0.0666,
      "step": 4982
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.2595023810863495,
      "learning_rate": 0.00020234533836770258,
      "loss": 0.1001,
      "step": 4983
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.26327747106552124,
      "learning_rate": 0.00020232355503920995,
      "loss": 0.0522,
      "step": 4984
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.41492271423339844,
      "learning_rate": 0.00020230177171071738,
      "loss": 0.0791,
      "step": 4985
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.20113258063793182,
      "learning_rate": 0.00020227998838222478,
      "loss": 0.0601,
      "step": 4986
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.2825450897216797,
      "learning_rate": 0.00020225820505373221,
      "loss": 0.0678,
      "step": 4987
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.21573494374752045,
      "learning_rate": 0.0002022364217252396,
      "loss": 0.0464,
      "step": 4988
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.3205232322216034,
      "learning_rate": 0.00020221463839674702,
      "loss": 0.0498,
      "step": 4989
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.17284844815731049,
      "learning_rate": 0.00020219285506825442,
      "loss": 0.0525,
      "step": 4990
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.29557254910469055,
      "learning_rate": 0.0002021710717397618,
      "loss": 0.0555,
      "step": 4991
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.1999688297510147,
      "learning_rate": 0.00020214928841126922,
      "loss": 0.0381,
      "step": 4992
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.3845026195049286,
      "learning_rate": 0.00020212750508277663,
      "loss": 0.0656,
      "step": 4993
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.20548610389232635,
      "learning_rate": 0.00020210572175428406,
      "loss": 0.038,
      "step": 4994
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.19934982061386108,
      "learning_rate": 0.00020208393842579143,
      "loss": 0.0489,
      "step": 4995
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.18396222591400146,
      "learning_rate": 0.00020206215509729886,
      "loss": 0.0585,
      "step": 4996
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.16186527907848358,
      "learning_rate": 0.00020204037176880626,
      "loss": 0.054,
      "step": 4997
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.21582813560962677,
      "learning_rate": 0.0002020185884403137,
      "loss": 0.0427,
      "step": 4998
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.11907950043678284,
      "learning_rate": 0.00020199680511182107,
      "loss": 0.0259,
      "step": 4999
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.10961630940437317,
      "learning_rate": 0.00020197502178332847,
      "loss": 0.0229,
      "step": 5000
    },
    {
      "epoch": 1.4,
      "eval_loss": 0.07712098956108093,
      "eval_runtime": 171.8266,
      "eval_samples_per_second": 15.376,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.06636255454184847,
      "step": 5000
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.9141144752502441,
      "learning_rate": 0.0002019532384548359,
      "loss": 0.0491,
      "step": 5001
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.14079196751117706,
      "learning_rate": 0.00020193145512634327,
      "loss": 0.0212,
      "step": 5002
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.35529398918151855,
      "learning_rate": 0.0002019096717978507,
      "loss": 0.088,
      "step": 5003
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5167667865753174,
      "learning_rate": 0.0002018878884693581,
      "loss": 0.13,
      "step": 5004
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.2750840485095978,
      "learning_rate": 0.00020186610514086553,
      "loss": 0.0338,
      "step": 5005
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.5467333793640137,
      "learning_rate": 0.0002018443218123729,
      "loss": 0.0832,
      "step": 5006
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.34203797578811646,
      "learning_rate": 0.0002018225384838803,
      "loss": 0.045,
      "step": 5007
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.2873195707798004,
      "learning_rate": 0.00020180075515538774,
      "loss": 0.0358,
      "step": 5008
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.3286966383457184,
      "learning_rate": 0.0002017789718268951,
      "loss": 0.0613,
      "step": 5009
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.1738765686750412,
      "learning_rate": 0.00020175718849840254,
      "loss": 0.0509,
      "step": 5010
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.15367300808429718,
      "learning_rate": 0.00020173540516990994,
      "loss": 0.0388,
      "step": 5011
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.22132056951522827,
      "learning_rate": 0.00020171362184141737,
      "loss": 0.0419,
      "step": 5012
    },
    {
      "epoch": 1.4,
      "grad_norm": 0.32759273052215576,
      "learning_rate": 0.00020169183851292475,
      "loss": 0.0703,
      "step": 5013
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.22706454992294312,
      "learning_rate": 0.00020167005518443218,
      "loss": 0.0672,
      "step": 5014
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.528989851474762,
      "learning_rate": 0.00020164827185593958,
      "loss": 0.086,
      "step": 5015
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.44168466329574585,
      "learning_rate": 0.00020162648852744695,
      "loss": 0.0478,
      "step": 5016
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.43391847610473633,
      "learning_rate": 0.00020160470519895438,
      "loss": 0.1395,
      "step": 5017
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.7107638716697693,
      "learning_rate": 0.00020158292187046179,
      "loss": 0.0829,
      "step": 5018
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.2882819175720215,
      "learning_rate": 0.00020156113854196921,
      "loss": 0.0862,
      "step": 5019
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.14696913957595825,
      "learning_rate": 0.0002015393552134766,
      "loss": 0.0237,
      "step": 5020
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.2093660533428192,
      "learning_rate": 0.00020151757188498402,
      "loss": 0.1007,
      "step": 5021
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.26515328884124756,
      "learning_rate": 0.00020149578855649142,
      "loss": 0.05,
      "step": 5022
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.22385947406291962,
      "learning_rate": 0.00020147400522799882,
      "loss": 0.0379,
      "step": 5023
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.25663262605667114,
      "learning_rate": 0.00020145222189950622,
      "loss": 0.0425,
      "step": 5024
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.2134832739830017,
      "learning_rate": 0.00020143043857101363,
      "loss": 0.0511,
      "step": 5025
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.5385640263557434,
      "learning_rate": 0.00020140865524252106,
      "loss": 0.1035,
      "step": 5026
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.4370637536048889,
      "learning_rate": 0.00020138687191402843,
      "loss": 0.0585,
      "step": 5027
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.19211068749427795,
      "learning_rate": 0.00020136508858553586,
      "loss": 0.052,
      "step": 5028
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.5952328443527222,
      "learning_rate": 0.00020134330525704326,
      "loss": 0.0567,
      "step": 5029
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.2154771238565445,
      "learning_rate": 0.0002013215219285507,
      "loss": 0.0309,
      "step": 5030
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.13178159296512604,
      "learning_rate": 0.00020129973860005807,
      "loss": 0.0342,
      "step": 5031
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.16505759954452515,
      "learning_rate": 0.0002012779552715655,
      "loss": 0.0285,
      "step": 5032
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.1966230273246765,
      "learning_rate": 0.0002012561719430729,
      "loss": 0.044,
      "step": 5033
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.39896222949028015,
      "learning_rate": 0.00020123438861458027,
      "loss": 0.0391,
      "step": 5034
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.24562960863113403,
      "learning_rate": 0.0002012126052860877,
      "loss": 0.0523,
      "step": 5035
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.1793527901172638,
      "learning_rate": 0.0002011908219575951,
      "loss": 0.0396,
      "step": 5036
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.46181708574295044,
      "learning_rate": 0.00020116903862910253,
      "loss": 0.0485,
      "step": 5037
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.30121153593063354,
      "learning_rate": 0.0002011472553006099,
      "loss": 0.0609,
      "step": 5038
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.28974461555480957,
      "learning_rate": 0.00020112547197211734,
      "loss": 0.0716,
      "step": 5039
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.27207398414611816,
      "learning_rate": 0.00020110368864362474,
      "loss": 0.0406,
      "step": 5040
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.11808256804943085,
      "learning_rate": 0.0002010819053151321,
      "loss": 0.0341,
      "step": 5041
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.191205233335495,
      "learning_rate": 0.00020106012198663954,
      "loss": 0.0806,
      "step": 5042
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.1657618284225464,
      "learning_rate": 0.00020103833865814694,
      "loss": 0.053,
      "step": 5043
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.29153066873550415,
      "learning_rate": 0.00020101655532965437,
      "loss": 0.0733,
      "step": 5044
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.1523519605398178,
      "learning_rate": 0.00020099477200116175,
      "loss": 0.0473,
      "step": 5045
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.13865509629249573,
      "learning_rate": 0.00020097298867266918,
      "loss": 0.0234,
      "step": 5046
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.09090717136859894,
      "learning_rate": 0.00020095120534417658,
      "loss": 0.0211,
      "step": 5047
    },
    {
      "epoch": 1.41,
      "grad_norm": 0.27587923407554626,
      "learning_rate": 0.00020092942201568398,
      "loss": 0.0617,
      "step": 5048
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.46988216042518616,
      "learning_rate": 0.00020090763868719138,
      "loss": 0.0785,
      "step": 5049
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.20708999037742615,
      "learning_rate": 0.00020088585535869879,
      "loss": 0.0709,
      "step": 5050
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.12162459641695023,
      "learning_rate": 0.00020086407203020621,
      "loss": 0.0157,
      "step": 5051
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4101085960865021,
      "learning_rate": 0.0002008422887017136,
      "loss": 0.0378,
      "step": 5052
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.13967400789260864,
      "learning_rate": 0.00020082050537322102,
      "loss": 0.0279,
      "step": 5053
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.3583044409751892,
      "learning_rate": 0.00020079872204472842,
      "loss": 0.0955,
      "step": 5054
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.15786439180374146,
      "learning_rate": 0.00020077693871623582,
      "loss": 0.0317,
      "step": 5055
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.5724708437919617,
      "learning_rate": 0.00020075515538774323,
      "loss": 0.0976,
      "step": 5056
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.23265385627746582,
      "learning_rate": 0.00020073337205925065,
      "loss": 0.0617,
      "step": 5057
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.21884530782699585,
      "learning_rate": 0.00020071158873075806,
      "loss": 0.0305,
      "step": 5058
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.1967211663722992,
      "learning_rate": 0.00020068980540226543,
      "loss": 0.0323,
      "step": 5059
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.2430821806192398,
      "learning_rate": 0.00020066802207377286,
      "loss": 0.0297,
      "step": 5060
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.16337300837039948,
      "learning_rate": 0.00020064623874528026,
      "loss": 0.0422,
      "step": 5061
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.11976531893014908,
      "learning_rate": 0.00020062445541678766,
      "loss": 0.0377,
      "step": 5062
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.2135934978723526,
      "learning_rate": 0.00020060267208829507,
      "loss": 0.0356,
      "step": 5063
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.1984216272830963,
      "learning_rate": 0.0002005808887598025,
      "loss": 0.0547,
      "step": 5064
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.17249485850334167,
      "learning_rate": 0.0002005591054313099,
      "loss": 0.0302,
      "step": 5065
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.1858610361814499,
      "learning_rate": 0.00020053732210281727,
      "loss": 0.039,
      "step": 5066
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.273369699716568,
      "learning_rate": 0.0002005155387743247,
      "loss": 0.0797,
      "step": 5067
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.30179572105407715,
      "learning_rate": 0.0002004937554458321,
      "loss": 0.0553,
      "step": 5068
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.19572865962982178,
      "learning_rate": 0.0002004719721173395,
      "loss": 0.0472,
      "step": 5069
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.26716339588165283,
      "learning_rate": 0.0002004501887888469,
      "loss": 0.0567,
      "step": 5070
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.23725683987140656,
      "learning_rate": 0.00020042840546035434,
      "loss": 0.0577,
      "step": 5071
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.2936787009239197,
      "learning_rate": 0.00020040662213186174,
      "loss": 0.0224,
      "step": 5072
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.42883801460266113,
      "learning_rate": 0.00020038483880336914,
      "loss": 0.0463,
      "step": 5073
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.3201887309551239,
      "learning_rate": 0.00020036305547487654,
      "loss": 0.0486,
      "step": 5074
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.1904761791229248,
      "learning_rate": 0.00020034127214638395,
      "loss": 0.0343,
      "step": 5075
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.19735857844352722,
      "learning_rate": 0.00020031948881789135,
      "loss": 0.0291,
      "step": 5076
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.18923138082027435,
      "learning_rate": 0.00020029770548939875,
      "loss": 0.0235,
      "step": 5077
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.3417956829071045,
      "learning_rate": 0.00020027592216090618,
      "loss": 0.0797,
      "step": 5078
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.2395937740802765,
      "learning_rate": 0.00020025413883241358,
      "loss": 0.0965,
      "step": 5079
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.4760305881500244,
      "learning_rate": 0.00020023235550392098,
      "loss": 0.1414,
      "step": 5080
    },
    {
      "epoch": 1.42,
      "grad_norm": 2.266674041748047,
      "learning_rate": 0.00020021057217542838,
      "loss": 0.1448,
      "step": 5081
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.23411576449871063,
      "learning_rate": 0.0002001887888469358,
      "loss": 0.064,
      "step": 5082
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.1693546026945114,
      "learning_rate": 0.00020016700551844322,
      "loss": 0.0365,
      "step": 5083
    },
    {
      "epoch": 1.42,
      "grad_norm": 0.2742670178413391,
      "learning_rate": 0.0002001452221899506,
      "loss": 0.0522,
      "step": 5084
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.32485541701316833,
      "learning_rate": 0.00020012343886145802,
      "loss": 0.0701,
      "step": 5085
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.1751171499490738,
      "learning_rate": 0.00020010165553296542,
      "loss": 0.0297,
      "step": 5086
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.30510106682777405,
      "learning_rate": 0.00020007987220447282,
      "loss": 0.054,
      "step": 5087
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.2293461710214615,
      "learning_rate": 0.00020005808887598023,
      "loss": 0.0899,
      "step": 5088
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.22430554032325745,
      "learning_rate": 0.00020003630554748765,
      "loss": 0.0489,
      "step": 5089
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.25147882103919983,
      "learning_rate": 0.00020001452221899506,
      "loss": 0.0486,
      "step": 5090
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.23512481153011322,
      "learning_rate": 0.00019999273889050243,
      "loss": 0.0395,
      "step": 5091
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.3608558773994446,
      "learning_rate": 0.00019997095556200986,
      "loss": 0.0706,
      "step": 5092
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.9898175597190857,
      "learning_rate": 0.00019994917223351726,
      "loss": 0.1866,
      "step": 5093
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.17830315232276917,
      "learning_rate": 0.00019992738890502466,
      "loss": 0.0354,
      "step": 5094
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.4329834580421448,
      "learning_rate": 0.00019990560557653207,
      "loss": 0.1036,
      "step": 5095
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.2096811830997467,
      "learning_rate": 0.0001998838222480395,
      "loss": 0.0522,
      "step": 5096
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.1995343565940857,
      "learning_rate": 0.0001998620389195469,
      "loss": 0.0384,
      "step": 5097
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.15375147759914398,
      "learning_rate": 0.0001998402555910543,
      "loss": 0.0279,
      "step": 5098
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.24942196905612946,
      "learning_rate": 0.0001998184722625617,
      "loss": 0.0463,
      "step": 5099
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.2958841919898987,
      "learning_rate": 0.0001997966889340691,
      "loss": 0.0672,
      "step": 5100
    },
    {
      "epoch": 1.43,
      "eval_loss": 0.07820190489292145,
      "eval_runtime": 172.5999,
      "eval_samples_per_second": 15.307,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.06616422054740183,
      "step": 5100
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.1853894591331482,
      "learning_rate": 0.0001997749056055765,
      "loss": 0.0578,
      "step": 5101
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.3842736780643463,
      "learning_rate": 0.0001997531222770839,
      "loss": 0.0669,
      "step": 5102
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.293861985206604,
      "learning_rate": 0.00019973133894859134,
      "loss": 0.0684,
      "step": 5103
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.23305998742580414,
      "learning_rate": 0.00019970955562009874,
      "loss": 0.0312,
      "step": 5104
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.6754211187362671,
      "learning_rate": 0.00019968777229160614,
      "loss": 0.0747,
      "step": 5105
    },
    {
      "epoch": 1.43,
      "grad_norm": 1.167436957359314,
      "learning_rate": 0.00019966598896311354,
      "loss": 0.0899,
      "step": 5106
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.11245480179786682,
      "learning_rate": 0.00019964420563462097,
      "loss": 0.0157,
      "step": 5107
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.19786430895328522,
      "learning_rate": 0.00019962242230612835,
      "loss": 0.0485,
      "step": 5108
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.3309296667575836,
      "learning_rate": 0.00019960063897763575,
      "loss": 0.0643,
      "step": 5109
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.1664879024028778,
      "learning_rate": 0.00019957885564914318,
      "loss": 0.0345,
      "step": 5110
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.2629620432853699,
      "learning_rate": 0.00019955707232065058,
      "loss": 0.0558,
      "step": 5111
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.441256046295166,
      "learning_rate": 0.00019953528899215798,
      "loss": 0.1057,
      "step": 5112
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.2222786545753479,
      "learning_rate": 0.00019951350566366538,
      "loss": 0.0532,
      "step": 5113
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.2766890525817871,
      "learning_rate": 0.00019949172233517281,
      "loss": 0.0397,
      "step": 5114
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.49239134788513184,
      "learning_rate": 0.0001994699390066802,
      "loss": 0.0538,
      "step": 5115
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.3012903928756714,
      "learning_rate": 0.0001994481556781876,
      "loss": 0.0806,
      "step": 5116
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.28215348720550537,
      "learning_rate": 0.00019942637234969502,
      "loss": 0.0309,
      "step": 5117
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.5015280842781067,
      "learning_rate": 0.00019940458902120242,
      "loss": 0.1167,
      "step": 5118
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.28499069809913635,
      "learning_rate": 0.00019938280569270982,
      "loss": 0.0602,
      "step": 5119
    },
    {
      "epoch": 1.43,
      "grad_norm": 0.20486420392990112,
      "learning_rate": 0.00019936102236421723,
      "loss": 0.0356,
      "step": 5120
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.203369602560997,
      "learning_rate": 0.00019933923903572466,
      "loss": 0.0469,
      "step": 5121
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.1295565515756607,
      "learning_rate": 0.00019931745570723203,
      "loss": 0.0438,
      "step": 5122
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.16443996131420135,
      "learning_rate": 0.00019929567237873946,
      "loss": 0.041,
      "step": 5123
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.3485963046550751,
      "learning_rate": 0.00019927388905024686,
      "loss": 0.0438,
      "step": 5124
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.2345539927482605,
      "learning_rate": 0.00019925210572175426,
      "loss": 0.0349,
      "step": 5125
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.2599107027053833,
      "learning_rate": 0.00019923032239326167,
      "loss": 0.0494,
      "step": 5126
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.5754084587097168,
      "learning_rate": 0.00019920853906476907,
      "loss": 0.0628,
      "step": 5127
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.21688687801361084,
      "learning_rate": 0.0001991867557362765,
      "loss": 0.059,
      "step": 5128
    },
    {
      "epoch": 1.44,
      "grad_norm": 1.0705071687698364,
      "learning_rate": 0.00019916497240778387,
      "loss": 0.1089,
      "step": 5129
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.6226845383644104,
      "learning_rate": 0.0001991431890792913,
      "loss": 0.136,
      "step": 5130
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.3812558054924011,
      "learning_rate": 0.0001991214057507987,
      "loss": 0.0676,
      "step": 5131
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.2552357614040375,
      "learning_rate": 0.00019909962242230613,
      "loss": 0.0597,
      "step": 5132
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.23373107612133026,
      "learning_rate": 0.0001990778390938135,
      "loss": 0.0569,
      "step": 5133
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.320879727602005,
      "learning_rate": 0.0001990560557653209,
      "loss": 0.0689,
      "step": 5134
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.16888734698295593,
      "learning_rate": 0.00019903427243682834,
      "loss": 0.0487,
      "step": 5135
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.2335592359304428,
      "learning_rate": 0.00019901248910833574,
      "loss": 0.0498,
      "step": 5136
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.3464861810207367,
      "learning_rate": 0.00019899070577984314,
      "loss": 0.0518,
      "step": 5137
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.23252545297145844,
      "learning_rate": 0.00019896892245135054,
      "loss": 0.0353,
      "step": 5138
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.3642653524875641,
      "learning_rate": 0.00019894713912285797,
      "loss": 0.0799,
      "step": 5139
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.20844902098178864,
      "learning_rate": 0.00019892535579436535,
      "loss": 0.0315,
      "step": 5140
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.8604695200920105,
      "learning_rate": 0.00019890357246587275,
      "loss": 0.1056,
      "step": 5141
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.4137646555900574,
      "learning_rate": 0.00019888178913738018,
      "loss": 0.1027,
      "step": 5142
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.38973885774612427,
      "learning_rate": 0.00019886000580888758,
      "loss": 0.0821,
      "step": 5143
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.13601654767990112,
      "learning_rate": 0.00019883822248039498,
      "loss": 0.0267,
      "step": 5144
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.2319381833076477,
      "learning_rate": 0.00019881643915190239,
      "loss": 0.058,
      "step": 5145
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.3946756422519684,
      "learning_rate": 0.00019879465582340981,
      "loss": 0.0428,
      "step": 5146
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.15761886537075043,
      "learning_rate": 0.0001987728724949172,
      "loss": 0.0278,
      "step": 5147
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.1882566213607788,
      "learning_rate": 0.00019875108916642462,
      "loss": 0.0421,
      "step": 5148
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.30299869179725647,
      "learning_rate": 0.00019872930583793202,
      "loss": 0.0782,
      "step": 5149
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.1693444848060608,
      "learning_rate": 0.00019870752250943942,
      "loss": 0.0493,
      "step": 5150
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.1754918396472931,
      "learning_rate": 0.00019868573918094682,
      "loss": 0.0372,
      "step": 5151
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.2826593220233917,
      "learning_rate": 0.00019866395585245423,
      "loss": 0.0469,
      "step": 5152
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.25960102677345276,
      "learning_rate": 0.00019864217252396166,
      "loss": 0.0611,
      "step": 5153
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.22426345944404602,
      "learning_rate": 0.00019862038919546903,
      "loss": 0.0367,
      "step": 5154
    },
    {
      "epoch": 1.44,
      "grad_norm": 0.3269212543964386,
      "learning_rate": 0.00019859860586697646,
      "loss": 0.0618,
      "step": 5155
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.25899264216423035,
      "learning_rate": 0.00019857682253848386,
      "loss": 0.059,
      "step": 5156
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.21640396118164062,
      "learning_rate": 0.0001985550392099913,
      "loss": 0.0462,
      "step": 5157
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.13158462941646576,
      "learning_rate": 0.00019853325588149867,
      "loss": 0.0219,
      "step": 5158
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.1628909409046173,
      "learning_rate": 0.00019851147255300607,
      "loss": 0.0373,
      "step": 5159
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.26968318223953247,
      "learning_rate": 0.0001984896892245135,
      "loss": 0.0448,
      "step": 5160
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.38259536027908325,
      "learning_rate": 0.00019846790589602087,
      "loss": 0.0395,
      "step": 5161
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.23596303164958954,
      "learning_rate": 0.0001984461225675283,
      "loss": 0.0839,
      "step": 5162
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.17275077104568481,
      "learning_rate": 0.0001984243392390357,
      "loss": 0.0329,
      "step": 5163
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.20314474403858185,
      "learning_rate": 0.00019840255591054313,
      "loss": 0.0313,
      "step": 5164
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.25703054666519165,
      "learning_rate": 0.0001983807725820505,
      "loss": 0.0339,
      "step": 5165
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.2609028220176697,
      "learning_rate": 0.00019835898925355794,
      "loss": 0.0356,
      "step": 5166
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.21477802097797394,
      "learning_rate": 0.00019833720592506534,
      "loss": 0.0393,
      "step": 5167
    },
    {
      "epoch": 1.45,
      "grad_norm": 1.1394494771957397,
      "learning_rate": 0.0001983154225965727,
      "loss": 0.0997,
      "step": 5168
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.23116666078567505,
      "learning_rate": 0.00019829363926808014,
      "loss": 0.0474,
      "step": 5169
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.32723814249038696,
      "learning_rate": 0.00019827185593958754,
      "loss": 0.0702,
      "step": 5170
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.25706467032432556,
      "learning_rate": 0.00019825007261109497,
      "loss": 0.0762,
      "step": 5171
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.303561270236969,
      "learning_rate": 0.00019822828928260235,
      "loss": 0.0431,
      "step": 5172
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.1434689313173294,
      "learning_rate": 0.00019820650595410978,
      "loss": 0.0332,
      "step": 5173
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.22155238687992096,
      "learning_rate": 0.00019818472262561718,
      "loss": 0.0458,
      "step": 5174
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.23325395584106445,
      "learning_rate": 0.00019816293929712455,
      "loss": 0.0442,
      "step": 5175
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.4557015299797058,
      "learning_rate": 0.00019814115596863198,
      "loss": 0.0876,
      "step": 5176
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.3143742084503174,
      "learning_rate": 0.00019811937264013939,
      "loss": 0.0745,
      "step": 5177
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.3912753462791443,
      "learning_rate": 0.00019809758931164682,
      "loss": 0.0418,
      "step": 5178
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.508255124092102,
      "learning_rate": 0.0001980758059831542,
      "loss": 0.0624,
      "step": 5179
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.6986249089241028,
      "learning_rate": 0.00019805402265466162,
      "loss": 0.039,
      "step": 5180
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.49581924080848694,
      "learning_rate": 0.00019803223932616902,
      "loss": 0.0697,
      "step": 5181
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.25165465474128723,
      "learning_rate": 0.00019801045599767645,
      "loss": 0.0374,
      "step": 5182
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.2570635676383972,
      "learning_rate": 0.00019798867266918383,
      "loss": 0.0676,
      "step": 5183
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.258709579706192,
      "learning_rate": 0.00019796688934069123,
      "loss": 0.0657,
      "step": 5184
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.1857527792453766,
      "learning_rate": 0.00019794510601219866,
      "loss": 0.0527,
      "step": 5185
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.1811835616827011,
      "learning_rate": 0.00019792332268370603,
      "loss": 0.0523,
      "step": 5186
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.2880144715309143,
      "learning_rate": 0.00019790153935521346,
      "loss": 0.0354,
      "step": 5187
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.2970774471759796,
      "learning_rate": 0.00019787975602672086,
      "loss": 0.0726,
      "step": 5188
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.23034927248954773,
      "learning_rate": 0.0001978579726982283,
      "loss": 0.0421,
      "step": 5189
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.293964684009552,
      "learning_rate": 0.00019783618936973567,
      "loss": 0.0604,
      "step": 5190
    },
    {
      "epoch": 1.45,
      "grad_norm": 0.9564357399940491,
      "learning_rate": 0.0001978144060412431,
      "loss": 0.1198,
      "step": 5191
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.3730413317680359,
      "learning_rate": 0.0001977926227127505,
      "loss": 0.0849,
      "step": 5192
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.44283533096313477,
      "learning_rate": 0.00019777083938425787,
      "loss": 0.0609,
      "step": 5193
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.21761207282543182,
      "learning_rate": 0.0001977490560557653,
      "loss": 0.0636,
      "step": 5194
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.2252005785703659,
      "learning_rate": 0.0001977272727272727,
      "loss": 0.0416,
      "step": 5195
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.3512538969516754,
      "learning_rate": 0.00019770548939878013,
      "loss": 0.0775,
      "step": 5196
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.2583036720752716,
      "learning_rate": 0.0001976837060702875,
      "loss": 0.0719,
      "step": 5197
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.35136672854423523,
      "learning_rate": 0.00019766192274179494,
      "loss": 0.0371,
      "step": 5198
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.27416330575942993,
      "learning_rate": 0.00019764013941330234,
      "loss": 0.0733,
      "step": 5199
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.25411731004714966,
      "learning_rate": 0.00019761835608480971,
      "loss": 0.0758,
      "step": 5200
    },
    {
      "epoch": 1.46,
      "eval_loss": 0.08075325191020966,
      "eval_runtime": 172.1473,
      "eval_samples_per_second": 15.347,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.06959539865132884,
      "step": 5200
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.17167820036411285,
      "learning_rate": 0.00019759657275631714,
      "loss": 0.0473,
      "step": 5201
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.3199068009853363,
      "learning_rate": 0.00019757478942782455,
      "loss": 0.0339,
      "step": 5202
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.325849324464798,
      "learning_rate": 0.00019755300609933197,
      "loss": 0.0526,
      "step": 5203
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.23065154254436493,
      "learning_rate": 0.00019753122277083935,
      "loss": 0.0708,
      "step": 5204
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.2232566624879837,
      "learning_rate": 0.00019750943944234678,
      "loss": 0.0297,
      "step": 5205
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.42546728253364563,
      "learning_rate": 0.00019748765611385418,
      "loss": 0.0799,
      "step": 5206
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.23875494301319122,
      "learning_rate": 0.0001974658727853616,
      "loss": 0.0712,
      "step": 5207
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.24406850337982178,
      "learning_rate": 0.00019744408945686898,
      "loss": 0.0316,
      "step": 5208
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.22485387325286865,
      "learning_rate": 0.00019742230612837639,
      "loss": 0.059,
      "step": 5209
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.19626367092132568,
      "learning_rate": 0.00019740052279988382,
      "loss": 0.0669,
      "step": 5210
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.40369459986686707,
      "learning_rate": 0.0001973787394713912,
      "loss": 0.0514,
      "step": 5211
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.347606360912323,
      "learning_rate": 0.00019735695614289862,
      "loss": 0.0896,
      "step": 5212
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.3472258746623993,
      "learning_rate": 0.00019733517281440602,
      "loss": 0.0381,
      "step": 5213
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.4330633878707886,
      "learning_rate": 0.00019731338948591345,
      "loss": 0.0532,
      "step": 5214
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.42434436082839966,
      "learning_rate": 0.00019729160615742083,
      "loss": 0.0538,
      "step": 5215
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.35288697481155396,
      "learning_rate": 0.00019726982282892825,
      "loss": 0.0845,
      "step": 5216
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.6460391879081726,
      "learning_rate": 0.00019724803950043566,
      "loss": 0.1,
      "step": 5217
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.296398401260376,
      "learning_rate": 0.00019722625617194303,
      "loss": 0.0263,
      "step": 5218
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.27101433277130127,
      "learning_rate": 0.00019720447284345046,
      "loss": 0.0468,
      "step": 5219
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.12929454445838928,
      "learning_rate": 0.00019718268951495786,
      "loss": 0.0153,
      "step": 5220
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.26692143082618713,
      "learning_rate": 0.0001971609061864653,
      "loss": 0.0735,
      "step": 5221
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.21164299547672272,
      "learning_rate": 0.00019713912285797267,
      "loss": 0.0479,
      "step": 5222
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.16097523272037506,
      "learning_rate": 0.0001971173395294801,
      "loss": 0.0341,
      "step": 5223
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.2785847783088684,
      "learning_rate": 0.0001970955562009875,
      "loss": 0.0789,
      "step": 5224
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.30990806221961975,
      "learning_rate": 0.00019707377287249487,
      "loss": 0.0369,
      "step": 5225
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.1351374387741089,
      "learning_rate": 0.0001970519895440023,
      "loss": 0.0262,
      "step": 5226
    },
    {
      "epoch": 1.46,
      "grad_norm": 0.1480368673801422,
      "learning_rate": 0.0001970302062155097,
      "loss": 0.0343,
      "step": 5227
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.14609341323375702,
      "learning_rate": 0.00019700842288701713,
      "loss": 0.0347,
      "step": 5228
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.1998540461063385,
      "learning_rate": 0.0001969866395585245,
      "loss": 0.0366,
      "step": 5229
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.9051463603973389,
      "learning_rate": 0.00019696485623003194,
      "loss": 0.1116,
      "step": 5230
    },
    {
      "epoch": 1.47,
      "grad_norm": 1.0863311290740967,
      "learning_rate": 0.00019694307290153934,
      "loss": 0.0725,
      "step": 5231
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.3046889305114746,
      "learning_rate": 0.00019692128957304677,
      "loss": 0.0644,
      "step": 5232
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.18413671851158142,
      "learning_rate": 0.00019689950624455414,
      "loss": 0.0631,
      "step": 5233
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.18440352380275726,
      "learning_rate": 0.00019687772291606155,
      "loss": 0.0583,
      "step": 5234
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.49029725790023804,
      "learning_rate": 0.00019685593958756897,
      "loss": 0.0638,
      "step": 5235
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.34265702962875366,
      "learning_rate": 0.00019683415625907635,
      "loss": 0.0791,
      "step": 5236
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.24140849709510803,
      "learning_rate": 0.00019681237293058378,
      "loss": 0.0871,
      "step": 5237
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.16308948397636414,
      "learning_rate": 0.00019679058960209118,
      "loss": 0.0356,
      "step": 5238
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.23757609724998474,
      "learning_rate": 0.0001967688062735986,
      "loss": 0.0768,
      "step": 5239
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.23061557114124298,
      "learning_rate": 0.00019674702294510598,
      "loss": 0.0502,
      "step": 5240
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.2314852774143219,
      "learning_rate": 0.00019672523961661341,
      "loss": 0.073,
      "step": 5241
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.2465081512928009,
      "learning_rate": 0.00019670345628812082,
      "loss": 0.0494,
      "step": 5242
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.9798535704612732,
      "learning_rate": 0.0001966816729596282,
      "loss": 0.1043,
      "step": 5243
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.1410696655511856,
      "learning_rate": 0.00019665988963113562,
      "loss": 0.0387,
      "step": 5244
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.29786500334739685,
      "learning_rate": 0.00019663810630264302,
      "loss": 0.1006,
      "step": 5245
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.17342838644981384,
      "learning_rate": 0.00019661632297415045,
      "loss": 0.057,
      "step": 5246
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.26815614104270935,
      "learning_rate": 0.00019659453964565783,
      "loss": 0.0796,
      "step": 5247
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.19016870856285095,
      "learning_rate": 0.00019657275631716526,
      "loss": 0.046,
      "step": 5248
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.23486120998859406,
      "learning_rate": 0.00019655097298867266,
      "loss": 0.0682,
      "step": 5249
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.17124789953231812,
      "learning_rate": 0.00019652918966018003,
      "loss": 0.0364,
      "step": 5250
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.29687175154685974,
      "learning_rate": 0.00019650740633168746,
      "loss": 0.0756,
      "step": 5251
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.18524041771888733,
      "learning_rate": 0.00019648562300319486,
      "loss": 0.0398,
      "step": 5252
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.14908137917518616,
      "learning_rate": 0.0001964638396747023,
      "loss": 0.0392,
      "step": 5253
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.2346593290567398,
      "learning_rate": 0.00019644205634620967,
      "loss": 0.0914,
      "step": 5254
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.3182935416698456,
      "learning_rate": 0.0001964202730177171,
      "loss": 0.0474,
      "step": 5255
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.5691925287246704,
      "learning_rate": 0.0001963984896892245,
      "loss": 0.0443,
      "step": 5256
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.3380473256111145,
      "learning_rate": 0.00019637670636073193,
      "loss": 0.1021,
      "step": 5257
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.3399181365966797,
      "learning_rate": 0.0001963549230322393,
      "loss": 0.047,
      "step": 5258
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.2537626028060913,
      "learning_rate": 0.0001963331397037467,
      "loss": 0.0603,
      "step": 5259
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.22733110189437866,
      "learning_rate": 0.00019631135637525413,
      "loss": 0.033,
      "step": 5260
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.25990480184555054,
      "learning_rate": 0.0001962895730467615,
      "loss": 0.0485,
      "step": 5261
    },
    {
      "epoch": 1.47,
      "grad_norm": 0.3252688944339752,
      "learning_rate": 0.00019626778971826894,
      "loss": 0.1284,
      "step": 5262
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.39842066168785095,
      "learning_rate": 0.00019624600638977634,
      "loss": 0.0935,
      "step": 5263
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.13256417214870453,
      "learning_rate": 0.00019622422306128377,
      "loss": 0.0227,
      "step": 5264
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5612022876739502,
      "learning_rate": 0.00019620243973279114,
      "loss": 0.0668,
      "step": 5265
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.19782166182994843,
      "learning_rate": 0.00019618065640429857,
      "loss": 0.0213,
      "step": 5266
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4204659163951874,
      "learning_rate": 0.00019615887307580598,
      "loss": 0.1525,
      "step": 5267
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.6768269538879395,
      "learning_rate": 0.00019613708974731335,
      "loss": 0.0656,
      "step": 5268
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.23977981507778168,
      "learning_rate": 0.00019611530641882078,
      "loss": 0.061,
      "step": 5269
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.2550206482410431,
      "learning_rate": 0.00019609352309032818,
      "loss": 0.0513,
      "step": 5270
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.2348063737154007,
      "learning_rate": 0.0001960717397618356,
      "loss": 0.0325,
      "step": 5271
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.26575085520744324,
      "learning_rate": 0.00019604995643334299,
      "loss": 0.0539,
      "step": 5272
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.39496928453445435,
      "learning_rate": 0.00019602817310485041,
      "loss": 0.0713,
      "step": 5273
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.35021746158599854,
      "learning_rate": 0.00019600638977635782,
      "loss": 0.0506,
      "step": 5274
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.2426934540271759,
      "learning_rate": 0.0001959846064478652,
      "loss": 0.0605,
      "step": 5275
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.3357660472393036,
      "learning_rate": 0.00019596282311937262,
      "loss": 0.0605,
      "step": 5276
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.31102484464645386,
      "learning_rate": 0.00019594103979088002,
      "loss": 0.0549,
      "step": 5277
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.3484129011631012,
      "learning_rate": 0.00019591925646238745,
      "loss": 0.0508,
      "step": 5278
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.7139254808425903,
      "learning_rate": 0.00019589747313389483,
      "loss": 0.1029,
      "step": 5279
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.681248128414154,
      "learning_rate": 0.00019587568980540226,
      "loss": 0.1168,
      "step": 5280
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.22537751495838165,
      "learning_rate": 0.00019585390647690966,
      "loss": 0.0398,
      "step": 5281
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.29265084862709045,
      "learning_rate": 0.0001958321231484171,
      "loss": 0.046,
      "step": 5282
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.28385844826698303,
      "learning_rate": 0.00019581033981992446,
      "loss": 0.0495,
      "step": 5283
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.27422192692756653,
      "learning_rate": 0.00019578855649143186,
      "loss": 0.0545,
      "step": 5284
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.12893657386302948,
      "learning_rate": 0.0001957667731629393,
      "loss": 0.0626,
      "step": 5285
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.301946222782135,
      "learning_rate": 0.00019574498983444667,
      "loss": 0.0607,
      "step": 5286
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.36828601360321045,
      "learning_rate": 0.0001957232065059541,
      "loss": 0.0675,
      "step": 5287
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.19289319217205048,
      "learning_rate": 0.0001957014231774615,
      "loss": 0.0299,
      "step": 5288
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.34436851739883423,
      "learning_rate": 0.00019567963984896893,
      "loss": 0.0372,
      "step": 5289
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.5710115432739258,
      "learning_rate": 0.0001956578565204763,
      "loss": 0.0889,
      "step": 5290
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.18972165882587433,
      "learning_rate": 0.00019563607319198373,
      "loss": 0.0315,
      "step": 5291
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.6811102032661438,
      "learning_rate": 0.00019561428986349113,
      "loss": 0.0601,
      "step": 5292
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.4119875729084015,
      "learning_rate": 0.0001955925065349985,
      "loss": 0.058,
      "step": 5293
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.2756623327732086,
      "learning_rate": 0.00019557072320650594,
      "loss": 0.0764,
      "step": 5294
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.161336749792099,
      "learning_rate": 0.00019554893987801334,
      "loss": 0.0396,
      "step": 5295
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.13694535195827484,
      "learning_rate": 0.00019552715654952077,
      "loss": 0.0306,
      "step": 5296
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.2900499701499939,
      "learning_rate": 0.00019550537322102814,
      "loss": 0.0629,
      "step": 5297
    },
    {
      "epoch": 1.48,
      "grad_norm": 0.20290906727313995,
      "learning_rate": 0.00019548358989253557,
      "loss": 0.051,
      "step": 5298
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.17696073651313782,
      "learning_rate": 0.00019546180656404298,
      "loss": 0.0584,
      "step": 5299
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.19140154123306274,
      "learning_rate": 0.0001954400232355504,
      "loss": 0.0309,
      "step": 5300
    },
    {
      "epoch": 1.49,
      "eval_loss": 0.07831700891256332,
      "eval_runtime": 171.6875,
      "eval_samples_per_second": 15.388,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.07096390321301072,
      "step": 5300
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.22040428221225739,
      "learning_rate": 0.00019541823990705778,
      "loss": 0.0585,
      "step": 5301
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.2873721122741699,
      "learning_rate": 0.00019539645657856518,
      "loss": 0.0498,
      "step": 5302
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.3053627610206604,
      "learning_rate": 0.0001953746732500726,
      "loss": 0.0383,
      "step": 5303
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.42820069193840027,
      "learning_rate": 0.00019535288992157999,
      "loss": 0.065,
      "step": 5304
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5496273040771484,
      "learning_rate": 0.00019533110659308742,
      "loss": 0.0771,
      "step": 5305
    },
    {
      "epoch": 1.49,
      "grad_norm": 1.2770484685897827,
      "learning_rate": 0.00019530932326459482,
      "loss": 0.1437,
      "step": 5306
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.23203793168067932,
      "learning_rate": 0.00019528753993610225,
      "loss": 0.0328,
      "step": 5307
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.6249741315841675,
      "learning_rate": 0.00019526575660760962,
      "loss": 0.0655,
      "step": 5308
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.11238114535808563,
      "learning_rate": 0.00019524397327911702,
      "loss": 0.0261,
      "step": 5309
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.3944115936756134,
      "learning_rate": 0.00019522218995062445,
      "loss": 0.0697,
      "step": 5310
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.24255821108818054,
      "learning_rate": 0.00019520040662213183,
      "loss": 0.0638,
      "step": 5311
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.29097023606300354,
      "learning_rate": 0.00019517862329363926,
      "loss": 0.0777,
      "step": 5312
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.28387200832366943,
      "learning_rate": 0.00019515683996514666,
      "loss": 0.0897,
      "step": 5313
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5605729818344116,
      "learning_rate": 0.0001951350566366541,
      "loss": 0.0457,
      "step": 5314
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.2767074406147003,
      "learning_rate": 0.00019511327330816146,
      "loss": 0.0643,
      "step": 5315
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.25587883591651917,
      "learning_rate": 0.0001950914899796689,
      "loss": 0.05,
      "step": 5316
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.3277037441730499,
      "learning_rate": 0.0001950697066511763,
      "loss": 0.0635,
      "step": 5317
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.23927953839302063,
      "learning_rate": 0.00019504792332268367,
      "loss": 0.0355,
      "step": 5318
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.23435482382774353,
      "learning_rate": 0.0001950261399941911,
      "loss": 0.0612,
      "step": 5319
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.2129599004983902,
      "learning_rate": 0.0001950043566656985,
      "loss": 0.0624,
      "step": 5320
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.1900874525308609,
      "learning_rate": 0.00019498257333720593,
      "loss": 0.0448,
      "step": 5321
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.29660290479660034,
      "learning_rate": 0.0001949607900087133,
      "loss": 0.0414,
      "step": 5322
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.17166006565093994,
      "learning_rate": 0.00019493900668022073,
      "loss": 0.0459,
      "step": 5323
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.1886064112186432,
      "learning_rate": 0.00019491722335172814,
      "loss": 0.039,
      "step": 5324
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.36205199360847473,
      "learning_rate": 0.00019489544002323554,
      "loss": 0.0651,
      "step": 5325
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.3424999713897705,
      "learning_rate": 0.00019487365669474294,
      "loss": 0.0896,
      "step": 5326
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.2036842703819275,
      "learning_rate": 0.00019485187336625034,
      "loss": 0.0779,
      "step": 5327
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.16359683871269226,
      "learning_rate": 0.00019483009003775777,
      "loss": 0.0351,
      "step": 5328
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.42003074288368225,
      "learning_rate": 0.00019480830670926515,
      "loss": 0.0443,
      "step": 5329
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.5629797577857971,
      "learning_rate": 0.00019478652338077257,
      "loss": 0.0585,
      "step": 5330
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.4160398244857788,
      "learning_rate": 0.00019476474005227998,
      "loss": 0.0737,
      "step": 5331
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.19077618420124054,
      "learning_rate": 0.00019474295672378738,
      "loss": 0.0412,
      "step": 5332
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.1936863213777542,
      "learning_rate": 0.00019472117339529478,
      "loss": 0.0433,
      "step": 5333
    },
    {
      "epoch": 1.49,
      "grad_norm": 0.2183341085910797,
      "learning_rate": 0.00019469939006680218,
      "loss": 0.0819,
      "step": 5334
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.17714177072048187,
      "learning_rate": 0.0001946776067383096,
      "loss": 0.0393,
      "step": 5335
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.22838568687438965,
      "learning_rate": 0.000194655823409817,
      "loss": 0.0381,
      "step": 5336
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.17384763062000275,
      "learning_rate": 0.00019463404008132442,
      "loss": 0.0526,
      "step": 5337
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.39880308508872986,
      "learning_rate": 0.00019461225675283182,
      "loss": 0.0616,
      "step": 5338
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.3852015435695648,
      "learning_rate": 0.00019459047342433922,
      "loss": 0.0698,
      "step": 5339
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.376680463552475,
      "learning_rate": 0.00019456869009584662,
      "loss": 0.0749,
      "step": 5340
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.1971515417098999,
      "learning_rate": 0.00019454690676735405,
      "loss": 0.0359,
      "step": 5341
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.1716877818107605,
      "learning_rate": 0.00019452512343886145,
      "loss": 0.0278,
      "step": 5342
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.5724650621414185,
      "learning_rate": 0.00019450334011036883,
      "loss": 0.0785,
      "step": 5343
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.24613028764724731,
      "learning_rate": 0.00019448155678187626,
      "loss": 0.0586,
      "step": 5344
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.3863491117954254,
      "learning_rate": 0.00019445977345338366,
      "loss": 0.0329,
      "step": 5345
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.2613663971424103,
      "learning_rate": 0.00019443799012489106,
      "loss": 0.0545,
      "step": 5346
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.16328546404838562,
      "learning_rate": 0.00019441620679639846,
      "loss": 0.0416,
      "step": 5347
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.16734372079372406,
      "learning_rate": 0.0001943944234679059,
      "loss": 0.0212,
      "step": 5348
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.2513522803783417,
      "learning_rate": 0.0001943726401394133,
      "loss": 0.051,
      "step": 5349
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.2699410617351532,
      "learning_rate": 0.0001943508568109207,
      "loss": 0.0803,
      "step": 5350
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.3260141909122467,
      "learning_rate": 0.0001943290734824281,
      "loss": 0.0621,
      "step": 5351
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.1627383828163147,
      "learning_rate": 0.0001943072901539355,
      "loss": 0.0218,
      "step": 5352
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.20264044404029846,
      "learning_rate": 0.00019428550682544293,
      "loss": 0.0301,
      "step": 5353
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.4669142961502075,
      "learning_rate": 0.0001942637234969503,
      "loss": 0.1273,
      "step": 5354
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.316485732793808,
      "learning_rate": 0.00019424194016845773,
      "loss": 0.0689,
      "step": 5355
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.3972794711589813,
      "learning_rate": 0.00019422015683996514,
      "loss": 0.0498,
      "step": 5356
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.23116105794906616,
      "learning_rate": 0.00019419837351147254,
      "loss": 0.0593,
      "step": 5357
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.20304913818836212,
      "learning_rate": 0.00019417659018297994,
      "loss": 0.0695,
      "step": 5358
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.2168671190738678,
      "learning_rate": 0.00019415480685448734,
      "loss": 0.0476,
      "step": 5359
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.19163933396339417,
      "learning_rate": 0.00019413302352599477,
      "loss": 0.047,
      "step": 5360
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.15674224495887756,
      "learning_rate": 0.00019411124019750215,
      "loss": 0.0544,
      "step": 5361
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.16132301092147827,
      "learning_rate": 0.00019408945686900957,
      "loss": 0.0787,
      "step": 5362
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.3248523473739624,
      "learning_rate": 0.00019406767354051698,
      "loss": 0.0653,
      "step": 5363
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.2555806338787079,
      "learning_rate": 0.00019404589021202438,
      "loss": 0.0837,
      "step": 5364
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.20090903341770172,
      "learning_rate": 0.00019402410688353178,
      "loss": 0.0551,
      "step": 5365
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.28682741522789,
      "learning_rate": 0.0001940023235550392,
      "loss": 0.0463,
      "step": 5366
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.7365938425064087,
      "learning_rate": 0.0001939805402265466,
      "loss": 0.0795,
      "step": 5367
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.3234138786792755,
      "learning_rate": 0.000193958756898054,
      "loss": 0.0821,
      "step": 5368
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.35600289702415466,
      "learning_rate": 0.00019393697356956142,
      "loss": 0.0566,
      "step": 5369
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.23607666790485382,
      "learning_rate": 0.00019391519024106882,
      "loss": 0.0743,
      "step": 5370
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.22848296165466309,
      "learning_rate": 0.00019389340691257622,
      "loss": 0.0329,
      "step": 5371
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.36750328540802,
      "learning_rate": 0.00019387162358408362,
      "loss": 0.0581,
      "step": 5372
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.31041204929351807,
      "learning_rate": 0.00019384984025559105,
      "loss": 0.0555,
      "step": 5373
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.2658286392688751,
      "learning_rate": 0.00019382805692709845,
      "loss": 0.0537,
      "step": 5374
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.3080608546733856,
      "learning_rate": 0.00019380627359860586,
      "loss": 0.0325,
      "step": 5375
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.2446715384721756,
      "learning_rate": 0.00019378449027011326,
      "loss": 0.0451,
      "step": 5376
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.31640538573265076,
      "learning_rate": 0.00019376270694162066,
      "loss": 0.0757,
      "step": 5377
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.1533803790807724,
      "learning_rate": 0.00019374092361312806,
      "loss": 0.0258,
      "step": 5378
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.16794231534004211,
      "learning_rate": 0.00019371914028463546,
      "loss": 0.0188,
      "step": 5379
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.12330068647861481,
      "learning_rate": 0.0001936973569561429,
      "loss": 0.0112,
      "step": 5380
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.1423904299736023,
      "learning_rate": 0.0001936755736276503,
      "loss": 0.0234,
      "step": 5381
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.22097864747047424,
      "learning_rate": 0.0001936537902991577,
      "loss": 0.0309,
      "step": 5382
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.20184428989887238,
      "learning_rate": 0.0001936320069706651,
      "loss": 0.0398,
      "step": 5383
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.24784506857395172,
      "learning_rate": 0.0001936102236421725,
      "loss": 0.07,
      "step": 5384
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.24619638919830322,
      "learning_rate": 0.0001935884403136799,
      "loss": 0.0732,
      "step": 5385
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.2355153113603592,
      "learning_rate": 0.0001935666569851873,
      "loss": 0.0617,
      "step": 5386
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.24228665232658386,
      "learning_rate": 0.00019354487365669473,
      "loss": 0.0614,
      "step": 5387
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.45694661140441895,
      "learning_rate": 0.00019352309032820214,
      "loss": 0.1091,
      "step": 5388
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4767601490020752,
      "learning_rate": 0.00019350130699970954,
      "loss": 0.1001,
      "step": 5389
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.2928403317928314,
      "learning_rate": 0.00019347952367121694,
      "loss": 0.0535,
      "step": 5390
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.32019031047821045,
      "learning_rate": 0.00019345774034272437,
      "loss": 0.0591,
      "step": 5391
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.2955050468444824,
      "learning_rate": 0.00019343595701423174,
      "loss": 0.0427,
      "step": 5392
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.7811854481697083,
      "learning_rate": 0.00019341417368573915,
      "loss": 0.1562,
      "step": 5393
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.16079549491405487,
      "learning_rate": 0.00019339239035724658,
      "loss": 0.0366,
      "step": 5394
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.17915967106819153,
      "learning_rate": 0.00019337060702875398,
      "loss": 0.0476,
      "step": 5395
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.13983742892742157,
      "learning_rate": 0.00019334882370026138,
      "loss": 0.0341,
      "step": 5396
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.2903537154197693,
      "learning_rate": 0.00019332704037176878,
      "loss": 0.0382,
      "step": 5397
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.1987716257572174,
      "learning_rate": 0.0001933052570432762,
      "loss": 0.0416,
      "step": 5398
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.2939993739128113,
      "learning_rate": 0.00019328347371478359,
      "loss": 0.0534,
      "step": 5399
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.2014344483613968,
      "learning_rate": 0.00019326169038629101,
      "loss": 0.043,
      "step": 5400
    },
    {
      "epoch": 1.51,
      "eval_loss": 0.07483233511447906,
      "eval_runtime": 172.0873,
      "eval_samples_per_second": 15.353,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.06818722729075763,
      "step": 5400
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.29797035455703735,
      "learning_rate": 0.00019323990705779842,
      "loss": 0.062,
      "step": 5401
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.4246757924556732,
      "learning_rate": 0.00019321812372930582,
      "loss": 0.0624,
      "step": 5402
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.31733477115631104,
      "learning_rate": 0.00019319634040081322,
      "loss": 0.0598,
      "step": 5403
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.22545099258422852,
      "learning_rate": 0.00019317455707232062,
      "loss": 0.0757,
      "step": 5404
    },
    {
      "epoch": 1.51,
      "grad_norm": 0.3842353820800781,
      "learning_rate": 0.00019315277374382805,
      "loss": 0.0673,
      "step": 5405
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.6760718822479248,
      "learning_rate": 0.00019313099041533543,
      "loss": 0.0688,
      "step": 5406
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.3218825161457062,
      "learning_rate": 0.00019310920708684286,
      "loss": 0.0403,
      "step": 5407
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.11885327845811844,
      "learning_rate": 0.00019308742375835026,
      "loss": 0.016,
      "step": 5408
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.18995866179466248,
      "learning_rate": 0.00019306564042985766,
      "loss": 0.0718,
      "step": 5409
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.23796764016151428,
      "learning_rate": 0.00019304385710136506,
      "loss": 0.0707,
      "step": 5410
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.17579033970832825,
      "learning_rate": 0.00019302207377287246,
      "loss": 0.0444,
      "step": 5411
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.11789137870073318,
      "learning_rate": 0.0001930002904443799,
      "loss": 0.0213,
      "step": 5412
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.1656518280506134,
      "learning_rate": 0.0001929785071158873,
      "loss": 0.0204,
      "step": 5413
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.12758105993270874,
      "learning_rate": 0.0001929567237873947,
      "loss": 0.0305,
      "step": 5414
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.13826030492782593,
      "learning_rate": 0.0001929349404589021,
      "loss": 0.0247,
      "step": 5415
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.7249550223350525,
      "learning_rate": 0.00019291315713040953,
      "loss": 0.1416,
      "step": 5416
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.574819028377533,
      "learning_rate": 0.0001928913738019169,
      "loss": 0.1016,
      "step": 5417
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4880784749984741,
      "learning_rate": 0.0001928695904734243,
      "loss": 0.0911,
      "step": 5418
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.14621488749980927,
      "learning_rate": 0.00019284780714493173,
      "loss": 0.0376,
      "step": 5419
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.25599244236946106,
      "learning_rate": 0.00019282602381643914,
      "loss": 0.0457,
      "step": 5420
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.16320636868476868,
      "learning_rate": 0.00019280424048794654,
      "loss": 0.0413,
      "step": 5421
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.38799676299095154,
      "learning_rate": 0.00019278245715945394,
      "loss": 0.0442,
      "step": 5422
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.30285030603408813,
      "learning_rate": 0.00019276067383096137,
      "loss": 0.082,
      "step": 5423
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.20765377581119537,
      "learning_rate": 0.00019273889050246874,
      "loss": 0.0471,
      "step": 5424
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.18090011179447174,
      "learning_rate": 0.00019271710717397617,
      "loss": 0.0562,
      "step": 5425
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.17058666050434113,
      "learning_rate": 0.00019269532384548358,
      "loss": 0.0459,
      "step": 5426
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.3520522713661194,
      "learning_rate": 0.00019267354051699098,
      "loss": 0.0736,
      "step": 5427
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.43481165170669556,
      "learning_rate": 0.00019265175718849838,
      "loss": 0.1482,
      "step": 5428
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.28776246309280396,
      "learning_rate": 0.00019262997386000578,
      "loss": 0.0428,
      "step": 5429
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.19250091910362244,
      "learning_rate": 0.0001926081905315132,
      "loss": 0.0242,
      "step": 5430
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.7148908972740173,
      "learning_rate": 0.00019258640720302059,
      "loss": 0.0675,
      "step": 5431
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.17018401622772217,
      "learning_rate": 0.00019256462387452802,
      "loss": 0.0339,
      "step": 5432
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.3222388029098511,
      "learning_rate": 0.00019254284054603542,
      "loss": 0.0647,
      "step": 5433
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.3494430482387543,
      "learning_rate": 0.00019252105721754285,
      "loss": 0.077,
      "step": 5434
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.1719450205564499,
      "learning_rate": 0.00019249927388905022,
      "loss": 0.0394,
      "step": 5435
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.1823454648256302,
      "learning_rate": 0.00019247749056055762,
      "loss": 0.0633,
      "step": 5436
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.19972014427185059,
      "learning_rate": 0.00019245570723206505,
      "loss": 0.0319,
      "step": 5437
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.13333390653133392,
      "learning_rate": 0.00019243392390357243,
      "loss": 0.0237,
      "step": 5438
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.3202059864997864,
      "learning_rate": 0.00019241214057507986,
      "loss": 0.0534,
      "step": 5439
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.27428391575813293,
      "learning_rate": 0.00019239035724658726,
      "loss": 0.1006,
      "step": 5440
    },
    {
      "epoch": 1.52,
      "grad_norm": 0.4658675193786621,
      "learning_rate": 0.0001923685739180947,
      "loss": 0.0731,
      "step": 5441
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.42225170135498047,
      "learning_rate": 0.00019234679058960206,
      "loss": 0.0535,
      "step": 5442
    },
    {
      "epoch": 1.53,
      "grad_norm": 1.123132586479187,
      "learning_rate": 0.00019232500726110946,
      "loss": 0.0812,
      "step": 5443
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.21363066136837006,
      "learning_rate": 0.0001923032239326169,
      "loss": 0.0404,
      "step": 5444
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.1380763053894043,
      "learning_rate": 0.00019228144060412427,
      "loss": 0.0346,
      "step": 5445
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.13469013571739197,
      "learning_rate": 0.0001922596572756317,
      "loss": 0.0275,
      "step": 5446
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.33178091049194336,
      "learning_rate": 0.0001922378739471391,
      "loss": 0.0802,
      "step": 5447
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.19962604343891144,
      "learning_rate": 0.00019221609061864653,
      "loss": 0.0615,
      "step": 5448
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.35353147983551025,
      "learning_rate": 0.0001921943072901539,
      "loss": 0.0839,
      "step": 5449
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.33914199471473694,
      "learning_rate": 0.00019217252396166133,
      "loss": 0.0613,
      "step": 5450
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.3496353030204773,
      "learning_rate": 0.00019215074063316874,
      "loss": 0.0518,
      "step": 5451
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.28538674116134644,
      "learning_rate": 0.0001921289573046761,
      "loss": 0.0877,
      "step": 5452
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.5250582098960876,
      "learning_rate": 0.00019210717397618354,
      "loss": 0.1443,
      "step": 5453
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.3046327829360962,
      "learning_rate": 0.00019208539064769094,
      "loss": 0.081,
      "step": 5454
    },
    {
      "epoch": 1.53,
      "grad_norm": 1.0165791511535645,
      "learning_rate": 0.00019206360731919837,
      "loss": 0.1333,
      "step": 5455
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.36720705032348633,
      "learning_rate": 0.00019204182399070575,
      "loss": 0.0333,
      "step": 5456
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.2221229076385498,
      "learning_rate": 0.00019202004066221317,
      "loss": 0.0349,
      "step": 5457
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.2106817066669464,
      "learning_rate": 0.00019199825733372058,
      "loss": 0.0461,
      "step": 5458
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.22302782535552979,
      "learning_rate": 0.000191976474005228,
      "loss": 0.0471,
      "step": 5459
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.27767571806907654,
      "learning_rate": 0.00019195469067673538,
      "loss": 0.0593,
      "step": 5460
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.21551963686943054,
      "learning_rate": 0.00019193290734824278,
      "loss": 0.0423,
      "step": 5461
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.280379980802536,
      "learning_rate": 0.0001919111240197502,
      "loss": 0.0727,
      "step": 5462
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.22905084490776062,
      "learning_rate": 0.0001918893406912576,
      "loss": 0.0461,
      "step": 5463
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.3061676025390625,
      "learning_rate": 0.00019186755736276502,
      "loss": 0.0778,
      "step": 5464
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.1967127025127411,
      "learning_rate": 0.00019184577403427242,
      "loss": 0.0539,
      "step": 5465
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.22895465791225433,
      "learning_rate": 0.00019182399070577985,
      "loss": 0.0574,
      "step": 5466
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.33566033840179443,
      "learning_rate": 0.00019180220737728722,
      "loss": 0.0638,
      "step": 5467
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.533686101436615,
      "learning_rate": 0.00019178042404879462,
      "loss": 0.0477,
      "step": 5468
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.25245171785354614,
      "learning_rate": 0.00019175864072030205,
      "loss": 0.052,
      "step": 5469
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.11024866253137589,
      "learning_rate": 0.00019173685739180943,
      "loss": 0.0392,
      "step": 5470
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.38847222924232483,
      "learning_rate": 0.00019171507406331686,
      "loss": 0.0917,
      "step": 5471
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.20697568356990814,
      "learning_rate": 0.00019169329073482426,
      "loss": 0.0415,
      "step": 5472
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.2187991738319397,
      "learning_rate": 0.0001916715074063317,
      "loss": 0.0461,
      "step": 5473
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.4616231620311737,
      "learning_rate": 0.00019164972407783906,
      "loss": 0.0647,
      "step": 5474
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.22945617139339447,
      "learning_rate": 0.0001916279407493465,
      "loss": 0.0474,
      "step": 5475
    },
    {
      "epoch": 1.53,
      "grad_norm": 0.22002898156642914,
      "learning_rate": 0.0001916061574208539,
      "loss": 0.0715,
      "step": 5476
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.273552268743515,
      "learning_rate": 0.00019158437409236127,
      "loss": 0.056,
      "step": 5477
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.23639355599880219,
      "learning_rate": 0.0001915625907638687,
      "loss": 0.0295,
      "step": 5478
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.22503846883773804,
      "learning_rate": 0.0001915408074353761,
      "loss": 0.0613,
      "step": 5479
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.30439823865890503,
      "learning_rate": 0.00019151902410688353,
      "loss": 0.0345,
      "step": 5480
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.5024929642677307,
      "learning_rate": 0.0001914972407783909,
      "loss": 0.0719,
      "step": 5481
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.38787075877189636,
      "learning_rate": 0.00019147545744989833,
      "loss": 0.0678,
      "step": 5482
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.2534327805042267,
      "learning_rate": 0.00019145367412140574,
      "loss": 0.0388,
      "step": 5483
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.234158456325531,
      "learning_rate": 0.00019143189079291316,
      "loss": 0.0458,
      "step": 5484
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.29130852222442627,
      "learning_rate": 0.00019141010746442054,
      "loss": 0.0246,
      "step": 5485
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.16377472877502441,
      "learning_rate": 0.00019138832413592794,
      "loss": 0.0341,
      "step": 5486
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.22679805755615234,
      "learning_rate": 0.00019136654080743537,
      "loss": 0.0517,
      "step": 5487
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.28337395191192627,
      "learning_rate": 0.00019134475747894275,
      "loss": 0.077,
      "step": 5488
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.23310540616512299,
      "learning_rate": 0.00019132297415045017,
      "loss": 0.0348,
      "step": 5489
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.47996699810028076,
      "learning_rate": 0.00019130119082195758,
      "loss": 0.1039,
      "step": 5490
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.2827773094177246,
      "learning_rate": 0.000191279407493465,
      "loss": 0.0471,
      "step": 5491
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.4119037389755249,
      "learning_rate": 0.00019125762416497238,
      "loss": 0.0706,
      "step": 5492
    },
    {
      "epoch": 1.54,
      "grad_norm": 3.0616588592529297,
      "learning_rate": 0.00019123584083647978,
      "loss": 0.2414,
      "step": 5493
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.3190716803073883,
      "learning_rate": 0.0001912140575079872,
      "loss": 0.0511,
      "step": 5494
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.312425822019577,
      "learning_rate": 0.0001911922741794946,
      "loss": 0.0711,
      "step": 5495
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.2669534981250763,
      "learning_rate": 0.00019117049085100202,
      "loss": 0.0615,
      "step": 5496
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.11157286167144775,
      "learning_rate": 0.00019114870752250942,
      "loss": 0.0266,
      "step": 5497
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.16797758638858795,
      "learning_rate": 0.00019112692419401685,
      "loss": 0.0183,
      "step": 5498
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.23554693162441254,
      "learning_rate": 0.00019110514086552422,
      "loss": 0.05,
      "step": 5499
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.2547855079174042,
      "learning_rate": 0.00019108335753703165,
      "loss": 0.076,
      "step": 5500
    },
    {
      "epoch": 1.54,
      "eval_loss": 0.07781866937875748,
      "eval_runtime": 172.2735,
      "eval_samples_per_second": 15.336,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.06846489488298295,
      "step": 5500
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.2830829918384552,
      "learning_rate": 0.00019106157420853905,
      "loss": 0.0411,
      "step": 5501
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.2999914884567261,
      "learning_rate": 0.00019103979088004643,
      "loss": 0.0507,
      "step": 5502
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.45498600602149963,
      "learning_rate": 0.00019101800755155386,
      "loss": 0.0615,
      "step": 5503
    },
    {
      "epoch": 1.54,
      "grad_norm": 13.020066261291504,
      "learning_rate": 0.00019099622422306126,
      "loss": 0.0391,
      "step": 5504
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.44145122170448303,
      "learning_rate": 0.0001909744408945687,
      "loss": 0.07,
      "step": 5505
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.41434919834136963,
      "learning_rate": 0.00019095265756607606,
      "loss": 0.0567,
      "step": 5506
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.3126443028450012,
      "learning_rate": 0.0001909308742375835,
      "loss": 0.0753,
      "step": 5507
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.2947472333908081,
      "learning_rate": 0.0001909090909090909,
      "loss": 0.1256,
      "step": 5508
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.2509361207485199,
      "learning_rate": 0.00019088730758059832,
      "loss": 0.0312,
      "step": 5509
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.22366498410701752,
      "learning_rate": 0.0001908655242521057,
      "loss": 0.0987,
      "step": 5510
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.2316598892211914,
      "learning_rate": 0.0001908437409236131,
      "loss": 0.0634,
      "step": 5511
    },
    {
      "epoch": 1.54,
      "grad_norm": 0.22082112729549408,
      "learning_rate": 0.00019082195759512053,
      "loss": 0.0467,
      "step": 5512
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.6066755056381226,
      "learning_rate": 0.0001908001742666279,
      "loss": 0.0604,
      "step": 5513
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.22185581922531128,
      "learning_rate": 0.00019077839093813533,
      "loss": 0.052,
      "step": 5514
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.23427924513816833,
      "learning_rate": 0.00019075660760964274,
      "loss": 0.052,
      "step": 5515
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.22348301112651825,
      "learning_rate": 0.00019073482428115017,
      "loss": 0.0496,
      "step": 5516
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.2771053612232208,
      "learning_rate": 0.00019071304095265754,
      "loss": 0.0306,
      "step": 5517
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.5075663924217224,
      "learning_rate": 0.00019069125762416494,
      "loss": 0.0525,
      "step": 5518
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.1524074822664261,
      "learning_rate": 0.00019066947429567237,
      "loss": 0.0399,
      "step": 5519
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.2439599186182022,
      "learning_rate": 0.00019064769096717975,
      "loss": 0.0505,
      "step": 5520
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.3806813657283783,
      "learning_rate": 0.00019062590763868718,
      "loss": 0.0407,
      "step": 5521
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.15409497916698456,
      "learning_rate": 0.00019060412431019458,
      "loss": 0.0568,
      "step": 5522
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.19273066520690918,
      "learning_rate": 0.000190582340981702,
      "loss": 0.0531,
      "step": 5523
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.18494188785552979,
      "learning_rate": 0.00019056055765320938,
      "loss": 0.0429,
      "step": 5524
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4074172079563141,
      "learning_rate": 0.0001905387743247168,
      "loss": 0.0604,
      "step": 5525
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.26803621649742126,
      "learning_rate": 0.0001905169909962242,
      "loss": 0.0521,
      "step": 5526
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.30222660303115845,
      "learning_rate": 0.0001904952076677316,
      "loss": 0.0577,
      "step": 5527
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.2513565123081207,
      "learning_rate": 0.00019047342433923902,
      "loss": 0.074,
      "step": 5528
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.24806828796863556,
      "learning_rate": 0.00019045164101074642,
      "loss": 0.0536,
      "step": 5529
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.24643102288246155,
      "learning_rate": 0.00019042985768225385,
      "loss": 0.0445,
      "step": 5530
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.3676181733608246,
      "learning_rate": 0.00019040807435376122,
      "loss": 0.0522,
      "step": 5531
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.22593198716640472,
      "learning_rate": 0.00019038629102526865,
      "loss": 0.0918,
      "step": 5532
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.15507251024246216,
      "learning_rate": 0.00019036450769677605,
      "loss": 0.0442,
      "step": 5533
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.14893577992916107,
      "learning_rate": 0.00019034272436828348,
      "loss": 0.0332,
      "step": 5534
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.24963775277137756,
      "learning_rate": 0.00019032094103979086,
      "loss": 0.083,
      "step": 5535
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.2000276893377304,
      "learning_rate": 0.00019029915771129826,
      "loss": 0.047,
      "step": 5536
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.28005415201187134,
      "learning_rate": 0.0001902773743828057,
      "loss": 0.0659,
      "step": 5537
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.28122442960739136,
      "learning_rate": 0.00019025559105431306,
      "loss": 0.0876,
      "step": 5538
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.28827232122421265,
      "learning_rate": 0.0001902338077258205,
      "loss": 0.0933,
      "step": 5539
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.1569215953350067,
      "learning_rate": 0.0001902120243973279,
      "loss": 0.0269,
      "step": 5540
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.19149330258369446,
      "learning_rate": 0.00019019024106883532,
      "loss": 0.0367,
      "step": 5541
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.3663654327392578,
      "learning_rate": 0.0001901684577403427,
      "loss": 0.1129,
      "step": 5542
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.8748345375061035,
      "learning_rate": 0.00019014667441185013,
      "loss": 0.1333,
      "step": 5543
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.14819225668907166,
      "learning_rate": 0.00019012489108335753,
      "loss": 0.0599,
      "step": 5544
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.20930881798267365,
      "learning_rate": 0.0001901031077548649,
      "loss": 0.0686,
      "step": 5545
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.4327349066734314,
      "learning_rate": 0.00019008132442637233,
      "loss": 0.0518,
      "step": 5546
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.156519815325737,
      "learning_rate": 0.00019005954109787974,
      "loss": 0.051,
      "step": 5547
    },
    {
      "epoch": 1.55,
      "grad_norm": 0.1818154901266098,
      "learning_rate": 0.00019003775776938717,
      "loss": 0.047,
      "step": 5548
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.24189366400241852,
      "learning_rate": 0.00019001597444089454,
      "loss": 0.0648,
      "step": 5549
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.388381689786911,
      "learning_rate": 0.00018999419111240197,
      "loss": 0.0476,
      "step": 5550
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.2654699683189392,
      "learning_rate": 0.00018997240778390937,
      "loss": 0.0784,
      "step": 5551
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.2414778172969818,
      "learning_rate": 0.00018995062445541675,
      "loss": 0.049,
      "step": 5552
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.2619338929653168,
      "learning_rate": 0.00018992884112692418,
      "loss": 0.0481,
      "step": 5553
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.29941195249557495,
      "learning_rate": 0.00018990705779843158,
      "loss": 0.0779,
      "step": 5554
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.9771990776062012,
      "learning_rate": 0.000189885274469939,
      "loss": 0.1582,
      "step": 5555
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.49117597937583923,
      "learning_rate": 0.00018986349114144638,
      "loss": 0.0685,
      "step": 5556
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.15754376351833344,
      "learning_rate": 0.0001898417078129538,
      "loss": 0.0414,
      "step": 5557
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4054237902164459,
      "learning_rate": 0.0001898199244844612,
      "loss": 0.0393,
      "step": 5558
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.2405983805656433,
      "learning_rate": 0.00018979814115596864,
      "loss": 0.0541,
      "step": 5559
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.16575048863887787,
      "learning_rate": 0.00018977635782747602,
      "loss": 0.0438,
      "step": 5560
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.1328849047422409,
      "learning_rate": 0.00018975457449898342,
      "loss": 0.0405,
      "step": 5561
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.16554363071918488,
      "learning_rate": 0.00018973279117049085,
      "loss": 0.0584,
      "step": 5562
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.14727525413036346,
      "learning_rate": 0.00018971100784199822,
      "loss": 0.0631,
      "step": 5563
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.281887948513031,
      "learning_rate": 0.00018968922451350565,
      "loss": 0.055,
      "step": 5564
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.2300347089767456,
      "learning_rate": 0.00018966744118501305,
      "loss": 0.0393,
      "step": 5565
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.37434646487236023,
      "learning_rate": 0.00018964565785652048,
      "loss": 0.05,
      "step": 5566
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.31613627076148987,
      "learning_rate": 0.00018962387452802786,
      "loss": 0.0694,
      "step": 5567
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4179759621620178,
      "learning_rate": 0.0001896020911995353,
      "loss": 0.0323,
      "step": 5568
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.20012517273426056,
      "learning_rate": 0.0001895803078710427,
      "loss": 0.0564,
      "step": 5569
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.22721540927886963,
      "learning_rate": 0.00018955852454255006,
      "loss": 0.0579,
      "step": 5570
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.19931399822235107,
      "learning_rate": 0.0001895367412140575,
      "loss": 0.0566,
      "step": 5571
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.17715713381767273,
      "learning_rate": 0.0001895149578855649,
      "loss": 0.0552,
      "step": 5572
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.24750255048274994,
      "learning_rate": 0.00018949317455707233,
      "loss": 0.046,
      "step": 5573
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.22236011922359467,
      "learning_rate": 0.0001894713912285797,
      "loss": 0.0594,
      "step": 5574
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.15777017176151276,
      "learning_rate": 0.00018944960790008713,
      "loss": 0.0487,
      "step": 5575
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.2488252818584442,
      "learning_rate": 0.00018942782457159453,
      "loss": 0.0377,
      "step": 5576
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.2220403403043747,
      "learning_rate": 0.0001894060412431019,
      "loss": 0.0605,
      "step": 5577
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.4358981251716614,
      "learning_rate": 0.00018938425791460934,
      "loss": 0.0507,
      "step": 5578
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.42539143562316895,
      "learning_rate": 0.00018936247458611674,
      "loss": 0.0554,
      "step": 5579
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.23495297133922577,
      "learning_rate": 0.00018934069125762417,
      "loss": 0.094,
      "step": 5580
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.24582180380821228,
      "learning_rate": 0.00018931890792913154,
      "loss": 0.0521,
      "step": 5581
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.27785101532936096,
      "learning_rate": 0.00018929712460063897,
      "loss": 0.067,
      "step": 5582
    },
    {
      "epoch": 1.56,
      "grad_norm": 0.2139650583267212,
      "learning_rate": 0.00018927534127214637,
      "loss": 0.0331,
      "step": 5583
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.14477355778217316,
      "learning_rate": 0.0001892535579436538,
      "loss": 0.0398,
      "step": 5584
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.19288581609725952,
      "learning_rate": 0.00018923177461516118,
      "loss": 0.0524,
      "step": 5585
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.17869625985622406,
      "learning_rate": 0.00018920999128666858,
      "loss": 0.0249,
      "step": 5586
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.2723272740840912,
      "learning_rate": 0.000189188207958176,
      "loss": 0.039,
      "step": 5587
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.17780795693397522,
      "learning_rate": 0.00018916642462968338,
      "loss": 0.0291,
      "step": 5588
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.29149380326271057,
      "learning_rate": 0.0001891446413011908,
      "loss": 0.0395,
      "step": 5589
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.1521916687488556,
      "learning_rate": 0.00018912285797269821,
      "loss": 0.022,
      "step": 5590
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.17165307700634003,
      "learning_rate": 0.00018910107464420564,
      "loss": 0.0419,
      "step": 5591
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.703980565071106,
      "learning_rate": 0.00018907929131571302,
      "loss": 0.0992,
      "step": 5592
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.7761820554733276,
      "learning_rate": 0.00018905750798722045,
      "loss": 0.11,
      "step": 5593
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.19163304567337036,
      "learning_rate": 0.00018903572465872785,
      "loss": 0.0604,
      "step": 5594
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.24594232439994812,
      "learning_rate": 0.00018901394133023522,
      "loss": 0.0529,
      "step": 5595
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.2276756912469864,
      "learning_rate": 0.00018899215800174265,
      "loss": 0.0447,
      "step": 5596
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.14254173636436462,
      "learning_rate": 0.00018897037467325006,
      "loss": 0.0405,
      "step": 5597
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.24247749149799347,
      "learning_rate": 0.00018894859134475748,
      "loss": 0.0533,
      "step": 5598
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.1693337857723236,
      "learning_rate": 0.00018892680801626486,
      "loss": 0.0437,
      "step": 5599
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.21840715408325195,
      "learning_rate": 0.0001889050246877723,
      "loss": 0.041,
      "step": 5600
    },
    {
      "epoch": 1.57,
      "eval_loss": 0.07917069643735886,
      "eval_runtime": 173.3043,
      "eval_samples_per_second": 15.245,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.0726100753669179,
      "step": 5600
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.10735847800970078,
      "learning_rate": 0.0001888832413592797,
      "loss": 0.0174,
      "step": 5601
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.19746887683868408,
      "learning_rate": 0.00018886145803078707,
      "loss": 0.0266,
      "step": 5602
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5193418264389038,
      "learning_rate": 0.0001888396747022945,
      "loss": 0.0812,
      "step": 5603
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.3244028091430664,
      "learning_rate": 0.0001888178913738019,
      "loss": 0.0669,
      "step": 5604
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4882839620113373,
      "learning_rate": 0.00018879610804530933,
      "loss": 0.068,
      "step": 5605
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.15156792104244232,
      "learning_rate": 0.0001887743247168167,
      "loss": 0.026,
      "step": 5606
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.1690826565027237,
      "learning_rate": 0.00018875254138832413,
      "loss": 0.0401,
      "step": 5607
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.2745763957500458,
      "learning_rate": 0.00018873075805983153,
      "loss": 0.0455,
      "step": 5608
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.2233220934867859,
      "learning_rate": 0.00018870897473133893,
      "loss": 0.0437,
      "step": 5609
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.25161629915237427,
      "learning_rate": 0.00018868719140284634,
      "loss": 0.0601,
      "step": 5610
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5356119871139526,
      "learning_rate": 0.00018866540807435374,
      "loss": 0.051,
      "step": 5611
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.26551899313926697,
      "learning_rate": 0.00018864362474586117,
      "loss": 0.0523,
      "step": 5612
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.5945103168487549,
      "learning_rate": 0.00018862184141736854,
      "loss": 0.0577,
      "step": 5613
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.19187335669994354,
      "learning_rate": 0.00018860005808887597,
      "loss": 0.0326,
      "step": 5614
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.49062252044677734,
      "learning_rate": 0.00018857827476038337,
      "loss": 0.0406,
      "step": 5615
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.3924866318702698,
      "learning_rate": 0.00018855649143189077,
      "loss": 0.0535,
      "step": 5616
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.1633010357618332,
      "learning_rate": 0.00018853470810339818,
      "loss": 0.0165,
      "step": 5617
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.4763728976249695,
      "learning_rate": 0.0001885129247749056,
      "loss": 0.0942,
      "step": 5618
    },
    {
      "epoch": 1.57,
      "grad_norm": 0.16919422149658203,
      "learning_rate": 0.000188491141446413,
      "loss": 0.057,
      "step": 5619
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.2163822501897812,
      "learning_rate": 0.00018846935811792038,
      "loss": 0.0321,
      "step": 5620
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.13769903779029846,
      "learning_rate": 0.0001884475747894278,
      "loss": 0.0352,
      "step": 5621
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.131426140666008,
      "learning_rate": 0.00018842579146093521,
      "loss": 0.0302,
      "step": 5622
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.256671279668808,
      "learning_rate": 0.00018840400813244262,
      "loss": 0.0552,
      "step": 5623
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.2460411638021469,
      "learning_rate": 0.00018838222480395002,
      "loss": 0.0253,
      "step": 5624
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.2526130974292755,
      "learning_rate": 0.00018836044147545745,
      "loss": 0.0492,
      "step": 5625
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.2565363645553589,
      "learning_rate": 0.00018833865814696485,
      "loss": 0.0322,
      "step": 5626
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.13471293449401855,
      "learning_rate": 0.00018831687481847222,
      "loss": 0.0391,
      "step": 5627
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.2109653353691101,
      "learning_rate": 0.00018829509148997965,
      "loss": 0.0478,
      "step": 5628
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.26885494589805603,
      "learning_rate": 0.00018827330816148706,
      "loss": 0.089,
      "step": 5629
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.399549275636673,
      "learning_rate": 0.00018825152483299448,
      "loss": 0.0325,
      "step": 5630
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.3358140289783478,
      "learning_rate": 0.00018822974150450186,
      "loss": 0.0574,
      "step": 5631
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.14657387137413025,
      "learning_rate": 0.0001882079581760093,
      "loss": 0.0377,
      "step": 5632
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.21389800310134888,
      "learning_rate": 0.0001881861748475167,
      "loss": 0.0543,
      "step": 5633
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.13318443298339844,
      "learning_rate": 0.0001881643915190241,
      "loss": 0.0351,
      "step": 5634
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.1852341741323471,
      "learning_rate": 0.0001881426081905315,
      "loss": 0.0455,
      "step": 5635
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.2238268256187439,
      "learning_rate": 0.0001881208248620389,
      "loss": 0.0369,
      "step": 5636
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.31534573435783386,
      "learning_rate": 0.00018809904153354633,
      "loss": 0.0834,
      "step": 5637
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.3128799498081207,
      "learning_rate": 0.0001880772582050537,
      "loss": 0.073,
      "step": 5638
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.3283572196960449,
      "learning_rate": 0.00018805547487656113,
      "loss": 0.0308,
      "step": 5639
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.9664227366447449,
      "learning_rate": 0.00018803369154806853,
      "loss": 0.069,
      "step": 5640
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.1472730189561844,
      "learning_rate": 0.00018801190821957593,
      "loss": 0.0418,
      "step": 5641
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.2523721158504486,
      "learning_rate": 0.00018799012489108334,
      "loss": 0.0456,
      "step": 5642
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.709456205368042,
      "learning_rate": 0.00018796834156259077,
      "loss": 0.0722,
      "step": 5643
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.1037416085600853,
      "learning_rate": 0.00018794655823409817,
      "loss": 0.0225,
      "step": 5644
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.32619544863700867,
      "learning_rate": 0.00018792477490560554,
      "loss": 0.0441,
      "step": 5645
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.22724539041519165,
      "learning_rate": 0.00018790299157711297,
      "loss": 0.0533,
      "step": 5646
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.36859434843063354,
      "learning_rate": 0.00018788120824862037,
      "loss": 0.0741,
      "step": 5647
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.2461559772491455,
      "learning_rate": 0.00018785942492012778,
      "loss": 0.0604,
      "step": 5648
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.13871364295482635,
      "learning_rate": 0.00018783764159163518,
      "loss": 0.0197,
      "step": 5649
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.16370338201522827,
      "learning_rate": 0.0001878158582631426,
      "loss": 0.0419,
      "step": 5650
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.2397637665271759,
      "learning_rate": 0.00018779407493465,
      "loss": 0.0715,
      "step": 5651
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.31821295619010925,
      "learning_rate": 0.00018777229160615738,
      "loss": 0.0417,
      "step": 5652
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.3051217198371887,
      "learning_rate": 0.0001877505082776648,
      "loss": 0.0915,
      "step": 5653
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.21794499456882477,
      "learning_rate": 0.00018772872494917221,
      "loss": 0.047,
      "step": 5654
    },
    {
      "epoch": 1.58,
      "grad_norm": 0.891028881072998,
      "learning_rate": 0.00018770694162067962,
      "loss": 0.1481,
      "step": 5655
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.801306426525116,
      "learning_rate": 0.00018768515829218702,
      "loss": 0.1736,
      "step": 5656
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.2364426702260971,
      "learning_rate": 0.00018766337496369445,
      "loss": 0.032,
      "step": 5657
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.21278326213359833,
      "learning_rate": 0.00018764159163520185,
      "loss": 0.0347,
      "step": 5658
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.19377952814102173,
      "learning_rate": 0.00018761980830670925,
      "loss": 0.0455,
      "step": 5659
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.22858288884162903,
      "learning_rate": 0.00018759802497821665,
      "loss": 0.0636,
      "step": 5660
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.2187868058681488,
      "learning_rate": 0.00018757624164972406,
      "loss": 0.0626,
      "step": 5661
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.335642546415329,
      "learning_rate": 0.00018755445832123146,
      "loss": 0.079,
      "step": 5662
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.3600151240825653,
      "learning_rate": 0.00018753267499273886,
      "loss": 0.0505,
      "step": 5663
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.24392825365066528,
      "learning_rate": 0.0001875108916642463,
      "loss": 0.0447,
      "step": 5664
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.19259145855903625,
      "learning_rate": 0.0001874891083357537,
      "loss": 0.0323,
      "step": 5665
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.2595086693763733,
      "learning_rate": 0.0001874673250072611,
      "loss": 0.0605,
      "step": 5666
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.3707784116268158,
      "learning_rate": 0.0001874455416787685,
      "loss": 0.0373,
      "step": 5667
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.9805260896682739,
      "learning_rate": 0.00018742375835027592,
      "loss": 0.1,
      "step": 5668
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.25759226083755493,
      "learning_rate": 0.0001874019750217833,
      "loss": 0.068,
      "step": 5669
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.2458922266960144,
      "learning_rate": 0.0001873801916932907,
      "loss": 0.06,
      "step": 5670
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.4290628433227539,
      "learning_rate": 0.00018735840836479813,
      "loss": 0.0562,
      "step": 5671
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.25078248977661133,
      "learning_rate": 0.00018733662503630553,
      "loss": 0.0351,
      "step": 5672
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.23829787969589233,
      "learning_rate": 0.00018731484170781293,
      "loss": 0.0636,
      "step": 5673
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.31136462092399597,
      "learning_rate": 0.00018729305837932034,
      "loss": 0.0486,
      "step": 5674
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.17258745431900024,
      "learning_rate": 0.00018727127505082777,
      "loss": 0.033,
      "step": 5675
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.43029162287712097,
      "learning_rate": 0.00018724949172233514,
      "loss": 0.0697,
      "step": 5676
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.28817468881607056,
      "learning_rate": 0.00018722770839384257,
      "loss": 0.0649,
      "step": 5677
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.3590734004974365,
      "learning_rate": 0.00018720592506534997,
      "loss": 0.1049,
      "step": 5678
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.3639304041862488,
      "learning_rate": 0.00018718414173685737,
      "loss": 0.0639,
      "step": 5679
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.21593068540096283,
      "learning_rate": 0.00018716235840836478,
      "loss": 0.0331,
      "step": 5680
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.258433073759079,
      "learning_rate": 0.00018714057507987218,
      "loss": 0.031,
      "step": 5681
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.23120130598545074,
      "learning_rate": 0.0001871187917513796,
      "loss": 0.0525,
      "step": 5682
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.3036123514175415,
      "learning_rate": 0.000187097008422887,
      "loss": 0.04,
      "step": 5683
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.3165612816810608,
      "learning_rate": 0.0001870752250943944,
      "loss": 0.0693,
      "step": 5684
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.318374365568161,
      "learning_rate": 0.0001870534417659018,
      "loss": 0.069,
      "step": 5685
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.1981097161769867,
      "learning_rate": 0.00018703165843740922,
      "loss": 0.0511,
      "step": 5686
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.2438628226518631,
      "learning_rate": 0.00018700987510891662,
      "loss": 0.0564,
      "step": 5687
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.155720055103302,
      "learning_rate": 0.00018698809178042402,
      "loss": 0.0378,
      "step": 5688
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.242426797747612,
      "learning_rate": 0.00018696630845193145,
      "loss": 0.0331,
      "step": 5689
    },
    {
      "epoch": 1.59,
      "grad_norm": 0.2550441324710846,
      "learning_rate": 0.00018694452512343885,
      "loss": 0.0654,
      "step": 5690
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.26943862438201904,
      "learning_rate": 0.00018692274179494625,
      "loss": 0.0755,
      "step": 5691
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.43511801958084106,
      "learning_rate": 0.00018690095846645365,
      "loss": 0.0907,
      "step": 5692
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.5865239500999451,
      "learning_rate": 0.00018687917513796108,
      "loss": 0.038,
      "step": 5693
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.23272638022899628,
      "learning_rate": 0.00018685739180946846,
      "loss": 0.0607,
      "step": 5694
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.21088039875030518,
      "learning_rate": 0.00018683560848097586,
      "loss": 0.0576,
      "step": 5695
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.2779654562473297,
      "learning_rate": 0.0001868138251524833,
      "loss": 0.0696,
      "step": 5696
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.36466845870018005,
      "learning_rate": 0.0001867920418239907,
      "loss": 0.0486,
      "step": 5697
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.25975301861763,
      "learning_rate": 0.0001867702584954981,
      "loss": 0.0623,
      "step": 5698
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.13577093183994293,
      "learning_rate": 0.0001867484751670055,
      "loss": 0.0352,
      "step": 5699
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.3016788363456726,
      "learning_rate": 0.00018672669183851293,
      "loss": 0.0784,
      "step": 5700
    },
    {
      "epoch": 1.6,
      "eval_loss": 0.07627677917480469,
      "eval_runtime": 175.4528,
      "eval_samples_per_second": 15.058,
      "eval_steps_per_second": 0.473,
      "eval_wer": 0.06386354621182071,
      "step": 5700
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.355398952960968,
      "learning_rate": 0.0001867049085100203,
      "loss": 0.0486,
      "step": 5701
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.22633308172225952,
      "learning_rate": 0.00018668312518152773,
      "loss": 0.0385,
      "step": 5702
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4664168655872345,
      "learning_rate": 0.00018666134185303513,
      "loss": 0.0471,
      "step": 5703
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.19307774305343628,
      "learning_rate": 0.00018663955852454253,
      "loss": 0.0524,
      "step": 5704
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.7341005206108093,
      "learning_rate": 0.00018661777519604994,
      "loss": 0.1564,
      "step": 5705
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.8184381723403931,
      "learning_rate": 0.00018659599186755734,
      "loss": 0.1187,
      "step": 5706
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.20483027398586273,
      "learning_rate": 0.00018657420853906477,
      "loss": 0.0407,
      "step": 5707
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.34597158432006836,
      "learning_rate": 0.00018655242521057214,
      "loss": 0.0709,
      "step": 5708
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.15753190219402313,
      "learning_rate": 0.00018653064188207957,
      "loss": 0.0318,
      "step": 5709
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.29247456789016724,
      "learning_rate": 0.00018650885855358697,
      "loss": 0.0641,
      "step": 5710
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.44749799370765686,
      "learning_rate": 0.00018648707522509437,
      "loss": 0.1041,
      "step": 5711
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.14804652333259583,
      "learning_rate": 0.00018646529189660178,
      "loss": 0.0192,
      "step": 5712
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.3489258885383606,
      "learning_rate": 0.00018644350856810918,
      "loss": 0.0796,
      "step": 5713
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.3851311206817627,
      "learning_rate": 0.0001864217252396166,
      "loss": 0.0459,
      "step": 5714
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.4992953836917877,
      "learning_rate": 0.00018639994191112398,
      "loss": 0.0695,
      "step": 5715
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.3386296033859253,
      "learning_rate": 0.0001863781585826314,
      "loss": 0.0739,
      "step": 5716
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.32093268632888794,
      "learning_rate": 0.00018635637525413881,
      "loss": 0.0565,
      "step": 5717
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.3192859888076782,
      "learning_rate": 0.00018633459192564624,
      "loss": 0.0594,
      "step": 5718
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.3468981087207794,
      "learning_rate": 0.00018631280859715362,
      "loss": 0.0885,
      "step": 5719
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.15290194749832153,
      "learning_rate": 0.00018629102526866102,
      "loss": 0.0586,
      "step": 5720
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.1975460648536682,
      "learning_rate": 0.00018626924194016845,
      "loss": 0.0223,
      "step": 5721
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.13152101635932922,
      "learning_rate": 0.00018624745861167582,
      "loss": 0.0262,
      "step": 5722
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.12374742329120636,
      "learning_rate": 0.00018622567528318325,
      "loss": 0.0324,
      "step": 5723
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.29244115948677063,
      "learning_rate": 0.00018620389195469066,
      "loss": 0.0622,
      "step": 5724
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.16883687674999237,
      "learning_rate": 0.00018618210862619808,
      "loss": 0.0465,
      "step": 5725
    },
    {
      "epoch": 1.6,
      "grad_norm": 0.263400673866272,
      "learning_rate": 0.00018616032529770546,
      "loss": 0.0583,
      "step": 5726
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.21850132942199707,
      "learning_rate": 0.0001861385419692129,
      "loss": 0.0458,
      "step": 5727
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.31376248598098755,
      "learning_rate": 0.0001861167586407203,
      "loss": 0.0691,
      "step": 5728
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.2383139580488205,
      "learning_rate": 0.00018609497531222767,
      "loss": 0.0335,
      "step": 5729
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5874426364898682,
      "learning_rate": 0.0001860731919837351,
      "loss": 0.0881,
      "step": 5730
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.3926916718482971,
      "learning_rate": 0.0001860514086552425,
      "loss": 0.1032,
      "step": 5731
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.20013631880283356,
      "learning_rate": 0.00018602962532674993,
      "loss": 0.0551,
      "step": 5732
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.23159213364124298,
      "learning_rate": 0.0001860078419982573,
      "loss": 0.0804,
      "step": 5733
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.17902560532093048,
      "learning_rate": 0.00018598605866976473,
      "loss": 0.0196,
      "step": 5734
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.13790202140808105,
      "learning_rate": 0.00018596427534127213,
      "loss": 0.0363,
      "step": 5735
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.23266364634037018,
      "learning_rate": 0.00018594249201277953,
      "loss": 0.0273,
      "step": 5736
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.24002772569656372,
      "learning_rate": 0.00018592070868428694,
      "loss": 0.0602,
      "step": 5737
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.26486435532569885,
      "learning_rate": 0.00018589892535579434,
      "loss": 0.0903,
      "step": 5738
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.14298850297927856,
      "learning_rate": 0.00018587714202730177,
      "loss": 0.0184,
      "step": 5739
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.24507464468479156,
      "learning_rate": 0.00018585535869880914,
      "loss": 0.0433,
      "step": 5740
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.23833361268043518,
      "learning_rate": 0.00018583357537031657,
      "loss": 0.046,
      "step": 5741
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.6611713767051697,
      "learning_rate": 0.00018581179204182397,
      "loss": 0.0845,
      "step": 5742
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.5199722051620483,
      "learning_rate": 0.0001857900087133314,
      "loss": 0.0562,
      "step": 5743
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.2807416021823883,
      "learning_rate": 0.00018576822538483878,
      "loss": 0.0918,
      "step": 5744
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.24711979925632477,
      "learning_rate": 0.00018574644205634618,
      "loss": 0.0496,
      "step": 5745
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.260416179895401,
      "learning_rate": 0.0001857246587278536,
      "loss": 0.0512,
      "step": 5746
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.28232020139694214,
      "learning_rate": 0.00018570287539936098,
      "loss": 0.0477,
      "step": 5747
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.20740264654159546,
      "learning_rate": 0.0001856810920708684,
      "loss": 0.0404,
      "step": 5748
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.24049176275730133,
      "learning_rate": 0.00018565930874237581,
      "loss": 0.0429,
      "step": 5749
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.29536908864974976,
      "learning_rate": 0.00018563752541388324,
      "loss": 0.0569,
      "step": 5750
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.3740919530391693,
      "learning_rate": 0.00018561574208539062,
      "loss": 0.0657,
      "step": 5751
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.2923920154571533,
      "learning_rate": 0.00018559395875689805,
      "loss": 0.0773,
      "step": 5752
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.21046070754528046,
      "learning_rate": 0.00018557217542840545,
      "loss": 0.0432,
      "step": 5753
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.155556783080101,
      "learning_rate": 0.00018555039209991282,
      "loss": 0.0273,
      "step": 5754
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.36195436120033264,
      "learning_rate": 0.00018552860877142025,
      "loss": 0.0505,
      "step": 5755
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.3566451668739319,
      "learning_rate": 0.00018550682544292766,
      "loss": 0.0446,
      "step": 5756
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.3052273392677307,
      "learning_rate": 0.00018548504211443508,
      "loss": 0.0782,
      "step": 5757
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.22168177366256714,
      "learning_rate": 0.00018546325878594246,
      "loss": 0.0402,
      "step": 5758
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.21563561260700226,
      "learning_rate": 0.0001854414754574499,
      "loss": 0.0422,
      "step": 5759
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.417603075504303,
      "learning_rate": 0.0001854196921289573,
      "loss": 0.0438,
      "step": 5760
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.3816964030265808,
      "learning_rate": 0.00018539790880046467,
      "loss": 0.0606,
      "step": 5761
    },
    {
      "epoch": 1.61,
      "grad_norm": 0.13159982860088348,
      "learning_rate": 0.0001853761254719721,
      "loss": 0.0291,
      "step": 5762
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.3529384732246399,
      "learning_rate": 0.0001853543421434795,
      "loss": 0.0641,
      "step": 5763
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.2790646553039551,
      "learning_rate": 0.00018533255881498693,
      "loss": 0.0458,
      "step": 5764
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.16335570812225342,
      "learning_rate": 0.0001853107754864943,
      "loss": 0.0477,
      "step": 5765
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.21064496040344238,
      "learning_rate": 0.00018528899215800173,
      "loss": 0.0282,
      "step": 5766
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.33650439977645874,
      "learning_rate": 0.00018526720882950913,
      "loss": 0.0741,
      "step": 5767
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.502419650554657,
      "learning_rate": 0.00018524542550101656,
      "loss": 0.0809,
      "step": 5768
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.18451125919818878,
      "learning_rate": 0.00018522364217252394,
      "loss": 0.0357,
      "step": 5769
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.09958864748477936,
      "learning_rate": 0.00018520185884403134,
      "loss": 0.024,
      "step": 5770
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.29091858863830566,
      "learning_rate": 0.00018518007551553877,
      "loss": 0.0438,
      "step": 5771
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.4116637110710144,
      "learning_rate": 0.00018515829218704614,
      "loss": 0.0665,
      "step": 5772
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.39006346464157104,
      "learning_rate": 0.00018513650885855357,
      "loss": 0.0714,
      "step": 5773
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.3270780146121979,
      "learning_rate": 0.00018511472553006097,
      "loss": 0.0788,
      "step": 5774
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.29880616068840027,
      "learning_rate": 0.0001850929422015684,
      "loss": 0.0805,
      "step": 5775
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.18731610476970673,
      "learning_rate": 0.00018507115887307578,
      "loss": 0.0455,
      "step": 5776
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.1940055936574936,
      "learning_rate": 0.0001850493755445832,
      "loss": 0.0317,
      "step": 5777
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.3565292954444885,
      "learning_rate": 0.0001850275922160906,
      "loss": 0.048,
      "step": 5778
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5519081950187683,
      "learning_rate": 0.00018500580888759798,
      "loss": 0.1097,
      "step": 5779
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.446318656206131,
      "learning_rate": 0.0001849840255591054,
      "loss": 0.0787,
      "step": 5780
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.7070679068565369,
      "learning_rate": 0.00018496224223061281,
      "loss": 0.2379,
      "step": 5781
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.2659160792827606,
      "learning_rate": 0.00018494045890212024,
      "loss": 0.0559,
      "step": 5782
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.2903832197189331,
      "learning_rate": 0.00018491867557362762,
      "loss": 0.0668,
      "step": 5783
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.36582890152931213,
      "learning_rate": 0.00018489689224513505,
      "loss": 0.0598,
      "step": 5784
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.18905818462371826,
      "learning_rate": 0.00018487510891664245,
      "loss": 0.0533,
      "step": 5785
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.09320442378520966,
      "learning_rate": 0.00018485332558814983,
      "loss": 0.0128,
      "step": 5786
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.2539973855018616,
      "learning_rate": 0.00018483154225965725,
      "loss": 0.0639,
      "step": 5787
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.21249879896640778,
      "learning_rate": 0.00018480975893116466,
      "loss": 0.0492,
      "step": 5788
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.2511218786239624,
      "learning_rate": 0.00018478797560267209,
      "loss": 0.0825,
      "step": 5789
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.2240191549062729,
      "learning_rate": 0.00018476619227417946,
      "loss": 0.0372,
      "step": 5790
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.2570165693759918,
      "learning_rate": 0.0001847444089456869,
      "loss": 0.0503,
      "step": 5791
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.49836209416389465,
      "learning_rate": 0.0001847226256171943,
      "loss": 0.0662,
      "step": 5792
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.5311396718025208,
      "learning_rate": 0.00018470084228870172,
      "loss": 0.0796,
      "step": 5793
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.3469148576259613,
      "learning_rate": 0.0001846790589602091,
      "loss": 0.0811,
      "step": 5794
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.2890428304672241,
      "learning_rate": 0.0001846572756317165,
      "loss": 0.0399,
      "step": 5795
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.1804095357656479,
      "learning_rate": 0.00018463549230322393,
      "loss": 0.0514,
      "step": 5796
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.2500651180744171,
      "learning_rate": 0.0001846137089747313,
      "loss": 0.051,
      "step": 5797
    },
    {
      "epoch": 1.62,
      "grad_norm": 0.45045310258865356,
      "learning_rate": 0.00018459192564623873,
      "loss": 0.0964,
      "step": 5798
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.18537630140781403,
      "learning_rate": 0.00018457014231774613,
      "loss": 0.0541,
      "step": 5799
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.317983478307724,
      "learning_rate": 0.00018454835898925356,
      "loss": 0.097,
      "step": 5800
    },
    {
      "epoch": 1.63,
      "eval_loss": 0.07510837912559509,
      "eval_runtime": 171.832,
      "eval_samples_per_second": 15.375,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.06683855612852042,
      "step": 5800
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.2547445297241211,
      "learning_rate": 0.00018452657566076094,
      "loss": 0.071,
      "step": 5801
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.27154257893562317,
      "learning_rate": 0.00018450479233226837,
      "loss": 0.0449,
      "step": 5802
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.25512614846229553,
      "learning_rate": 0.00018448300900377577,
      "loss": 0.057,
      "step": 5803
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.3219621479511261,
      "learning_rate": 0.00018446122567528314,
      "loss": 0.0433,
      "step": 5804
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.3117867708206177,
      "learning_rate": 0.00018443944234679057,
      "loss": 0.0474,
      "step": 5805
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.4196106493473053,
      "learning_rate": 0.00018441765901829797,
      "loss": 0.1061,
      "step": 5806
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.2350800782442093,
      "learning_rate": 0.0001843958756898054,
      "loss": 0.0813,
      "step": 5807
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.22033211588859558,
      "learning_rate": 0.00018437409236131278,
      "loss": 0.043,
      "step": 5808
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.26790380477905273,
      "learning_rate": 0.0001843523090328202,
      "loss": 0.0736,
      "step": 5809
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.29898566007614136,
      "learning_rate": 0.0001843305257043276,
      "loss": 0.0649,
      "step": 5810
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.2819644808769226,
      "learning_rate": 0.00018430874237583504,
      "loss": 0.0598,
      "step": 5811
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.2680824100971222,
      "learning_rate": 0.0001842869590473424,
      "loss": 0.0726,
      "step": 5812
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.35741525888442993,
      "learning_rate": 0.00018426517571884982,
      "loss": 0.0772,
      "step": 5813
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.26076170802116394,
      "learning_rate": 0.00018424339239035724,
      "loss": 0.0467,
      "step": 5814
    },
    {
      "epoch": 1.63,
      "grad_norm": 1.0305907726287842,
      "learning_rate": 0.00018422160906186462,
      "loss": 0.0538,
      "step": 5815
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.2694892883300781,
      "learning_rate": 0.00018419982573337205,
      "loss": 0.0286,
      "step": 5816
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.8659842014312744,
      "learning_rate": 0.00018417804240487945,
      "loss": 0.1771,
      "step": 5817
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.5453988909721375,
      "learning_rate": 0.00018415625907638688,
      "loss": 0.0791,
      "step": 5818
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.21960996091365814,
      "learning_rate": 0.00018413447574789425,
      "loss": 0.0587,
      "step": 5819
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.16693033277988434,
      "learning_rate": 0.00018411269241940166,
      "loss": 0.0425,
      "step": 5820
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.21839618682861328,
      "learning_rate": 0.00018409090909090909,
      "loss": 0.0431,
      "step": 5821
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.2582235336303711,
      "learning_rate": 0.00018406912576241646,
      "loss": 0.0477,
      "step": 5822
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.1692895144224167,
      "learning_rate": 0.0001840473424339239,
      "loss": 0.0511,
      "step": 5823
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.12895479798316956,
      "learning_rate": 0.0001840255591054313,
      "loss": 0.0271,
      "step": 5824
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.2509066164493561,
      "learning_rate": 0.00018400377577693872,
      "loss": 0.0227,
      "step": 5825
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.355448842048645,
      "learning_rate": 0.0001839819924484461,
      "loss": 0.0607,
      "step": 5826
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.23761872947216034,
      "learning_rate": 0.00018396020911995353,
      "loss": 0.081,
      "step": 5827
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.16758273541927338,
      "learning_rate": 0.00018393842579146093,
      "loss": 0.0275,
      "step": 5828
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.3849734961986542,
      "learning_rate": 0.0001839166424629683,
      "loss": 0.0645,
      "step": 5829
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.39550021290779114,
      "learning_rate": 0.00018389485913447573,
      "loss": 0.0881,
      "step": 5830
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.46143609285354614,
      "learning_rate": 0.00018387307580598313,
      "loss": 0.1268,
      "step": 5831
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.13972754776477814,
      "learning_rate": 0.00018385129247749056,
      "loss": 0.0216,
      "step": 5832
    },
    {
      "epoch": 1.63,
      "grad_norm": 0.2614613473415375,
      "learning_rate": 0.00018382950914899794,
      "loss": 0.0845,
      "step": 5833
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.3477078080177307,
      "learning_rate": 0.00018380772582050537,
      "loss": 0.0829,
      "step": 5834
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.21931838989257812,
      "learning_rate": 0.00018378594249201277,
      "loss": 0.0394,
      "step": 5835
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.16162055730819702,
      "learning_rate": 0.0001837641591635202,
      "loss": 0.0289,
      "step": 5836
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.21182399988174438,
      "learning_rate": 0.00018374237583502757,
      "loss": 0.0416,
      "step": 5837
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.17176640033721924,
      "learning_rate": 0.00018372059250653497,
      "loss": 0.0407,
      "step": 5838
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.20345747470855713,
      "learning_rate": 0.0001836988091780424,
      "loss": 0.0373,
      "step": 5839
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.23688070476055145,
      "learning_rate": 0.00018367702584954978,
      "loss": 0.0268,
      "step": 5840
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.16179460287094116,
      "learning_rate": 0.0001836552425210572,
      "loss": 0.0204,
      "step": 5841
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.26857900619506836,
      "learning_rate": 0.0001836334591925646,
      "loss": 0.0597,
      "step": 5842
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.2948418855667114,
      "learning_rate": 0.00018361167586407204,
      "loss": 0.032,
      "step": 5843
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.19913974404335022,
      "learning_rate": 0.00018358989253557941,
      "loss": 0.0748,
      "step": 5844
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.19398760795593262,
      "learning_rate": 0.00018356810920708682,
      "loss": 0.0636,
      "step": 5845
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.3452928960323334,
      "learning_rate": 0.00018354632587859425,
      "loss": 0.0854,
      "step": 5846
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.20413033664226532,
      "learning_rate": 0.00018352454255010162,
      "loss": 0.0326,
      "step": 5847
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.29266247153282166,
      "learning_rate": 0.00018350275922160905,
      "loss": 0.0674,
      "step": 5848
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.28297853469848633,
      "learning_rate": 0.00018348097589311645,
      "loss": 0.0634,
      "step": 5849
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.2037004828453064,
      "learning_rate": 0.00018345919256462388,
      "loss": 0.0781,
      "step": 5850
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.22898279130458832,
      "learning_rate": 0.00018343740923613126,
      "loss": 0.0539,
      "step": 5851
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.21006520092487335,
      "learning_rate": 0.00018341562590763868,
      "loss": 0.0395,
      "step": 5852
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.18176236748695374,
      "learning_rate": 0.00018339384257914609,
      "loss": 0.0283,
      "step": 5853
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.850905179977417,
      "learning_rate": 0.00018337205925065346,
      "loss": 0.1484,
      "step": 5854
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.673093855381012,
      "learning_rate": 0.0001833502759221609,
      "loss": 0.168,
      "step": 5855
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.7700612545013428,
      "learning_rate": 0.0001833284925936683,
      "loss": 0.0626,
      "step": 5856
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.28735461831092834,
      "learning_rate": 0.00018330670926517572,
      "loss": 0.0531,
      "step": 5857
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.20231524109840393,
      "learning_rate": 0.0001832849259366831,
      "loss": 0.0518,
      "step": 5858
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.21511122584342957,
      "learning_rate": 0.00018326314260819053,
      "loss": 0.0842,
      "step": 5859
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.1682145893573761,
      "learning_rate": 0.00018324135927969793,
      "loss": 0.0415,
      "step": 5860
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.1734422892332077,
      "learning_rate": 0.00018321957595120536,
      "loss": 0.0296,
      "step": 5861
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.15752312541007996,
      "learning_rate": 0.00018319779262271273,
      "loss": 0.0481,
      "step": 5862
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.1420452743768692,
      "learning_rate": 0.00018317600929422013,
      "loss": 0.0208,
      "step": 5863
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.2467546910047531,
      "learning_rate": 0.00018315422596572756,
      "loss": 0.0451,
      "step": 5864
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.40831732749938965,
      "learning_rate": 0.00018313244263723494,
      "loss": 0.0676,
      "step": 5865
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.19260241091251373,
      "learning_rate": 0.00018311065930874237,
      "loss": 0.0491,
      "step": 5866
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.5043782591819763,
      "learning_rate": 0.00018308887598024977,
      "loss": 0.0801,
      "step": 5867
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.6448701620101929,
      "learning_rate": 0.0001830670926517572,
      "loss": 0.0874,
      "step": 5868
    },
    {
      "epoch": 1.64,
      "grad_norm": 0.17765764892101288,
      "learning_rate": 0.00018304530932326457,
      "loss": 0.0539,
      "step": 5869
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.27354782819747925,
      "learning_rate": 0.00018302352599477198,
      "loss": 0.0822,
      "step": 5870
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.19195054471492767,
      "learning_rate": 0.0001830017426662794,
      "loss": 0.0441,
      "step": 5871
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4189082384109497,
      "learning_rate": 0.00018297995933778678,
      "loss": 0.0547,
      "step": 5872
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.17450225353240967,
      "learning_rate": 0.0001829581760092942,
      "loss": 0.0513,
      "step": 5873
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.16771310567855835,
      "learning_rate": 0.0001829363926808016,
      "loss": 0.0721,
      "step": 5874
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.2584918141365051,
      "learning_rate": 0.00018291460935230904,
      "loss": 0.0572,
      "step": 5875
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.3438372313976288,
      "learning_rate": 0.00018289282602381641,
      "loss": 0.0333,
      "step": 5876
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.40373095870018005,
      "learning_rate": 0.00018287104269532384,
      "loss": 0.066,
      "step": 5877
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.3573633134365082,
      "learning_rate": 0.00018284925936683125,
      "loss": 0.0377,
      "step": 5878
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.45592933893203735,
      "learning_rate": 0.00018282747603833862,
      "loss": 0.1108,
      "step": 5879
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.6147679090499878,
      "learning_rate": 0.00018280569270984605,
      "loss": 0.1339,
      "step": 5880
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4038863778114319,
      "learning_rate": 0.00018278390938135345,
      "loss": 0.0328,
      "step": 5881
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.17577415704727173,
      "learning_rate": 0.00018276212605286088,
      "loss": 0.0502,
      "step": 5882
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.22020697593688965,
      "learning_rate": 0.00018274034272436826,
      "loss": 0.0853,
      "step": 5883
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.11828634887933731,
      "learning_rate": 0.00018271855939587568,
      "loss": 0.0193,
      "step": 5884
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.25413769483566284,
      "learning_rate": 0.0001826967760673831,
      "loss": 0.0372,
      "step": 5885
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.11760521680116653,
      "learning_rate": 0.0001826749927388905,
      "loss": 0.0337,
      "step": 5886
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.18462465703487396,
      "learning_rate": 0.0001826532094103979,
      "loss": 0.0253,
      "step": 5887
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.24347546696662903,
      "learning_rate": 0.0001826314260819053,
      "loss": 0.0319,
      "step": 5888
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.32999187707901,
      "learning_rate": 0.00018260964275341272,
      "loss": 0.0621,
      "step": 5889
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.23009763658046722,
      "learning_rate": 0.0001825878594249201,
      "loss": 0.0594,
      "step": 5890
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.18543662130832672,
      "learning_rate": 0.00018256607609642753,
      "loss": 0.0566,
      "step": 5891
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.7728187441825867,
      "learning_rate": 0.00018254429276793493,
      "loss": 0.0634,
      "step": 5892
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.47781720757484436,
      "learning_rate": 0.00018252250943944233,
      "loss": 0.1003,
      "step": 5893
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.1913796067237854,
      "learning_rate": 0.00018250072611094973,
      "loss": 0.023,
      "step": 5894
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.2023942470550537,
      "learning_rate": 0.00018247894278245713,
      "loss": 0.0342,
      "step": 5895
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.2522829473018646,
      "learning_rate": 0.00018245715945396456,
      "loss": 0.0506,
      "step": 5896
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.30685776472091675,
      "learning_rate": 0.00018243537612547194,
      "loss": 0.0654,
      "step": 5897
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.1916605532169342,
      "learning_rate": 0.00018241359279697937,
      "loss": 0.0687,
      "step": 5898
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.17685115337371826,
      "learning_rate": 0.00018239180946848677,
      "loss": 0.0407,
      "step": 5899
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.3655204772949219,
      "learning_rate": 0.0001823700261399942,
      "loss": 0.0915,
      "step": 5900
    },
    {
      "epoch": 1.65,
      "eval_loss": 0.07475593686103821,
      "eval_runtime": 174.3103,
      "eval_samples_per_second": 15.157,
      "eval_steps_per_second": 0.476,
      "eval_wer": 0.06608488694962317,
      "step": 5900
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.2890785336494446,
      "learning_rate": 0.00018234824281150157,
      "loss": 0.0588,
      "step": 5901
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.4112549126148224,
      "learning_rate": 0.000182326459483009,
      "loss": 0.0683,
      "step": 5902
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.21948574483394623,
      "learning_rate": 0.0001823046761545164,
      "loss": 0.0495,
      "step": 5903
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.31553202867507935,
      "learning_rate": 0.00018228289282602378,
      "loss": 0.0891,
      "step": 5904
    },
    {
      "epoch": 1.65,
      "grad_norm": 0.25133416056632996,
      "learning_rate": 0.0001822611094975312,
      "loss": 0.069,
      "step": 5905
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.47926095128059387,
      "learning_rate": 0.0001822393261690386,
      "loss": 0.0592,
      "step": 5906
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.3680903911590576,
      "learning_rate": 0.00018221754284054604,
      "loss": 0.0819,
      "step": 5907
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.1894991099834442,
      "learning_rate": 0.00018219575951205341,
      "loss": 0.0663,
      "step": 5908
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.11258775740861893,
      "learning_rate": 0.00018217397618356084,
      "loss": 0.0277,
      "step": 5909
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.24770323932170868,
      "learning_rate": 0.00018215219285506825,
      "loss": 0.0287,
      "step": 5910
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.18279610574245453,
      "learning_rate": 0.00018213040952657565,
      "loss": 0.0487,
      "step": 5911
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.44247233867645264,
      "learning_rate": 0.00018210862619808305,
      "loss": 0.0367,
      "step": 5912
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.33042779564857483,
      "learning_rate": 0.00018208684286959045,
      "loss": 0.0802,
      "step": 5913
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.27624136209487915,
      "learning_rate": 0.00018206505954109788,
      "loss": 0.0599,
      "step": 5914
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.3224223256111145,
      "learning_rate": 0.00018204327621260526,
      "loss": 0.0734,
      "step": 5915
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.27795329689979553,
      "learning_rate": 0.00018202149288411269,
      "loss": 0.0493,
      "step": 5916
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.21854400634765625,
      "learning_rate": 0.0001819997095556201,
      "loss": 0.0351,
      "step": 5917
    },
    {
      "epoch": 1.66,
      "grad_norm": 1.7664738893508911,
      "learning_rate": 0.0001819779262271275,
      "loss": 0.0497,
      "step": 5918
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.29855576157569885,
      "learning_rate": 0.0001819561428986349,
      "loss": 0.0481,
      "step": 5919
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.27799299359321594,
      "learning_rate": 0.00018193435957014232,
      "loss": 0.0544,
      "step": 5920
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.4039114713668823,
      "learning_rate": 0.00018191257624164972,
      "loss": 0.0939,
      "step": 5921
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.21963804960250854,
      "learning_rate": 0.0001818907929131571,
      "loss": 0.0746,
      "step": 5922
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.27076923847198486,
      "learning_rate": 0.00018186900958466453,
      "loss": 0.0814,
      "step": 5923
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.1302080601453781,
      "learning_rate": 0.00018184722625617193,
      "loss": 0.0227,
      "step": 5924
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.16165710985660553,
      "learning_rate": 0.00018182544292767933,
      "loss": 0.0329,
      "step": 5925
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.2906287908554077,
      "learning_rate": 0.00018180365959918673,
      "loss": 0.0486,
      "step": 5926
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.30740177631378174,
      "learning_rate": 0.00018178187627069416,
      "loss": 0.0299,
      "step": 5927
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.28238755464553833,
      "learning_rate": 0.00018176009294220156,
      "loss": 0.0925,
      "step": 5928
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.2944723963737488,
      "learning_rate": 0.00018173830961370894,
      "loss": 0.0669,
      "step": 5929
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.5284864902496338,
      "learning_rate": 0.00018171652628521637,
      "loss": 0.0933,
      "step": 5930
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.29864582419395447,
      "learning_rate": 0.00018169474295672377,
      "loss": 0.0289,
      "step": 5931
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.2166639268398285,
      "learning_rate": 0.00018167295962823117,
      "loss": 0.0367,
      "step": 5932
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.22569458186626434,
      "learning_rate": 0.00018165117629973857,
      "loss": 0.036,
      "step": 5933
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.2541193962097168,
      "learning_rate": 0.000181629392971246,
      "loss": 0.0283,
      "step": 5934
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.13351525366306305,
      "learning_rate": 0.0001816076096427534,
      "loss": 0.0193,
      "step": 5935
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.23824399709701538,
      "learning_rate": 0.0001815858263142608,
      "loss": 0.1023,
      "step": 5936
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.23403044044971466,
      "learning_rate": 0.0001815640429857682,
      "loss": 0.0366,
      "step": 5937
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.15252627432346344,
      "learning_rate": 0.0001815422596572756,
      "loss": 0.0275,
      "step": 5938
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.48970550298690796,
      "learning_rate": 0.000181520476328783,
      "loss": 0.0472,
      "step": 5939
    },
    {
      "epoch": 1.66,
      "grad_norm": 0.3084246814250946,
      "learning_rate": 0.00018149869300029042,
      "loss": 0.0569,
      "step": 5940
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.2166285365819931,
      "learning_rate": 0.00018147690967179784,
      "loss": 0.025,
      "step": 5941
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.2525925934314728,
      "learning_rate": 0.00018145512634330525,
      "loss": 0.0362,
      "step": 5942
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.7242400050163269,
      "learning_rate": 0.00018143334301481265,
      "loss": 0.0758,
      "step": 5943
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.20137321949005127,
      "learning_rate": 0.00018141155968632005,
      "loss": 0.0389,
      "step": 5944
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.1757720559835434,
      "learning_rate": 0.00018138977635782748,
      "loss": 0.0389,
      "step": 5945
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.30318111181259155,
      "learning_rate": 0.00018136799302933485,
      "loss": 0.0377,
      "step": 5946
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.27030301094055176,
      "learning_rate": 0.00018134620970084226,
      "loss": 0.0509,
      "step": 5947
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.22131049633026123,
      "learning_rate": 0.00018132442637234969,
      "loss": 0.0508,
      "step": 5948
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.20722106099128723,
      "learning_rate": 0.0001813026430438571,
      "loss": 0.069,
      "step": 5949
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.2458239495754242,
      "learning_rate": 0.0001812808597153645,
      "loss": 0.0421,
      "step": 5950
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.17567908763885498,
      "learning_rate": 0.0001812590763868719,
      "loss": 0.0404,
      "step": 5951
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.26029542088508606,
      "learning_rate": 0.00018123729305837932,
      "loss": 0.0562,
      "step": 5952
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.31447646021842957,
      "learning_rate": 0.00018121550972988672,
      "loss": 0.0373,
      "step": 5953
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.32348600029945374,
      "learning_rate": 0.0001811937264013941,
      "loss": 0.0282,
      "step": 5954
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.5147472620010376,
      "learning_rate": 0.00018117194307290153,
      "loss": 0.1045,
      "step": 5955
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.4147001802921295,
      "learning_rate": 0.00018115015974440893,
      "loss": 0.0797,
      "step": 5956
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.17993775010108948,
      "learning_rate": 0.00018112837641591633,
      "loss": 0.0223,
      "step": 5957
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.17155876755714417,
      "learning_rate": 0.00018110659308742373,
      "loss": 0.0463,
      "step": 5958
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.28842711448669434,
      "learning_rate": 0.00018108480975893116,
      "loss": 0.0557,
      "step": 5959
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.41868263483047485,
      "learning_rate": 0.00018106302643043856,
      "loss": 0.0737,
      "step": 5960
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.319953054189682,
      "learning_rate": 0.00018104124310194597,
      "loss": 0.0852,
      "step": 5961
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.20434750616550446,
      "learning_rate": 0.00018101945977345337,
      "loss": 0.0482,
      "step": 5962
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.292797714471817,
      "learning_rate": 0.00018099767644496077,
      "loss": 0.0469,
      "step": 5963
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.2667190432548523,
      "learning_rate": 0.00018097589311646817,
      "loss": 0.0795,
      "step": 5964
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.42508044838905334,
      "learning_rate": 0.00018095410978797557,
      "loss": 0.0561,
      "step": 5965
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.32266557216644287,
      "learning_rate": 0.000180932326459483,
      "loss": 0.0559,
      "step": 5966
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.41113603115081787,
      "learning_rate": 0.0001809105431309904,
      "loss": 0.0815,
      "step": 5967
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.523783266544342,
      "learning_rate": 0.0001808887598024978,
      "loss": 0.0658,
      "step": 5968
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.18782329559326172,
      "learning_rate": 0.0001808669764740052,
      "loss": 0.0412,
      "step": 5969
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.2401658296585083,
      "learning_rate": 0.00018084519314551264,
      "loss": 0.0503,
      "step": 5970
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.2527623772621155,
      "learning_rate": 0.00018082340981702001,
      "loss": 0.0528,
      "step": 5971
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.26418301463127136,
      "learning_rate": 0.00018080162648852742,
      "loss": 0.0704,
      "step": 5972
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.2861297130584717,
      "learning_rate": 0.00018077984316003485,
      "loss": 0.0362,
      "step": 5973
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.2241090089082718,
      "learning_rate": 0.00018075805983154225,
      "loss": 0.0579,
      "step": 5974
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.18396809697151184,
      "learning_rate": 0.00018073627650304965,
      "loss": 0.0274,
      "step": 5975
    },
    {
      "epoch": 1.67,
      "grad_norm": 0.32768940925598145,
      "learning_rate": 0.00018071449317455705,
      "loss": 0.0336,
      "step": 5976
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.17381471395492554,
      "learning_rate": 0.00018069270984606448,
      "loss": 0.0434,
      "step": 5977
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.24277721345424652,
      "learning_rate": 0.00018067092651757186,
      "loss": 0.0487,
      "step": 5978
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.3374958038330078,
      "learning_rate": 0.00018064914318907926,
      "loss": 0.048,
      "step": 5979
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5876473188400269,
      "learning_rate": 0.0001806273598605867,
      "loss": 0.1098,
      "step": 5980
    },
    {
      "epoch": 1.68,
      "grad_norm": 1.6153286695480347,
      "learning_rate": 0.0001806055765320941,
      "loss": 0.0952,
      "step": 5981
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.1485072523355484,
      "learning_rate": 0.0001805837932036015,
      "loss": 0.0267,
      "step": 5982
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5377846360206604,
      "learning_rate": 0.0001805620098751089,
      "loss": 0.0244,
      "step": 5983
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.220050647854805,
      "learning_rate": 0.00018054022654661632,
      "loss": 0.0778,
      "step": 5984
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.23681704699993134,
      "learning_rate": 0.0001805184432181237,
      "loss": 0.0865,
      "step": 5985
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.10793357342481613,
      "learning_rate": 0.00018049665988963113,
      "loss": 0.0283,
      "step": 5986
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.36710324883461,
      "learning_rate": 0.00018047487656113853,
      "loss": 0.0348,
      "step": 5987
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.294473797082901,
      "learning_rate": 0.00018045309323264593,
      "loss": 0.0744,
      "step": 5988
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.11603857576847076,
      "learning_rate": 0.00018043130990415333,
      "loss": 0.0217,
      "step": 5989
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.40343737602233887,
      "learning_rate": 0.00018040952657566073,
      "loss": 0.0834,
      "step": 5990
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.0640658363699913,
      "learning_rate": 0.00018038774324716816,
      "loss": 0.0079,
      "step": 5991
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.23629537224769592,
      "learning_rate": 0.00018036595991867554,
      "loss": 0.0369,
      "step": 5992
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.8339855670928955,
      "learning_rate": 0.00018034417659018297,
      "loss": 0.1715,
      "step": 5993
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.3329876661300659,
      "learning_rate": 0.00018032239326169037,
      "loss": 0.071,
      "step": 5994
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.23865798115730286,
      "learning_rate": 0.0001803006099331978,
      "loss": 0.0642,
      "step": 5995
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.40928882360458374,
      "learning_rate": 0.00018027882660470517,
      "loss": 0.0954,
      "step": 5996
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.1659592092037201,
      "learning_rate": 0.00018025704327621258,
      "loss": 0.049,
      "step": 5997
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.17164595425128937,
      "learning_rate": 0.00018023525994772,
      "loss": 0.037,
      "step": 5998
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.11992626637220383,
      "learning_rate": 0.00018021347661922738,
      "loss": 0.0256,
      "step": 5999
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.1878281980752945,
      "learning_rate": 0.0001801916932907348,
      "loss": 0.0511,
      "step": 6000
    },
    {
      "epoch": 1.68,
      "eval_loss": 0.076680026948452,
      "eval_runtime": 172.0906,
      "eval_samples_per_second": 15.352,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.06414121380404601,
      "step": 6000
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.30657336115837097,
      "learning_rate": 0.0001801699099622422,
      "loss": 0.0645,
      "step": 6001
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.22771862149238586,
      "learning_rate": 0.00018014812663374964,
      "loss": 0.0426,
      "step": 6002
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.25933828949928284,
      "learning_rate": 0.00018012634330525701,
      "loss": 0.0542,
      "step": 6003
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.3273144066333771,
      "learning_rate": 0.00018010455997676442,
      "loss": 0.0411,
      "step": 6004
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.43470340967178345,
      "learning_rate": 0.00018008277664827185,
      "loss": 0.0578,
      "step": 6005
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.7612981796264648,
      "learning_rate": 0.00018006099331977925,
      "loss": 0.1321,
      "step": 6006
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.5848382115364075,
      "learning_rate": 0.00018003920999128665,
      "loss": 0.0594,
      "step": 6007
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.23025453090667725,
      "learning_rate": 0.00018001742666279405,
      "loss": 0.0513,
      "step": 6008
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.2614133954048157,
      "learning_rate": 0.00017999564333430148,
      "loss": 0.0178,
      "step": 6009
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.12419643998146057,
      "learning_rate": 0.00017997386000580886,
      "loss": 0.0279,
      "step": 6010
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.20409776270389557,
      "learning_rate": 0.00017995207667731628,
      "loss": 0.0476,
      "step": 6011
    },
    {
      "epoch": 1.68,
      "grad_norm": 0.3012472689151764,
      "learning_rate": 0.0001799302933488237,
      "loss": 0.0474,
      "step": 6012
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.1766091138124466,
      "learning_rate": 0.0001799085100203311,
      "loss": 0.0435,
      "step": 6013
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.22599193453788757,
      "learning_rate": 0.0001798867266918385,
      "loss": 0.0206,
      "step": 6014
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.7525707483291626,
      "learning_rate": 0.0001798649433633459,
      "loss": 0.0554,
      "step": 6015
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.2817818820476532,
      "learning_rate": 0.00017984316003485332,
      "loss": 0.0331,
      "step": 6016
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.37254056334495544,
      "learning_rate": 0.0001798213767063607,
      "loss": 0.0453,
      "step": 6017
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.7760597467422485,
      "learning_rate": 0.00017979959337786813,
      "loss": 0.1377,
      "step": 6018
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.17273461818695068,
      "learning_rate": 0.00017977781004937553,
      "loss": 0.0352,
      "step": 6019
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.37051278352737427,
      "learning_rate": 0.00017975602672088296,
      "loss": 0.07,
      "step": 6020
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.31032809615135193,
      "learning_rate": 0.00017973424339239033,
      "loss": 0.0836,
      "step": 6021
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.26280227303504944,
      "learning_rate": 0.00017971246006389773,
      "loss": 0.0392,
      "step": 6022
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.651060163974762,
      "learning_rate": 0.00017969067673540516,
      "loss": 0.0298,
      "step": 6023
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.2543617784976959,
      "learning_rate": 0.00017966889340691254,
      "loss": 0.0656,
      "step": 6024
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.29441389441490173,
      "learning_rate": 0.00017964711007841997,
      "loss": 0.0474,
      "step": 6025
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.2926906943321228,
      "learning_rate": 0.00017962532674992737,
      "loss": 0.0605,
      "step": 6026
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.27001312375068665,
      "learning_rate": 0.0001796035434214348,
      "loss": 0.0779,
      "step": 6027
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.21575720608234406,
      "learning_rate": 0.00017958176009294217,
      "loss": 0.0233,
      "step": 6028
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.33024388551712036,
      "learning_rate": 0.00017955997676444958,
      "loss": 0.0587,
      "step": 6029
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5692492723464966,
      "learning_rate": 0.000179538193435957,
      "loss": 0.0863,
      "step": 6030
    },
    {
      "epoch": 1.69,
      "grad_norm": 3.448582410812378,
      "learning_rate": 0.00017951641010746438,
      "loss": 0.2292,
      "step": 6031
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.2986520826816559,
      "learning_rate": 0.0001794946267789718,
      "loss": 0.0406,
      "step": 6032
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.2953503429889679,
      "learning_rate": 0.0001794728434504792,
      "loss": 0.0518,
      "step": 6033
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.1487576961517334,
      "learning_rate": 0.00017945106012198664,
      "loss": 0.0343,
      "step": 6034
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.43047940731048584,
      "learning_rate": 0.00017942927679349402,
      "loss": 0.0557,
      "step": 6035
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.26212096214294434,
      "learning_rate": 0.00017940749346500144,
      "loss": 0.05,
      "step": 6036
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.14823094010353088,
      "learning_rate": 0.00017938571013650885,
      "loss": 0.0247,
      "step": 6037
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.2636895775794983,
      "learning_rate": 0.00017936392680801622,
      "loss": 0.0648,
      "step": 6038
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5250033736228943,
      "learning_rate": 0.00017934214347952365,
      "loss": 0.0648,
      "step": 6039
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.3435848355293274,
      "learning_rate": 0.00017932036015103105,
      "loss": 0.1078,
      "step": 6040
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.37272539734840393,
      "learning_rate": 0.00017929857682253848,
      "loss": 0.0367,
      "step": 6041
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.20584268867969513,
      "learning_rate": 0.00017927679349404586,
      "loss": 0.0282,
      "step": 6042
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.5332216620445251,
      "learning_rate": 0.00017925501016555329,
      "loss": 0.1033,
      "step": 6043
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.38079777359962463,
      "learning_rate": 0.0001792332268370607,
      "loss": 0.0524,
      "step": 6044
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.2692267894744873,
      "learning_rate": 0.00017921144350856812,
      "loss": 0.0428,
      "step": 6045
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.260114461183548,
      "learning_rate": 0.0001791896601800755,
      "loss": 0.0621,
      "step": 6046
    },
    {
      "epoch": 1.69,
      "grad_norm": 0.17714998126029968,
      "learning_rate": 0.0001791678768515829,
      "loss": 0.0524,
      "step": 6047
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.22949108481407166,
      "learning_rate": 0.00017914609352309032,
      "loss": 0.0695,
      "step": 6048
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.24107587337493896,
      "learning_rate": 0.0001791243101945977,
      "loss": 0.0499,
      "step": 6049
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.13518163561820984,
      "learning_rate": 0.00017910252686610513,
      "loss": 0.0304,
      "step": 6050
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.20168541371822357,
      "learning_rate": 0.00017908074353761253,
      "loss": 0.0347,
      "step": 6051
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.27228397130966187,
      "learning_rate": 0.00017905896020911996,
      "loss": 0.0594,
      "step": 6052
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.44196632504463196,
      "learning_rate": 0.00017903717688062733,
      "loss": 0.0992,
      "step": 6053
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.18949781358242035,
      "learning_rate": 0.00017901539355213476,
      "loss": 0.0334,
      "step": 6054
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.48383674025535583,
      "learning_rate": 0.00017899361022364216,
      "loss": 0.0672,
      "step": 6055
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.5599938035011292,
      "learning_rate": 0.00017897182689514954,
      "loss": 0.0612,
      "step": 6056
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.20247197151184082,
      "learning_rate": 0.00017895004356665697,
      "loss": 0.0363,
      "step": 6057
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.21722421050071716,
      "learning_rate": 0.00017892826023816437,
      "loss": 0.0434,
      "step": 6058
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.23204678297042847,
      "learning_rate": 0.0001789064769096718,
      "loss": 0.0424,
      "step": 6059
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.25937461853027344,
      "learning_rate": 0.00017888469358117917,
      "loss": 0.0313,
      "step": 6060
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.3162200450897217,
      "learning_rate": 0.0001788629102526866,
      "loss": 0.0677,
      "step": 6061
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.19765199720859528,
      "learning_rate": 0.000178841126924194,
      "loss": 0.0481,
      "step": 6062
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.2223736196756363,
      "learning_rate": 0.00017881934359570138,
      "loss": 0.0428,
      "step": 6063
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.29744312167167664,
      "learning_rate": 0.0001787975602672088,
      "loss": 0.1044,
      "step": 6064
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.38698306679725647,
      "learning_rate": 0.0001787757769387162,
      "loss": 0.0501,
      "step": 6065
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.2258443981409073,
      "learning_rate": 0.00017875399361022364,
      "loss": 0.0292,
      "step": 6066
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.42186230421066284,
      "learning_rate": 0.00017873221028173102,
      "loss": 0.0621,
      "step": 6067
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.44129976630210876,
      "learning_rate": 0.00017871042695323844,
      "loss": 0.0541,
      "step": 6068
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.44089475274086,
      "learning_rate": 0.00017868864362474585,
      "loss": 0.0366,
      "step": 6069
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.2625078558921814,
      "learning_rate": 0.00017866686029625328,
      "loss": 0.0801,
      "step": 6070
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.26644155383110046,
      "learning_rate": 0.00017864507696776065,
      "loss": 0.0913,
      "step": 6071
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.1839006543159485,
      "learning_rate": 0.00017862329363926805,
      "loss": 0.0234,
      "step": 6072
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.4087349474430084,
      "learning_rate": 0.00017860151031077548,
      "loss": 0.0406,
      "step": 6073
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.2124493271112442,
      "learning_rate": 0.00017857972698228286,
      "loss": 0.029,
      "step": 6074
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.1518082618713379,
      "learning_rate": 0.00017855794365379029,
      "loss": 0.0287,
      "step": 6075
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.3742966949939728,
      "learning_rate": 0.0001785361603252977,
      "loss": 0.0967,
      "step": 6076
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.33129602670669556,
      "learning_rate": 0.00017851437699680512,
      "loss": 0.088,
      "step": 6077
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.16953180730342865,
      "learning_rate": 0.0001784925936683125,
      "loss": 0.0264,
      "step": 6078
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.3901228606700897,
      "learning_rate": 0.00017847081033981992,
      "loss": 0.0587,
      "step": 6079
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.3369247615337372,
      "learning_rate": 0.00017844902701132732,
      "loss": 0.0779,
      "step": 6080
    },
    {
      "epoch": 1.7,
      "grad_norm": 1.1849689483642578,
      "learning_rate": 0.0001784272436828347,
      "loss": 0.1824,
      "step": 6081
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.13756564259529114,
      "learning_rate": 0.00017840546035434213,
      "loss": 0.0395,
      "step": 6082
    },
    {
      "epoch": 1.7,
      "grad_norm": 0.09303347766399384,
      "learning_rate": 0.00017838367702584953,
      "loss": 0.018,
      "step": 6083
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.2173725813627243,
      "learning_rate": 0.00017836189369735696,
      "loss": 0.0476,
      "step": 6084
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.19665469229221344,
      "learning_rate": 0.00017834011036886433,
      "loss": 0.0565,
      "step": 6085
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.18301035463809967,
      "learning_rate": 0.00017831832704037176,
      "loss": 0.0479,
      "step": 6086
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.38190528750419617,
      "learning_rate": 0.00017829654371187916,
      "loss": 0.053,
      "step": 6087
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.2852139472961426,
      "learning_rate": 0.00017827476038338654,
      "loss": 0.0693,
      "step": 6088
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.13854581117630005,
      "learning_rate": 0.00017825297705489397,
      "loss": 0.0413,
      "step": 6089
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.2888002097606659,
      "learning_rate": 0.00017823119372640137,
      "loss": 0.0842,
      "step": 6090
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.22387702763080597,
      "learning_rate": 0.0001782094103979088,
      "loss": 0.0516,
      "step": 6091
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.7225644588470459,
      "learning_rate": 0.00017818762706941617,
      "loss": 0.0772,
      "step": 6092
    },
    {
      "epoch": 1.71,
      "grad_norm": 1.547924280166626,
      "learning_rate": 0.0001781658437409236,
      "loss": 0.1508,
      "step": 6093
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.1530710905790329,
      "learning_rate": 0.000178144060412431,
      "loss": 0.038,
      "step": 6094
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.2619517743587494,
      "learning_rate": 0.00017812227708393844,
      "loss": 0.0501,
      "step": 6095
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.19349943101406097,
      "learning_rate": 0.0001781004937554458,
      "loss": 0.0419,
      "step": 6096
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.21621762216091156,
      "learning_rate": 0.0001780787104269532,
      "loss": 0.0613,
      "step": 6097
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.2467990517616272,
      "learning_rate": 0.00017805692709846064,
      "loss": 0.0614,
      "step": 6098
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.18063117563724518,
      "learning_rate": 0.00017803514376996802,
      "loss": 0.0472,
      "step": 6099
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.1570010632276535,
      "learning_rate": 0.00017801336044147545,
      "loss": 0.0254,
      "step": 6100
    },
    {
      "epoch": 1.71,
      "eval_loss": 0.07538118213415146,
      "eval_runtime": 173.2076,
      "eval_samples_per_second": 15.253,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.06564855216184054,
      "step": 6100
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.19482658803462982,
      "learning_rate": 0.00017799157711298285,
      "loss": 0.0533,
      "step": 6101
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.3113214075565338,
      "learning_rate": 0.00017796979378449028,
      "loss": 0.042,
      "step": 6102
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.2332354038953781,
      "learning_rate": 0.00017794801045599765,
      "loss": 0.0406,
      "step": 6103
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.29512542486190796,
      "learning_rate": 0.00017792622712750508,
      "loss": 0.0413,
      "step": 6104
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.9903410077095032,
      "learning_rate": 0.00017790444379901248,
      "loss": 0.2749,
      "step": 6105
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.5480062365531921,
      "learning_rate": 0.00017788266047051986,
      "loss": 0.1472,
      "step": 6106
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.1507047563791275,
      "learning_rate": 0.0001778608771420273,
      "loss": 0.0473,
      "step": 6107
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.25997376441955566,
      "learning_rate": 0.0001778390938135347,
      "loss": 0.0788,
      "step": 6108
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.26149970293045044,
      "learning_rate": 0.00017781731048504212,
      "loss": 0.0538,
      "step": 6109
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.1546335369348526,
      "learning_rate": 0.0001777955271565495,
      "loss": 0.0408,
      "step": 6110
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.35223710536956787,
      "learning_rate": 0.00017777374382805692,
      "loss": 0.0781,
      "step": 6111
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.19578123092651367,
      "learning_rate": 0.00017775196049956432,
      "loss": 0.0602,
      "step": 6112
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.3942117691040039,
      "learning_rate": 0.0001777301771710717,
      "loss": 0.0503,
      "step": 6113
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.2807905673980713,
      "learning_rate": 0.00017770839384257913,
      "loss": 0.0816,
      "step": 6114
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.26931649446487427,
      "learning_rate": 0.00017768661051408653,
      "loss": 0.0684,
      "step": 6115
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.09868267923593521,
      "learning_rate": 0.00017766482718559396,
      "loss": 0.01,
      "step": 6116
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.277250736951828,
      "learning_rate": 0.00017764304385710133,
      "loss": 0.025,
      "step": 6117
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.6468014121055603,
      "learning_rate": 0.00017762126052860876,
      "loss": 0.113,
      "step": 6118
    },
    {
      "epoch": 1.71,
      "grad_norm": 0.18546561896800995,
      "learning_rate": 0.00017759947720011617,
      "loss": 0.0484,
      "step": 6119
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.11297623068094254,
      "learning_rate": 0.0001775776938716236,
      "loss": 0.0281,
      "step": 6120
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.1838323324918747,
      "learning_rate": 0.00017755591054313097,
      "loss": 0.0434,
      "step": 6121
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.5082563757896423,
      "learning_rate": 0.00017753412721463837,
      "loss": 0.0624,
      "step": 6122
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.15142148733139038,
      "learning_rate": 0.0001775123438861458,
      "loss": 0.0325,
      "step": 6123
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.4788535237312317,
      "learning_rate": 0.00017749056055765318,
      "loss": 0.0485,
      "step": 6124
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.14421679079532623,
      "learning_rate": 0.0001774687772291606,
      "loss": 0.0374,
      "step": 6125
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.36604446172714233,
      "learning_rate": 0.000177446993900668,
      "loss": 0.0464,
      "step": 6126
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.20144762098789215,
      "learning_rate": 0.00017742521057217544,
      "loss": 0.0493,
      "step": 6127
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.2967747747898102,
      "learning_rate": 0.0001774034272436828,
      "loss": 0.0707,
      "step": 6128
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.2630574405193329,
      "learning_rate": 0.00017738164391519024,
      "loss": 0.1125,
      "step": 6129
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.45361584424972534,
      "learning_rate": 0.00017735986058669764,
      "loss": 0.0535,
      "step": 6130
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.4884147644042969,
      "learning_rate": 0.00017733807725820502,
      "loss": 0.1469,
      "step": 6131
    },
    {
      "epoch": 1.72,
      "grad_norm": 1.1336954832077026,
      "learning_rate": 0.00017731629392971245,
      "loss": 0.0285,
      "step": 6132
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.26266157627105713,
      "learning_rate": 0.00017729451060121985,
      "loss": 0.069,
      "step": 6133
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.14329896867275238,
      "learning_rate": 0.00017727272727272728,
      "loss": 0.031,
      "step": 6134
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.19686679542064667,
      "learning_rate": 0.00017725094394423465,
      "loss": 0.0306,
      "step": 6135
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.3275943994522095,
      "learning_rate": 0.00017722916061574208,
      "loss": 0.078,
      "step": 6136
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.2871575951576233,
      "learning_rate": 0.00017720737728724948,
      "loss": 0.0553,
      "step": 6137
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.4678743779659271,
      "learning_rate": 0.00017718559395875686,
      "loss": 0.0556,
      "step": 6138
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.20152518153190613,
      "learning_rate": 0.0001771638106302643,
      "loss": 0.0471,
      "step": 6139
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.3216928541660309,
      "learning_rate": 0.0001771420273017717,
      "loss": 0.0543,
      "step": 6140
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.26586490869522095,
      "learning_rate": 0.00017712024397327912,
      "loss": 0.0504,
      "step": 6141
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.08783239871263504,
      "learning_rate": 0.0001770984606447865,
      "loss": 0.0087,
      "step": 6142
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.45573002099990845,
      "learning_rate": 0.00017707667731629392,
      "loss": 0.0835,
      "step": 6143
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.14705811440944672,
      "learning_rate": 0.00017705489398780132,
      "loss": 0.032,
      "step": 6144
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.3177613914012909,
      "learning_rate": 0.00017703311065930875,
      "loss": 0.057,
      "step": 6145
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.22043389081954956,
      "learning_rate": 0.00017701132733081613,
      "loss": 0.0416,
      "step": 6146
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.3095725476741791,
      "learning_rate": 0.00017698954400232353,
      "loss": 0.0745,
      "step": 6147
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.1332399696111679,
      "learning_rate": 0.00017696776067383096,
      "loss": 0.0171,
      "step": 6148
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.24155955016613007,
      "learning_rate": 0.00017694597734533833,
      "loss": 0.0447,
      "step": 6149
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.32249051332473755,
      "learning_rate": 0.00017692419401684576,
      "loss": 0.0666,
      "step": 6150
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.23277324438095093,
      "learning_rate": 0.00017690241068835317,
      "loss": 0.0511,
      "step": 6151
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.2751820385456085,
      "learning_rate": 0.0001768806273598606,
      "loss": 0.0759,
      "step": 6152
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.19285772740840912,
      "learning_rate": 0.00017685884403136797,
      "loss": 0.0352,
      "step": 6153
    },
    {
      "epoch": 1.72,
      "grad_norm": 0.22174642980098724,
      "learning_rate": 0.0001768370607028754,
      "loss": 0.0574,
      "step": 6154
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5320876240730286,
      "learning_rate": 0.0001768152773743828,
      "loss": 0.1102,
      "step": 6155
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.6041338443756104,
      "learning_rate": 0.00017679349404589018,
      "loss": 0.0612,
      "step": 6156
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.2850000262260437,
      "learning_rate": 0.0001767717107173976,
      "loss": 0.0463,
      "step": 6157
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.2530810832977295,
      "learning_rate": 0.000176749927388905,
      "loss": 0.0552,
      "step": 6158
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.1487164944410324,
      "learning_rate": 0.00017672814406041244,
      "loss": 0.0262,
      "step": 6159
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.4359845519065857,
      "learning_rate": 0.0001767063607319198,
      "loss": 0.0727,
      "step": 6160
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.2350018173456192,
      "learning_rate": 0.00017668457740342724,
      "loss": 0.0514,
      "step": 6161
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.2985817492008209,
      "learning_rate": 0.00017666279407493464,
      "loss": 0.0952,
      "step": 6162
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.12867332994937897,
      "learning_rate": 0.00017664101074644202,
      "loss": 0.0217,
      "step": 6163
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.24060648679733276,
      "learning_rate": 0.00017661922741794945,
      "loss": 0.0309,
      "step": 6164
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.27995139360427856,
      "learning_rate": 0.00017659744408945685,
      "loss": 0.0481,
      "step": 6165
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.29977646470069885,
      "learning_rate": 0.00017657566076096428,
      "loss": 0.0865,
      "step": 6166
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.48436227440834045,
      "learning_rate": 0.00017655387743247165,
      "loss": 0.0786,
      "step": 6167
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.7075607776641846,
      "learning_rate": 0.00017653209410397908,
      "loss": 0.1109,
      "step": 6168
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.33033883571624756,
      "learning_rate": 0.00017651031077548648,
      "loss": 0.0629,
      "step": 6169
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.11654304713010788,
      "learning_rate": 0.0001764885274469939,
      "loss": 0.0182,
      "step": 6170
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.14840662479400635,
      "learning_rate": 0.0001764667441185013,
      "loss": 0.046,
      "step": 6171
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.2043030709028244,
      "learning_rate": 0.0001764449607900087,
      "loss": 0.0352,
      "step": 6172
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.2832994759082794,
      "learning_rate": 0.00017642317746151612,
      "loss": 0.035,
      "step": 6173
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.1539875864982605,
      "learning_rate": 0.0001764013941330235,
      "loss": 0.038,
      "step": 6174
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.19766707718372345,
      "learning_rate": 0.00017637961080453092,
      "loss": 0.0398,
      "step": 6175
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.21811074018478394,
      "learning_rate": 0.00017635782747603832,
      "loss": 0.0279,
      "step": 6176
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.42117807269096375,
      "learning_rate": 0.00017633604414754575,
      "loss": 0.022,
      "step": 6177
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.25202786922454834,
      "learning_rate": 0.00017631426081905313,
      "loss": 0.0425,
      "step": 6178
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5548816323280334,
      "learning_rate": 0.00017629247749056056,
      "loss": 0.1122,
      "step": 6179
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.5778957605361938,
      "learning_rate": 0.00017627069416206796,
      "loss": 0.1342,
      "step": 6180
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.19910232722759247,
      "learning_rate": 0.00017624891083357534,
      "loss": 0.0602,
      "step": 6181
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.16017203032970428,
      "learning_rate": 0.00017622712750508276,
      "loss": 0.0428,
      "step": 6182
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.15081427991390228,
      "learning_rate": 0.00017620534417659017,
      "loss": 0.0454,
      "step": 6183
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.17525148391723633,
      "learning_rate": 0.0001761835608480976,
      "loss": 0.0522,
      "step": 6184
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.15815238654613495,
      "learning_rate": 0.00017616177751960497,
      "loss": 0.0319,
      "step": 6185
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.36435067653656006,
      "learning_rate": 0.0001761399941911124,
      "loss": 0.084,
      "step": 6186
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.4236956536769867,
      "learning_rate": 0.0001761182108626198,
      "loss": 0.0566,
      "step": 6187
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.23595555126667023,
      "learning_rate": 0.0001760964275341272,
      "loss": 0.0562,
      "step": 6188
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.16258299350738525,
      "learning_rate": 0.0001760746442056346,
      "loss": 0.0375,
      "step": 6189
    },
    {
      "epoch": 1.73,
      "grad_norm": 0.28994372487068176,
      "learning_rate": 0.000176052860877142,
      "loss": 0.0798,
      "step": 6190
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.41074633598327637,
      "learning_rate": 0.00017603107754864944,
      "loss": 0.0645,
      "step": 6191
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.3693944811820984,
      "learning_rate": 0.0001760092942201568,
      "loss": 0.0831,
      "step": 6192
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.531946063041687,
      "learning_rate": 0.00017598751089166424,
      "loss": 0.0936,
      "step": 6193
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.16615745425224304,
      "learning_rate": 0.00017596572756317164,
      "loss": 0.029,
      "step": 6194
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.13164302706718445,
      "learning_rate": 0.00017594394423467904,
      "loss": 0.0286,
      "step": 6195
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.20427897572517395,
      "learning_rate": 0.00017592216090618645,
      "loss": 0.058,
      "step": 6196
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.23221664130687714,
      "learning_rate": 0.00017590037757769385,
      "loss": 0.0522,
      "step": 6197
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.24732472002506256,
      "learning_rate": 0.00017587859424920128,
      "loss": 0.0564,
      "step": 6198
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.15519480407238007,
      "learning_rate": 0.00017585681092070865,
      "loss": 0.0344,
      "step": 6199
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.17227201163768768,
      "learning_rate": 0.00017583502759221608,
      "loss": 0.024,
      "step": 6200
    },
    {
      "epoch": 1.74,
      "eval_loss": 0.07319959998130798,
      "eval_runtime": 175.3376,
      "eval_samples_per_second": 15.068,
      "eval_steps_per_second": 0.473,
      "eval_wer": 0.06570805236017453,
      "step": 6200
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.2977611720561981,
      "learning_rate": 0.00017581324426372348,
      "loss": 0.0478,
      "step": 6201
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.2108633816242218,
      "learning_rate": 0.00017579146093523089,
      "loss": 0.0461,
      "step": 6202
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.30917054414749146,
      "learning_rate": 0.0001757696776067383,
      "loss": 0.0859,
      "step": 6203
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.3321385085582733,
      "learning_rate": 0.00017574789427824572,
      "loss": 0.0593,
      "step": 6204
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.4511922299861908,
      "learning_rate": 0.00017572611094975312,
      "loss": 0.0974,
      "step": 6205
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.9343522191047668,
      "learning_rate": 0.0001757043276212605,
      "loss": 0.1496,
      "step": 6206
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.13823151588439941,
      "learning_rate": 0.00017568254429276792,
      "loss": 0.0414,
      "step": 6207
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.15743979811668396,
      "learning_rate": 0.00017566076096427533,
      "loss": 0.0278,
      "step": 6208
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.238303542137146,
      "learning_rate": 0.00017563897763578273,
      "loss": 0.0587,
      "step": 6209
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.24434766173362732,
      "learning_rate": 0.00017561719430729013,
      "loss": 0.0733,
      "step": 6210
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.21047236025333405,
      "learning_rate": 0.00017559541097879756,
      "loss": 0.0645,
      "step": 6211
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.2672101557254791,
      "learning_rate": 0.00017557362765030496,
      "loss": 0.052,
      "step": 6212
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.16587795317173004,
      "learning_rate": 0.00017555184432181236,
      "loss": 0.039,
      "step": 6213
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.2454814612865448,
      "learning_rate": 0.00017553006099331976,
      "loss": 0.0652,
      "step": 6214
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.2793317139148712,
      "learning_rate": 0.00017550827766482717,
      "loss": 0.0888,
      "step": 6215
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.19424761831760406,
      "learning_rate": 0.00017548649433633457,
      "loss": 0.0488,
      "step": 6216
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.704108476638794,
      "learning_rate": 0.00017546471100784197,
      "loss": 0.2885,
      "step": 6217
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.3888339698314667,
      "learning_rate": 0.0001754429276793494,
      "loss": 0.079,
      "step": 6218
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.1348271369934082,
      "learning_rate": 0.0001754211443508568,
      "loss": 0.0301,
      "step": 6219
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.35494863986968994,
      "learning_rate": 0.0001753993610223642,
      "loss": 0.0675,
      "step": 6220
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.14287929236888885,
      "learning_rate": 0.0001753775776938716,
      "loss": 0.0305,
      "step": 6221
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.23611097037792206,
      "learning_rate": 0.000175355794365379,
      "loss": 0.0508,
      "step": 6222
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.43190503120422363,
      "learning_rate": 0.00017533401103688644,
      "loss": 0.0392,
      "step": 6223
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.2798667848110199,
      "learning_rate": 0.0001753122277083938,
      "loss": 0.0401,
      "step": 6224
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.1295187920331955,
      "learning_rate": 0.00017529044437990124,
      "loss": 0.0547,
      "step": 6225
    },
    {
      "epoch": 1.74,
      "grad_norm": 0.19500310719013214,
      "learning_rate": 0.00017526866105140864,
      "loss": 0.0299,
      "step": 6226
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.3529583215713501,
      "learning_rate": 0.00017524687772291605,
      "loss": 0.0982,
      "step": 6227
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.16757233440876007,
      "learning_rate": 0.00017522509439442345,
      "loss": 0.0309,
      "step": 6228
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.21573765575885773,
      "learning_rate": 0.00017520331106593088,
      "loss": 0.0499,
      "step": 6229
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.4416465759277344,
      "learning_rate": 0.00017518152773743828,
      "loss": 0.0675,
      "step": 6230
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.3341890573501587,
      "learning_rate": 0.00017515974440894565,
      "loss": 0.0611,
      "step": 6231
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.16999360918998718,
      "learning_rate": 0.00017513796108045308,
      "loss": 0.0345,
      "step": 6232
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.16594165563583374,
      "learning_rate": 0.00017511617775196048,
      "loss": 0.041,
      "step": 6233
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.2644389271736145,
      "learning_rate": 0.0001750943944234679,
      "loss": 0.0398,
      "step": 6234
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.20272701978683472,
      "learning_rate": 0.0001750726110949753,
      "loss": 0.0245,
      "step": 6235
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.11907721310853958,
      "learning_rate": 0.00017505082776648272,
      "loss": 0.0243,
      "step": 6236
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.25548556447029114,
      "learning_rate": 0.00017502904443799012,
      "loss": 0.046,
      "step": 6237
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.27358394861221313,
      "learning_rate": 0.00017500726110949752,
      "loss": 0.1023,
      "step": 6238
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.11700394004583359,
      "learning_rate": 0.00017498547778100492,
      "loss": 0.0241,
      "step": 6239
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.17419838905334473,
      "learning_rate": 0.00017496369445251233,
      "loss": 0.0316,
      "step": 6240
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.3877241313457489,
      "learning_rate": 0.00017494191112401973,
      "loss": 0.052,
      "step": 6241
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.36008477210998535,
      "learning_rate": 0.00017492012779552713,
      "loss": 0.0289,
      "step": 6242
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.406962126493454,
      "learning_rate": 0.00017489834446703456,
      "loss": 0.0516,
      "step": 6243
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.15780532360076904,
      "learning_rate": 0.00017487656113854196,
      "loss": 0.0275,
      "step": 6244
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.21800470352172852,
      "learning_rate": 0.00017485477781004936,
      "loss": 0.0543,
      "step": 6245
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.19847969710826874,
      "learning_rate": 0.00017483299448155677,
      "loss": 0.0616,
      "step": 6246
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.2384398728609085,
      "learning_rate": 0.00017481121115306417,
      "loss": 0.0849,
      "step": 6247
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.2944331765174866,
      "learning_rate": 0.00017478942782457157,
      "loss": 0.0387,
      "step": 6248
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5244913101196289,
      "learning_rate": 0.00017476764449607897,
      "loss": 0.1055,
      "step": 6249
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.31484928727149963,
      "learning_rate": 0.0001747458611675864,
      "loss": 0.0632,
      "step": 6250
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.10376889258623123,
      "learning_rate": 0.0001747240778390938,
      "loss": 0.0179,
      "step": 6251
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.17432962357997894,
      "learning_rate": 0.0001747022945106012,
      "loss": 0.0229,
      "step": 6252
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.20731250941753387,
      "learning_rate": 0.0001746805111821086,
      "loss": 0.0291,
      "step": 6253
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.2491605579853058,
      "learning_rate": 0.00017465872785361604,
      "loss": 0.0383,
      "step": 6254
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.5805560946464539,
      "learning_rate": 0.0001746369445251234,
      "loss": 0.0708,
      "step": 6255
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.6682312488555908,
      "learning_rate": 0.0001746151611966308,
      "loss": 0.1529,
      "step": 6256
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.21961325407028198,
      "learning_rate": 0.00017459337786813824,
      "loss": 0.0519,
      "step": 6257
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.2854839563369751,
      "learning_rate": 0.00017457159453964564,
      "loss": 0.0562,
      "step": 6258
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.23324385285377502,
      "learning_rate": 0.00017454981121115305,
      "loss": 0.0673,
      "step": 6259
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.24105823040008545,
      "learning_rate": 0.00017452802788266045,
      "loss": 0.0466,
      "step": 6260
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.30042460560798645,
      "learning_rate": 0.00017450624455416788,
      "loss": 0.0559,
      "step": 6261
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.11648184806108475,
      "learning_rate": 0.00017448446122567525,
      "loss": 0.0164,
      "step": 6262
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.4137948751449585,
      "learning_rate": 0.00017446267789718268,
      "loss": 0.0725,
      "step": 6263
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.28610894083976746,
      "learning_rate": 0.00017444089456869008,
      "loss": 0.061,
      "step": 6264
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.35381704568862915,
      "learning_rate": 0.00017441911124019749,
      "loss": 0.0716,
      "step": 6265
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.271542489528656,
      "learning_rate": 0.0001743973279117049,
      "loss": 0.0647,
      "step": 6266
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.2568783462047577,
      "learning_rate": 0.0001743755445832123,
      "loss": 0.048,
      "step": 6267
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5600924491882324,
      "learning_rate": 0.00017435376125471972,
      "loss": 0.2028,
      "step": 6268
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.15121576189994812,
      "learning_rate": 0.0001743319779262271,
      "loss": 0.0181,
      "step": 6269
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.08150182664394379,
      "learning_rate": 0.00017431019459773452,
      "loss": 0.0129,
      "step": 6270
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.2251560091972351,
      "learning_rate": 0.00017428841126924192,
      "loss": 0.068,
      "step": 6271
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.25971850752830505,
      "learning_rate": 0.00017426662794074933,
      "loss": 0.053,
      "step": 6272
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.23623020946979523,
      "learning_rate": 0.00017424484461225673,
      "loss": 0.041,
      "step": 6273
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.2638147473335266,
      "learning_rate": 0.00017422306128376413,
      "loss": 0.0811,
      "step": 6274
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.1760140359401703,
      "learning_rate": 0.00017420127795527156,
      "loss": 0.0408,
      "step": 6275
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.24050043523311615,
      "learning_rate": 0.00017417949462677896,
      "loss": 0.0405,
      "step": 6276
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.240606427192688,
      "learning_rate": 0.00017415771129828636,
      "loss": 0.0564,
      "step": 6277
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.20925596356391907,
      "learning_rate": 0.00017413592796979377,
      "loss": 0.0391,
      "step": 6278
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.4153234660625458,
      "learning_rate": 0.0001741141446413012,
      "loss": 0.0881,
      "step": 6279
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.3031444549560547,
      "learning_rate": 0.00017409236131280857,
      "loss": 0.027,
      "step": 6280
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.2621084451675415,
      "learning_rate": 0.00017407057798431597,
      "loss": 0.0343,
      "step": 6281
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.10631132125854492,
      "learning_rate": 0.0001740487946558234,
      "loss": 0.0317,
      "step": 6282
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.21973003447055817,
      "learning_rate": 0.0001740270113273308,
      "loss": 0.0582,
      "step": 6283
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.21176151931285858,
      "learning_rate": 0.0001740052279988382,
      "loss": 0.0733,
      "step": 6284
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.18015897274017334,
      "learning_rate": 0.0001739834446703456,
      "loss": 0.0759,
      "step": 6285
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.12875689566135406,
      "learning_rate": 0.00017396166134185304,
      "loss": 0.0404,
      "step": 6286
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.22168739140033722,
      "learning_rate": 0.0001739398780133604,
      "loss": 0.072,
      "step": 6287
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.1935817450284958,
      "learning_rate": 0.00017391809468486784,
      "loss": 0.036,
      "step": 6288
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.3839894235134125,
      "learning_rate": 0.00017389631135637524,
      "loss": 0.0583,
      "step": 6289
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.19707360863685608,
      "learning_rate": 0.00017387452802788264,
      "loss": 0.0465,
      "step": 6290
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.2026541531085968,
      "learning_rate": 0.00017385274469939005,
      "loss": 0.0275,
      "step": 6291
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.3242330551147461,
      "learning_rate": 0.00017383096137089745,
      "loss": 0.0638,
      "step": 6292
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.8235808610916138,
      "learning_rate": 0.00017380917804240488,
      "loss": 0.059,
      "step": 6293
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.45722413063049316,
      "learning_rate": 0.00017378739471391225,
      "loss": 0.0846,
      "step": 6294
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.27302461862564087,
      "learning_rate": 0.00017376561138541968,
      "loss": 0.03,
      "step": 6295
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.281809538602829,
      "learning_rate": 0.00017374382805692708,
      "loss": 0.1051,
      "step": 6296
    },
    {
      "epoch": 1.76,
      "grad_norm": 0.5642741918563843,
      "learning_rate": 0.00017372204472843449,
      "loss": 0.0419,
      "step": 6297
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.2013079971075058,
      "learning_rate": 0.0001737002613999419,
      "loss": 0.0568,
      "step": 6298
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.22397299110889435,
      "learning_rate": 0.0001736784780714493,
      "loss": 0.0988,
      "step": 6299
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.2683853507041931,
      "learning_rate": 0.00017365669474295672,
      "loss": 0.041,
      "step": 6300
    },
    {
      "epoch": 1.77,
      "eval_loss": 0.07133019715547562,
      "eval_runtime": 173.6965,
      "eval_samples_per_second": 15.21,
      "eval_steps_per_second": 0.478,
      "eval_wer": 0.06727489091630305,
      "step": 6300
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.24191394448280334,
      "learning_rate": 0.0001736349114144641,
      "loss": 0.0424,
      "step": 6301
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.37448757886886597,
      "learning_rate": 0.00017361312808597152,
      "loss": 0.0476,
      "step": 6302
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.17029620707035065,
      "learning_rate": 0.00017359134475747892,
      "loss": 0.0349,
      "step": 6303
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.5344392657279968,
      "learning_rate": 0.00017356956142898635,
      "loss": 0.0767,
      "step": 6304
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.16832642257213593,
      "learning_rate": 0.00017354777810049373,
      "loss": 0.0235,
      "step": 6305
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.650528073310852,
      "learning_rate": 0.00017352599477200113,
      "loss": 0.1014,
      "step": 6306
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.32555294036865234,
      "learning_rate": 0.00017350421144350856,
      "loss": 0.0689,
      "step": 6307
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.21387609839439392,
      "learning_rate": 0.00017348242811501594,
      "loss": 0.05,
      "step": 6308
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.4577745795249939,
      "learning_rate": 0.00017346064478652336,
      "loss": 0.0506,
      "step": 6309
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.23712818324565887,
      "learning_rate": 0.00017343886145803077,
      "loss": 0.0496,
      "step": 6310
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.13634973764419556,
      "learning_rate": 0.0001734170781295382,
      "loss": 0.0256,
      "step": 6311
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.08905744552612305,
      "learning_rate": 0.00017339529480104557,
      "loss": 0.0187,
      "step": 6312
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.2614712119102478,
      "learning_rate": 0.000173373511472553,
      "loss": 0.0389,
      "step": 6313
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.26862600445747375,
      "learning_rate": 0.0001733517281440604,
      "loss": 0.0577,
      "step": 6314
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.3751564621925354,
      "learning_rate": 0.00017332994481556778,
      "loss": 0.0497,
      "step": 6315
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.14718936383724213,
      "learning_rate": 0.0001733081614870752,
      "loss": 0.0113,
      "step": 6316
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.4023666977882385,
      "learning_rate": 0.0001732863781585826,
      "loss": 0.0504,
      "step": 6317
    },
    {
      "epoch": 1.77,
      "grad_norm": 1.0851424932479858,
      "learning_rate": 0.00017326459483009004,
      "loss": 0.1202,
      "step": 6318
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.20537634193897247,
      "learning_rate": 0.0001732428115015974,
      "loss": 0.0547,
      "step": 6319
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.3212694227695465,
      "learning_rate": 0.00017322102817310484,
      "loss": 0.0652,
      "step": 6320
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.11609773337841034,
      "learning_rate": 0.00017319924484461224,
      "loss": 0.0212,
      "step": 6321
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.1882338672876358,
      "learning_rate": 0.00017317746151611967,
      "loss": 0.04,
      "step": 6322
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.2491452842950821,
      "learning_rate": 0.00017315567818762705,
      "loss": 0.0251,
      "step": 6323
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.31748613715171814,
      "learning_rate": 0.00017313389485913445,
      "loss": 0.0776,
      "step": 6324
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.2151244580745697,
      "learning_rate": 0.00017311211153064188,
      "loss": 0.0587,
      "step": 6325
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.16168682277202606,
      "learning_rate": 0.00017309032820214925,
      "loss": 0.041,
      "step": 6326
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.18635819852352142,
      "learning_rate": 0.00017306854487365668,
      "loss": 0.0281,
      "step": 6327
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.20347103476524353,
      "learning_rate": 0.00017304676154516408,
      "loss": 0.04,
      "step": 6328
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.1371418982744217,
      "learning_rate": 0.0001730249782166715,
      "loss": 0.0128,
      "step": 6329
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.3131045699119568,
      "learning_rate": 0.0001730031948881789,
      "loss": 0.0229,
      "step": 6330
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.8394246101379395,
      "learning_rate": 0.0001729814115596863,
      "loss": 0.1007,
      "step": 6331
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.47394776344299316,
      "learning_rate": 0.00017295962823119372,
      "loss": 0.0479,
      "step": 6332
    },
    {
      "epoch": 1.77,
      "grad_norm": 0.1439112275838852,
      "learning_rate": 0.0001729378449027011,
      "loss": 0.0295,
      "step": 6333
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.25625500082969666,
      "learning_rate": 0.00017291606157420852,
      "loss": 0.0665,
      "step": 6334
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.15534916520118713,
      "learning_rate": 0.00017289427824571593,
      "loss": 0.0185,
      "step": 6335
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.25612515211105347,
      "learning_rate": 0.00017287249491722335,
      "loss": 0.0734,
      "step": 6336
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.29241687059402466,
      "learning_rate": 0.00017285071158873073,
      "loss": 0.0499,
      "step": 6337
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.2396235167980194,
      "learning_rate": 0.00017282892826023816,
      "loss": 0.0512,
      "step": 6338
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.28562095761299133,
      "learning_rate": 0.00017280714493174556,
      "loss": 0.0625,
      "step": 6339
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.28712356090545654,
      "learning_rate": 0.00017278536160325294,
      "loss": 0.0323,
      "step": 6340
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.23225082457065582,
      "learning_rate": 0.00017276357827476036,
      "loss": 0.0256,
      "step": 6341
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.3458467125892639,
      "learning_rate": 0.00017274179494626777,
      "loss": 0.0354,
      "step": 6342
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.4112740457057953,
      "learning_rate": 0.0001727200116177752,
      "loss": 0.0841,
      "step": 6343
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.2094161957502365,
      "learning_rate": 0.00017269822828928257,
      "loss": 0.0402,
      "step": 6344
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.2460542917251587,
      "learning_rate": 0.00017267644496079,
      "loss": 0.036,
      "step": 6345
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.2040470838546753,
      "learning_rate": 0.0001726546616322974,
      "loss": 0.0465,
      "step": 6346
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.1531176120042801,
      "learning_rate": 0.00017263287830380483,
      "loss": 0.0266,
      "step": 6347
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.3015689551830292,
      "learning_rate": 0.0001726110949753122,
      "loss": 0.0672,
      "step": 6348
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.24129445850849152,
      "learning_rate": 0.0001725893116468196,
      "loss": 0.0496,
      "step": 6349
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.12369947135448456,
      "learning_rate": 0.00017256752831832704,
      "loss": 0.0178,
      "step": 6350
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.38087108731269836,
      "learning_rate": 0.0001725457449898344,
      "loss": 0.0519,
      "step": 6351
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.1448051631450653,
      "learning_rate": 0.00017252396166134184,
      "loss": 0.0174,
      "step": 6352
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.3955591917037964,
      "learning_rate": 0.00017250217833284924,
      "loss": 0.0717,
      "step": 6353
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.20244723558425903,
      "learning_rate": 0.00017248039500435667,
      "loss": 0.0236,
      "step": 6354
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.40654441714286804,
      "learning_rate": 0.00017245861167586405,
      "loss": 0.0417,
      "step": 6355
    },
    {
      "epoch": 1.78,
      "grad_norm": 1.042372226715088,
      "learning_rate": 0.00017243682834737145,
      "loss": 0.0664,
      "step": 6356
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.2213394045829773,
      "learning_rate": 0.00017241504501887888,
      "loss": 0.0704,
      "step": 6357
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.20989559590816498,
      "learning_rate": 0.00017239326169038625,
      "loss": 0.0428,
      "step": 6358
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.15682463347911835,
      "learning_rate": 0.00017237147836189368,
      "loss": 0.0282,
      "step": 6359
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.14673249423503876,
      "learning_rate": 0.00017234969503340108,
      "loss": 0.0297,
      "step": 6360
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.16215668618679047,
      "learning_rate": 0.00017232791170490851,
      "loss": 0.0279,
      "step": 6361
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.418365478515625,
      "learning_rate": 0.0001723061283764159,
      "loss": 0.0636,
      "step": 6362
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.2285560965538025,
      "learning_rate": 0.00017228434504792332,
      "loss": 0.0262,
      "step": 6363
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.19064275920391083,
      "learning_rate": 0.00017226256171943072,
      "loss": 0.0424,
      "step": 6364
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.2044568508863449,
      "learning_rate": 0.0001722407783909381,
      "loss": 0.0366,
      "step": 6365
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.7229405641555786,
      "learning_rate": 0.00017221899506244552,
      "loss": 0.0999,
      "step": 6366
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.20561620593070984,
      "learning_rate": 0.00017219721173395293,
      "loss": 0.0337,
      "step": 6367
    },
    {
      "epoch": 1.78,
      "grad_norm": 0.5001500248908997,
      "learning_rate": 0.00017217542840546036,
      "loss": 0.1107,
      "step": 6368
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.26249557733535767,
      "learning_rate": 0.00017215364507696773,
      "loss": 0.0384,
      "step": 6369
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.37101981043815613,
      "learning_rate": 0.00017213186174847516,
      "loss": 0.0511,
      "step": 6370
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.2924126982688904,
      "learning_rate": 0.00017211007841998256,
      "loss": 0.0832,
      "step": 6371
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.20353439450263977,
      "learning_rate": 0.00017208829509149,
      "loss": 0.0445,
      "step": 6372
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.25535163283348083,
      "learning_rate": 0.00017206651176299737,
      "loss": 0.0511,
      "step": 6373
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.1632584035396576,
      "learning_rate": 0.00017204472843450477,
      "loss": 0.0368,
      "step": 6374
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.26650023460388184,
      "learning_rate": 0.0001720229451060122,
      "loss": 0.0425,
      "step": 6375
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.34711897373199463,
      "learning_rate": 0.00017200116177751957,
      "loss": 0.0793,
      "step": 6376
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.22899606823921204,
      "learning_rate": 0.000171979378449027,
      "loss": 0.0565,
      "step": 6377
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.3707282543182373,
      "learning_rate": 0.0001719575951205344,
      "loss": 0.048,
      "step": 6378
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.14490097761154175,
      "learning_rate": 0.00017193581179204183,
      "loss": 0.031,
      "step": 6379
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.6163409948348999,
      "learning_rate": 0.0001719140284635492,
      "loss": 0.0972,
      "step": 6380
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.46074485778808594,
      "learning_rate": 0.0001718922451350566,
      "loss": 0.1291,
      "step": 6381
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.23860901594161987,
      "learning_rate": 0.00017187046180656404,
      "loss": 0.0623,
      "step": 6382
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.1362573206424713,
      "learning_rate": 0.0001718486784780714,
      "loss": 0.0295,
      "step": 6383
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.15824033319950104,
      "learning_rate": 0.00017182689514957884,
      "loss": 0.0457,
      "step": 6384
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.1981147825717926,
      "learning_rate": 0.00017180511182108624,
      "loss": 0.0626,
      "step": 6385
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.17497782409191132,
      "learning_rate": 0.00017178332849259367,
      "loss": 0.0342,
      "step": 6386
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.11862442642450333,
      "learning_rate": 0.00017176154516410105,
      "loss": 0.0334,
      "step": 6387
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.20018087327480316,
      "learning_rate": 0.00017173976183560848,
      "loss": 0.0541,
      "step": 6388
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.14889048039913177,
      "learning_rate": 0.00017171797850711588,
      "loss": 0.0339,
      "step": 6389
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.3329988718032837,
      "learning_rate": 0.00017169619517862325,
      "loss": 0.0559,
      "step": 6390
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.303560346364975,
      "learning_rate": 0.00017167441185013068,
      "loss": 0.0399,
      "step": 6391
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.25984856486320496,
      "learning_rate": 0.00017165262852163809,
      "loss": 0.0463,
      "step": 6392
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.2872844636440277,
      "learning_rate": 0.00017163084519314551,
      "loss": 0.0629,
      "step": 6393
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.26675936579704285,
      "learning_rate": 0.0001716090618646529,
      "loss": 0.0933,
      "step": 6394
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.12565836310386658,
      "learning_rate": 0.00017158727853616032,
      "loss": 0.0299,
      "step": 6395
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.3498312532901764,
      "learning_rate": 0.00017156549520766772,
      "loss": 0.0842,
      "step": 6396
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.20691229403018951,
      "learning_rate": 0.00017154371187917515,
      "loss": 0.0785,
      "step": 6397
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.18977168202400208,
      "learning_rate": 0.00017152192855068252,
      "loss": 0.0528,
      "step": 6398
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.3178117275238037,
      "learning_rate": 0.00017150014522218993,
      "loss": 0.0547,
      "step": 6399
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.16300317645072937,
      "learning_rate": 0.00017147836189369736,
      "loss": 0.034,
      "step": 6400
    },
    {
      "epoch": 1.79,
      "eval_loss": 0.06860601156949997,
      "eval_runtime": 171.8877,
      "eval_samples_per_second": 15.37,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.06469654898849662,
      "step": 6400
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.22913818061351776,
      "learning_rate": 0.00017145657856520473,
      "loss": 0.0577,
      "step": 6401
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.1790582537651062,
      "learning_rate": 0.00017143479523671216,
      "loss": 0.0345,
      "step": 6402
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.1894945353269577,
      "learning_rate": 0.00017141301190821956,
      "loss": 0.0609,
      "step": 6403
    },
    {
      "epoch": 1.79,
      "grad_norm": 0.23768627643585205,
      "learning_rate": 0.000171391228579727,
      "loss": 0.024,
      "step": 6404
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.3749476373195648,
      "learning_rate": 0.00017136944525123437,
      "loss": 0.0714,
      "step": 6405
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.2637917399406433,
      "learning_rate": 0.00017134766192274177,
      "loss": 0.038,
      "step": 6406
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.2706454396247864,
      "learning_rate": 0.0001713258785942492,
      "loss": 0.0417,
      "step": 6407
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.29709193110466003,
      "learning_rate": 0.00017130409526575657,
      "loss": 0.0604,
      "step": 6408
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.23673371970653534,
      "learning_rate": 0.000171282311937264,
      "loss": 0.0657,
      "step": 6409
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.16052189469337463,
      "learning_rate": 0.0001712605286087714,
      "loss": 0.0429,
      "step": 6410
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.17200925946235657,
      "learning_rate": 0.00017123874528027883,
      "loss": 0.0222,
      "step": 6411
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.27634724974632263,
      "learning_rate": 0.0001712169619517862,
      "loss": 0.0523,
      "step": 6412
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.31188368797302246,
      "learning_rate": 0.00017119517862329364,
      "loss": 0.0482,
      "step": 6413
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.23223602771759033,
      "learning_rate": 0.00017117339529480104,
      "loss": 0.0437,
      "step": 6414
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.17744366824626923,
      "learning_rate": 0.0001711516119663084,
      "loss": 0.0439,
      "step": 6415
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.35765716433525085,
      "learning_rate": 0.00017112982863781584,
      "loss": 0.0646,
      "step": 6416
    },
    {
      "epoch": 1.8,
      "grad_norm": 2.0704281330108643,
      "learning_rate": 0.00017110804530932324,
      "loss": 0.1821,
      "step": 6417
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.5190584063529968,
      "learning_rate": 0.00017108626198083067,
      "loss": 0.0409,
      "step": 6418
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.13513623178005219,
      "learning_rate": 0.00017106447865233805,
      "loss": 0.0408,
      "step": 6419
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.206260547041893,
      "learning_rate": 0.00017104269532384548,
      "loss": 0.0489,
      "step": 6420
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.26228487491607666,
      "learning_rate": 0.00017102091199535288,
      "loss": 0.0402,
      "step": 6421
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.2008270025253296,
      "learning_rate": 0.0001709991286668603,
      "loss": 0.028,
      "step": 6422
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.2122562974691391,
      "learning_rate": 0.00017097734533836768,
      "loss": 0.0577,
      "step": 6423
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.2463887482881546,
      "learning_rate": 0.00017095556200987509,
      "loss": 0.0336,
      "step": 6424
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.1391882598400116,
      "learning_rate": 0.00017093377868138251,
      "loss": 0.0443,
      "step": 6425
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.21869732439517975,
      "learning_rate": 0.0001709119953528899,
      "loss": 0.0431,
      "step": 6426
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.24367748200893402,
      "learning_rate": 0.00017089021202439732,
      "loss": 0.0855,
      "step": 6427
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.28852471709251404,
      "learning_rate": 0.00017086842869590472,
      "loss": 0.0975,
      "step": 6428
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.4196299612522125,
      "learning_rate": 0.00017084664536741215,
      "loss": 0.0585,
      "step": 6429
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.8929237723350525,
      "learning_rate": 0.00017082486203891952,
      "loss": 0.1622,
      "step": 6430
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.663843035697937,
      "learning_rate": 0.00017080307871042695,
      "loss": 0.1475,
      "step": 6431
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.15122275054454803,
      "learning_rate": 0.00017078129538193436,
      "loss": 0.0331,
      "step": 6432
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.29037004709243774,
      "learning_rate": 0.00017075951205344173,
      "loss": 0.0537,
      "step": 6433
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.29376423358917236,
      "learning_rate": 0.00017073772872494916,
      "loss": 0.0411,
      "step": 6434
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.20237602293491364,
      "learning_rate": 0.00017071594539645656,
      "loss": 0.0686,
      "step": 6435
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.3240792453289032,
      "learning_rate": 0.000170694162067964,
      "loss": 0.0689,
      "step": 6436
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.18035584688186646,
      "learning_rate": 0.00017067237873947137,
      "loss": 0.0324,
      "step": 6437
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.18923261761665344,
      "learning_rate": 0.0001706505954109788,
      "loss": 0.0796,
      "step": 6438
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.12391122430562973,
      "learning_rate": 0.0001706288120824862,
      "loss": 0.0303,
      "step": 6439
    },
    {
      "epoch": 1.8,
      "grad_norm": 0.18124066293239594,
      "learning_rate": 0.00017060702875399357,
      "loss": 0.034,
      "step": 6440
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.1544753611087799,
      "learning_rate": 0.000170585245425501,
      "loss": 0.0397,
      "step": 6441
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.2805081009864807,
      "learning_rate": 0.0001705634620970084,
      "loss": 0.0408,
      "step": 6442
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.26608023047447205,
      "learning_rate": 0.00017054167876851583,
      "loss": 0.0199,
      "step": 6443
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.1534755527973175,
      "learning_rate": 0.0001705198954400232,
      "loss": 0.0376,
      "step": 6444
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.21426351368427277,
      "learning_rate": 0.00017049811211153064,
      "loss": 0.0797,
      "step": 6445
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.1760125309228897,
      "learning_rate": 0.00017047632878303804,
      "loss": 0.0732,
      "step": 6446
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.13335658609867096,
      "learning_rate": 0.00017045454545454547,
      "loss": 0.0415,
      "step": 6447
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.11183810979127884,
      "learning_rate": 0.00017043276212605284,
      "loss": 0.0249,
      "step": 6448
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.21315914392471313,
      "learning_rate": 0.00017041097879756024,
      "loss": 0.0624,
      "step": 6449
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.25670167803764343,
      "learning_rate": 0.00017038919546906767,
      "loss": 0.0574,
      "step": 6450
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.41817376017570496,
      "learning_rate": 0.00017036741214057505,
      "loss": 0.0909,
      "step": 6451
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.19329579174518585,
      "learning_rate": 0.00017034562881208248,
      "loss": 0.0816,
      "step": 6452
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.32368457317352295,
      "learning_rate": 0.00017032384548358988,
      "loss": 0.0742,
      "step": 6453
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.30267515778541565,
      "learning_rate": 0.0001703020621550973,
      "loss": 0.051,
      "step": 6454
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.47593289613723755,
      "learning_rate": 0.00017028027882660468,
      "loss": 0.1341,
      "step": 6455
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.6889564394950867,
      "learning_rate": 0.0001702584954981121,
      "loss": 0.0824,
      "step": 6456
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.17142736911773682,
      "learning_rate": 0.00017023671216961952,
      "loss": 0.0433,
      "step": 6457
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.25274747610092163,
      "learning_rate": 0.0001702149288411269,
      "loss": 0.0658,
      "step": 6458
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.1879427582025528,
      "learning_rate": 0.00017019314551263432,
      "loss": 0.0406,
      "step": 6459
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.17906217277050018,
      "learning_rate": 0.00017017136218414172,
      "loss": 0.0217,
      "step": 6460
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.26080065965652466,
      "learning_rate": 0.00017014957885564915,
      "loss": 0.0587,
      "step": 6461
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.41118642687797546,
      "learning_rate": 0.00017012779552715653,
      "loss": 0.0786,
      "step": 6462
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.14842969179153442,
      "learning_rate": 0.00017010601219866395,
      "loss": 0.0303,
      "step": 6463
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.2700815796852112,
      "learning_rate": 0.00017008422887017136,
      "loss": 0.0428,
      "step": 6464
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.2262815535068512,
      "learning_rate": 0.00017006244554167873,
      "loss": 0.0274,
      "step": 6465
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.3061966598033905,
      "learning_rate": 0.00017004066221318616,
      "loss": 0.0589,
      "step": 6466
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.18029356002807617,
      "learning_rate": 0.00017001887888469356,
      "loss": 0.0315,
      "step": 6467
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.3415255546569824,
      "learning_rate": 0.000169997095556201,
      "loss": 0.0263,
      "step": 6468
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.31854140758514404,
      "learning_rate": 0.00016997531222770837,
      "loss": 0.0633,
      "step": 6469
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.18045088648796082,
      "learning_rate": 0.0001699535288992158,
      "loss": 0.045,
      "step": 6470
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.1027243509888649,
      "learning_rate": 0.0001699317455707232,
      "loss": 0.0239,
      "step": 6471
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.2418736219406128,
      "learning_rate": 0.0001699099622422306,
      "loss": 0.0369,
      "step": 6472
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.3211810886859894,
      "learning_rate": 0.000169888178913738,
      "loss": 0.0853,
      "step": 6473
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.21215221285820007,
      "learning_rate": 0.0001698663955852454,
      "loss": 0.0545,
      "step": 6474
    },
    {
      "epoch": 1.81,
      "grad_norm": 0.39385664463043213,
      "learning_rate": 0.00016984461225675283,
      "loss": 0.0493,
      "step": 6475
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.2095210701227188,
      "learning_rate": 0.0001698228289282602,
      "loss": 0.031,
      "step": 6476
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.14343570172786713,
      "learning_rate": 0.00016980104559976764,
      "loss": 0.0196,
      "step": 6477
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.502136766910553,
      "learning_rate": 0.00016977926227127504,
      "loss": 0.0649,
      "step": 6478
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.6086634993553162,
      "learning_rate": 0.00016975747894278244,
      "loss": 0.0944,
      "step": 6479
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.20688346028327942,
      "learning_rate": 0.00016973569561428984,
      "loss": 0.0194,
      "step": 6480
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.549561083316803,
      "learning_rate": 0.00016971391228579727,
      "loss": 0.0772,
      "step": 6481
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.17970632016658783,
      "learning_rate": 0.00016969212895730467,
      "loss": 0.0365,
      "step": 6482
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.34107938408851624,
      "learning_rate": 0.00016967034562881205,
      "loss": 0.1101,
      "step": 6483
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.27812737226486206,
      "learning_rate": 0.00016964856230031948,
      "loss": 0.0669,
      "step": 6484
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.33781561255455017,
      "learning_rate": 0.00016962677897182688,
      "loss": 0.0511,
      "step": 6485
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.17749854922294617,
      "learning_rate": 0.00016960499564333428,
      "loss": 0.0455,
      "step": 6486
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.21892282366752625,
      "learning_rate": 0.00016958321231484168,
      "loss": 0.0358,
      "step": 6487
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.3090212345123291,
      "learning_rate": 0.00016956142898634911,
      "loss": 0.0376,
      "step": 6488
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.22604061663150787,
      "learning_rate": 0.00016953964565785652,
      "loss": 0.0399,
      "step": 6489
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.16089566051959991,
      "learning_rate": 0.0001695178623293639,
      "loss": 0.0618,
      "step": 6490
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.5730045437812805,
      "learning_rate": 0.00016949607900087132,
      "loss": 0.0889,
      "step": 6491
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.2379682958126068,
      "learning_rate": 0.00016947429567237872,
      "loss": 0.0446,
      "step": 6492
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.7791604399681091,
      "learning_rate": 0.00016945251234388615,
      "loss": 0.1706,
      "step": 6493
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.13763347268104553,
      "learning_rate": 0.00016943072901539353,
      "loss": 0.034,
      "step": 6494
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.2538077235221863,
      "learning_rate": 0.00016940894568690096,
      "loss": 0.0784,
      "step": 6495
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.1419534683227539,
      "learning_rate": 0.00016938716235840836,
      "loss": 0.0218,
      "step": 6496
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.23932594060897827,
      "learning_rate": 0.00016936537902991576,
      "loss": 0.0694,
      "step": 6497
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.3192369043827057,
      "learning_rate": 0.00016934359570142316,
      "loss": 0.027,
      "step": 6498
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.21938841044902802,
      "learning_rate": 0.00016932181237293056,
      "loss": 0.0243,
      "step": 6499
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.20440027117729187,
      "learning_rate": 0.000169300029044438,
      "loss": 0.0604,
      "step": 6500
    },
    {
      "epoch": 1.82,
      "eval_loss": 0.0733039602637291,
      "eval_runtime": 174.3373,
      "eval_samples_per_second": 15.155,
      "eval_steps_per_second": 0.476,
      "eval_wer": 0.06582705275684252,
      "step": 6500
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.17391596734523773,
      "learning_rate": 0.00016927824571594537,
      "loss": 0.0477,
      "step": 6501
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.16282695531845093,
      "learning_rate": 0.0001692564623874528,
      "loss": 0.0356,
      "step": 6502
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.1913594752550125,
      "learning_rate": 0.0001692346790589602,
      "loss": 0.0662,
      "step": 6503
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.27743011713027954,
      "learning_rate": 0.0001692128957304676,
      "loss": 0.0362,
      "step": 6504
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.7974976897239685,
      "learning_rate": 0.000169191112401975,
      "loss": 0.0631,
      "step": 6505
    },
    {
      "epoch": 1.82,
      "grad_norm": 1.5479460954666138,
      "learning_rate": 0.00016916932907348243,
      "loss": 0.1129,
      "step": 6506
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.33479464054107666,
      "learning_rate": 0.00016914754574498983,
      "loss": 0.1257,
      "step": 6507
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.10491953045129776,
      "learning_rate": 0.0001691257624164972,
      "loss": 0.0178,
      "step": 6508
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.3997047245502472,
      "learning_rate": 0.00016910397908800464,
      "loss": 0.1309,
      "step": 6509
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.16277176141738892,
      "learning_rate": 0.00016908219575951204,
      "loss": 0.0365,
      "step": 6510
    },
    {
      "epoch": 1.82,
      "grad_norm": 0.23308448493480682,
      "learning_rate": 0.00016906041243101944,
      "loss": 0.0473,
      "step": 6511
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.1111690029501915,
      "learning_rate": 0.00016903862910252684,
      "loss": 0.0268,
      "step": 6512
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.21145637333393097,
      "learning_rate": 0.00016901684577403427,
      "loss": 0.0591,
      "step": 6513
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.15754805505275726,
      "learning_rate": 0.00016899506244554168,
      "loss": 0.0614,
      "step": 6514
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.24048581719398499,
      "learning_rate": 0.00016897327911704905,
      "loss": 0.0486,
      "step": 6515
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.2102627158164978,
      "learning_rate": 0.00016895149578855648,
      "loss": 0.0615,
      "step": 6516
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.27124741673469543,
      "learning_rate": 0.00016892971246006388,
      "loss": 0.0337,
      "step": 6517
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5926741361618042,
      "learning_rate": 0.00016890792913157128,
      "loss": 0.2521,
      "step": 6518
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.13242772221565247,
      "learning_rate": 0.00016888614580307869,
      "loss": 0.0205,
      "step": 6519
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.21981169283390045,
      "learning_rate": 0.00016886436247458611,
      "loss": 0.0565,
      "step": 6520
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.18508559465408325,
      "learning_rate": 0.00016884257914609352,
      "loss": 0.0408,
      "step": 6521
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.29937711358070374,
      "learning_rate": 0.00016882079581760092,
      "loss": 0.0776,
      "step": 6522
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.15632525086402893,
      "learning_rate": 0.00016879901248910832,
      "loss": 0.0346,
      "step": 6523
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.20035769045352936,
      "learning_rate": 0.00016877722916061572,
      "loss": 0.0457,
      "step": 6524
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.21723712980747223,
      "learning_rate": 0.00016875544583212312,
      "loss": 0.0544,
      "step": 6525
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.2413340061903,
      "learning_rate": 0.00016873366250363053,
      "loss": 0.0562,
      "step": 6526
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.13227884471416473,
      "learning_rate": 0.00016871187917513796,
      "loss": 0.0462,
      "step": 6527
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.33454641699790955,
      "learning_rate": 0.00016869009584664536,
      "loss": 0.0613,
      "step": 6528
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.2904607057571411,
      "learning_rate": 0.00016866831251815276,
      "loss": 0.0618,
      "step": 6529
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.5717559456825256,
      "learning_rate": 0.00016864652918966016,
      "loss": 0.1228,
      "step": 6530
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.2895207107067108,
      "learning_rate": 0.0001686247458611676,
      "loss": 0.0397,
      "step": 6531
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.34162095189094543,
      "learning_rate": 0.00016860296253267497,
      "loss": 0.0467,
      "step": 6532
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.15593676269054413,
      "learning_rate": 0.00016858117920418237,
      "loss": 0.0503,
      "step": 6533
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.21258358657360077,
      "learning_rate": 0.0001685593958756898,
      "loss": 0.0627,
      "step": 6534
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.1796770542860031,
      "learning_rate": 0.0001685376125471972,
      "loss": 0.0525,
      "step": 6535
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.18483319878578186,
      "learning_rate": 0.0001685158292187046,
      "loss": 0.0384,
      "step": 6536
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.184302419424057,
      "learning_rate": 0.000168494045890212,
      "loss": 0.064,
      "step": 6537
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.19718804955482483,
      "learning_rate": 0.00016847226256171943,
      "loss": 0.0632,
      "step": 6538
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.21345937252044678,
      "learning_rate": 0.0001684504792332268,
      "loss": 0.0359,
      "step": 6539
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.3054024875164032,
      "learning_rate": 0.0001684286959047342,
      "loss": 0.0778,
      "step": 6540
    },
    {
      "epoch": 1.83,
      "grad_norm": 1.3287312984466553,
      "learning_rate": 0.00016840691257624164,
      "loss": 0.0827,
      "step": 6541
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.3786461651325226,
      "learning_rate": 0.00016838512924774904,
      "loss": 0.0729,
      "step": 6542
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.6975374817848206,
      "learning_rate": 0.00016836334591925644,
      "loss": 0.1348,
      "step": 6543
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.18265311419963837,
      "learning_rate": 0.00016834156259076384,
      "loss": 0.0427,
      "step": 6544
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.33213865756988525,
      "learning_rate": 0.00016831977926227127,
      "loss": 0.0645,
      "step": 6545
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.19741114974021912,
      "learning_rate": 0.00016829799593377868,
      "loss": 0.0371,
      "step": 6546
    },
    {
      "epoch": 1.83,
      "grad_norm": 0.1364496797323227,
      "learning_rate": 0.00016827621260528608,
      "loss": 0.018,
      "step": 6547
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.1911536306142807,
      "learning_rate": 0.00016825442927679348,
      "loss": 0.0382,
      "step": 6548
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.162808358669281,
      "learning_rate": 0.00016823264594830088,
      "loss": 0.0306,
      "step": 6549
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.10670037567615509,
      "learning_rate": 0.00016821086261980828,
      "loss": 0.0172,
      "step": 6550
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.22821858525276184,
      "learning_rate": 0.00016818907929131569,
      "loss": 0.0481,
      "step": 6551
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.20765314996242523,
      "learning_rate": 0.00016816729596282311,
      "loss": 0.0389,
      "step": 6552
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.641417384147644,
      "learning_rate": 0.00016814551263433052,
      "loss": 0.0687,
      "step": 6553
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.4345496594905853,
      "learning_rate": 0.00016812372930583792,
      "loss": 0.0604,
      "step": 6554
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.46662911772727966,
      "learning_rate": 0.00016810194597734532,
      "loss": 0.0467,
      "step": 6555
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.5213155150413513,
      "learning_rate": 0.00016808016264885275,
      "loss": 0.0527,
      "step": 6556
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.23609445989131927,
      "learning_rate": 0.00016805837932036013,
      "loss": 0.0295,
      "step": 6557
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.2016972154378891,
      "learning_rate": 0.00016803659599186753,
      "loss": 0.0352,
      "step": 6558
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.12241693586111069,
      "learning_rate": 0.00016801481266337496,
      "loss": 0.0189,
      "step": 6559
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.16385166347026825,
      "learning_rate": 0.00016799302933488236,
      "loss": 0.0317,
      "step": 6560
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.24189838767051697,
      "learning_rate": 0.00016797124600638976,
      "loss": 0.054,
      "step": 6561
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.16134923696517944,
      "learning_rate": 0.00016794946267789716,
      "loss": 0.0445,
      "step": 6562
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.283645361661911,
      "learning_rate": 0.0001679276793494046,
      "loss": 0.0379,
      "step": 6563
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.1884465217590332,
      "learning_rate": 0.00016790589602091197,
      "loss": 0.0332,
      "step": 6564
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.18690775334835052,
      "learning_rate": 0.0001678841126924194,
      "loss": 0.0181,
      "step": 6565
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.38815346360206604,
      "learning_rate": 0.0001678623293639268,
      "loss": 0.1158,
      "step": 6566
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.2139965146780014,
      "learning_rate": 0.0001678405460354342,
      "loss": 0.0461,
      "step": 6567
    },
    {
      "epoch": 1.84,
      "grad_norm": 1.3213194608688354,
      "learning_rate": 0.0001678187627069416,
      "loss": 0.2133,
      "step": 6568
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.08939098566770554,
      "learning_rate": 0.000167796979378449,
      "loss": 0.0124,
      "step": 6569
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.13879212737083435,
      "learning_rate": 0.00016777519604995643,
      "loss": 0.0552,
      "step": 6570
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.2913670837879181,
      "learning_rate": 0.0001677534127214638,
      "loss": 0.0629,
      "step": 6571
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.20751796662807465,
      "learning_rate": 0.00016773162939297124,
      "loss": 0.0602,
      "step": 6572
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.24622003734111786,
      "learning_rate": 0.00016770984606447864,
      "loss": 0.0577,
      "step": 6573
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.13576647639274597,
      "learning_rate": 0.00016768806273598604,
      "loss": 0.0212,
      "step": 6574
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.24366672337055206,
      "learning_rate": 0.00016766627940749344,
      "loss": 0.0395,
      "step": 6575
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.29288437962532043,
      "learning_rate": 0.00016764449607900084,
      "loss": 0.0683,
      "step": 6576
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.27378880977630615,
      "learning_rate": 0.00016762271275050827,
      "loss": 0.0751,
      "step": 6577
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.27911943197250366,
      "learning_rate": 0.00016760092942201565,
      "loss": 0.0736,
      "step": 6578
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.2510432302951813,
      "learning_rate": 0.00016757914609352308,
      "loss": 0.0562,
      "step": 6579
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.4335974156856537,
      "learning_rate": 0.00016755736276503048,
      "loss": 0.068,
      "step": 6580
    },
    {
      "epoch": 1.84,
      "grad_norm": 1.165013313293457,
      "learning_rate": 0.0001675355794365379,
      "loss": 0.1624,
      "step": 6581
    },
    {
      "epoch": 1.84,
      "grad_norm": 0.20292383432388306,
      "learning_rate": 0.00016751379610804528,
      "loss": 0.0362,
      "step": 6582
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.17349642515182495,
      "learning_rate": 0.00016749201277955269,
      "loss": 0.0462,
      "step": 6583
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.18376044929027557,
      "learning_rate": 0.00016747022945106012,
      "loss": 0.0528,
      "step": 6584
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.20244835317134857,
      "learning_rate": 0.0001674484461225675,
      "loss": 0.0579,
      "step": 6585
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.20496150851249695,
      "learning_rate": 0.00016742666279407492,
      "loss": 0.0803,
      "step": 6586
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.28225773572921753,
      "learning_rate": 0.00016740487946558232,
      "loss": 0.0562,
      "step": 6587
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.2303321212530136,
      "learning_rate": 0.00016738309613708975,
      "loss": 0.0486,
      "step": 6588
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.1599934995174408,
      "learning_rate": 0.00016736131280859713,
      "loss": 0.0367,
      "step": 6589
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.1762702316045761,
      "learning_rate": 0.00016733952948010455,
      "loss": 0.0454,
      "step": 6590
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.20336711406707764,
      "learning_rate": 0.00016731774615161196,
      "loss": 0.0372,
      "step": 6591
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.33259639143943787,
      "learning_rate": 0.00016729596282311933,
      "loss": 0.0749,
      "step": 6592
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.38949424028396606,
      "learning_rate": 0.00016727417949462676,
      "loss": 0.0766,
      "step": 6593
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.1496589183807373,
      "learning_rate": 0.00016725239616613416,
      "loss": 0.0226,
      "step": 6594
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.4707844853401184,
      "learning_rate": 0.0001672306128376416,
      "loss": 0.0744,
      "step": 6595
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.24273647367954254,
      "learning_rate": 0.00016720882950914897,
      "loss": 0.0825,
      "step": 6596
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.374575138092041,
      "learning_rate": 0.0001671870461806564,
      "loss": 0.0551,
      "step": 6597
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.28853854537010193,
      "learning_rate": 0.0001671652628521638,
      "loss": 0.0534,
      "step": 6598
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.3397757411003113,
      "learning_rate": 0.00016714347952367117,
      "loss": 0.0596,
      "step": 6599
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.21181625127792358,
      "learning_rate": 0.0001671216961951786,
      "loss": 0.0456,
      "step": 6600
    },
    {
      "epoch": 1.85,
      "eval_loss": 0.07432481646537781,
      "eval_runtime": 171.5214,
      "eval_samples_per_second": 15.403,
      "eval_steps_per_second": 0.484,
      "eval_wer": 0.06578738595795319,
      "step": 6600
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.24666348099708557,
      "learning_rate": 0.000167099912866686,
      "loss": 0.0508,
      "step": 6601
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.22417818009853363,
      "learning_rate": 0.00016707812953819343,
      "loss": 0.0487,
      "step": 6602
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.1804734468460083,
      "learning_rate": 0.0001670563462097008,
      "loss": 0.0436,
      "step": 6603
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.9247032403945923,
      "learning_rate": 0.00016703456288120824,
      "loss": 0.0748,
      "step": 6604
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.3489789366722107,
      "learning_rate": 0.00016701277955271564,
      "loss": 0.0305,
      "step": 6605
    },
    {
      "epoch": 1.85,
      "grad_norm": 1.5258214473724365,
      "learning_rate": 0.00016699099622422307,
      "loss": 0.1579,
      "step": 6606
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.24793322384357452,
      "learning_rate": 0.00016696921289573044,
      "loss": 0.0353,
      "step": 6607
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.1291506290435791,
      "learning_rate": 0.00016694742956723785,
      "loss": 0.017,
      "step": 6608
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.17371323704719543,
      "learning_rate": 0.00016692564623874527,
      "loss": 0.0442,
      "step": 6609
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.17498570680618286,
      "learning_rate": 0.00016690386291025265,
      "loss": 0.0355,
      "step": 6610
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.34694474935531616,
      "learning_rate": 0.00016688207958176008,
      "loss": 0.0673,
      "step": 6611
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.16953285038471222,
      "learning_rate": 0.00016686029625326748,
      "loss": 0.0384,
      "step": 6612
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.16968199610710144,
      "learning_rate": 0.0001668385129247749,
      "loss": 0.0356,
      "step": 6613
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.32355165481567383,
      "learning_rate": 0.00016681672959628228,
      "loss": 0.0433,
      "step": 6614
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.17453451454639435,
      "learning_rate": 0.00016679494626778971,
      "loss": 0.0387,
      "step": 6615
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.4092734158039093,
      "learning_rate": 0.00016677316293929712,
      "loss": 0.0566,
      "step": 6616
    },
    {
      "epoch": 1.85,
      "grad_norm": 0.3983222246170044,
      "learning_rate": 0.0001667513796108045,
      "loss": 0.1734,
      "step": 6617
    },
    {
      "epoch": 1.85,
      "grad_norm": 1.7577807903289795,
      "learning_rate": 0.00016672959628231192,
      "loss": 0.1251,
      "step": 6618
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.18043166399002075,
      "learning_rate": 0.00016670781295381932,
      "loss": 0.0512,
      "step": 6619
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.3620034456253052,
      "learning_rate": 0.00016668602962532675,
      "loss": 0.0353,
      "step": 6620
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.4594195783138275,
      "learning_rate": 0.00016666424629683413,
      "loss": 0.1475,
      "step": 6621
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.22525887191295624,
      "learning_rate": 0.00016664246296834156,
      "loss": 0.0478,
      "step": 6622
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.20553061366081238,
      "learning_rate": 0.00016662067963984896,
      "loss": 0.0715,
      "step": 6623
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.1591828465461731,
      "learning_rate": 0.00016659889631135633,
      "loss": 0.0365,
      "step": 6624
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.22740253806114197,
      "learning_rate": 0.00016657711298286376,
      "loss": 0.0622,
      "step": 6625
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.2280629426240921,
      "learning_rate": 0.00016655532965437116,
      "loss": 0.0707,
      "step": 6626
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.1935161054134369,
      "learning_rate": 0.0001665335463258786,
      "loss": 0.0377,
      "step": 6627
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.1244414821267128,
      "learning_rate": 0.00016651176299738597,
      "loss": 0.0176,
      "step": 6628
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.38459229469299316,
      "learning_rate": 0.0001664899796688934,
      "loss": 0.098,
      "step": 6629
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.35983240604400635,
      "learning_rate": 0.0001664681963404008,
      "loss": 0.1145,
      "step": 6630
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.38803285360336304,
      "learning_rate": 0.00016644641301190823,
      "loss": 0.0813,
      "step": 6631
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.18869005143642426,
      "learning_rate": 0.0001664246296834156,
      "loss": 0.0347,
      "step": 6632
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.17680560052394867,
      "learning_rate": 0.000166402846354923,
      "loss": 0.0504,
      "step": 6633
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.19891606271266937,
      "learning_rate": 0.00016638106302643043,
      "loss": 0.0309,
      "step": 6634
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.18585829436779022,
      "learning_rate": 0.0001663592796979378,
      "loss": 0.0494,
      "step": 6635
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.18120209872722626,
      "learning_rate": 0.00016633749636944524,
      "loss": 0.0568,
      "step": 6636
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.21324343979358673,
      "learning_rate": 0.00016631571304095264,
      "loss": 0.0325,
      "step": 6637
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.42109718918800354,
      "learning_rate": 0.00016629392971246007,
      "loss": 0.085,
      "step": 6638
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.22587598860263824,
      "learning_rate": 0.00016627214638396744,
      "loss": 0.0433,
      "step": 6639
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.21123741567134857,
      "learning_rate": 0.00016625036305547487,
      "loss": 0.0623,
      "step": 6640
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.15069688856601715,
      "learning_rate": 0.00016622857972698228,
      "loss": 0.0296,
      "step": 6641
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.3811805248260498,
      "learning_rate": 0.00016620679639848965,
      "loss": 0.1162,
      "step": 6642
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.7260820269584656,
      "learning_rate": 0.00016618501306999708,
      "loss": 0.1792,
      "step": 6643
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.1703210473060608,
      "learning_rate": 0.00016616322974150448,
      "loss": 0.052,
      "step": 6644
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.19821369647979736,
      "learning_rate": 0.0001661414464130119,
      "loss": 0.043,
      "step": 6645
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.17324742674827576,
      "learning_rate": 0.00016611966308451929,
      "loss": 0.0378,
      "step": 6646
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.22934982180595398,
      "learning_rate": 0.00016609787975602671,
      "loss": 0.0312,
      "step": 6647
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.13896165788173676,
      "learning_rate": 0.00016607609642753412,
      "loss": 0.0392,
      "step": 6648
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.28647154569625854,
      "learning_rate": 0.0001660543130990415,
      "loss": 0.0443,
      "step": 6649
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.29896029829978943,
      "learning_rate": 0.00016603252977054892,
      "loss": 0.0639,
      "step": 6650
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.39919567108154297,
      "learning_rate": 0.00016601074644205632,
      "loss": 0.0534,
      "step": 6651
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.32643595337867737,
      "learning_rate": 0.00016598896311356375,
      "loss": 0.0472,
      "step": 6652
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.2826595902442932,
      "learning_rate": 0.00016596717978507113,
      "loss": 0.0391,
      "step": 6653
    },
    {
      "epoch": 1.86,
      "grad_norm": 0.37863099575042725,
      "learning_rate": 0.00016594539645657856,
      "loss": 0.1223,
      "step": 6654
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.7678011655807495,
      "learning_rate": 0.00016592361312808596,
      "loss": 0.0581,
      "step": 6655
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.31046339869499207,
      "learning_rate": 0.0001659018297995934,
      "loss": 0.0712,
      "step": 6656
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.20223593711853027,
      "learning_rate": 0.00016588004647110076,
      "loss": 0.0388,
      "step": 6657
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.2921501696109772,
      "learning_rate": 0.00016585826314260816,
      "loss": 0.041,
      "step": 6658
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.2233578860759735,
      "learning_rate": 0.0001658364798141156,
      "loss": 0.0437,
      "step": 6659
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.3341587781906128,
      "learning_rate": 0.00016581469648562297,
      "loss": 0.0526,
      "step": 6660
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.16194336116313934,
      "learning_rate": 0.0001657929131571304,
      "loss": 0.028,
      "step": 6661
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.17220664024353027,
      "learning_rate": 0.0001657711298286378,
      "loss": 0.0393,
      "step": 6662
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.2543860375881195,
      "learning_rate": 0.00016574934650014523,
      "loss": 0.0555,
      "step": 6663
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.3206537961959839,
      "learning_rate": 0.0001657275631716526,
      "loss": 0.0494,
      "step": 6664
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.21766908466815948,
      "learning_rate": 0.00016570577984316003,
      "loss": 0.0492,
      "step": 6665
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.17899605631828308,
      "learning_rate": 0.00016568399651466743,
      "loss": 0.0411,
      "step": 6666
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.2372642308473587,
      "learning_rate": 0.0001656622131861748,
      "loss": 0.0426,
      "step": 6667
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.600784957408905,
      "learning_rate": 0.00016564042985768224,
      "loss": 0.1725,
      "step": 6668
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.12926261126995087,
      "learning_rate": 0.00016561864652918964,
      "loss": 0.0382,
      "step": 6669
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.3163168132305145,
      "learning_rate": 0.00016559686320069707,
      "loss": 0.0499,
      "step": 6670
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.1716780662536621,
      "learning_rate": 0.00016557507987220444,
      "loss": 0.0382,
      "step": 6671
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.3277578055858612,
      "learning_rate": 0.00016555329654371187,
      "loss": 0.0384,
      "step": 6672
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.19277764856815338,
      "learning_rate": 0.00016553151321521928,
      "loss": 0.0508,
      "step": 6673
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.20026928186416626,
      "learning_rate": 0.00016550972988672665,
      "loss": 0.0353,
      "step": 6674
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.28550201654434204,
      "learning_rate": 0.00016548794655823408,
      "loss": 0.1087,
      "step": 6675
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.3011917769908905,
      "learning_rate": 0.00016546616322974148,
      "loss": 0.0697,
      "step": 6676
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.23022672533988953,
      "learning_rate": 0.0001654443799012489,
      "loss": 0.052,
      "step": 6677
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.18159465491771698,
      "learning_rate": 0.00016542259657275629,
      "loss": 0.0726,
      "step": 6678
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.258624404668808,
      "learning_rate": 0.00016540081324426371,
      "loss": 0.0373,
      "step": 6679
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.3997507393360138,
      "learning_rate": 0.00016537902991577112,
      "loss": 0.0404,
      "step": 6680
    },
    {
      "epoch": 1.87,
      "grad_norm": 1.008553147315979,
      "learning_rate": 0.00016535724658727855,
      "loss": 0.1442,
      "step": 6681
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.16105082631111145,
      "learning_rate": 0.00016533546325878592,
      "loss": 0.0417,
      "step": 6682
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.34352630376815796,
      "learning_rate": 0.00016531367993029332,
      "loss": 0.069,
      "step": 6683
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.23878687620162964,
      "learning_rate": 0.00016529189660180075,
      "loss": 0.0245,
      "step": 6684
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.17138659954071045,
      "learning_rate": 0.00016527011327330813,
      "loss": 0.0453,
      "step": 6685
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.26980364322662354,
      "learning_rate": 0.00016524832994481556,
      "loss": 0.0711,
      "step": 6686
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.23075547814369202,
      "learning_rate": 0.00016522654661632296,
      "loss": 0.0371,
      "step": 6687
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.47936391830444336,
      "learning_rate": 0.0001652047632878304,
      "loss": 0.0469,
      "step": 6688
    },
    {
      "epoch": 1.87,
      "grad_norm": 0.1424931436777115,
      "learning_rate": 0.00016518297995933776,
      "loss": 0.0305,
      "step": 6689
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.16501875221729279,
      "learning_rate": 0.0001651611966308452,
      "loss": 0.0372,
      "step": 6690
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.20234839618206024,
      "learning_rate": 0.0001651394133023526,
      "loss": 0.0569,
      "step": 6691
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.41374650597572327,
      "learning_rate": 0.00016511762997385997,
      "loss": 0.0725,
      "step": 6692
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.3841795027256012,
      "learning_rate": 0.0001650958466453674,
      "loss": 0.0742,
      "step": 6693
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.13655181229114532,
      "learning_rate": 0.0001650740633168748,
      "loss": 0.0237,
      "step": 6694
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.2342069149017334,
      "learning_rate": 0.00016505227998838223,
      "loss": 0.0665,
      "step": 6695
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.2701352834701538,
      "learning_rate": 0.0001650304966598896,
      "loss": 0.0749,
      "step": 6696
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.18968188762664795,
      "learning_rate": 0.00016500871333139703,
      "loss": 0.0431,
      "step": 6697
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.11114495247602463,
      "learning_rate": 0.00016498693000290443,
      "loss": 0.0322,
      "step": 6698
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.20424436032772064,
      "learning_rate": 0.00016496514667441186,
      "loss": 0.0326,
      "step": 6699
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.2088436335325241,
      "learning_rate": 0.00016494336334591924,
      "loss": 0.0431,
      "step": 6700
    },
    {
      "epoch": 1.88,
      "eval_loss": 0.07598947733640671,
      "eval_runtime": 174.1842,
      "eval_samples_per_second": 15.168,
      "eval_steps_per_second": 0.477,
      "eval_wer": 0.06366521221737406,
      "step": 6700
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.21441082656383514,
      "learning_rate": 0.00016492158001742664,
      "loss": 0.0755,
      "step": 6701
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5256625413894653,
      "learning_rate": 0.00016489979668893407,
      "loss": 0.0721,
      "step": 6702
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.30260542035102844,
      "learning_rate": 0.00016487801336044145,
      "loss": 0.0706,
      "step": 6703
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.3191526532173157,
      "learning_rate": 0.00016485623003194887,
      "loss": 0.048,
      "step": 6704
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.8833509087562561,
      "learning_rate": 0.00016483444670345628,
      "loss": 0.1545,
      "step": 6705
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.5055583119392395,
      "learning_rate": 0.0001648126633749637,
      "loss": 0.0557,
      "step": 6706
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.3238571286201477,
      "learning_rate": 0.00016479088004647108,
      "loss": 0.0469,
      "step": 6707
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.4356142580509186,
      "learning_rate": 0.00016476909671797848,
      "loss": 0.0405,
      "step": 6708
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.2172975391149521,
      "learning_rate": 0.0001647473133894859,
      "loss": 0.0418,
      "step": 6709
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.09972970187664032,
      "learning_rate": 0.00016472553006099329,
      "loss": 0.0217,
      "step": 6710
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.24915120005607605,
      "learning_rate": 0.00016470374673250072,
      "loss": 0.0726,
      "step": 6711
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.1290310174226761,
      "learning_rate": 0.00016468196340400812,
      "loss": 0.0652,
      "step": 6712
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.155546173453331,
      "learning_rate": 0.00016466018007551555,
      "loss": 0.0293,
      "step": 6713
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.17270813882350922,
      "learning_rate": 0.00016463839674702292,
      "loss": 0.0413,
      "step": 6714
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.27804145216941833,
      "learning_rate": 0.00016461661341853035,
      "loss": 0.0696,
      "step": 6715
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.17089124023914337,
      "learning_rate": 0.00016459483009003775,
      "loss": 0.0328,
      "step": 6716
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.3220447301864624,
      "learning_rate": 0.00016457304676154513,
      "loss": 0.066,
      "step": 6717
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.3965680003166199,
      "learning_rate": 0.00016455126343305256,
      "loss": 0.0434,
      "step": 6718
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.21009878814220428,
      "learning_rate": 0.00016452948010455996,
      "loss": 0.0575,
      "step": 6719
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.17656175792217255,
      "learning_rate": 0.0001645076967760674,
      "loss": 0.0491,
      "step": 6720
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.2242128700017929,
      "learning_rate": 0.00016448591344757476,
      "loss": 0.0641,
      "step": 6721
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.18057258427143097,
      "learning_rate": 0.0001644641301190822,
      "loss": 0.0437,
      "step": 6722
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.25673043727874756,
      "learning_rate": 0.0001644423467905896,
      "loss": 0.0608,
      "step": 6723
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.2849655747413635,
      "learning_rate": 0.00016442056346209702,
      "loss": 0.063,
      "step": 6724
    },
    {
      "epoch": 1.88,
      "grad_norm": 0.1652432680130005,
      "learning_rate": 0.0001643987801336044,
      "loss": 0.0496,
      "step": 6725
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.13448800146579742,
      "learning_rate": 0.0001643769968051118,
      "loss": 0.031,
      "step": 6726
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.1586761474609375,
      "learning_rate": 0.00016435521347661923,
      "loss": 0.0325,
      "step": 6727
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.11749052256345749,
      "learning_rate": 0.0001643334301481266,
      "loss": 0.0225,
      "step": 6728
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.2052796483039856,
      "learning_rate": 0.00016431164681963403,
      "loss": 0.0245,
      "step": 6729
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5499417185783386,
      "learning_rate": 0.00016428986349114144,
      "loss": 0.1242,
      "step": 6730
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.5995049476623535,
      "learning_rate": 0.00016426808016264886,
      "loss": 0.0588,
      "step": 6731
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.2774774730205536,
      "learning_rate": 0.00016424629683415624,
      "loss": 0.0629,
      "step": 6732
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.18794883787631989,
      "learning_rate": 0.00016422451350566364,
      "loss": 0.0711,
      "step": 6733
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.15218007564544678,
      "learning_rate": 0.00016420273017717107,
      "loss": 0.0331,
      "step": 6734
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.1715843230485916,
      "learning_rate": 0.00016418094684867845,
      "loss": 0.0265,
      "step": 6735
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.13776010274887085,
      "learning_rate": 0.00016415916352018587,
      "loss": 0.0271,
      "step": 6736
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.20012061297893524,
      "learning_rate": 0.00016413738019169328,
      "loss": 0.0505,
      "step": 6737
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.20654922723770142,
      "learning_rate": 0.0001641155968632007,
      "loss": 0.0319,
      "step": 6738
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.17454838752746582,
      "learning_rate": 0.00016409381353470808,
      "loss": 0.0313,
      "step": 6739
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.26678088307380676,
      "learning_rate": 0.0001640720302062155,
      "loss": 0.0632,
      "step": 6740
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.440930038690567,
      "learning_rate": 0.0001640502468777229,
      "loss": 0.0788,
      "step": 6741
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.3625086843967438,
      "learning_rate": 0.0001640284635492303,
      "loss": 0.0843,
      "step": 6742
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.7133222818374634,
      "learning_rate": 0.00016400668022073772,
      "loss": 0.1015,
      "step": 6743
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.236456960439682,
      "learning_rate": 0.00016398489689224512,
      "loss": 0.0611,
      "step": 6744
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.1857679784297943,
      "learning_rate": 0.00016396311356375255,
      "loss": 0.0508,
      "step": 6745
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.24687421321868896,
      "learning_rate": 0.00016394133023525992,
      "loss": 0.0542,
      "step": 6746
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.22837156057357788,
      "learning_rate": 0.00016391954690676735,
      "loss": 0.037,
      "step": 6747
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.20541559159755707,
      "learning_rate": 0.00016389776357827475,
      "loss": 0.034,
      "step": 6748
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.2508552372455597,
      "learning_rate": 0.00016387598024978216,
      "loss": 0.0365,
      "step": 6749
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.3046658933162689,
      "learning_rate": 0.00016385419692128956,
      "loss": 0.0568,
      "step": 6750
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.2650231719017029,
      "learning_rate": 0.00016383241359279696,
      "loss": 0.05,
      "step": 6751
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.20130477845668793,
      "learning_rate": 0.0001638106302643044,
      "loss": 0.0377,
      "step": 6752
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.16609175503253937,
      "learning_rate": 0.00016378884693581176,
      "loss": 0.0323,
      "step": 6753
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.2120988816022873,
      "learning_rate": 0.0001637670636073192,
      "loss": 0.0339,
      "step": 6754
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.3759918212890625,
      "learning_rate": 0.0001637452802788266,
      "loss": 0.0731,
      "step": 6755
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.49425193667411804,
      "learning_rate": 0.000163723496950334,
      "loss": 0.1152,
      "step": 6756
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.2948307394981384,
      "learning_rate": 0.0001637017136218414,
      "loss": 0.0961,
      "step": 6757
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.16693682968616486,
      "learning_rate": 0.0001636799302933488,
      "loss": 0.0291,
      "step": 6758
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.18622033298015594,
      "learning_rate": 0.00016365814696485623,
      "loss": 0.0314,
      "step": 6759
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.3116857409477234,
      "learning_rate": 0.0001636363636363636,
      "loss": 0.0524,
      "step": 6760
    },
    {
      "epoch": 1.89,
      "grad_norm": 0.20368655025959015,
      "learning_rate": 0.00016361458030787103,
      "loss": 0.0429,
      "step": 6761
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.18102146685123444,
      "learning_rate": 0.00016359279697937844,
      "loss": 0.042,
      "step": 6762
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.16305352747440338,
      "learning_rate": 0.00016357101365088587,
      "loss": 0.0181,
      "step": 6763
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.16688118875026703,
      "learning_rate": 0.00016354923032239324,
      "loss": 0.0215,
      "step": 6764
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.14099150896072388,
      "learning_rate": 0.00016352744699390067,
      "loss": 0.0277,
      "step": 6765
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.20185229182243347,
      "learning_rate": 0.00016350566366540807,
      "loss": 0.0259,
      "step": 6766
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.2198997139930725,
      "learning_rate": 0.00016348388033691545,
      "loss": 0.0442,
      "step": 6767
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.8700532913208008,
      "learning_rate": 0.00016346209700842288,
      "loss": 0.0578,
      "step": 6768
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.11840204894542694,
      "learning_rate": 0.00016344031367993028,
      "loss": 0.0226,
      "step": 6769
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.09103048592805862,
      "learning_rate": 0.0001634185303514377,
      "loss": 0.0141,
      "step": 6770
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.13760033249855042,
      "learning_rate": 0.00016339674702294508,
      "loss": 0.0244,
      "step": 6771
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.4607090651988983,
      "learning_rate": 0.0001633749636944525,
      "loss": 0.031,
      "step": 6772
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.22872377932071686,
      "learning_rate": 0.0001633531803659599,
      "loss": 0.0439,
      "step": 6773
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.23943135142326355,
      "learning_rate": 0.00016333139703746731,
      "loss": 0.0379,
      "step": 6774
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.2626076638698578,
      "learning_rate": 0.00016330961370897472,
      "loss": 0.0749,
      "step": 6775
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.1617470383644104,
      "learning_rate": 0.00016328783038048212,
      "loss": 0.0299,
      "step": 6776
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.22079157829284668,
      "learning_rate": 0.00016326604705198955,
      "loss": 0.024,
      "step": 6777
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.2379438281059265,
      "learning_rate": 0.00016324426372349692,
      "loss": 0.0765,
      "step": 6778
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.2823716998100281,
      "learning_rate": 0.00016322248039500435,
      "loss": 0.0372,
      "step": 6779
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.2015015184879303,
      "learning_rate": 0.00016320069706651175,
      "loss": 0.0421,
      "step": 6780
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.43279266357421875,
      "learning_rate": 0.00016317891373801916,
      "loss": 0.072,
      "step": 6781
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.24880504608154297,
      "learning_rate": 0.00016315713040952656,
      "loss": 0.0511,
      "step": 6782
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.16482633352279663,
      "learning_rate": 0.00016313534708103396,
      "loss": 0.0346,
      "step": 6783
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.2940153479576111,
      "learning_rate": 0.0001631135637525414,
      "loss": 0.0587,
      "step": 6784
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.21769632399082184,
      "learning_rate": 0.00016309178042404876,
      "loss": 0.0193,
      "step": 6785
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.1300942301750183,
      "learning_rate": 0.0001630699970955562,
      "loss": 0.0451,
      "step": 6786
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.18647372722625732,
      "learning_rate": 0.0001630482137670636,
      "loss": 0.0231,
      "step": 6787
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.36736148595809937,
      "learning_rate": 0.000163026430438571,
      "loss": 0.0513,
      "step": 6788
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.13866297900676727,
      "learning_rate": 0.0001630046471100784,
      "loss": 0.0156,
      "step": 6789
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.30762597918510437,
      "learning_rate": 0.00016298286378158583,
      "loss": 0.0518,
      "step": 6790
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.15738971531391144,
      "learning_rate": 0.00016296108045309323,
      "loss": 0.0128,
      "step": 6791
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.49639996886253357,
      "learning_rate": 0.0001629392971246006,
      "loss": 0.0519,
      "step": 6792
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.6666328310966492,
      "learning_rate": 0.00016291751379610803,
      "loss": 0.0368,
      "step": 6793
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.2699666917324066,
      "learning_rate": 0.00016289573046761544,
      "loss": 0.0709,
      "step": 6794
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.14759406447410583,
      "learning_rate": 0.00016287394713912284,
      "loss": 0.0294,
      "step": 6795
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.13740889728069305,
      "learning_rate": 0.00016285216381063024,
      "loss": 0.0309,
      "step": 6796
    },
    {
      "epoch": 1.9,
      "grad_norm": 0.3989098370075226,
      "learning_rate": 0.00016283038048213767,
      "loss": 0.0599,
      "step": 6797
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.11828707158565521,
      "learning_rate": 0.00016280859715364507,
      "loss": 0.0141,
      "step": 6798
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.4792137145996094,
      "learning_rate": 0.00016278681382515247,
      "loss": 0.0261,
      "step": 6799
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.44591665267944336,
      "learning_rate": 0.00016276503049665988,
      "loss": 0.1149,
      "step": 6800
    },
    {
      "epoch": 1.91,
      "eval_loss": 0.07565054297447205,
      "eval_runtime": 172.1158,
      "eval_samples_per_second": 15.35,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.062038873462911544,
      "step": 6800
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.2504941523075104,
      "learning_rate": 0.00016274324716816728,
      "loss": 0.0309,
      "step": 6801
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5031028985977173,
      "learning_rate": 0.00016272146383967468,
      "loss": 0.0594,
      "step": 6802
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.19283291697502136,
      "learning_rate": 0.00016269968051118208,
      "loss": 0.0462,
      "step": 6803
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.3113298714160919,
      "learning_rate": 0.0001626778971826895,
      "loss": 0.0372,
      "step": 6804
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.21840393543243408,
      "learning_rate": 0.0001626561138541969,
      "loss": 0.0164,
      "step": 6805
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.5104659199714661,
      "learning_rate": 0.00016263433052570432,
      "loss": 0.0975,
      "step": 6806
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.15282802283763885,
      "learning_rate": 0.00016261254719721172,
      "loss": 0.0397,
      "step": 6807
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.15992902219295502,
      "learning_rate": 0.00016259076386871912,
      "loss": 0.0248,
      "step": 6808
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.20051613450050354,
      "learning_rate": 0.00016256898054022652,
      "loss": 0.0374,
      "step": 6809
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.13378193974494934,
      "learning_rate": 0.00016254719721173392,
      "loss": 0.0204,
      "step": 6810
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.20300857722759247,
      "learning_rate": 0.00016252541388324135,
      "loss": 0.0386,
      "step": 6811
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.46497082710266113,
      "learning_rate": 0.00016250363055474875,
      "loss": 0.0468,
      "step": 6812
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.3369189500808716,
      "learning_rate": 0.00016248184722625616,
      "loss": 0.0381,
      "step": 6813
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.3206583857536316,
      "learning_rate": 0.00016246006389776356,
      "loss": 0.0405,
      "step": 6814
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.44929638504981995,
      "learning_rate": 0.000162438280569271,
      "loss": 0.0796,
      "step": 6815
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.24379804730415344,
      "learning_rate": 0.00016241649724077836,
      "loss": 0.0755,
      "step": 6816
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.19669808447360992,
      "learning_rate": 0.00016239471391228576,
      "loss": 0.0309,
      "step": 6817
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.43928462266921997,
      "learning_rate": 0.0001623729305837932,
      "loss": 0.0556,
      "step": 6818
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.20093640685081482,
      "learning_rate": 0.0001623511472553006,
      "loss": 0.0529,
      "step": 6819
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.20916816592216492,
      "learning_rate": 0.000162329363926808,
      "loss": 0.0463,
      "step": 6820
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.31233757734298706,
      "learning_rate": 0.0001623075805983154,
      "loss": 0.0633,
      "step": 6821
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.16022206842899323,
      "learning_rate": 0.00016228579726982283,
      "loss": 0.0366,
      "step": 6822
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.19389091432094574,
      "learning_rate": 0.00016226401394133023,
      "loss": 0.0578,
      "step": 6823
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.13126099109649658,
      "learning_rate": 0.00016224223061283763,
      "loss": 0.0196,
      "step": 6824
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.24089407920837402,
      "learning_rate": 0.00016222044728434503,
      "loss": 0.0328,
      "step": 6825
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.1180867925286293,
      "learning_rate": 0.00016219866395585244,
      "loss": 0.0179,
      "step": 6826
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.17904780805110931,
      "learning_rate": 0.00016217688062735984,
      "loss": 0.0365,
      "step": 6827
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.27340298891067505,
      "learning_rate": 0.00016215509729886724,
      "loss": 0.0722,
      "step": 6828
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.2445221096277237,
      "learning_rate": 0.00016213331397037467,
      "loss": 0.0319,
      "step": 6829
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.34675052762031555,
      "learning_rate": 0.00016211153064188207,
      "loss": 0.0383,
      "step": 6830
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.30941155552864075,
      "learning_rate": 0.00016208974731338947,
      "loss": 0.0325,
      "step": 6831
    },
    {
      "epoch": 1.91,
      "grad_norm": 0.6433209180831909,
      "learning_rate": 0.00016206796398489688,
      "loss": 0.0746,
      "step": 6832
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.23019888997077942,
      "learning_rate": 0.0001620461806564043,
      "loss": 0.0549,
      "step": 6833
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.340969055891037,
      "learning_rate": 0.00016202439732791168,
      "loss": 0.0621,
      "step": 6834
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.13884280622005463,
      "learning_rate": 0.00016200261399941908,
      "loss": 0.0377,
      "step": 6835
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.3417816758155823,
      "learning_rate": 0.0001619808306709265,
      "loss": 0.0366,
      "step": 6836
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.4430238604545593,
      "learning_rate": 0.00016195904734243391,
      "loss": 0.0425,
      "step": 6837
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.372357577085495,
      "learning_rate": 0.00016193726401394132,
      "loss": 0.0807,
      "step": 6838
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.2951746881008148,
      "learning_rate": 0.00016191548068544872,
      "loss": 0.0482,
      "step": 6839
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.2362084984779358,
      "learning_rate": 0.00016189369735695615,
      "loss": 0.0489,
      "step": 6840
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.23205584287643433,
      "learning_rate": 0.00016187191402846352,
      "loss": 0.041,
      "step": 6841
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.2298673838376999,
      "learning_rate": 0.00016185013069997092,
      "loss": 0.015,
      "step": 6842
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.6214580535888672,
      "learning_rate": 0.00016182834737147835,
      "loss": 0.0527,
      "step": 6843
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.2528260052204132,
      "learning_rate": 0.00016180656404298575,
      "loss": 0.0711,
      "step": 6844
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.11124154925346375,
      "learning_rate": 0.00016178478071449316,
      "loss": 0.0221,
      "step": 6845
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.2966768741607666,
      "learning_rate": 0.00016176299738600056,
      "loss": 0.0574,
      "step": 6846
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.1070089340209961,
      "learning_rate": 0.000161741214057508,
      "loss": 0.0195,
      "step": 6847
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.10968437045812607,
      "learning_rate": 0.00016171943072901536,
      "loss": 0.0328,
      "step": 6848
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.24677620828151703,
      "learning_rate": 0.0001616976474005228,
      "loss": 0.0573,
      "step": 6849
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.13397108018398285,
      "learning_rate": 0.0001616758640720302,
      "loss": 0.0202,
      "step": 6850
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.19729240238666534,
      "learning_rate": 0.0001616540807435376,
      "loss": 0.0298,
      "step": 6851
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.24629157781600952,
      "learning_rate": 0.000161632297415045,
      "loss": 0.0715,
      "step": 6852
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.22857080399990082,
      "learning_rate": 0.0001616105140865524,
      "loss": 0.0388,
      "step": 6853
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.3471986949443817,
      "learning_rate": 0.00016158873075805983,
      "loss": 0.1401,
      "step": 6854
    },
    {
      "epoch": 1.92,
      "grad_norm": 1.2495702505111694,
      "learning_rate": 0.0001615669474295672,
      "loss": 0.241,
      "step": 6855
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.42462632060050964,
      "learning_rate": 0.00016154516410107463,
      "loss": 0.0784,
      "step": 6856
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.1479140818119049,
      "learning_rate": 0.00016152338077258204,
      "loss": 0.0381,
      "step": 6857
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.17588107287883759,
      "learning_rate": 0.00016150159744408946,
      "loss": 0.0494,
      "step": 6858
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.16733500361442566,
      "learning_rate": 0.00016147981411559684,
      "loss": 0.0531,
      "step": 6859
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.1798894852399826,
      "learning_rate": 0.00016145803078710424,
      "loss": 0.0363,
      "step": 6860
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.15268926322460175,
      "learning_rate": 0.00016143624745861167,
      "loss": 0.0353,
      "step": 6861
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.3198796212673187,
      "learning_rate": 0.00016141446413011905,
      "loss": 0.1192,
      "step": 6862
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.1449422985315323,
      "learning_rate": 0.00016139268080162647,
      "loss": 0.0181,
      "step": 6863
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.13307394087314606,
      "learning_rate": 0.00016137089747313388,
      "loss": 0.028,
      "step": 6864
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.21902111172676086,
      "learning_rate": 0.0001613491141446413,
      "loss": 0.069,
      "step": 6865
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.5056675672531128,
      "learning_rate": 0.00016132733081614868,
      "loss": 0.0846,
      "step": 6866
    },
    {
      "epoch": 1.92,
      "grad_norm": 0.3334839642047882,
      "learning_rate": 0.00016130554748765608,
      "loss": 0.0727,
      "step": 6867
    },
    {
      "epoch": 1.92,
      "grad_norm": 1.0392913818359375,
      "learning_rate": 0.0001612837641591635,
      "loss": 0.09,
      "step": 6868
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.17556510865688324,
      "learning_rate": 0.0001612619808306709,
      "loss": 0.0469,
      "step": 6869
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.2089056670665741,
      "learning_rate": 0.00016124019750217832,
      "loss": 0.04,
      "step": 6870
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.12025584280490875,
      "learning_rate": 0.00016121841417368572,
      "loss": 0.0269,
      "step": 6871
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.16685129702091217,
      "learning_rate": 0.00016119663084519315,
      "loss": 0.0371,
      "step": 6872
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.2859525680541992,
      "learning_rate": 0.00016117484751670052,
      "loss": 0.0661,
      "step": 6873
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.23299400508403778,
      "learning_rate": 0.00016115306418820795,
      "loss": 0.0555,
      "step": 6874
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.1255735605955124,
      "learning_rate": 0.00016113128085971535,
      "loss": 0.0379,
      "step": 6875
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5813182592391968,
      "learning_rate": 0.00016110949753122276,
      "loss": 0.0222,
      "step": 6876
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.1494109332561493,
      "learning_rate": 0.00016108771420273016,
      "loss": 0.0263,
      "step": 6877
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.38651153445243835,
      "learning_rate": 0.00016106593087423756,
      "loss": 0.0603,
      "step": 6878
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.42375388741493225,
      "learning_rate": 0.000161044147545745,
      "loss": 0.0682,
      "step": 6879
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.38904500007629395,
      "learning_rate": 0.00016102236421725236,
      "loss": 0.1243,
      "step": 6880
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.3155093491077423,
      "learning_rate": 0.0001610005808887598,
      "loss": 0.08,
      "step": 6881
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.1912916749715805,
      "learning_rate": 0.0001609787975602672,
      "loss": 0.0428,
      "step": 6882
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.21058908104896545,
      "learning_rate": 0.00016095701423177462,
      "loss": 0.0723,
      "step": 6883
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.19848203659057617,
      "learning_rate": 0.000160935230903282,
      "loss": 0.0704,
      "step": 6884
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.3878746032714844,
      "learning_rate": 0.0001609134475747894,
      "loss": 0.041,
      "step": 6885
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.2377595603466034,
      "learning_rate": 0.00016089166424629683,
      "loss": 0.0563,
      "step": 6886
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.12204562872648239,
      "learning_rate": 0.0001608698809178042,
      "loss": 0.0248,
      "step": 6887
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.11428353190422058,
      "learning_rate": 0.00016084809758931163,
      "loss": 0.018,
      "step": 6888
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.24765905737876892,
      "learning_rate": 0.00016082631426081904,
      "loss": 0.0446,
      "step": 6889
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.17806993424892426,
      "learning_rate": 0.00016080453093232647,
      "loss": 0.0252,
      "step": 6890
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.3362022340297699,
      "learning_rate": 0.00016078274760383384,
      "loss": 0.048,
      "step": 6891
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.17588061094284058,
      "learning_rate": 0.00016076096427534124,
      "loss": 0.0247,
      "step": 6892
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5155193209648132,
      "learning_rate": 0.00016073918094684867,
      "loss": 0.0698,
      "step": 6893
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.23178903758525848,
      "learning_rate": 0.00016071739761835605,
      "loss": 0.0476,
      "step": 6894
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.30669504404067993,
      "learning_rate": 0.00016069561428986348,
      "loss": 0.0783,
      "step": 6895
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.12501049041748047,
      "learning_rate": 0.00016067383096137088,
      "loss": 0.0239,
      "step": 6896
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.3909231424331665,
      "learning_rate": 0.0001606520476328783,
      "loss": 0.107,
      "step": 6897
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.4504085183143616,
      "learning_rate": 0.00016063026430438568,
      "loss": 0.0915,
      "step": 6898
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.23484553396701813,
      "learning_rate": 0.0001606084809758931,
      "loss": 0.0411,
      "step": 6899
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.13478291034698486,
      "learning_rate": 0.0001605866976474005,
      "loss": 0.0431,
      "step": 6900
    },
    {
      "epoch": 1.93,
      "eval_loss": 0.07274061441421509,
      "eval_runtime": 173.3765,
      "eval_samples_per_second": 15.239,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.06184053946846489,
      "step": 6900
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.4511525332927704,
      "learning_rate": 0.0001605649143189079,
      "loss": 0.04,
      "step": 6901
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.5222220420837402,
      "learning_rate": 0.00016054313099041532,
      "loss": 0.0833,
      "step": 6902
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.30413904786109924,
      "learning_rate": 0.00016052134766192272,
      "loss": 0.0666,
      "step": 6903
    },
    {
      "epoch": 1.93,
      "grad_norm": 0.2535914182662964,
      "learning_rate": 0.00016049956433343015,
      "loss": 0.0416,
      "step": 6904
    },
    {
      "epoch": 1.94,
      "grad_norm": 1.0024354457855225,
      "learning_rate": 0.00016047778100493752,
      "loss": 0.0716,
      "step": 6905
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.6685073971748352,
      "learning_rate": 0.00016045599767644495,
      "loss": 0.1541,
      "step": 6906
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.34075668454170227,
      "learning_rate": 0.00016043421434795235,
      "loss": 0.0367,
      "step": 6907
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.24654273688793182,
      "learning_rate": 0.00016041243101945978,
      "loss": 0.0375,
      "step": 6908
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.18072471022605896,
      "learning_rate": 0.00016039064769096716,
      "loss": 0.0314,
      "step": 6909
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.248007670044899,
      "learning_rate": 0.00016036886436247456,
      "loss": 0.1055,
      "step": 6910
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.2742524743080139,
      "learning_rate": 0.000160347081033982,
      "loss": 0.0286,
      "step": 6911
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.18496721982955933,
      "learning_rate": 0.00016032529770548936,
      "loss": 0.0473,
      "step": 6912
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.2154768407344818,
      "learning_rate": 0.0001603035143769968,
      "loss": 0.0461,
      "step": 6913
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.12252764403820038,
      "learning_rate": 0.0001602817310485042,
      "loss": 0.0244,
      "step": 6914
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.191852405667305,
      "learning_rate": 0.00016025994772001162,
      "loss": 0.0665,
      "step": 6915
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.49560603499412537,
      "learning_rate": 0.000160238164391519,
      "loss": 0.0977,
      "step": 6916
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.36509278416633606,
      "learning_rate": 0.0001602163810630264,
      "loss": 0.0696,
      "step": 6917
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.5643954873085022,
      "learning_rate": 0.00016019459773453383,
      "loss": 0.1184,
      "step": 6918
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.15585720539093018,
      "learning_rate": 0.0001601728144060412,
      "loss": 0.0409,
      "step": 6919
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.20621411502361298,
      "learning_rate": 0.00016015103107754863,
      "loss": 0.0328,
      "step": 6920
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.284165620803833,
      "learning_rate": 0.00016012924774905604,
      "loss": 0.0549,
      "step": 6921
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.14058184623718262,
      "learning_rate": 0.00016010746442056347,
      "loss": 0.0294,
      "step": 6922
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.14726392924785614,
      "learning_rate": 0.00016008568109207084,
      "loss": 0.0403,
      "step": 6923
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.4948910176753998,
      "learning_rate": 0.00016006389776357827,
      "loss": 0.0637,
      "step": 6924
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.22563330829143524,
      "learning_rate": 0.00016004211443508567,
      "loss": 0.0471,
      "step": 6925
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.20525626838207245,
      "learning_rate": 0.00016002033110659305,
      "loss": 0.0446,
      "step": 6926
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.22645580768585205,
      "learning_rate": 0.00015999854777810048,
      "loss": 0.0375,
      "step": 6927
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.2680664360523224,
      "learning_rate": 0.00015997676444960788,
      "loss": 0.0359,
      "step": 6928
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.4044104516506195,
      "learning_rate": 0.0001599549811211153,
      "loss": 0.0634,
      "step": 6929
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.9229539632797241,
      "learning_rate": 0.00015993319779262268,
      "loss": 0.0701,
      "step": 6930
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.49412989616394043,
      "learning_rate": 0.0001599114144641301,
      "loss": 0.0699,
      "step": 6931
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.16351883113384247,
      "learning_rate": 0.0001598896311356375,
      "loss": 0.026,
      "step": 6932
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.31686484813690186,
      "learning_rate": 0.00015986784780714494,
      "loss": 0.0601,
      "step": 6933
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.36262938380241394,
      "learning_rate": 0.00015984606447865232,
      "loss": 0.0574,
      "step": 6934
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.2369234412908554,
      "learning_rate": 0.00015982428115015972,
      "loss": 0.0449,
      "step": 6935
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.2516990900039673,
      "learning_rate": 0.00015980249782166715,
      "loss": 0.0603,
      "step": 6936
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.1880026012659073,
      "learning_rate": 0.00015978071449317452,
      "loss": 0.0437,
      "step": 6937
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.2366458624601364,
      "learning_rate": 0.00015975893116468195,
      "loss": 0.047,
      "step": 6938
    },
    {
      "epoch": 1.94,
      "grad_norm": 0.11242422461509705,
      "learning_rate": 0.00015973714783618935,
      "loss": 0.0181,
      "step": 6939
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5035955309867859,
      "learning_rate": 0.00015971536450769678,
      "loss": 0.0833,
      "step": 6940
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.46401217579841614,
      "learning_rate": 0.00015969358117920416,
      "loss": 0.058,
      "step": 6941
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.3298119604587555,
      "learning_rate": 0.0001596717978507116,
      "loss": 0.0972,
      "step": 6942
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.8153023719787598,
      "learning_rate": 0.000159650014522219,
      "loss": 0.1069,
      "step": 6943
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.16145721077919006,
      "learning_rate": 0.00015962823119372636,
      "loss": 0.0428,
      "step": 6944
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.19206573069095612,
      "learning_rate": 0.0001596064478652338,
      "loss": 0.0527,
      "step": 6945
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.1608535498380661,
      "learning_rate": 0.0001595846645367412,
      "loss": 0.031,
      "step": 6946
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.2257642149925232,
      "learning_rate": 0.00015956288120824862,
      "loss": 0.0656,
      "step": 6947
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.1851024031639099,
      "learning_rate": 0.000159541097879756,
      "loss": 0.0309,
      "step": 6948
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.2593483030796051,
      "learning_rate": 0.00015951931455126343,
      "loss": 0.0462,
      "step": 6949
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.2418716549873352,
      "learning_rate": 0.00015949753122277083,
      "loss": 0.0557,
      "step": 6950
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.23309330642223358,
      "learning_rate": 0.0001594757478942782,
      "loss": 0.0344,
      "step": 6951
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.25593143701553345,
      "learning_rate": 0.00015945396456578564,
      "loss": 0.0294,
      "step": 6952
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.26646995544433594,
      "learning_rate": 0.00015943218123729304,
      "loss": 0.0521,
      "step": 6953
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.28028929233551025,
      "learning_rate": 0.00015941039790880047,
      "loss": 0.0405,
      "step": 6954
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.44926783442497253,
      "learning_rate": 0.00015938861458030784,
      "loss": 0.1168,
      "step": 6955
    },
    {
      "epoch": 1.95,
      "grad_norm": 2.4329450130462646,
      "learning_rate": 0.00015936683125181527,
      "loss": 0.1374,
      "step": 6956
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.2786079943180084,
      "learning_rate": 0.00015934504792332267,
      "loss": 0.0354,
      "step": 6957
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.3018573522567749,
      "learning_rate": 0.0001593232645948301,
      "loss": 0.055,
      "step": 6958
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.16861379146575928,
      "learning_rate": 0.00015930148126633748,
      "loss": 0.0308,
      "step": 6959
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.23627306520938873,
      "learning_rate": 0.00015927969793784488,
      "loss": 0.0609,
      "step": 6960
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.18937231600284576,
      "learning_rate": 0.0001592579146093523,
      "loss": 0.0405,
      "step": 6961
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.30969545245170593,
      "learning_rate": 0.00015923613128085968,
      "loss": 0.0486,
      "step": 6962
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.14643128216266632,
      "learning_rate": 0.0001592143479523671,
      "loss": 0.0401,
      "step": 6963
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.11456400901079178,
      "learning_rate": 0.00015919256462387451,
      "loss": 0.0288,
      "step": 6964
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.26279935240745544,
      "learning_rate": 0.00015917078129538194,
      "loss": 0.0467,
      "step": 6965
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.28404074907302856,
      "learning_rate": 0.00015914899796688932,
      "loss": 0.0511,
      "step": 6966
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.5823736786842346,
      "learning_rate": 0.00015912721463839675,
      "loss": 0.0466,
      "step": 6967
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.3509802520275116,
      "learning_rate": 0.00015910543130990415,
      "loss": 0.0413,
      "step": 6968
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.1798979490995407,
      "learning_rate": 0.00015908364798141152,
      "loss": 0.0618,
      "step": 6969
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.3804680109024048,
      "learning_rate": 0.00015906186465291895,
      "loss": 0.0376,
      "step": 6970
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.181808203458786,
      "learning_rate": 0.00015904008132442635,
      "loss": 0.0354,
      "step": 6971
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.20087948441505432,
      "learning_rate": 0.00015901829799593378,
      "loss": 0.0501,
      "step": 6972
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.3482632339000702,
      "learning_rate": 0.00015899651466744116,
      "loss": 0.0731,
      "step": 6973
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.2017289400100708,
      "learning_rate": 0.0001589747313389486,
      "loss": 0.027,
      "step": 6974
    },
    {
      "epoch": 1.95,
      "grad_norm": 0.29461193084716797,
      "learning_rate": 0.000158952948010456,
      "loss": 0.063,
      "step": 6975
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.2930314838886261,
      "learning_rate": 0.00015893116468196337,
      "loss": 0.0825,
      "step": 6976
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.18803679943084717,
      "learning_rate": 0.0001589093813534708,
      "loss": 0.0416,
      "step": 6977
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.32276275753974915,
      "learning_rate": 0.0001588875980249782,
      "loss": 0.0591,
      "step": 6978
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.2659001052379608,
      "learning_rate": 0.00015886581469648563,
      "loss": 0.0325,
      "step": 6979
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6443706154823303,
      "learning_rate": 0.000158844031367993,
      "loss": 0.0892,
      "step": 6980
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6039054989814758,
      "learning_rate": 0.00015882224803950043,
      "loss": 0.1896,
      "step": 6981
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.4294854402542114,
      "learning_rate": 0.00015880046471100783,
      "loss": 0.0968,
      "step": 6982
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.4749404191970825,
      "learning_rate": 0.00015877868138251526,
      "loss": 0.049,
      "step": 6983
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.20903806388378143,
      "learning_rate": 0.00015875689805402264,
      "loss": 0.0473,
      "step": 6984
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.20956356823444366,
      "learning_rate": 0.00015873511472553004,
      "loss": 0.0424,
      "step": 6985
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.2511754333972931,
      "learning_rate": 0.00015871333139703747,
      "loss": 0.0296,
      "step": 6986
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.16125942766666412,
      "learning_rate": 0.00015869154806854484,
      "loss": 0.0654,
      "step": 6987
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.2006305456161499,
      "learning_rate": 0.00015866976474005227,
      "loss": 0.0317,
      "step": 6988
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.18794624507427216,
      "learning_rate": 0.00015864798141155967,
      "loss": 0.0775,
      "step": 6989
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.3736955225467682,
      "learning_rate": 0.0001586261980830671,
      "loss": 0.0695,
      "step": 6990
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.27068233489990234,
      "learning_rate": 0.00015860441475457448,
      "loss": 0.0388,
      "step": 6991
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5397891998291016,
      "learning_rate": 0.0001585826314260819,
      "loss": 0.0579,
      "step": 6992
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.2623068690299988,
      "learning_rate": 0.0001585608480975893,
      "loss": 0.0807,
      "step": 6993
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.19001248478889465,
      "learning_rate": 0.00015853906476909668,
      "loss": 0.0226,
      "step": 6994
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.2672854959964752,
      "learning_rate": 0.0001585172814406041,
      "loss": 0.0489,
      "step": 6995
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.27895480394363403,
      "learning_rate": 0.00015849549811211151,
      "loss": 0.0657,
      "step": 6996
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.18881724774837494,
      "learning_rate": 0.00015847371478361894,
      "loss": 0.0341,
      "step": 6997
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.16345325112342834,
      "learning_rate": 0.00015845193145512632,
      "loss": 0.0233,
      "step": 6998
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.254065603017807,
      "learning_rate": 0.00015843014812663375,
      "loss": 0.0793,
      "step": 6999
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.2835012674331665,
      "learning_rate": 0.00015840836479814115,
      "loss": 0.0425,
      "step": 7000
    },
    {
      "epoch": 1.96,
      "eval_loss": 0.0716821625828743,
      "eval_runtime": 171.8317,
      "eval_samples_per_second": 15.376,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.06188020626735422,
      "step": 7000
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.281873494386673,
      "learning_rate": 0.00015838658146964852,
      "loss": 0.0584,
      "step": 7001
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.2018832564353943,
      "learning_rate": 0.00015836479814115595,
      "loss": 0.0329,
      "step": 7002
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.2866513729095459,
      "learning_rate": 0.00015834301481266336,
      "loss": 0.0755,
      "step": 7003
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.34527790546417236,
      "learning_rate": 0.00015832123148417078,
      "loss": 0.0356,
      "step": 7004
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.6417202949523926,
      "learning_rate": 0.00015829944815567816,
      "loss": 0.1175,
      "step": 7005
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.5613762736320496,
      "learning_rate": 0.0001582776648271856,
      "loss": 0.072,
      "step": 7006
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.1736622005701065,
      "learning_rate": 0.000158255881498693,
      "loss": 0.0401,
      "step": 7007
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.15199415385723114,
      "learning_rate": 0.00015823409817020042,
      "loss": 0.03,
      "step": 7008
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.16434380412101746,
      "learning_rate": 0.0001582123148417078,
      "loss": 0.0273,
      "step": 7009
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.12272699177265167,
      "learning_rate": 0.0001581905315132152,
      "loss": 0.0299,
      "step": 7010
    },
    {
      "epoch": 1.96,
      "grad_norm": 0.10017677396535873,
      "learning_rate": 0.00015816874818472263,
      "loss": 0.0131,
      "step": 7011
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.1521599292755127,
      "learning_rate": 0.00015814696485623,
      "loss": 0.0184,
      "step": 7012
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.24458549916744232,
      "learning_rate": 0.00015812518152773743,
      "loss": 0.041,
      "step": 7013
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.15583138167858124,
      "learning_rate": 0.00015810339819924483,
      "loss": 0.028,
      "step": 7014
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.15299929678440094,
      "learning_rate": 0.00015808161487075226,
      "loss": 0.0263,
      "step": 7015
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.47954532504081726,
      "learning_rate": 0.00015805983154225964,
      "loss": 0.0363,
      "step": 7016
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.14093931019306183,
      "learning_rate": 0.00015803804821376707,
      "loss": 0.0221,
      "step": 7017
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.4724547564983368,
      "learning_rate": 0.00015801626488527447,
      "loss": 0.0247,
      "step": 7018
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.23462165892124176,
      "learning_rate": 0.00015799448155678184,
      "loss": 0.0465,
      "step": 7019
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.1642569899559021,
      "learning_rate": 0.00015797269822828927,
      "loss": 0.0422,
      "step": 7020
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.22902967035770416,
      "learning_rate": 0.00015795091489979667,
      "loss": 0.0464,
      "step": 7021
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.18653348088264465,
      "learning_rate": 0.0001579291315713041,
      "loss": 0.026,
      "step": 7022
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.20440705120563507,
      "learning_rate": 0.00015790734824281148,
      "loss": 0.038,
      "step": 7023
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.317879319190979,
      "learning_rate": 0.0001578855649143189,
      "loss": 0.0653,
      "step": 7024
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.30071941018104553,
      "learning_rate": 0.0001578637815858263,
      "loss": 0.0576,
      "step": 7025
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.4609430730342865,
      "learning_rate": 0.00015784199825733368,
      "loss": 0.0578,
      "step": 7026
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.1903749257326126,
      "learning_rate": 0.0001578202149288411,
      "loss": 0.0192,
      "step": 7027
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.21626529097557068,
      "learning_rate": 0.00015779843160034851,
      "loss": 0.0602,
      "step": 7028
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.3925977349281311,
      "learning_rate": 0.00015777664827185594,
      "loss": 0.0444,
      "step": 7029
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.7097287774085999,
      "learning_rate": 0.00015775486494336332,
      "loss": 0.2617,
      "step": 7030
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.4910818636417389,
      "learning_rate": 0.00015773308161487075,
      "loss": 0.1112,
      "step": 7031
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.3278658092021942,
      "learning_rate": 0.00015771129828637815,
      "loss": 0.0543,
      "step": 7032
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.228244349360466,
      "learning_rate": 0.00015768951495788555,
      "loss": 0.0436,
      "step": 7033
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.2776540517807007,
      "learning_rate": 0.00015766773162939295,
      "loss": 0.078,
      "step": 7034
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.2910010814666748,
      "learning_rate": 0.00015764594830090036,
      "loss": 0.1065,
      "step": 7035
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.15601079165935516,
      "learning_rate": 0.00015762416497240779,
      "loss": 0.0436,
      "step": 7036
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.18568864464759827,
      "learning_rate": 0.00015760238164391516,
      "loss": 0.0312,
      "step": 7037
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.24877840280532837,
      "learning_rate": 0.0001575805983154226,
      "loss": 0.1101,
      "step": 7038
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.13802585005760193,
      "learning_rate": 0.00015755881498693,
      "loss": 0.035,
      "step": 7039
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.23574334383010864,
      "learning_rate": 0.00015753703165843742,
      "loss": 0.0716,
      "step": 7040
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.2021293193101883,
      "learning_rate": 0.0001575152483299448,
      "loss": 0.0321,
      "step": 7041
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.32033205032348633,
      "learning_rate": 0.00015749346500145222,
      "loss": 0.0542,
      "step": 7042
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.7490406036376953,
      "learning_rate": 0.00015747168167295963,
      "loss": 0.0958,
      "step": 7043
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.26133260130882263,
      "learning_rate": 0.000157449898344467,
      "loss": 0.0573,
      "step": 7044
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.3397945761680603,
      "learning_rate": 0.00015742811501597443,
      "loss": 0.0764,
      "step": 7045
    },
    {
      "epoch": 1.97,
      "grad_norm": 0.21585234999656677,
      "learning_rate": 0.00015740633168748183,
      "loss": 0.0559,
      "step": 7046
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.24784798920154572,
      "learning_rate": 0.00015738454835898926,
      "loss": 0.0454,
      "step": 7047
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.19672536849975586,
      "learning_rate": 0.00015736276503049664,
      "loss": 0.0477,
      "step": 7048
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.185544952750206,
      "learning_rate": 0.00015734098170200407,
      "loss": 0.039,
      "step": 7049
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.2476925104856491,
      "learning_rate": 0.00015731919837351147,
      "loss": 0.093,
      "step": 7050
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.30481383204460144,
      "learning_rate": 0.00015729741504501884,
      "loss": 0.069,
      "step": 7051
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.2566072940826416,
      "learning_rate": 0.00015727563171652627,
      "loss": 0.0445,
      "step": 7052
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.23531049489974976,
      "learning_rate": 0.00015725384838803367,
      "loss": 0.0358,
      "step": 7053
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.3188810348510742,
      "learning_rate": 0.0001572320650595411,
      "loss": 0.0434,
      "step": 7054
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.36440709233283997,
      "learning_rate": 0.00015721028173104848,
      "loss": 0.037,
      "step": 7055
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.796922504901886,
      "learning_rate": 0.0001571884984025559,
      "loss": 0.0537,
      "step": 7056
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.09199687093496323,
      "learning_rate": 0.0001571667150740633,
      "loss": 0.035,
      "step": 7057
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.34847086668014526,
      "learning_rate": 0.0001571449317455707,
      "loss": 0.0364,
      "step": 7058
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.35836926102638245,
      "learning_rate": 0.0001571231484170781,
      "loss": 0.0677,
      "step": 7059
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.28550514578819275,
      "learning_rate": 0.00015710136508858552,
      "loss": 0.027,
      "step": 7060
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.7882151007652283,
      "learning_rate": 0.00015707958176009294,
      "loss": 0.0426,
      "step": 7061
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.1545521318912506,
      "learning_rate": 0.00015705779843160032,
      "loss": 0.0437,
      "step": 7062
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.37296146154403687,
      "learning_rate": 0.00015703601510310775,
      "loss": 0.0377,
      "step": 7063
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.18262331187725067,
      "learning_rate": 0.00015701423177461515,
      "loss": 0.0251,
      "step": 7064
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.38089844584465027,
      "learning_rate": 0.00015699244844612255,
      "loss": 0.0492,
      "step": 7065
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.21664559841156006,
      "learning_rate": 0.00015697066511762995,
      "loss": 0.0641,
      "step": 7066
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.33807605504989624,
      "learning_rate": 0.00015694888178913738,
      "loss": 0.033,
      "step": 7067
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.37705373764038086,
      "learning_rate": 0.00015692709846064479,
      "loss": 0.0439,
      "step": 7068
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.2990100085735321,
      "learning_rate": 0.00015690531513215216,
      "loss": 0.0635,
      "step": 7069
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.23060950636863708,
      "learning_rate": 0.0001568835318036596,
      "loss": 0.0579,
      "step": 7070
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.13081179559230804,
      "learning_rate": 0.000156861748475167,
      "loss": 0.0247,
      "step": 7071
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.21625901758670807,
      "learning_rate": 0.0001568399651466744,
      "loss": 0.0445,
      "step": 7072
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.15033765137195587,
      "learning_rate": 0.0001568181818181818,
      "loss": 0.0262,
      "step": 7073
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.24470505118370056,
      "learning_rate": 0.00015679639848968922,
      "loss": 0.0346,
      "step": 7074
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.26838418841362,
      "learning_rate": 0.00015677461516119663,
      "loss": 0.055,
      "step": 7075
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.17607828974723816,
      "learning_rate": 0.00015675283183270403,
      "loss": 0.0239,
      "step": 7076
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.2051643431186676,
      "learning_rate": 0.00015673104850421143,
      "loss": 0.0384,
      "step": 7077
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.34041649103164673,
      "learning_rate": 0.00015670926517571883,
      "loss": 0.0921,
      "step": 7078
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.37626054883003235,
      "learning_rate": 0.00015668748184722624,
      "loss": 0.1099,
      "step": 7079
    },
    {
      "epoch": 1.98,
      "grad_norm": 1.4624814987182617,
      "learning_rate": 0.00015666569851873364,
      "loss": 0.0541,
      "step": 7080
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.36417344212532043,
      "learning_rate": 0.00015664391519024107,
      "loss": 0.0423,
      "step": 7081
    },
    {
      "epoch": 1.98,
      "grad_norm": 0.3075307309627533,
      "learning_rate": 0.00015662213186174847,
      "loss": 0.0254,
      "step": 7082
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.49562156200408936,
      "learning_rate": 0.00015660034853325587,
      "loss": 0.0535,
      "step": 7083
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.25014999508857727,
      "learning_rate": 0.00015657856520476327,
      "loss": 0.0398,
      "step": 7084
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.2879273593425751,
      "learning_rate": 0.00015655678187627067,
      "loss": 0.0515,
      "step": 7085
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.12858417630195618,
      "learning_rate": 0.00015653499854777808,
      "loss": 0.0192,
      "step": 7086
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.30900731682777405,
      "learning_rate": 0.00015651321521928548,
      "loss": 0.0581,
      "step": 7087
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.31388401985168457,
      "learning_rate": 0.0001564914318907929,
      "loss": 0.0767,
      "step": 7088
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.20722047984600067,
      "learning_rate": 0.0001564696485623003,
      "loss": 0.0353,
      "step": 7089
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.19018179178237915,
      "learning_rate": 0.0001564478652338077,
      "loss": 0.0439,
      "step": 7090
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.2541058361530304,
      "learning_rate": 0.00015642608190531511,
      "loss": 0.0634,
      "step": 7091
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.48111018538475037,
      "learning_rate": 0.00015640429857682254,
      "loss": 0.0601,
      "step": 7092
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.9960345029830933,
      "learning_rate": 0.00015638251524832994,
      "loss": 0.0804,
      "step": 7093
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.23925074934959412,
      "learning_rate": 0.00015636073191983732,
      "loss": 0.0793,
      "step": 7094
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.26901254057884216,
      "learning_rate": 0.00015633894859134475,
      "loss": 0.0911,
      "step": 7095
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.17920991778373718,
      "learning_rate": 0.00015631716526285215,
      "loss": 0.0647,
      "step": 7096
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.12045329809188843,
      "learning_rate": 0.00015629538193435955,
      "loss": 0.0298,
      "step": 7097
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.1492704451084137,
      "learning_rate": 0.00015627359860586696,
      "loss": 0.0275,
      "step": 7098
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.15757162868976593,
      "learning_rate": 0.00015625181527737438,
      "loss": 0.0341,
      "step": 7099
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.27769920229911804,
      "learning_rate": 0.00015623003194888179,
      "loss": 0.0452,
      "step": 7100
    },
    {
      "epoch": 1.99,
      "eval_loss": 0.0708463191986084,
      "eval_runtime": 171.7194,
      "eval_samples_per_second": 15.386,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.06368504561681872,
      "step": 7100
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.3292168080806732,
      "learning_rate": 0.0001562082486203892,
      "loss": 0.0455,
      "step": 7101
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.3892079293727875,
      "learning_rate": 0.0001561864652918966,
      "loss": 0.1014,
      "step": 7102
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.23114018142223358,
      "learning_rate": 0.000156164681963404,
      "loss": 0.0355,
      "step": 7103
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.3741091191768646,
      "learning_rate": 0.0001561428986349114,
      "loss": 0.0718,
      "step": 7104
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.5454738140106201,
      "learning_rate": 0.0001561211153064188,
      "loss": 0.0489,
      "step": 7105
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.381849080324173,
      "learning_rate": 0.00015609933197792623,
      "loss": 0.0778,
      "step": 7106
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.19009774923324585,
      "learning_rate": 0.00015607754864943363,
      "loss": 0.0514,
      "step": 7107
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.1418738067150116,
      "learning_rate": 0.00015605576532094103,
      "loss": 0.0294,
      "step": 7108
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.22206921875476837,
      "learning_rate": 0.00015603398199244843,
      "loss": 0.0516,
      "step": 7109
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.20783378183841705,
      "learning_rate": 0.00015601219866395583,
      "loss": 0.049,
      "step": 7110
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.26272615790367126,
      "learning_rate": 0.00015599041533546324,
      "loss": 0.0642,
      "step": 7111
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.16572943329811096,
      "learning_rate": 0.00015596863200697064,
      "loss": 0.0499,
      "step": 7112
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.18315427005290985,
      "learning_rate": 0.00015594684867847807,
      "loss": 0.0275,
      "step": 7113
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.42656993865966797,
      "learning_rate": 0.00015592506534998547,
      "loss": 0.1146,
      "step": 7114
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.32158163189888,
      "learning_rate": 0.00015590328202149287,
      "loss": 0.0411,
      "step": 7115
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.6416333913803101,
      "learning_rate": 0.00015588149869300027,
      "loss": 0.1071,
      "step": 7116
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.29235512018203735,
      "learning_rate": 0.0001558597153645077,
      "loss": 0.0453,
      "step": 7117
    },
    {
      "epoch": 1.99,
      "grad_norm": 0.8988171815872192,
      "learning_rate": 0.00015583793203601508,
      "loss": 0.1003,
      "step": 7118
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.1825733631849289,
      "learning_rate": 0.00015581614870752248,
      "loss": 0.0394,
      "step": 7119
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.19126829504966736,
      "learning_rate": 0.0001557943653790299,
      "loss": 0.0315,
      "step": 7120
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.318848580121994,
      "learning_rate": 0.0001557725820505373,
      "loss": 0.0726,
      "step": 7121
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.2144118845462799,
      "learning_rate": 0.0001557507987220447,
      "loss": 0.0616,
      "step": 7122
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.16441087424755096,
      "learning_rate": 0.00015572901539355211,
      "loss": 0.0383,
      "step": 7123
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.4610881209373474,
      "learning_rate": 0.00015570723206505954,
      "loss": 0.1545,
      "step": 7124
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.1829155534505844,
      "learning_rate": 0.00015568544873656692,
      "loss": 0.0367,
      "step": 7125
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.389565646648407,
      "learning_rate": 0.00015566366540807435,
      "loss": 0.0773,
      "step": 7126
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.3059515655040741,
      "learning_rate": 0.00015564188207958175,
      "loss": 0.0735,
      "step": 7127
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.17256656289100647,
      "learning_rate": 0.00015562009875108915,
      "loss": 0.042,
      "step": 7128
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.14551715552806854,
      "learning_rate": 0.00015559831542259655,
      "loss": 0.0341,
      "step": 7129
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.5457273125648499,
      "learning_rate": 0.00015557653209410396,
      "loss": 0.0472,
      "step": 7130
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.17006397247314453,
      "learning_rate": 0.00015555474876561138,
      "loss": 0.0233,
      "step": 7131
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.14451058208942413,
      "learning_rate": 0.00015553296543711876,
      "loss": 0.047,
      "step": 7132
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.12449581176042557,
      "learning_rate": 0.0001555111821086262,
      "loss": 0.0334,
      "step": 7133
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.14395153522491455,
      "learning_rate": 0.0001554893987801336,
      "loss": 0.0353,
      "step": 7134
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.8802540302276611,
      "learning_rate": 0.000155467615451641,
      "loss": 0.1048,
      "step": 7135
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.47424668073654175,
      "learning_rate": 0.0001554458321231484,
      "loss": 0.0464,
      "step": 7136
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.14810174703598022,
      "learning_rate": 0.0001554240487946558,
      "loss": 0.0231,
      "step": 7137
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.09924483299255371,
      "learning_rate": 0.00015540226546616323,
      "loss": 0.0226,
      "step": 7138
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.1614067703485489,
      "learning_rate": 0.0001553804821376706,
      "loss": 0.0299,
      "step": 7139
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.3089264929294586,
      "learning_rate": 0.00015535869880917803,
      "loss": 0.0407,
      "step": 7140
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.23422953486442566,
      "learning_rate": 0.00015533691548068543,
      "loss": 0.0611,
      "step": 7141
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.17739883065223694,
      "learning_rate": 0.00015531513215219286,
      "loss": 0.0333,
      "step": 7142
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.21129171550273895,
      "learning_rate": 0.00015529334882370024,
      "loss": 0.0144,
      "step": 7143
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.1430431306362152,
      "learning_rate": 0.00015527156549520764,
      "loss": 0.0265,
      "step": 7144
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.16351091861724854,
      "learning_rate": 0.00015524978216671507,
      "loss": 0.0376,
      "step": 7145
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.09348185360431671,
      "learning_rate": 0.00015522799883822247,
      "loss": 0.034,
      "step": 7146
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.27059608697891235,
      "learning_rate": 0.00015520621550972987,
      "loss": 0.0494,
      "step": 7147
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.4390215277671814,
      "learning_rate": 0.00015518443218123727,
      "loss": 0.0171,
      "step": 7148
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.39844775199890137,
      "learning_rate": 0.0001551626488527447,
      "loss": 0.0306,
      "step": 7149
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.11160112917423248,
      "learning_rate": 0.00015514086552425208,
      "loss": 0.0167,
      "step": 7150
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.36279982328414917,
      "learning_rate": 0.0001551190821957595,
      "loss": 0.0248,
      "step": 7151
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.24272657930850983,
      "learning_rate": 0.0001550972988672669,
      "loss": 0.0302,
      "step": 7152
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.21231265366077423,
      "learning_rate": 0.0001550755155387743,
      "loss": 0.0401,
      "step": 7153
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.14507830142974854,
      "learning_rate": 0.0001550537322102817,
      "loss": 0.0241,
      "step": 7154
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.17821885645389557,
      "learning_rate": 0.00015503194888178911,
      "loss": 0.0372,
      "step": 7155
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.28432178497314453,
      "learning_rate": 0.00015501016555329654,
      "loss": 0.0212,
      "step": 7156
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.1305687427520752,
      "learning_rate": 0.00015498838222480392,
      "loss": 0.0176,
      "step": 7157
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.19027793407440186,
      "learning_rate": 0.00015496659889631135,
      "loss": 0.0309,
      "step": 7158
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.15521392226219177,
      "learning_rate": 0.00015494481556781875,
      "loss": 0.0444,
      "step": 7159
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.22024421393871307,
      "learning_rate": 0.00015492303223932615,
      "loss": 0.0563,
      "step": 7160
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.9206668734550476,
      "learning_rate": 0.00015490124891083355,
      "loss": 0.0653,
      "step": 7161
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.17911916971206665,
      "learning_rate": 0.00015487946558234096,
      "loss": 0.048,
      "step": 7162
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.08729848265647888,
      "learning_rate": 0.00015485768225384839,
      "loss": 0.0135,
      "step": 7163
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.10031960159540176,
      "learning_rate": 0.00015483589892535576,
      "loss": 0.0135,
      "step": 7164
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.1672448217868805,
      "learning_rate": 0.0001548141155968632,
      "loss": 0.0272,
      "step": 7165
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.3331611752510071,
      "learning_rate": 0.0001547923322683706,
      "loss": 0.0551,
      "step": 7166
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.12021195888519287,
      "learning_rate": 0.00015477054893987802,
      "loss": 0.0236,
      "step": 7167
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.32134297490119934,
      "learning_rate": 0.0001547487656113854,
      "loss": 0.0347,
      "step": 7168
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.17852510511875153,
      "learning_rate": 0.0001547269822828928,
      "loss": 0.0165,
      "step": 7169
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.2697311043739319,
      "learning_rate": 0.00015470519895440023,
      "loss": 0.0394,
      "step": 7170
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.17354896664619446,
      "learning_rate": 0.0001546834156259076,
      "loss": 0.0328,
      "step": 7171
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.18770910799503326,
      "learning_rate": 0.00015466163229741503,
      "loss": 0.0621,
      "step": 7172
    },
    {
      "epoch": 2.01,
      "grad_norm": 1.189866065979004,
      "learning_rate": 0.00015463984896892243,
      "loss": 0.0687,
      "step": 7173
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.9111115336418152,
      "learning_rate": 0.00015461806564042986,
      "loss": 0.0684,
      "step": 7174
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.23716577887535095,
      "learning_rate": 0.00015459628231193724,
      "loss": 0.0433,
      "step": 7175
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.4138590395450592,
      "learning_rate": 0.00015457449898344467,
      "loss": 0.0658,
      "step": 7176
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.10782879590988159,
      "learning_rate": 0.00015455271565495207,
      "loss": 0.0152,
      "step": 7177
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.20192363858222961,
      "learning_rate": 0.00015453093232645944,
      "loss": 0.0303,
      "step": 7178
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.3191627860069275,
      "learning_rate": 0.00015450914899796687,
      "loss": 0.0328,
      "step": 7179
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.21657723188400269,
      "learning_rate": 0.00015448736566947427,
      "loss": 0.0398,
      "step": 7180
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.20573391020298004,
      "learning_rate": 0.0001544655823409817,
      "loss": 0.0085,
      "step": 7181
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.29659798741340637,
      "learning_rate": 0.00015444379901248908,
      "loss": 0.0374,
      "step": 7182
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.45088642835617065,
      "learning_rate": 0.0001544220156839965,
      "loss": 0.0408,
      "step": 7183
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.16978983581066132,
      "learning_rate": 0.0001544002323555039,
      "loss": 0.0219,
      "step": 7184
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.19042819738388062,
      "learning_rate": 0.00015437844902701128,
      "loss": 0.0217,
      "step": 7185
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.8808387517929077,
      "learning_rate": 0.0001543566656985187,
      "loss": 0.0953,
      "step": 7186
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.16771812736988068,
      "learning_rate": 0.00015433488237002612,
      "loss": 0.0384,
      "step": 7187
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.2870013117790222,
      "learning_rate": 0.00015431309904153354,
      "loss": 0.065,
      "step": 7188
    },
    {
      "epoch": 2.01,
      "grad_norm": 0.1907069832086563,
      "learning_rate": 0.00015429131571304092,
      "loss": 0.0251,
      "step": 7189
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.2990976572036743,
      "learning_rate": 0.00015426953238454835,
      "loss": 0.0489,
      "step": 7190
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.17614342272281647,
      "learning_rate": 0.00015424774905605575,
      "loss": 0.0281,
      "step": 7191
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.3815400004386902,
      "learning_rate": 0.00015422596572756318,
      "loss": 0.046,
      "step": 7192
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.26575878262519836,
      "learning_rate": 0.00015420418239907055,
      "loss": 0.028,
      "step": 7193
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.22521889209747314,
      "learning_rate": 0.00015418239907057796,
      "loss": 0.0291,
      "step": 7194
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.24469561874866486,
      "learning_rate": 0.00015416061574208539,
      "loss": 0.0263,
      "step": 7195
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.2899540662765503,
      "learning_rate": 0.00015413883241359276,
      "loss": 0.0325,
      "step": 7196
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.2677302360534668,
      "learning_rate": 0.0001541170490851002,
      "loss": 0.0391,
      "step": 7197
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.16995757818222046,
      "learning_rate": 0.0001540952657566076,
      "loss": 0.0131,
      "step": 7198
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.7170441746711731,
      "learning_rate": 0.00015407348242811502,
      "loss": 0.1085,
      "step": 7199
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.08736137300729752,
      "learning_rate": 0.0001540516990996224,
      "loss": 0.0172,
      "step": 7200
    },
    {
      "epoch": 2.02,
      "eval_loss": 0.07397414743900299,
      "eval_runtime": 172.7708,
      "eval_samples_per_second": 15.292,
      "eval_steps_per_second": 0.48,
      "eval_wer": 0.06197937326457755,
      "step": 7200
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.1128888726234436,
      "learning_rate": 0.00015402991577112983,
      "loss": 0.0342,
      "step": 7201
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.15613074600696564,
      "learning_rate": 0.00015400813244263723,
      "loss": 0.0337,
      "step": 7202
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.2239430695772171,
      "learning_rate": 0.0001539863491141446,
      "loss": 0.0213,
      "step": 7203
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.20962132513523102,
      "learning_rate": 0.00015396456578565203,
      "loss": 0.0454,
      "step": 7204
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.21214045584201813,
      "learning_rate": 0.00015394278245715943,
      "loss": 0.0246,
      "step": 7205
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.35721224546432495,
      "learning_rate": 0.00015392099912866686,
      "loss": 0.026,
      "step": 7206
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.3824695348739624,
      "learning_rate": 0.00015389921580017424,
      "loss": 0.097,
      "step": 7207
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.16334882378578186,
      "learning_rate": 0.00015387743247168167,
      "loss": 0.0414,
      "step": 7208
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.31749236583709717,
      "learning_rate": 0.00015385564914318907,
      "loss": 0.0249,
      "step": 7209
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.3364749252796173,
      "learning_rate": 0.0001538338658146965,
      "loss": 0.0628,
      "step": 7210
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.49798163771629333,
      "learning_rate": 0.00015381208248620387,
      "loss": 0.0782,
      "step": 7211
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.11209412664175034,
      "learning_rate": 0.00015379029915771127,
      "loss": 0.0378,
      "step": 7212
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.09162590652704239,
      "learning_rate": 0.0001537685158292187,
      "loss": 0.0176,
      "step": 7213
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.2388942390680313,
      "learning_rate": 0.00015374673250072608,
      "loss": 0.0369,
      "step": 7214
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.29323044419288635,
      "learning_rate": 0.0001537249491722335,
      "loss": 0.0485,
      "step": 7215
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.2238025963306427,
      "learning_rate": 0.0001537031658437409,
      "loss": 0.0551,
      "step": 7216
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.15270353853702545,
      "learning_rate": 0.00015368138251524834,
      "loss": 0.0356,
      "step": 7217
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.15720874071121216,
      "learning_rate": 0.00015365959918675571,
      "loss": 0.0289,
      "step": 7218
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.09324359893798828,
      "learning_rate": 0.00015363781585826312,
      "loss": 0.0157,
      "step": 7219
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.14039938151836395,
      "learning_rate": 0.00015361603252977054,
      "loss": 0.0176,
      "step": 7220
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.522151529788971,
      "learning_rate": 0.00015359424920127792,
      "loss": 0.0524,
      "step": 7221
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.3769320547580719,
      "learning_rate": 0.00015357246587278535,
      "loss": 0.0523,
      "step": 7222
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.13228373229503632,
      "learning_rate": 0.00015355068254429275,
      "loss": 0.0144,
      "step": 7223
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.3349854350090027,
      "learning_rate": 0.00015352889921580018,
      "loss": 0.0767,
      "step": 7224
    },
    {
      "epoch": 2.02,
      "grad_norm": 0.18539977073669434,
      "learning_rate": 0.00015350711588730756,
      "loss": 0.0356,
      "step": 7225
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.22229240834712982,
      "learning_rate": 0.00015348533255881498,
      "loss": 0.0409,
      "step": 7226
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.23757371306419373,
      "learning_rate": 0.00015346354923032239,
      "loss": 0.0439,
      "step": 7227
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.20858557522296906,
      "learning_rate": 0.00015344176590182976,
      "loss": 0.0507,
      "step": 7228
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.20395134389400482,
      "learning_rate": 0.0001534199825733372,
      "loss": 0.0282,
      "step": 7229
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.3036479651927948,
      "learning_rate": 0.0001533981992448446,
      "loss": 0.0447,
      "step": 7230
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.3008546829223633,
      "learning_rate": 0.00015337641591635202,
      "loss": 0.0381,
      "step": 7231
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.14993195235729218,
      "learning_rate": 0.0001533546325878594,
      "loss": 0.0206,
      "step": 7232
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.16635148227214813,
      "learning_rate": 0.00015333284925936683,
      "loss": 0.0202,
      "step": 7233
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.2392781525850296,
      "learning_rate": 0.00015331106593087423,
      "loss": 0.0765,
      "step": 7234
    },
    {
      "epoch": 2.03,
      "grad_norm": 1.9291508197784424,
      "learning_rate": 0.00015328928260238166,
      "loss": 0.0336,
      "step": 7235
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.26055681705474854,
      "learning_rate": 0.00015326749927388903,
      "loss": 0.0205,
      "step": 7236
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.26107296347618103,
      "learning_rate": 0.00015324571594539643,
      "loss": 0.0248,
      "step": 7237
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.19787395000457764,
      "learning_rate": 0.00015322393261690386,
      "loss": 0.0615,
      "step": 7238
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.16980625689029694,
      "learning_rate": 0.00015320214928841124,
      "loss": 0.0328,
      "step": 7239
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.14569902420043945,
      "learning_rate": 0.00015318036595991867,
      "loss": 0.0161,
      "step": 7240
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.22233836352825165,
      "learning_rate": 0.00015315858263142607,
      "loss": 0.041,
      "step": 7241
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.10758715122938156,
      "learning_rate": 0.0001531367993029335,
      "loss": 0.0187,
      "step": 7242
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.289800226688385,
      "learning_rate": 0.00015311501597444087,
      "loss": 0.0566,
      "step": 7243
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.08586546778678894,
      "learning_rate": 0.00015309323264594828,
      "loss": 0.009,
      "step": 7244
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.11389385908842087,
      "learning_rate": 0.0001530714493174557,
      "loss": 0.0177,
      "step": 7245
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.23842090368270874,
      "learning_rate": 0.00015304966598896308,
      "loss": 0.0305,
      "step": 7246
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.41046324372291565,
      "learning_rate": 0.0001530278826604705,
      "loss": 0.0352,
      "step": 7247
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.45227211713790894,
      "learning_rate": 0.0001530060993319779,
      "loss": 0.0357,
      "step": 7248
    },
    {
      "epoch": 2.03,
      "grad_norm": 1.349595069885254,
      "learning_rate": 0.00015298431600348534,
      "loss": 0.0828,
      "step": 7249
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.1592920422554016,
      "learning_rate": 0.00015296253267499271,
      "loss": 0.026,
      "step": 7250
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.20164912939071655,
      "learning_rate": 0.00015294074934650014,
      "loss": 0.0472,
      "step": 7251
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.1686529666185379,
      "learning_rate": 0.00015291896601800755,
      "loss": 0.0261,
      "step": 7252
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.23103569447994232,
      "learning_rate": 0.00015289718268951492,
      "loss": 0.0714,
      "step": 7253
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.25374943017959595,
      "learning_rate": 0.00015287539936102235,
      "loss": 0.0305,
      "step": 7254
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.33174583315849304,
      "learning_rate": 0.00015285361603252975,
      "loss": 0.0503,
      "step": 7255
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.3499414622783661,
      "learning_rate": 0.00015283183270403718,
      "loss": 0.054,
      "step": 7256
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.16138286888599396,
      "learning_rate": 0.00015281004937554456,
      "loss": 0.0216,
      "step": 7257
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.10757298767566681,
      "learning_rate": 0.00015278826604705198,
      "loss": 0.0117,
      "step": 7258
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.19750116765499115,
      "learning_rate": 0.0001527664827185594,
      "loss": 0.015,
      "step": 7259
    },
    {
      "epoch": 2.03,
      "grad_norm": 0.8753546476364136,
      "learning_rate": 0.00015274469939006682,
      "loss": 0.0742,
      "step": 7260
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.5305874347686768,
      "learning_rate": 0.0001527229160615742,
      "loss": 0.0598,
      "step": 7261
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.2994353175163269,
      "learning_rate": 0.0001527011327330816,
      "loss": 0.047,
      "step": 7262
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.10256156325340271,
      "learning_rate": 0.00015267934940458902,
      "loss": 0.0138,
      "step": 7263
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.22258348762989044,
      "learning_rate": 0.0001526575660760964,
      "loss": 0.0159,
      "step": 7264
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.18125247955322266,
      "learning_rate": 0.00015263578274760383,
      "loss": 0.0339,
      "step": 7265
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.1938292235136032,
      "learning_rate": 0.00015261399941911123,
      "loss": 0.0335,
      "step": 7266
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.24075958132743835,
      "learning_rate": 0.00015259221609061866,
      "loss": 0.0829,
      "step": 7267
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.1936362087726593,
      "learning_rate": 0.00015257043276212603,
      "loss": 0.0327,
      "step": 7268
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.12743325531482697,
      "learning_rate": 0.00015254864943363343,
      "loss": 0.018,
      "step": 7269
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.18207848072052002,
      "learning_rate": 0.00015252686610514086,
      "loss": 0.0309,
      "step": 7270
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.32668060064315796,
      "learning_rate": 0.00015250508277664824,
      "loss": 0.0414,
      "step": 7271
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.19106967747211456,
      "learning_rate": 0.00015248329944815567,
      "loss": 0.0269,
      "step": 7272
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.2358119636774063,
      "learning_rate": 0.00015246151611966307,
      "loss": 0.0511,
      "step": 7273
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.4318065345287323,
      "learning_rate": 0.0001524397327911705,
      "loss": 0.0636,
      "step": 7274
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.10703957080841064,
      "learning_rate": 0.00015241794946267787,
      "loss": 0.0134,
      "step": 7275
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.21790964901447296,
      "learning_rate": 0.0001523961661341853,
      "loss": 0.0309,
      "step": 7276
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.37511152029037476,
      "learning_rate": 0.0001523743828056927,
      "loss": 0.0452,
      "step": 7277
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.717007577419281,
      "learning_rate": 0.00015235259947720008,
      "loss": 0.0366,
      "step": 7278
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.14038583636283875,
      "learning_rate": 0.0001523308161487075,
      "loss": 0.0177,
      "step": 7279
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.25095704197883606,
      "learning_rate": 0.0001523090328202149,
      "loss": 0.0362,
      "step": 7280
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.14281854033470154,
      "learning_rate": 0.00015228724949172234,
      "loss": 0.039,
      "step": 7281
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.37265545129776,
      "learning_rate": 0.00015226546616322971,
      "loss": 0.1122,
      "step": 7282
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.17044873535633087,
      "learning_rate": 0.00015224368283473714,
      "loss": 0.0131,
      "step": 7283
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.24863623082637787,
      "learning_rate": 0.00015222189950624455,
      "loss": 0.0305,
      "step": 7284
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.36128032207489014,
      "learning_rate": 0.00015220011617775198,
      "loss": 0.0461,
      "step": 7285
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.28970417380332947,
      "learning_rate": 0.00015217833284925935,
      "loss": 0.0139,
      "step": 7286
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.18651798367500305,
      "learning_rate": 0.00015215654952076675,
      "loss": 0.0244,
      "step": 7287
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.2299235314130783,
      "learning_rate": 0.00015213476619227418,
      "loss": 0.0445,
      "step": 7288
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.15194885432720184,
      "learning_rate": 0.00015211298286378156,
      "loss": 0.0253,
      "step": 7289
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.4719802737236023,
      "learning_rate": 0.00015209119953528899,
      "loss": 0.0414,
      "step": 7290
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.2068534642457962,
      "learning_rate": 0.0001520694162067964,
      "loss": 0.0359,
      "step": 7291
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.24877990782260895,
      "learning_rate": 0.00015204763287830382,
      "loss": 0.0243,
      "step": 7292
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.11438256502151489,
      "learning_rate": 0.0001520258495498112,
      "loss": 0.0239,
      "step": 7293
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.31726619601249695,
      "learning_rate": 0.0001520040662213186,
      "loss": 0.0404,
      "step": 7294
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.15241698920726776,
      "learning_rate": 0.00015198228289282602,
      "loss": 0.0249,
      "step": 7295
    },
    {
      "epoch": 2.04,
      "grad_norm": 0.2329850047826767,
      "learning_rate": 0.0001519604995643334,
      "loss": 0.0259,
      "step": 7296
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.15036000311374664,
      "learning_rate": 0.00015193871623584083,
      "loss": 0.0258,
      "step": 7297
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.1803596168756485,
      "learning_rate": 0.00015191693290734823,
      "loss": 0.0472,
      "step": 7298
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.24684485793113708,
      "learning_rate": 0.00015189514957885566,
      "loss": 0.0321,
      "step": 7299
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.2326703518629074,
      "learning_rate": 0.00015187336625036303,
      "loss": 0.0413,
      "step": 7300
    },
    {
      "epoch": 2.05,
      "eval_loss": 0.06947404891252518,
      "eval_runtime": 172.1943,
      "eval_samples_per_second": 15.343,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.06279254264180881,
      "step": 7300
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.19773373007774353,
      "learning_rate": 0.00015185158292187046,
      "loss": 0.0592,
      "step": 7301
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.12086471170186996,
      "learning_rate": 0.00015182979959337786,
      "loss": 0.0144,
      "step": 7302
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.33737242221832275,
      "learning_rate": 0.00015180801626488524,
      "loss": 0.0648,
      "step": 7303
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.3128356337547302,
      "learning_rate": 0.00015178623293639267,
      "loss": 0.0338,
      "step": 7304
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.1813797801733017,
      "learning_rate": 0.00015176444960790007,
      "loss": 0.0267,
      "step": 7305
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.12917840480804443,
      "learning_rate": 0.0001517426662794075,
      "loss": 0.0207,
      "step": 7306
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.32645055651664734,
      "learning_rate": 0.00015172088295091487,
      "loss": 0.0338,
      "step": 7307
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.4742427468299866,
      "learning_rate": 0.0001516990996224223,
      "loss": 0.0445,
      "step": 7308
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.4070371091365814,
      "learning_rate": 0.0001516773162939297,
      "loss": 0.0181,
      "step": 7309
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.17236578464508057,
      "learning_rate": 0.00015165553296543713,
      "loss": 0.0167,
      "step": 7310
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.3730429708957672,
      "learning_rate": 0.0001516337496369445,
      "loss": 0.0502,
      "step": 7311
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.31967970728874207,
      "learning_rate": 0.0001516119663084519,
      "loss": 0.05,
      "step": 7312
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.2268783450126648,
      "learning_rate": 0.00015159018297995934,
      "loss": 0.0575,
      "step": 7313
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.41466328501701355,
      "learning_rate": 0.00015156839965146672,
      "loss": 0.0913,
      "step": 7314
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.17519007623195648,
      "learning_rate": 0.00015154661632297414,
      "loss": 0.0203,
      "step": 7315
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.16718259453773499,
      "learning_rate": 0.00015152483299448155,
      "loss": 0.0352,
      "step": 7316
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.23781797289848328,
      "learning_rate": 0.00015150304966598898,
      "loss": 0.0364,
      "step": 7317
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.1326049566268921,
      "learning_rate": 0.00015148126633749635,
      "loss": 0.0165,
      "step": 7318
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.1559012085199356,
      "learning_rate": 0.00015145948300900375,
      "loss": 0.0176,
      "step": 7319
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.2691222131252289,
      "learning_rate": 0.00015143769968051118,
      "loss": 0.0537,
      "step": 7320
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.22310158610343933,
      "learning_rate": 0.00015141591635201856,
      "loss": 0.0421,
      "step": 7321
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.20742538571357727,
      "learning_rate": 0.00015139413302352599,
      "loss": 0.0215,
      "step": 7322
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.11577630043029785,
      "learning_rate": 0.0001513723496950334,
      "loss": 0.0216,
      "step": 7323
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.5367113947868347,
      "learning_rate": 0.00015135056636654082,
      "loss": 0.027,
      "step": 7324
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.14299723505973816,
      "learning_rate": 0.0001513287830380482,
      "loss": 0.0378,
      "step": 7325
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.1914394050836563,
      "learning_rate": 0.00015130699970955562,
      "loss": 0.0351,
      "step": 7326
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.10123168677091599,
      "learning_rate": 0.00015128521638106302,
      "loss": 0.0282,
      "step": 7327
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.1665629893541336,
      "learning_rate": 0.0001512634330525704,
      "loss": 0.0166,
      "step": 7328
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.15369097888469696,
      "learning_rate": 0.00015124164972407783,
      "loss": 0.0381,
      "step": 7329
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.7226840257644653,
      "learning_rate": 0.00015121986639558523,
      "loss": 0.0388,
      "step": 7330
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.2534745931625366,
      "learning_rate": 0.00015119808306709266,
      "loss": 0.0441,
      "step": 7331
    },
    {
      "epoch": 2.05,
      "grad_norm": 0.08968418091535568,
      "learning_rate": 0.00015117629973860003,
      "loss": 0.0187,
      "step": 7332
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.17122690379619598,
      "learning_rate": 0.00015115451641010746,
      "loss": 0.0345,
      "step": 7333
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.26593515276908875,
      "learning_rate": 0.00015113273308161486,
      "loss": 0.0207,
      "step": 7334
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.5359842777252197,
      "learning_rate": 0.00015111094975312227,
      "loss": 0.1078,
      "step": 7335
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.9015614986419678,
      "learning_rate": 0.00015108916642462967,
      "loss": 0.0455,
      "step": 7336
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.401754766702652,
      "learning_rate": 0.00015106738309613707,
      "loss": 0.0279,
      "step": 7337
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.3366563618183136,
      "learning_rate": 0.0001510455997676445,
      "loss": 0.0564,
      "step": 7338
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.28368067741394043,
      "learning_rate": 0.00015102381643915187,
      "loss": 0.0336,
      "step": 7339
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.1740434169769287,
      "learning_rate": 0.0001510020331106593,
      "loss": 0.0174,
      "step": 7340
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.09006915986537933,
      "learning_rate": 0.0001509802497821667,
      "loss": 0.0249,
      "step": 7341
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.2664259672164917,
      "learning_rate": 0.0001509584664536741,
      "loss": 0.0461,
      "step": 7342
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.4413264989852905,
      "learning_rate": 0.0001509366831251815,
      "loss": 0.0378,
      "step": 7343
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.143015518784523,
      "learning_rate": 0.00015091489979668894,
      "loss": 0.0153,
      "step": 7344
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.15553459525108337,
      "learning_rate": 0.00015089311646819634,
      "loss": 0.0181,
      "step": 7345
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.4302390515804291,
      "learning_rate": 0.00015087133313970372,
      "loss": 0.0501,
      "step": 7346
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.30014729499816895,
      "learning_rate": 0.00015084954981121115,
      "loss": 0.0771,
      "step": 7347
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.489397257566452,
      "learning_rate": 0.00015082776648271855,
      "loss": 0.0435,
      "step": 7348
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.6830969452857971,
      "learning_rate": 0.00015080598315422595,
      "loss": 0.0598,
      "step": 7349
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.3565681576728821,
      "learning_rate": 0.00015078419982573335,
      "loss": 0.0704,
      "step": 7350
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.15758439898490906,
      "learning_rate": 0.00015076241649724078,
      "loss": 0.0214,
      "step": 7351
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.26079830527305603,
      "learning_rate": 0.00015074063316874818,
      "loss": 0.0554,
      "step": 7352
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.132652148604393,
      "learning_rate": 0.00015071884984025556,
      "loss": 0.0167,
      "step": 7353
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.20842638611793518,
      "learning_rate": 0.00015069706651176299,
      "loss": 0.0529,
      "step": 7354
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.14897800981998444,
      "learning_rate": 0.0001506752831832704,
      "loss": 0.0117,
      "step": 7355
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.2477504312992096,
      "learning_rate": 0.0001506534998547778,
      "loss": 0.046,
      "step": 7356
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.11363078653812408,
      "learning_rate": 0.0001506317165262852,
      "loss": 0.0202,
      "step": 7357
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.2033928632736206,
      "learning_rate": 0.00015060993319779262,
      "loss": 0.0409,
      "step": 7358
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.11867275834083557,
      "learning_rate": 0.00015058814986930002,
      "loss": 0.028,
      "step": 7359
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.2661491334438324,
      "learning_rate": 0.00015056636654080743,
      "loss": 0.0477,
      "step": 7360
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.42956510186195374,
      "learning_rate": 0.00015054458321231483,
      "loss": 0.0427,
      "step": 7361
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.2607963979244232,
      "learning_rate": 0.00015052279988382223,
      "loss": 0.0596,
      "step": 7362
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.3250460922718048,
      "learning_rate": 0.00015050101655532966,
      "loss": 0.0555,
      "step": 7363
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.19418077170848846,
      "learning_rate": 0.00015047923322683703,
      "loss": 0.049,
      "step": 7364
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.2963656187057495,
      "learning_rate": 0.00015045744989834446,
      "loss": 0.0744,
      "step": 7365
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.1791658252477646,
      "learning_rate": 0.00015043566656985186,
      "loss": 0.0191,
      "step": 7366
    },
    {
      "epoch": 2.06,
      "grad_norm": 0.4776015281677246,
      "learning_rate": 0.00015041388324135927,
      "loss": 0.0232,
      "step": 7367
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.2534538209438324,
      "learning_rate": 0.00015039209991286667,
      "loss": 0.0706,
      "step": 7368
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.16242197155952454,
      "learning_rate": 0.0001503703165843741,
      "loss": 0.0152,
      "step": 7369
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.08473857492208481,
      "learning_rate": 0.0001503485332558815,
      "loss": 0.0095,
      "step": 7370
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.1904715895652771,
      "learning_rate": 0.00015032674992738888,
      "loss": 0.0159,
      "step": 7371
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.21412107348442078,
      "learning_rate": 0.0001503049665988963,
      "loss": 0.0497,
      "step": 7372
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6364962458610535,
      "learning_rate": 0.0001502831832704037,
      "loss": 0.0375,
      "step": 7373
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.6719477772712708,
      "learning_rate": 0.0001502613999419111,
      "loss": 0.0552,
      "step": 7374
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.16170018911361694,
      "learning_rate": 0.0001502396166134185,
      "loss": 0.0215,
      "step": 7375
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.28796130418777466,
      "learning_rate": 0.00015021783328492594,
      "loss": 0.0634,
      "step": 7376
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.1391855925321579,
      "learning_rate": 0.00015019604995643334,
      "loss": 0.0198,
      "step": 7377
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.2937348484992981,
      "learning_rate": 0.00015017426662794072,
      "loss": 0.1089,
      "step": 7378
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.24395568668842316,
      "learning_rate": 0.00015015248329944815,
      "loss": 0.0298,
      "step": 7379
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.08304303139448166,
      "learning_rate": 0.00015013069997095555,
      "loss": 0.0143,
      "step": 7380
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.16188907623291016,
      "learning_rate": 0.00015010891664246295,
      "loss": 0.0284,
      "step": 7381
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.10680129379034042,
      "learning_rate": 0.00015008713331397035,
      "loss": 0.0274,
      "step": 7382
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.14353200793266296,
      "learning_rate": 0.00015006534998547778,
      "loss": 0.0325,
      "step": 7383
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.06759600341320038,
      "learning_rate": 0.00015004356665698518,
      "loss": 0.0104,
      "step": 7384
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.20810605585575104,
      "learning_rate": 0.00015002178332849258,
      "loss": 0.0516,
      "step": 7385
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.4126850962638855,
      "learning_rate": 0.00015,
      "loss": 0.0404,
      "step": 7386
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.14473630487918854,
      "learning_rate": 0.0001499782166715074,
      "loss": 0.0352,
      "step": 7387
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.16719594597816467,
      "learning_rate": 0.0001499564333430148,
      "loss": 0.045,
      "step": 7388
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.083690345287323,
      "learning_rate": 0.00014993465001452222,
      "loss": 0.0113,
      "step": 7389
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.20283174514770508,
      "learning_rate": 0.00014991286668602962,
      "loss": 0.0278,
      "step": 7390
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.26812365651130676,
      "learning_rate": 0.00014989108335753702,
      "loss": 0.0207,
      "step": 7391
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.10188037902116776,
      "learning_rate": 0.00014986930002904443,
      "loss": 0.0268,
      "step": 7392
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.20519906282424927,
      "learning_rate": 0.00014984751670055183,
      "loss": 0.0321,
      "step": 7393
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.13714070618152618,
      "learning_rate": 0.00014982573337205923,
      "loss": 0.0207,
      "step": 7394
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.18095512688159943,
      "learning_rate": 0.00014980395004356663,
      "loss": 0.0265,
      "step": 7395
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.24988703429698944,
      "learning_rate": 0.00014978216671507406,
      "loss": 0.0229,
      "step": 7396
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.4216620624065399,
      "learning_rate": 0.00014976038338658146,
      "loss": 0.0338,
      "step": 7397
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.20526579022407532,
      "learning_rate": 0.00014973860005808887,
      "loss": 0.0143,
      "step": 7398
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.351083904504776,
      "learning_rate": 0.00014971681672959627,
      "loss": 0.0321,
      "step": 7399
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.1426001489162445,
      "learning_rate": 0.00014969503340110367,
      "loss": 0.018,
      "step": 7400
    },
    {
      "epoch": 2.07,
      "eval_loss": 0.07491113990545273,
      "eval_runtime": 174.7556,
      "eval_samples_per_second": 15.118,
      "eval_steps_per_second": 0.475,
      "eval_wer": 0.06259420864736216,
      "step": 7400
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.1799590140581131,
      "learning_rate": 0.00014967325007261107,
      "loss": 0.027,
      "step": 7401
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.1956310123205185,
      "learning_rate": 0.00014965146674411847,
      "loss": 0.0492,
      "step": 7402
    },
    {
      "epoch": 2.07,
      "grad_norm": 0.21125929057598114,
      "learning_rate": 0.0001496296834156259,
      "loss": 0.0497,
      "step": 7403
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.164605051279068,
      "learning_rate": 0.0001496079000871333,
      "loss": 0.0111,
      "step": 7404
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.2983916997909546,
      "learning_rate": 0.0001495861167586407,
      "loss": 0.0447,
      "step": 7405
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.24289539456367493,
      "learning_rate": 0.0001495643334301481,
      "loss": 0.0415,
      "step": 7406
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.19462056457996368,
      "learning_rate": 0.0001495425501016555,
      "loss": 0.0256,
      "step": 7407
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.18020853400230408,
      "learning_rate": 0.0001495207667731629,
      "loss": 0.0393,
      "step": 7408
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.18517008423805237,
      "learning_rate": 0.00014949898344467031,
      "loss": 0.0265,
      "step": 7409
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.5459223389625549,
      "learning_rate": 0.00014947720011617774,
      "loss": 0.0749,
      "step": 7410
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.21752282977104187,
      "learning_rate": 0.00014945541678768515,
      "loss": 0.0112,
      "step": 7411
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.16783078014850616,
      "learning_rate": 0.00014943363345919255,
      "loss": 0.0271,
      "step": 7412
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.27140381932258606,
      "learning_rate": 0.00014941185013069995,
      "loss": 0.0463,
      "step": 7413
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.14544713497161865,
      "learning_rate": 0.00014939006680220738,
      "loss": 0.0374,
      "step": 7414
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.34261447191238403,
      "learning_rate": 0.00014936828347371478,
      "loss": 0.0124,
      "step": 7415
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.08206185698509216,
      "learning_rate": 0.00014934650014522218,
      "loss": 0.0129,
      "step": 7416
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.4945336580276489,
      "learning_rate": 0.00014932471681672959,
      "loss": 0.0383,
      "step": 7417
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.10337542742490768,
      "learning_rate": 0.000149302933488237,
      "loss": 0.0372,
      "step": 7418
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.18630486726760864,
      "learning_rate": 0.0001492811501597444,
      "loss": 0.0134,
      "step": 7419
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.18950603902339935,
      "learning_rate": 0.0001492593668312518,
      "loss": 0.0331,
      "step": 7420
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.24705453217029572,
      "learning_rate": 0.00014923758350275922,
      "loss": 0.0596,
      "step": 7421
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.3929911255836487,
      "learning_rate": 0.00014921580017426662,
      "loss": 0.0547,
      "step": 7422
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.6846061944961548,
      "learning_rate": 0.00014919401684577402,
      "loss": 0.1057,
      "step": 7423
    },
    {
      "epoch": 2.08,
      "grad_norm": 2.176229953765869,
      "learning_rate": 0.00014917223351728143,
      "loss": 0.1223,
      "step": 7424
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.22066116333007812,
      "learning_rate": 0.00014915045018878883,
      "loss": 0.0171,
      "step": 7425
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.1468934565782547,
      "learning_rate": 0.00014912866686029623,
      "loss": 0.019,
      "step": 7426
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.20815877616405487,
      "learning_rate": 0.00014910688353180363,
      "loss": 0.049,
      "step": 7427
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.26636365056037903,
      "learning_rate": 0.00014908510020331106,
      "loss": 0.0388,
      "step": 7428
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.19324983656406403,
      "learning_rate": 0.00014906331687481846,
      "loss": 0.0292,
      "step": 7429
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.2414914220571518,
      "learning_rate": 0.00014904153354632587,
      "loss": 0.0463,
      "step": 7430
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.19090764224529266,
      "learning_rate": 0.00014901975021783327,
      "loss": 0.0457,
      "step": 7431
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.14659665524959564,
      "learning_rate": 0.0001489979668893407,
      "loss": 0.0159,
      "step": 7432
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.15052169561386108,
      "learning_rate": 0.00014897618356084807,
      "loss": 0.0363,
      "step": 7433
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.26384469866752625,
      "learning_rate": 0.00014895440023235547,
      "loss": 0.0274,
      "step": 7434
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.24146924912929535,
      "learning_rate": 0.0001489326169038629,
      "loss": 0.0297,
      "step": 7435
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.528821587562561,
      "learning_rate": 0.0001489108335753703,
      "loss": 0.031,
      "step": 7436
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.15353088080883026,
      "learning_rate": 0.0001488890502468777,
      "loss": 0.0276,
      "step": 7437
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.15846072137355804,
      "learning_rate": 0.0001488672669183851,
      "loss": 0.027,
      "step": 7438
    },
    {
      "epoch": 2.08,
      "grad_norm": 0.25736209750175476,
      "learning_rate": 0.00014884548358989254,
      "loss": 0.0369,
      "step": 7439
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.23883216083049774,
      "learning_rate": 0.00014882370026139994,
      "loss": 0.042,
      "step": 7440
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.0846189633011818,
      "learning_rate": 0.00014880191693290732,
      "loss": 0.0112,
      "step": 7441
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.7249791026115417,
      "learning_rate": 0.00014878013360441474,
      "loss": 0.1011,
      "step": 7442
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.19436420500278473,
      "learning_rate": 0.00014875835027592215,
      "loss": 0.0252,
      "step": 7443
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.12021070718765259,
      "learning_rate": 0.00014873656694742955,
      "loss": 0.0203,
      "step": 7444
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.22970478236675262,
      "learning_rate": 0.00014871478361893695,
      "loss": 0.0284,
      "step": 7445
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.21610122919082642,
      "learning_rate": 0.00014869300029044438,
      "loss": 0.039,
      "step": 7446
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.7785912752151489,
      "learning_rate": 0.00014867121696195178,
      "loss": 0.0589,
      "step": 7447
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.36903703212738037,
      "learning_rate": 0.00014864943363345918,
      "loss": 0.0322,
      "step": 7448
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.4051264524459839,
      "learning_rate": 0.00014862765030496659,
      "loss": 0.0707,
      "step": 7449
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.2915142774581909,
      "learning_rate": 0.000148605866976474,
      "loss": 0.0372,
      "step": 7450
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.16183102130889893,
      "learning_rate": 0.0001485840836479814,
      "loss": 0.0257,
      "step": 7451
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.12170489877462387,
      "learning_rate": 0.0001485623003194888,
      "loss": 0.019,
      "step": 7452
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.14941340684890747,
      "learning_rate": 0.00014854051699099622,
      "loss": 0.0105,
      "step": 7453
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.13438093662261963,
      "learning_rate": 0.00014851873366250362,
      "loss": 0.0269,
      "step": 7454
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.23941493034362793,
      "learning_rate": 0.00014849695033401103,
      "loss": 0.0524,
      "step": 7455
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.23073428869247437,
      "learning_rate": 0.00014847516700551843,
      "loss": 0.0334,
      "step": 7456
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.16668111085891724,
      "learning_rate": 0.00014845338367702586,
      "loss": 0.0274,
      "step": 7457
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.15609514713287354,
      "learning_rate": 0.00014843160034853323,
      "loss": 0.0356,
      "step": 7458
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.24654796719551086,
      "learning_rate": 0.00014840981702004063,
      "loss": 0.0301,
      "step": 7459
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.3802025318145752,
      "learning_rate": 0.00014838803369154806,
      "loss": 0.0354,
      "step": 7460
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.4668547511100769,
      "learning_rate": 0.00014836625036305546,
      "loss": 0.0743,
      "step": 7461
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.2379857748746872,
      "learning_rate": 0.00014834446703456287,
      "loss": 0.0254,
      "step": 7462
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.24364201724529266,
      "learning_rate": 0.00014832268370607027,
      "loss": 0.0302,
      "step": 7463
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.26657551527023315,
      "learning_rate": 0.0001483009003775777,
      "loss": 0.051,
      "step": 7464
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.2072252780199051,
      "learning_rate": 0.0001482791170490851,
      "loss": 0.0432,
      "step": 7465
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.19712112843990326,
      "learning_rate": 0.00014825733372059247,
      "loss": 0.0399,
      "step": 7466
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.1658235639333725,
      "learning_rate": 0.0001482355503920999,
      "loss": 0.0336,
      "step": 7467
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.38204267621040344,
      "learning_rate": 0.0001482137670636073,
      "loss": 0.0682,
      "step": 7468
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.7631230354309082,
      "learning_rate": 0.0001481919837351147,
      "loss": 0.0949,
      "step": 7469
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.18488751351833344,
      "learning_rate": 0.0001481702004066221,
      "loss": 0.0419,
      "step": 7470
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.22403845191001892,
      "learning_rate": 0.00014814841707812954,
      "loss": 0.0445,
      "step": 7471
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.2830057442188263,
      "learning_rate": 0.00014812663374963694,
      "loss": 0.0371,
      "step": 7472
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.24205166101455688,
      "learning_rate": 0.00014810485042114434,
      "loss": 0.0382,
      "step": 7473
    },
    {
      "epoch": 2.09,
      "grad_norm": 0.21903203427791595,
      "learning_rate": 0.00014808306709265175,
      "loss": 0.0169,
      "step": 7474
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.1630154252052307,
      "learning_rate": 0.00014806128376415915,
      "loss": 0.0201,
      "step": 7475
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.12738312780857086,
      "learning_rate": 0.00014803950043566655,
      "loss": 0.0258,
      "step": 7476
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.26319828629493713,
      "learning_rate": 0.00014801771710717395,
      "loss": 0.0479,
      "step": 7477
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.20326262712478638,
      "learning_rate": 0.00014799593377868138,
      "loss": 0.0557,
      "step": 7478
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.17579065263271332,
      "learning_rate": 0.00014797415045018878,
      "loss": 0.0136,
      "step": 7479
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.12666554749011993,
      "learning_rate": 0.00014795236712169618,
      "loss": 0.0216,
      "step": 7480
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.1467011272907257,
      "learning_rate": 0.00014793058379320359,
      "loss": 0.0227,
      "step": 7481
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.22299577295780182,
      "learning_rate": 0.00014790880046471102,
      "loss": 0.0419,
      "step": 7482
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6725404858589172,
      "learning_rate": 0.0001478870171362184,
      "loss": 0.0911,
      "step": 7483
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.24405543506145477,
      "learning_rate": 0.0001478652338077258,
      "loss": 0.0342,
      "step": 7484
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.2440124899148941,
      "learning_rate": 0.00014784345047923322,
      "loss": 0.0126,
      "step": 7485
    },
    {
      "epoch": 2.1,
      "grad_norm": 1.0344946384429932,
      "learning_rate": 0.00014782166715074062,
      "loss": 0.1668,
      "step": 7486
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.11780071258544922,
      "learning_rate": 0.00014779988382224803,
      "loss": 0.0184,
      "step": 7487
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.20682743191719055,
      "learning_rate": 0.00014777810049375543,
      "loss": 0.0217,
      "step": 7488
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.3660721480846405,
      "learning_rate": 0.00014775631716526286,
      "loss": 0.0797,
      "step": 7489
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.14048738777637482,
      "learning_rate": 0.00014773453383677026,
      "loss": 0.0176,
      "step": 7490
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.14618565142154694,
      "learning_rate": 0.00014771275050827763,
      "loss": 0.0329,
      "step": 7491
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.19765916466712952,
      "learning_rate": 0.00014769096717978506,
      "loss": 0.0402,
      "step": 7492
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.14928489923477173,
      "learning_rate": 0.00014766918385129246,
      "loss": 0.0287,
      "step": 7493
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.0965917706489563,
      "learning_rate": 0.00014764740052279987,
      "loss": 0.0114,
      "step": 7494
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.27626103162765503,
      "learning_rate": 0.00014762561719430727,
      "loss": 0.0597,
      "step": 7495
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.17026439309120178,
      "learning_rate": 0.0001476038338658147,
      "loss": 0.023,
      "step": 7496
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.2795511484146118,
      "learning_rate": 0.0001475820505373221,
      "loss": 0.0287,
      "step": 7497
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.18515026569366455,
      "learning_rate": 0.0001475602672088295,
      "loss": 0.033,
      "step": 7498
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.38400745391845703,
      "learning_rate": 0.0001475384838803369,
      "loss": 0.0785,
      "step": 7499
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.17285022139549255,
      "learning_rate": 0.0001475167005518443,
      "loss": 0.0303,
      "step": 7500
    },
    {
      "epoch": 2.1,
      "eval_loss": 0.07232823967933655,
      "eval_runtime": 172.3248,
      "eval_samples_per_second": 15.332,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.06253470844902817,
      "step": 7500
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.6998735070228577,
      "learning_rate": 0.0001474949172233517,
      "loss": 0.0223,
      "step": 7501
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.3043491244316101,
      "learning_rate": 0.0001474731338948591,
      "loss": 0.0309,
      "step": 7502
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.147629514336586,
      "learning_rate": 0.00014745135056636654,
      "loss": 0.0742,
      "step": 7503
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.14790160953998566,
      "learning_rate": 0.00014742956723787394,
      "loss": 0.0283,
      "step": 7504
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.17031329870224,
      "learning_rate": 0.00014740778390938134,
      "loss": 0.0184,
      "step": 7505
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.1924697756767273,
      "learning_rate": 0.00014738600058088875,
      "loss": 0.0273,
      "step": 7506
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.5385337471961975,
      "learning_rate": 0.00014736421725239615,
      "loss": 0.0694,
      "step": 7507
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.30361250042915344,
      "learning_rate": 0.00014734243392390355,
      "loss": 0.0295,
      "step": 7508
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.27596086263656616,
      "learning_rate": 0.00014732065059541095,
      "loss": 0.0203,
      "step": 7509
    },
    {
      "epoch": 2.1,
      "grad_norm": 0.21154317259788513,
      "learning_rate": 0.00014729886726691838,
      "loss": 0.0511,
      "step": 7510
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.4508821368217468,
      "learning_rate": 0.00014727708393842578,
      "loss": 0.0472,
      "step": 7511
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.207231804728508,
      "learning_rate": 0.00014725530060993318,
      "loss": 0.022,
      "step": 7512
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.08079086989164352,
      "learning_rate": 0.0001472335172814406,
      "loss": 0.0083,
      "step": 7513
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.1567973494529724,
      "learning_rate": 0.000147211733952948,
      "loss": 0.03,
      "step": 7514
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.16149073839187622,
      "learning_rate": 0.00014718995062445542,
      "loss": 0.0404,
      "step": 7515
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.18082818388938904,
      "learning_rate": 0.0001471681672959628,
      "loss": 0.0205,
      "step": 7516
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.1801581233739853,
      "learning_rate": 0.00014714638396747022,
      "loss": 0.0566,
      "step": 7517
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.2423435002565384,
      "learning_rate": 0.00014712460063897762,
      "loss": 0.0434,
      "step": 7518
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.16592665016651154,
      "learning_rate": 0.00014710281731048503,
      "loss": 0.0272,
      "step": 7519
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.2182244509458542,
      "learning_rate": 0.00014708103398199243,
      "loss": 0.0312,
      "step": 7520
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.17600660026073456,
      "learning_rate": 0.00014705925065349983,
      "loss": 0.0297,
      "step": 7521
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.3290855586528778,
      "learning_rate": 0.00014703746732500726,
      "loss": 0.1028,
      "step": 7522
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.7094060778617859,
      "learning_rate": 0.00014701568399651466,
      "loss": 0.1242,
      "step": 7523
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.3054911196231842,
      "learning_rate": 0.00014699390066802206,
      "loss": 0.0395,
      "step": 7524
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.1558121144771576,
      "learning_rate": 0.00014697211733952947,
      "loss": 0.0332,
      "step": 7525
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.15960809588432312,
      "learning_rate": 0.00014695033401103687,
      "loss": 0.0376,
      "step": 7526
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.2960371673107147,
      "learning_rate": 0.00014692855068254427,
      "loss": 0.0333,
      "step": 7527
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.17612895369529724,
      "learning_rate": 0.0001469067673540517,
      "loss": 0.0317,
      "step": 7528
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.1893053650856018,
      "learning_rate": 0.0001468849840255591,
      "loss": 0.0575,
      "step": 7529
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.20444577932357788,
      "learning_rate": 0.0001468632006970665,
      "loss": 0.0289,
      "step": 7530
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.25106334686279297,
      "learning_rate": 0.0001468414173685739,
      "loss": 0.0349,
      "step": 7531
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.4745277762413025,
      "learning_rate": 0.0001468196340400813,
      "loss": 0.0214,
      "step": 7532
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.11921031028032303,
      "learning_rate": 0.0001467978507115887,
      "loss": 0.0368,
      "step": 7533
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.23353585600852966,
      "learning_rate": 0.0001467760673830961,
      "loss": 0.0209,
      "step": 7534
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.22603362798690796,
      "learning_rate": 0.00014675428405460354,
      "loss": 0.0165,
      "step": 7535
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.1737249195575714,
      "learning_rate": 0.00014673250072611094,
      "loss": 0.0175,
      "step": 7536
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.23744727671146393,
      "learning_rate": 0.00014671071739761834,
      "loss": 0.0561,
      "step": 7537
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.24650396406650543,
      "learning_rate": 0.00014668893406912575,
      "loss": 0.0311,
      "step": 7538
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.20802545547485352,
      "learning_rate": 0.00014666715074063315,
      "loss": 0.0484,
      "step": 7539
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.1965111643075943,
      "learning_rate": 0.00014664536741214058,
      "loss": 0.0405,
      "step": 7540
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.347874253988266,
      "learning_rate": 0.00014662358408364795,
      "loss": 0.0825,
      "step": 7541
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.24150261282920837,
      "learning_rate": 0.00014660180075515538,
      "loss": 0.0422,
      "step": 7542
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.21754451096057892,
      "learning_rate": 0.00014658001742666278,
      "loss": 0.0368,
      "step": 7543
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.25017842650413513,
      "learning_rate": 0.00014655823409817019,
      "loss": 0.0377,
      "step": 7544
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.13664861023426056,
      "learning_rate": 0.0001465364507696776,
      "loss": 0.0218,
      "step": 7545
    },
    {
      "epoch": 2.11,
      "grad_norm": 0.37866950035095215,
      "learning_rate": 0.000146514667441185,
      "loss": 0.0501,
      "step": 7546
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.24662597477436066,
      "learning_rate": 0.00014649288411269242,
      "loss": 0.037,
      "step": 7547
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.3982112407684326,
      "learning_rate": 0.00014647110078419982,
      "loss": 0.0434,
      "step": 7548
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.3058469891548157,
      "learning_rate": 0.00014644931745570722,
      "loss": 0.0335,
      "step": 7549
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.18779639899730682,
      "learning_rate": 0.00014642753412721462,
      "loss": 0.027,
      "step": 7550
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.3132878839969635,
      "learning_rate": 0.00014640575079872203,
      "loss": 0.0353,
      "step": 7551
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.2969573736190796,
      "learning_rate": 0.00014638396747022943,
      "loss": 0.0576,
      "step": 7552
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.11845629662275314,
      "learning_rate": 0.00014636218414173683,
      "loss": 0.0136,
      "step": 7553
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.2570967972278595,
      "learning_rate": 0.00014634040081324426,
      "loss": 0.0642,
      "step": 7554
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.12481431663036346,
      "learning_rate": 0.00014631861748475166,
      "loss": 0.0174,
      "step": 7555
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5219947099685669,
      "learning_rate": 0.00014629683415625906,
      "loss": 0.0608,
      "step": 7556
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.2304292619228363,
      "learning_rate": 0.00014627505082776647,
      "loss": 0.0326,
      "step": 7557
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.1692838817834854,
      "learning_rate": 0.00014625326749927387,
      "loss": 0.0264,
      "step": 7558
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.15437963604927063,
      "learning_rate": 0.00014623148417078127,
      "loss": 0.017,
      "step": 7559
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5748304128646851,
      "learning_rate": 0.00014620970084228867,
      "loss": 0.0594,
      "step": 7560
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5912871360778809,
      "learning_rate": 0.0001461879175137961,
      "loss": 0.036,
      "step": 7561
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.1735904961824417,
      "learning_rate": 0.0001461661341853035,
      "loss": 0.0243,
      "step": 7562
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.15515710413455963,
      "learning_rate": 0.0001461443508568109,
      "loss": 0.0271,
      "step": 7563
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.1370382159948349,
      "learning_rate": 0.0001461225675283183,
      "loss": 0.0263,
      "step": 7564
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.19030828773975372,
      "learning_rate": 0.00014610078419982574,
      "loss": 0.0199,
      "step": 7565
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.28950244188308716,
      "learning_rate": 0.00014607900087133314,
      "loss": 0.0337,
      "step": 7566
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.19820138812065125,
      "learning_rate": 0.0001460572175428405,
      "loss": 0.043,
      "step": 7567
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.23302297294139862,
      "learning_rate": 0.00014603543421434794,
      "loss": 0.0334,
      "step": 7568
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.3224015235900879,
      "learning_rate": 0.00014601365088585534,
      "loss": 0.0516,
      "step": 7569
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.3632335662841797,
      "learning_rate": 0.00014599186755736275,
      "loss": 0.0578,
      "step": 7570
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.25974318385124207,
      "learning_rate": 0.00014597008422887015,
      "loss": 0.0475,
      "step": 7571
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.1427350789308548,
      "learning_rate": 0.00014594830090037758,
      "loss": 0.0124,
      "step": 7572
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.4507068395614624,
      "learning_rate": 0.00014592651757188498,
      "loss": 0.0512,
      "step": 7573
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.5610732436180115,
      "learning_rate": 0.00014590473424339238,
      "loss": 0.0787,
      "step": 7574
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.21312014758586884,
      "learning_rate": 0.00014588295091489978,
      "loss": 0.0329,
      "step": 7575
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.10203996300697327,
      "learning_rate": 0.00014586116758640719,
      "loss": 0.0137,
      "step": 7576
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.6097700595855713,
      "learning_rate": 0.0001458393842579146,
      "loss": 0.0332,
      "step": 7577
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.423104465007782,
      "learning_rate": 0.000145817600929422,
      "loss": 0.0123,
      "step": 7578
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.3882594704627991,
      "learning_rate": 0.00014579581760092942,
      "loss": 0.0612,
      "step": 7579
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.18952138721942902,
      "learning_rate": 0.00014577403427243682,
      "loss": 0.0364,
      "step": 7580
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.1843337118625641,
      "learning_rate": 0.00014575225094394422,
      "loss": 0.0303,
      "step": 7581
    },
    {
      "epoch": 2.12,
      "grad_norm": 0.11817245185375214,
      "learning_rate": 0.00014573046761545163,
      "loss": 0.0178,
      "step": 7582
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.3033817410469055,
      "learning_rate": 0.00014570868428695903,
      "loss": 0.0473,
      "step": 7583
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.2799449563026428,
      "learning_rate": 0.00014568690095846643,
      "loss": 0.04,
      "step": 7584
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.392579048871994,
      "learning_rate": 0.00014566511762997383,
      "loss": 0.0312,
      "step": 7585
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.978063702583313,
      "learning_rate": 0.00014564333430148126,
      "loss": 0.0836,
      "step": 7586
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.1569730043411255,
      "learning_rate": 0.00014562155097298866,
      "loss": 0.0185,
      "step": 7587
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.20382769405841827,
      "learning_rate": 0.00014559976764449606,
      "loss": 0.0566,
      "step": 7588
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.23389945924282074,
      "learning_rate": 0.00014557798431600347,
      "loss": 0.0348,
      "step": 7589
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.19563716650009155,
      "learning_rate": 0.0001455562009875109,
      "loss": 0.0306,
      "step": 7590
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.29425927996635437,
      "learning_rate": 0.0001455344176590183,
      "loss": 0.03,
      "step": 7591
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.26734429597854614,
      "learning_rate": 0.00014551263433052567,
      "loss": 0.0378,
      "step": 7592
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.283021479845047,
      "learning_rate": 0.0001454908510020331,
      "loss": 0.0252,
      "step": 7593
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.12727895379066467,
      "learning_rate": 0.0001454690676735405,
      "loss": 0.016,
      "step": 7594
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.14059428870677948,
      "learning_rate": 0.0001454472843450479,
      "loss": 0.0156,
      "step": 7595
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.21468323469161987,
      "learning_rate": 0.0001454255010165553,
      "loss": 0.0239,
      "step": 7596
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.2593107521533966,
      "learning_rate": 0.00014540371768806274,
      "loss": 0.0846,
      "step": 7597
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.0905640497803688,
      "learning_rate": 0.00014538193435957014,
      "loss": 0.0054,
      "step": 7598
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.22027218341827393,
      "learning_rate": 0.00014536015103107754,
      "loss": 0.0133,
      "step": 7599
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.214283287525177,
      "learning_rate": 0.00014533836770258494,
      "loss": 0.0196,
      "step": 7600
    },
    {
      "epoch": 2.13,
      "eval_loss": 0.074091836810112,
      "eval_runtime": 172.7297,
      "eval_samples_per_second": 15.296,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.06289170963903214,
      "step": 7600
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.366254985332489,
      "learning_rate": 0.00014531658437409235,
      "loss": 0.0189,
      "step": 7601
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.2789698839187622,
      "learning_rate": 0.00014529480104559975,
      "loss": 0.0397,
      "step": 7602
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.23262877762317657,
      "learning_rate": 0.00014527301771710715,
      "loss": 0.0337,
      "step": 7603
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.24063846468925476,
      "learning_rate": 0.00014525123438861458,
      "loss": 0.0379,
      "step": 7604
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.21992893517017365,
      "learning_rate": 0.00014522945106012198,
      "loss": 0.0281,
      "step": 7605
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.2210378646850586,
      "learning_rate": 0.00014520766773162938,
      "loss": 0.0256,
      "step": 7606
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.3106100261211395,
      "learning_rate": 0.00014518588440313678,
      "loss": 0.0255,
      "step": 7607
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.3272666931152344,
      "learning_rate": 0.0001451641010746442,
      "loss": 0.0686,
      "step": 7608
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.1714249849319458,
      "learning_rate": 0.0001451423177461516,
      "loss": 0.008,
      "step": 7609
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.4314892292022705,
      "learning_rate": 0.000145120534417659,
      "loss": 0.0628,
      "step": 7610
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.39991211891174316,
      "learning_rate": 0.00014509875108916642,
      "loss": 0.0819,
      "step": 7611
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.23717409372329712,
      "learning_rate": 0.00014507696776067382,
      "loss": 0.0362,
      "step": 7612
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.17473730444908142,
      "learning_rate": 0.00014505518443218122,
      "loss": 0.0195,
      "step": 7613
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.1684323102235794,
      "learning_rate": 0.00014503340110368863,
      "loss": 0.0326,
      "step": 7614
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.17111720144748688,
      "learning_rate": 0.00014501161777519605,
      "loss": 0.0404,
      "step": 7615
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.23958629369735718,
      "learning_rate": 0.00014498983444670346,
      "loss": 0.0267,
      "step": 7616
    },
    {
      "epoch": 2.13,
      "grad_norm": 0.26531264185905457,
      "learning_rate": 0.00014496805111821083,
      "loss": 0.0496,
      "step": 7617
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.11497765779495239,
      "learning_rate": 0.00014494626778971826,
      "loss": 0.0325,
      "step": 7618
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.13486997783184052,
      "learning_rate": 0.00014492448446122566,
      "loss": 0.0239,
      "step": 7619
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.23303356766700745,
      "learning_rate": 0.00014490270113273307,
      "loss": 0.0225,
      "step": 7620
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.16181746125221252,
      "learning_rate": 0.00014488091780424047,
      "loss": 0.0193,
      "step": 7621
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.1294807493686676,
      "learning_rate": 0.0001448591344757479,
      "loss": 0.0139,
      "step": 7622
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.6824113726615906,
      "learning_rate": 0.0001448373511472553,
      "loss": 0.0998,
      "step": 7623
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.7213533520698547,
      "learning_rate": 0.0001448155678187627,
      "loss": 0.0292,
      "step": 7624
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.16325968503952026,
      "learning_rate": 0.0001447937844902701,
      "loss": 0.0252,
      "step": 7625
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.2006746530532837,
      "learning_rate": 0.0001447720011617775,
      "loss": 0.0292,
      "step": 7626
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.4159439206123352,
      "learning_rate": 0.0001447502178332849,
      "loss": 0.0479,
      "step": 7627
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.19226224720478058,
      "learning_rate": 0.0001447284345047923,
      "loss": 0.0274,
      "step": 7628
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.13445992767810822,
      "learning_rate": 0.00014470665117629974,
      "loss": 0.0188,
      "step": 7629
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.1851930469274521,
      "learning_rate": 0.00014468486784780714,
      "loss": 0.0272,
      "step": 7630
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.1266641616821289,
      "learning_rate": 0.00014466308451931454,
      "loss": 0.0176,
      "step": 7631
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.21270179748535156,
      "learning_rate": 0.00014464130119082194,
      "loss": 0.0261,
      "step": 7632
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.2131875902414322,
      "learning_rate": 0.00014461951786232937,
      "loss": 0.0179,
      "step": 7633
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.17043907940387726,
      "learning_rate": 0.00014459773453383675,
      "loss": 0.0547,
      "step": 7634
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.21606917679309845,
      "learning_rate": 0.00014457595120534415,
      "loss": 0.0141,
      "step": 7635
    },
    {
      "epoch": 2.14,
      "grad_norm": 1.0561861991882324,
      "learning_rate": 0.00014455416787685158,
      "loss": 0.086,
      "step": 7636
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.21589189767837524,
      "learning_rate": 0.00014453238454835898,
      "loss": 0.0337,
      "step": 7637
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.19329071044921875,
      "learning_rate": 0.00014451060121986638,
      "loss": 0.0371,
      "step": 7638
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.22128579020500183,
      "learning_rate": 0.00014448881789137378,
      "loss": 0.0447,
      "step": 7639
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.22538065910339355,
      "learning_rate": 0.00014446703456288121,
      "loss": 0.057,
      "step": 7640
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.19798842072486877,
      "learning_rate": 0.00014444525123438862,
      "loss": 0.0245,
      "step": 7641
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.15834946930408478,
      "learning_rate": 0.000144423467905896,
      "loss": 0.0281,
      "step": 7642
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.1699015200138092,
      "learning_rate": 0.00014440168457740342,
      "loss": 0.0181,
      "step": 7643
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.325612336397171,
      "learning_rate": 0.00014437990124891082,
      "loss": 0.0474,
      "step": 7644
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.34333786368370056,
      "learning_rate": 0.00014435811792041822,
      "loss": 0.0314,
      "step": 7645
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.3708648681640625,
      "learning_rate": 0.00014433633459192563,
      "loss": 0.0432,
      "step": 7646
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.3434723913669586,
      "learning_rate": 0.00014431455126343306,
      "loss": 0.04,
      "step": 7647
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.4381091296672821,
      "learning_rate": 0.00014429276793494046,
      "loss": 0.061,
      "step": 7648
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.09818488359451294,
      "learning_rate": 0.00014427098460644786,
      "loss": 0.01,
      "step": 7649
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.23767168819904327,
      "learning_rate": 0.00014424920127795526,
      "loss": 0.0481,
      "step": 7650
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.16554836928844452,
      "learning_rate": 0.00014422741794946266,
      "loss": 0.0237,
      "step": 7651
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.14464814960956573,
      "learning_rate": 0.00014420563462097007,
      "loss": 0.0206,
      "step": 7652
    },
    {
      "epoch": 2.14,
      "grad_norm": 0.21927721798419952,
      "learning_rate": 0.00014418385129247747,
      "loss": 0.0451,
      "step": 7653
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.32882288098335266,
      "learning_rate": 0.0001441620679639849,
      "loss": 0.0358,
      "step": 7654
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1473311334848404,
      "learning_rate": 0.0001441402846354923,
      "loss": 0.0157,
      "step": 7655
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.13393597304821014,
      "learning_rate": 0.0001441185013069997,
      "loss": 0.0291,
      "step": 7656
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.15256880223751068,
      "learning_rate": 0.0001440967179785071,
      "loss": 0.0207,
      "step": 7657
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.18195804953575134,
      "learning_rate": 0.0001440749346500145,
      "loss": 0.0239,
      "step": 7658
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1695692241191864,
      "learning_rate": 0.0001440531513215219,
      "loss": 0.0484,
      "step": 7659
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.22663643956184387,
      "learning_rate": 0.0001440313679930293,
      "loss": 0.0128,
      "step": 7660
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.47598278522491455,
      "learning_rate": 0.00014400958466453674,
      "loss": 0.1046,
      "step": 7661
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1972534954547882,
      "learning_rate": 0.00014398780133604414,
      "loss": 0.0576,
      "step": 7662
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.16625729203224182,
      "learning_rate": 0.00014396601800755154,
      "loss": 0.0302,
      "step": 7663
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5934861302375793,
      "learning_rate": 0.00014394423467905894,
      "loss": 0.075,
      "step": 7664
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1656031459569931,
      "learning_rate": 0.00014392245135056635,
      "loss": 0.0155,
      "step": 7665
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.22447499632835388,
      "learning_rate": 0.00014390066802207378,
      "loss": 0.0458,
      "step": 7666
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.20608307421207428,
      "learning_rate": 0.00014387888469358115,
      "loss": 0.0388,
      "step": 7667
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1579786241054535,
      "learning_rate": 0.00014385710136508858,
      "loss": 0.0257,
      "step": 7668
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1903802901506424,
      "learning_rate": 0.00014383531803659598,
      "loss": 0.0515,
      "step": 7669
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1310875117778778,
      "learning_rate": 0.00014381353470810338,
      "loss": 0.0262,
      "step": 7670
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.2194792479276657,
      "learning_rate": 0.00014379175137961079,
      "loss": 0.0456,
      "step": 7671
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1800462156534195,
      "learning_rate": 0.0001437699680511182,
      "loss": 0.0192,
      "step": 7672
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.5214523077011108,
      "learning_rate": 0.00014374818472262562,
      "loss": 0.0358,
      "step": 7673
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.341132789850235,
      "learning_rate": 0.00014372640139413302,
      "loss": 0.0413,
      "step": 7674
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.29218795895576477,
      "learning_rate": 0.00014370461806564042,
      "loss": 0.0283,
      "step": 7675
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1923452466726303,
      "learning_rate": 0.00014368283473714782,
      "loss": 0.0292,
      "step": 7676
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.23926624655723572,
      "learning_rate": 0.00014366105140865522,
      "loss": 0.0288,
      "step": 7677
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.2203582227230072,
      "learning_rate": 0.00014363926808016263,
      "loss": 0.0622,
      "step": 7678
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.20407359302043915,
      "learning_rate": 0.00014361748475167003,
      "loss": 0.036,
      "step": 7679
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.16887490451335907,
      "learning_rate": 0.00014359570142317746,
      "loss": 0.0329,
      "step": 7680
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1541341096162796,
      "learning_rate": 0.00014357391809468486,
      "loss": 0.0226,
      "step": 7681
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.23110727965831757,
      "learning_rate": 0.00014355213476619226,
      "loss": 0.026,
      "step": 7682
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1722085326910019,
      "learning_rate": 0.00014353035143769966,
      "loss": 0.0342,
      "step": 7683
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.17474257946014404,
      "learning_rate": 0.00014350856810920707,
      "loss": 0.0332,
      "step": 7684
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.2795889675617218,
      "learning_rate": 0.00014348678478071447,
      "loss": 0.0306,
      "step": 7685
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.09363492578268051,
      "learning_rate": 0.0001434650014522219,
      "loss": 0.0085,
      "step": 7686
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.17984579503536224,
      "learning_rate": 0.0001434432181237293,
      "loss": 0.0254,
      "step": 7687
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.2635221779346466,
      "learning_rate": 0.0001434214347952367,
      "loss": 0.0516,
      "step": 7688
    },
    {
      "epoch": 2.15,
      "grad_norm": 0.1564854383468628,
      "learning_rate": 0.0001433996514667441,
      "loss": 0.0542,
      "step": 7689
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.2785930633544922,
      "learning_rate": 0.0001433778681382515,
      "loss": 0.0555,
      "step": 7690
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.1492258906364441,
      "learning_rate": 0.00014335608480975893,
      "loss": 0.0274,
      "step": 7691
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.10869529098272324,
      "learning_rate": 0.0001433343014812663,
      "loss": 0.0251,
      "step": 7692
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.16480332612991333,
      "learning_rate": 0.00014331251815277374,
      "loss": 0.0399,
      "step": 7693
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.20432192087173462,
      "learning_rate": 0.00014329073482428114,
      "loss": 0.0308,
      "step": 7694
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.2593698501586914,
      "learning_rate": 0.00014326895149578854,
      "loss": 0.0339,
      "step": 7695
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.1072874516248703,
      "learning_rate": 0.00014324716816729594,
      "loss": 0.0138,
      "step": 7696
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.14891475439071655,
      "learning_rate": 0.00014322538483880335,
      "loss": 0.0203,
      "step": 7697
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.5573878884315491,
      "learning_rate": 0.00014320360151031078,
      "loss": 0.0887,
      "step": 7698
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.4690811038017273,
      "learning_rate": 0.00014318181818181818,
      "loss": 0.0355,
      "step": 7699
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.14674395322799683,
      "learning_rate": 0.00014316003485332558,
      "loss": 0.015,
      "step": 7700
    },
    {
      "epoch": 2.16,
      "eval_loss": 0.06987042725086212,
      "eval_runtime": 172.6227,
      "eval_samples_per_second": 15.305,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.058290360967869895,
      "step": 7700
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.14054393768310547,
      "learning_rate": 0.00014313825152483298,
      "loss": 0.0195,
      "step": 7701
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.35177263617515564,
      "learning_rate": 0.00014311646819634038,
      "loss": 0.0599,
      "step": 7702
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.1016358733177185,
      "learning_rate": 0.00014309468486784779,
      "loss": 0.0159,
      "step": 7703
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.11154231429100037,
      "learning_rate": 0.0001430729015393552,
      "loss": 0.0323,
      "step": 7704
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.19334320724010468,
      "learning_rate": 0.00014305111821086262,
      "loss": 0.0283,
      "step": 7705
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.21612533926963806,
      "learning_rate": 0.00014302933488237002,
      "loss": 0.03,
      "step": 7706
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.28583723306655884,
      "learning_rate": 0.00014300755155387742,
      "loss": 0.0401,
      "step": 7707
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.46461036801338196,
      "learning_rate": 0.00014298576822538482,
      "loss": 0.0691,
      "step": 7708
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.22549086809158325,
      "learning_rate": 0.00014296398489689223,
      "loss": 0.0327,
      "step": 7709
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.1778251826763153,
      "learning_rate": 0.00014294220156839963,
      "loss": 0.0144,
      "step": 7710
    },
    {
      "epoch": 2.16,
      "grad_norm": 1.045664668083191,
      "learning_rate": 0.00014292041823990703,
      "loss": 0.0734,
      "step": 7711
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.336881548166275,
      "learning_rate": 0.00014289863491141446,
      "loss": 0.0305,
      "step": 7712
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.17661914229393005,
      "learning_rate": 0.00014287685158292186,
      "loss": 0.0307,
      "step": 7713
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.155608668923378,
      "learning_rate": 0.00014285506825442926,
      "loss": 0.0181,
      "step": 7714
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.12260154634714127,
      "learning_rate": 0.00014283328492593666,
      "loss": 0.0149,
      "step": 7715
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.16106116771697998,
      "learning_rate": 0.0001428115015974441,
      "loss": 0.0301,
      "step": 7716
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.7964813709259033,
      "learning_rate": 0.00014278971826895147,
      "loss": 0.0618,
      "step": 7717
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.14704979956150055,
      "learning_rate": 0.00014276793494045887,
      "loss": 0.032,
      "step": 7718
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.33776193857192993,
      "learning_rate": 0.0001427461516119663,
      "loss": 0.0415,
      "step": 7719
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.16786667704582214,
      "learning_rate": 0.0001427243682834737,
      "loss": 0.0238,
      "step": 7720
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.31516778469085693,
      "learning_rate": 0.0001427025849549811,
      "loss": 0.0239,
      "step": 7721
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.2238408774137497,
      "learning_rate": 0.0001426808016264885,
      "loss": 0.0389,
      "step": 7722
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.1952035278081894,
      "learning_rate": 0.00014265901829799594,
      "loss": 0.0162,
      "step": 7723
    },
    {
      "epoch": 2.16,
      "grad_norm": 0.44779863953590393,
      "learning_rate": 0.00014263723496950334,
      "loss": 0.0995,
      "step": 7724
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.13624680042266846,
      "learning_rate": 0.00014261545164101074,
      "loss": 0.0218,
      "step": 7725
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.20510204136371613,
      "learning_rate": 0.00014259366831251814,
      "loss": 0.0403,
      "step": 7726
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.15592463314533234,
      "learning_rate": 0.00014257188498402554,
      "loss": 0.0145,
      "step": 7727
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.21651898324489594,
      "learning_rate": 0.00014255010165553295,
      "loss": 0.0448,
      "step": 7728
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.1156635582447052,
      "learning_rate": 0.00014252831832704035,
      "loss": 0.0194,
      "step": 7729
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.13175152242183685,
      "learning_rate": 0.00014250653499854778,
      "loss": 0.0162,
      "step": 7730
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.1085282489657402,
      "learning_rate": 0.00014248475167005518,
      "loss": 0.0135,
      "step": 7731
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.17258881032466888,
      "learning_rate": 0.00014246296834156258,
      "loss": 0.026,
      "step": 7732
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.27146777510643005,
      "learning_rate": 0.00014244118501306998,
      "loss": 0.0269,
      "step": 7733
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.17698316276073456,
      "learning_rate": 0.00014241940168457738,
      "loss": 0.0309,
      "step": 7734
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5516097545623779,
      "learning_rate": 0.0001423976183560848,
      "loss": 0.0693,
      "step": 7735
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.43372538685798645,
      "learning_rate": 0.0001423758350275922,
      "loss": 0.0873,
      "step": 7736
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.2516975700855255,
      "learning_rate": 0.00014235405169909962,
      "loss": 0.0484,
      "step": 7737
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.19593697786331177,
      "learning_rate": 0.00014233226837060702,
      "loss": 0.0378,
      "step": 7738
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.27373751997947693,
      "learning_rate": 0.00014231048504211442,
      "loss": 0.0325,
      "step": 7739
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.2678033113479614,
      "learning_rate": 0.00014228870171362182,
      "loss": 0.0828,
      "step": 7740
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.13920117914676666,
      "learning_rate": 0.00014226691838512925,
      "loss": 0.0359,
      "step": 7741
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.2526828348636627,
      "learning_rate": 0.00014224513505663665,
      "loss": 0.0707,
      "step": 7742
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.27446961402893066,
      "learning_rate": 0.00014222335172814403,
      "loss": 0.0404,
      "step": 7743
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.2689419686794281,
      "learning_rate": 0.00014220156839965146,
      "loss": 0.0322,
      "step": 7744
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.27544844150543213,
      "learning_rate": 0.00014217978507115886,
      "loss": 0.0451,
      "step": 7745
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.12456192076206207,
      "learning_rate": 0.00014215800174266626,
      "loss": 0.0241,
      "step": 7746
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.20573623478412628,
      "learning_rate": 0.00014213621841417367,
      "loss": 0.0203,
      "step": 7747
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.25704169273376465,
      "learning_rate": 0.0001421144350856811,
      "loss": 0.03,
      "step": 7748
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.2966161072254181,
      "learning_rate": 0.0001420926517571885,
      "loss": 0.0521,
      "step": 7749
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.11563831567764282,
      "learning_rate": 0.0001420708684286959,
      "loss": 0.0173,
      "step": 7750
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.06863436102867126,
      "learning_rate": 0.0001420490851002033,
      "loss": 0.0091,
      "step": 7751
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.25323015451431274,
      "learning_rate": 0.0001420273017717107,
      "loss": 0.0627,
      "step": 7752
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.3349965810775757,
      "learning_rate": 0.0001420055184432181,
      "loss": 0.0415,
      "step": 7753
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.2850739061832428,
      "learning_rate": 0.0001419837351147255,
      "loss": 0.0427,
      "step": 7754
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.17411750555038452,
      "learning_rate": 0.00014196195178623294,
      "loss": 0.0427,
      "step": 7755
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.5015588402748108,
      "learning_rate": 0.00014194016845774034,
      "loss": 0.0202,
      "step": 7756
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.2403164803981781,
      "learning_rate": 0.00014191838512924774,
      "loss": 0.037,
      "step": 7757
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.21371833980083466,
      "learning_rate": 0.00014189660180075514,
      "loss": 0.0384,
      "step": 7758
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.15425428748130798,
      "learning_rate": 0.00014187481847226254,
      "loss": 0.0124,
      "step": 7759
    },
    {
      "epoch": 2.17,
      "grad_norm": 0.17235209047794342,
      "learning_rate": 0.00014185303514376995,
      "loss": 0.0142,
      "step": 7760
    },
    {
      "epoch": 2.18,
      "grad_norm": 1.2115765810012817,
      "learning_rate": 0.00014183125181527735,
      "loss": 0.0399,
      "step": 7761
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.09572377055883408,
      "learning_rate": 0.00014180946848678478,
      "loss": 0.0199,
      "step": 7762
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.43365734815597534,
      "learning_rate": 0.00014178768515829218,
      "loss": 0.0492,
      "step": 7763
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.26737716794013977,
      "learning_rate": 0.00014176590182979958,
      "loss": 0.0569,
      "step": 7764
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.09867499023675919,
      "learning_rate": 0.00014174411850130698,
      "loss": 0.009,
      "step": 7765
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.1119978055357933,
      "learning_rate": 0.0001417223351728144,
      "loss": 0.0104,
      "step": 7766
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.2841196060180664,
      "learning_rate": 0.00014170055184432181,
      "loss": 0.0641,
      "step": 7767
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.24905924499034882,
      "learning_rate": 0.0001416787685158292,
      "loss": 0.0246,
      "step": 7768
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.08759300410747528,
      "learning_rate": 0.00014165698518733662,
      "loss": 0.0157,
      "step": 7769
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.19180946052074432,
      "learning_rate": 0.00014163520185884402,
      "loss": 0.0348,
      "step": 7770
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.2469041347503662,
      "learning_rate": 0.00014161341853035142,
      "loss": 0.0349,
      "step": 7771
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.2240740954875946,
      "learning_rate": 0.00014159163520185882,
      "loss": 0.0523,
      "step": 7772
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.3847878873348236,
      "learning_rate": 0.00014156985187336625,
      "loss": 0.0974,
      "step": 7773
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.5535832047462463,
      "learning_rate": 0.00014154806854487366,
      "loss": 0.1098,
      "step": 7774
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.1878180354833603,
      "learning_rate": 0.00014152628521638106,
      "loss": 0.0374,
      "step": 7775
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.2155095636844635,
      "learning_rate": 0.00014150450188788846,
      "loss": 0.054,
      "step": 7776
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.15109854936599731,
      "learning_rate": 0.00014148271855939586,
      "loss": 0.0327,
      "step": 7777
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.12038950622081757,
      "learning_rate": 0.00014146093523090326,
      "loss": 0.01,
      "step": 7778
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.1443532258272171,
      "learning_rate": 0.00014143915190241067,
      "loss": 0.0267,
      "step": 7779
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.1360153704881668,
      "learning_rate": 0.0001414173685739181,
      "loss": 0.0177,
      "step": 7780
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.19457869231700897,
      "learning_rate": 0.0001413955852454255,
      "loss": 0.0302,
      "step": 7781
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.1287253201007843,
      "learning_rate": 0.0001413738019169329,
      "loss": 0.0182,
      "step": 7782
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.1529666930437088,
      "learning_rate": 0.0001413520185884403,
      "loss": 0.0244,
      "step": 7783
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.17230835556983948,
      "learning_rate": 0.0001413302352599477,
      "loss": 0.0278,
      "step": 7784
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.39853888750076294,
      "learning_rate": 0.0001413084519314551,
      "loss": 0.0455,
      "step": 7785
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.4925481975078583,
      "learning_rate": 0.0001412866686029625,
      "loss": 0.0709,
      "step": 7786
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.14249850809574127,
      "learning_rate": 0.00014126488527446994,
      "loss": 0.0189,
      "step": 7787
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.2267359495162964,
      "learning_rate": 0.00014124310194597734,
      "loss": 0.0327,
      "step": 7788
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.19272011518478394,
      "learning_rate": 0.00014122131861748474,
      "loss": 0.0208,
      "step": 7789
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.1420803964138031,
      "learning_rate": 0.00014119953528899214,
      "loss": 0.016,
      "step": 7790
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.24910679459571838,
      "learning_rate": 0.00014117775196049954,
      "loss": 0.034,
      "step": 7791
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.3189474940299988,
      "learning_rate": 0.00014115596863200697,
      "loss": 0.0854,
      "step": 7792
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.30438530445098877,
      "learning_rate": 0.00014113418530351435,
      "loss": 0.0479,
      "step": 7793
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.11712406575679779,
      "learning_rate": 0.00014111240197502178,
      "loss": 0.0269,
      "step": 7794
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.18513382971286774,
      "learning_rate": 0.00014109061864652918,
      "loss": 0.0075,
      "step": 7795
    },
    {
      "epoch": 2.18,
      "grad_norm": 0.17929400503635406,
      "learning_rate": 0.00014106883531803658,
      "loss": 0.0237,
      "step": 7796
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.20493851602077484,
      "learning_rate": 0.00014104705198954398,
      "loss": 0.052,
      "step": 7797
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.3420634865760803,
      "learning_rate": 0.0001410252686610514,
      "loss": 0.0382,
      "step": 7798
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.09421861916780472,
      "learning_rate": 0.00014100348533255881,
      "loss": 0.0192,
      "step": 7799
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.13149003684520721,
      "learning_rate": 0.00014098170200406622,
      "loss": 0.0145,
      "step": 7800
    },
    {
      "epoch": 2.19,
      "eval_loss": 0.07350075989961624,
      "eval_runtime": 173.2562,
      "eval_samples_per_second": 15.249,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.06021420071400238,
      "step": 7800
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.26265090703964233,
      "learning_rate": 0.00014095991867557362,
      "loss": 0.023,
      "step": 7801
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.156282439827919,
      "learning_rate": 0.00014093813534708102,
      "loss": 0.0318,
      "step": 7802
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.1515173614025116,
      "learning_rate": 0.00014091635201858842,
      "loss": 0.0284,
      "step": 7803
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.11593806743621826,
      "learning_rate": 0.00014089456869009582,
      "loss": 0.0378,
      "step": 7804
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.2527877390384674,
      "learning_rate": 0.00014087278536160325,
      "loss": 0.0282,
      "step": 7805
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.1908106952905655,
      "learning_rate": 0.00014085100203311066,
      "loss": 0.0385,
      "step": 7806
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.1839742362499237,
      "learning_rate": 0.00014082921870461806,
      "loss": 0.0465,
      "step": 7807
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.3544628918170929,
      "learning_rate": 0.00014080743537612546,
      "loss": 0.0644,
      "step": 7808
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.12416457384824753,
      "learning_rate": 0.00014078565204763286,
      "loss": 0.0131,
      "step": 7809
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.8590078949928284,
      "learning_rate": 0.00014076386871914026,
      "loss": 0.1244,
      "step": 7810
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.7224956750869751,
      "learning_rate": 0.00014074208539064767,
      "loss": 0.0525,
      "step": 7811
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.1696329116821289,
      "learning_rate": 0.0001407203020621551,
      "loss": 0.0373,
      "step": 7812
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.1690128743648529,
      "learning_rate": 0.0001406985187336625,
      "loss": 0.0252,
      "step": 7813
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.1625477522611618,
      "learning_rate": 0.0001406767354051699,
      "loss": 0.0209,
      "step": 7814
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.3390404284000397,
      "learning_rate": 0.0001406549520766773,
      "loss": 0.0654,
      "step": 7815
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.15720809996128082,
      "learning_rate": 0.0001406331687481847,
      "loss": 0.0338,
      "step": 7816
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.24183639883995056,
      "learning_rate": 0.00014061138541969213,
      "loss": 0.0535,
      "step": 7817
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.32965192198753357,
      "learning_rate": 0.0001405896020911995,
      "loss": 0.0659,
      "step": 7818
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.19813969731330872,
      "learning_rate": 0.00014056781876270694,
      "loss": 0.0298,
      "step": 7819
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.10178866982460022,
      "learning_rate": 0.00014054603543421434,
      "loss": 0.0202,
      "step": 7820
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.17763875424861908,
      "learning_rate": 0.00014052425210572174,
      "loss": 0.0277,
      "step": 7821
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.4901915490627289,
      "learning_rate": 0.00014050246877722914,
      "loss": 0.1227,
      "step": 7822
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.32005414366722107,
      "learning_rate": 0.00014048068544873654,
      "loss": 0.0486,
      "step": 7823
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.19437994062900543,
      "learning_rate": 0.00014045890212024397,
      "loss": 0.0209,
      "step": 7824
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.11050136387348175,
      "learning_rate": 0.00014043711879175138,
      "loss": 0.0226,
      "step": 7825
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.15899768471717834,
      "learning_rate": 0.00014041533546325878,
      "loss": 0.0457,
      "step": 7826
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.1570248156785965,
      "learning_rate": 0.00014039355213476618,
      "loss": 0.0545,
      "step": 7827
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.2519041895866394,
      "learning_rate": 0.00014037176880627358,
      "loss": 0.0227,
      "step": 7828
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.20764747262001038,
      "learning_rate": 0.00014034998547778098,
      "loss": 0.0435,
      "step": 7829
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.1433223932981491,
      "learning_rate": 0.00014032820214928839,
      "loss": 0.0142,
      "step": 7830
    },
    {
      "epoch": 2.19,
      "grad_norm": 0.2316538244485855,
      "learning_rate": 0.00014030641882079582,
      "loss": 0.0222,
      "step": 7831
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2558252811431885,
      "learning_rate": 0.00014028463549230322,
      "loss": 0.0513,
      "step": 7832
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.251617968082428,
      "learning_rate": 0.00014026285216381062,
      "loss": 0.0299,
      "step": 7833
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2726304531097412,
      "learning_rate": 0.00014024106883531802,
      "loss": 0.028,
      "step": 7834
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.1662038117647171,
      "learning_rate": 0.00014021928550682542,
      "loss": 0.0195,
      "step": 7835
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.816614031791687,
      "learning_rate": 0.00014019750217833283,
      "loss": 0.0373,
      "step": 7836
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.15956732630729675,
      "learning_rate": 0.00014017571884984023,
      "loss": 0.0341,
      "step": 7837
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2134391963481903,
      "learning_rate": 0.00014015393552134766,
      "loss": 0.035,
      "step": 7838
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2300105094909668,
      "learning_rate": 0.00014013215219285506,
      "loss": 0.0525,
      "step": 7839
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.1099347397685051,
      "learning_rate": 0.00014011036886436246,
      "loss": 0.0155,
      "step": 7840
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.14106181263923645,
      "learning_rate": 0.00014008858553586986,
      "loss": 0.0225,
      "step": 7841
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.28511473536491394,
      "learning_rate": 0.0001400668022073773,
      "loss": 0.0336,
      "step": 7842
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.24426299333572388,
      "learning_rate": 0.00014004501887888467,
      "loss": 0.0268,
      "step": 7843
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2141137570142746,
      "learning_rate": 0.00014002323555039207,
      "loss": 0.0523,
      "step": 7844
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.1841580718755722,
      "learning_rate": 0.0001400014522218995,
      "loss": 0.0238,
      "step": 7845
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.31869781017303467,
      "learning_rate": 0.0001399796688934069,
      "loss": 0.0322,
      "step": 7846
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5156069993972778,
      "learning_rate": 0.0001399578855649143,
      "loss": 0.0533,
      "step": 7847
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.5927810668945312,
      "learning_rate": 0.0001399361022364217,
      "loss": 0.062,
      "step": 7848
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.9406490921974182,
      "learning_rate": 0.00013991431890792913,
      "loss": 0.071,
      "step": 7849
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.3418579399585724,
      "learning_rate": 0.00013989253557943654,
      "loss": 0.0303,
      "step": 7850
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2907496988773346,
      "learning_rate": 0.00013987075225094394,
      "loss": 0.0454,
      "step": 7851
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.16772644221782684,
      "learning_rate": 0.00013984896892245134,
      "loss": 0.0384,
      "step": 7852
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.09438426047563553,
      "learning_rate": 0.00013982718559395874,
      "loss": 0.0068,
      "step": 7853
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2168847769498825,
      "learning_rate": 0.00013980540226546614,
      "loss": 0.0171,
      "step": 7854
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.14205828309059143,
      "learning_rate": 0.00013978361893697355,
      "loss": 0.0314,
      "step": 7855
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.7868719100952148,
      "learning_rate": 0.00013976183560848097,
      "loss": 0.0395,
      "step": 7856
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.22828499972820282,
      "learning_rate": 0.00013974005227998838,
      "loss": 0.033,
      "step": 7857
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.1605825424194336,
      "learning_rate": 0.00013971826895149578,
      "loss": 0.0265,
      "step": 7858
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.1357066035270691,
      "learning_rate": 0.00013969648562300318,
      "loss": 0.0182,
      "step": 7859
    },
    {
      "epoch": 2.2,
      "grad_norm": 1.1733516454696655,
      "learning_rate": 0.00013967470229451058,
      "loss": 0.0647,
      "step": 7860
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2384936809539795,
      "learning_rate": 0.00013965291896601798,
      "loss": 0.021,
      "step": 7861
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2202007919549942,
      "learning_rate": 0.0001396311356375254,
      "loss": 0.0452,
      "step": 7862
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.26650500297546387,
      "learning_rate": 0.00013960935230903282,
      "loss": 0.0227,
      "step": 7863
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.1610870212316513,
      "learning_rate": 0.00013958756898054022,
      "loss": 0.0305,
      "step": 7864
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.13035987317562103,
      "learning_rate": 0.00013956578565204762,
      "loss": 0.025,
      "step": 7865
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.2306254357099533,
      "learning_rate": 0.00013954400232355502,
      "loss": 0.0292,
      "step": 7866
    },
    {
      "epoch": 2.2,
      "grad_norm": 0.25944602489471436,
      "learning_rate": 0.00013952221899506245,
      "loss": 0.0521,
      "step": 7867
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.0889689177274704,
      "learning_rate": 0.00013950043566656983,
      "loss": 0.0122,
      "step": 7868
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.5660123229026794,
      "learning_rate": 0.00013947865233807723,
      "loss": 0.0924,
      "step": 7869
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.31969448924064636,
      "learning_rate": 0.00013945686900958466,
      "loss": 0.0541,
      "step": 7870
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.3199901878833771,
      "learning_rate": 0.00013943508568109206,
      "loss": 0.0674,
      "step": 7871
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.3584531247615814,
      "learning_rate": 0.00013941330235259946,
      "loss": 0.0536,
      "step": 7872
    },
    {
      "epoch": 2.21,
      "grad_norm": 1.02407968044281,
      "learning_rate": 0.00013939151902410686,
      "loss": 0.0907,
      "step": 7873
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.23647011816501617,
      "learning_rate": 0.0001393697356956143,
      "loss": 0.0297,
      "step": 7874
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.2491740733385086,
      "learning_rate": 0.0001393479523671217,
      "loss": 0.0723,
      "step": 7875
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.28338250517845154,
      "learning_rate": 0.0001393261690386291,
      "loss": 0.0268,
      "step": 7876
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.14747463166713715,
      "learning_rate": 0.0001393043857101365,
      "loss": 0.0298,
      "step": 7877
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.20513330399990082,
      "learning_rate": 0.0001392826023816439,
      "loss": 0.0264,
      "step": 7878
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.2210351824760437,
      "learning_rate": 0.0001392608190531513,
      "loss": 0.0234,
      "step": 7879
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.12764617800712585,
      "learning_rate": 0.0001392390357246587,
      "loss": 0.0244,
      "step": 7880
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.10509470105171204,
      "learning_rate": 0.00013921725239616613,
      "loss": 0.0154,
      "step": 7881
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.1681460440158844,
      "learning_rate": 0.00013919546906767354,
      "loss": 0.0332,
      "step": 7882
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.17980289459228516,
      "learning_rate": 0.00013917368573918094,
      "loss": 0.0199,
      "step": 7883
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.23162272572517395,
      "learning_rate": 0.00013915190241068834,
      "loss": 0.0664,
      "step": 7884
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.8875192403793335,
      "learning_rate": 0.00013913011908219574,
      "loss": 0.0769,
      "step": 7885
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.213007852435112,
      "learning_rate": 0.00013910833575370314,
      "loss": 0.0164,
      "step": 7886
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.14246229827404022,
      "learning_rate": 0.00013908655242521055,
      "loss": 0.0345,
      "step": 7887
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.17172832787036896,
      "learning_rate": 0.00013906476909671797,
      "loss": 0.0314,
      "step": 7888
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.17743155360221863,
      "learning_rate": 0.00013904298576822538,
      "loss": 0.0437,
      "step": 7889
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.11442942917346954,
      "learning_rate": 0.00013902120243973278,
      "loss": 0.025,
      "step": 7890
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.3293146789073944,
      "learning_rate": 0.00013899941911124018,
      "loss": 0.0252,
      "step": 7891
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.1750204861164093,
      "learning_rate": 0.0001389776357827476,
      "loss": 0.0427,
      "step": 7892
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.17492812871932983,
      "learning_rate": 0.00013895585245425499,
      "loss": 0.0323,
      "step": 7893
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.20393608510494232,
      "learning_rate": 0.0001389340691257624,
      "loss": 0.0284,
      "step": 7894
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.10827536880970001,
      "learning_rate": 0.00013891228579726982,
      "loss": 0.0161,
      "step": 7895
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.20913009345531464,
      "learning_rate": 0.00013889050246877722,
      "loss": 0.0387,
      "step": 7896
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.22248873114585876,
      "learning_rate": 0.00013886871914028462,
      "loss": 0.0295,
      "step": 7897
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.43112269043922424,
      "learning_rate": 0.00013884693581179202,
      "loss": 0.1192,
      "step": 7898
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.17144310474395752,
      "learning_rate": 0.00013882515248329945,
      "loss": 0.0198,
      "step": 7899
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.20654183626174927,
      "learning_rate": 0.00013880336915480685,
      "loss": 0.0287,
      "step": 7900
    },
    {
      "epoch": 2.21,
      "eval_loss": 0.07255645841360092,
      "eval_runtime": 171.5133,
      "eval_samples_per_second": 15.404,
      "eval_steps_per_second": 0.484,
      "eval_wer": 0.06188020626735422,
      "step": 7900
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.20942184329032898,
      "learning_rate": 0.00013878158582631426,
      "loss": 0.0401,
      "step": 7901
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.21965059638023376,
      "learning_rate": 0.00013875980249782166,
      "loss": 0.0328,
      "step": 7902
    },
    {
      "epoch": 2.21,
      "grad_norm": 0.12612144649028778,
      "learning_rate": 0.00013873801916932906,
      "loss": 0.02,
      "step": 7903
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.16627338528633118,
      "learning_rate": 0.00013871623584083646,
      "loss": 0.0199,
      "step": 7904
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.13715745508670807,
      "learning_rate": 0.00013869445251234386,
      "loss": 0.0099,
      "step": 7905
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.08642834424972534,
      "learning_rate": 0.0001386726691838513,
      "loss": 0.0101,
      "step": 7906
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.08731909841299057,
      "learning_rate": 0.0001386508858553587,
      "loss": 0.0114,
      "step": 7907
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.19404584169387817,
      "learning_rate": 0.0001386291025268661,
      "loss": 0.0335,
      "step": 7908
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.25144127011299133,
      "learning_rate": 0.0001386073191983735,
      "loss": 0.0418,
      "step": 7909
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.0846913680434227,
      "learning_rate": 0.0001385855358698809,
      "loss": 0.0078,
      "step": 7910
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6384540796279907,
      "learning_rate": 0.0001385637525413883,
      "loss": 0.0908,
      "step": 7911
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.19023865461349487,
      "learning_rate": 0.0001385419692128957,
      "loss": 0.0355,
      "step": 7912
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.32424214482307434,
      "learning_rate": 0.00013852018588440313,
      "loss": 0.0463,
      "step": 7913
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.15303249657154083,
      "learning_rate": 0.00013849840255591054,
      "loss": 0.019,
      "step": 7914
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.18054857850074768,
      "learning_rate": 0.00013847661922741794,
      "loss": 0.0173,
      "step": 7915
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.22578009963035583,
      "learning_rate": 0.00013845483589892534,
      "loss": 0.0326,
      "step": 7916
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.1630818098783493,
      "learning_rate": 0.00013843305257043277,
      "loss": 0.0144,
      "step": 7917
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.1656828224658966,
      "learning_rate": 0.00013841126924194014,
      "loss": 0.0135,
      "step": 7918
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.1997109353542328,
      "learning_rate": 0.00013838948591344755,
      "loss": 0.0196,
      "step": 7919
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.15179766714572906,
      "learning_rate": 0.00013836770258495498,
      "loss": 0.0283,
      "step": 7920
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.20300963521003723,
      "learning_rate": 0.00013834591925646238,
      "loss": 0.0307,
      "step": 7921
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.25687742233276367,
      "learning_rate": 0.00013832413592796978,
      "loss": 0.016,
      "step": 7922
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.6763505935668945,
      "learning_rate": 0.00013830235259947718,
      "loss": 0.0824,
      "step": 7923
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.3672045171260834,
      "learning_rate": 0.0001382805692709846,
      "loss": 0.032,
      "step": 7924
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.11401695013046265,
      "learning_rate": 0.000138258785942492,
      "loss": 0.0321,
      "step": 7925
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.10734099894762039,
      "learning_rate": 0.00013823700261399941,
      "loss": 0.016,
      "step": 7926
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.3163008391857147,
      "learning_rate": 0.00013821521928550682,
      "loss": 0.035,
      "step": 7927
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.16068853437900543,
      "learning_rate": 0.00013819343595701422,
      "loss": 0.0128,
      "step": 7928
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.1362362802028656,
      "learning_rate": 0.00013817165262852162,
      "loss": 0.0248,
      "step": 7929
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.27785128355026245,
      "learning_rate": 0.00013814986930002902,
      "loss": 0.0473,
      "step": 7930
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.10708659142255783,
      "learning_rate": 0.00013812808597153645,
      "loss": 0.0146,
      "step": 7931
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.3046664595603943,
      "learning_rate": 0.00013810630264304385,
      "loss": 0.0474,
      "step": 7932
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.26344382762908936,
      "learning_rate": 0.00013808451931455126,
      "loss": 0.0349,
      "step": 7933
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.2585532069206238,
      "learning_rate": 0.00013806273598605866,
      "loss": 0.0514,
      "step": 7934
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.470244824886322,
      "learning_rate": 0.00013804095265756606,
      "loss": 0.0235,
      "step": 7935
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.3664570450782776,
      "learning_rate": 0.00013801916932907346,
      "loss": 0.0195,
      "step": 7936
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.20805957913398743,
      "learning_rate": 0.00013799738600058086,
      "loss": 0.0464,
      "step": 7937
    },
    {
      "epoch": 2.22,
      "grad_norm": 0.11486087739467621,
      "learning_rate": 0.0001379756026720883,
      "loss": 0.0164,
      "step": 7938
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.2776244282722473,
      "learning_rate": 0.0001379538193435957,
      "loss": 0.0443,
      "step": 7939
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.13851483166217804,
      "learning_rate": 0.0001379320360151031,
      "loss": 0.0239,
      "step": 7940
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.33924511075019836,
      "learning_rate": 0.0001379102526866105,
      "loss": 0.0379,
      "step": 7941
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.17474134266376495,
      "learning_rate": 0.0001378884693581179,
      "loss": 0.045,
      "step": 7942
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.16393426060676575,
      "learning_rate": 0.00013786668602962533,
      "loss": 0.0236,
      "step": 7943
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.2728695571422577,
      "learning_rate": 0.0001378449027011327,
      "loss": 0.0425,
      "step": 7944
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.13990077376365662,
      "learning_rate": 0.00013782311937264013,
      "loss": 0.0168,
      "step": 7945
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.1699686497449875,
      "learning_rate": 0.00013780133604414754,
      "loss": 0.0289,
      "step": 7946
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.28169289231300354,
      "learning_rate": 0.00013777955271565494,
      "loss": 0.0462,
      "step": 7947
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.18462106585502625,
      "learning_rate": 0.00013775776938716234,
      "loss": 0.0171,
      "step": 7948
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.21864408254623413,
      "learning_rate": 0.00013773598605866974,
      "loss": 0.0437,
      "step": 7949
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.20776841044425964,
      "learning_rate": 0.00013771420273017717,
      "loss": 0.0594,
      "step": 7950
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.12363088876008987,
      "learning_rate": 0.00013769241940168457,
      "loss": 0.0239,
      "step": 7951
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.17549408972263336,
      "learning_rate": 0.00013767063607319198,
      "loss": 0.0303,
      "step": 7952
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.10306772589683533,
      "learning_rate": 0.00013764885274469938,
      "loss": 0.0119,
      "step": 7953
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5163013935089111,
      "learning_rate": 0.00013762706941620678,
      "loss": 0.0482,
      "step": 7954
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.16378958523273468,
      "learning_rate": 0.00013760528608771418,
      "loss": 0.0312,
      "step": 7955
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.2974401116371155,
      "learning_rate": 0.0001375835027592216,
      "loss": 0.0246,
      "step": 7956
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.18059088289737701,
      "learning_rate": 0.000137561719430729,
      "loss": 0.0258,
      "step": 7957
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.24959413707256317,
      "learning_rate": 0.00013753993610223642,
      "loss": 0.0368,
      "step": 7958
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.6056682467460632,
      "learning_rate": 0.00013751815277374382,
      "loss": 0.0736,
      "step": 7959
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.13441631197929382,
      "learning_rate": 0.00013749636944525122,
      "loss": 0.0085,
      "step": 7960
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.15444086492061615,
      "learning_rate": 0.00013747458611675862,
      "loss": 0.0108,
      "step": 7961
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.15006543695926666,
      "learning_rate": 0.00013745280278826602,
      "loss": 0.0377,
      "step": 7962
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.12489695847034454,
      "learning_rate": 0.00013743101945977345,
      "loss": 0.0227,
      "step": 7963
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.08312029391527176,
      "learning_rate": 0.00013740923613128085,
      "loss": 0.0168,
      "step": 7964
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.20373034477233887,
      "learning_rate": 0.00013738745280278826,
      "loss": 0.0415,
      "step": 7965
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.11795075982809067,
      "learning_rate": 0.00013736566947429566,
      "loss": 0.0163,
      "step": 7966
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.17356765270233154,
      "learning_rate": 0.00013734388614580306,
      "loss": 0.0138,
      "step": 7967
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.3705988824367523,
      "learning_rate": 0.0001373221028173105,
      "loss": 0.0711,
      "step": 7968
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.11810719966888428,
      "learning_rate": 0.00013730031948881786,
      "loss": 0.016,
      "step": 7969
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.21853695809841156,
      "learning_rate": 0.0001372785361603253,
      "loss": 0.0319,
      "step": 7970
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.2566052973270416,
      "learning_rate": 0.0001372567528318327,
      "loss": 0.0576,
      "step": 7971
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.4741506278514862,
      "learning_rate": 0.0001372349695033401,
      "loss": 0.0536,
      "step": 7972
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5869134664535522,
      "learning_rate": 0.0001372131861748475,
      "loss": 0.0666,
      "step": 7973
    },
    {
      "epoch": 2.23,
      "grad_norm": 0.5253608822822571,
      "learning_rate": 0.0001371914028463549,
      "loss": 0.0275,
      "step": 7974
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.20079940557479858,
      "learning_rate": 0.00013716961951786233,
      "loss": 0.0621,
      "step": 7975
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.2147301286458969,
      "learning_rate": 0.00013714783618936973,
      "loss": 0.0206,
      "step": 7976
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.12967345118522644,
      "learning_rate": 0.00013712605286087714,
      "loss": 0.0278,
      "step": 7977
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.1700979769229889,
      "learning_rate": 0.00013710426953238454,
      "loss": 0.0255,
      "step": 7978
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.08588394522666931,
      "learning_rate": 0.00013708248620389194,
      "loss": 0.0146,
      "step": 7979
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.24735014140605927,
      "learning_rate": 0.00013706070287539934,
      "loss": 0.0361,
      "step": 7980
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.19044212996959686,
      "learning_rate": 0.00013703891954690674,
      "loss": 0.0563,
      "step": 7981
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.2439405769109726,
      "learning_rate": 0.00013701713621841417,
      "loss": 0.0281,
      "step": 7982
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.26720550656318665,
      "learning_rate": 0.00013699535288992157,
      "loss": 0.0453,
      "step": 7983
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.23902294039726257,
      "learning_rate": 0.00013697356956142898,
      "loss": 0.0528,
      "step": 7984
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.24999694526195526,
      "learning_rate": 0.00013695178623293638,
      "loss": 0.0264,
      "step": 7985
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.2506113052368164,
      "learning_rate": 0.00013693000290444378,
      "loss": 0.027,
      "step": 7986
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.1643858700990677,
      "learning_rate": 0.00013690821957595118,
      "loss": 0.0436,
      "step": 7987
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.14399956166744232,
      "learning_rate": 0.00013688643624745858,
      "loss": 0.0297,
      "step": 7988
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.18072712421417236,
      "learning_rate": 0.00013686465291896601,
      "loss": 0.0672,
      "step": 7989
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.2037564367055893,
      "learning_rate": 0.00013684286959047342,
      "loss": 0.0198,
      "step": 7990
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.1469811052083969,
      "learning_rate": 0.00013682108626198082,
      "loss": 0.0259,
      "step": 7991
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.31089019775390625,
      "learning_rate": 0.00013679930293348822,
      "loss": 0.0251,
      "step": 7992
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.1674834042787552,
      "learning_rate": 0.00013677751960499565,
      "loss": 0.0184,
      "step": 7993
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.20025689899921417,
      "learning_rate": 0.00013675573627650302,
      "loss": 0.0162,
      "step": 7994
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.1258876770734787,
      "learning_rate": 0.00013673395294801043,
      "loss": 0.0287,
      "step": 7995
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.22373157739639282,
      "learning_rate": 0.00013671216961951786,
      "loss": 0.0333,
      "step": 7996
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.09117226302623749,
      "learning_rate": 0.00013669038629102526,
      "loss": 0.0133,
      "step": 7997
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.5227890610694885,
      "learning_rate": 0.00013666860296253266,
      "loss": 0.0309,
      "step": 7998
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.35709646344184875,
      "learning_rate": 0.00013664681963404006,
      "loss": 0.0466,
      "step": 7999
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.14755134284496307,
      "learning_rate": 0.0001366250363055475,
      "loss": 0.0735,
      "step": 8000
    },
    {
      "epoch": 2.24,
      "eval_loss": 0.07054100930690765,
      "eval_runtime": 172.4056,
      "eval_samples_per_second": 15.324,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.05757635858786196,
      "step": 8000
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.1838737279176712,
      "learning_rate": 0.0001366032529770549,
      "loss": 0.0515,
      "step": 8001
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.14599202573299408,
      "learning_rate": 0.00013658146964856227,
      "loss": 0.0237,
      "step": 8002
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.3000173270702362,
      "learning_rate": 0.0001365596863200697,
      "loss": 0.0403,
      "step": 8003
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.14428281784057617,
      "learning_rate": 0.0001365379029915771,
      "loss": 0.0158,
      "step": 8004
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.22030775249004364,
      "learning_rate": 0.0001365161196630845,
      "loss": 0.0301,
      "step": 8005
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.12364217638969421,
      "learning_rate": 0.0001364943363345919,
      "loss": 0.0145,
      "step": 8006
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.19330130517482758,
      "learning_rate": 0.00013647255300609933,
      "loss": 0.0227,
      "step": 8007
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.235772967338562,
      "learning_rate": 0.00013645076967760673,
      "loss": 0.0296,
      "step": 8008
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.1630311906337738,
      "learning_rate": 0.00013642898634911414,
      "loss": 0.0451,
      "step": 8009
    },
    {
      "epoch": 2.24,
      "grad_norm": 0.3945634961128235,
      "learning_rate": 0.00013640720302062154,
      "loss": 0.0771,
      "step": 8010
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.1785813868045807,
      "learning_rate": 0.00013638541969212894,
      "loss": 0.0114,
      "step": 8011
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.08286534249782562,
      "learning_rate": 0.00013636363636363634,
      "loss": 0.0102,
      "step": 8012
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.10895325243473053,
      "learning_rate": 0.00013634185303514374,
      "loss": 0.0116,
      "step": 8013
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.28809842467308044,
      "learning_rate": 0.00013632006970665117,
      "loss": 0.0461,
      "step": 8014
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.21539835631847382,
      "learning_rate": 0.00013629828637815858,
      "loss": 0.0316,
      "step": 8015
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.16510321199893951,
      "learning_rate": 0.00013627650304966598,
      "loss": 0.0281,
      "step": 8016
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.17568102478981018,
      "learning_rate": 0.00013625471972117338,
      "loss": 0.0103,
      "step": 8017
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.2879331111907959,
      "learning_rate": 0.0001362329363926808,
      "loss": 0.0381,
      "step": 8018
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.16420672833919525,
      "learning_rate": 0.00013621115306418818,
      "loss": 0.0417,
      "step": 8019
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.10370790213346481,
      "learning_rate": 0.00013618936973569559,
      "loss": 0.017,
      "step": 8020
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.10016285628080368,
      "learning_rate": 0.00013616758640720301,
      "loss": 0.008,
      "step": 8021
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.3101588189601898,
      "learning_rate": 0.00013614580307871042,
      "loss": 0.0636,
      "step": 8022
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.37677523493766785,
      "learning_rate": 0.00013612401975021782,
      "loss": 0.0292,
      "step": 8023
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.13804388046264648,
      "learning_rate": 0.00013610223642172522,
      "loss": 0.0239,
      "step": 8024
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.24068866670131683,
      "learning_rate": 0.00013608045309323265,
      "loss": 0.0181,
      "step": 8025
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.12436852604150772,
      "learning_rate": 0.00013605866976474005,
      "loss": 0.0162,
      "step": 8026
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.14881804585456848,
      "learning_rate": 0.00013603688643624743,
      "loss": 0.0473,
      "step": 8027
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.20802102982997894,
      "learning_rate": 0.00013601510310775486,
      "loss": 0.0489,
      "step": 8028
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.13887207210063934,
      "learning_rate": 0.00013599331977926226,
      "loss": 0.0257,
      "step": 8029
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.1419030874967575,
      "learning_rate": 0.00013597153645076966,
      "loss": 0.0247,
      "step": 8030
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.31315678358078003,
      "learning_rate": 0.00013594975312227706,
      "loss": 0.0276,
      "step": 8031
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.2701641917228699,
      "learning_rate": 0.0001359279697937845,
      "loss": 0.0742,
      "step": 8032
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.2088809758424759,
      "learning_rate": 0.0001359061864652919,
      "loss": 0.0472,
      "step": 8033
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.2524639070034027,
      "learning_rate": 0.0001358844031367993,
      "loss": 0.0269,
      "step": 8034
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.23770327866077423,
      "learning_rate": 0.0001358626198083067,
      "loss": 0.0235,
      "step": 8035
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.5376073122024536,
      "learning_rate": 0.0001358408364798141,
      "loss": 0.0206,
      "step": 8036
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.18534132838249207,
      "learning_rate": 0.0001358190531513215,
      "loss": 0.0311,
      "step": 8037
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.1190892681479454,
      "learning_rate": 0.0001357972698228289,
      "loss": 0.0406,
      "step": 8038
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.16799704730510712,
      "learning_rate": 0.00013577548649433633,
      "loss": 0.0402,
      "step": 8039
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.15304438769817352,
      "learning_rate": 0.00013575370316584373,
      "loss": 0.0166,
      "step": 8040
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.18826602399349213,
      "learning_rate": 0.00013573191983735114,
      "loss": 0.0245,
      "step": 8041
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.13692687451839447,
      "learning_rate": 0.00013571013650885854,
      "loss": 0.027,
      "step": 8042
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.12625543773174286,
      "learning_rate": 0.00013568835318036597,
      "loss": 0.0382,
      "step": 8043
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.19929614663124084,
      "learning_rate": 0.00013566656985187334,
      "loss": 0.052,
      "step": 8044
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.2593950033187866,
      "learning_rate": 0.00013564478652338074,
      "loss": 0.0603,
      "step": 8045
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.3043251037597656,
      "learning_rate": 0.00013562300319488817,
      "loss": 0.0367,
      "step": 8046
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.25601789355278015,
      "learning_rate": 0.00013560121986639558,
      "loss": 0.0454,
      "step": 8047
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.29337045550346375,
      "learning_rate": 0.00013557943653790298,
      "loss": 0.0548,
      "step": 8048
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.5025185346603394,
      "learning_rate": 0.00013555765320941038,
      "loss": 0.0193,
      "step": 8049
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.1356450766324997,
      "learning_rate": 0.0001355358698809178,
      "loss": 0.0237,
      "step": 8050
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.14222267270088196,
      "learning_rate": 0.0001355140865524252,
      "loss": 0.0262,
      "step": 8051
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.15721924602985382,
      "learning_rate": 0.00013549230322393259,
      "loss": 0.0192,
      "step": 8052
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.1582930088043213,
      "learning_rate": 0.00013547051989544001,
      "loss": 0.0163,
      "step": 8053
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.15873703360557556,
      "learning_rate": 0.00013544873656694742,
      "loss": 0.031,
      "step": 8054
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.9608838558197021,
      "learning_rate": 0.00013542695323845482,
      "loss": 0.0543,
      "step": 8055
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.2772406041622162,
      "learning_rate": 0.00013540516990996222,
      "loss": 0.0316,
      "step": 8056
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.22188109159469604,
      "learning_rate": 0.00013538338658146965,
      "loss": 0.0474,
      "step": 8057
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.11866086721420288,
      "learning_rate": 0.00013536160325297705,
      "loss": 0.0151,
      "step": 8058
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.19742384552955627,
      "learning_rate": 0.00013533981992448445,
      "loss": 0.0168,
      "step": 8059
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.2336532473564148,
      "learning_rate": 0.00013531803659599186,
      "loss": 0.0319,
      "step": 8060
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.56024569272995,
      "learning_rate": 0.00013529625326749926,
      "loss": 0.0497,
      "step": 8061
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.1403392106294632,
      "learning_rate": 0.00013527446993900666,
      "loss": 0.033,
      "step": 8062
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.18462634086608887,
      "learning_rate": 0.00013525268661051406,
      "loss": 0.0435,
      "step": 8063
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.20469388365745544,
      "learning_rate": 0.0001352309032820215,
      "loss": 0.0234,
      "step": 8064
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.268084853887558,
      "learning_rate": 0.0001352091199535289,
      "loss": 0.0288,
      "step": 8065
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.14815200865268707,
      "learning_rate": 0.0001351873366250363,
      "loss": 0.0349,
      "step": 8066
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.16021691262722015,
      "learning_rate": 0.0001351655532965437,
      "loss": 0.0207,
      "step": 8067
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.13206680119037628,
      "learning_rate": 0.00013514376996805113,
      "loss": 0.019,
      "step": 8068
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.22015021741390228,
      "learning_rate": 0.0001351219866395585,
      "loss": 0.0405,
      "step": 8069
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.16366448998451233,
      "learning_rate": 0.0001351002033110659,
      "loss": 0.0269,
      "step": 8070
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.20935148000717163,
      "learning_rate": 0.00013507841998257333,
      "loss": 0.0219,
      "step": 8071
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.14529214799404144,
      "learning_rate": 0.00013505663665408073,
      "loss": 0.0287,
      "step": 8072
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.2714712917804718,
      "learning_rate": 0.00013503485332558814,
      "loss": 0.0279,
      "step": 8073
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.4613882899284363,
      "learning_rate": 0.00013501306999709554,
      "loss": 0.0883,
      "step": 8074
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.1249937117099762,
      "learning_rate": 0.00013499128666860297,
      "loss": 0.0252,
      "step": 8075
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.20802795886993408,
      "learning_rate": 0.00013496950334011037,
      "loss": 0.0437,
      "step": 8076
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.08692290633916855,
      "learning_rate": 0.00013494772001161777,
      "loss": 0.0168,
      "step": 8077
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.13380402326583862,
      "learning_rate": 0.00013492593668312517,
      "loss": 0.0185,
      "step": 8078
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.19042226672172546,
      "learning_rate": 0.00013490415335463258,
      "loss": 0.0417,
      "step": 8079
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.19529670476913452,
      "learning_rate": 0.00013488237002613998,
      "loss": 0.029,
      "step": 8080
    },
    {
      "epoch": 2.26,
      "grad_norm": 0.20645771920681,
      "learning_rate": 0.00013486058669764738,
      "loss": 0.0305,
      "step": 8081
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.09106706827878952,
      "learning_rate": 0.0001348388033691548,
      "loss": 0.0092,
      "step": 8082
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.2665993273258209,
      "learning_rate": 0.0001348170200406622,
      "loss": 0.0475,
      "step": 8083
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.32608869671821594,
      "learning_rate": 0.0001347952367121696,
      "loss": 0.029,
      "step": 8084
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.1638607680797577,
      "learning_rate": 0.00013477345338367702,
      "loss": 0.0294,
      "step": 8085
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.5147621631622314,
      "learning_rate": 0.00013475167005518442,
      "loss": 0.0238,
      "step": 8086
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.1421259343624115,
      "learning_rate": 0.00013472988672669182,
      "loss": 0.0241,
      "step": 8087
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.1989366114139557,
      "learning_rate": 0.00013470810339819922,
      "loss": 0.0232,
      "step": 8088
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.09996791183948517,
      "learning_rate": 0.00013468632006970665,
      "loss": 0.0211,
      "step": 8089
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.4209650754928589,
      "learning_rate": 0.00013466453674121405,
      "loss": 0.0483,
      "step": 8090
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.11747344583272934,
      "learning_rate": 0.00013464275341272145,
      "loss": 0.0114,
      "step": 8091
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.4985944330692291,
      "learning_rate": 0.00013462097008422886,
      "loss": 0.039,
      "step": 8092
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.21107271313667297,
      "learning_rate": 0.00013459918675573626,
      "loss": 0.0261,
      "step": 8093
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.3378430902957916,
      "learning_rate": 0.00013457740342724366,
      "loss": 0.0447,
      "step": 8094
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.3556567430496216,
      "learning_rate": 0.00013455562009875106,
      "loss": 0.059,
      "step": 8095
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.2582160234451294,
      "learning_rate": 0.0001345338367702585,
      "loss": 0.0177,
      "step": 8096
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.42619192600250244,
      "learning_rate": 0.0001345120534417659,
      "loss": 0.0559,
      "step": 8097
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.2165580540895462,
      "learning_rate": 0.0001344902701132733,
      "loss": 0.0223,
      "step": 8098
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.5666942596435547,
      "learning_rate": 0.0001344684867847807,
      "loss": 0.0289,
      "step": 8099
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.15203410387039185,
      "learning_rate": 0.0001344467034562881,
      "loss": 0.0161,
      "step": 8100
    },
    {
      "epoch": 2.27,
      "eval_loss": 0.07148823887109756,
      "eval_runtime": 172.72,
      "eval_samples_per_second": 15.296,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.05632685442284808,
      "step": 8100
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.13945572078227997,
      "learning_rate": 0.00013442492012779553,
      "loss": 0.0254,
      "step": 8101
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.08387423306703568,
      "learning_rate": 0.00013440313679930293,
      "loss": 0.0092,
      "step": 8102
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.20954260230064392,
      "learning_rate": 0.00013438135347081033,
      "loss": 0.0328,
      "step": 8103
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.0928279310464859,
      "learning_rate": 0.00013435957014231774,
      "loss": 0.0101,
      "step": 8104
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.13543812930583954,
      "learning_rate": 0.00013433778681382514,
      "loss": 0.018,
      "step": 8105
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.21812909841537476,
      "learning_rate": 0.00013431600348533254,
      "loss": 0.0386,
      "step": 8106
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.18269993364810944,
      "learning_rate": 0.00013429422015683994,
      "loss": 0.0305,
      "step": 8107
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.5055361390113831,
      "learning_rate": 0.00013427243682834737,
      "loss": 0.0716,
      "step": 8108
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.30922260880470276,
      "learning_rate": 0.00013425065349985477,
      "loss": 0.0387,
      "step": 8109
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.22493648529052734,
      "learning_rate": 0.00013422887017136217,
      "loss": 0.045,
      "step": 8110
    },
    {
      "epoch": 2.27,
      "grad_norm": 1.1148401498794556,
      "learning_rate": 0.00013420708684286958,
      "loss": 0.0958,
      "step": 8111
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.21110206842422485,
      "learning_rate": 0.00013418530351437698,
      "loss": 0.0335,
      "step": 8112
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.2420278638601303,
      "learning_rate": 0.00013416352018588438,
      "loss": 0.0329,
      "step": 8113
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.18662507832050323,
      "learning_rate": 0.00013414173685739178,
      "loss": 0.0284,
      "step": 8114
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.11061771214008331,
      "learning_rate": 0.0001341199535288992,
      "loss": 0.0165,
      "step": 8115
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.16964247822761536,
      "learning_rate": 0.00013409817020040661,
      "loss": 0.0403,
      "step": 8116
    },
    {
      "epoch": 2.27,
      "grad_norm": 0.2529381513595581,
      "learning_rate": 0.00013407638687191402,
      "loss": 0.0375,
      "step": 8117
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.07260975241661072,
      "learning_rate": 0.00013405460354342142,
      "loss": 0.0119,
      "step": 8118
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.1814528852701187,
      "learning_rate": 0.00013403282021492882,
      "loss": 0.0428,
      "step": 8119
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.3892444372177124,
      "learning_rate": 0.00013401103688643622,
      "loss": 0.0367,
      "step": 8120
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.20112623274326324,
      "learning_rate": 0.00013398925355794365,
      "loss": 0.027,
      "step": 8121
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.40493422746658325,
      "learning_rate": 0.00013396747022945105,
      "loss": 0.071,
      "step": 8122
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.4077449142932892,
      "learning_rate": 0.00013394568690095846,
      "loss": 0.0496,
      "step": 8123
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.29709187150001526,
      "learning_rate": 0.00013392390357246586,
      "loss": 0.0216,
      "step": 8124
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.1552993655204773,
      "learning_rate": 0.00013390212024397326,
      "loss": 0.025,
      "step": 8125
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.11896047741174698,
      "learning_rate": 0.0001338803369154807,
      "loss": 0.0292,
      "step": 8126
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.25095000863075256,
      "learning_rate": 0.0001338585535869881,
      "loss": 0.0329,
      "step": 8127
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.2555003762245178,
      "learning_rate": 0.0001338367702584955,
      "loss": 0.0525,
      "step": 8128
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.13464482128620148,
      "learning_rate": 0.0001338149869300029,
      "loss": 0.0309,
      "step": 8129
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.1602303385734558,
      "learning_rate": 0.0001337932036015103,
      "loss": 0.0253,
      "step": 8130
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.1516755223274231,
      "learning_rate": 0.0001337714202730177,
      "loss": 0.044,
      "step": 8131
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.14165377616882324,
      "learning_rate": 0.0001337496369445251,
      "loss": 0.0313,
      "step": 8132
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.12004328519105911,
      "learning_rate": 0.00013372785361603253,
      "loss": 0.0429,
      "step": 8133
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.1254424750804901,
      "learning_rate": 0.00013370607028753993,
      "loss": 0.0218,
      "step": 8134
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.4349699914455414,
      "learning_rate": 0.00013368428695904733,
      "loss": 0.0428,
      "step": 8135
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.4688526391983032,
      "learning_rate": 0.00013366250363055474,
      "loss": 0.0684,
      "step": 8136
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.13812528550624847,
      "learning_rate": 0.00013364072030206214,
      "loss": 0.0279,
      "step": 8137
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.10736247152090073,
      "learning_rate": 0.00013361893697356954,
      "loss": 0.0215,
      "step": 8138
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.28377583622932434,
      "learning_rate": 0.00013359715364507694,
      "loss": 0.0436,
      "step": 8139
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.24552243947982788,
      "learning_rate": 0.00013357537031658437,
      "loss": 0.0286,
      "step": 8140
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.20874685049057007,
      "learning_rate": 0.00013355358698809177,
      "loss": 0.0478,
      "step": 8141
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.262721985578537,
      "learning_rate": 0.00013353180365959918,
      "loss": 0.0668,
      "step": 8142
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.20093345642089844,
      "learning_rate": 0.00013351002033110658,
      "loss": 0.0203,
      "step": 8143
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.15083323419094086,
      "learning_rate": 0.000133488237002614,
      "loss": 0.0223,
      "step": 8144
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.2056989073753357,
      "learning_rate": 0.00013346645367412138,
      "loss": 0.0681,
      "step": 8145
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.2449711561203003,
      "learning_rate": 0.00013344467034562878,
      "loss": 0.0343,
      "step": 8146
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.17231863737106323,
      "learning_rate": 0.0001334228870171362,
      "loss": 0.0278,
      "step": 8147
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.6888218522071838,
      "learning_rate": 0.00013340110368864361,
      "loss": 0.071,
      "step": 8148
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.29393133521080017,
      "learning_rate": 0.00013337932036015102,
      "loss": 0.0211,
      "step": 8149
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.1934722363948822,
      "learning_rate": 0.00013335753703165842,
      "loss": 0.0328,
      "step": 8150
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.1190037876367569,
      "learning_rate": 0.00013333575370316585,
      "loss": 0.0182,
      "step": 8151
    },
    {
      "epoch": 2.28,
      "grad_norm": 0.17720848321914673,
      "learning_rate": 0.00013331397037467325,
      "loss": 0.0367,
      "step": 8152
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.10283935070037842,
      "learning_rate": 0.00013329218704618062,
      "loss": 0.0138,
      "step": 8153
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.2006653994321823,
      "learning_rate": 0.00013327040371768805,
      "loss": 0.0178,
      "step": 8154
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.14932668209075928,
      "learning_rate": 0.00013324862038919546,
      "loss": 0.034,
      "step": 8155
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.21500754356384277,
      "learning_rate": 0.00013322683706070286,
      "loss": 0.0477,
      "step": 8156
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.18080748617649078,
      "learning_rate": 0.00013320505373221026,
      "loss": 0.0207,
      "step": 8157
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.2531173527240753,
      "learning_rate": 0.0001331832704037177,
      "loss": 0.0548,
      "step": 8158
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.5096234083175659,
      "learning_rate": 0.0001331614870752251,
      "loss": 0.0753,
      "step": 8159
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.5638410449028015,
      "learning_rate": 0.0001331397037467325,
      "loss": 0.076,
      "step": 8160
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.5972985029220581,
      "learning_rate": 0.0001331179204182399,
      "loss": 0.0752,
      "step": 8161
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.2943238317966461,
      "learning_rate": 0.0001330961370897473,
      "loss": 0.0424,
      "step": 8162
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.38649365305900574,
      "learning_rate": 0.0001330743537612547,
      "loss": 0.0616,
      "step": 8163
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.2656075954437256,
      "learning_rate": 0.0001330525704327621,
      "loss": 0.0455,
      "step": 8164
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.09462932497262955,
      "learning_rate": 0.00013303078710426953,
      "loss": 0.0105,
      "step": 8165
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.1604861617088318,
      "learning_rate": 0.00013300900377577693,
      "loss": 0.041,
      "step": 8166
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.15185879170894623,
      "learning_rate": 0.00013298722044728433,
      "loss": 0.0226,
      "step": 8167
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.2283123880624771,
      "learning_rate": 0.00013296543711879174,
      "loss": 0.0248,
      "step": 8168
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.21635125577449799,
      "learning_rate": 0.00013294365379029917,
      "loss": 0.0551,
      "step": 8169
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.22909358143806458,
      "learning_rate": 0.00013292187046180654,
      "loss": 0.0184,
      "step": 8170
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.5070599913597107,
      "learning_rate": 0.00013290008713331394,
      "loss": 0.0546,
      "step": 8171
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.17311891913414001,
      "learning_rate": 0.00013287830380482137,
      "loss": 0.0183,
      "step": 8172
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.21333852410316467,
      "learning_rate": 0.00013285652047632877,
      "loss": 0.0378,
      "step": 8173
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.770071804523468,
      "learning_rate": 0.00013283473714783618,
      "loss": 0.1079,
      "step": 8174
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.1512911319732666,
      "learning_rate": 0.00013281295381934358,
      "loss": 0.0415,
      "step": 8175
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.21954268217086792,
      "learning_rate": 0.000132791170490851,
      "loss": 0.0531,
      "step": 8176
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.1816709190607071,
      "learning_rate": 0.0001327693871623584,
      "loss": 0.0202,
      "step": 8177
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.25940635800361633,
      "learning_rate": 0.00013274760383386578,
      "loss": 0.0578,
      "step": 8178
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.2514128088951111,
      "learning_rate": 0.0001327258205053732,
      "loss": 0.0299,
      "step": 8179
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.17510196566581726,
      "learning_rate": 0.00013270403717688061,
      "loss": 0.0192,
      "step": 8180
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.19091109931468964,
      "learning_rate": 0.00013268225384838802,
      "loss": 0.039,
      "step": 8181
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.23224541544914246,
      "learning_rate": 0.00013266047051989542,
      "loss": 0.018,
      "step": 8182
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.17159409821033478,
      "learning_rate": 0.00013263868719140285,
      "loss": 0.0353,
      "step": 8183
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.14647328853607178,
      "learning_rate": 0.00013261690386291025,
      "loss": 0.035,
      "step": 8184
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.37455737590789795,
      "learning_rate": 0.00013259512053441765,
      "loss": 0.0594,
      "step": 8185
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.24154743552207947,
      "learning_rate": 0.00013257333720592505,
      "loss": 0.017,
      "step": 8186
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.2248391956090927,
      "learning_rate": 0.00013255155387743246,
      "loss": 0.0492,
      "step": 8187
    },
    {
      "epoch": 2.29,
      "grad_norm": 0.17363038659095764,
      "learning_rate": 0.00013252977054893986,
      "loss": 0.0199,
      "step": 8188
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.07969215512275696,
      "learning_rate": 0.00013250798722044726,
      "loss": 0.011,
      "step": 8189
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.3457767367362976,
      "learning_rate": 0.0001324862038919547,
      "loss": 0.0726,
      "step": 8190
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.16667018830776215,
      "learning_rate": 0.0001324644205634621,
      "loss": 0.025,
      "step": 8191
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.21514792740345,
      "learning_rate": 0.0001324426372349695,
      "loss": 0.0352,
      "step": 8192
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.23830123245716095,
      "learning_rate": 0.0001324208539064769,
      "loss": 0.0275,
      "step": 8193
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.09570963680744171,
      "learning_rate": 0.00013239907057798432,
      "loss": 0.0179,
      "step": 8194
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.49908143281936646,
      "learning_rate": 0.0001323772872494917,
      "loss": 0.0473,
      "step": 8195
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.46272140741348267,
      "learning_rate": 0.0001323555039209991,
      "loss": 0.0453,
      "step": 8196
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.232130229473114,
      "learning_rate": 0.00013233372059250653,
      "loss": 0.0436,
      "step": 8197
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.5125425457954407,
      "learning_rate": 0.00013231193726401393,
      "loss": 0.0509,
      "step": 8198
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.12857170403003693,
      "learning_rate": 0.00013229015393552133,
      "loss": 0.0128,
      "step": 8199
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.18528440594673157,
      "learning_rate": 0.00013226837060702874,
      "loss": 0.0549,
      "step": 8200
    },
    {
      "epoch": 2.3,
      "eval_loss": 0.06922049820423126,
      "eval_runtime": 171.8049,
      "eval_samples_per_second": 15.378,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.05628718762395875,
      "step": 8200
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.12972179055213928,
      "learning_rate": 0.00013224658727853617,
      "loss": 0.0152,
      "step": 8201
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.3015434443950653,
      "learning_rate": 0.00013222480395004357,
      "loss": 0.0363,
      "step": 8202
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.16203002631664276,
      "learning_rate": 0.00013220302062155094,
      "loss": 0.0506,
      "step": 8203
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.0881001353263855,
      "learning_rate": 0.00013218123729305837,
      "loss": 0.0146,
      "step": 8204
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.17710359394550323,
      "learning_rate": 0.00013215945396456577,
      "loss": 0.044,
      "step": 8205
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.20733246207237244,
      "learning_rate": 0.00013213767063607318,
      "loss": 0.0473,
      "step": 8206
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.10564915090799332,
      "learning_rate": 0.00013211588730758058,
      "loss": 0.0149,
      "step": 8207
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.15992902219295502,
      "learning_rate": 0.000132094103979088,
      "loss": 0.0382,
      "step": 8208
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.5528424978256226,
      "learning_rate": 0.0001320723206505954,
      "loss": 0.0365,
      "step": 8209
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.2964772582054138,
      "learning_rate": 0.0001320505373221028,
      "loss": 0.0781,
      "step": 8210
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.26055246591567993,
      "learning_rate": 0.0001320287539936102,
      "loss": 0.0181,
      "step": 8211
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.5537383556365967,
      "learning_rate": 0.00013200697066511762,
      "loss": 0.0368,
      "step": 8212
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.23826473951339722,
      "learning_rate": 0.00013198518733662502,
      "loss": 0.0479,
      "step": 8213
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.2243054211139679,
      "learning_rate": 0.00013196340400813242,
      "loss": 0.0348,
      "step": 8214
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.18200087547302246,
      "learning_rate": 0.00013194162067963985,
      "loss": 0.031,
      "step": 8215
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.26591578125953674,
      "learning_rate": 0.00013191983735114725,
      "loss": 0.0484,
      "step": 8216
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.3762209415435791,
      "learning_rate": 0.00013189805402265465,
      "loss": 0.0492,
      "step": 8217
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.12702831625938416,
      "learning_rate": 0.00013187627069416205,
      "loss": 0.0259,
      "step": 8218
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.3015919327735901,
      "learning_rate": 0.00013185448736566946,
      "loss": 0.0222,
      "step": 8219
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.2790989875793457,
      "learning_rate": 0.00013183270403717686,
      "loss": 0.0549,
      "step": 8220
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.23949670791625977,
      "learning_rate": 0.00013181092070868426,
      "loss": 0.0469,
      "step": 8221
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.23091857135295868,
      "learning_rate": 0.0001317891373801917,
      "loss": 0.0276,
      "step": 8222
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.5468562245368958,
      "learning_rate": 0.0001317673540516991,
      "loss": 0.0553,
      "step": 8223
    },
    {
      "epoch": 2.3,
      "grad_norm": 0.13392755389213562,
      "learning_rate": 0.0001317455707232065,
      "loss": 0.0084,
      "step": 8224
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.14907842874526978,
      "learning_rate": 0.0001317237873947139,
      "loss": 0.0303,
      "step": 8225
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.10931704193353653,
      "learning_rate": 0.0001317020040662213,
      "loss": 0.0237,
      "step": 8226
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.2098650485277176,
      "learning_rate": 0.00013168022073772873,
      "loss": 0.0379,
      "step": 8227
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.25745323300361633,
      "learning_rate": 0.0001316584374092361,
      "loss": 0.0365,
      "step": 8228
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.12986907362937927,
      "learning_rate": 0.00013163665408074353,
      "loss": 0.018,
      "step": 8229
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.1553298979997635,
      "learning_rate": 0.00013161487075225093,
      "loss": 0.0144,
      "step": 8230
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.12916673719882965,
      "learning_rate": 0.00013159308742375834,
      "loss": 0.0249,
      "step": 8231
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.14166593551635742,
      "learning_rate": 0.00013157130409526574,
      "loss": 0.0152,
      "step": 8232
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.17355182766914368,
      "learning_rate": 0.00013154952076677317,
      "loss": 0.0256,
      "step": 8233
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.17166662216186523,
      "learning_rate": 0.00013152773743828057,
      "loss": 0.0445,
      "step": 8234
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.22768911719322205,
      "learning_rate": 0.00013150595410978797,
      "loss": 0.0422,
      "step": 8235
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.25114333629608154,
      "learning_rate": 0.00013148417078129537,
      "loss": 0.015,
      "step": 8236
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.1161433756351471,
      "learning_rate": 0.00013146238745280277,
      "loss": 0.0169,
      "step": 8237
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.23252880573272705,
      "learning_rate": 0.00013144060412431018,
      "loss": 0.0479,
      "step": 8238
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.11342404782772064,
      "learning_rate": 0.00013141882079581758,
      "loss": 0.0124,
      "step": 8239
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.12730976939201355,
      "learning_rate": 0.000131397037467325,
      "loss": 0.0199,
      "step": 8240
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.47641459107398987,
      "learning_rate": 0.0001313752541388324,
      "loss": 0.069,
      "step": 8241
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.16391578316688538,
      "learning_rate": 0.0001313534708103398,
      "loss": 0.0181,
      "step": 8242
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.357424259185791,
      "learning_rate": 0.00013133168748184721,
      "loss": 0.0234,
      "step": 8243
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.2358022928237915,
      "learning_rate": 0.00013130990415335462,
      "loss": 0.0328,
      "step": 8244
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.16261985898017883,
      "learning_rate": 0.00013128812082486202,
      "loss": 0.0237,
      "step": 8245
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.20660291612148285,
      "learning_rate": 0.00013126633749636942,
      "loss": 0.0143,
      "step": 8246
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.11405540257692337,
      "learning_rate": 0.00013124455416787685,
      "loss": 0.0115,
      "step": 8247
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.2872259318828583,
      "learning_rate": 0.00013122277083938425,
      "loss": 0.0665,
      "step": 8248
    },
    {
      "epoch": 2.31,
      "grad_norm": 2.494497537612915,
      "learning_rate": 0.00013120098751089165,
      "loss": 0.3638,
      "step": 8249
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.13403737545013428,
      "learning_rate": 0.00013117920418239906,
      "loss": 0.0292,
      "step": 8250
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.2119670808315277,
      "learning_rate": 0.00013115742085390646,
      "loss": 0.0341,
      "step": 8251
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.2143823802471161,
      "learning_rate": 0.00013113563752541389,
      "loss": 0.0375,
      "step": 8252
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.198696568608284,
      "learning_rate": 0.0001311138541969213,
      "loss": 0.0407,
      "step": 8253
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.2627647817134857,
      "learning_rate": 0.0001310920708684287,
      "loss": 0.0283,
      "step": 8254
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.19357308745384216,
      "learning_rate": 0.0001310702875399361,
      "loss": 0.0232,
      "step": 8255
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.1391429901123047,
      "learning_rate": 0.0001310485042114435,
      "loss": 0.0183,
      "step": 8256
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.25537028908729553,
      "learning_rate": 0.0001310267208829509,
      "loss": 0.0275,
      "step": 8257
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.27952876687049866,
      "learning_rate": 0.0001310049375544583,
      "loss": 0.0457,
      "step": 8258
    },
    {
      "epoch": 2.31,
      "grad_norm": 0.21794667840003967,
      "learning_rate": 0.00013098315422596573,
      "loss": 0.0198,
      "step": 8259
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.14966346323490143,
      "learning_rate": 0.00013096137089747313,
      "loss": 0.0078,
      "step": 8260
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.7940269112586975,
      "learning_rate": 0.00013093958756898053,
      "loss": 0.0613,
      "step": 8261
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.21677739918231964,
      "learning_rate": 0.00013091780424048793,
      "loss": 0.0695,
      "step": 8262
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.10078489780426025,
      "learning_rate": 0.00013089602091199534,
      "loss": 0.0141,
      "step": 8263
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.12352284789085388,
      "learning_rate": 0.00013087423758350274,
      "loss": 0.0192,
      "step": 8264
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.12416432052850723,
      "learning_rate": 0.00013085245425501014,
      "loss": 0.0228,
      "step": 8265
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.2362680584192276,
      "learning_rate": 0.00013083067092651757,
      "loss": 0.0332,
      "step": 8266
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.2813739776611328,
      "learning_rate": 0.00013080888759802497,
      "loss": 0.0486,
      "step": 8267
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.38401827216148376,
      "learning_rate": 0.00013078710426953237,
      "loss": 0.0572,
      "step": 8268
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.15094226598739624,
      "learning_rate": 0.00013076532094103978,
      "loss": 0.0213,
      "step": 8269
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.14462445676326752,
      "learning_rate": 0.00013074353761254718,
      "loss": 0.0213,
      "step": 8270
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.16202925145626068,
      "learning_rate": 0.00013072175428405458,
      "loss": 0.0167,
      "step": 8271
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.12762115895748138,
      "learning_rate": 0.00013069997095556198,
      "loss": 0.0186,
      "step": 8272
    },
    {
      "epoch": 2.32,
      "grad_norm": 1.0382919311523438,
      "learning_rate": 0.0001306781876270694,
      "loss": 0.1168,
      "step": 8273
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.28365346789360046,
      "learning_rate": 0.0001306564042985768,
      "loss": 0.0516,
      "step": 8274
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.2563626170158386,
      "learning_rate": 0.00013063462097008421,
      "loss": 0.0489,
      "step": 8275
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.11989256739616394,
      "learning_rate": 0.00013061283764159162,
      "loss": 0.0185,
      "step": 8276
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.2944466173648834,
      "learning_rate": 0.00013059105431309905,
      "loss": 0.0516,
      "step": 8277
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.22416067123413086,
      "learning_rate": 0.00013056927098460645,
      "loss": 0.0568,
      "step": 8278
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.18494711816310883,
      "learning_rate": 0.00013054748765611382,
      "loss": 0.0354,
      "step": 8279
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.21658830344676971,
      "learning_rate": 0.00013052570432762125,
      "loss": 0.0516,
      "step": 8280
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.1865583211183548,
      "learning_rate": 0.00013050392099912865,
      "loss": 0.0521,
      "step": 8281
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.17808806896209717,
      "learning_rate": 0.00013048213767063606,
      "loss": 0.0211,
      "step": 8282
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.26259514689445496,
      "learning_rate": 0.00013046035434214346,
      "loss": 0.0337,
      "step": 8283
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.21103772521018982,
      "learning_rate": 0.0001304385710136509,
      "loss": 0.0344,
      "step": 8284
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.3100287914276123,
      "learning_rate": 0.0001304167876851583,
      "loss": 0.0384,
      "step": 8285
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.47893840074539185,
      "learning_rate": 0.0001303950043566657,
      "loss": 0.0323,
      "step": 8286
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.1808212697505951,
      "learning_rate": 0.0001303732210281731,
      "loss": 0.0305,
      "step": 8287
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.19577577710151672,
      "learning_rate": 0.0001303514376996805,
      "loss": 0.0201,
      "step": 8288
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.18295937776565552,
      "learning_rate": 0.0001303296543711879,
      "loss": 0.0265,
      "step": 8289
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.21439462900161743,
      "learning_rate": 0.0001303078710426953,
      "loss": 0.024,
      "step": 8290
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.14139313995838165,
      "learning_rate": 0.00013028608771420273,
      "loss": 0.0145,
      "step": 8291
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.17024371027946472,
      "learning_rate": 0.00013026430438571013,
      "loss": 0.021,
      "step": 8292
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.17639030516147614,
      "learning_rate": 0.00013024252105721753,
      "loss": 0.0184,
      "step": 8293
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.20503567159175873,
      "learning_rate": 0.00013022073772872493,
      "loss": 0.085,
      "step": 8294
    },
    {
      "epoch": 2.32,
      "grad_norm": 0.27103906869888306,
      "learning_rate": 0.00013019895440023234,
      "loss": 0.021,
      "step": 8295
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.25464317202568054,
      "learning_rate": 0.00013017717107173974,
      "loss": 0.0685,
      "step": 8296
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.29297879338264465,
      "learning_rate": 0.00013015538774324714,
      "loss": 0.0529,
      "step": 8297
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.2290676236152649,
      "learning_rate": 0.00013013360441475457,
      "loss": 0.0617,
      "step": 8298
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.5481194853782654,
      "learning_rate": 0.00013011182108626197,
      "loss": 0.0598,
      "step": 8299
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.3922867476940155,
      "learning_rate": 0.00013009003775776937,
      "loss": 0.0227,
      "step": 8300
    },
    {
      "epoch": 2.33,
      "eval_loss": 0.07145511358976364,
      "eval_runtime": 172.2031,
      "eval_samples_per_second": 15.342,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.054502181673938915,
      "step": 8300
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.26835158467292786,
      "learning_rate": 0.00013006825442927678,
      "loss": 0.0363,
      "step": 8301
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.13375547528266907,
      "learning_rate": 0.0001300464711007842,
      "loss": 0.0218,
      "step": 8302
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.1876208335161209,
      "learning_rate": 0.0001300246877722916,
      "loss": 0.0189,
      "step": 8303
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.28258970379829407,
      "learning_rate": 0.00013000290444379898,
      "loss": 0.0641,
      "step": 8304
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.24341633915901184,
      "learning_rate": 0.0001299811211153064,
      "loss": 0.0494,
      "step": 8305
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.16330063343048096,
      "learning_rate": 0.0001299593377868138,
      "loss": 0.0199,
      "step": 8306
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.2107584923505783,
      "learning_rate": 0.00012993755445832121,
      "loss": 0.0192,
      "step": 8307
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.09620746970176697,
      "learning_rate": 0.00012991577112982862,
      "loss": 0.0071,
      "step": 8308
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.11768606305122375,
      "learning_rate": 0.00012989398780133605,
      "loss": 0.0158,
      "step": 8309
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.05642614886164665,
      "learning_rate": 0.00012987220447284345,
      "loss": 0.0048,
      "step": 8310
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.22635900974273682,
      "learning_rate": 0.00012985042114435085,
      "loss": 0.0351,
      "step": 8311
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.09095074236392975,
      "learning_rate": 0.00012982863781585825,
      "loss": 0.0214,
      "step": 8312
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.2294013947248459,
      "learning_rate": 0.00012980685448736565,
      "loss": 0.0305,
      "step": 8313
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.21243047714233398,
      "learning_rate": 0.00012978507115887306,
      "loss": 0.0186,
      "step": 8314
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.08183813095092773,
      "learning_rate": 0.00012976328783038046,
      "loss": 0.0241,
      "step": 8315
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.151019886136055,
      "learning_rate": 0.0001297415045018879,
      "loss": 0.0091,
      "step": 8316
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.2932424545288086,
      "learning_rate": 0.0001297197211733953,
      "loss": 0.0538,
      "step": 8317
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.178100124001503,
      "learning_rate": 0.0001296979378449027,
      "loss": 0.0435,
      "step": 8318
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.24760417640209198,
      "learning_rate": 0.0001296761545164101,
      "loss": 0.0417,
      "step": 8319
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.26040118932724,
      "learning_rate": 0.00012965437118791752,
      "loss": 0.0412,
      "step": 8320
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.26664796471595764,
      "learning_rate": 0.0001296325878594249,
      "loss": 0.0316,
      "step": 8321
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.3787537217140198,
      "learning_rate": 0.0001296108045309323,
      "loss": 0.0299,
      "step": 8322
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.3413078188896179,
      "learning_rate": 0.00012958902120243973,
      "loss": 0.0327,
      "step": 8323
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.239495649933815,
      "learning_rate": 0.00012956723787394713,
      "loss": 0.0235,
      "step": 8324
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.12113801389932632,
      "learning_rate": 0.00012954545454545453,
      "loss": 0.0147,
      "step": 8325
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.18926656246185303,
      "learning_rate": 0.00012952367121696193,
      "loss": 0.0377,
      "step": 8326
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.17607711255550385,
      "learning_rate": 0.00012950188788846936,
      "loss": 0.0307,
      "step": 8327
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.15945208072662354,
      "learning_rate": 0.00012948010455997677,
      "loss": 0.0276,
      "step": 8328
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.22938965260982513,
      "learning_rate": 0.00012945832123148414,
      "loss": 0.0422,
      "step": 8329
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.17478682100772858,
      "learning_rate": 0.00012943653790299157,
      "loss": 0.0284,
      "step": 8330
    },
    {
      "epoch": 2.33,
      "grad_norm": 0.2603449821472168,
      "learning_rate": 0.00012941475457449897,
      "loss": 0.0384,
      "step": 8331
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.2759116291999817,
      "learning_rate": 0.00012939297124600637,
      "loss": 0.0297,
      "step": 8332
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.15568748116493225,
      "learning_rate": 0.00012937118791751378,
      "loss": 0.0148,
      "step": 8333
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.4062115252017975,
      "learning_rate": 0.0001293494045890212,
      "loss": 0.0663,
      "step": 8334
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.1325332373380661,
      "learning_rate": 0.0001293276212605286,
      "loss": 0.0158,
      "step": 8335
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.572933554649353,
      "learning_rate": 0.000129305837932036,
      "loss": 0.0752,
      "step": 8336
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.2174103707075119,
      "learning_rate": 0.0001292840546035434,
      "loss": 0.0455,
      "step": 8337
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.2343348264694214,
      "learning_rate": 0.0001292622712750508,
      "loss": 0.046,
      "step": 8338
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.15368102490901947,
      "learning_rate": 0.00012924048794655822,
      "loss": 0.0285,
      "step": 8339
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.17576822638511658,
      "learning_rate": 0.00012921870461806562,
      "loss": 0.0284,
      "step": 8340
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.1258435845375061,
      "learning_rate": 0.00012919692128957305,
      "loss": 0.0242,
      "step": 8341
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.20608162879943848,
      "learning_rate": 0.00012917513796108045,
      "loss": 0.0289,
      "step": 8342
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.3576308488845825,
      "learning_rate": 0.00012915335463258785,
      "loss": 0.0572,
      "step": 8343
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.16809213161468506,
      "learning_rate": 0.00012913157130409525,
      "loss": 0.0135,
      "step": 8344
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.17432881891727448,
      "learning_rate": 0.00012910978797560268,
      "loss": 0.0135,
      "step": 8345
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.16712796688079834,
      "learning_rate": 0.00012908800464711006,
      "loss": 0.037,
      "step": 8346
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.25937753915786743,
      "learning_rate": 0.00012906622131861746,
      "loss": 0.0321,
      "step": 8347
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.7204768657684326,
      "learning_rate": 0.0001290444379901249,
      "loss": 0.0403,
      "step": 8348
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.326517254114151,
      "learning_rate": 0.0001290226546616323,
      "loss": 0.0735,
      "step": 8349
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6458823084831238,
      "learning_rate": 0.0001290008713331397,
      "loss": 0.0393,
      "step": 8350
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.6497604250907898,
      "learning_rate": 0.0001289790880046471,
      "loss": 0.0375,
      "step": 8351
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.2048497200012207,
      "learning_rate": 0.00012895730467615452,
      "loss": 0.0295,
      "step": 8352
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.3126010298728943,
      "learning_rate": 0.00012893552134766193,
      "loss": 0.041,
      "step": 8353
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.10802587866783142,
      "learning_rate": 0.0001289137380191693,
      "loss": 0.0266,
      "step": 8354
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.10265085101127625,
      "learning_rate": 0.00012889195469067673,
      "loss": 0.0177,
      "step": 8355
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.1380864977836609,
      "learning_rate": 0.00012887017136218413,
      "loss": 0.049,
      "step": 8356
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.10844726860523224,
      "learning_rate": 0.00012884838803369153,
      "loss": 0.0227,
      "step": 8357
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.19309481978416443,
      "learning_rate": 0.00012882660470519894,
      "loss": 0.0366,
      "step": 8358
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.23379865288734436,
      "learning_rate": 0.00012880482137670636,
      "loss": 0.0372,
      "step": 8359
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.2982901632785797,
      "learning_rate": 0.00012878303804821377,
      "loss": 0.026,
      "step": 8360
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.7818546891212463,
      "learning_rate": 0.00012876125471972117,
      "loss": 0.0493,
      "step": 8361
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.2789202928543091,
      "learning_rate": 0.00012873947139122857,
      "loss": 0.0296,
      "step": 8362
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.1294756680727005,
      "learning_rate": 0.00012871768806273597,
      "loss": 0.0223,
      "step": 8363
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.20157462358474731,
      "learning_rate": 0.00012869590473424337,
      "loss": 0.0469,
      "step": 8364
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.12661032378673553,
      "learning_rate": 0.00012867412140575078,
      "loss": 0.0171,
      "step": 8365
    },
    {
      "epoch": 2.34,
      "grad_norm": 0.1455920785665512,
      "learning_rate": 0.0001286523380772582,
      "loss": 0.0343,
      "step": 8366
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.46024104952812195,
      "learning_rate": 0.0001286305547487656,
      "loss": 0.0338,
      "step": 8367
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.11702633649110794,
      "learning_rate": 0.000128608771420273,
      "loss": 0.0214,
      "step": 8368
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.236403688788414,
      "learning_rate": 0.0001285869880917804,
      "loss": 0.0357,
      "step": 8369
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.1558842957019806,
      "learning_rate": 0.00012856520476328781,
      "loss": 0.0264,
      "step": 8370
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.30005329847335815,
      "learning_rate": 0.00012854342143479522,
      "loss": 0.0311,
      "step": 8371
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.4017280340194702,
      "learning_rate": 0.00012852163810630262,
      "loss": 0.0454,
      "step": 8372
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.362031489610672,
      "learning_rate": 0.00012849985477781005,
      "loss": 0.0673,
      "step": 8373
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.6545885801315308,
      "learning_rate": 0.00012847807144931745,
      "loss": 0.0503,
      "step": 8374
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.19376781582832336,
      "learning_rate": 0.00012845628812082485,
      "loss": 0.019,
      "step": 8375
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.2866702973842621,
      "learning_rate": 0.00012843450479233225,
      "loss": 0.0432,
      "step": 8376
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.21993903815746307,
      "learning_rate": 0.00012841272146383966,
      "loss": 0.0452,
      "step": 8377
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.11073406785726547,
      "learning_rate": 0.00012839093813534708,
      "loss": 0.0187,
      "step": 8378
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.15885235369205475,
      "learning_rate": 0.00012836915480685446,
      "loss": 0.0303,
      "step": 8379
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.15712220966815948,
      "learning_rate": 0.0001283473714783619,
      "loss": 0.0301,
      "step": 8380
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.15874002873897552,
      "learning_rate": 0.0001283255881498693,
      "loss": 0.0383,
      "step": 8381
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.21881358325481415,
      "learning_rate": 0.0001283038048213767,
      "loss": 0.021,
      "step": 8382
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.2125580906867981,
      "learning_rate": 0.0001282820214928841,
      "loss": 0.0701,
      "step": 8383
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.1405266970396042,
      "learning_rate": 0.0001282602381643915,
      "loss": 0.0215,
      "step": 8384
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.44986647367477417,
      "learning_rate": 0.00012823845483589893,
      "loss": 0.0475,
      "step": 8385
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.3693772554397583,
      "learning_rate": 0.00012821667150740633,
      "loss": 0.015,
      "step": 8386
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.18560586869716644,
      "learning_rate": 0.00012819488817891373,
      "loss": 0.0246,
      "step": 8387
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.31168660521507263,
      "learning_rate": 0.00012817310485042113,
      "loss": 0.0325,
      "step": 8388
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.21309997141361237,
      "learning_rate": 0.00012815132152192853,
      "loss": 0.0395,
      "step": 8389
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.20879106223583221,
      "learning_rate": 0.00012812953819343594,
      "loss": 0.0359,
      "step": 8390
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.7101771235466003,
      "learning_rate": 0.00012810775486494337,
      "loss": 0.0688,
      "step": 8391
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.20185936987400055,
      "learning_rate": 0.00012808597153645077,
      "loss": 0.0366,
      "step": 8392
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.23873621225357056,
      "learning_rate": 0.00012806418820795817,
      "loss": 0.0547,
      "step": 8393
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.31647181510925293,
      "learning_rate": 0.00012804240487946557,
      "loss": 0.0563,
      "step": 8394
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.09658372402191162,
      "learning_rate": 0.00012802062155097297,
      "loss": 0.011,
      "step": 8395
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.17186380922794342,
      "learning_rate": 0.00012799883822248038,
      "loss": 0.0291,
      "step": 8396
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.252248078584671,
      "learning_rate": 0.00012797705489398778,
      "loss": 0.0806,
      "step": 8397
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.34376928210258484,
      "learning_rate": 0.0001279552715654952,
      "loss": 0.0231,
      "step": 8398
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.5853495597839355,
      "learning_rate": 0.0001279334882370026,
      "loss": 0.0387,
      "step": 8399
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.15554450452327728,
      "learning_rate": 0.00012791170490851,
      "loss": 0.0156,
      "step": 8400
    },
    {
      "epoch": 2.35,
      "eval_loss": 0.07018047571182251,
      "eval_runtime": 212.6497,
      "eval_samples_per_second": 12.424,
      "eval_steps_per_second": 0.39,
      "eval_wer": 0.05362951209837366,
      "step": 8400
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.14972633123397827,
      "learning_rate": 0.0001278899215800174,
      "loss": 0.0202,
      "step": 8401
    },
    {
      "epoch": 2.35,
      "grad_norm": 0.18361862003803253,
      "learning_rate": 0.00012786813825152481,
      "loss": 0.0234,
      "step": 8402
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.15442577004432678,
      "learning_rate": 0.00012784635492303224,
      "loss": 0.0198,
      "step": 8403
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.4111015796661377,
      "learning_rate": 0.00012782457159453962,
      "loss": 0.0599,
      "step": 8404
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.13363279402256012,
      "learning_rate": 0.00012780278826604705,
      "loss": 0.0117,
      "step": 8405
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.19361364841461182,
      "learning_rate": 0.00012778100493755445,
      "loss": 0.0141,
      "step": 8406
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.38378965854644775,
      "learning_rate": 0.00012775922160906185,
      "loss": 0.0402,
      "step": 8407
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.2515084743499756,
      "learning_rate": 0.00012773743828056925,
      "loss": 0.0604,
      "step": 8408
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.2080618143081665,
      "learning_rate": 0.00012771565495207666,
      "loss": 0.0254,
      "step": 8409
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.3378642499446869,
      "learning_rate": 0.00012769387162358409,
      "loss": 0.1103,
      "step": 8410
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.5214335918426514,
      "learning_rate": 0.0001276720882950915,
      "loss": 0.0327,
      "step": 8411
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.2430935800075531,
      "learning_rate": 0.0001276503049665989,
      "loss": 0.0369,
      "step": 8412
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.23279963433742523,
      "learning_rate": 0.0001276285216381063,
      "loss": 0.0523,
      "step": 8413
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.1746911108493805,
      "learning_rate": 0.0001276067383096137,
      "loss": 0.0277,
      "step": 8414
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.1455022692680359,
      "learning_rate": 0.0001275849549811211,
      "loss": 0.0361,
      "step": 8415
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.2516877353191376,
      "learning_rate": 0.0001275631716526285,
      "loss": 0.0669,
      "step": 8416
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.28265851736068726,
      "learning_rate": 0.00012754138832413593,
      "loss": 0.0385,
      "step": 8417
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.15510714054107666,
      "learning_rate": 0.00012751960499564333,
      "loss": 0.0532,
      "step": 8418
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.11317166686058044,
      "learning_rate": 0.00012749782166715073,
      "loss": 0.0134,
      "step": 8419
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.2544812262058258,
      "learning_rate": 0.00012747603833865813,
      "loss": 0.0322,
      "step": 8420
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.5738831758499146,
      "learning_rate": 0.00012745425501016553,
      "loss": 0.1041,
      "step": 8421
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.16820256412029266,
      "learning_rate": 0.00012743247168167294,
      "loss": 0.0112,
      "step": 8422
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.1765001267194748,
      "learning_rate": 0.00012741068835318034,
      "loss": 0.0248,
      "step": 8423
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.21566951274871826,
      "learning_rate": 0.00012738890502468777,
      "loss": 0.0207,
      "step": 8424
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.08463217318058014,
      "learning_rate": 0.00012736712169619517,
      "loss": 0.0135,
      "step": 8425
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.13620631396770477,
      "learning_rate": 0.00012734533836770257,
      "loss": 0.0138,
      "step": 8426
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.21761202812194824,
      "learning_rate": 0.00012732355503920997,
      "loss": 0.0476,
      "step": 8427
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.292626291513443,
      "learning_rate": 0.0001273017717107174,
      "loss": 0.061,
      "step": 8428
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.2834773063659668,
      "learning_rate": 0.00012727998838222478,
      "loss": 0.0546,
      "step": 8429
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.15320011973381042,
      "learning_rate": 0.00012725820505373218,
      "loss": 0.0295,
      "step": 8430
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.14204412698745728,
      "learning_rate": 0.0001272364217252396,
      "loss": 0.0295,
      "step": 8431
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.197612002491951,
      "learning_rate": 0.000127214638396747,
      "loss": 0.0385,
      "step": 8432
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.17122621834278107,
      "learning_rate": 0.0001271928550682544,
      "loss": 0.0307,
      "step": 8433
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.3035508692264557,
      "learning_rate": 0.00012717107173976182,
      "loss": 0.0879,
      "step": 8434
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.201520174741745,
      "learning_rate": 0.00012714928841126924,
      "loss": 0.0297,
      "step": 8435
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.4075196087360382,
      "learning_rate": 0.00012712750508277665,
      "loss": 0.0771,
      "step": 8436
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.2500608563423157,
      "learning_rate": 0.00012710572175428405,
      "loss": 0.0301,
      "step": 8437
    },
    {
      "epoch": 2.36,
      "grad_norm": 0.13205286860466003,
      "learning_rate": 0.00012708393842579145,
      "loss": 0.0296,
      "step": 8438
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.23644793033599854,
      "learning_rate": 0.00012706215509729885,
      "loss": 0.0357,
      "step": 8439
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.14050863683223724,
      "learning_rate": 0.00012704037176880625,
      "loss": 0.0193,
      "step": 8440
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.16368970274925232,
      "learning_rate": 0.00012701858844031366,
      "loss": 0.0263,
      "step": 8441
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.1155528649687767,
      "learning_rate": 0.00012699680511182109,
      "loss": 0.0121,
      "step": 8442
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.1833747774362564,
      "learning_rate": 0.0001269750217833285,
      "loss": 0.0168,
      "step": 8443
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.11904996633529663,
      "learning_rate": 0.0001269532384548359,
      "loss": 0.0251,
      "step": 8444
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.14156626164913177,
      "learning_rate": 0.0001269314551263433,
      "loss": 0.0119,
      "step": 8445
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.167459636926651,
      "learning_rate": 0.0001269096717978507,
      "loss": 0.0419,
      "step": 8446
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.12864243984222412,
      "learning_rate": 0.0001268878884693581,
      "loss": 0.0226,
      "step": 8447
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.32712024450302124,
      "learning_rate": 0.0001268661051408655,
      "loss": 0.0274,
      "step": 8448
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.21440613269805908,
      "learning_rate": 0.00012684432181237293,
      "loss": 0.0204,
      "step": 8449
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.24295160174369812,
      "learning_rate": 0.00012682253848388033,
      "loss": 0.0306,
      "step": 8450
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.14249823987483978,
      "learning_rate": 0.00012680075515538773,
      "loss": 0.0225,
      "step": 8451
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.1324784755706787,
      "learning_rate": 0.00012677897182689513,
      "loss": 0.0191,
      "step": 8452
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.20854632556438446,
      "learning_rate": 0.00012675718849840256,
      "loss": 0.0251,
      "step": 8453
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.16458530724048615,
      "learning_rate": 0.00012673540516990996,
      "loss": 0.0294,
      "step": 8454
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.16429391503334045,
      "learning_rate": 0.00012671362184141734,
      "loss": 0.0387,
      "step": 8455
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.17065899074077606,
      "learning_rate": 0.00012669183851292477,
      "loss": 0.0229,
      "step": 8456
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.14566318690776825,
      "learning_rate": 0.00012667005518443217,
      "loss": 0.0349,
      "step": 8457
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.1648711860179901,
      "learning_rate": 0.00012664827185593957,
      "loss": 0.0115,
      "step": 8458
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.24169771373271942,
      "learning_rate": 0.00012662648852744697,
      "loss": 0.0616,
      "step": 8459
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.22085487842559814,
      "learning_rate": 0.0001266047051989544,
      "loss": 0.0254,
      "step": 8460
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.2926240563392639,
      "learning_rate": 0.0001265829218704618,
      "loss": 0.0161,
      "step": 8461
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.18919552862644196,
      "learning_rate": 0.0001265611385419692,
      "loss": 0.0289,
      "step": 8462
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.27085548639297485,
      "learning_rate": 0.0001265393552134766,
      "loss": 0.0325,
      "step": 8463
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.23359113931655884,
      "learning_rate": 0.000126517571884984,
      "loss": 0.0454,
      "step": 8464
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.1997305303812027,
      "learning_rate": 0.00012649578855649141,
      "loss": 0.0323,
      "step": 8465
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.17282183468341827,
      "learning_rate": 0.00012647400522799882,
      "loss": 0.0311,
      "step": 8466
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.1796671450138092,
      "learning_rate": 0.00012645222189950624,
      "loss": 0.0286,
      "step": 8467
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.15045763552188873,
      "learning_rate": 0.00012643043857101365,
      "loss": 0.0193,
      "step": 8468
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.12228283286094666,
      "learning_rate": 0.00012640865524252105,
      "loss": 0.011,
      "step": 8469
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.16149383783340454,
      "learning_rate": 0.00012638687191402845,
      "loss": 0.0607,
      "step": 8470
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.47230368852615356,
      "learning_rate": 0.00012636508858553585,
      "loss": 0.0668,
      "step": 8471
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.1748615950345993,
      "learning_rate": 0.00012634330525704325,
      "loss": 0.0272,
      "step": 8472
    },
    {
      "epoch": 2.37,
      "grad_norm": 0.1276717185974121,
      "learning_rate": 0.00012632152192855066,
      "loss": 0.0093,
      "step": 8473
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.22818931937217712,
      "learning_rate": 0.00012629973860005809,
      "loss": 0.0193,
      "step": 8474
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.13596241176128387,
      "learning_rate": 0.0001262779552715655,
      "loss": 0.0262,
      "step": 8475
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.2514834403991699,
      "learning_rate": 0.0001262561719430729,
      "loss": 0.0215,
      "step": 8476
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.3543277382850647,
      "learning_rate": 0.0001262343886145803,
      "loss": 0.033,
      "step": 8477
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.18998755514621735,
      "learning_rate": 0.00012621260528608772,
      "loss": 0.0475,
      "step": 8478
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.1981743723154068,
      "learning_rate": 0.00012619082195759512,
      "loss": 0.0437,
      "step": 8479
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.1471240520477295,
      "learning_rate": 0.0001261690386291025,
      "loss": 0.0128,
      "step": 8480
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.22324757277965546,
      "learning_rate": 0.00012614725530060993,
      "loss": 0.0302,
      "step": 8481
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.3170355260372162,
      "learning_rate": 0.00012612547197211733,
      "loss": 0.0635,
      "step": 8482
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.23784136772155762,
      "learning_rate": 0.00012610368864362473,
      "loss": 0.061,
      "step": 8483
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.12975899875164032,
      "learning_rate": 0.00012608190531513213,
      "loss": 0.026,
      "step": 8484
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.3856988549232483,
      "learning_rate": 0.00012606012198663956,
      "loss": 0.0341,
      "step": 8485
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.5770765542984009,
      "learning_rate": 0.00012603833865814696,
      "loss": 0.0831,
      "step": 8486
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.1581091433763504,
      "learning_rate": 0.00012601655532965437,
      "loss": 0.0551,
      "step": 8487
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.1664707213640213,
      "learning_rate": 0.00012599477200116177,
      "loss": 0.0228,
      "step": 8488
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.30273109674453735,
      "learning_rate": 0.00012597298867266917,
      "loss": 0.0469,
      "step": 8489
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.23736217617988586,
      "learning_rate": 0.00012595120534417657,
      "loss": 0.065,
      "step": 8490
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.24106568098068237,
      "learning_rate": 0.00012592942201568397,
      "loss": 0.0436,
      "step": 8491
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.15716905891895294,
      "learning_rate": 0.0001259076386871914,
      "loss": 0.0145,
      "step": 8492
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.1187247708439827,
      "learning_rate": 0.0001258858553586988,
      "loss": 0.0162,
      "step": 8493
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.14472997188568115,
      "learning_rate": 0.0001258640720302062,
      "loss": 0.0123,
      "step": 8494
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.1725003570318222,
      "learning_rate": 0.0001258422887017136,
      "loss": 0.0188,
      "step": 8495
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.3412514925003052,
      "learning_rate": 0.000125820505373221,
      "loss": 0.0361,
      "step": 8496
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.26826322078704834,
      "learning_rate": 0.00012579872204472841,
      "loss": 0.0333,
      "step": 8497
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.6430630683898926,
      "learning_rate": 0.00012577693871623582,
      "loss": 0.0177,
      "step": 8498
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.27854230999946594,
      "learning_rate": 0.00012575515538774325,
      "loss": 0.023,
      "step": 8499
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.2185683697462082,
      "learning_rate": 0.00012573337205925065,
      "loss": 0.045,
      "step": 8500
    },
    {
      "epoch": 2.38,
      "eval_loss": 0.06716103106737137,
      "eval_runtime": 173.3763,
      "eval_samples_per_second": 15.239,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.05329234430781436,
      "step": 8500
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.31843435764312744,
      "learning_rate": 0.00012571158873075805,
      "loss": 0.026,
      "step": 8501
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.15014047920703888,
      "learning_rate": 0.00012568980540226545,
      "loss": 0.0343,
      "step": 8502
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.22980958223342896,
      "learning_rate": 0.00012566802207377288,
      "loss": 0.0247,
      "step": 8503
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.22275616228580475,
      "learning_rate": 0.00012564623874528028,
      "loss": 0.0499,
      "step": 8504
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.11523459851741791,
      "learning_rate": 0.00012562445541678766,
      "loss": 0.014,
      "step": 8505
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.27789101004600525,
      "learning_rate": 0.0001256026720882951,
      "loss": 0.0262,
      "step": 8506
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.2996787428855896,
      "learning_rate": 0.0001255808887598025,
      "loss": 0.0574,
      "step": 8507
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.1256081908941269,
      "learning_rate": 0.0001255591054313099,
      "loss": 0.0437,
      "step": 8508
    },
    {
      "epoch": 2.38,
      "grad_norm": 0.26064735651016235,
      "learning_rate": 0.0001255373221028173,
      "loss": 0.037,
      "step": 8509
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.1510741263628006,
      "learning_rate": 0.00012551553877432472,
      "loss": 0.0281,
      "step": 8510
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.2824268937110901,
      "learning_rate": 0.00012549375544583212,
      "loss": 0.0551,
      "step": 8511
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.3640393018722534,
      "learning_rate": 0.00012547197211733953,
      "loss": 0.0701,
      "step": 8512
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.25318825244903564,
      "learning_rate": 0.00012545018878884693,
      "loss": 0.0277,
      "step": 8513
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.31916719675064087,
      "learning_rate": 0.00012542840546035433,
      "loss": 0.0375,
      "step": 8514
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.10668548941612244,
      "learning_rate": 0.00012540662213186173,
      "loss": 0.0314,
      "step": 8515
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.2677091658115387,
      "learning_rate": 0.00012538483880336913,
      "loss": 0.0322,
      "step": 8516
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.32316339015960693,
      "learning_rate": 0.00012536305547487656,
      "loss": 0.0745,
      "step": 8517
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.12371876090765,
      "learning_rate": 0.00012534127214638397,
      "loss": 0.0128,
      "step": 8518
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.1759604662656784,
      "learning_rate": 0.00012531948881789137,
      "loss": 0.0217,
      "step": 8519
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.42012518644332886,
      "learning_rate": 0.00012529770548939877,
      "loss": 0.035,
      "step": 8520
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.14340411126613617,
      "learning_rate": 0.00012527592216090617,
      "loss": 0.0256,
      "step": 8521
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.1885288804769516,
      "learning_rate": 0.00012525413883241357,
      "loss": 0.0272,
      "step": 8522
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.2323167771100998,
      "learning_rate": 0.00012523235550392098,
      "loss": 0.0219,
      "step": 8523
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.6721420884132385,
      "learning_rate": 0.0001252105721754284,
      "loss": 0.1444,
      "step": 8524
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.2801137864589691,
      "learning_rate": 0.0001251887888469358,
      "loss": 0.0614,
      "step": 8525
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.2791641056537628,
      "learning_rate": 0.0001251670055184432,
      "loss": 0.0294,
      "step": 8526
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.2158421128988266,
      "learning_rate": 0.0001251452221899506,
      "loss": 0.0212,
      "step": 8527
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.1285407990217209,
      "learning_rate": 0.000125123438861458,
      "loss": 0.0188,
      "step": 8528
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.20842593908309937,
      "learning_rate": 0.00012510165553296544,
      "loss": 0.0337,
      "step": 8529
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.17005525529384613,
      "learning_rate": 0.00012507987220447282,
      "loss": 0.0524,
      "step": 8530
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.3432328402996063,
      "learning_rate": 0.00012505808887598025,
      "loss": 0.0324,
      "step": 8531
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.07775124907493591,
      "learning_rate": 0.00012503630554748765,
      "loss": 0.0228,
      "step": 8532
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.14082083106040955,
      "learning_rate": 0.00012501452221899505,
      "loss": 0.0233,
      "step": 8533
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.17067857086658478,
      "learning_rate": 0.00012499273889050245,
      "loss": 0.0179,
      "step": 8534
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.26424527168273926,
      "learning_rate": 0.00012497095556200985,
      "loss": 0.0553,
      "step": 8535
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.31332725286483765,
      "learning_rate": 0.00012494917223351728,
      "loss": 0.0203,
      "step": 8536
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.2086358666419983,
      "learning_rate": 0.00012492738890502469,
      "loss": 0.0357,
      "step": 8537
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.12304359674453735,
      "learning_rate": 0.0001249056055765321,
      "loss": 0.021,
      "step": 8538
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.30011680722236633,
      "learning_rate": 0.0001248838222480395,
      "loss": 0.0301,
      "step": 8539
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.12622633576393127,
      "learning_rate": 0.0001248620389195469,
      "loss": 0.0121,
      "step": 8540
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.20222392678260803,
      "learning_rate": 0.0001248402555910543,
      "loss": 0.0363,
      "step": 8541
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.11270930618047714,
      "learning_rate": 0.0001248184722625617,
      "loss": 0.0388,
      "step": 8542
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.3523125946521759,
      "learning_rate": 0.00012479668893406912,
      "loss": 0.0217,
      "step": 8543
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.10463134199380875,
      "learning_rate": 0.00012477490560557653,
      "loss": 0.0113,
      "step": 8544
    },
    {
      "epoch": 2.39,
      "grad_norm": 0.31699123978614807,
      "learning_rate": 0.00012475312227708393,
      "loss": 0.0391,
      "step": 8545
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.2862201929092407,
      "learning_rate": 0.00012473133894859133,
      "loss": 0.0358,
      "step": 8546
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.18120115995407104,
      "learning_rate": 0.00012470955562009873,
      "loss": 0.0146,
      "step": 8547
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.323222279548645,
      "learning_rate": 0.00012468777229160613,
      "loss": 0.0269,
      "step": 8548
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.22502093017101288,
      "learning_rate": 0.00012466598896311354,
      "loss": 0.0214,
      "step": 8549
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.20246797800064087,
      "learning_rate": 0.00012464420563462097,
      "loss": 0.0521,
      "step": 8550
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.1065845713019371,
      "learning_rate": 0.00012462242230612837,
      "loss": 0.0187,
      "step": 8551
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.24904857575893402,
      "learning_rate": 0.00012460063897763577,
      "loss": 0.0488,
      "step": 8552
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.14885826408863068,
      "learning_rate": 0.00012457885564914317,
      "loss": 0.0225,
      "step": 8553
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.27329021692276,
      "learning_rate": 0.0001245570723206506,
      "loss": 0.0398,
      "step": 8554
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.22938865423202515,
      "learning_rate": 0.00012453528899215798,
      "loss": 0.0442,
      "step": 8555
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.10860808193683624,
      "learning_rate": 0.0001245135056636654,
      "loss": 0.0236,
      "step": 8556
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.17437949776649475,
      "learning_rate": 0.0001244917223351728,
      "loss": 0.0423,
      "step": 8557
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.17837326228618622,
      "learning_rate": 0.0001244699390066802,
      "loss": 0.0356,
      "step": 8558
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.14879633486270905,
      "learning_rate": 0.0001244481556781876,
      "loss": 0.0155,
      "step": 8559
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.2958691418170929,
      "learning_rate": 0.000124426372349695,
      "loss": 0.0341,
      "step": 8560
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6080982089042664,
      "learning_rate": 0.00012440458902120244,
      "loss": 0.0876,
      "step": 8561
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.15377475321292877,
      "learning_rate": 0.00012438280569270984,
      "loss": 0.022,
      "step": 8562
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.2518017888069153,
      "learning_rate": 0.00012436102236421725,
      "loss": 0.0405,
      "step": 8563
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.14046019315719604,
      "learning_rate": 0.00012433923903572465,
      "loss": 0.0213,
      "step": 8564
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.3411518633365631,
      "learning_rate": 0.00012431745570723205,
      "loss": 0.0533,
      "step": 8565
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.1373729407787323,
      "learning_rate": 0.00012429567237873945,
      "loss": 0.0279,
      "step": 8566
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.13366127014160156,
      "learning_rate": 0.00012427388905024685,
      "loss": 0.0207,
      "step": 8567
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.12112527340650558,
      "learning_rate": 0.00012425210572175428,
      "loss": 0.0158,
      "step": 8568
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.22505679726600647,
      "learning_rate": 0.00012423032239326169,
      "loss": 0.038,
      "step": 8569
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.26067057251930237,
      "learning_rate": 0.0001242085390647691,
      "loss": 0.0549,
      "step": 8570
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.19964231550693512,
      "learning_rate": 0.0001241867557362765,
      "loss": 0.0323,
      "step": 8571
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.23631513118743896,
      "learning_rate": 0.0001241649724077839,
      "loss": 0.0318,
      "step": 8572
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.20832090079784393,
      "learning_rate": 0.0001241431890792913,
      "loss": 0.0253,
      "step": 8573
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.6585074663162231,
      "learning_rate": 0.0001241214057507987,
      "loss": 0.0579,
      "step": 8574
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.3145923614501953,
      "learning_rate": 0.00012409962242230612,
      "loss": 0.0455,
      "step": 8575
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.1520138829946518,
      "learning_rate": 0.00012407783909381353,
      "loss": 0.0413,
      "step": 8576
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.34439682960510254,
      "learning_rate": 0.00012405605576532093,
      "loss": 0.0349,
      "step": 8577
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.19693753123283386,
      "learning_rate": 0.00012403427243682833,
      "loss": 0.0593,
      "step": 8578
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.13777387142181396,
      "learning_rate": 0.00012401248910833576,
      "loss": 0.026,
      "step": 8579
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.19626931846141815,
      "learning_rate": 0.00012399070577984314,
      "loss": 0.0359,
      "step": 8580
    },
    {
      "epoch": 2.4,
      "grad_norm": 0.15998169779777527,
      "learning_rate": 0.00012396892245135054,
      "loss": 0.0353,
      "step": 8581
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.27296993136405945,
      "learning_rate": 0.00012394713912285797,
      "loss": 0.024,
      "step": 8582
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.31005769968032837,
      "learning_rate": 0.00012392535579436537,
      "loss": 0.0965,
      "step": 8583
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.42579221725463867,
      "learning_rate": 0.00012390357246587277,
      "loss": 0.0487,
      "step": 8584
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.2446610927581787,
      "learning_rate": 0.00012388178913738017,
      "loss": 0.035,
      "step": 8585
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.23025421798229218,
      "learning_rate": 0.0001238600058088876,
      "loss": 0.0141,
      "step": 8586
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.17429473996162415,
      "learning_rate": 0.000123838222480395,
      "loss": 0.0313,
      "step": 8587
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.20548249781131744,
      "learning_rate": 0.0001238164391519024,
      "loss": 0.0338,
      "step": 8588
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.13985587656497955,
      "learning_rate": 0.0001237946558234098,
      "loss": 0.0309,
      "step": 8589
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.1312355399131775,
      "learning_rate": 0.0001237728724949172,
      "loss": 0.0195,
      "step": 8590
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.1044640988111496,
      "learning_rate": 0.0001237510891664246,
      "loss": 0.0195,
      "step": 8591
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.17990879714488983,
      "learning_rate": 0.00012372930583793201,
      "loss": 0.0213,
      "step": 8592
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.16359083354473114,
      "learning_rate": 0.00012370752250943944,
      "loss": 0.0279,
      "step": 8593
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.155740886926651,
      "learning_rate": 0.00012368573918094684,
      "loss": 0.0255,
      "step": 8594
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.23821496963500977,
      "learning_rate": 0.00012366395585245425,
      "loss": 0.0408,
      "step": 8595
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.22445765137672424,
      "learning_rate": 0.00012364217252396165,
      "loss": 0.0726,
      "step": 8596
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.6043004393577576,
      "learning_rate": 0.00012362038919546905,
      "loss": 0.06,
      "step": 8597
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.2063380777835846,
      "learning_rate": 0.00012359860586697645,
      "loss": 0.0715,
      "step": 8598
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.3478505313396454,
      "learning_rate": 0.00012357682253848385,
      "loss": 0.0347,
      "step": 8599
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.18941012024879456,
      "learning_rate": 0.00012355503920999128,
      "loss": 0.0286,
      "step": 8600
    },
    {
      "epoch": 2.41,
      "eval_loss": 0.06703762710094452,
      "eval_runtime": 172.247,
      "eval_samples_per_second": 15.338,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.05368901229670765,
      "step": 8600
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.18426966667175293,
      "learning_rate": 0.00012353325588149869,
      "loss": 0.0306,
      "step": 8601
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.0720849484205246,
      "learning_rate": 0.0001235114725530061,
      "loss": 0.0093,
      "step": 8602
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.26779842376708984,
      "learning_rate": 0.0001234896892245135,
      "loss": 0.0303,
      "step": 8603
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.36986228823661804,
      "learning_rate": 0.00012346790589602092,
      "loss": 0.0434,
      "step": 8604
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.24945992231369019,
      "learning_rate": 0.0001234461225675283,
      "loss": 0.0537,
      "step": 8605
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.21557609736919403,
      "learning_rate": 0.0001234243392390357,
      "loss": 0.031,
      "step": 8606
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.18192119896411896,
      "learning_rate": 0.00012340255591054313,
      "loss": 0.0175,
      "step": 8607
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.13240179419517517,
      "learning_rate": 0.00012338077258205053,
      "loss": 0.0484,
      "step": 8608
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.2781361937522888,
      "learning_rate": 0.00012335898925355793,
      "loss": 0.046,
      "step": 8609
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.21800142526626587,
      "learning_rate": 0.00012333720592506533,
      "loss": 0.0093,
      "step": 8610
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.2982734739780426,
      "learning_rate": 0.00012331542259657276,
      "loss": 0.0323,
      "step": 8611
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.20985862612724304,
      "learning_rate": 0.00012329363926808016,
      "loss": 0.023,
      "step": 8612
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.19610397517681122,
      "learning_rate": 0.00012327185593958756,
      "loss": 0.0294,
      "step": 8613
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.14898288249969482,
      "learning_rate": 0.00012325007261109497,
      "loss": 0.0467,
      "step": 8614
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.2185322344303131,
      "learning_rate": 0.00012322828928260237,
      "loss": 0.059,
      "step": 8615
    },
    {
      "epoch": 2.41,
      "grad_norm": 0.2949903607368469,
      "learning_rate": 0.00012320650595410977,
      "loss": 0.0478,
      "step": 8616
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.09966723620891571,
      "learning_rate": 0.00012318472262561717,
      "loss": 0.0166,
      "step": 8617
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.2647741436958313,
      "learning_rate": 0.0001231629392971246,
      "loss": 0.0418,
      "step": 8618
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.31135323643684387,
      "learning_rate": 0.000123141155968632,
      "loss": 0.0163,
      "step": 8619
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.11046743392944336,
      "learning_rate": 0.0001231193726401394,
      "loss": 0.0207,
      "step": 8620
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.250751256942749,
      "learning_rate": 0.0001230975893116468,
      "loss": 0.0203,
      "step": 8621
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.16112805902957916,
      "learning_rate": 0.0001230758059831542,
      "loss": 0.0223,
      "step": 8622
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.31722837686538696,
      "learning_rate": 0.0001230540226546616,
      "loss": 0.0353,
      "step": 8623
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.21732960641384125,
      "learning_rate": 0.00012303223932616901,
      "loss": 0.0221,
      "step": 8624
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.16465528309345245,
      "learning_rate": 0.00012301045599767644,
      "loss": 0.0134,
      "step": 8625
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.2547038495540619,
      "learning_rate": 0.00012298867266918385,
      "loss": 0.0264,
      "step": 8626
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.1785648614168167,
      "learning_rate": 0.00012296688934069125,
      "loss": 0.0292,
      "step": 8627
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.18860939145088196,
      "learning_rate": 0.00012294510601219865,
      "loss": 0.0435,
      "step": 8628
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.15357092022895813,
      "learning_rate": 0.00012292332268370608,
      "loss": 0.0444,
      "step": 8629
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.15078358352184296,
      "learning_rate": 0.00012290153935521348,
      "loss": 0.0146,
      "step": 8630
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.17449046671390533,
      "learning_rate": 0.00012287975602672086,
      "loss": 0.0296,
      "step": 8631
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.18520283699035645,
      "learning_rate": 0.00012285797269822828,
      "loss": 0.0198,
      "step": 8632
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.0463721863925457,
      "learning_rate": 0.0001228361893697357,
      "loss": 0.0048,
      "step": 8633
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.1234847903251648,
      "learning_rate": 0.0001228144060412431,
      "loss": 0.0271,
      "step": 8634
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.21245133876800537,
      "learning_rate": 0.0001227926227127505,
      "loss": 0.0469,
      "step": 8635
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.18188360333442688,
      "learning_rate": 0.00012277083938425792,
      "loss": 0.0091,
      "step": 8636
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.210892453789711,
      "learning_rate": 0.00012274905605576532,
      "loss": 0.0381,
      "step": 8637
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.15607456862926483,
      "learning_rate": 0.00012272727272727272,
      "loss": 0.0203,
      "step": 8638
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.28594106435775757,
      "learning_rate": 0.00012270548939878013,
      "loss": 0.0495,
      "step": 8639
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.12462281435728073,
      "learning_rate": 0.00012268370607028753,
      "loss": 0.02,
      "step": 8640
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.20906662940979004,
      "learning_rate": 0.00012266192274179493,
      "loss": 0.0323,
      "step": 8641
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.13167507946491241,
      "learning_rate": 0.00012264013941330233,
      "loss": 0.0424,
      "step": 8642
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.11628719419240952,
      "learning_rate": 0.00012261835608480976,
      "loss": 0.0105,
      "step": 8643
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.09782672673463821,
      "learning_rate": 0.00012259657275631716,
      "loss": 0.0064,
      "step": 8644
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.14035268127918243,
      "learning_rate": 0.00012257478942782457,
      "loss": 0.0136,
      "step": 8645
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.244543194770813,
      "learning_rate": 0.00012255300609933197,
      "loss": 0.0676,
      "step": 8646
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.2860065996646881,
      "learning_rate": 0.00012253122277083937,
      "loss": 0.038,
      "step": 8647
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.314535528421402,
      "learning_rate": 0.00012250943944234677,
      "loss": 0.0324,
      "step": 8648
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.4097170829772949,
      "learning_rate": 0.00012248765611385417,
      "loss": 0.0837,
      "step": 8649
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.1513175070285797,
      "learning_rate": 0.0001224658727853616,
      "loss": 0.0427,
      "step": 8650
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.11330300569534302,
      "learning_rate": 0.000122444089456869,
      "loss": 0.0145,
      "step": 8651
    },
    {
      "epoch": 2.42,
      "grad_norm": 0.17676551640033722,
      "learning_rate": 0.0001224223061283764,
      "loss": 0.015,
      "step": 8652
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.19054926931858063,
      "learning_rate": 0.0001224005227998838,
      "loss": 0.0275,
      "step": 8653
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.14904364943504333,
      "learning_rate": 0.0001223787394713912,
      "loss": 0.0271,
      "step": 8654
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.1825655847787857,
      "learning_rate": 0.00012235695614289864,
      "loss": 0.0243,
      "step": 8655
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.18422381579875946,
      "learning_rate": 0.00012233517281440601,
      "loss": 0.028,
      "step": 8656
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.09309593588113785,
      "learning_rate": 0.00012231338948591344,
      "loss": 0.026,
      "step": 8657
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.0759701207280159,
      "learning_rate": 0.00012229160615742085,
      "loss": 0.0137,
      "step": 8658
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.2645184099674225,
      "learning_rate": 0.00012226982282892825,
      "loss": 0.0422,
      "step": 8659
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.2506186366081238,
      "learning_rate": 0.00012224803950043565,
      "loss": 0.0152,
      "step": 8660
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.3804836571216583,
      "learning_rate": 0.00012222625617194308,
      "loss": 0.0249,
      "step": 8661
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.13101163506507874,
      "learning_rate": 0.00012220447284345048,
      "loss": 0.0153,
      "step": 8662
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.19954268634319305,
      "learning_rate": 0.00012218268951495788,
      "loss": 0.0179,
      "step": 8663
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.09428726881742477,
      "learning_rate": 0.00012216090618646529,
      "loss": 0.0108,
      "step": 8664
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.7623035311698914,
      "learning_rate": 0.0001221391228579727,
      "loss": 0.0405,
      "step": 8665
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.2887314260005951,
      "learning_rate": 0.0001221173395294801,
      "loss": 0.0378,
      "step": 8666
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.2936340570449829,
      "learning_rate": 0.0001220955562009875,
      "loss": 0.0515,
      "step": 8667
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.31852948665618896,
      "learning_rate": 0.00012207377287249492,
      "loss": 0.0387,
      "step": 8668
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.26943764090538025,
      "learning_rate": 0.00012205198954400231,
      "loss": 0.0506,
      "step": 8669
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.13689269125461578,
      "learning_rate": 0.00012203020621550972,
      "loss": 0.0144,
      "step": 8670
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.18989123404026031,
      "learning_rate": 0.00012200842288701713,
      "loss": 0.0427,
      "step": 8671
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.14806963503360748,
      "learning_rate": 0.00012198663955852453,
      "loss": 0.0065,
      "step": 8672
    },
    {
      "epoch": 2.43,
      "grad_norm": 1.1484363079071045,
      "learning_rate": 0.00012196485623003193,
      "loss": 0.0661,
      "step": 8673
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.5272771716117859,
      "learning_rate": 0.00012194307290153935,
      "loss": 0.1004,
      "step": 8674
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.1218864694237709,
      "learning_rate": 0.00012192128957304675,
      "loss": 0.013,
      "step": 8675
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.1697538197040558,
      "learning_rate": 0.00012189950624455416,
      "loss": 0.0396,
      "step": 8676
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.14526143670082092,
      "learning_rate": 0.00012187772291606157,
      "loss": 0.0217,
      "step": 8677
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.23192796111106873,
      "learning_rate": 0.00012185593958756897,
      "loss": 0.0398,
      "step": 8678
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.16573110222816467,
      "learning_rate": 0.00012183415625907638,
      "loss": 0.0249,
      "step": 8679
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.10031676292419434,
      "learning_rate": 0.00012181237293058379,
      "loss": 0.0158,
      "step": 8680
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.21491028368473053,
      "learning_rate": 0.00012179058960209119,
      "loss": 0.0346,
      "step": 8681
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.2890985310077667,
      "learning_rate": 0.00012176880627359859,
      "loss": 0.024,
      "step": 8682
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.4236830770969391,
      "learning_rate": 0.000121747022945106,
      "loss": 0.0284,
      "step": 8683
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.23034363985061646,
      "learning_rate": 0.00012172523961661341,
      "loss": 0.0456,
      "step": 8684
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.23609702289104462,
      "learning_rate": 0.00012170345628812081,
      "loss": 0.0353,
      "step": 8685
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.20358039438724518,
      "learning_rate": 0.00012168167295962822,
      "loss": 0.0208,
      "step": 8686
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.2122422605752945,
      "learning_rate": 0.00012165988963113563,
      "loss": 0.0492,
      "step": 8687
    },
    {
      "epoch": 2.43,
      "grad_norm": 0.2672036290168762,
      "learning_rate": 0.00012163810630264304,
      "loss": 0.0284,
      "step": 8688
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.17204707860946655,
      "learning_rate": 0.00012161632297415043,
      "loss": 0.0319,
      "step": 8689
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.20195908844470978,
      "learning_rate": 0.00012159453964565785,
      "loss": 0.0347,
      "step": 8690
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.11583007872104645,
      "learning_rate": 0.00012157275631716525,
      "loss": 0.0162,
      "step": 8691
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.18195413053035736,
      "learning_rate": 0.00012155097298867265,
      "loss": 0.0219,
      "step": 8692
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.1726631075143814,
      "learning_rate": 0.00012152918966018007,
      "loss": 0.016,
      "step": 8693
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.08913157135248184,
      "learning_rate": 0.00012150740633168747,
      "loss": 0.0103,
      "step": 8694
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.5934784412384033,
      "learning_rate": 0.00012148562300319488,
      "loss": 0.0683,
      "step": 8695
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.22647202014923096,
      "learning_rate": 0.00012146383967470229,
      "loss": 0.0178,
      "step": 8696
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.08081129938364029,
      "learning_rate": 0.0001214420563462097,
      "loss": 0.0089,
      "step": 8697
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.5062286853790283,
      "learning_rate": 0.00012142027301771709,
      "loss": 0.0253,
      "step": 8698
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.1835954338312149,
      "learning_rate": 0.00012139848968922449,
      "loss": 0.027,
      "step": 8699
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.11717928946018219,
      "learning_rate": 0.00012137670636073191,
      "loss": 0.0176,
      "step": 8700
    },
    {
      "epoch": 2.44,
      "eval_loss": 0.06927144527435303,
      "eval_runtime": 173.7513,
      "eval_samples_per_second": 15.206,
      "eval_steps_per_second": 0.478,
      "eval_wer": 0.0553550178500595,
      "step": 8700
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.2570706903934479,
      "learning_rate": 0.00012135492303223931,
      "loss": 0.0402,
      "step": 8701
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.10837613791227341,
      "learning_rate": 0.00012133313970374672,
      "loss": 0.0143,
      "step": 8702
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.13525870442390442,
      "learning_rate": 0.00012131135637525413,
      "loss": 0.019,
      "step": 8703
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.08668344467878342,
      "learning_rate": 0.00012128957304676154,
      "loss": 0.0124,
      "step": 8704
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.13389705121517181,
      "learning_rate": 0.00012126778971826894,
      "loss": 0.0114,
      "step": 8705
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.2567467987537384,
      "learning_rate": 0.00012124600638977635,
      "loss": 0.0354,
      "step": 8706
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.2106732428073883,
      "learning_rate": 0.00012122422306128375,
      "loss": 0.0184,
      "step": 8707
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.2874316871166229,
      "learning_rate": 0.00012120243973279115,
      "loss": 0.0493,
      "step": 8708
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.13074828684329987,
      "learning_rate": 0.00012118065640429857,
      "loss": 0.0165,
      "step": 8709
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.13246820867061615,
      "learning_rate": 0.00012115887307580597,
      "loss": 0.0166,
      "step": 8710
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.1821487993001938,
      "learning_rate": 0.00012113708974731338,
      "loss": 0.0306,
      "step": 8711
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.21889524161815643,
      "learning_rate": 0.00012111530641882079,
      "loss": 0.0383,
      "step": 8712
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.13163819909095764,
      "learning_rate": 0.0001210935230903282,
      "loss": 0.0371,
      "step": 8713
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.17529809474945068,
      "learning_rate": 0.00012107173976183559,
      "loss": 0.022,
      "step": 8714
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.2155996710062027,
      "learning_rate": 0.00012104995643334299,
      "loss": 0.0281,
      "step": 8715
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.14830106496810913,
      "learning_rate": 0.00012102817310485041,
      "loss": 0.0197,
      "step": 8716
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.30174997448921204,
      "learning_rate": 0.00012100638977635781,
      "loss": 0.0294,
      "step": 8717
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.1122845932841301,
      "learning_rate": 0.00012098460644786523,
      "loss": 0.0273,
      "step": 8718
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.27131110429763794,
      "learning_rate": 0.00012096282311937263,
      "loss": 0.0324,
      "step": 8719
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.310304194688797,
      "learning_rate": 0.00012094103979088004,
      "loss": 0.073,
      "step": 8720
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.13739818334579468,
      "learning_rate": 0.00012091925646238744,
      "loss": 0.0139,
      "step": 8721
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.09900585561990738,
      "learning_rate": 0.00012089747313389486,
      "loss": 0.0088,
      "step": 8722
    },
    {
      "epoch": 2.44,
      "grad_norm": 0.37425661087036133,
      "learning_rate": 0.00012087568980540225,
      "loss": 0.0403,
      "step": 8723
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.2302519828081131,
      "learning_rate": 0.00012085390647690965,
      "loss": 0.0123,
      "step": 8724
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.2854059338569641,
      "learning_rate": 0.00012083212314841707,
      "loss": 0.0345,
      "step": 8725
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.18141357600688934,
      "learning_rate": 0.00012081033981992447,
      "loss": 0.0104,
      "step": 8726
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.20742222666740417,
      "learning_rate": 0.00012078855649143188,
      "loss": 0.0189,
      "step": 8727
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.2199222296476364,
      "learning_rate": 0.00012076677316293929,
      "loss": 0.0231,
      "step": 8728
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.1535719335079193,
      "learning_rate": 0.0001207449898344467,
      "loss": 0.0444,
      "step": 8729
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.2749069035053253,
      "learning_rate": 0.0001207232065059541,
      "loss": 0.0396,
      "step": 8730
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.23232050240039825,
      "learning_rate": 0.00012070142317746149,
      "loss": 0.0474,
      "step": 8731
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.09541119635105133,
      "learning_rate": 0.00012067963984896891,
      "loss": 0.0199,
      "step": 8732
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.17720817029476166,
      "learning_rate": 0.00012065785652047631,
      "loss": 0.0272,
      "step": 8733
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.2142992615699768,
      "learning_rate": 0.00012063607319198373,
      "loss": 0.0341,
      "step": 8734
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.44245973229408264,
      "learning_rate": 0.00012061428986349113,
      "loss": 0.0443,
      "step": 8735
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.30484217405319214,
      "learning_rate": 0.00012059250653499854,
      "loss": 0.0591,
      "step": 8736
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.11042733490467072,
      "learning_rate": 0.00012057072320650595,
      "loss": 0.0232,
      "step": 8737
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.1570148766040802,
      "learning_rate": 0.00012054893987801336,
      "loss": 0.0285,
      "step": 8738
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.15885382890701294,
      "learning_rate": 0.00012052715654952075,
      "loss": 0.0265,
      "step": 8739
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.1619335561990738,
      "learning_rate": 0.00012050537322102815,
      "loss": 0.0253,
      "step": 8740
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.3810693323612213,
      "learning_rate": 0.00012048358989253557,
      "loss": 0.0317,
      "step": 8741
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.10202331095933914,
      "learning_rate": 0.00012046180656404297,
      "loss": 0.0355,
      "step": 8742
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.1347147673368454,
      "learning_rate": 0.00012044002323555038,
      "loss": 0.0252,
      "step": 8743
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.10403658449649811,
      "learning_rate": 0.00012041823990705779,
      "loss": 0.0288,
      "step": 8744
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.15741227567195892,
      "learning_rate": 0.0001203964565785652,
      "loss": 0.0286,
      "step": 8745
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.21930572390556335,
      "learning_rate": 0.0001203746732500726,
      "loss": 0.0421,
      "step": 8746
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.2773814797401428,
      "learning_rate": 0.00012035288992158002,
      "loss": 0.0379,
      "step": 8747
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.13875991106033325,
      "learning_rate": 0.00012033110659308741,
      "loss": 0.0377,
      "step": 8748
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.6455224752426147,
      "learning_rate": 0.00012030932326459481,
      "loss": 0.0444,
      "step": 8749
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.15615233778953552,
      "learning_rate": 0.00012028753993610223,
      "loss": 0.0196,
      "step": 8750
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.20773497223854065,
      "learning_rate": 0.00012026575660760963,
      "loss": 0.0175,
      "step": 8751
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.11240894347429276,
      "learning_rate": 0.00012024397327911704,
      "loss": 0.0249,
      "step": 8752
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.06705429404973984,
      "learning_rate": 0.00012022218995062445,
      "loss": 0.008,
      "step": 8753
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.15309953689575195,
      "learning_rate": 0.00012020040662213186,
      "loss": 0.0134,
      "step": 8754
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.06944005936384201,
      "learning_rate": 0.00012017862329363926,
      "loss": 0.0069,
      "step": 8755
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.09242715686559677,
      "learning_rate": 0.00012015683996514665,
      "loss": 0.0113,
      "step": 8756
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.3502689599990845,
      "learning_rate": 0.00012013505663665407,
      "loss": 0.0405,
      "step": 8757
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.2897115647792816,
      "learning_rate": 0.00012011327330816147,
      "loss": 0.0353,
      "step": 8758
    },
    {
      "epoch": 2.45,
      "grad_norm": 0.14875681698322296,
      "learning_rate": 0.00012009148997966888,
      "loss": 0.0168,
      "step": 8759
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.23736271262168884,
      "learning_rate": 0.00012006970665117629,
      "loss": 0.0246,
      "step": 8760
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.5805518627166748,
      "learning_rate": 0.0001200479233226837,
      "loss": 0.0467,
      "step": 8761
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.14393089711666107,
      "learning_rate": 0.0001200261399941911,
      "loss": 0.0156,
      "step": 8762
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.2290196269750595,
      "learning_rate": 0.00012000435666569852,
      "loss": 0.0121,
      "step": 8763
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.17557117342948914,
      "learning_rate": 0.00011998257333720592,
      "loss": 0.0289,
      "step": 8764
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.1611473113298416,
      "learning_rate": 0.00011996079000871331,
      "loss": 0.0304,
      "step": 8765
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.15916164219379425,
      "learning_rate": 0.00011993900668022073,
      "loss": 0.0524,
      "step": 8766
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.36483728885650635,
      "learning_rate": 0.00011991722335172813,
      "loss": 0.0146,
      "step": 8767
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.27444130182266235,
      "learning_rate": 0.00011989544002323554,
      "loss": 0.0572,
      "step": 8768
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.20269227027893066,
      "learning_rate": 0.00011987365669474295,
      "loss": 0.032,
      "step": 8769
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.20816808938980103,
      "learning_rate": 0.00011985187336625036,
      "loss": 0.0331,
      "step": 8770
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.08164931833744049,
      "learning_rate": 0.00011983009003775776,
      "loss": 0.005,
      "step": 8771
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.18377183377742767,
      "learning_rate": 0.00011980830670926518,
      "loss": 0.0127,
      "step": 8772
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.6825218200683594,
      "learning_rate": 0.00011978652338077257,
      "loss": 0.0839,
      "step": 8773
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.5351559519767761,
      "learning_rate": 0.00011976474005227997,
      "loss": 0.0737,
      "step": 8774
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.22382935881614685,
      "learning_rate": 0.00011974295672378738,
      "loss": 0.033,
      "step": 8775
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.08145469427108765,
      "learning_rate": 0.00011972117339529479,
      "loss": 0.0075,
      "step": 8776
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.42952093482017517,
      "learning_rate": 0.0001196993900668022,
      "loss": 0.0593,
      "step": 8777
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.14116990566253662,
      "learning_rate": 0.0001196776067383096,
      "loss": 0.0206,
      "step": 8778
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.17227812111377716,
      "learning_rate": 0.00011965582340981702,
      "loss": 0.0199,
      "step": 8779
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.19813908636569977,
      "learning_rate": 0.00011963404008132442,
      "loss": 0.0344,
      "step": 8780
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.2681051194667816,
      "learning_rate": 0.00011961225675283181,
      "loss": 0.0499,
      "step": 8781
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.2456793636083603,
      "learning_rate": 0.00011959047342433923,
      "loss": 0.0521,
      "step": 8782
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.2556624710559845,
      "learning_rate": 0.00011956869009584663,
      "loss": 0.0142,
      "step": 8783
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.32935041189193726,
      "learning_rate": 0.00011954690676735404,
      "loss": 0.0272,
      "step": 8784
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.3272871971130371,
      "learning_rate": 0.00011952512343886145,
      "loss": 0.0381,
      "step": 8785
    },
    {
      "epoch": 2.46,
      "grad_norm": 1.4453356266021729,
      "learning_rate": 0.00011950334011036886,
      "loss": 0.0672,
      "step": 8786
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.18558935821056366,
      "learning_rate": 0.00011948155678187626,
      "loss": 0.0355,
      "step": 8787
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.08045026659965515,
      "learning_rate": 0.00011945977345338368,
      "loss": 0.0163,
      "step": 8788
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.14406216144561768,
      "learning_rate": 0.00011943799012489108,
      "loss": 0.0297,
      "step": 8789
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.403763085603714,
      "learning_rate": 0.00011941620679639847,
      "loss": 0.071,
      "step": 8790
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.22647781670093536,
      "learning_rate": 0.00011939442346790589,
      "loss": 0.025,
      "step": 8791
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.32837629318237305,
      "learning_rate": 0.00011937264013941329,
      "loss": 0.0464,
      "step": 8792
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.20557814836502075,
      "learning_rate": 0.0001193508568109207,
      "loss": 0.0669,
      "step": 8793
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.2048165202140808,
      "learning_rate": 0.0001193290734824281,
      "loss": 0.0497,
      "step": 8794
    },
    {
      "epoch": 2.46,
      "grad_norm": 0.21281109750270844,
      "learning_rate": 0.00011930729015393552,
      "loss": 0.0269,
      "step": 8795
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.26904839277267456,
      "learning_rate": 0.00011928550682544292,
      "loss": 0.0291,
      "step": 8796
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.3261050283908844,
      "learning_rate": 0.00011926372349695032,
      "loss": 0.1049,
      "step": 8797
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.1267816126346588,
      "learning_rate": 0.00011924194016845773,
      "loss": 0.0123,
      "step": 8798
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.12787528336048126,
      "learning_rate": 0.00011922015683996513,
      "loss": 0.0087,
      "step": 8799
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.10070353746414185,
      "learning_rate": 0.00011919837351147254,
      "loss": 0.0128,
      "step": 8800
    },
    {
      "epoch": 2.47,
      "eval_loss": 0.0696493536233902,
      "eval_runtime": 172.5655,
      "eval_samples_per_second": 15.31,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.054918683062276874,
      "step": 8800
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.11253347992897034,
      "learning_rate": 0.00011917659018297995,
      "loss": 0.0214,
      "step": 8801
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.16685055196285248,
      "learning_rate": 0.00011915480685448736,
      "loss": 0.035,
      "step": 8802
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.21521015465259552,
      "learning_rate": 0.00011913302352599476,
      "loss": 0.0601,
      "step": 8803
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.16451570391654968,
      "learning_rate": 0.00011911124019750217,
      "loss": 0.0318,
      "step": 8804
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.1894073784351349,
      "learning_rate": 0.00011908945686900958,
      "loss": 0.0309,
      "step": 8805
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.17643539607524872,
      "learning_rate": 0.00011906767354051697,
      "loss": 0.0193,
      "step": 8806
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.19910284876823425,
      "learning_rate": 0.00011904589021202439,
      "loss": 0.0208,
      "step": 8807
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.15003234148025513,
      "learning_rate": 0.00011902410688353179,
      "loss": 0.0126,
      "step": 8808
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.18727247416973114,
      "learning_rate": 0.0001190023235550392,
      "loss": 0.0185,
      "step": 8809
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.3148886561393738,
      "learning_rate": 0.0001189805402265466,
      "loss": 0.0137,
      "step": 8810
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.9731225967407227,
      "learning_rate": 0.00011895875689805402,
      "loss": 0.153,
      "step": 8811
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.15308372676372528,
      "learning_rate": 0.00011893697356956142,
      "loss": 0.0244,
      "step": 8812
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.38191020488739014,
      "learning_rate": 0.00011891519024106882,
      "loss": 0.0684,
      "step": 8813
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.15002189576625824,
      "learning_rate": 0.00011889340691257624,
      "loss": 0.0174,
      "step": 8814
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.1715530902147293,
      "learning_rate": 0.00011887162358408363,
      "loss": 0.0246,
      "step": 8815
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.28377634286880493,
      "learning_rate": 0.00011884984025559104,
      "loss": 0.0696,
      "step": 8816
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.1766086220741272,
      "learning_rate": 0.00011882805692709845,
      "loss": 0.0303,
      "step": 8817
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.23494504392147064,
      "learning_rate": 0.00011880627359860586,
      "loss": 0.0294,
      "step": 8818
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.16063006222248077,
      "learning_rate": 0.00011878449027011326,
      "loss": 0.0162,
      "step": 8819
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.20307159423828125,
      "learning_rate": 0.00011876270694162067,
      "loss": 0.0298,
      "step": 8820
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.1880095899105072,
      "learning_rate": 0.00011874092361312808,
      "loss": 0.0137,
      "step": 8821
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.5587490797042847,
      "learning_rate": 0.00011871914028463548,
      "loss": 0.0432,
      "step": 8822
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.44567978382110596,
      "learning_rate": 0.00011869735695614289,
      "loss": 0.0418,
      "step": 8823
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.6638129949569702,
      "learning_rate": 0.00011867557362765029,
      "loss": 0.1484,
      "step": 8824
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.20327533781528473,
      "learning_rate": 0.0001186537902991577,
      "loss": 0.0243,
      "step": 8825
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.1903286725282669,
      "learning_rate": 0.0001186320069706651,
      "loss": 0.0774,
      "step": 8826
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.15847180783748627,
      "learning_rate": 0.00011861022364217251,
      "loss": 0.0253,
      "step": 8827
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.08917218446731567,
      "learning_rate": 0.00011858844031367992,
      "loss": 0.013,
      "step": 8828
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.10689765214920044,
      "learning_rate": 0.00011856665698518733,
      "loss": 0.013,
      "step": 8829
    },
    {
      "epoch": 2.47,
      "grad_norm": 0.22111719846725464,
      "learning_rate": 0.00011854487365669474,
      "loss": 0.0179,
      "step": 8830
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.1639600694179535,
      "learning_rate": 0.00011852309032820214,
      "loss": 0.0208,
      "step": 8831
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.17535756528377533,
      "learning_rate": 0.00011850130699970954,
      "loss": 0.0204,
      "step": 8832
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.13092626631259918,
      "learning_rate": 0.00011847952367121695,
      "loss": 0.0109,
      "step": 8833
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.17847473919391632,
      "learning_rate": 0.00011845774034272435,
      "loss": 0.0275,
      "step": 8834
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.13236163556575775,
      "learning_rate": 0.00011843595701423176,
      "loss": 0.0508,
      "step": 8835
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.2704932987689972,
      "learning_rate": 0.00011841417368573917,
      "loss": 0.0197,
      "step": 8836
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.17417989671230316,
      "learning_rate": 0.00011839239035724658,
      "loss": 0.0237,
      "step": 8837
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.3173723816871643,
      "learning_rate": 0.00011837060702875398,
      "loss": 0.0294,
      "step": 8838
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.1771685779094696,
      "learning_rate": 0.0001183488237002614,
      "loss": 0.0219,
      "step": 8839
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.15945640206336975,
      "learning_rate": 0.00011832704037176879,
      "loss": 0.0356,
      "step": 8840
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.1841803640127182,
      "learning_rate": 0.0001183052570432762,
      "loss": 0.0097,
      "step": 8841
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.07112835347652435,
      "learning_rate": 0.0001182834737147836,
      "loss": 0.0072,
      "step": 8842
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.20293192565441132,
      "learning_rate": 0.00011826169038629101,
      "loss": 0.0337,
      "step": 8843
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.14635491371154785,
      "learning_rate": 0.00011823990705779842,
      "loss": 0.0192,
      "step": 8844
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.18562282621860504,
      "learning_rate": 0.00011821812372930583,
      "loss": 0.028,
      "step": 8845
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.1036648377776146,
      "learning_rate": 0.00011819634040081324,
      "loss": 0.0067,
      "step": 8846
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.23171435296535492,
      "learning_rate": 0.00011817455707232064,
      "loss": 0.0301,
      "step": 8847
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.33677512407302856,
      "learning_rate": 0.00011815277374382804,
      "loss": 0.0364,
      "step": 8848
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.10392895340919495,
      "learning_rate": 0.00011813099041533545,
      "loss": 0.0164,
      "step": 8849
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.10755605250597,
      "learning_rate": 0.00011810920708684285,
      "loss": 0.0198,
      "step": 8850
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.12728220224380493,
      "learning_rate": 0.00011808742375835026,
      "loss": 0.0218,
      "step": 8851
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.1290072351694107,
      "learning_rate": 0.00011806564042985767,
      "loss": 0.0119,
      "step": 8852
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.15495754778385162,
      "learning_rate": 0.00011804385710136508,
      "loss": 0.0201,
      "step": 8853
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.134408637881279,
      "learning_rate": 0.00011802207377287248,
      "loss": 0.0578,
      "step": 8854
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.12846320867538452,
      "learning_rate": 0.0001180002904443799,
      "loss": 0.0128,
      "step": 8855
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.2373577207326889,
      "learning_rate": 0.0001179785071158873,
      "loss": 0.0216,
      "step": 8856
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.23583342134952545,
      "learning_rate": 0.00011795672378739469,
      "loss": 0.0259,
      "step": 8857
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.26121950149536133,
      "learning_rate": 0.0001179349404589021,
      "loss": 0.0333,
      "step": 8858
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.2768684923648834,
      "learning_rate": 0.00011791315713040951,
      "loss": 0.0324,
      "step": 8859
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.07498999685049057,
      "learning_rate": 0.00011789137380191692,
      "loss": 0.0105,
      "step": 8860
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.5558025240898132,
      "learning_rate": 0.00011786959047342433,
      "loss": 0.1011,
      "step": 8861
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.1773696094751358,
      "learning_rate": 0.00011784780714493174,
      "loss": 0.0324,
      "step": 8862
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.19478872418403625,
      "learning_rate": 0.00011782602381643914,
      "loss": 0.0154,
      "step": 8863
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.1510816216468811,
      "learning_rate": 0.00011780424048794656,
      "loss": 0.021,
      "step": 8864
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.23924656212329865,
      "learning_rate": 0.00011778245715945395,
      "loss": 0.0339,
      "step": 8865
    },
    {
      "epoch": 2.48,
      "grad_norm": 0.15636157989501953,
      "learning_rate": 0.00011776067383096135,
      "loss": 0.0339,
      "step": 8866
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.1731865108013153,
      "learning_rate": 0.00011773889050246876,
      "loss": 0.0283,
      "step": 8867
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.6442924737930298,
      "learning_rate": 0.00011771710717397617,
      "loss": 0.0545,
      "step": 8868
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.09319720417261124,
      "learning_rate": 0.00011769532384548358,
      "loss": 0.0218,
      "step": 8869
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.17555974423885345,
      "learning_rate": 0.00011767354051699098,
      "loss": 0.019,
      "step": 8870
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.1561850607395172,
      "learning_rate": 0.0001176517571884984,
      "loss": 0.0176,
      "step": 8871
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.5722970962524414,
      "learning_rate": 0.0001176299738600058,
      "loss": 0.0635,
      "step": 8872
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.8052840232849121,
      "learning_rate": 0.00011760819053151319,
      "loss": 0.0954,
      "step": 8873
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.3669789433479309,
      "learning_rate": 0.0001175864072030206,
      "loss": 0.0824,
      "step": 8874
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.1808391809463501,
      "learning_rate": 0.00011756462387452801,
      "loss": 0.0241,
      "step": 8875
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.2894723117351532,
      "learning_rate": 0.00011754284054603542,
      "loss": 0.0496,
      "step": 8876
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.17983505129814148,
      "learning_rate": 0.00011752105721754283,
      "loss": 0.0451,
      "step": 8877
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.26411890983581543,
      "learning_rate": 0.00011749927388905024,
      "loss": 0.0532,
      "step": 8878
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.1676325500011444,
      "learning_rate": 0.00011747749056055764,
      "loss": 0.0183,
      "step": 8879
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.09766007214784622,
      "learning_rate": 0.00011745570723206506,
      "loss": 0.0116,
      "step": 8880
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.09329107403755188,
      "learning_rate": 0.00011743392390357246,
      "loss": 0.0118,
      "step": 8881
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.1620146632194519,
      "learning_rate": 0.00011741214057507985,
      "loss": 0.0291,
      "step": 8882
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.31644323468208313,
      "learning_rate": 0.00011739035724658727,
      "loss": 0.0551,
      "step": 8883
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.15432724356651306,
      "learning_rate": 0.00011736857391809467,
      "loss": 0.0141,
      "step": 8884
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.5083921551704407,
      "learning_rate": 0.00011734679058960208,
      "loss": 0.0647,
      "step": 8885
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.14550137519836426,
      "learning_rate": 0.00011732500726110948,
      "loss": 0.0146,
      "step": 8886
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.09666119515895844,
      "learning_rate": 0.0001173032239326169,
      "loss": 0.0155,
      "step": 8887
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.2107723504304886,
      "learning_rate": 0.0001172814406041243,
      "loss": 0.0214,
      "step": 8888
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.14226453006267548,
      "learning_rate": 0.00011725965727563172,
      "loss": 0.0189,
      "step": 8889
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.11240357905626297,
      "learning_rate": 0.0001172378739471391,
      "loss": 0.0203,
      "step": 8890
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.07929600775241852,
      "learning_rate": 0.00011721609061864651,
      "loss": 0.0097,
      "step": 8891
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.2604665160179138,
      "learning_rate": 0.00011719430729015392,
      "loss": 0.042,
      "step": 8892
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.20683491230010986,
      "learning_rate": 0.00011717252396166133,
      "loss": 0.0352,
      "step": 8893
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.13522756099700928,
      "learning_rate": 0.00011715074063316874,
      "loss": 0.0229,
      "step": 8894
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.25231343507766724,
      "learning_rate": 0.00011712895730467614,
      "loss": 0.0217,
      "step": 8895
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.10201547294855118,
      "learning_rate": 0.00011710717397618356,
      "loss": 0.0122,
      "step": 8896
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.1416020542383194,
      "learning_rate": 0.00011708539064769096,
      "loss": 0.0289,
      "step": 8897
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.33026254177093506,
      "learning_rate": 0.00011706360731919838,
      "loss": 0.0413,
      "step": 8898
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.49373215436935425,
      "learning_rate": 0.00011704182399070577,
      "loss": 0.0814,
      "step": 8899
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.15383730828762054,
      "learning_rate": 0.00011702004066221317,
      "loss": 0.0279,
      "step": 8900
    },
    {
      "epoch": 2.49,
      "eval_loss": 0.06845878064632416,
      "eval_runtime": 175.8663,
      "eval_samples_per_second": 15.023,
      "eval_steps_per_second": 0.472,
      "eval_wer": 0.05408568028560095,
      "step": 8900
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.20702897012233734,
      "learning_rate": 0.00011699825733372058,
      "loss": 0.0364,
      "step": 8901
    },
    {
      "epoch": 2.49,
      "grad_norm": 0.1491239070892334,
      "learning_rate": 0.00011697647400522799,
      "loss": 0.0354,
      "step": 8902
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.22343073785305023,
      "learning_rate": 0.0001169546906767354,
      "loss": 0.0292,
      "step": 8903
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.23338854312896729,
      "learning_rate": 0.0001169329073482428,
      "loss": 0.0537,
      "step": 8904
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.196034774184227,
      "learning_rate": 0.00011691112401975022,
      "loss": 0.0353,
      "step": 8905
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.1921548694372177,
      "learning_rate": 0.00011688934069125762,
      "loss": 0.0326,
      "step": 8906
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.20800690352916718,
      "learning_rate": 0.00011686755736276501,
      "loss": 0.0353,
      "step": 8907
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.2670351564884186,
      "learning_rate": 0.00011684577403427242,
      "loss": 0.0452,
      "step": 8908
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.41181284189224243,
      "learning_rate": 0.00011682399070577983,
      "loss": 0.0515,
      "step": 8909
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.07760962098836899,
      "learning_rate": 0.00011680220737728724,
      "loss": 0.0223,
      "step": 8910
    },
    {
      "epoch": 2.5,
      "grad_norm": 1.4080125093460083,
      "learning_rate": 0.00011678042404879464,
      "loss": 0.0764,
      "step": 8911
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.24193237721920013,
      "learning_rate": 0.00011675864072030206,
      "loss": 0.0396,
      "step": 8912
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.13905541598796844,
      "learning_rate": 0.00011673685739180946,
      "loss": 0.0299,
      "step": 8913
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.224284827709198,
      "learning_rate": 0.00011671507406331688,
      "loss": 0.0724,
      "step": 8914
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.11105109751224518,
      "learning_rate": 0.00011669329073482427,
      "loss": 0.0176,
      "step": 8915
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.1509951800107956,
      "learning_rate": 0.00011667150740633167,
      "loss": 0.0389,
      "step": 8916
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.13059158623218536,
      "learning_rate": 0.00011664972407783908,
      "loss": 0.0161,
      "step": 8917
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.11420593410730362,
      "learning_rate": 0.00011662794074934649,
      "loss": 0.0288,
      "step": 8918
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.14532363414764404,
      "learning_rate": 0.0001166061574208539,
      "loss": 0.0212,
      "step": 8919
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.13229422271251678,
      "learning_rate": 0.0001165843740923613,
      "loss": 0.0187,
      "step": 8920
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.16909679770469666,
      "learning_rate": 0.00011656259076386872,
      "loss": 0.0289,
      "step": 8921
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.11361343413591385,
      "learning_rate": 0.00011654080743537612,
      "loss": 0.0088,
      "step": 8922
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.35276469588279724,
      "learning_rate": 0.00011651902410688354,
      "loss": 0.0353,
      "step": 8923
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.25611841678619385,
      "learning_rate": 0.00011649724077839092,
      "loss": 0.0168,
      "step": 8924
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.07937190681695938,
      "learning_rate": 0.00011647545744989833,
      "loss": 0.0136,
      "step": 8925
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.2644050419330597,
      "learning_rate": 0.00011645367412140574,
      "loss": 0.0374,
      "step": 8926
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.13010405004024506,
      "learning_rate": 0.00011643189079291314,
      "loss": 0.0176,
      "step": 8927
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.09381736814975739,
      "learning_rate": 0.00011641010746442056,
      "loss": 0.0152,
      "step": 8928
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.4308924674987793,
      "learning_rate": 0.00011638832413592796,
      "loss": 0.0308,
      "step": 8929
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.20274615287780762,
      "learning_rate": 0.00011636654080743538,
      "loss": 0.0431,
      "step": 8930
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.17795918881893158,
      "learning_rate": 0.00011634475747894278,
      "loss": 0.0373,
      "step": 8931
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.1458287388086319,
      "learning_rate": 0.00011632297415045017,
      "loss": 0.0387,
      "step": 8932
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.39568930864334106,
      "learning_rate": 0.00011630119082195758,
      "loss": 0.0305,
      "step": 8933
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.4901973605155945,
      "learning_rate": 0.00011627940749346499,
      "loss": 0.0791,
      "step": 8934
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.3437630236148834,
      "learning_rate": 0.0001162576241649724,
      "loss": 0.0143,
      "step": 8935
    },
    {
      "epoch": 2.5,
      "grad_norm": 1.0294592380523682,
      "learning_rate": 0.0001162358408364798,
      "loss": 0.0388,
      "step": 8936
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.24801991879940033,
      "learning_rate": 0.00011621405750798722,
      "loss": 0.0281,
      "step": 8937
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.1886707991361618,
      "learning_rate": 0.00011619227417949462,
      "loss": 0.0252,
      "step": 8938
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.20529931783676147,
      "learning_rate": 0.00011617049085100202,
      "loss": 0.022,
      "step": 8939
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.30890682339668274,
      "learning_rate": 0.00011614870752250942,
      "loss": 0.0376,
      "step": 8940
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.17183201014995575,
      "learning_rate": 0.00011612692419401683,
      "loss": 0.0289,
      "step": 8941
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.4986688792705536,
      "learning_rate": 0.00011610514086552424,
      "loss": 0.0621,
      "step": 8942
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.2781946659088135,
      "learning_rate": 0.00011608335753703164,
      "loss": 0.0392,
      "step": 8943
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.23672056198120117,
      "learning_rate": 0.00011606157420853906,
      "loss": 0.0282,
      "step": 8944
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.09978818148374557,
      "learning_rate": 0.00011603979088004646,
      "loss": 0.013,
      "step": 8945
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.23280476033687592,
      "learning_rate": 0.00011601800755155388,
      "loss": 0.0452,
      "step": 8946
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.3481961786746979,
      "learning_rate": 0.00011599622422306128,
      "loss": 0.026,
      "step": 8947
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.23157498240470886,
      "learning_rate": 0.00011597444089456868,
      "loss": 0.0177,
      "step": 8948
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.24689915776252747,
      "learning_rate": 0.00011595265756607608,
      "loss": 0.0286,
      "step": 8949
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.12197697907686234,
      "learning_rate": 0.00011593087423758349,
      "loss": 0.0292,
      "step": 8950
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.09991205483675003,
      "learning_rate": 0.0001159090909090909,
      "loss": 0.0155,
      "step": 8951
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.12358473241329193,
      "learning_rate": 0.0001158873075805983,
      "loss": 0.0235,
      "step": 8952
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.18254782259464264,
      "learning_rate": 0.00011586552425210572,
      "loss": 0.0254,
      "step": 8953
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.17598296701908112,
      "learning_rate": 0.00011584374092361312,
      "loss": 0.0316,
      "step": 8954
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.20490708947181702,
      "learning_rate": 0.00011582195759512052,
      "loss": 0.0251,
      "step": 8955
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.2034550905227661,
      "learning_rate": 0.00011580017426662794,
      "loss": 0.0167,
      "step": 8956
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.20765304565429688,
      "learning_rate": 0.00011577839093813533,
      "loss": 0.0251,
      "step": 8957
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.16704612970352173,
      "learning_rate": 0.00011575660760964274,
      "loss": 0.0178,
      "step": 8958
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.08731751888990402,
      "learning_rate": 0.00011573482428115014,
      "loss": 0.006,
      "step": 8959
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.09102828055620193,
      "learning_rate": 0.00011571304095265756,
      "loss": 0.0058,
      "step": 8960
    },
    {
      "epoch": 2.51,
      "grad_norm": 1.0390820503234863,
      "learning_rate": 0.00011569125762416496,
      "loss": 0.0617,
      "step": 8961
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.24176472425460815,
      "learning_rate": 0.00011566947429567236,
      "loss": 0.0471,
      "step": 8962
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.24657000601291656,
      "learning_rate": 0.00011564769096717978,
      "loss": 0.0347,
      "step": 8963
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.22868198156356812,
      "learning_rate": 0.00011562590763868718,
      "loss": 0.0262,
      "step": 8964
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.2191946804523468,
      "learning_rate": 0.0001156041243101946,
      "loss": 0.0195,
      "step": 8965
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.19185076653957367,
      "learning_rate": 0.00011558234098170199,
      "loss": 0.0258,
      "step": 8966
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.23571819067001343,
      "learning_rate": 0.0001155605576532094,
      "loss": 0.048,
      "step": 8967
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.5215442180633545,
      "learning_rate": 0.0001155387743247168,
      "loss": 0.038,
      "step": 8968
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.09983404725790024,
      "learning_rate": 0.0001155169909962242,
      "loss": 0.0284,
      "step": 8969
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.10674706101417542,
      "learning_rate": 0.00011549520766773162,
      "loss": 0.0144,
      "step": 8970
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.7813163995742798,
      "learning_rate": 0.00011547342433923902,
      "loss": 0.1347,
      "step": 8971
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.30403056740760803,
      "learning_rate": 0.00011545164101074644,
      "loss": 0.0431,
      "step": 8972
    },
    {
      "epoch": 2.51,
      "grad_norm": 0.3133421838283539,
      "learning_rate": 0.00011542985768225384,
      "loss": 0.0329,
      "step": 8973
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.5156810283660889,
      "learning_rate": 0.00011540807435376124,
      "loss": 0.0998,
      "step": 8974
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.24481083452701569,
      "learning_rate": 0.00011538629102526865,
      "loss": 0.0337,
      "step": 8975
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.23390059173107147,
      "learning_rate": 0.00011536450769677606,
      "loss": 0.0638,
      "step": 8976
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.10492804646492004,
      "learning_rate": 0.00011534272436828346,
      "loss": 0.0093,
      "step": 8977
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.20505490899085999,
      "learning_rate": 0.00011532094103979086,
      "loss": 0.0442,
      "step": 8978
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.35680949687957764,
      "learning_rate": 0.00011529915771129828,
      "loss": 0.0448,
      "step": 8979
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.25857189297676086,
      "learning_rate": 0.00011527737438280568,
      "loss": 0.0217,
      "step": 8980
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.11153583228588104,
      "learning_rate": 0.0001152555910543131,
      "loss": 0.0165,
      "step": 8981
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.12998567521572113,
      "learning_rate": 0.00011523380772582049,
      "loss": 0.0277,
      "step": 8982
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.0921606793999672,
      "learning_rate": 0.0001152120243973279,
      "loss": 0.0087,
      "step": 8983
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.1285363882780075,
      "learning_rate": 0.0001151902410688353,
      "loss": 0.015,
      "step": 8984
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.35071396827697754,
      "learning_rate": 0.0001151684577403427,
      "loss": 0.0265,
      "step": 8985
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.8133830428123474,
      "learning_rate": 0.00011514667441185012,
      "loss": 0.1338,
      "step": 8986
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.1448550969362259,
      "learning_rate": 0.00011512489108335752,
      "loss": 0.0286,
      "step": 8987
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.2030198872089386,
      "learning_rate": 0.00011510310775486494,
      "loss": 0.0566,
      "step": 8988
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.3542996942996979,
      "learning_rate": 0.00011508132442637234,
      "loss": 0.0152,
      "step": 8989
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.23755693435668945,
      "learning_rate": 0.00011505954109787976,
      "loss": 0.0554,
      "step": 8990
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.2309466153383255,
      "learning_rate": 0.00011503775776938715,
      "loss": 0.038,
      "step": 8991
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.20542997121810913,
      "learning_rate": 0.00011501597444089455,
      "loss": 0.0323,
      "step": 8992
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.17493842542171478,
      "learning_rate": 0.00011499419111240196,
      "loss": 0.0198,
      "step": 8993
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.15225176513195038,
      "learning_rate": 0.00011497240778390936,
      "loss": 0.0275,
      "step": 8994
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.3405693769454956,
      "learning_rate": 0.00011495062445541678,
      "loss": 0.0331,
      "step": 8995
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.29229041934013367,
      "learning_rate": 0.00011492884112692418,
      "loss": 0.0644,
      "step": 8996
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.4263654351234436,
      "learning_rate": 0.0001149070577984316,
      "loss": 0.0453,
      "step": 8997
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.5005536675453186,
      "learning_rate": 0.000114885274469939,
      "loss": 0.0311,
      "step": 8998
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.24582819640636444,
      "learning_rate": 0.0001148634911414464,
      "loss": 0.0303,
      "step": 8999
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.1869497448205948,
      "learning_rate": 0.0001148417078129538,
      "loss": 0.0328,
      "step": 9000
    },
    {
      "epoch": 2.52,
      "eval_loss": 0.06744875758886337,
      "eval_runtime": 173.3636,
      "eval_samples_per_second": 15.24,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.05743752479174931,
      "step": 9000
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.12272213399410248,
      "learning_rate": 0.0001148199244844612,
      "loss": 0.0188,
      "step": 9001
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.3258143663406372,
      "learning_rate": 0.00011479814115596862,
      "loss": 0.0566,
      "step": 9002
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.19339272379875183,
      "learning_rate": 0.00011477635782747602,
      "loss": 0.0155,
      "step": 9003
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.17441326379776,
      "learning_rate": 0.00011475457449898344,
      "loss": 0.0221,
      "step": 9004
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.2825113534927368,
      "learning_rate": 0.00011473279117049084,
      "loss": 0.041,
      "step": 9005
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.2470429688692093,
      "learning_rate": 0.00011471100784199826,
      "loss": 0.043,
      "step": 9006
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.1158628910779953,
      "learning_rate": 0.00011468922451350565,
      "loss": 0.0129,
      "step": 9007
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.17391860485076904,
      "learning_rate": 0.00011466744118501305,
      "loss": 0.0263,
      "step": 9008
    },
    {
      "epoch": 2.52,
      "grad_norm": 0.2399427890777588,
      "learning_rate": 0.00011464565785652046,
      "loss": 0.0215,
      "step": 9009
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.20716163516044617,
      "learning_rate": 0.00011462387452802787,
      "loss": 0.0379,
      "step": 9010
    },
    {
      "epoch": 2.53,
      "grad_norm": 7.165367603302002,
      "learning_rate": 0.00011460209119953528,
      "loss": 0.1725,
      "step": 9011
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.15997059643268585,
      "learning_rate": 0.00011458030787104268,
      "loss": 0.0501,
      "step": 9012
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.25433242321014404,
      "learning_rate": 0.0001145585245425501,
      "loss": 0.0264,
      "step": 9013
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.12858042120933533,
      "learning_rate": 0.0001145367412140575,
      "loss": 0.0117,
      "step": 9014
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.13521569967269897,
      "learning_rate": 0.00011451495788556492,
      "loss": 0.012,
      "step": 9015
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.1459439992904663,
      "learning_rate": 0.0001144931745570723,
      "loss": 0.0132,
      "step": 9016
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.20005826652050018,
      "learning_rate": 0.0001144713912285797,
      "loss": 0.0224,
      "step": 9017
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.2691194713115692,
      "learning_rate": 0.00011444960790008712,
      "loss": 0.0398,
      "step": 9018
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.15029293298721313,
      "learning_rate": 0.00011442782457159452,
      "loss": 0.0261,
      "step": 9019
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.1453237235546112,
      "learning_rate": 0.00011440604124310194,
      "loss": 0.0278,
      "step": 9020
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.7506151795387268,
      "learning_rate": 0.00011438425791460934,
      "loss": 0.0583,
      "step": 9021
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.24315567314624786,
      "learning_rate": 0.00011436247458611676,
      "loss": 0.0172,
      "step": 9022
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.06742177158594131,
      "learning_rate": 0.00011434069125762416,
      "loss": 0.0042,
      "step": 9023
    },
    {
      "epoch": 2.53,
      "grad_norm": 1.1005979776382446,
      "learning_rate": 0.00011431890792913155,
      "loss": 0.14,
      "step": 9024
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.1352168619632721,
      "learning_rate": 0.00011429712460063896,
      "loss": 0.0133,
      "step": 9025
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.14080733060836792,
      "learning_rate": 0.00011427534127214637,
      "loss": 0.0135,
      "step": 9026
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.263965368270874,
      "learning_rate": 0.00011425355794365378,
      "loss": 0.0351,
      "step": 9027
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.2441931813955307,
      "learning_rate": 0.00011423177461516118,
      "loss": 0.0193,
      "step": 9028
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.1793067306280136,
      "learning_rate": 0.0001142099912866686,
      "loss": 0.023,
      "step": 9029
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.2938450276851654,
      "learning_rate": 0.000114188207958176,
      "loss": 0.0771,
      "step": 9030
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.22101232409477234,
      "learning_rate": 0.00011416642462968342,
      "loss": 0.0499,
      "step": 9031
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.19919045269489288,
      "learning_rate": 0.00011414464130119082,
      "loss": 0.0258,
      "step": 9032
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.2181042730808258,
      "learning_rate": 0.00011412285797269821,
      "loss": 0.0303,
      "step": 9033
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.30489203333854675,
      "learning_rate": 0.00011410107464420562,
      "loss": 0.0843,
      "step": 9034
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.17631247639656067,
      "learning_rate": 0.00011407929131571302,
      "loss": 0.0121,
      "step": 9035
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.5638696551322937,
      "learning_rate": 0.00011405750798722044,
      "loss": 0.0469,
      "step": 9036
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.09688415378332138,
      "learning_rate": 0.00011403572465872784,
      "loss": 0.0227,
      "step": 9037
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.21548902988433838,
      "learning_rate": 0.00011401394133023526,
      "loss": 0.0338,
      "step": 9038
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.30684956908226013,
      "learning_rate": 0.00011399215800174266,
      "loss": 0.0343,
      "step": 9039
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.2503422200679779,
      "learning_rate": 0.00011397037467325008,
      "loss": 0.0506,
      "step": 9040
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.10509224236011505,
      "learning_rate": 0.00011394859134475746,
      "loss": 0.0126,
      "step": 9041
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.24707375466823578,
      "learning_rate": 0.00011392680801626487,
      "loss": 0.0669,
      "step": 9042
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.22810649871826172,
      "learning_rate": 0.00011390502468777228,
      "loss": 0.0415,
      "step": 9043
    },
    {
      "epoch": 2.53,
      "grad_norm": 0.2962500751018524,
      "learning_rate": 0.00011388324135927968,
      "loss": 0.0417,
      "step": 9044
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.1989557296037674,
      "learning_rate": 0.0001138614580307871,
      "loss": 0.0289,
      "step": 9045
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.2213456630706787,
      "learning_rate": 0.0001138396747022945,
      "loss": 0.0417,
      "step": 9046
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.35737618803977966,
      "learning_rate": 0.00011381789137380192,
      "loss": 0.0715,
      "step": 9047
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.46753308176994324,
      "learning_rate": 0.00011379610804530932,
      "loss": 0.0309,
      "step": 9048
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.4142686724662781,
      "learning_rate": 0.00011377432471681671,
      "loss": 0.0609,
      "step": 9049
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.4893401265144348,
      "learning_rate": 0.00011375254138832412,
      "loss": 0.0491,
      "step": 9050
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.18392939865589142,
      "learning_rate": 0.00011373075805983152,
      "loss": 0.0346,
      "step": 9051
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.1780461072921753,
      "learning_rate": 0.00011370897473133894,
      "loss": 0.0252,
      "step": 9052
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.1617642045021057,
      "learning_rate": 0.00011368719140284634,
      "loss": 0.0276,
      "step": 9053
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.1929682195186615,
      "learning_rate": 0.00011366540807435376,
      "loss": 0.056,
      "step": 9054
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.18638527393341064,
      "learning_rate": 0.00011364362474586116,
      "loss": 0.0249,
      "step": 9055
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.05099859461188316,
      "learning_rate": 0.00011362184141736858,
      "loss": 0.0071,
      "step": 9056
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.11537081748247147,
      "learning_rate": 0.00011360005808887598,
      "loss": 0.0143,
      "step": 9057
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.2157987803220749,
      "learning_rate": 0.00011357827476038337,
      "loss": 0.0252,
      "step": 9058
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.5323014855384827,
      "learning_rate": 0.00011355649143189078,
      "loss": 0.0702,
      "step": 9059
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.697068452835083,
      "learning_rate": 0.00011353470810339818,
      "loss": 0.0521,
      "step": 9060
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.22005870938301086,
      "learning_rate": 0.0001135129247749056,
      "loss": 0.0329,
      "step": 9061
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.18091493844985962,
      "learning_rate": 0.000113491141446413,
      "loss": 0.0254,
      "step": 9062
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.23373524844646454,
      "learning_rate": 0.00011346935811792042,
      "loss": 0.0568,
      "step": 9063
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.16601940989494324,
      "learning_rate": 0.00011344757478942782,
      "loss": 0.03,
      "step": 9064
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.10585832595825195,
      "learning_rate": 0.00011342579146093523,
      "loss": 0.0143,
      "step": 9065
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.14953622221946716,
      "learning_rate": 0.00011340400813244262,
      "loss": 0.0149,
      "step": 9066
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.15107767283916473,
      "learning_rate": 0.00011338222480395002,
      "loss": 0.022,
      "step": 9067
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.10917267948389053,
      "learning_rate": 0.00011336044147545744,
      "loss": 0.015,
      "step": 9068
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.2871726155281067,
      "learning_rate": 0.00011333865814696484,
      "loss": 0.0477,
      "step": 9069
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.09996191412210464,
      "learning_rate": 0.00011331687481847226,
      "loss": 0.0087,
      "step": 9070
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.26293519139289856,
      "learning_rate": 0.00011329509148997966,
      "loss": 0.01,
      "step": 9071
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.3797398507595062,
      "learning_rate": 0.00011327330816148708,
      "loss": 0.0504,
      "step": 9072
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.23600324988365173,
      "learning_rate": 0.00011325152483299448,
      "loss": 0.0224,
      "step": 9073
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.18597204983234406,
      "learning_rate": 0.00011322974150450187,
      "loss": 0.0216,
      "step": 9074
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.14614951610565186,
      "learning_rate": 0.00011320795817600928,
      "loss": 0.0294,
      "step": 9075
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.2035628706216812,
      "learning_rate": 0.00011318617484751668,
      "loss": 0.0455,
      "step": 9076
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.13511905074119568,
      "learning_rate": 0.0001131643915190241,
      "loss": 0.0178,
      "step": 9077
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.19148480892181396,
      "learning_rate": 0.0001131426081905315,
      "loss": 0.0301,
      "step": 9078
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.15145626664161682,
      "learning_rate": 0.00011312082486203892,
      "loss": 0.0164,
      "step": 9079
    },
    {
      "epoch": 2.54,
      "grad_norm": 0.36919793486595154,
      "learning_rate": 0.00011309904153354632,
      "loss": 0.0348,
      "step": 9080
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.17550520598888397,
      "learning_rate": 0.00011307725820505373,
      "loss": 0.0265,
      "step": 9081
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.18476389348506927,
      "learning_rate": 0.00011305547487656114,
      "loss": 0.0291,
      "step": 9082
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.3870684802532196,
      "learning_rate": 0.00011303369154806853,
      "loss": 0.0312,
      "step": 9083
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.1228705495595932,
      "learning_rate": 0.00011301190821957594,
      "loss": 0.0161,
      "step": 9084
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.35250866413116455,
      "learning_rate": 0.00011299012489108334,
      "loss": 0.0376,
      "step": 9085
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.4281541109085083,
      "learning_rate": 0.00011296834156259076,
      "loss": 0.0843,
      "step": 9086
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.3109252452850342,
      "learning_rate": 0.00011294655823409816,
      "loss": 0.0295,
      "step": 9087
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.14414620399475098,
      "learning_rate": 0.00011292477490560558,
      "loss": 0.0201,
      "step": 9088
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.15120629966259003,
      "learning_rate": 0.00011290299157711298,
      "loss": 0.0155,
      "step": 9089
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.21117003262043,
      "learning_rate": 0.00011288120824862038,
      "loss": 0.0341,
      "step": 9090
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.14696729183197021,
      "learning_rate": 0.00011285942492012778,
      "loss": 0.0117,
      "step": 9091
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.22917324304580688,
      "learning_rate": 0.00011283764159163518,
      "loss": 0.0311,
      "step": 9092
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.29694753885269165,
      "learning_rate": 0.0001128158582631426,
      "loss": 0.0308,
      "step": 9093
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.19632543623447418,
      "learning_rate": 0.00011279407493465,
      "loss": 0.0304,
      "step": 9094
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.18646056950092316,
      "learning_rate": 0.00011277229160615742,
      "loss": 0.0275,
      "step": 9095
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.09179569035768509,
      "learning_rate": 0.00011275050827766482,
      "loss": 0.0167,
      "step": 9096
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.28009024262428284,
      "learning_rate": 0.00011272872494917222,
      "loss": 0.0588,
      "step": 9097
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.3539555072784424,
      "learning_rate": 0.00011270694162067964,
      "loss": 0.0553,
      "step": 9098
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.26263362169265747,
      "learning_rate": 0.00011268515829218704,
      "loss": 0.0399,
      "step": 9099
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.1920427680015564,
      "learning_rate": 0.00011266337496369444,
      "loss": 0.0416,
      "step": 9100
    },
    {
      "epoch": 2.55,
      "eval_loss": 0.06741960346698761,
      "eval_runtime": 172.6757,
      "eval_samples_per_second": 15.3,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.05811186037286791,
      "step": 9100
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.21542967855930328,
      "learning_rate": 0.00011264159163520184,
      "loss": 0.0286,
      "step": 9101
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.09980769455432892,
      "learning_rate": 0.00011261980830670926,
      "loss": 0.011,
      "step": 9102
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.12012910842895508,
      "learning_rate": 0.00011259802497821666,
      "loss": 0.0152,
      "step": 9103
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.2310468703508377,
      "learning_rate": 0.00011257624164972406,
      "loss": 0.0413,
      "step": 9104
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.23277048766613007,
      "learning_rate": 0.00011255445832123148,
      "loss": 0.042,
      "step": 9105
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.17903457581996918,
      "learning_rate": 0.00011253267499273888,
      "loss": 0.0394,
      "step": 9106
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.20574606955051422,
      "learning_rate": 0.0001125108916642463,
      "loss": 0.021,
      "step": 9107
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.11724778264760971,
      "learning_rate": 0.00011248910833575368,
      "loss": 0.0114,
      "step": 9108
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.38266366720199585,
      "learning_rate": 0.0001124673250072611,
      "loss": 0.029,
      "step": 9109
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.4017183780670166,
      "learning_rate": 0.0001124455416787685,
      "loss": 0.1107,
      "step": 9110
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.28798896074295044,
      "learning_rate": 0.00011242375835027592,
      "loss": 0.0411,
      "step": 9111
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.19638612866401672,
      "learning_rate": 0.00011240197502178332,
      "loss": 0.0282,
      "step": 9112
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.1459171175956726,
      "learning_rate": 0.00011238019169329072,
      "loss": 0.0288,
      "step": 9113
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.10472898185253143,
      "learning_rate": 0.00011235840836479814,
      "loss": 0.0297,
      "step": 9114
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.19278408586978912,
      "learning_rate": 0.00011233662503630554,
      "loss": 0.0183,
      "step": 9115
    },
    {
      "epoch": 2.55,
      "grad_norm": 0.15756726264953613,
      "learning_rate": 0.00011231484170781294,
      "loss": 0.0201,
      "step": 9116
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.2621007263660431,
      "learning_rate": 0.00011229305837932034,
      "loss": 0.0368,
      "step": 9117
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.2529140114784241,
      "learning_rate": 0.00011227127505082776,
      "loss": 0.0346,
      "step": 9118
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1344829648733139,
      "learning_rate": 0.00011224949172233516,
      "loss": 0.015,
      "step": 9119
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.18003951013088226,
      "learning_rate": 0.00011222770839384256,
      "loss": 0.0161,
      "step": 9120
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.22649851441383362,
      "learning_rate": 0.00011220592506534998,
      "loss": 0.0306,
      "step": 9121
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.2377728968858719,
      "learning_rate": 0.00011218414173685738,
      "loss": 0.0523,
      "step": 9122
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1533890664577484,
      "learning_rate": 0.0001121623584083648,
      "loss": 0.0104,
      "step": 9123
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.2845846116542816,
      "learning_rate": 0.0001121405750798722,
      "loss": 0.0374,
      "step": 9124
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.15783555805683136,
      "learning_rate": 0.0001121187917513796,
      "loss": 0.0205,
      "step": 9125
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.10323861986398697,
      "learning_rate": 0.000112097008422887,
      "loss": 0.0109,
      "step": 9126
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.2747165560722351,
      "learning_rate": 0.0001120752250943944,
      "loss": 0.0396,
      "step": 9127
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.09156280755996704,
      "learning_rate": 0.00011205344176590182,
      "loss": 0.0136,
      "step": 9128
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.15342436730861664,
      "learning_rate": 0.00011203165843740922,
      "loss": 0.0218,
      "step": 9129
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.08814404904842377,
      "learning_rate": 0.00011200987510891664,
      "loss": 0.0174,
      "step": 9130
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.12713244557380676,
      "learning_rate": 0.00011198809178042404,
      "loss": 0.0099,
      "step": 9131
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.22266802191734314,
      "learning_rate": 0.00011196630845193146,
      "loss": 0.0302,
      "step": 9132
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.14461863040924072,
      "learning_rate": 0.00011194452512343884,
      "loss": 0.0224,
      "step": 9133
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1308189332485199,
      "learning_rate": 0.00011192274179494625,
      "loss": 0.014,
      "step": 9134
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.30077579617500305,
      "learning_rate": 0.00011190095846645366,
      "loss": 0.0369,
      "step": 9135
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.533883273601532,
      "learning_rate": 0.00011187917513796106,
      "loss": 0.0688,
      "step": 9136
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1832227259874344,
      "learning_rate": 0.00011185739180946848,
      "loss": 0.0286,
      "step": 9137
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.13718609511852264,
      "learning_rate": 0.00011183560848097588,
      "loss": 0.0203,
      "step": 9138
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.12624071538448334,
      "learning_rate": 0.0001118138251524833,
      "loss": 0.0156,
      "step": 9139
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1507893204689026,
      "learning_rate": 0.0001117920418239907,
      "loss": 0.0198,
      "step": 9140
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.17250792682170868,
      "learning_rate": 0.00011177025849549811,
      "loss": 0.0392,
      "step": 9141
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.16547608375549316,
      "learning_rate": 0.0001117484751670055,
      "loss": 0.0193,
      "step": 9142
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1437709778547287,
      "learning_rate": 0.0001117266918385129,
      "loss": 0.0307,
      "step": 9143
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1834912896156311,
      "learning_rate": 0.00011170490851002032,
      "loss": 0.0142,
      "step": 9144
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.22081920504570007,
      "learning_rate": 0.00011168312518152772,
      "loss": 0.0217,
      "step": 9145
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.17800547182559967,
      "learning_rate": 0.00011166134185303514,
      "loss": 0.0393,
      "step": 9146
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1628677099943161,
      "learning_rate": 0.00011163955852454254,
      "loss": 0.0371,
      "step": 9147
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.2349918633699417,
      "learning_rate": 0.00011161777519604996,
      "loss": 0.0264,
      "step": 9148
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.21200339496135712,
      "learning_rate": 0.00011159599186755736,
      "loss": 0.0202,
      "step": 9149
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.10857047885656357,
      "learning_rate": 0.00011157420853906475,
      "loss": 0.0315,
      "step": 9150
    },
    {
      "epoch": 2.56,
      "grad_norm": 0.1495472639799118,
      "learning_rate": 0.00011155242521057216,
      "loss": 0.0332,
      "step": 9151
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.4000200927257538,
      "learning_rate": 0.00011153064188207956,
      "loss": 0.0689,
      "step": 9152
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.1616169661283493,
      "learning_rate": 0.00011150885855358698,
      "loss": 0.0185,
      "step": 9153
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.17661061882972717,
      "learning_rate": 0.00011148707522509438,
      "loss": 0.0332,
      "step": 9154
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.39575105905532837,
      "learning_rate": 0.0001114652918966018,
      "loss": 0.0798,
      "step": 9155
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.08806058019399643,
      "learning_rate": 0.0001114435085681092,
      "loss": 0.0106,
      "step": 9156
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.20294833183288574,
      "learning_rate": 0.00011142172523961661,
      "loss": 0.0359,
      "step": 9157
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.11695057153701782,
      "learning_rate": 0.000111399941911124,
      "loss": 0.0218,
      "step": 9158
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.14545825123786926,
      "learning_rate": 0.0001113781585826314,
      "loss": 0.0256,
      "step": 9159
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.14665409922599792,
      "learning_rate": 0.00011135637525413882,
      "loss": 0.0188,
      "step": 9160
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.4339940845966339,
      "learning_rate": 0.00011133459192564622,
      "loss": 0.105,
      "step": 9161
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.2064146250486374,
      "learning_rate": 0.00011131280859715364,
      "loss": 0.0475,
      "step": 9162
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.2756942808628082,
      "learning_rate": 0.00011129102526866104,
      "loss": 0.0622,
      "step": 9163
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.1683122217655182,
      "learning_rate": 0.00011126924194016846,
      "loss": 0.0115,
      "step": 9164
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.18601560592651367,
      "learning_rate": 0.00011124745861167586,
      "loss": 0.0374,
      "step": 9165
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.11809174716472626,
      "learning_rate": 0.00011122567528318327,
      "loss": 0.0353,
      "step": 9166
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.18775935471057892,
      "learning_rate": 0.00011120389195469066,
      "loss": 0.0362,
      "step": 9167
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.11070180684328079,
      "learning_rate": 0.00011118210862619806,
      "loss": 0.0178,
      "step": 9168
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.1567469835281372,
      "learning_rate": 0.00011116032529770548,
      "loss": 0.0334,
      "step": 9169
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.10983023792505264,
      "learning_rate": 0.00011113854196921288,
      "loss": 0.02,
      "step": 9170
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.16541393101215363,
      "learning_rate": 0.0001111167586407203,
      "loss": 0.0225,
      "step": 9171
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.1410343199968338,
      "learning_rate": 0.0001110949753122277,
      "loss": 0.0074,
      "step": 9172
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.2956792414188385,
      "learning_rate": 0.00011107319198373511,
      "loss": 0.0512,
      "step": 9173
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.196188285946846,
      "learning_rate": 0.00011105140865524252,
      "loss": 0.0172,
      "step": 9174
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.14387431740760803,
      "learning_rate": 0.0001110296253267499,
      "loss": 0.014,
      "step": 9175
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.16241338849067688,
      "learning_rate": 0.00011100784199825732,
      "loss": 0.0341,
      "step": 9176
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.21837033331394196,
      "learning_rate": 0.00011098605866976472,
      "loss": 0.0254,
      "step": 9177
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.08573339879512787,
      "learning_rate": 0.00011096427534127214,
      "loss": 0.0153,
      "step": 9178
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.18818815052509308,
      "learning_rate": 0.00011094249201277954,
      "loss": 0.0322,
      "step": 9179
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.17151308059692383,
      "learning_rate": 0.00011092070868428696,
      "loss": 0.0174,
      "step": 9180
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.09511327743530273,
      "learning_rate": 0.00011089892535579436,
      "loss": 0.0109,
      "step": 9181
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.3541131317615509,
      "learning_rate": 0.00011087714202730177,
      "loss": 0.0323,
      "step": 9182
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.15402698516845703,
      "learning_rate": 0.00011085535869880916,
      "loss": 0.0292,
      "step": 9183
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.14655403792858124,
      "learning_rate": 0.00011083357537031656,
      "loss": 0.0222,
      "step": 9184
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.611499547958374,
      "learning_rate": 0.00011081179204182398,
      "loss": 0.0597,
      "step": 9185
    },
    {
      "epoch": 2.57,
      "grad_norm": 2.350159168243408,
      "learning_rate": 0.00011079000871333138,
      "loss": 0.1027,
      "step": 9186
    },
    {
      "epoch": 2.57,
      "grad_norm": 0.18174949288368225,
      "learning_rate": 0.0001107682253848388,
      "loss": 0.0237,
      "step": 9187
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.1586918979883194,
      "learning_rate": 0.0001107464420563462,
      "loss": 0.0358,
      "step": 9188
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.21076230704784393,
      "learning_rate": 0.00011072465872785361,
      "loss": 0.0158,
      "step": 9189
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.15178892016410828,
      "learning_rate": 0.00011070287539936102,
      "loss": 0.0289,
      "step": 9190
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.21033166348934174,
      "learning_rate": 0.00011068109207086843,
      "loss": 0.0208,
      "step": 9191
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.24099452793598175,
      "learning_rate": 0.00011065930874237582,
      "loss": 0.0394,
      "step": 9192
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.20256738364696503,
      "learning_rate": 0.00011063752541388322,
      "loss": 0.0577,
      "step": 9193
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.1469476968050003,
      "learning_rate": 0.00011061574208539064,
      "loss": 0.0137,
      "step": 9194
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.5490617752075195,
      "learning_rate": 0.00011059395875689804,
      "loss": 0.0648,
      "step": 9195
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.15946093201637268,
      "learning_rate": 0.00011057217542840546,
      "loss": 0.0182,
      "step": 9196
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.2365446537733078,
      "learning_rate": 0.00011055039209991286,
      "loss": 0.0548,
      "step": 9197
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.3738762438297272,
      "learning_rate": 0.00011052860877142027,
      "loss": 0.0499,
      "step": 9198
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.47270065546035767,
      "learning_rate": 0.00011050682544292768,
      "loss": 0.0775,
      "step": 9199
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.2006509155035019,
      "learning_rate": 0.00011048504211443506,
      "loss": 0.0364,
      "step": 9200
    },
    {
      "epoch": 2.58,
      "eval_loss": 0.06416690349578857,
      "eval_runtime": 172.9849,
      "eval_samples_per_second": 15.273,
      "eval_steps_per_second": 0.48,
      "eval_wer": 0.05398651328837763,
      "step": 9200
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.17761899530887604,
      "learning_rate": 0.00011046325878594248,
      "loss": 0.0236,
      "step": 9201
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.15147557854652405,
      "learning_rate": 0.00011044147545744988,
      "loss": 0.0159,
      "step": 9202
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.1458960920572281,
      "learning_rate": 0.0001104196921289573,
      "loss": 0.0253,
      "step": 9203
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.4900496304035187,
      "learning_rate": 0.0001103979088004647,
      "loss": 0.052,
      "step": 9204
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.11966875195503235,
      "learning_rate": 0.00011037612547197212,
      "loss": 0.0094,
      "step": 9205
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.1529194712638855,
      "learning_rate": 0.00011035434214347952,
      "loss": 0.032,
      "step": 9206
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.36359620094299316,
      "learning_rate": 0.00011033255881498693,
      "loss": 0.0286,
      "step": 9207
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.22437459230422974,
      "learning_rate": 0.00011031077548649433,
      "loss": 0.049,
      "step": 9208
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.12204664945602417,
      "learning_rate": 0.00011028899215800172,
      "loss": 0.0164,
      "step": 9209
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.08651707321405411,
      "learning_rate": 0.00011026720882950914,
      "loss": 0.0061,
      "step": 9210
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.3720446527004242,
      "learning_rate": 0.00011024542550101654,
      "loss": 0.0618,
      "step": 9211
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.25927290320396423,
      "learning_rate": 0.00011022364217252396,
      "loss": 0.031,
      "step": 9212
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.15803329646587372,
      "learning_rate": 0.00011020185884403136,
      "loss": 0.0128,
      "step": 9213
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.10159634053707123,
      "learning_rate": 0.00011018007551553877,
      "loss": 0.0228,
      "step": 9214
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.20152069628238678,
      "learning_rate": 0.00011015829218704618,
      "loss": 0.0506,
      "step": 9215
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.3355178236961365,
      "learning_rate": 0.00011013650885855358,
      "loss": 0.0814,
      "step": 9216
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.11494231224060059,
      "learning_rate": 0.00011011472553006098,
      "loss": 0.0151,
      "step": 9217
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.24313192069530487,
      "learning_rate": 0.00011009294220156838,
      "loss": 0.0193,
      "step": 9218
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.20269747078418732,
      "learning_rate": 0.0001100711588730758,
      "loss": 0.0331,
      "step": 9219
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.2037031054496765,
      "learning_rate": 0.0001100493755445832,
      "loss": 0.046,
      "step": 9220
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.26922914385795593,
      "learning_rate": 0.00011002759221609062,
      "loss": 0.0142,
      "step": 9221
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.2349977046251297,
      "learning_rate": 0.00011000580888759802,
      "loss": 0.0469,
      "step": 9222
    },
    {
      "epoch": 2.58,
      "grad_norm": 0.36432361602783203,
      "learning_rate": 0.00010998402555910543,
      "loss": 0.0481,
      "step": 9223
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.33643946051597595,
      "learning_rate": 0.00010996224223061284,
      "loss": 0.028,
      "step": 9224
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.23623120784759521,
      "learning_rate": 0.00010994045890212022,
      "loss": 0.0273,
      "step": 9225
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.16494642198085785,
      "learning_rate": 0.00010991867557362764,
      "loss": 0.0395,
      "step": 9226
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.17446032166481018,
      "learning_rate": 0.00010989689224513504,
      "loss": 0.0388,
      "step": 9227
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.5380354523658752,
      "learning_rate": 0.00010987510891664246,
      "loss": 0.0415,
      "step": 9228
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.17495808005332947,
      "learning_rate": 0.00010985332558814986,
      "loss": 0.0446,
      "step": 9229
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.15893156826496124,
      "learning_rate": 0.00010983154225965727,
      "loss": 0.0208,
      "step": 9230
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.17072947323322296,
      "learning_rate": 0.00010980975893116468,
      "loss": 0.0201,
      "step": 9231
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.27962929010391235,
      "learning_rate": 0.00010978797560267208,
      "loss": 0.0216,
      "step": 9232
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.1783808171749115,
      "learning_rate": 0.0001097661922741795,
      "loss": 0.0191,
      "step": 9233
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.3080536127090454,
      "learning_rate": 0.00010974440894568688,
      "loss": 0.0296,
      "step": 9234
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.39326605200767517,
      "learning_rate": 0.0001097226256171943,
      "loss": 0.0362,
      "step": 9235
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.6747424006462097,
      "learning_rate": 0.0001097008422887017,
      "loss": 0.1311,
      "step": 9236
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.14592108130455017,
      "learning_rate": 0.00010967905896020912,
      "loss": 0.0291,
      "step": 9237
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.1398133784532547,
      "learning_rate": 0.00010965727563171652,
      "loss": 0.013,
      "step": 9238
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.1718919426202774,
      "learning_rate": 0.00010963549230322392,
      "loss": 0.0445,
      "step": 9239
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.2853785753250122,
      "learning_rate": 0.00010961370897473134,
      "loss": 0.037,
      "step": 9240
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.19577845931053162,
      "learning_rate": 0.00010959192564623874,
      "loss": 0.0408,
      "step": 9241
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.12544108927249908,
      "learning_rate": 0.00010957014231774614,
      "loss": 0.0139,
      "step": 9242
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.18129239976406097,
      "learning_rate": 0.00010954835898925354,
      "loss": 0.0268,
      "step": 9243
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.14998461306095123,
      "learning_rate": 0.00010952657566076096,
      "loss": 0.0355,
      "step": 9244
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.40456321835517883,
      "learning_rate": 0.00010950479233226836,
      "loss": 0.0363,
      "step": 9245
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.17739954590797424,
      "learning_rate": 0.00010948300900377577,
      "loss": 0.0182,
      "step": 9246
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.34074610471725464,
      "learning_rate": 0.00010946122567528318,
      "loss": 0.0334,
      "step": 9247
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.44361186027526855,
      "learning_rate": 0.00010943944234679058,
      "loss": 0.0581,
      "step": 9248
    },
    {
      "epoch": 2.59,
      "grad_norm": 1.4621667861938477,
      "learning_rate": 0.000109417659018298,
      "loss": 0.1697,
      "step": 9249
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.20360583066940308,
      "learning_rate": 0.00010939587568980538,
      "loss": 0.0372,
      "step": 9250
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.21331371366977692,
      "learning_rate": 0.0001093740923613128,
      "loss": 0.0434,
      "step": 9251
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.22374121844768524,
      "learning_rate": 0.0001093523090328202,
      "loss": 0.0649,
      "step": 9252
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.09533163905143738,
      "learning_rate": 0.00010933052570432762,
      "loss": 0.0135,
      "step": 9253
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.09690088778734207,
      "learning_rate": 0.00010930874237583502,
      "loss": 0.0246,
      "step": 9254
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.2423458695411682,
      "learning_rate": 0.00010928695904734242,
      "loss": 0.0346,
      "step": 9255
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.24167703092098236,
      "learning_rate": 0.00010926517571884984,
      "loss": 0.0306,
      "step": 9256
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.1226259246468544,
      "learning_rate": 0.00010924339239035724,
      "loss": 0.0216,
      "step": 9257
    },
    {
      "epoch": 2.59,
      "grad_norm": 0.11804690212011337,
      "learning_rate": 0.00010922160906186465,
      "loss": 0.0133,
      "step": 9258
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.3488031029701233,
      "learning_rate": 0.00010919982573337204,
      "loss": 0.0413,
      "step": 9259
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.1486198902130127,
      "learning_rate": 0.00010917804240487946,
      "loss": 0.0136,
      "step": 9260
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.2736409902572632,
      "learning_rate": 0.00010915625907638686,
      "loss": 0.0351,
      "step": 9261
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.19746679067611694,
      "learning_rate": 0.00010913447574789426,
      "loss": 0.0383,
      "step": 9262
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.13812823593616486,
      "learning_rate": 0.00010911269241940168,
      "loss": 0.0249,
      "step": 9263
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.13754135370254517,
      "learning_rate": 0.00010909090909090908,
      "loss": 0.0196,
      "step": 9264
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.2946555018424988,
      "learning_rate": 0.0001090691257624165,
      "loss": 0.0692,
      "step": 9265
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.19679327309131622,
      "learning_rate": 0.0001090473424339239,
      "loss": 0.0273,
      "step": 9266
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.17146214842796326,
      "learning_rate": 0.0001090255591054313,
      "loss": 0.0286,
      "step": 9267
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.11492563039064407,
      "learning_rate": 0.0001090037757769387,
      "loss": 0.0196,
      "step": 9268
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.3199729025363922,
      "learning_rate": 0.0001089819924484461,
      "loss": 0.0344,
      "step": 9269
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.12261288613080978,
      "learning_rate": 0.00010896020911995352,
      "loss": 0.0273,
      "step": 9270
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.16212710738182068,
      "learning_rate": 0.00010893842579146092,
      "loss": 0.035,
      "step": 9271
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.13479390740394592,
      "learning_rate": 0.00010891664246296834,
      "loss": 0.0088,
      "step": 9272
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.27063655853271484,
      "learning_rate": 0.00010889485913447574,
      "loss": 0.031,
      "step": 9273
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.44970136880874634,
      "learning_rate": 0.00010887307580598315,
      "loss": 0.041,
      "step": 9274
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.1596607267856598,
      "learning_rate": 0.00010885129247749056,
      "loss": 0.0201,
      "step": 9275
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.3181118965148926,
      "learning_rate": 0.00010882950914899796,
      "loss": 0.0314,
      "step": 9276
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.14130471646785736,
      "learning_rate": 0.00010880772582050536,
      "loss": 0.0168,
      "step": 9277
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.18142208456993103,
      "learning_rate": 0.00010878594249201276,
      "loss": 0.0248,
      "step": 9278
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.20973749458789825,
      "learning_rate": 0.00010876415916352018,
      "loss": 0.0551,
      "step": 9279
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.22426608204841614,
      "learning_rate": 0.00010874237583502758,
      "loss": 0.0154,
      "step": 9280
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.1924528032541275,
      "learning_rate": 0.000108720592506535,
      "loss": 0.0125,
      "step": 9281
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.27080386877059937,
      "learning_rate": 0.0001086988091780424,
      "loss": 0.0306,
      "step": 9282
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.12030714750289917,
      "learning_rate": 0.00010867702584954981,
      "loss": 0.0119,
      "step": 9283
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.24220888316631317,
      "learning_rate": 0.0001086552425210572,
      "loss": 0.0257,
      "step": 9284
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.19682319462299347,
      "learning_rate": 0.0001086334591925646,
      "loss": 0.0236,
      "step": 9285
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.4896441698074341,
      "learning_rate": 0.00010861167586407202,
      "loss": 0.0365,
      "step": 9286
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.14738422632217407,
      "learning_rate": 0.00010858989253557942,
      "loss": 0.0251,
      "step": 9287
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.23016075789928436,
      "learning_rate": 0.00010856810920708684,
      "loss": 0.0228,
      "step": 9288
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.1067274883389473,
      "learning_rate": 0.00010854632587859424,
      "loss": 0.0126,
      "step": 9289
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.21255794167518616,
      "learning_rate": 0.00010852454255010165,
      "loss": 0.0306,
      "step": 9290
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.1423664540052414,
      "learning_rate": 0.00010850275922160906,
      "loss": 0.0206,
      "step": 9291
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.10324752330780029,
      "learning_rate": 0.00010848097589311644,
      "loss": 0.0145,
      "step": 9292
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.3317418098449707,
      "learning_rate": 0.00010845919256462386,
      "loss": 0.0152,
      "step": 9293
    },
    {
      "epoch": 2.6,
      "grad_norm": 0.24648979306221008,
      "learning_rate": 0.00010843740923613126,
      "loss": 0.0167,
      "step": 9294
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.16735954582691193,
      "learning_rate": 0.00010841562590763868,
      "loss": 0.0299,
      "step": 9295
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.2706585228443146,
      "learning_rate": 0.00010839384257914608,
      "loss": 0.0155,
      "step": 9296
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.265929639339447,
      "learning_rate": 0.0001083720592506535,
      "loss": 0.0227,
      "step": 9297
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.29394081234931946,
      "learning_rate": 0.0001083502759221609,
      "loss": 0.0317,
      "step": 9298
    },
    {
      "epoch": 2.61,
      "grad_norm": 1.555607557296753,
      "learning_rate": 0.00010832849259366831,
      "loss": 0.2498,
      "step": 9299
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.18285150825977325,
      "learning_rate": 0.00010830670926517571,
      "loss": 0.0223,
      "step": 9300
    },
    {
      "epoch": 2.61,
      "eval_loss": 0.06862623989582062,
      "eval_runtime": 172.6627,
      "eval_samples_per_second": 15.302,
      "eval_steps_per_second": 0.481,
      "eval_wer": 0.054383181277270924,
      "step": 9300
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.2382165938615799,
      "learning_rate": 0.0001082849259366831,
      "loss": 0.0484,
      "step": 9301
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.15819790959358215,
      "learning_rate": 0.00010826314260819052,
      "loss": 0.0247,
      "step": 9302
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.23556825518608093,
      "learning_rate": 0.00010824135927969792,
      "loss": 0.0359,
      "step": 9303
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.16457097232341766,
      "learning_rate": 0.00010821957595120534,
      "loss": 0.0204,
      "step": 9304
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.17042525112628937,
      "learning_rate": 0.00010819779262271274,
      "loss": 0.0328,
      "step": 9305
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.20150718092918396,
      "learning_rate": 0.00010817600929422015,
      "loss": 0.0264,
      "step": 9306
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.12261149287223816,
      "learning_rate": 0.00010815422596572756,
      "loss": 0.0154,
      "step": 9307
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.15122389793395996,
      "learning_rate": 0.00010813244263723497,
      "loss": 0.0188,
      "step": 9308
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.23412714898586273,
      "learning_rate": 0.00010811065930874236,
      "loss": 0.0256,
      "step": 9309
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.5062666535377502,
      "learning_rate": 0.00010808887598024976,
      "loss": 0.0651,
      "step": 9310
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.14406372606754303,
      "learning_rate": 0.00010806709265175718,
      "loss": 0.0056,
      "step": 9311
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.3734947144985199,
      "learning_rate": 0.00010804530932326458,
      "loss": 0.0355,
      "step": 9312
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.3009120225906372,
      "learning_rate": 0.000108023525994772,
      "loss": 0.0424,
      "step": 9313
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.5237717628479004,
      "learning_rate": 0.0001080017426662794,
      "loss": 0.0369,
      "step": 9314
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.14230187237262726,
      "learning_rate": 0.00010797995933778681,
      "loss": 0.0236,
      "step": 9315
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.109913170337677,
      "learning_rate": 0.00010795817600929421,
      "loss": 0.008,
      "step": 9316
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.2074170708656311,
      "learning_rate": 0.0001079363926808016,
      "loss": 0.0166,
      "step": 9317
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.1340027004480362,
      "learning_rate": 0.00010791460935230902,
      "loss": 0.0266,
      "step": 9318
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.17191331088542938,
      "learning_rate": 0.00010789282602381642,
      "loss": 0.0218,
      "step": 9319
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.13312360644340515,
      "learning_rate": 0.00010787104269532384,
      "loss": 0.035,
      "step": 9320
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.20824141800403595,
      "learning_rate": 0.00010784925936683124,
      "loss": 0.0277,
      "step": 9321
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.26819851994514465,
      "learning_rate": 0.00010782747603833865,
      "loss": 0.0329,
      "step": 9322
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.2652665376663208,
      "learning_rate": 0.00010780569270984606,
      "loss": 0.0374,
      "step": 9323
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.4471662640571594,
      "learning_rate": 0.00010778390938135347,
      "loss": 0.0661,
      "step": 9324
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.18732565641403198,
      "learning_rate": 0.00010776212605286087,
      "loss": 0.0417,
      "step": 9325
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.17052847146987915,
      "learning_rate": 0.00010774034272436826,
      "loss": 0.0217,
      "step": 9326
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.2482927292585373,
      "learning_rate": 0.00010771855939587568,
      "loss": 0.0335,
      "step": 9327
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.18010440468788147,
      "learning_rate": 0.00010769677606738308,
      "loss": 0.0259,
      "step": 9328
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.18760421872138977,
      "learning_rate": 0.0001076749927388905,
      "loss": 0.0296,
      "step": 9329
    },
    {
      "epoch": 2.61,
      "grad_norm": 0.12323293089866638,
      "learning_rate": 0.0001076532094103979,
      "loss": 0.0251,
      "step": 9330
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.24766571819782257,
      "learning_rate": 0.00010763142608190531,
      "loss": 0.0278,
      "step": 9331
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.14243802428245544,
      "learning_rate": 0.00010760964275341272,
      "loss": 0.0478,
      "step": 9332
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.1906946301460266,
      "learning_rate": 0.00010758785942492013,
      "loss": 0.0292,
      "step": 9333
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.3220810890197754,
      "learning_rate": 0.00010756607609642752,
      "loss": 0.0351,
      "step": 9334
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.1359892189502716,
      "learning_rate": 0.00010754429276793492,
      "loss": 0.0073,
      "step": 9335
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.5026273727416992,
      "learning_rate": 0.00010752250943944234,
      "loss": 0.0626,
      "step": 9336
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.22046272456645966,
      "learning_rate": 0.00010750072611094974,
      "loss": 0.0126,
      "step": 9337
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.2250819206237793,
      "learning_rate": 0.00010747894278245715,
      "loss": 0.0387,
      "step": 9338
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.18993963301181793,
      "learning_rate": 0.00010745715945396456,
      "loss": 0.0377,
      "step": 9339
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.1913449466228485,
      "learning_rate": 0.00010743537612547197,
      "loss": 0.031,
      "step": 9340
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.1355554163455963,
      "learning_rate": 0.00010741359279697937,
      "loss": 0.0123,
      "step": 9341
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.1796211451292038,
      "learning_rate": 0.00010739180946848679,
      "loss": 0.0291,
      "step": 9342
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.07302305847406387,
      "learning_rate": 0.00010737002613999418,
      "loss": 0.0116,
      "step": 9343
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.14537319540977478,
      "learning_rate": 0.00010734824281150158,
      "loss": 0.0311,
      "step": 9344
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.4319203495979309,
      "learning_rate": 0.000107326459483009,
      "loss": 0.0384,
      "step": 9345
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.23619598150253296,
      "learning_rate": 0.0001073046761545164,
      "loss": 0.0324,
      "step": 9346
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.16449466347694397,
      "learning_rate": 0.00010728289282602381,
      "loss": 0.0084,
      "step": 9347
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.3441389799118042,
      "learning_rate": 0.00010726110949753122,
      "loss": 0.0433,
      "step": 9348
    },
    {
      "epoch": 2.62,
      "grad_norm": 1.1750718355178833,
      "learning_rate": 0.00010723932616903863,
      "loss": 0.0854,
      "step": 9349
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.15945899486541748,
      "learning_rate": 0.00010721754284054603,
      "loss": 0.0195,
      "step": 9350
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.21787624061107635,
      "learning_rate": 0.00010719575951205342,
      "loss": 0.0338,
      "step": 9351
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.23701658844947815,
      "learning_rate": 0.00010717397618356084,
      "loss": 0.0311,
      "step": 9352
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.17289966344833374,
      "learning_rate": 0.00010715219285506824,
      "loss": 0.0311,
      "step": 9353
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.13894721865653992,
      "learning_rate": 0.00010713040952657565,
      "loss": 0.031,
      "step": 9354
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.12817509472370148,
      "learning_rate": 0.00010710862619808306,
      "loss": 0.022,
      "step": 9355
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.24757467210292816,
      "learning_rate": 0.00010708684286959047,
      "loss": 0.0347,
      "step": 9356
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.1764887571334839,
      "learning_rate": 0.00010706505954109787,
      "loss": 0.0344,
      "step": 9357
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.2596018314361572,
      "learning_rate": 0.00010704327621260529,
      "loss": 0.0259,
      "step": 9358
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.23169246315956116,
      "learning_rate": 0.00010702149288411268,
      "loss": 0.011,
      "step": 9359
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.48089590668678284,
      "learning_rate": 0.00010699970955562008,
      "loss": 0.0262,
      "step": 9360
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.7379984855651855,
      "learning_rate": 0.0001069779262271275,
      "loss": 0.0568,
      "step": 9361
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.1853346824645996,
      "learning_rate": 0.0001069561428986349,
      "loss": 0.0612,
      "step": 9362
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.2621641755104065,
      "learning_rate": 0.00010693435957014231,
      "loss": 0.0368,
      "step": 9363
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.22473300993442535,
      "learning_rate": 0.00010691257624164972,
      "loss": 0.0425,
      "step": 9364
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.1173274964094162,
      "learning_rate": 0.00010689079291315713,
      "loss": 0.0239,
      "step": 9365
    },
    {
      "epoch": 2.62,
      "grad_norm": 0.1826007068157196,
      "learning_rate": 0.00010686900958466453,
      "loss": 0.021,
      "step": 9366
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.1685309112071991,
      "learning_rate": 0.00010684722625617194,
      "loss": 0.0309,
      "step": 9367
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.1554926186800003,
      "learning_rate": 0.00010682544292767934,
      "loss": 0.0142,
      "step": 9368
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.1347290426492691,
      "learning_rate": 0.00010680365959918674,
      "loss": 0.0081,
      "step": 9369
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.33682695031166077,
      "learning_rate": 0.00010678187627069415,
      "loss": 0.0503,
      "step": 9370
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.28432497382164,
      "learning_rate": 0.00010676009294220156,
      "loss": 0.0179,
      "step": 9371
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.3694140911102295,
      "learning_rate": 0.00010673830961370897,
      "loss": 0.0496,
      "step": 9372
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.27087491750717163,
      "learning_rate": 0.00010671652628521637,
      "loss": 0.0103,
      "step": 9373
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.17798654735088348,
      "learning_rate": 0.00010669474295672378,
      "loss": 0.0128,
      "step": 9374
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.2146415114402771,
      "learning_rate": 0.00010667295962823119,
      "loss": 0.0202,
      "step": 9375
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.122437983751297,
      "learning_rate": 0.00010665117629973858,
      "loss": 0.026,
      "step": 9376
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.2136702835559845,
      "learning_rate": 0.000106629392971246,
      "loss": 0.011,
      "step": 9377
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.3255475163459778,
      "learning_rate": 0.0001066076096427534,
      "loss": 0.0277,
      "step": 9378
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.17553260922431946,
      "learning_rate": 0.00010658582631426081,
      "loss": 0.025,
      "step": 9379
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.13323341310024261,
      "learning_rate": 0.00010656404298576822,
      "loss": 0.0147,
      "step": 9380
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.30049026012420654,
      "learning_rate": 0.00010654225965727563,
      "loss": 0.0233,
      "step": 9381
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.17167344689369202,
      "learning_rate": 0.00010652047632878303,
      "loss": 0.0165,
      "step": 9382
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.12444061040878296,
      "learning_rate": 0.00010649869300029044,
      "loss": 0.0103,
      "step": 9383
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.06579653173685074,
      "learning_rate": 0.00010647690967179784,
      "loss": 0.004,
      "step": 9384
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.3646230697631836,
      "learning_rate": 0.00010645512634330524,
      "loss": 0.0584,
      "step": 9385
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.47873708605766296,
      "learning_rate": 0.00010643334301481266,
      "loss": 0.1015,
      "step": 9386
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.3155001997947693,
      "learning_rate": 0.00010641155968632006,
      "loss": 0.034,
      "step": 9387
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.19459091126918793,
      "learning_rate": 0.00010638977635782747,
      "loss": 0.0318,
      "step": 9388
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.25772225856781006,
      "learning_rate": 0.00010636799302933487,
      "loss": 0.0363,
      "step": 9389
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.3554261326789856,
      "learning_rate": 0.00010634620970084228,
      "loss": 0.0412,
      "step": 9390
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.24837493896484375,
      "learning_rate": 0.00010632442637234969,
      "loss": 0.0477,
      "step": 9391
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.2732201814651489,
      "learning_rate": 0.0001063026430438571,
      "loss": 0.0322,
      "step": 9392
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.17385093867778778,
      "learning_rate": 0.0001062808597153645,
      "loss": 0.0225,
      "step": 9393
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.17913644015789032,
      "learning_rate": 0.0001062590763868719,
      "loss": 0.015,
      "step": 9394
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.24353843927383423,
      "learning_rate": 0.00010623729305837931,
      "loss": 0.0346,
      "step": 9395
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.17335622012615204,
      "learning_rate": 0.00010621550972988672,
      "loss": 0.0242,
      "step": 9396
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.41124528646469116,
      "learning_rate": 0.00010619372640139412,
      "loss": 0.067,
      "step": 9397
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.17290419340133667,
      "learning_rate": 0.00010617194307290153,
      "loss": 0.0074,
      "step": 9398
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.5027080774307251,
      "learning_rate": 0.00010615015974440894,
      "loss": 0.0562,
      "step": 9399
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.1558018922805786,
      "learning_rate": 0.00010612837641591635,
      "loss": 0.0162,
      "step": 9400
    },
    {
      "epoch": 2.63,
      "eval_loss": 0.06803169846534729,
      "eval_runtime": 172.9635,
      "eval_samples_per_second": 15.275,
      "eval_steps_per_second": 0.48,
      "eval_wer": 0.05206267354224514,
      "step": 9400
    },
    {
      "epoch": 2.63,
      "grad_norm": 0.1330396682024002,
      "learning_rate": 0.00010610659308742374,
      "loss": 0.0057,
      "step": 9401
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.19003842771053314,
      "learning_rate": 0.00010608480975893116,
      "loss": 0.0302,
      "step": 9402
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.28397393226623535,
      "learning_rate": 0.00010606302643043856,
      "loss": 0.0298,
      "step": 9403
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.25846919417381287,
      "learning_rate": 0.00010604124310194596,
      "loss": 0.0449,
      "step": 9404
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.2783057689666748,
      "learning_rate": 0.00010601945977345338,
      "loss": 0.0267,
      "step": 9405
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.1935071498155594,
      "learning_rate": 0.00010599767644496078,
      "loss": 0.0202,
      "step": 9406
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.28317293524742126,
      "learning_rate": 0.00010597589311646819,
      "loss": 0.0258,
      "step": 9407
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.19166196882724762,
      "learning_rate": 0.0001059541097879756,
      "loss": 0.0506,
      "step": 9408
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.4258955419063568,
      "learning_rate": 0.00010593232645948301,
      "loss": 0.0362,
      "step": 9409
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.36930739879608154,
      "learning_rate": 0.0001059105431309904,
      "loss": 0.0387,
      "step": 9410
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.4971694350242615,
      "learning_rate": 0.00010588875980249781,
      "loss": 0.0352,
      "step": 9411
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.1357533484697342,
      "learning_rate": 0.00010586697647400522,
      "loss": 0.0205,
      "step": 9412
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.12642894685268402,
      "learning_rate": 0.00010584519314551262,
      "loss": 0.029,
      "step": 9413
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.20989049971103668,
      "learning_rate": 0.00010582340981702003,
      "loss": 0.0477,
      "step": 9414
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.18320202827453613,
      "learning_rate": 0.00010580162648852744,
      "loss": 0.0288,
      "step": 9415
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.169770285487175,
      "learning_rate": 0.00010577984316003485,
      "loss": 0.0217,
      "step": 9416
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.5194650292396545,
      "learning_rate": 0.00010575805983154225,
      "loss": 0.0361,
      "step": 9417
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.18593287467956543,
      "learning_rate": 0.00010573627650304966,
      "loss": 0.0356,
      "step": 9418
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.2363397777080536,
      "learning_rate": 0.00010571449317455706,
      "loss": 0.0211,
      "step": 9419
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.22476334869861603,
      "learning_rate": 0.00010569270984606446,
      "loss": 0.0333,
      "step": 9420
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.1661684513092041,
      "learning_rate": 0.00010567092651757188,
      "loss": 0.0166,
      "step": 9421
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.2594616413116455,
      "learning_rate": 0.00010564914318907928,
      "loss": 0.0433,
      "step": 9422
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.11473453789949417,
      "learning_rate": 0.00010562735986058669,
      "loss": 0.0075,
      "step": 9423
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.292946994304657,
      "learning_rate": 0.0001056055765320941,
      "loss": 0.0216,
      "step": 9424
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.27772411704063416,
      "learning_rate": 0.00010558379320360151,
      "loss": 0.0277,
      "step": 9425
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.25737422704696655,
      "learning_rate": 0.0001055620098751089,
      "loss": 0.0472,
      "step": 9426
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.13974159955978394,
      "learning_rate": 0.0001055402265466163,
      "loss": 0.0158,
      "step": 9427
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.21468093991279602,
      "learning_rate": 0.00010551844321812372,
      "loss": 0.0233,
      "step": 9428
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.12546995282173157,
      "learning_rate": 0.00010549665988963112,
      "loss": 0.017,
      "step": 9429
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.2797931134700775,
      "learning_rate": 0.00010547487656113853,
      "loss": 0.0421,
      "step": 9430
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.15548491477966309,
      "learning_rate": 0.00010545309323264594,
      "loss": 0.0214,
      "step": 9431
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.09468656778335571,
      "learning_rate": 0.00010543130990415335,
      "loss": 0.0163,
      "step": 9432
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.19063130021095276,
      "learning_rate": 0.00010540952657566075,
      "loss": 0.014,
      "step": 9433
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.47549760341644287,
      "learning_rate": 0.00010538774324716817,
      "loss": 0.0681,
      "step": 9434
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.3952876627445221,
      "learning_rate": 0.00010536595991867556,
      "loss": 0.0277,
      "step": 9435
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.26433274149894714,
      "learning_rate": 0.00010534417659018296,
      "loss": 0.0349,
      "step": 9436
    },
    {
      "epoch": 2.64,
      "grad_norm": 0.23785735666751862,
      "learning_rate": 0.00010532239326169038,
      "loss": 0.0442,
      "step": 9437
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.13787780702114105,
      "learning_rate": 0.00010530060993319778,
      "loss": 0.0338,
      "step": 9438
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.16255517303943634,
      "learning_rate": 0.0001052788266047052,
      "loss": 0.0567,
      "step": 9439
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.16137541830539703,
      "learning_rate": 0.0001052570432762126,
      "loss": 0.0147,
      "step": 9440
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.20386826992034912,
      "learning_rate": 0.00010523525994772001,
      "loss": 0.0264,
      "step": 9441
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.2589898109436035,
      "learning_rate": 0.00010521347661922741,
      "loss": 0.0496,
      "step": 9442
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.1166767105460167,
      "learning_rate": 0.0001051916932907348,
      "loss": 0.0352,
      "step": 9443
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.1735467165708542,
      "learning_rate": 0.00010516990996224222,
      "loss": 0.0057,
      "step": 9444
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.2277064323425293,
      "learning_rate": 0.00010514812663374962,
      "loss": 0.022,
      "step": 9445
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.3309682011604309,
      "learning_rate": 0.00010512634330525703,
      "loss": 0.0598,
      "step": 9446
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.13481561839580536,
      "learning_rate": 0.00010510455997676444,
      "loss": 0.0174,
      "step": 9447
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.31658679246902466,
      "learning_rate": 0.00010508277664827185,
      "loss": 0.048,
      "step": 9448
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.46361976861953735,
      "learning_rate": 0.00010506099331977925,
      "loss": 0.044,
      "step": 9449
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.28872454166412354,
      "learning_rate": 0.00010503920999128667,
      "loss": 0.0426,
      "step": 9450
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.16433142125606537,
      "learning_rate": 0.00010501742666279406,
      "loss": 0.0217,
      "step": 9451
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.1527528315782547,
      "learning_rate": 0.00010499564333430146,
      "loss": 0.0367,
      "step": 9452
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.20202434062957764,
      "learning_rate": 0.00010497386000580888,
      "loss": 0.0206,
      "step": 9453
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.15020447969436646,
      "learning_rate": 0.00010495207667731628,
      "loss": 0.0136,
      "step": 9454
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.15954184532165527,
      "learning_rate": 0.0001049302933488237,
      "loss": 0.0294,
      "step": 9455
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.25004252791404724,
      "learning_rate": 0.0001049085100203311,
      "loss": 0.0698,
      "step": 9456
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.2394586056470871,
      "learning_rate": 0.00010488672669183851,
      "loss": 0.0661,
      "step": 9457
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.1328059583902359,
      "learning_rate": 0.00010486494336334591,
      "loss": 0.019,
      "step": 9458
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.1314799189567566,
      "learning_rate": 0.00010484316003485333,
      "loss": 0.0173,
      "step": 9459
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.14995959401130676,
      "learning_rate": 0.00010482137670636072,
      "loss": 0.015,
      "step": 9460
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.38201966881752014,
      "learning_rate": 0.00010479959337786812,
      "loss": 0.0562,
      "step": 9461
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.27590277791023254,
      "learning_rate": 0.00010477781004937553,
      "loss": 0.0595,
      "step": 9462
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.16530552506446838,
      "learning_rate": 0.00010475602672088294,
      "loss": 0.0251,
      "step": 9463
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.1455782651901245,
      "learning_rate": 0.00010473424339239035,
      "loss": 0.0168,
      "step": 9464
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.18028371036052704,
      "learning_rate": 0.00010471246006389775,
      "loss": 0.0206,
      "step": 9465
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.20714864134788513,
      "learning_rate": 0.00010469067673540517,
      "loss": 0.0186,
      "step": 9466
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.208451047539711,
      "learning_rate": 0.00010466889340691257,
      "loss": 0.0353,
      "step": 9467
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.21403059363365173,
      "learning_rate": 0.00010464711007841996,
      "loss": 0.0332,
      "step": 9468
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.22858808934688568,
      "learning_rate": 0.00010462532674992738,
      "loss": 0.0316,
      "step": 9469
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.15575800836086273,
      "learning_rate": 0.00010460354342143478,
      "loss": 0.0204,
      "step": 9470
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.1847960203886032,
      "learning_rate": 0.0001045817600929422,
      "loss": 0.0256,
      "step": 9471
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.23464876413345337,
      "learning_rate": 0.0001045599767644496,
      "loss": 0.0217,
      "step": 9472
    },
    {
      "epoch": 2.65,
      "grad_norm": 0.36811503767967224,
      "learning_rate": 0.00010453819343595701,
      "loss": 0.0434,
      "step": 9473
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.152540385723114,
      "learning_rate": 0.00010451641010746441,
      "loss": 0.0154,
      "step": 9474
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.1795145869255066,
      "learning_rate": 0.00010449462677897183,
      "loss": 0.0271,
      "step": 9475
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.09876427054405212,
      "learning_rate": 0.00010447284345047923,
      "loss": 0.0104,
      "step": 9476
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.2031981498003006,
      "learning_rate": 0.00010445106012198662,
      "loss": 0.0522,
      "step": 9477
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.22925156354904175,
      "learning_rate": 0.00010442927679349404,
      "loss": 0.0235,
      "step": 9478
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.3018496036529541,
      "learning_rate": 0.00010440749346500144,
      "loss": 0.0467,
      "step": 9479
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.34526342153549194,
      "learning_rate": 0.00010438571013650885,
      "loss": 0.0258,
      "step": 9480
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.3200416564941406,
      "learning_rate": 0.00010436392680801625,
      "loss": 0.0305,
      "step": 9481
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.0987444818019867,
      "learning_rate": 0.00010434214347952367,
      "loss": 0.0103,
      "step": 9482
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.21826134622097015,
      "learning_rate": 0.00010432036015103107,
      "loss": 0.0302,
      "step": 9483
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.16771776974201202,
      "learning_rate": 0.00010429857682253849,
      "loss": 0.0254,
      "step": 9484
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.28121620416641235,
      "learning_rate": 0.00010427679349404588,
      "loss": 0.062,
      "step": 9485
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.47137996554374695,
      "learning_rate": 0.00010425501016555328,
      "loss": 0.0431,
      "step": 9486
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.19393375515937805,
      "learning_rate": 0.0001042332268370607,
      "loss": 0.0551,
      "step": 9487
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.14946171641349792,
      "learning_rate": 0.0001042114435085681,
      "loss": 0.0349,
      "step": 9488
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.1125791072845459,
      "learning_rate": 0.00010418966018007551,
      "loss": 0.0265,
      "step": 9489
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.16915495693683624,
      "learning_rate": 0.00010416787685158291,
      "loss": 0.0212,
      "step": 9490
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.21968160569667816,
      "learning_rate": 0.00010414609352309033,
      "loss": 0.0252,
      "step": 9491
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.2728860676288605,
      "learning_rate": 0.00010412431019459773,
      "loss": 0.0255,
      "step": 9492
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.21560004353523254,
      "learning_rate": 0.00010410252686610512,
      "loss": 0.0251,
      "step": 9493
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.17010504007339478,
      "learning_rate": 0.00010408074353761254,
      "loss": 0.0251,
      "step": 9494
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.15498170256614685,
      "learning_rate": 0.00010405896020911994,
      "loss": 0.0185,
      "step": 9495
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.26804983615875244,
      "learning_rate": 0.00010403717688062735,
      "loss": 0.0512,
      "step": 9496
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.2250169813632965,
      "learning_rate": 0.00010401539355213476,
      "loss": 0.033,
      "step": 9497
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.20379506051540375,
      "learning_rate": 0.00010399361022364217,
      "loss": 0.0223,
      "step": 9498
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.19170020520687103,
      "learning_rate": 0.00010397182689514957,
      "loss": 0.0128,
      "step": 9499
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.20549741387367249,
      "learning_rate": 0.00010395004356665699,
      "loss": 0.0392,
      "step": 9500
    },
    {
      "epoch": 2.66,
      "eval_loss": 0.0645681694149971,
      "eval_runtime": 173.582,
      "eval_samples_per_second": 15.22,
      "eval_steps_per_second": 0.478,
      "eval_wer": 0.05122967076556922,
      "step": 9500
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.2175283581018448,
      "learning_rate": 0.00010392826023816439,
      "loss": 0.0399,
      "step": 9501
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.2005508840084076,
      "learning_rate": 0.00010390647690967178,
      "loss": 0.0316,
      "step": 9502
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.13462954759597778,
      "learning_rate": 0.0001038846935811792,
      "loss": 0.0339,
      "step": 9503
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.06757587939500809,
      "learning_rate": 0.0001038629102526866,
      "loss": 0.0079,
      "step": 9504
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.09154092520475388,
      "learning_rate": 0.00010384112692419401,
      "loss": 0.0201,
      "step": 9505
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.07115276157855988,
      "learning_rate": 0.00010381934359570141,
      "loss": 0.0101,
      "step": 9506
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.27619269490242004,
      "learning_rate": 0.00010379756026720883,
      "loss": 0.05,
      "step": 9507
    },
    {
      "epoch": 2.66,
      "grad_norm": 0.1621558964252472,
      "learning_rate": 0.00010377577693871623,
      "loss": 0.0247,
      "step": 9508
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.13510608673095703,
      "learning_rate": 0.00010375399361022363,
      "loss": 0.0284,
      "step": 9509
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.4253406226634979,
      "learning_rate": 0.00010373221028173104,
      "loss": 0.0651,
      "step": 9510
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.22748340666294098,
      "learning_rate": 0.00010371042695323844,
      "loss": 0.0199,
      "step": 9511
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.195419043302536,
      "learning_rate": 0.00010368864362474585,
      "loss": 0.0383,
      "step": 9512
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.20244023203849792,
      "learning_rate": 0.00010366686029625326,
      "loss": 0.0237,
      "step": 9513
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.13167715072631836,
      "learning_rate": 0.00010364507696776067,
      "loss": 0.0279,
      "step": 9514
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.1367681622505188,
      "learning_rate": 0.00010362329363926807,
      "loss": 0.0284,
      "step": 9515
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.12505941092967987,
      "learning_rate": 0.00010360151031077549,
      "loss": 0.0285,
      "step": 9516
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.2169436812400818,
      "learning_rate": 0.00010357972698228289,
      "loss": 0.0347,
      "step": 9517
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.14240142703056335,
      "learning_rate": 0.00010355794365379028,
      "loss": 0.0222,
      "step": 9518
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.14694325625896454,
      "learning_rate": 0.0001035361603252977,
      "loss": 0.0215,
      "step": 9519
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.1542970836162567,
      "learning_rate": 0.0001035143769968051,
      "loss": 0.0217,
      "step": 9520
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.1782534271478653,
      "learning_rate": 0.00010349259366831251,
      "loss": 0.0143,
      "step": 9521
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.13820409774780273,
      "learning_rate": 0.00010347081033981991,
      "loss": 0.0372,
      "step": 9522
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.06434845179319382,
      "learning_rate": 0.00010344902701132733,
      "loss": 0.005,
      "step": 9523
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.22872716188430786,
      "learning_rate": 0.00010342724368283473,
      "loss": 0.0271,
      "step": 9524
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.19533635675907135,
      "learning_rate": 0.00010340546035434213,
      "loss": 0.0421,
      "step": 9525
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.25633421540260315,
      "learning_rate": 0.00010338367702584955,
      "loss": 0.0423,
      "step": 9526
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.36421921849250793,
      "learning_rate": 0.00010336189369735694,
      "loss": 0.0576,
      "step": 9527
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.2035425305366516,
      "learning_rate": 0.00010334011036886435,
      "loss": 0.0421,
      "step": 9528
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.49221405386924744,
      "learning_rate": 0.00010331832704037176,
      "loss": 0.0562,
      "step": 9529
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.40663206577301025,
      "learning_rate": 0.00010329654371187917,
      "loss": 0.0358,
      "step": 9530
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.16450780630111694,
      "learning_rate": 0.00010327476038338657,
      "loss": 0.0381,
      "step": 9531
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.22687536478042603,
      "learning_rate": 0.00010325297705489398,
      "loss": 0.0242,
      "step": 9532
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.1230914443731308,
      "learning_rate": 0.00010323119372640139,
      "loss": 0.0108,
      "step": 9533
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.22182472050189972,
      "learning_rate": 0.00010320941039790879,
      "loss": 0.0315,
      "step": 9534
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.3789655566215515,
      "learning_rate": 0.0001031876270694162,
      "loss": 0.0573,
      "step": 9535
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.5860176086425781,
      "learning_rate": 0.0001031658437409236,
      "loss": 0.1504,
      "step": 9536
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.13845066726207733,
      "learning_rate": 0.00010314406041243101,
      "loss": 0.0168,
      "step": 9537
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.12304936349391937,
      "learning_rate": 0.00010312227708393841,
      "loss": 0.0388,
      "step": 9538
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.14630509912967682,
      "learning_rate": 0.00010310049375544582,
      "loss": 0.0525,
      "step": 9539
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.23867718875408173,
      "learning_rate": 0.00010307871042695323,
      "loss": 0.0525,
      "step": 9540
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.07320243865251541,
      "learning_rate": 0.00010305692709846063,
      "loss": 0.0065,
      "step": 9541
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.21543075144290924,
      "learning_rate": 0.00010303514376996805,
      "loss": 0.0296,
      "step": 9542
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.16375556588172913,
      "learning_rate": 0.00010301336044147545,
      "loss": 0.0256,
      "step": 9543
    },
    {
      "epoch": 2.67,
      "grad_norm": 0.23072771728038788,
      "learning_rate": 0.00010299157711298285,
      "loss": 0.0364,
      "step": 9544
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.1745782494544983,
      "learning_rate": 0.00010296979378449026,
      "loss": 0.0217,
      "step": 9545
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.18508651852607727,
      "learning_rate": 0.00010294801045599767,
      "loss": 0.0222,
      "step": 9546
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.25480741262435913,
      "learning_rate": 0.00010292622712750507,
      "loss": 0.0443,
      "step": 9547
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.11516698449850082,
      "learning_rate": 0.00010290444379901248,
      "loss": 0.0483,
      "step": 9548
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.1924937218427658,
      "learning_rate": 0.00010288266047051989,
      "loss": 0.0207,
      "step": 9549
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.2594352960586548,
      "learning_rate": 0.00010286087714202729,
      "loss": 0.0415,
      "step": 9550
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.1225663423538208,
      "learning_rate": 0.00010283909381353471,
      "loss": 0.0168,
      "step": 9551
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.16037321090698242,
      "learning_rate": 0.0001028173104850421,
      "loss": 0.0248,
      "step": 9552
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.1440841108560562,
      "learning_rate": 0.00010279552715654951,
      "loss": 0.0401,
      "step": 9553
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.18948502838611603,
      "learning_rate": 0.00010277374382805691,
      "loss": 0.0354,
      "step": 9554
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.2170010507106781,
      "learning_rate": 0.00010275196049956432,
      "loss": 0.0314,
      "step": 9555
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.11280271410942078,
      "learning_rate": 0.00010273017717107173,
      "loss": 0.0316,
      "step": 9556
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.08389401435852051,
      "learning_rate": 0.00010270839384257913,
      "loss": 0.0077,
      "step": 9557
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.19873136281967163,
      "learning_rate": 0.00010268661051408655,
      "loss": 0.0334,
      "step": 9558
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.13409185409545898,
      "learning_rate": 0.00010266482718559395,
      "loss": 0.0199,
      "step": 9559
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.24883759021759033,
      "learning_rate": 0.00010264304385710135,
      "loss": 0.0458,
      "step": 9560
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.23720532655715942,
      "learning_rate": 0.00010262126052860876,
      "loss": 0.0311,
      "step": 9561
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.15119819343090057,
      "learning_rate": 0.00010259947720011616,
      "loss": 0.0259,
      "step": 9562
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.17745833098888397,
      "learning_rate": 0.00010257769387162357,
      "loss": 0.0302,
      "step": 9563
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.15933938324451447,
      "learning_rate": 0.00010255591054313098,
      "loss": 0.0229,
      "step": 9564
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.31067657470703125,
      "learning_rate": 0.00010253412721463839,
      "loss": 0.0274,
      "step": 9565
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.26771947741508484,
      "learning_rate": 0.0001025123438861458,
      "loss": 0.0246,
      "step": 9566
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.1781190186738968,
      "learning_rate": 0.00010249056055765321,
      "loss": 0.0235,
      "step": 9567
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.25524064898490906,
      "learning_rate": 0.00010246877722916061,
      "loss": 0.0344,
      "step": 9568
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.09064401686191559,
      "learning_rate": 0.00010244699390066801,
      "loss": 0.0164,
      "step": 9569
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.31721606850624084,
      "learning_rate": 0.00010242521057217542,
      "loss": 0.0667,
      "step": 9570
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.14317966997623444,
      "learning_rate": 0.00010240342724368282,
      "loss": 0.0275,
      "step": 9571
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.090634286403656,
      "learning_rate": 0.00010238164391519023,
      "loss": 0.0088,
      "step": 9572
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.4193711578845978,
      "learning_rate": 0.00010235986058669763,
      "loss": 0.04,
      "step": 9573
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.6617974638938904,
      "learning_rate": 0.00010233807725820505,
      "loss": 0.0668,
      "step": 9574
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.1802988499403,
      "learning_rate": 0.00010231629392971245,
      "loss": 0.03,
      "step": 9575
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.15332455933094025,
      "learning_rate": 0.00010229451060121987,
      "loss": 0.0217,
      "step": 9576
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.21988026797771454,
      "learning_rate": 0.00010227272727272726,
      "loss": 0.0192,
      "step": 9577
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.3309767544269562,
      "learning_rate": 0.00010225094394423466,
      "loss": 0.0346,
      "step": 9578
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.2107628434896469,
      "learning_rate": 0.00010222916061574207,
      "loss": 0.0391,
      "step": 9579
    },
    {
      "epoch": 2.68,
      "grad_norm": 0.31241297721862793,
      "learning_rate": 0.00010220737728724948,
      "loss": 0.0582,
      "step": 9580
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.19250644743442535,
      "learning_rate": 0.00010218559395875689,
      "loss": 0.0179,
      "step": 9581
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.23603463172912598,
      "learning_rate": 0.0001021638106302643,
      "loss": 0.0344,
      "step": 9582
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.15092331171035767,
      "learning_rate": 0.00010214202730177171,
      "loss": 0.0179,
      "step": 9583
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.23719274997711182,
      "learning_rate": 0.00010212024397327911,
      "loss": 0.0285,
      "step": 9584
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.19506986439228058,
      "learning_rate": 0.0001020984606447865,
      "loss": 0.0108,
      "step": 9585
    },
    {
      "epoch": 2.69,
      "grad_norm": 1.115531086921692,
      "learning_rate": 0.00010207667731629392,
      "loss": 0.1535,
      "step": 9586
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.09978121519088745,
      "learning_rate": 0.00010205489398780132,
      "loss": 0.0103,
      "step": 9587
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.11831510812044144,
      "learning_rate": 0.00010203311065930873,
      "loss": 0.0089,
      "step": 9588
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.17027580738067627,
      "learning_rate": 0.00010201132733081613,
      "loss": 0.034,
      "step": 9589
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.2630632221698761,
      "learning_rate": 0.00010198954400232355,
      "loss": 0.0556,
      "step": 9590
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.11706136167049408,
      "learning_rate": 0.00010196776067383095,
      "loss": 0.0195,
      "step": 9591
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.10235405713319778,
      "learning_rate": 0.00010194597734533837,
      "loss": 0.0281,
      "step": 9592
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.2821376621723175,
      "learning_rate": 0.00010192419401684577,
      "loss": 0.0397,
      "step": 9593
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.1431153565645218,
      "learning_rate": 0.00010190241068835316,
      "loss": 0.0369,
      "step": 9594
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.27113765478134155,
      "learning_rate": 0.00010188062735986057,
      "loss": 0.0392,
      "step": 9595
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.29578009247779846,
      "learning_rate": 0.00010185884403136798,
      "loss": 0.0575,
      "step": 9596
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.41004663705825806,
      "learning_rate": 0.00010183706070287539,
      "loss": 0.0251,
      "step": 9597
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.21140466630458832,
      "learning_rate": 0.0001018152773743828,
      "loss": 0.0243,
      "step": 9598
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.5407992005348206,
      "learning_rate": 0.00010179349404589021,
      "loss": 0.0362,
      "step": 9599
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.11549126356840134,
      "learning_rate": 0.00010177171071739761,
      "loss": 0.027,
      "step": 9600
    },
    {
      "epoch": 2.69,
      "eval_loss": 0.06633831560611725,
      "eval_runtime": 173.537,
      "eval_samples_per_second": 15.224,
      "eval_steps_per_second": 0.478,
      "eval_wer": 0.054383181277270924,
      "step": 9600
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.11221986263990402,
      "learning_rate": 0.00010174992738890503,
      "loss": 0.0216,
      "step": 9601
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.23404693603515625,
      "learning_rate": 0.00010172814406041242,
      "loss": 0.0502,
      "step": 9602
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.16406308114528656,
      "learning_rate": 0.00010170636073191982,
      "loss": 0.0213,
      "step": 9603
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.6219338774681091,
      "learning_rate": 0.00010168457740342723,
      "loss": 0.0584,
      "step": 9604
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.15468153357505798,
      "learning_rate": 0.00010166279407493464,
      "loss": 0.0175,
      "step": 9605
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.1952444314956665,
      "learning_rate": 0.00010164101074644205,
      "loss": 0.0327,
      "step": 9606
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.09291993826627731,
      "learning_rate": 0.00010161922741794945,
      "loss": 0.0174,
      "step": 9607
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.17020754516124725,
      "learning_rate": 0.00010159744408945687,
      "loss": 0.025,
      "step": 9608
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.14831295609474182,
      "learning_rate": 0.00010157566076096427,
      "loss": 0.0198,
      "step": 9609
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.2717418074607849,
      "learning_rate": 0.00010155387743247169,
      "loss": 0.0288,
      "step": 9610
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.3017369210720062,
      "learning_rate": 0.00010153209410397907,
      "loss": 0.0182,
      "step": 9611
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.17192493379116058,
      "learning_rate": 0.00010151031077548648,
      "loss": 0.0218,
      "step": 9612
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.17332354187965393,
      "learning_rate": 0.00010148852744699389,
      "loss": 0.0366,
      "step": 9613
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.275806725025177,
      "learning_rate": 0.0001014667441185013,
      "loss": 0.0887,
      "step": 9614
    },
    {
      "epoch": 2.69,
      "grad_norm": 0.15957793593406677,
      "learning_rate": 0.00010144496079000871,
      "loss": 0.0417,
      "step": 9615
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.17911487817764282,
      "learning_rate": 0.00010142317746151611,
      "loss": 0.0347,
      "step": 9616
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.3519672155380249,
      "learning_rate": 0.00010140139413302353,
      "loss": 0.0385,
      "step": 9617
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.273606538772583,
      "learning_rate": 0.00010137961080453093,
      "loss": 0.0303,
      "step": 9618
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.2747526466846466,
      "learning_rate": 0.00010135782747603832,
      "loss": 0.0627,
      "step": 9619
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.14446066319942474,
      "learning_rate": 0.00010133604414754573,
      "loss": 0.0154,
      "step": 9620
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.13806036114692688,
      "learning_rate": 0.00010131426081905314,
      "loss": 0.0176,
      "step": 9621
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.25327324867248535,
      "learning_rate": 0.00010129247749056055,
      "loss": 0.0533,
      "step": 9622
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.5769641995429993,
      "learning_rate": 0.00010127069416206795,
      "loss": 0.0844,
      "step": 9623
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.594565749168396,
      "learning_rate": 0.00010124891083357537,
      "loss": 0.1015,
      "step": 9624
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.17791183292865753,
      "learning_rate": 0.00010122712750508277,
      "loss": 0.0219,
      "step": 9625
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.22286950051784515,
      "learning_rate": 0.00010120534417659019,
      "loss": 0.0846,
      "step": 9626
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.12183431535959244,
      "learning_rate": 0.00010118356084809757,
      "loss": 0.0261,
      "step": 9627
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.1352163404226303,
      "learning_rate": 0.00010116177751960498,
      "loss": 0.0322,
      "step": 9628
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.24977584183216095,
      "learning_rate": 0.00010113999419111239,
      "loss": 0.0351,
      "step": 9629
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.11095209419727325,
      "learning_rate": 0.0001011182108626198,
      "loss": 0.0179,
      "step": 9630
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.11886374652385712,
      "learning_rate": 0.00010109642753412721,
      "loss": 0.0104,
      "step": 9631
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.143596351146698,
      "learning_rate": 0.00010107464420563461,
      "loss": 0.0187,
      "step": 9632
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.31899169087409973,
      "learning_rate": 0.00010105286087714203,
      "loss": 0.0388,
      "step": 9633
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.12290236353874207,
      "learning_rate": 0.00010103107754864943,
      "loss": 0.0143,
      "step": 9634
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.1288289576768875,
      "learning_rate": 0.00010100929422015685,
      "loss": 0.011,
      "step": 9635
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.2680296301841736,
      "learning_rate": 0.00010098751089166423,
      "loss": 0.0194,
      "step": 9636
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.24184100329875946,
      "learning_rate": 0.00010096572756317164,
      "loss": 0.0567,
      "step": 9637
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.4748540222644806,
      "learning_rate": 0.00010094394423467905,
      "loss": 0.055,
      "step": 9638
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.45014137029647827,
      "learning_rate": 0.00010092216090618645,
      "loss": 0.0124,
      "step": 9639
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.18421833217144012,
      "learning_rate": 0.00010090037757769387,
      "loss": 0.0246,
      "step": 9640
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.20533087849617004,
      "learning_rate": 0.00010087859424920127,
      "loss": 0.0516,
      "step": 9641
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.2018689066171646,
      "learning_rate": 0.00010085681092070869,
      "loss": 0.0285,
      "step": 9642
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.28446686267852783,
      "learning_rate": 0.00010083502759221609,
      "loss": 0.0462,
      "step": 9643
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.12775158882141113,
      "learning_rate": 0.00010081324426372348,
      "loss": 0.0151,
      "step": 9644
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.19776690006256104,
      "learning_rate": 0.00010079146093523089,
      "loss": 0.0208,
      "step": 9645
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.12924295663833618,
      "learning_rate": 0.0001007696776067383,
      "loss": 0.0115,
      "step": 9646
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.20214447379112244,
      "learning_rate": 0.00010074789427824571,
      "loss": 0.0149,
      "step": 9647
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.5972379446029663,
      "learning_rate": 0.00010072611094975311,
      "loss": 0.0627,
      "step": 9648
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.10883092880249023,
      "learning_rate": 0.00010070432762126053,
      "loss": 0.0106,
      "step": 9649
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.1824989914894104,
      "learning_rate": 0.00010068254429276793,
      "loss": 0.0417,
      "step": 9650
    },
    {
      "epoch": 2.7,
      "grad_norm": 0.13732656836509705,
      "learning_rate": 0.00010066076096427535,
      "loss": 0.0281,
      "step": 9651
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.21106959879398346,
      "learning_rate": 0.00010063897763578275,
      "loss": 0.0285,
      "step": 9652
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.12623991072177887,
      "learning_rate": 0.00010061719430729014,
      "loss": 0.0155,
      "step": 9653
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.16903845965862274,
      "learning_rate": 0.00010059541097879755,
      "loss": 0.0207,
      "step": 9654
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.16433626413345337,
      "learning_rate": 0.00010057362765030495,
      "loss": 0.0372,
      "step": 9655
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.38680464029312134,
      "learning_rate": 0.00010055184432181237,
      "loss": 0.0435,
      "step": 9656
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.2276947796344757,
      "learning_rate": 0.00010053006099331977,
      "loss": 0.0411,
      "step": 9657
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.1590217649936676,
      "learning_rate": 0.00010050827766482719,
      "loss": 0.0184,
      "step": 9658
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.3431187570095062,
      "learning_rate": 0.00010048649433633459,
      "loss": 0.0396,
      "step": 9659
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.12307480722665787,
      "learning_rate": 0.00010046471100784199,
      "loss": 0.0104,
      "step": 9660
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.5717899799346924,
      "learning_rate": 0.00010044292767934939,
      "loss": 0.0706,
      "step": 9661
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.14347952604293823,
      "learning_rate": 0.0001004211443508568,
      "loss": 0.0144,
      "step": 9662
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.19016306102275848,
      "learning_rate": 0.00010039936102236421,
      "loss": 0.0308,
      "step": 9663
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.13191114366054535,
      "learning_rate": 0.00010037757769387161,
      "loss": 0.0205,
      "step": 9664
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.15431267023086548,
      "learning_rate": 0.00010035579436537903,
      "loss": 0.0346,
      "step": 9665
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.22394415736198425,
      "learning_rate": 0.00010033401103688643,
      "loss": 0.0307,
      "step": 9666
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.2179573029279709,
      "learning_rate": 0.00010031222770839383,
      "loss": 0.023,
      "step": 9667
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.20469848811626434,
      "learning_rate": 0.00010029044437990125,
      "loss": 0.0317,
      "step": 9668
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.2772466838359833,
      "learning_rate": 0.00010026866105140864,
      "loss": 0.0317,
      "step": 9669
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.1300666779279709,
      "learning_rate": 0.00010024687772291605,
      "loss": 0.0162,
      "step": 9670
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.14474692940711975,
      "learning_rate": 0.00010022509439442345,
      "loss": 0.0159,
      "step": 9671
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.22336144745349884,
      "learning_rate": 0.00010020331106593087,
      "loss": 0.0111,
      "step": 9672
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.25469154119491577,
      "learning_rate": 0.00010018152773743827,
      "loss": 0.0118,
      "step": 9673
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.3539987802505493,
      "learning_rate": 0.00010015974440894567,
      "loss": 0.0297,
      "step": 9674
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.2614805996417999,
      "learning_rate": 0.00010013796108045309,
      "loss": 0.0566,
      "step": 9675
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.08203264325857162,
      "learning_rate": 0.00010011617775196049,
      "loss": 0.0069,
      "step": 9676
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.06460422277450562,
      "learning_rate": 0.0001000943944234679,
      "loss": 0.0074,
      "step": 9677
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.2483930140733719,
      "learning_rate": 0.0001000726110949753,
      "loss": 0.0298,
      "step": 9678
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.1649557650089264,
      "learning_rate": 0.00010005082776648271,
      "loss": 0.0273,
      "step": 9679
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.17459186911582947,
      "learning_rate": 0.00010002904443799011,
      "loss": 0.0295,
      "step": 9680
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.10242394357919693,
      "learning_rate": 0.00010000726110949753,
      "loss": 0.0092,
      "step": 9681
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.5610492825508118,
      "learning_rate": 9.998547778100493e-05,
      "loss": 0.0631,
      "step": 9682
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.18115893006324768,
      "learning_rate": 9.996369445251233e-05,
      "loss": 0.0115,
      "step": 9683
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.2229914665222168,
      "learning_rate": 9.994191112401975e-05,
      "loss": 0.0272,
      "step": 9684
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.2594204246997833,
      "learning_rate": 9.992012779552715e-05,
      "loss": 0.0217,
      "step": 9685
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.6689067482948303,
      "learning_rate": 9.989834446703455e-05,
      "loss": 0.1388,
      "step": 9686
    },
    {
      "epoch": 2.71,
      "grad_norm": 0.425528883934021,
      "learning_rate": 9.987656113854195e-05,
      "loss": 0.0177,
      "step": 9687
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.16210968792438507,
      "learning_rate": 9.985477781004937e-05,
      "loss": 0.0185,
      "step": 9688
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.1449781209230423,
      "learning_rate": 9.983299448155677e-05,
      "loss": 0.0205,
      "step": 9689
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.10605492442846298,
      "learning_rate": 9.981121115306417e-05,
      "loss": 0.0157,
      "step": 9690
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.17296627163887024,
      "learning_rate": 9.978942782457159e-05,
      "loss": 0.0312,
      "step": 9691
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.39548447728157043,
      "learning_rate": 9.976764449607899e-05,
      "loss": 0.0394,
      "step": 9692
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.12687164545059204,
      "learning_rate": 9.974586116758641e-05,
      "loss": 0.0137,
      "step": 9693
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.27261054515838623,
      "learning_rate": 9.97240778390938e-05,
      "loss": 0.0443,
      "step": 9694
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.20857729017734528,
      "learning_rate": 9.970229451060121e-05,
      "loss": 0.0204,
      "step": 9695
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.5679025053977966,
      "learning_rate": 9.968051118210861e-05,
      "loss": 0.0403,
      "step": 9696
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.14866706728935242,
      "learning_rate": 9.965872785361602e-05,
      "loss": 0.0349,
      "step": 9697
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.14466707408428192,
      "learning_rate": 9.963694452512343e-05,
      "loss": 0.0402,
      "step": 9698
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.25534358620643616,
      "learning_rate": 9.961516119663083e-05,
      "loss": 0.0298,
      "step": 9699
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.14934276044368744,
      "learning_rate": 9.959337786813825e-05,
      "loss": 0.0192,
      "step": 9700
    },
    {
      "epoch": 2.72,
      "eval_loss": 0.06544100493192673,
      "eval_runtime": 172.2455,
      "eval_samples_per_second": 15.339,
      "eval_steps_per_second": 0.482,
      "eval_wer": 0.0528758429194764,
      "step": 9700
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.18156644701957703,
      "learning_rate": 9.957159453964565e-05,
      "loss": 0.0238,
      "step": 9701
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.18324360251426697,
      "learning_rate": 9.954981121115307e-05,
      "loss": 0.0171,
      "step": 9702
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.2788938283920288,
      "learning_rate": 9.952802788266045e-05,
      "loss": 0.033,
      "step": 9703
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.14401906728744507,
      "learning_rate": 9.950624455416787e-05,
      "loss": 0.035,
      "step": 9704
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.1703440099954605,
      "learning_rate": 9.948446122567527e-05,
      "loss": 0.0354,
      "step": 9705
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.1695614457130432,
      "learning_rate": 9.946267789718267e-05,
      "loss": 0.0232,
      "step": 9706
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.1452748328447342,
      "learning_rate": 9.944089456869009e-05,
      "loss": 0.0365,
      "step": 9707
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.137661412358284,
      "learning_rate": 9.941911124019749e-05,
      "loss": 0.0206,
      "step": 9708
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.15536989271640778,
      "learning_rate": 9.939732791170491e-05,
      "loss": 0.0115,
      "step": 9709
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.16155122220516205,
      "learning_rate": 9.937554458321231e-05,
      "loss": 0.0173,
      "step": 9710
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.1286640614271164,
      "learning_rate": 9.935376125471971e-05,
      "loss": 0.0109,
      "step": 9711
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.09042353928089142,
      "learning_rate": 9.933197792622711e-05,
      "loss": 0.0192,
      "step": 9712
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.30480679869651794,
      "learning_rate": 9.931019459773452e-05,
      "loss": 0.0401,
      "step": 9713
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.13994856178760529,
      "learning_rate": 9.928841126924193e-05,
      "loss": 0.0269,
      "step": 9714
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.1605333536863327,
      "learning_rate": 9.926662794074933e-05,
      "loss": 0.0171,
      "step": 9715
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.18037934601306915,
      "learning_rate": 9.924484461225675e-05,
      "loss": 0.0551,
      "step": 9716
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.18337762355804443,
      "learning_rate": 9.922306128376415e-05,
      "loss": 0.0303,
      "step": 9717
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.222490131855011,
      "learning_rate": 9.920127795527157e-05,
      "loss": 0.0277,
      "step": 9718
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.16933460533618927,
      "learning_rate": 9.917949462677897e-05,
      "loss": 0.03,
      "step": 9719
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.12388930469751358,
      "learning_rate": 9.915771129828636e-05,
      "loss": 0.0234,
      "step": 9720
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.28199324011802673,
      "learning_rate": 9.913592796979377e-05,
      "loss": 0.0672,
      "step": 9721
    },
    {
      "epoch": 2.72,
      "grad_norm": 0.3481646776199341,
      "learning_rate": 9.911414464130117e-05,
      "loss": 0.0598,
      "step": 9722
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.23571084439754486,
      "learning_rate": 9.909236131280859e-05,
      "loss": 0.0095,
      "step": 9723
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.3537168800830841,
      "learning_rate": 9.907057798431599e-05,
      "loss": 0.0665,
      "step": 9724
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.17092984914779663,
      "learning_rate": 9.904879465582341e-05,
      "loss": 0.0517,
      "step": 9725
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.26184549927711487,
      "learning_rate": 9.902701132733081e-05,
      "loss": 0.0232,
      "step": 9726
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.17924605309963226,
      "learning_rate": 9.900522799883823e-05,
      "loss": 0.0643,
      "step": 9727
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.14024503529071808,
      "learning_rate": 9.898344467034561e-05,
      "loss": 0.021,
      "step": 9728
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.14938156306743622,
      "learning_rate": 9.896166134185302e-05,
      "loss": 0.0197,
      "step": 9729
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.15863540768623352,
      "learning_rate": 9.893987801336043e-05,
      "loss": 0.0265,
      "step": 9730
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.33292752504348755,
      "learning_rate": 9.891809468486783e-05,
      "loss": 0.048,
      "step": 9731
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.4337691366672516,
      "learning_rate": 9.889631135637525e-05,
      "loss": 0.0566,
      "step": 9732
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.15569601953029633,
      "learning_rate": 9.887452802788265e-05,
      "loss": 0.0343,
      "step": 9733
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.11315982788801193,
      "learning_rate": 9.885274469939007e-05,
      "loss": 0.0308,
      "step": 9734
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.21501414477825165,
      "learning_rate": 9.883096137089747e-05,
      "loss": 0.0294,
      "step": 9735
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.6816851496696472,
      "learning_rate": 9.880917804240486e-05,
      "loss": 0.0527,
      "step": 9736
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.10257715731859207,
      "learning_rate": 9.878739471391227e-05,
      "loss": 0.0181,
      "step": 9737
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.22596663236618042,
      "learning_rate": 9.876561138541967e-05,
      "loss": 0.0507,
      "step": 9738
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.15350668132305145,
      "learning_rate": 9.874382805692709e-05,
      "loss": 0.0222,
      "step": 9739
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.1382877379655838,
      "learning_rate": 9.872204472843449e-05,
      "loss": 0.0221,
      "step": 9740
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.1680804193019867,
      "learning_rate": 9.870026139994191e-05,
      "loss": 0.0207,
      "step": 9741
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.10924454033374786,
      "learning_rate": 9.867847807144931e-05,
      "loss": 0.0159,
      "step": 9742
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.14978227019309998,
      "learning_rate": 9.865669474295673e-05,
      "loss": 0.0271,
      "step": 9743
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.054363761097192764,
      "learning_rate": 9.863491141446413e-05,
      "loss": 0.0062,
      "step": 9744
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.2443103790283203,
      "learning_rate": 9.861312808597152e-05,
      "loss": 0.0227,
      "step": 9745
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.39266595244407654,
      "learning_rate": 9.859134475747893e-05,
      "loss": 0.0473,
      "step": 9746
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.14035971462726593,
      "learning_rate": 9.856956142898633e-05,
      "loss": 0.0127,
      "step": 9747
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.4036337435245514,
      "learning_rate": 9.854777810049375e-05,
      "loss": 0.0435,
      "step": 9748
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.41587933897972107,
      "learning_rate": 9.852599477200115e-05,
      "loss": 0.0627,
      "step": 9749
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.2512413561344147,
      "learning_rate": 9.850421144350857e-05,
      "loss": 0.0353,
      "step": 9750
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.08955854177474976,
      "learning_rate": 9.848242811501597e-05,
      "loss": 0.0128,
      "step": 9751
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.3437555134296417,
      "learning_rate": 9.846064478652338e-05,
      "loss": 0.0379,
      "step": 9752
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.23558172583580017,
      "learning_rate": 9.843886145803077e-05,
      "loss": 0.0188,
      "step": 9753
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.14834444224834442,
      "learning_rate": 9.841707812953817e-05,
      "loss": 0.0198,
      "step": 9754
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.2380545735359192,
      "learning_rate": 9.839529480104559e-05,
      "loss": 0.0405,
      "step": 9755
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.17086975276470184,
      "learning_rate": 9.837351147255299e-05,
      "loss": 0.0173,
      "step": 9756
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.1678130030632019,
      "learning_rate": 9.835172814406041e-05,
      "loss": 0.0554,
      "step": 9757
    },
    {
      "epoch": 2.73,
      "grad_norm": 0.22956490516662598,
      "learning_rate": 9.832994481556781e-05,
      "loss": 0.0492,
      "step": 9758
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.32845646142959595,
      "learning_rate": 9.830816148707523e-05,
      "loss": 0.0203,
      "step": 9759
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.1666456013917923,
      "learning_rate": 9.828637815858263e-05,
      "loss": 0.0225,
      "step": 9760
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.5712869167327881,
      "learning_rate": 9.826459483009002e-05,
      "loss": 0.0367,
      "step": 9761
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.14249315857887268,
      "learning_rate": 9.824281150159743e-05,
      "loss": 0.0315,
      "step": 9762
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.17328090965747833,
      "learning_rate": 9.822102817310483e-05,
      "loss": 0.0456,
      "step": 9763
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.21348726749420166,
      "learning_rate": 9.819924484461225e-05,
      "loss": 0.0288,
      "step": 9764
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.10685846954584122,
      "learning_rate": 9.817746151611965e-05,
      "loss": 0.0095,
      "step": 9765
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.15465047955513,
      "learning_rate": 9.815567818762707e-05,
      "loss": 0.0123,
      "step": 9766
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.1619904637336731,
      "learning_rate": 9.813389485913447e-05,
      "loss": 0.0284,
      "step": 9767
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.17514252662658691,
      "learning_rate": 9.811211153064188e-05,
      "loss": 0.0259,
      "step": 9768
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.11202779412269592,
      "learning_rate": 9.809032820214929e-05,
      "loss": 0.0058,
      "step": 9769
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.14131128787994385,
      "learning_rate": 9.806854487365668e-05,
      "loss": 0.0265,
      "step": 9770
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.13481932878494263,
      "learning_rate": 9.804676154516409e-05,
      "loss": 0.0099,
      "step": 9771
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.13560104370117188,
      "learning_rate": 9.802497821667149e-05,
      "loss": 0.0214,
      "step": 9772
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.20809423923492432,
      "learning_rate": 9.800319488817891e-05,
      "loss": 0.0188,
      "step": 9773
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.9912393689155579,
      "learning_rate": 9.798141155968631e-05,
      "loss": 0.0329,
      "step": 9774
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.13122260570526123,
      "learning_rate": 9.795962823119373e-05,
      "loss": 0.0254,
      "step": 9775
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.2217964380979538,
      "learning_rate": 9.793784490270113e-05,
      "loss": 0.0379,
      "step": 9776
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.14631696045398712,
      "learning_rate": 9.791606157420854e-05,
      "loss": 0.0136,
      "step": 9777
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.14798349142074585,
      "learning_rate": 9.789427824571593e-05,
      "loss": 0.0252,
      "step": 9778
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.33313241600990295,
      "learning_rate": 9.787249491722333e-05,
      "loss": 0.0517,
      "step": 9779
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.13550691306591034,
      "learning_rate": 9.785071158873075e-05,
      "loss": 0.0424,
      "step": 9780
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.161769837141037,
      "learning_rate": 9.782892826023815e-05,
      "loss": 0.0251,
      "step": 9781
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.20102129876613617,
      "learning_rate": 9.780714493174557e-05,
      "loss": 0.0242,
      "step": 9782
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.21478193998336792,
      "learning_rate": 9.778536160325297e-05,
      "loss": 0.0418,
      "step": 9783
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.1006184071302414,
      "learning_rate": 9.776357827476038e-05,
      "loss": 0.0059,
      "step": 9784
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.1408654749393463,
      "learning_rate": 9.774179494626779e-05,
      "loss": 0.0288,
      "step": 9785
    },
    {
      "epoch": 2.74,
      "grad_norm": 1.0380393266677856,
      "learning_rate": 9.77200116177752e-05,
      "loss": 0.063,
      "step": 9786
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.16010983288288116,
      "learning_rate": 9.769822828928259e-05,
      "loss": 0.02,
      "step": 9787
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.18031512200832367,
      "learning_rate": 9.767644496078999e-05,
      "loss": 0.0456,
      "step": 9788
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.18960942327976227,
      "learning_rate": 9.765466163229741e-05,
      "loss": 0.0554,
      "step": 9789
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.22369275987148285,
      "learning_rate": 9.763287830380481e-05,
      "loss": 0.0303,
      "step": 9790
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.15429820120334625,
      "learning_rate": 9.761109497531223e-05,
      "loss": 0.0222,
      "step": 9791
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.24441908299922943,
      "learning_rate": 9.758931164681963e-05,
      "loss": 0.0301,
      "step": 9792
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.1729574203491211,
      "learning_rate": 9.756752831832704e-05,
      "loss": 0.0668,
      "step": 9793
    },
    {
      "epoch": 2.74,
      "grad_norm": 0.21075594425201416,
      "learning_rate": 9.754574498983445e-05,
      "loss": 0.024,
      "step": 9794
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.21148234605789185,
      "learning_rate": 9.752396166134183e-05,
      "loss": 0.0256,
      "step": 9795
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.34308138489723206,
      "learning_rate": 9.750217833284925e-05,
      "loss": 0.0259,
      "step": 9796
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.28920894861221313,
      "learning_rate": 9.748039500435665e-05,
      "loss": 0.0535,
      "step": 9797
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.20857101678848267,
      "learning_rate": 9.745861167586407e-05,
      "loss": 0.0288,
      "step": 9798
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.4847179055213928,
      "learning_rate": 9.743682834737147e-05,
      "loss": 0.1031,
      "step": 9799
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.3176250159740448,
      "learning_rate": 9.741504501887889e-05,
      "loss": 0.0339,
      "step": 9800
    },
    {
      "epoch": 2.75,
      "eval_loss": 0.06535837054252625,
      "eval_runtime": 172.9801,
      "eval_samples_per_second": 15.273,
      "eval_steps_per_second": 0.48,
      "eval_wer": 0.05255850852836176,
      "step": 9800
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.15972170233726501,
      "learning_rate": 9.739326169038629e-05,
      "loss": 0.0243,
      "step": 9801
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.12350618839263916,
      "learning_rate": 9.737147836189369e-05,
      "loss": 0.0254,
      "step": 9802
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.20611047744750977,
      "learning_rate": 9.734969503340109e-05,
      "loss": 0.0215,
      "step": 9803
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.20260454714298248,
      "learning_rate": 9.73279117049085e-05,
      "loss": 0.0148,
      "step": 9804
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.17407867312431335,
      "learning_rate": 9.730612837641591e-05,
      "loss": 0.0229,
      "step": 9805
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.07031990587711334,
      "learning_rate": 9.728434504792331e-05,
      "loss": 0.0058,
      "step": 9806
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.32930493354797363,
      "learning_rate": 9.726256171943073e-05,
      "loss": 0.054,
      "step": 9807
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.1787942796945572,
      "learning_rate": 9.724077839093813e-05,
      "loss": 0.0131,
      "step": 9808
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.27124467492103577,
      "learning_rate": 9.721899506244553e-05,
      "loss": 0.0402,
      "step": 9809
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.4225723445415497,
      "learning_rate": 9.719721173395295e-05,
      "loss": 0.0356,
      "step": 9810
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.8168038129806519,
      "learning_rate": 9.717542840546035e-05,
      "loss": 0.0832,
      "step": 9811
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.14170220494270325,
      "learning_rate": 9.715364507696775e-05,
      "loss": 0.046,
      "step": 9812
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.11804317682981491,
      "learning_rate": 9.713186174847515e-05,
      "loss": 0.0194,
      "step": 9813
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.14000113308429718,
      "learning_rate": 9.711007841998257e-05,
      "loss": 0.0108,
      "step": 9814
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.22798004746437073,
      "learning_rate": 9.708829509148997e-05,
      "loss": 0.0558,
      "step": 9815
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.3863897919654846,
      "learning_rate": 9.706651176299739e-05,
      "loss": 0.0656,
      "step": 9816
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.1709229052066803,
      "learning_rate": 9.704472843450479e-05,
      "loss": 0.0445,
      "step": 9817
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.29326125979423523,
      "learning_rate": 9.702294510601219e-05,
      "loss": 0.0191,
      "step": 9818
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.17266404628753662,
      "learning_rate": 9.70011617775196e-05,
      "loss": 0.0416,
      "step": 9819
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.11591082066297531,
      "learning_rate": 9.6979378449027e-05,
      "loss": 0.0281,
      "step": 9820
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.18259991705417633,
      "learning_rate": 9.695759512053441e-05,
      "loss": 0.0514,
      "step": 9821
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.3412175178527832,
      "learning_rate": 9.693581179204181e-05,
      "loss": 0.0274,
      "step": 9822
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.44265857338905334,
      "learning_rate": 9.691402846354923e-05,
      "loss": 0.0585,
      "step": 9823
    },
    {
      "epoch": 2.75,
      "grad_norm": 1.0985523462295532,
      "learning_rate": 9.689224513505663e-05,
      "loss": 0.1023,
      "step": 9824
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.15022225677967072,
      "learning_rate": 9.687046180656403e-05,
      "loss": 0.0229,
      "step": 9825
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.22923888266086578,
      "learning_rate": 9.684867847807145e-05,
      "loss": 0.0252,
      "step": 9826
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.22944022715091705,
      "learning_rate": 9.682689514957885e-05,
      "loss": 0.0432,
      "step": 9827
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.15965251624584198,
      "learning_rate": 9.680511182108625e-05,
      "loss": 0.0203,
      "step": 9828
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.14478030800819397,
      "learning_rate": 9.678332849259365e-05,
      "loss": 0.0173,
      "step": 9829
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.19089257717132568,
      "learning_rate": 9.676154516410107e-05,
      "loss": 0.0507,
      "step": 9830
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.2071600705385208,
      "learning_rate": 9.673976183560847e-05,
      "loss": 0.0275,
      "step": 9831
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.12670080363750458,
      "learning_rate": 9.671797850711587e-05,
      "loss": 0.0268,
      "step": 9832
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.28578394651412964,
      "learning_rate": 9.669619517862329e-05,
      "loss": 0.0236,
      "step": 9833
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.11672864854335785,
      "learning_rate": 9.667441185013069e-05,
      "loss": 0.015,
      "step": 9834
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.17410056293010712,
      "learning_rate": 9.66526285216381e-05,
      "loss": 0.024,
      "step": 9835
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.17460455000400543,
      "learning_rate": 9.663084519314551e-05,
      "loss": 0.0511,
      "step": 9836
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.2261110544204712,
      "learning_rate": 9.660906186465291e-05,
      "loss": 0.0241,
      "step": 9837
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.17918723821640015,
      "learning_rate": 9.658727853616031e-05,
      "loss": 0.0365,
      "step": 9838
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.2623887062072754,
      "learning_rate": 9.656549520766771e-05,
      "loss": 0.0208,
      "step": 9839
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.2097102701663971,
      "learning_rate": 9.654371187917513e-05,
      "loss": 0.0419,
      "step": 9840
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.2841688394546509,
      "learning_rate": 9.652192855068253e-05,
      "loss": 0.0349,
      "step": 9841
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.35719817876815796,
      "learning_rate": 9.650014522218995e-05,
      "loss": 0.0501,
      "step": 9842
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.2605283856391907,
      "learning_rate": 9.647836189369735e-05,
      "loss": 0.0251,
      "step": 9843
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.14420323073863983,
      "learning_rate": 9.645657856520476e-05,
      "loss": 0.0293,
      "step": 9844
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.14951097965240479,
      "learning_rate": 9.643479523671215e-05,
      "loss": 0.0144,
      "step": 9845
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.19805797934532166,
      "learning_rate": 9.641301190821957e-05,
      "loss": 0.0307,
      "step": 9846
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.2551438808441162,
      "learning_rate": 9.639122857972697e-05,
      "loss": 0.0241,
      "step": 9847
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.25468921661376953,
      "learning_rate": 9.636944525123437e-05,
      "loss": 0.0167,
      "step": 9848
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.20390744507312775,
      "learning_rate": 9.634766192274179e-05,
      "loss": 0.0268,
      "step": 9849
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.3524349629878998,
      "learning_rate": 9.632587859424919e-05,
      "loss": 0.0479,
      "step": 9850
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.11931971460580826,
      "learning_rate": 9.63040952657566e-05,
      "loss": 0.0196,
      "step": 9851
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.11320266127586365,
      "learning_rate": 9.628231193726401e-05,
      "loss": 0.0198,
      "step": 9852
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.18644726276397705,
      "learning_rate": 9.626052860877142e-05,
      "loss": 0.0314,
      "step": 9853
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.21257685124874115,
      "learning_rate": 9.623874528027881e-05,
      "loss": 0.0332,
      "step": 9854
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.14934685826301575,
      "learning_rate": 9.621696195178621e-05,
      "loss": 0.0152,
      "step": 9855
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.2494310587644577,
      "learning_rate": 9.619517862329363e-05,
      "loss": 0.0288,
      "step": 9856
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.20922982692718506,
      "learning_rate": 9.617339529480103e-05,
      "loss": 0.0203,
      "step": 9857
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.1295871138572693,
      "learning_rate": 9.615161196630845e-05,
      "loss": 0.0353,
      "step": 9858
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.2067524790763855,
      "learning_rate": 9.612982863781585e-05,
      "loss": 0.0206,
      "step": 9859
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.41578662395477295,
      "learning_rate": 9.610804530932326e-05,
      "loss": 0.0397,
      "step": 9860
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.7980248332023621,
      "learning_rate": 9.608626198083067e-05,
      "loss": 0.0389,
      "step": 9861
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.68930983543396,
      "learning_rate": 9.606447865233806e-05,
      "loss": 0.0334,
      "step": 9862
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.1558084785938263,
      "learning_rate": 9.604269532384547e-05,
      "loss": 0.0362,
      "step": 9863
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.19075115025043488,
      "learning_rate": 9.602091199535287e-05,
      "loss": 0.022,
      "step": 9864
    },
    {
      "epoch": 2.76,
      "grad_norm": 0.09984584152698517,
      "learning_rate": 9.599912866686029e-05,
      "loss": 0.021,
      "step": 9865
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.106749027967453,
      "learning_rate": 9.597734533836769e-05,
      "loss": 0.0121,
      "step": 9866
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.14892657101154327,
      "learning_rate": 9.59555620098751e-05,
      "loss": 0.0334,
      "step": 9867
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.20626890659332275,
      "learning_rate": 9.593377868138251e-05,
      "loss": 0.0428,
      "step": 9868
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.252817302942276,
      "learning_rate": 9.591199535288992e-05,
      "loss": 0.039,
      "step": 9869
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.36271458864212036,
      "learning_rate": 9.589021202439731e-05,
      "loss": 0.051,
      "step": 9870
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.13063883781433105,
      "learning_rate": 9.586842869590471e-05,
      "loss": 0.0297,
      "step": 9871
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.33131691813468933,
      "learning_rate": 9.584664536741213e-05,
      "loss": 0.0642,
      "step": 9872
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.2581499218940735,
      "learning_rate": 9.582486203891953e-05,
      "loss": 0.0244,
      "step": 9873
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.48095014691352844,
      "learning_rate": 9.580307871042695e-05,
      "loss": 0.0561,
      "step": 9874
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.10437113791704178,
      "learning_rate": 9.578129538193435e-05,
      "loss": 0.011,
      "step": 9875
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.17106114327907562,
      "learning_rate": 9.575951205344176e-05,
      "loss": 0.0344,
      "step": 9876
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.1396741271018982,
      "learning_rate": 9.573772872494917e-05,
      "loss": 0.0153,
      "step": 9877
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.09827326983213425,
      "learning_rate": 9.571594539645658e-05,
      "loss": 0.0114,
      "step": 9878
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.2109714299440384,
      "learning_rate": 9.569416206796397e-05,
      "loss": 0.0522,
      "step": 9879
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.173771470785141,
      "learning_rate": 9.567237873947137e-05,
      "loss": 0.019,
      "step": 9880
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.19745387136936188,
      "learning_rate": 9.565059541097879e-05,
      "loss": 0.0363,
      "step": 9881
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.19074618816375732,
      "learning_rate": 9.562881208248619e-05,
      "loss": 0.0202,
      "step": 9882
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.18047533929347992,
      "learning_rate": 9.56070287539936e-05,
      "loss": 0.0228,
      "step": 9883
    },
    {
      "epoch": 2.77,
      "grad_norm": 1.030137062072754,
      "learning_rate": 9.558524542550101e-05,
      "loss": 0.0524,
      "step": 9884
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.11993296444416046,
      "learning_rate": 9.556346209700842e-05,
      "loss": 0.0194,
      "step": 9885
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.5253522992134094,
      "learning_rate": 9.554167876851583e-05,
      "loss": 0.084,
      "step": 9886
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.158097043633461,
      "learning_rate": 9.551989544002321e-05,
      "loss": 0.024,
      "step": 9887
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.15846343338489532,
      "learning_rate": 9.549811211153063e-05,
      "loss": 0.0305,
      "step": 9888
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.3587343394756317,
      "learning_rate": 9.547632878303803e-05,
      "loss": 0.0319,
      "step": 9889
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.34023404121398926,
      "learning_rate": 9.545454545454545e-05,
      "loss": 0.0451,
      "step": 9890
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.18346081674098969,
      "learning_rate": 9.543276212605285e-05,
      "loss": 0.0301,
      "step": 9891
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.18042628467082977,
      "learning_rate": 9.541097879756027e-05,
      "loss": 0.019,
      "step": 9892
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.2908584177494049,
      "learning_rate": 9.538919546906767e-05,
      "loss": 0.037,
      "step": 9893
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.20065441727638245,
      "learning_rate": 9.536741214057508e-05,
      "loss": 0.0529,
      "step": 9894
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.2761728763580322,
      "learning_rate": 9.534562881208247e-05,
      "loss": 0.0349,
      "step": 9895
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.09754320979118347,
      "learning_rate": 9.532384548358987e-05,
      "loss": 0.0237,
      "step": 9896
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.08643777668476105,
      "learning_rate": 9.530206215509729e-05,
      "loss": 0.0102,
      "step": 9897
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.21285362541675568,
      "learning_rate": 9.528027882660469e-05,
      "loss": 0.0262,
      "step": 9898
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.27952781319618225,
      "learning_rate": 9.52584954981121e-05,
      "loss": 0.0437,
      "step": 9899
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.23723594844341278,
      "learning_rate": 9.523671216961951e-05,
      "loss": 0.0269,
      "step": 9900
    },
    {
      "epoch": 2.77,
      "eval_loss": 0.06513264030218124,
      "eval_runtime": 172.7853,
      "eval_samples_per_second": 15.291,
      "eval_steps_per_second": 0.48,
      "eval_wer": 0.05452201507338358,
      "step": 9900
    },
    {
      "epoch": 2.77,
      "grad_norm": 0.12012624740600586,
      "learning_rate": 9.521492884112692e-05,
      "loss": 0.0129,
      "step": 9901
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.12597468495368958,
      "learning_rate": 9.519314551263433e-05,
      "loss": 0.0144,
      "step": 9902
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.22844798862934113,
      "learning_rate": 9.517136218414174e-05,
      "loss": 0.0311,
      "step": 9903
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.22036799788475037,
      "learning_rate": 9.514957885564913e-05,
      "loss": 0.024,
      "step": 9904
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.11199474334716797,
      "learning_rate": 9.512779552715653e-05,
      "loss": 0.0173,
      "step": 9905
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.19664767384529114,
      "learning_rate": 9.510601219866395e-05,
      "loss": 0.0235,
      "step": 9906
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.1423540711402893,
      "learning_rate": 9.508422887017135e-05,
      "loss": 0.0193,
      "step": 9907
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.24240493774414062,
      "learning_rate": 9.506244554167877e-05,
      "loss": 0.043,
      "step": 9908
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.08278825134038925,
      "learning_rate": 9.504066221318617e-05,
      "loss": 0.007,
      "step": 9909
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.29323580861091614,
      "learning_rate": 9.501887888469358e-05,
      "loss": 0.0087,
      "step": 9910
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.4017893970012665,
      "learning_rate": 9.499709555620098e-05,
      "loss": 0.0932,
      "step": 9911
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.1800258457660675,
      "learning_rate": 9.497531222770837e-05,
      "loss": 0.0306,
      "step": 9912
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.2403409481048584,
      "learning_rate": 9.495352889921579e-05,
      "loss": 0.0304,
      "step": 9913
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.16245976090431213,
      "learning_rate": 9.493174557072319e-05,
      "loss": 0.0376,
      "step": 9914
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.3336430788040161,
      "learning_rate": 9.49099622422306e-05,
      "loss": 0.0456,
      "step": 9915
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.22740331292152405,
      "learning_rate": 9.488817891373801e-05,
      "loss": 0.0495,
      "step": 9916
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.12700539827346802,
      "learning_rate": 9.486639558524542e-05,
      "loss": 0.0271,
      "step": 9917
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.17846126854419708,
      "learning_rate": 9.484461225675283e-05,
      "loss": 0.0245,
      "step": 9918
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.21931718289852142,
      "learning_rate": 9.482282892826024e-05,
      "loss": 0.028,
      "step": 9919
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.13001762330532074,
      "learning_rate": 9.480104559976764e-05,
      "loss": 0.0267,
      "step": 9920
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.0935249924659729,
      "learning_rate": 9.477926227127503e-05,
      "loss": 0.0084,
      "step": 9921
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.1884405016899109,
      "learning_rate": 9.475747894278245e-05,
      "loss": 0.0348,
      "step": 9922
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6487173438072205,
      "learning_rate": 9.473569561428985e-05,
      "loss": 0.0627,
      "step": 9923
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.6683019399642944,
      "learning_rate": 9.471391228579727e-05,
      "loss": 0.1009,
      "step": 9924
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.27293214201927185,
      "learning_rate": 9.469212895730467e-05,
      "loss": 0.0397,
      "step": 9925
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.11576690524816513,
      "learning_rate": 9.467034562881208e-05,
      "loss": 0.0209,
      "step": 9926
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.18524780869483948,
      "learning_rate": 9.464856230031949e-05,
      "loss": 0.0183,
      "step": 9927
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.09239240735769272,
      "learning_rate": 9.46267789718269e-05,
      "loss": 0.0166,
      "step": 9928
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.15511853992938995,
      "learning_rate": 9.460499564333429e-05,
      "loss": 0.0145,
      "step": 9929
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.14727936685085297,
      "learning_rate": 9.458321231484169e-05,
      "loss": 0.0334,
      "step": 9930
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.13087564706802368,
      "learning_rate": 9.456142898634911e-05,
      "loss": 0.0186,
      "step": 9931
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.26526376605033875,
      "learning_rate": 9.453964565785651e-05,
      "loss": 0.0416,
      "step": 9932
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.14612026512622833,
      "learning_rate": 9.451786232936392e-05,
      "loss": 0.0353,
      "step": 9933
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.11424769461154938,
      "learning_rate": 9.449607900087133e-05,
      "loss": 0.0173,
      "step": 9934
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.3486233353614807,
      "learning_rate": 9.447429567237874e-05,
      "loss": 0.0423,
      "step": 9935
    },
    {
      "epoch": 2.78,
      "grad_norm": 0.3734152019023895,
      "learning_rate": 9.445251234388614e-05,
      "loss": 0.0559,
      "step": 9936
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.17593275010585785,
      "learning_rate": 9.443072901539353e-05,
      "loss": 0.0271,
      "step": 9937
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.11582001298666,
      "learning_rate": 9.440894568690095e-05,
      "loss": 0.018,
      "step": 9938
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.19473326206207275,
      "learning_rate": 9.438716235840835e-05,
      "loss": 0.0179,
      "step": 9939
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.26262950897216797,
      "learning_rate": 9.436537902991577e-05,
      "loss": 0.0442,
      "step": 9940
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.1571267992258072,
      "learning_rate": 9.434359570142317e-05,
      "loss": 0.0217,
      "step": 9941
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.15260431170463562,
      "learning_rate": 9.432181237293058e-05,
      "loss": 0.0291,
      "step": 9942
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.47861120104789734,
      "learning_rate": 9.430002904443799e-05,
      "loss": 0.0485,
      "step": 9943
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.1851552128791809,
      "learning_rate": 9.427824571594539e-05,
      "loss": 0.0232,
      "step": 9944
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.10314036905765533,
      "learning_rate": 9.42564623874528e-05,
      "loss": 0.0085,
      "step": 9945
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.19215813279151917,
      "learning_rate": 9.423467905896019e-05,
      "loss": 0.0352,
      "step": 9946
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.23917482793331146,
      "learning_rate": 9.421289573046761e-05,
      "loss": 0.0362,
      "step": 9947
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.09392985701560974,
      "learning_rate": 9.419111240197501e-05,
      "loss": 0.0118,
      "step": 9948
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.3618003726005554,
      "learning_rate": 9.416932907348242e-05,
      "loss": 0.031,
      "step": 9949
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.34358999133110046,
      "learning_rate": 9.414754574498983e-05,
      "loss": 0.0343,
      "step": 9950
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.15163858234882355,
      "learning_rate": 9.412576241649724e-05,
      "loss": 0.028,
      "step": 9951
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.2636355459690094,
      "learning_rate": 9.410397908800464e-05,
      "loss": 0.038,
      "step": 9952
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.1638144701719284,
      "learning_rate": 9.408219575951205e-05,
      "loss": 0.043,
      "step": 9953
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.26639917492866516,
      "learning_rate": 9.406041243101945e-05,
      "loss": 0.0199,
      "step": 9954
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.09262339770793915,
      "learning_rate": 9.403862910252685e-05,
      "loss": 0.0321,
      "step": 9955
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.15528427064418793,
      "learning_rate": 9.401684577403427e-05,
      "loss": 0.0292,
      "step": 9956
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.1671166718006134,
      "learning_rate": 9.399506244554167e-05,
      "loss": 0.0283,
      "step": 9957
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.18802595138549805,
      "learning_rate": 9.397327911704908e-05,
      "loss": 0.0239,
      "step": 9958
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.2516937851905823,
      "learning_rate": 9.395149578855649e-05,
      "loss": 0.0391,
      "step": 9959
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.15937843918800354,
      "learning_rate": 9.392971246006389e-05,
      "loss": 0.0234,
      "step": 9960
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.15805426239967346,
      "learning_rate": 9.39079291315713e-05,
      "loss": 0.0198,
      "step": 9961
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.14288310706615448,
      "learning_rate": 9.388614580307869e-05,
      "loss": 0.0154,
      "step": 9962
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.14887064695358276,
      "learning_rate": 9.386436247458611e-05,
      "loss": 0.0297,
      "step": 9963
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.12367665767669678,
      "learning_rate": 9.384257914609351e-05,
      "loss": 0.0191,
      "step": 9964
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.22056101262569427,
      "learning_rate": 9.382079581760093e-05,
      "loss": 0.0553,
      "step": 9965
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.28778281807899475,
      "learning_rate": 9.379901248910833e-05,
      "loss": 0.0184,
      "step": 9966
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.25621506571769714,
      "learning_rate": 9.377722916061573e-05,
      "loss": 0.0397,
      "step": 9967
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.2069067806005478,
      "learning_rate": 9.375544583212314e-05,
      "loss": 0.0365,
      "step": 9968
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.1317274570465088,
      "learning_rate": 9.373366250363055e-05,
      "loss": 0.0079,
      "step": 9969
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.27876484394073486,
      "learning_rate": 9.371187917513796e-05,
      "loss": 0.0395,
      "step": 9970
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.08757690340280533,
      "learning_rate": 9.369009584664535e-05,
      "loss": 0.0067,
      "step": 9971
    },
    {
      "epoch": 2.79,
      "grad_norm": 0.6249860525131226,
      "learning_rate": 9.366831251815277e-05,
      "loss": 0.089,
      "step": 9972
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.34984278678894043,
      "learning_rate": 9.364652918966017e-05,
      "loss": 0.0401,
      "step": 9973
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.43731147050857544,
      "learning_rate": 9.362474586116757e-05,
      "loss": 0.028,
      "step": 9974
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.1547577828168869,
      "learning_rate": 9.360296253267499e-05,
      "loss": 0.0373,
      "step": 9975
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.17076319456100464,
      "learning_rate": 9.358117920418239e-05,
      "loss": 0.0161,
      "step": 9976
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.25175294280052185,
      "learning_rate": 9.35593958756898e-05,
      "loss": 0.0315,
      "step": 9977
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.18722984194755554,
      "learning_rate": 9.35376125471972e-05,
      "loss": 0.0338,
      "step": 9978
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.13815832138061523,
      "learning_rate": 9.351582921870461e-05,
      "loss": 0.0336,
      "step": 9979
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.24177730083465576,
      "learning_rate": 9.349404589021201e-05,
      "loss": 0.0125,
      "step": 9980
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.23274651169776917,
      "learning_rate": 9.347226256171943e-05,
      "loss": 0.0137,
      "step": 9981
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.23575153946876526,
      "learning_rate": 9.345047923322683e-05,
      "loss": 0.0276,
      "step": 9982
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.18063616752624512,
      "learning_rate": 9.342869590473423e-05,
      "loss": 0.0248,
      "step": 9983
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.09067269414663315,
      "learning_rate": 9.340691257624164e-05,
      "loss": 0.0078,
      "step": 9984
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.4607202112674713,
      "learning_rate": 9.338512924774905e-05,
      "loss": 0.0583,
      "step": 9985
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.5397233963012695,
      "learning_rate": 9.336334591925646e-05,
      "loss": 0.0291,
      "step": 9986
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.5091589093208313,
      "learning_rate": 9.334156259076386e-05,
      "loss": 0.0172,
      "step": 9987
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.3968515694141388,
      "learning_rate": 9.331977926227127e-05,
      "loss": 0.0471,
      "step": 9988
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.1830630898475647,
      "learning_rate": 9.329799593377867e-05,
      "loss": 0.0427,
      "step": 9989
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.3569672107696533,
      "learning_rate": 9.327621260528607e-05,
      "loss": 0.0459,
      "step": 9990
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.2139451652765274,
      "learning_rate": 9.325442927679349e-05,
      "loss": 0.0292,
      "step": 9991
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.10762762278318405,
      "learning_rate": 9.323264594830089e-05,
      "loss": 0.015,
      "step": 9992
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.11624657362699509,
      "learning_rate": 9.32108626198083e-05,
      "loss": 0.0206,
      "step": 9993
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.17365960776805878,
      "learning_rate": 9.31890792913157e-05,
      "loss": 0.0222,
      "step": 9994
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.261581152677536,
      "learning_rate": 9.316729596282312e-05,
      "loss": 0.036,
      "step": 9995
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.2203337401151657,
      "learning_rate": 9.314551263433051e-05,
      "loss": 0.0136,
      "step": 9996
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.17708922922611237,
      "learning_rate": 9.312372930583791e-05,
      "loss": 0.0214,
      "step": 9997
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.46704667806625366,
      "learning_rate": 9.310194597734533e-05,
      "loss": 0.0231,
      "step": 9998
    },
    {
      "epoch": 2.8,
      "grad_norm": 1.2240958213806152,
      "learning_rate": 9.308016264885273e-05,
      "loss": 0.1249,
      "step": 9999
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.14940299093723297,
      "learning_rate": 9.305837932036015e-05,
      "loss": 0.0263,
      "step": 10000
    },
    {
      "epoch": 2.8,
      "eval_loss": 0.0635780468583107,
      "eval_runtime": 174.5978,
      "eval_samples_per_second": 15.132,
      "eval_steps_per_second": 0.475,
      "eval_wer": 0.05210234034113447,
      "step": 10000
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.12996631860733032,
      "learning_rate": 9.303659599186755e-05,
      "loss": 0.0114,
      "step": 10001
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.21858258545398712,
      "learning_rate": 9.301481266337496e-05,
      "loss": 0.0242,
      "step": 10002
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.294963538646698,
      "learning_rate": 9.299302933488236e-05,
      "loss": 0.0351,
      "step": 10003
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.227836474776268,
      "learning_rate": 9.297124600638977e-05,
      "loss": 0.0261,
      "step": 10004
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.16494819521903992,
      "learning_rate": 9.294946267789717e-05,
      "loss": 0.0113,
      "step": 10005
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.17613999545574188,
      "learning_rate": 9.292767934940457e-05,
      "loss": 0.0292,
      "step": 10006
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.26520660519599915,
      "learning_rate": 9.290589602091199e-05,
      "loss": 0.0363,
      "step": 10007
    },
    {
      "epoch": 2.8,
      "grad_norm": 0.12614870071411133,
      "learning_rate": 9.288411269241939e-05,
      "loss": 0.0142,
      "step": 10008
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.09142663329839706,
      "learning_rate": 9.28623293639268e-05,
      "loss": 0.0099,
      "step": 10009
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.14355088770389557,
      "learning_rate": 9.28405460354342e-05,
      "loss": 0.0149,
      "step": 10010
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.3695223033428192,
      "learning_rate": 9.281876270694162e-05,
      "loss": 0.045,
      "step": 10011
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.20139425992965698,
      "learning_rate": 9.279697937844902e-05,
      "loss": 0.024,
      "step": 10012
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.13360290229320526,
      "learning_rate": 9.277519604995641e-05,
      "loss": 0.0289,
      "step": 10013
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.09023560583591461,
      "learning_rate": 9.275341272146383e-05,
      "loss": 0.0119,
      "step": 10014
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.18278385698795319,
      "learning_rate": 9.273162939297123e-05,
      "loss": 0.0371,
      "step": 10015
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.11741407215595245,
      "learning_rate": 9.270984606447865e-05,
      "loss": 0.0289,
      "step": 10016
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.07115080207586288,
      "learning_rate": 9.268806273598605e-05,
      "loss": 0.0134,
      "step": 10017
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.10763169080018997,
      "learning_rate": 9.266627940749346e-05,
      "loss": 0.0105,
      "step": 10018
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.32645392417907715,
      "learning_rate": 9.264449607900087e-05,
      "loss": 0.0894,
      "step": 10019
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.1421048790216446,
      "learning_rate": 9.262271275050828e-05,
      "loss": 0.0372,
      "step": 10020
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.1720348596572876,
      "learning_rate": 9.260092942201567e-05,
      "loss": 0.0672,
      "step": 10021
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.20427314937114716,
      "learning_rate": 9.257914609352307e-05,
      "loss": 0.0172,
      "step": 10022
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.11343787610530853,
      "learning_rate": 9.255736276503049e-05,
      "loss": 0.0192,
      "step": 10023
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.4640180170536041,
      "learning_rate": 9.253557943653789e-05,
      "loss": 0.0637,
      "step": 10024
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.1278645247220993,
      "learning_rate": 9.25137961080453e-05,
      "loss": 0.0191,
      "step": 10025
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.19604477286338806,
      "learning_rate": 9.24920127795527e-05,
      "loss": 0.0251,
      "step": 10026
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.1511717140674591,
      "learning_rate": 9.247022945106012e-05,
      "loss": 0.039,
      "step": 10027
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.20512115955352783,
      "learning_rate": 9.244844612256752e-05,
      "loss": 0.0695,
      "step": 10028
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.1949063390493393,
      "learning_rate": 9.242666279407491e-05,
      "loss": 0.0158,
      "step": 10029
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.17598992586135864,
      "learning_rate": 9.240487946558233e-05,
      "loss": 0.0183,
      "step": 10030
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.21963290870189667,
      "learning_rate": 9.238309613708973e-05,
      "loss": 0.0288,
      "step": 10031
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.16141270101070404,
      "learning_rate": 9.236131280859715e-05,
      "loss": 0.0258,
      "step": 10032
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.1643727570772171,
      "learning_rate": 9.233952948010455e-05,
      "loss": 0.0165,
      "step": 10033
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.14373436570167542,
      "learning_rate": 9.231774615161196e-05,
      "loss": 0.026,
      "step": 10034
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.2980683445930481,
      "learning_rate": 9.229596282311937e-05,
      "loss": 0.0169,
      "step": 10035
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.40177443623542786,
      "learning_rate": 9.227417949462678e-05,
      "loss": 0.0317,
      "step": 10036
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.11083433777093887,
      "learning_rate": 9.225239616613418e-05,
      "loss": 0.0089,
      "step": 10037
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.2458188831806183,
      "learning_rate": 9.223061283764157e-05,
      "loss": 0.0225,
      "step": 10038
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.17202523350715637,
      "learning_rate": 9.220882950914899e-05,
      "loss": 0.0216,
      "step": 10039
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.18563631176948547,
      "learning_rate": 9.218704618065639e-05,
      "loss": 0.0322,
      "step": 10040
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.14713755249977112,
      "learning_rate": 9.21652628521638e-05,
      "loss": 0.0157,
      "step": 10041
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.14732111990451813,
      "learning_rate": 9.21434795236712e-05,
      "loss": 0.0233,
      "step": 10042
    },
    {
      "epoch": 2.81,
      "grad_norm": 0.1042209193110466,
      "learning_rate": 9.212169619517862e-05,
      "loss": 0.0223,
      "step": 10043
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.27547505497932434,
      "learning_rate": 9.209991286668602e-05,
      "loss": 0.0414,
      "step": 10044
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.11535023897886276,
      "learning_rate": 9.207812953819344e-05,
      "loss": 0.011,
      "step": 10045
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.23505526781082153,
      "learning_rate": 9.205634620970083e-05,
      "loss": 0.0336,
      "step": 10046
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.1475103497505188,
      "learning_rate": 9.203456288120823e-05,
      "loss": 0.0205,
      "step": 10047
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.4448813796043396,
      "learning_rate": 9.201277955271565e-05,
      "loss": 0.0419,
      "step": 10048
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.20838221907615662,
      "learning_rate": 9.199099622422305e-05,
      "loss": 0.0225,
      "step": 10049
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.17941521108150482,
      "learning_rate": 9.196921289573046e-05,
      "loss": 0.066,
      "step": 10050
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.15352827310562134,
      "learning_rate": 9.194742956723787e-05,
      "loss": 0.0332,
      "step": 10051
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.24708665907382965,
      "learning_rate": 9.192564623874528e-05,
      "loss": 0.0519,
      "step": 10052
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.11046870797872543,
      "learning_rate": 9.190386291025268e-05,
      "loss": 0.0166,
      "step": 10053
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.37858450412750244,
      "learning_rate": 9.18820795817601e-05,
      "loss": 0.0226,
      "step": 10054
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.11056991666555405,
      "learning_rate": 9.186029625326749e-05,
      "loss": 0.0358,
      "step": 10055
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.18795271217823029,
      "learning_rate": 9.183851292477489e-05,
      "loss": 0.0677,
      "step": 10056
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.20268800854682922,
      "learning_rate": 9.18167295962823e-05,
      "loss": 0.0147,
      "step": 10057
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.1475805938243866,
      "learning_rate": 9.179494626778971e-05,
      "loss": 0.0236,
      "step": 10058
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.2867344915866852,
      "learning_rate": 9.177316293929712e-05,
      "loss": 0.0528,
      "step": 10059
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.5220655798912048,
      "learning_rate": 9.175137961080452e-05,
      "loss": 0.0232,
      "step": 10060
    },
    {
      "epoch": 2.82,
      "grad_norm": 2.1585285663604736,
      "learning_rate": 9.172959628231194e-05,
      "loss": 0.1448,
      "step": 10061
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.13052856922149658,
      "learning_rate": 9.170781295381934e-05,
      "loss": 0.0148,
      "step": 10062
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.15133975446224213,
      "learning_rate": 9.168602962532673e-05,
      "loss": 0.0136,
      "step": 10063
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.16134019196033478,
      "learning_rate": 9.166424629683415e-05,
      "loss": 0.0179,
      "step": 10064
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.47960367798805237,
      "learning_rate": 9.164246296834155e-05,
      "loss": 0.0771,
      "step": 10065
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.34470847249031067,
      "learning_rate": 9.162067963984896e-05,
      "loss": 0.0186,
      "step": 10066
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.1274344027042389,
      "learning_rate": 9.159889631135637e-05,
      "loss": 0.0384,
      "step": 10067
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.09806574881076813,
      "learning_rate": 9.157711298286378e-05,
      "loss": 0.0047,
      "step": 10068
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.12498001754283905,
      "learning_rate": 9.155532965437118e-05,
      "loss": 0.0206,
      "step": 10069
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.1209428459405899,
      "learning_rate": 9.15335463258786e-05,
      "loss": 0.0089,
      "step": 10070
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.2677227556705475,
      "learning_rate": 9.151176299738599e-05,
      "loss": 0.0277,
      "step": 10071
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.30600106716156006,
      "learning_rate": 9.148997966889339e-05,
      "loss": 0.0163,
      "step": 10072
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.469639390707016,
      "learning_rate": 9.14681963404008e-05,
      "loss": 0.061,
      "step": 10073
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.3441839814186096,
      "learning_rate": 9.144641301190821e-05,
      "loss": 0.0297,
      "step": 10074
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.12576666474342346,
      "learning_rate": 9.142462968341562e-05,
      "loss": 0.0316,
      "step": 10075
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.22248506546020508,
      "learning_rate": 9.140284635492302e-05,
      "loss": 0.0493,
      "step": 10076
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.1752699464559555,
      "learning_rate": 9.138106302643044e-05,
      "loss": 0.0358,
      "step": 10077
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.16318783164024353,
      "learning_rate": 9.135927969793784e-05,
      "loss": 0.0338,
      "step": 10078
    },
    {
      "epoch": 2.82,
      "grad_norm": 0.09263867139816284,
      "learning_rate": 9.133749636944524e-05,
      "loss": 0.0181,
      "step": 10079
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.11062022298574448,
      "learning_rate": 9.131571304095265e-05,
      "loss": 0.0193,
      "step": 10080
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.09942886233329773,
      "learning_rate": 9.129392971246005e-05,
      "loss": 0.013,
      "step": 10081
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.16067074239253998,
      "learning_rate": 9.127214638396746e-05,
      "loss": 0.0254,
      "step": 10082
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.11250752955675125,
      "learning_rate": 9.125036305547487e-05,
      "loss": 0.0264,
      "step": 10083
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.19460374116897583,
      "learning_rate": 9.122857972698228e-05,
      "loss": 0.0354,
      "step": 10084
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.304257333278656,
      "learning_rate": 9.120679639848968e-05,
      "loss": 0.036,
      "step": 10085
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.1267567127943039,
      "learning_rate": 9.11850130699971e-05,
      "loss": 0.013,
      "step": 10086
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.1677681803703308,
      "learning_rate": 9.11632297415045e-05,
      "loss": 0.0406,
      "step": 10087
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.17659005522727966,
      "learning_rate": 9.114144641301189e-05,
      "loss": 0.0257,
      "step": 10088
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.09064751118421555,
      "learning_rate": 9.11196630845193e-05,
      "loss": 0.0099,
      "step": 10089
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.13363288342952728,
      "learning_rate": 9.109787975602671e-05,
      "loss": 0.0131,
      "step": 10090
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.2724205255508423,
      "learning_rate": 9.107609642753412e-05,
      "loss": 0.0328,
      "step": 10091
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.17228342592716217,
      "learning_rate": 9.105431309904153e-05,
      "loss": 0.0352,
      "step": 10092
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.10809186100959778,
      "learning_rate": 9.103252977054894e-05,
      "loss": 0.0178,
      "step": 10093
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.15924550592899323,
      "learning_rate": 9.101074644205634e-05,
      "loss": 0.0293,
      "step": 10094
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.16857033967971802,
      "learning_rate": 9.098896311356374e-05,
      "loss": 0.0242,
      "step": 10095
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.4076026976108551,
      "learning_rate": 9.096717978507116e-05,
      "loss": 0.0245,
      "step": 10096
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.2457052320241928,
      "learning_rate": 9.094539645657855e-05,
      "loss": 0.0271,
      "step": 10097
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.12772825360298157,
      "learning_rate": 9.092361312808596e-05,
      "loss": 0.009,
      "step": 10098
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.18047164380550385,
      "learning_rate": 9.090182979959337e-05,
      "loss": 0.0287,
      "step": 10099
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.16133485734462738,
      "learning_rate": 9.088004647110078e-05,
      "loss": 0.0444,
      "step": 10100
    },
    {
      "epoch": 2.83,
      "eval_loss": 0.06497714668512344,
      "eval_runtime": 174.0801,
      "eval_samples_per_second": 15.177,
      "eval_steps_per_second": 0.477,
      "eval_wer": 0.05204284014280047,
      "step": 10100
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.29461774230003357,
      "learning_rate": 9.085826314260818e-05,
      "loss": 0.0137,
      "step": 10101
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.161756232380867,
      "learning_rate": 9.083647981411559e-05,
      "loss": 0.0334,
      "step": 10102
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.15938851237297058,
      "learning_rate": 9.0814696485623e-05,
      "loss": 0.0443,
      "step": 10103
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.2651295065879822,
      "learning_rate": 9.07929131571304e-05,
      "loss": 0.0455,
      "step": 10104
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.20661750435829163,
      "learning_rate": 9.07711298286378e-05,
      "loss": 0.0387,
      "step": 10105
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.19014908373355865,
      "learning_rate": 9.074934650014521e-05,
      "loss": 0.0465,
      "step": 10106
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.22412772476673126,
      "learning_rate": 9.072756317165262e-05,
      "loss": 0.029,
      "step": 10107
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.08900418877601624,
      "learning_rate": 9.070577984316003e-05,
      "loss": 0.0231,
      "step": 10108
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.08082196861505508,
      "learning_rate": 9.068399651466743e-05,
      "loss": 0.036,
      "step": 10109
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.2721364200115204,
      "learning_rate": 9.066221318617484e-05,
      "loss": 0.0216,
      "step": 10110
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.5063007473945618,
      "learning_rate": 9.064042985768225e-05,
      "loss": 0.0176,
      "step": 10111
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.19863617420196533,
      "learning_rate": 9.061864652918966e-05,
      "loss": 0.0412,
      "step": 10112
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.14508627355098724,
      "learning_rate": 9.059686320069705e-05,
      "loss": 0.0357,
      "step": 10113
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.16830913722515106,
      "learning_rate": 9.057507987220446e-05,
      "loss": 0.0221,
      "step": 10114
    },
    {
      "epoch": 2.83,
      "grad_norm": 0.37913015484809875,
      "learning_rate": 9.055329654371187e-05,
      "loss": 0.0165,
      "step": 10115
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.16738413274288177,
      "learning_rate": 9.053151321521928e-05,
      "loss": 0.0509,
      "step": 10116
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.2961616814136505,
      "learning_rate": 9.050972988672668e-05,
      "loss": 0.0349,
      "step": 10117
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.14921657741069794,
      "learning_rate": 9.048794655823409e-05,
      "loss": 0.0304,
      "step": 10118
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.46811214089393616,
      "learning_rate": 9.04661632297415e-05,
      "loss": 0.0188,
      "step": 10119
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.16767415404319763,
      "learning_rate": 9.04443799012489e-05,
      "loss": 0.0213,
      "step": 10120
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.38810378313064575,
      "learning_rate": 9.042259657275632e-05,
      "loss": 0.0371,
      "step": 10121
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.35406967997550964,
      "learning_rate": 9.040081324426371e-05,
      "loss": 0.0571,
      "step": 10122
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.23412741720676422,
      "learning_rate": 9.037902991577112e-05,
      "loss": 0.0414,
      "step": 10123
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.07853696495294571,
      "learning_rate": 9.035724658727853e-05,
      "loss": 0.0079,
      "step": 10124
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.0818227082490921,
      "learning_rate": 9.033546325878593e-05,
      "loss": 0.0061,
      "step": 10125
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.2908898890018463,
      "learning_rate": 9.031367993029334e-05,
      "loss": 0.0348,
      "step": 10126
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.3412545621395111,
      "learning_rate": 9.029189660180075e-05,
      "loss": 0.0491,
      "step": 10127
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.21096666157245636,
      "learning_rate": 9.027011327330816e-05,
      "loss": 0.0235,
      "step": 10128
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.1520720273256302,
      "learning_rate": 9.024832994481556e-05,
      "loss": 0.0174,
      "step": 10129
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.38354015350341797,
      "learning_rate": 9.022654661632296e-05,
      "loss": 0.0282,
      "step": 10130
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.26273801922798157,
      "learning_rate": 9.020476328783037e-05,
      "loss": 0.0558,
      "step": 10131
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.1190146803855896,
      "learning_rate": 9.018297995933777e-05,
      "loss": 0.0101,
      "step": 10132
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.12399235367774963,
      "learning_rate": 9.016119663084518e-05,
      "loss": 0.0265,
      "step": 10133
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.025560172274708748,
      "learning_rate": 9.013941330235259e-05,
      "loss": 0.0016,
      "step": 10134
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.4299801290035248,
      "learning_rate": 9.011762997386e-05,
      "loss": 0.0801,
      "step": 10135
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.24847230315208435,
      "learning_rate": 9.00958466453674e-05,
      "loss": 0.0178,
      "step": 10136
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.16534487903118134,
      "learning_rate": 9.007406331687482e-05,
      "loss": 0.0231,
      "step": 10137
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.2577877938747406,
      "learning_rate": 9.005227998838221e-05,
      "loss": 0.0571,
      "step": 10138
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.14958444237709045,
      "learning_rate": 9.003049665988962e-05,
      "loss": 0.0343,
      "step": 10139
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.1750197857618332,
      "learning_rate": 9.000871333139703e-05,
      "loss": 0.019,
      "step": 10140
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.3117098808288574,
      "learning_rate": 8.998693000290443e-05,
      "loss": 0.0388,
      "step": 10141
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.06937522441148758,
      "learning_rate": 8.996514667441184e-05,
      "loss": 0.0115,
      "step": 10142
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.054717645049095154,
      "learning_rate": 8.994336334591925e-05,
      "loss": 0.0068,
      "step": 10143
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.17585954070091248,
      "learning_rate": 8.992158001742666e-05,
      "loss": 0.0228,
      "step": 10144
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.14978069067001343,
      "learning_rate": 8.989979668893406e-05,
      "loss": 0.0386,
      "step": 10145
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.2351142019033432,
      "learning_rate": 8.987801336044148e-05,
      "loss": 0.0235,
      "step": 10146
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.2337900698184967,
      "learning_rate": 8.985623003194887e-05,
      "loss": 0.0543,
      "step": 10147
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.475754976272583,
      "learning_rate": 8.983444670345627e-05,
      "loss": 0.1001,
      "step": 10148
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.5285277962684631,
      "learning_rate": 8.981266337496368e-05,
      "loss": 0.027,
      "step": 10149
    },
    {
      "epoch": 2.84,
      "grad_norm": 0.1739196926355362,
      "learning_rate": 8.979088004647109e-05,
      "loss": 0.028,
      "step": 10150
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.22400930523872375,
      "learning_rate": 8.97690967179785e-05,
      "loss": 0.0265,
      "step": 10151
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.17695710062980652,
      "learning_rate": 8.97473133894859e-05,
      "loss": 0.0245,
      "step": 10152
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.27444225549697876,
      "learning_rate": 8.972553006099332e-05,
      "loss": 0.05,
      "step": 10153
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.17447593808174133,
      "learning_rate": 8.970374673250072e-05,
      "loss": 0.0173,
      "step": 10154
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.5415403246879578,
      "learning_rate": 8.968196340400811e-05,
      "loss": 0.0466,
      "step": 10155
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.08198340982198715,
      "learning_rate": 8.966018007551553e-05,
      "loss": 0.0085,
      "step": 10156
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.34711307287216187,
      "learning_rate": 8.963839674702293e-05,
      "loss": 0.032,
      "step": 10157
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.125631645321846,
      "learning_rate": 8.961661341853034e-05,
      "loss": 0.0222,
      "step": 10158
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.15353912115097046,
      "learning_rate": 8.959483009003775e-05,
      "loss": 0.0213,
      "step": 10159
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.21564798057079315,
      "learning_rate": 8.957304676154516e-05,
      "loss": 0.0188,
      "step": 10160
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.3156527280807495,
      "learning_rate": 8.955126343305256e-05,
      "loss": 0.0191,
      "step": 10161
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.13662494719028473,
      "learning_rate": 8.952948010455998e-05,
      "loss": 0.0242,
      "step": 10162
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.6479297876358032,
      "learning_rate": 8.950769677606738e-05,
      "loss": 0.0242,
      "step": 10163
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.21684816479682922,
      "learning_rate": 8.948591344757477e-05,
      "loss": 0.031,
      "step": 10164
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.15707148611545563,
      "learning_rate": 8.946413011908219e-05,
      "loss": 0.0179,
      "step": 10165
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.08535991609096527,
      "learning_rate": 8.944234679058959e-05,
      "loss": 0.0088,
      "step": 10166
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.10959239304065704,
      "learning_rate": 8.9420563462097e-05,
      "loss": 0.0135,
      "step": 10167
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.2479976862668991,
      "learning_rate": 8.93987801336044e-05,
      "loss": 0.0521,
      "step": 10168
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.12977235019207,
      "learning_rate": 8.937699680511182e-05,
      "loss": 0.0437,
      "step": 10169
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.2467932105064392,
      "learning_rate": 8.935521347661922e-05,
      "loss": 0.0354,
      "step": 10170
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.22017061710357666,
      "learning_rate": 8.933343014812664e-05,
      "loss": 0.0265,
      "step": 10171
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.2527017891407013,
      "learning_rate": 8.931164681963403e-05,
      "loss": 0.0196,
      "step": 10172
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.5282013416290283,
      "learning_rate": 8.928986349114143e-05,
      "loss": 0.0942,
      "step": 10173
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.1274762749671936,
      "learning_rate": 8.926808016264884e-05,
      "loss": 0.0097,
      "step": 10174
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.14389726519584656,
      "learning_rate": 8.924629683415625e-05,
      "loss": 0.0292,
      "step": 10175
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.2500442564487457,
      "learning_rate": 8.922451350566366e-05,
      "loss": 0.0263,
      "step": 10176
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.1463896632194519,
      "learning_rate": 8.920273017717106e-05,
      "loss": 0.0225,
      "step": 10177
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.19607539474964142,
      "learning_rate": 8.918094684867848e-05,
      "loss": 0.0362,
      "step": 10178
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.14990229904651642,
      "learning_rate": 8.915916352018588e-05,
      "loss": 0.0286,
      "step": 10179
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.16050253808498383,
      "learning_rate": 8.913738019169327e-05,
      "loss": 0.0315,
      "step": 10180
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.14146369695663452,
      "learning_rate": 8.911559686320069e-05,
      "loss": 0.0137,
      "step": 10181
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.10360231250524521,
      "learning_rate": 8.909381353470809e-05,
      "loss": 0.0124,
      "step": 10182
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.1952962577342987,
      "learning_rate": 8.90720302062155e-05,
      "loss": 0.0371,
      "step": 10183
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.21864083409309387,
      "learning_rate": 8.90502468777229e-05,
      "loss": 0.0169,
      "step": 10184
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.32144877314567566,
      "learning_rate": 8.902846354923032e-05,
      "loss": 0.0342,
      "step": 10185
    },
    {
      "epoch": 2.85,
      "grad_norm": 0.32743480801582336,
      "learning_rate": 8.900668022073772e-05,
      "loss": 0.0228,
      "step": 10186
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.2547922730445862,
      "learning_rate": 8.898489689224514e-05,
      "loss": 0.0618,
      "step": 10187
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.12694396078586578,
      "learning_rate": 8.896311356375254e-05,
      "loss": 0.0099,
      "step": 10188
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.19319762289524078,
      "learning_rate": 8.894133023525993e-05,
      "loss": 0.0251,
      "step": 10189
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.26608672738075256,
      "learning_rate": 8.891954690676734e-05,
      "loss": 0.04,
      "step": 10190
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.20579156279563904,
      "learning_rate": 8.889776357827475e-05,
      "loss": 0.0271,
      "step": 10191
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.30920523405075073,
      "learning_rate": 8.887598024978216e-05,
      "loss": 0.042,
      "step": 10192
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.2646460235118866,
      "learning_rate": 8.885419692128956e-05,
      "loss": 0.0124,
      "step": 10193
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.3857368230819702,
      "learning_rate": 8.883241359279698e-05,
      "loss": 0.0345,
      "step": 10194
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.14044234156608582,
      "learning_rate": 8.881063026430438e-05,
      "loss": 0.0174,
      "step": 10195
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.17774233222007751,
      "learning_rate": 8.87888469358118e-05,
      "loss": 0.0207,
      "step": 10196
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.4849866032600403,
      "learning_rate": 8.876706360731919e-05,
      "loss": 0.0536,
      "step": 10197
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.35261258482933044,
      "learning_rate": 8.874528027882659e-05,
      "loss": 0.0497,
      "step": 10198
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.1639001965522766,
      "learning_rate": 8.8723496950334e-05,
      "loss": 0.0242,
      "step": 10199
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.175355464220047,
      "learning_rate": 8.87017136218414e-05,
      "loss": 0.0322,
      "step": 10200
    },
    {
      "epoch": 2.86,
      "eval_loss": 0.062215760350227356,
      "eval_runtime": 173.9273,
      "eval_samples_per_second": 15.19,
      "eval_steps_per_second": 0.477,
      "eval_wer": 0.05130900436334788,
      "step": 10200
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.29723960161209106,
      "learning_rate": 8.867993029334882e-05,
      "loss": 0.0304,
      "step": 10201
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.25567033886909485,
      "learning_rate": 8.865814696485622e-05,
      "loss": 0.0477,
      "step": 10202
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.23336711525917053,
      "learning_rate": 8.863636363636364e-05,
      "loss": 0.0447,
      "step": 10203
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.15005798637866974,
      "learning_rate": 8.861458030787104e-05,
      "loss": 0.0207,
      "step": 10204
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.24813340604305267,
      "learning_rate": 8.859279697937843e-05,
      "loss": 0.0194,
      "step": 10205
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.20745281875133514,
      "learning_rate": 8.857101365088584e-05,
      "loss": 0.0598,
      "step": 10206
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.12582316994667053,
      "learning_rate": 8.854923032239325e-05,
      "loss": 0.0226,
      "step": 10207
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.19090159237384796,
      "learning_rate": 8.852744699390066e-05,
      "loss": 0.0231,
      "step": 10208
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.10711552202701569,
      "learning_rate": 8.850566366540806e-05,
      "loss": 0.0155,
      "step": 10209
    },
    {
      "epoch": 2.86,
      "grad_norm": 1.0357085466384888,
      "learning_rate": 8.848388033691548e-05,
      "loss": 0.1369,
      "step": 10210
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.7159566283226013,
      "learning_rate": 8.846209700842288e-05,
      "loss": 0.0692,
      "step": 10211
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.11633414775133133,
      "learning_rate": 8.84403136799303e-05,
      "loss": 0.0128,
      "step": 10212
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.18538521230220795,
      "learning_rate": 8.84185303514377e-05,
      "loss": 0.0267,
      "step": 10213
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.43932485580444336,
      "learning_rate": 8.839674702294509e-05,
      "loss": 0.0276,
      "step": 10214
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.06197257339954376,
      "learning_rate": 8.83749636944525e-05,
      "loss": 0.0049,
      "step": 10215
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.14448675513267517,
      "learning_rate": 8.83531803659599e-05,
      "loss": 0.0133,
      "step": 10216
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.21098379790782928,
      "learning_rate": 8.833139703746732e-05,
      "loss": 0.0414,
      "step": 10217
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.17667092382907867,
      "learning_rate": 8.830961370897472e-05,
      "loss": 0.0263,
      "step": 10218
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.07274450361728668,
      "learning_rate": 8.828783038048214e-05,
      "loss": 0.0068,
      "step": 10219
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.12522239983081818,
      "learning_rate": 8.826604705198954e-05,
      "loss": 0.0211,
      "step": 10220
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.08352085202932358,
      "learning_rate": 8.824426372349696e-05,
      "loss": 0.0106,
      "step": 10221
    },
    {
      "epoch": 2.86,
      "grad_norm": 0.17383359372615814,
      "learning_rate": 8.822248039500434e-05,
      "loss": 0.0347,
      "step": 10222
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.14390408992767334,
      "learning_rate": 8.820069706651175e-05,
      "loss": 0.0087,
      "step": 10223
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.3599889874458313,
      "learning_rate": 8.817891373801916e-05,
      "loss": 0.0347,
      "step": 10224
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.18478767573833466,
      "learning_rate": 8.815713040952656e-05,
      "loss": 0.0675,
      "step": 10225
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.17646387219429016,
      "learning_rate": 8.813534708103398e-05,
      "loss": 0.0229,
      "step": 10226
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.15926456451416016,
      "learning_rate": 8.811356375254138e-05,
      "loss": 0.0572,
      "step": 10227
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.18634293973445892,
      "learning_rate": 8.80917804240488e-05,
      "loss": 0.0174,
      "step": 10228
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.19035324454307556,
      "learning_rate": 8.80699970955562e-05,
      "loss": 0.0126,
      "step": 10229
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.2768642008304596,
      "learning_rate": 8.80482137670636e-05,
      "loss": 0.0431,
      "step": 10230
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.14973948895931244,
      "learning_rate": 8.8026430438571e-05,
      "loss": 0.0208,
      "step": 10231
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.3501635193824768,
      "learning_rate": 8.80046471100784e-05,
      "loss": 0.0474,
      "step": 10232
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.26979026198387146,
      "learning_rate": 8.798286378158582e-05,
      "loss": 0.0544,
      "step": 10233
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.4333353638648987,
      "learning_rate": 8.796108045309322e-05,
      "loss": 0.0332,
      "step": 10234
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.41590750217437744,
      "learning_rate": 8.793929712460064e-05,
      "loss": 0.0233,
      "step": 10235
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.8406006097793579,
      "learning_rate": 8.791751379610804e-05,
      "loss": 0.0597,
      "step": 10236
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.16262954473495483,
      "learning_rate": 8.789573046761544e-05,
      "loss": 0.0237,
      "step": 10237
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.2536468803882599,
      "learning_rate": 8.787394713912286e-05,
      "loss": 0.0302,
      "step": 10238
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.1582334339618683,
      "learning_rate": 8.785216381063025e-05,
      "loss": 0.0535,
      "step": 10239
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.19079653918743134,
      "learning_rate": 8.783038048213766e-05,
      "loss": 0.0298,
      "step": 10240
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.17594265937805176,
      "learning_rate": 8.780859715364506e-05,
      "loss": 0.0192,
      "step": 10241
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.1444549262523651,
      "learning_rate": 8.778681382515248e-05,
      "loss": 0.0226,
      "step": 10242
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.15610674023628235,
      "learning_rate": 8.776503049665988e-05,
      "loss": 0.0261,
      "step": 10243
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.18229882419109344,
      "learning_rate": 8.774324716816728e-05,
      "loss": 0.0142,
      "step": 10244
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.43940040469169617,
      "learning_rate": 8.77214638396747e-05,
      "loss": 0.0509,
      "step": 10245
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.1251646727323532,
      "learning_rate": 8.76996805111821e-05,
      "loss": 0.0096,
      "step": 10246
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.274048775434494,
      "learning_rate": 8.76778971826895e-05,
      "loss": 0.027,
      "step": 10247
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.2264374941587448,
      "learning_rate": 8.76561138541969e-05,
      "loss": 0.0418,
      "step": 10248
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.34403374791145325,
      "learning_rate": 8.763433052570432e-05,
      "loss": 0.0812,
      "step": 10249
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.20115122199058533,
      "learning_rate": 8.761254719721172e-05,
      "loss": 0.0377,
      "step": 10250
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.12047838419675827,
      "learning_rate": 8.759076386871914e-05,
      "loss": 0.0175,
      "step": 10251
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.20800632238388062,
      "learning_rate": 8.756898054022654e-05,
      "loss": 0.0306,
      "step": 10252
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.09046604484319687,
      "learning_rate": 8.754719721173394e-05,
      "loss": 0.0239,
      "step": 10253
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.10949266701936722,
      "learning_rate": 8.752541388324136e-05,
      "loss": 0.0165,
      "step": 10254
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.15986180305480957,
      "learning_rate": 8.750363055474876e-05,
      "loss": 0.0524,
      "step": 10255
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.16509592533111572,
      "learning_rate": 8.748184722625616e-05,
      "loss": 0.018,
      "step": 10256
    },
    {
      "epoch": 2.87,
      "grad_norm": 0.1982358694076538,
      "learning_rate": 8.746006389776356e-05,
      "loss": 0.0389,
      "step": 10257
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.2812875509262085,
      "learning_rate": 8.743828056927098e-05,
      "loss": 0.0625,
      "step": 10258
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.23325960338115692,
      "learning_rate": 8.741649724077838e-05,
      "loss": 0.0254,
      "step": 10259
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.21261586248874664,
      "learning_rate": 8.739471391228578e-05,
      "loss": 0.0336,
      "step": 10260
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.9565570950508118,
      "learning_rate": 8.73729305837932e-05,
      "loss": 0.0427,
      "step": 10261
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.18614712357521057,
      "learning_rate": 8.73511472553006e-05,
      "loss": 0.017,
      "step": 10262
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.4683528542518616,
      "learning_rate": 8.732936392680802e-05,
      "loss": 0.052,
      "step": 10263
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.16659261286258698,
      "learning_rate": 8.73075805983154e-05,
      "loss": 0.02,
      "step": 10264
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.24649225175380707,
      "learning_rate": 8.728579726982282e-05,
      "loss": 0.0615,
      "step": 10265
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.1072058156132698,
      "learning_rate": 8.726401394133022e-05,
      "loss": 0.0197,
      "step": 10266
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.23620200157165527,
      "learning_rate": 8.724223061283763e-05,
      "loss": 0.0317,
      "step": 10267
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.13381654024124146,
      "learning_rate": 8.722044728434504e-05,
      "loss": 0.0222,
      "step": 10268
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.27959683537483215,
      "learning_rate": 8.719866395585244e-05,
      "loss": 0.0806,
      "step": 10269
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.19216172397136688,
      "learning_rate": 8.717688062735986e-05,
      "loss": 0.0248,
      "step": 10270
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.13226960599422455,
      "learning_rate": 8.715509729886726e-05,
      "loss": 0.0183,
      "step": 10271
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.2857435643672943,
      "learning_rate": 8.713331397037466e-05,
      "loss": 0.0147,
      "step": 10272
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.23235440254211426,
      "learning_rate": 8.711153064188207e-05,
      "loss": 0.0235,
      "step": 10273
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.19820880889892578,
      "learning_rate": 8.708974731338948e-05,
      "loss": 0.0211,
      "step": 10274
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.11440449953079224,
      "learning_rate": 8.706796398489688e-05,
      "loss": 0.0228,
      "step": 10275
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.14625132083892822,
      "learning_rate": 8.704618065640428e-05,
      "loss": 0.0198,
      "step": 10276
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.11588361114263535,
      "learning_rate": 8.70243973279117e-05,
      "loss": 0.0173,
      "step": 10277
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.11766061931848526,
      "learning_rate": 8.70026139994191e-05,
      "loss": 0.0253,
      "step": 10278
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.11652656644582748,
      "learning_rate": 8.698083067092652e-05,
      "loss": 0.019,
      "step": 10279
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.15760093927383423,
      "learning_rate": 8.695904734243392e-05,
      "loss": 0.0151,
      "step": 10280
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.23500731587409973,
      "learning_rate": 8.693726401394132e-05,
      "loss": 0.0206,
      "step": 10281
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.11464755982160568,
      "learning_rate": 8.691548068544872e-05,
      "loss": 0.0212,
      "step": 10282
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.2325768619775772,
      "learning_rate": 8.689369735695613e-05,
      "loss": 0.0491,
      "step": 10283
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.11091909557580948,
      "learning_rate": 8.687191402846354e-05,
      "loss": 0.0192,
      "step": 10284
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.10214050859212875,
      "learning_rate": 8.685013069997094e-05,
      "loss": 0.0103,
      "step": 10285
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.5509104132652283,
      "learning_rate": 8.682834737147836e-05,
      "loss": 0.0534,
      "step": 10286
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.2433856874704361,
      "learning_rate": 8.680656404298576e-05,
      "loss": 0.0597,
      "step": 10287
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.09808698296546936,
      "learning_rate": 8.678478071449318e-05,
      "loss": 0.0213,
      "step": 10288
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.4684601128101349,
      "learning_rate": 8.676299738600057e-05,
      "loss": 0.0581,
      "step": 10289
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.15816915035247803,
      "learning_rate": 8.674121405750797e-05,
      "loss": 0.0321,
      "step": 10290
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.12137061357498169,
      "learning_rate": 8.671943072901538e-05,
      "loss": 0.0228,
      "step": 10291
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.15720322728157043,
      "learning_rate": 8.669764740052279e-05,
      "loss": 0.032,
      "step": 10292
    },
    {
      "epoch": 2.88,
      "grad_norm": 0.1390141248703003,
      "learning_rate": 8.66758640720302e-05,
      "loss": 0.0243,
      "step": 10293
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.09035872668027878,
      "learning_rate": 8.66540807435376e-05,
      "loss": 0.0156,
      "step": 10294
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.12505300343036652,
      "learning_rate": 8.663229741504502e-05,
      "loss": 0.0218,
      "step": 10295
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.08620546758174896,
      "learning_rate": 8.661051408655242e-05,
      "loss": 0.0062,
      "step": 10296
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.12981942296028137,
      "learning_rate": 8.658873075805984e-05,
      "loss": 0.0091,
      "step": 10297
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.34531381726264954,
      "learning_rate": 8.656694742956722e-05,
      "loss": 0.0454,
      "step": 10298
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.31571251153945923,
      "learning_rate": 8.654516410107463e-05,
      "loss": 0.0134,
      "step": 10299
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.13369496166706085,
      "learning_rate": 8.652338077258204e-05,
      "loss": 0.0171,
      "step": 10300
    },
    {
      "epoch": 2.89,
      "eval_loss": 0.06414150446653366,
      "eval_runtime": 178.7791,
      "eval_samples_per_second": 14.778,
      "eval_steps_per_second": 0.464,
      "eval_wer": 0.05156683855612852,
      "step": 10300
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.37353163957595825,
      "learning_rate": 8.650159744408944e-05,
      "loss": 0.0573,
      "step": 10301
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.943037211894989,
      "learning_rate": 8.647981411559686e-05,
      "loss": 0.0633,
      "step": 10302
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.1268007904291153,
      "learning_rate": 8.645803078710426e-05,
      "loss": 0.0179,
      "step": 10303
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.13954845070838928,
      "learning_rate": 8.643624745861168e-05,
      "loss": 0.0077,
      "step": 10304
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.12609238922595978,
      "learning_rate": 8.641446413011908e-05,
      "loss": 0.0115,
      "step": 10305
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.19976475834846497,
      "learning_rate": 8.639268080162647e-05,
      "loss": 0.0382,
      "step": 10306
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.13515694439411163,
      "learning_rate": 8.637089747313388e-05,
      "loss": 0.0301,
      "step": 10307
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.3768062889575958,
      "learning_rate": 8.634911414464129e-05,
      "loss": 0.0365,
      "step": 10308
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.1310817152261734,
      "learning_rate": 8.63273308161487e-05,
      "loss": 0.0066,
      "step": 10309
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.23364007472991943,
      "learning_rate": 8.63055474876561e-05,
      "loss": 0.0303,
      "step": 10310
    },
    {
      "epoch": 2.89,
      "grad_norm": 1.0474419593811035,
      "learning_rate": 8.628376415916352e-05,
      "loss": 0.1542,
      "step": 10311
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.08077439665794373,
      "learning_rate": 8.626198083067092e-05,
      "loss": 0.0145,
      "step": 10312
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.16715702414512634,
      "learning_rate": 8.624019750217834e-05,
      "loss": 0.0331,
      "step": 10313
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.12648911774158478,
      "learning_rate": 8.621841417368572e-05,
      "loss": 0.0114,
      "step": 10314
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.24752314388751984,
      "learning_rate": 8.619663084519313e-05,
      "loss": 0.0534,
      "step": 10315
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.12588749825954437,
      "learning_rate": 8.617484751670054e-05,
      "loss": 0.0148,
      "step": 10316
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.10451013594865799,
      "learning_rate": 8.615306418820794e-05,
      "loss": 0.0112,
      "step": 10317
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.10036911815404892,
      "learning_rate": 8.613128085971536e-05,
      "loss": 0.0246,
      "step": 10318
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.11101382970809937,
      "learning_rate": 8.610949753122276e-05,
      "loss": 0.0211,
      "step": 10319
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.23308704793453217,
      "learning_rate": 8.608771420273018e-05,
      "loss": 0.0253,
      "step": 10320
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.3841010332107544,
      "learning_rate": 8.606593087423758e-05,
      "loss": 0.0362,
      "step": 10321
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.21705666184425354,
      "learning_rate": 8.6044147545745e-05,
      "loss": 0.021,
      "step": 10322
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.25227585434913635,
      "learning_rate": 8.602236421725238e-05,
      "loss": 0.0128,
      "step": 10323
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.07255304604768753,
      "learning_rate": 8.600058088875979e-05,
      "loss": 0.0091,
      "step": 10324
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.10826907306909561,
      "learning_rate": 8.59787975602672e-05,
      "loss": 0.0222,
      "step": 10325
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.25818732380867004,
      "learning_rate": 8.59570142317746e-05,
      "loss": 0.0511,
      "step": 10326
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.22753912210464478,
      "learning_rate": 8.593523090328202e-05,
      "loss": 0.0419,
      "step": 10327
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.2035800665616989,
      "learning_rate": 8.591344757478942e-05,
      "loss": 0.0211,
      "step": 10328
    },
    {
      "epoch": 2.89,
      "grad_norm": 0.15429456532001495,
      "learning_rate": 8.589166424629684e-05,
      "loss": 0.019,
      "step": 10329
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.49908024072647095,
      "learning_rate": 8.586988091780424e-05,
      "loss": 0.0197,
      "step": 10330
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.2204388976097107,
      "learning_rate": 8.584809758931163e-05,
      "loss": 0.0393,
      "step": 10331
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.24734598398208618,
      "learning_rate": 8.582631426081904e-05,
      "loss": 0.0179,
      "step": 10332
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.5022728443145752,
      "learning_rate": 8.580453093232644e-05,
      "loss": 0.0369,
      "step": 10333
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.3122258186340332,
      "learning_rate": 8.578274760383386e-05,
      "loss": 0.0421,
      "step": 10334
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.08515139669179916,
      "learning_rate": 8.576096427534126e-05,
      "loss": 0.0086,
      "step": 10335
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.4252551198005676,
      "learning_rate": 8.573918094684868e-05,
      "loss": 0.0836,
      "step": 10336
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.20083807408809662,
      "learning_rate": 8.571739761835608e-05,
      "loss": 0.0329,
      "step": 10337
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.23780885338783264,
      "learning_rate": 8.56956142898635e-05,
      "loss": 0.0324,
      "step": 10338
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.11961891502141953,
      "learning_rate": 8.567383096137088e-05,
      "loss": 0.0274,
      "step": 10339
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.11415460705757141,
      "learning_rate": 8.565204763287829e-05,
      "loss": 0.0128,
      "step": 10340
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.3708525598049164,
      "learning_rate": 8.56302643043857e-05,
      "loss": 0.0245,
      "step": 10341
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.4288417398929596,
      "learning_rate": 8.56084809758931e-05,
      "loss": 0.0268,
      "step": 10342
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.28355297446250916,
      "learning_rate": 8.558669764740052e-05,
      "loss": 0.027,
      "step": 10343
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.14240823686122894,
      "learning_rate": 8.556491431890792e-05,
      "loss": 0.0227,
      "step": 10344
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.1301669180393219,
      "learning_rate": 8.554313099041534e-05,
      "loss": 0.0266,
      "step": 10345
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.13096240162849426,
      "learning_rate": 8.552134766192274e-05,
      "loss": 0.0214,
      "step": 10346
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.14593306183815002,
      "learning_rate": 8.549956433343015e-05,
      "loss": 0.0093,
      "step": 10347
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.430825412273407,
      "learning_rate": 8.547778100493754e-05,
      "loss": 0.0346,
      "step": 10348
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.42313382029533386,
      "learning_rate": 8.545599767644494e-05,
      "loss": 0.0391,
      "step": 10349
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.19248615205287933,
      "learning_rate": 8.543421434795236e-05,
      "loss": 0.0326,
      "step": 10350
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.25638702511787415,
      "learning_rate": 8.541243101945976e-05,
      "loss": 0.0293,
      "step": 10351
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.2532981038093567,
      "learning_rate": 8.539064769096718e-05,
      "loss": 0.0334,
      "step": 10352
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.14022409915924072,
      "learning_rate": 8.536886436247458e-05,
      "loss": 0.017,
      "step": 10353
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.2603187561035156,
      "learning_rate": 8.5347081033982e-05,
      "loss": 0.0419,
      "step": 10354
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.13656525313854218,
      "learning_rate": 8.53252977054894e-05,
      "loss": 0.031,
      "step": 10355
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.3619345724582672,
      "learning_rate": 8.530351437699679e-05,
      "loss": 0.039,
      "step": 10356
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.13808764517307281,
      "learning_rate": 8.52817310485042e-05,
      "loss": 0.0345,
      "step": 10357
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.16660644114017487,
      "learning_rate": 8.52599477200116e-05,
      "loss": 0.0207,
      "step": 10358
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.2682369649410248,
      "learning_rate": 8.523816439151902e-05,
      "loss": 0.0707,
      "step": 10359
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.47664085030555725,
      "learning_rate": 8.521638106302642e-05,
      "loss": 0.0635,
      "step": 10360
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.6553476452827454,
      "learning_rate": 8.519459773453384e-05,
      "loss": 0.1277,
      "step": 10361
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.1484212428331375,
      "learning_rate": 8.517281440604124e-05,
      "loss": 0.0194,
      "step": 10362
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.11213092505931854,
      "learning_rate": 8.515103107754865e-05,
      "loss": 0.0208,
      "step": 10363
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.16899122297763824,
      "learning_rate": 8.512924774905606e-05,
      "loss": 0.02,
      "step": 10364
    },
    {
      "epoch": 2.9,
      "grad_norm": 0.15008684992790222,
      "learning_rate": 8.510746442056345e-05,
      "loss": 0.021,
      "step": 10365
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.20429302752017975,
      "learning_rate": 8.508568109207086e-05,
      "loss": 0.0186,
      "step": 10366
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.21393001079559326,
      "learning_rate": 8.506389776357826e-05,
      "loss": 0.0376,
      "step": 10367
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.15671226382255554,
      "learning_rate": 8.504211443508568e-05,
      "loss": 0.0311,
      "step": 10368
    },
    {
      "epoch": 2.91,
      "grad_norm": 1.4485182762145996,
      "learning_rate": 8.502033110659308e-05,
      "loss": 0.0882,
      "step": 10369
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.22135229408740997,
      "learning_rate": 8.49985477781005e-05,
      "loss": 0.0291,
      "step": 10370
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.2817983031272888,
      "learning_rate": 8.49767644496079e-05,
      "loss": 0.0376,
      "step": 10371
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.32798516750335693,
      "learning_rate": 8.49549811211153e-05,
      "loss": 0.0328,
      "step": 10372
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.4026556611061096,
      "learning_rate": 8.49331977926227e-05,
      "loss": 0.0615,
      "step": 10373
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.11772916465997696,
      "learning_rate": 8.49114144641301e-05,
      "loss": 0.0156,
      "step": 10374
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.1657615751028061,
      "learning_rate": 8.488963113563752e-05,
      "loss": 0.0201,
      "step": 10375
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.14796288311481476,
      "learning_rate": 8.486784780714492e-05,
      "loss": 0.0296,
      "step": 10376
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.07047836482524872,
      "learning_rate": 8.484606447865234e-05,
      "loss": 0.0114,
      "step": 10377
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.21601474285125732,
      "learning_rate": 8.482428115015974e-05,
      "loss": 0.0375,
      "step": 10378
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.11399662494659424,
      "learning_rate": 8.480249782166714e-05,
      "loss": 0.0159,
      "step": 10379
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.15567463636398315,
      "learning_rate": 8.478071449317456e-05,
      "loss": 0.0186,
      "step": 10380
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.09902748465538025,
      "learning_rate": 8.475893116468195e-05,
      "loss": 0.0108,
      "step": 10381
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.17996707558631897,
      "learning_rate": 8.473714783618936e-05,
      "loss": 0.0326,
      "step": 10382
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.10831256955862045,
      "learning_rate": 8.471536450769676e-05,
      "loss": 0.01,
      "step": 10383
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.15996532142162323,
      "learning_rate": 8.469358117920418e-05,
      "loss": 0.0139,
      "step": 10384
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.16420842707157135,
      "learning_rate": 8.467179785071158e-05,
      "loss": 0.0134,
      "step": 10385
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.21520566940307617,
      "learning_rate": 8.4650014522219e-05,
      "loss": 0.0194,
      "step": 10386
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.16453933715820312,
      "learning_rate": 8.46282311937264e-05,
      "loss": 0.0212,
      "step": 10387
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.10742699354887009,
      "learning_rate": 8.46064478652338e-05,
      "loss": 0.0122,
      "step": 10388
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.17271067202091217,
      "learning_rate": 8.458466453674122e-05,
      "loss": 0.022,
      "step": 10389
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.19326113164424896,
      "learning_rate": 8.45628812082486e-05,
      "loss": 0.0215,
      "step": 10390
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.3862003684043884,
      "learning_rate": 8.454109787975602e-05,
      "loss": 0.0403,
      "step": 10391
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.3406464159488678,
      "learning_rate": 8.451931455126342e-05,
      "loss": 0.0397,
      "step": 10392
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.23436743021011353,
      "learning_rate": 8.449753122277084e-05,
      "loss": 0.0472,
      "step": 10393
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.1902134269475937,
      "learning_rate": 8.447574789427824e-05,
      "loss": 0.0399,
      "step": 10394
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.1683739721775055,
      "learning_rate": 8.445396456578564e-05,
      "loss": 0.0273,
      "step": 10395
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.29795312881469727,
      "learning_rate": 8.443218123729306e-05,
      "loss": 0.0239,
      "step": 10396
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.38354432582855225,
      "learning_rate": 8.441039790880046e-05,
      "loss": 0.1155,
      "step": 10397
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.336678147315979,
      "learning_rate": 8.438861458030786e-05,
      "loss": 0.0453,
      "step": 10398
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.25244733691215515,
      "learning_rate": 8.436683125181526e-05,
      "loss": 0.0746,
      "step": 10399
    },
    {
      "epoch": 2.91,
      "grad_norm": 0.0949353277683258,
      "learning_rate": 8.434504792332268e-05,
      "loss": 0.0121,
      "step": 10400
    },
    {
      "epoch": 2.91,
      "eval_loss": 0.06326474249362946,
      "eval_runtime": 178.7214,
      "eval_samples_per_second": 14.783,
      "eval_steps_per_second": 0.464,
      "eval_wer": 0.0514676715589052,
      "step": 10400
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.12421329319477081,
      "learning_rate": 8.432326459483008e-05,
      "loss": 0.0207,
      "step": 10401
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.16539224982261658,
      "learning_rate": 8.430148126633748e-05,
      "loss": 0.042,
      "step": 10402
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.17301781475543976,
      "learning_rate": 8.42796979378449e-05,
      "loss": 0.0346,
      "step": 10403
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.33162495493888855,
      "learning_rate": 8.42579146093523e-05,
      "loss": 0.0411,
      "step": 10404
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.09616254270076752,
      "learning_rate": 8.423613128085972e-05,
      "loss": 0.0158,
      "step": 10405
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.1631726175546646,
      "learning_rate": 8.42143479523671e-05,
      "loss": 0.0326,
      "step": 10406
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.12586376070976257,
      "learning_rate": 8.419256462387452e-05,
      "loss": 0.0199,
      "step": 10407
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.1170642301440239,
      "learning_rate": 8.417078129538192e-05,
      "loss": 0.0134,
      "step": 10408
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.34986236691474915,
      "learning_rate": 8.414899796688934e-05,
      "loss": 0.0179,
      "step": 10409
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.32594022154808044,
      "learning_rate": 8.412721463839674e-05,
      "loss": 0.0974,
      "step": 10410
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.38475629687309265,
      "learning_rate": 8.410543130990414e-05,
      "loss": 0.022,
      "step": 10411
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.18031027913093567,
      "learning_rate": 8.408364798141156e-05,
      "loss": 0.049,
      "step": 10412
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.11092957109212875,
      "learning_rate": 8.406186465291896e-05,
      "loss": 0.0192,
      "step": 10413
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.20555633306503296,
      "learning_rate": 8.404008132442638e-05,
      "loss": 0.0444,
      "step": 10414
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.2708493173122406,
      "learning_rate": 8.401829799593376e-05,
      "loss": 0.0714,
      "step": 10415
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.5651059150695801,
      "learning_rate": 8.399651466744118e-05,
      "loss": 0.0519,
      "step": 10416
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.2967780530452728,
      "learning_rate": 8.397473133894858e-05,
      "loss": 0.0266,
      "step": 10417
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.48378974199295044,
      "learning_rate": 8.395294801045598e-05,
      "loss": 0.0317,
      "step": 10418
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.2435099482536316,
      "learning_rate": 8.39311646819634e-05,
      "loss": 0.0297,
      "step": 10419
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.5197532176971436,
      "learning_rate": 8.39093813534708e-05,
      "loss": 0.0821,
      "step": 10420
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.0783040001988411,
      "learning_rate": 8.388759802497822e-05,
      "loss": 0.0117,
      "step": 10421
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.08507853746414185,
      "learning_rate": 8.386581469648562e-05,
      "loss": 0.0139,
      "step": 10422
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.3502652049064636,
      "learning_rate": 8.384403136799302e-05,
      "loss": 0.0492,
      "step": 10423
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.30489280819892883,
      "learning_rate": 8.382224803950042e-05,
      "loss": 0.0262,
      "step": 10424
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.1670866310596466,
      "learning_rate": 8.380046471100782e-05,
      "loss": 0.0144,
      "step": 10425
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.1568872332572937,
      "learning_rate": 8.377868138251524e-05,
      "loss": 0.0297,
      "step": 10426
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.1574803590774536,
      "learning_rate": 8.375689805402264e-05,
      "loss": 0.0155,
      "step": 10427
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.18917053937911987,
      "learning_rate": 8.373511472553006e-05,
      "loss": 0.0352,
      "step": 10428
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.11395075172185898,
      "learning_rate": 8.371333139703746e-05,
      "loss": 0.0147,
      "step": 10429
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.19570517539978027,
      "learning_rate": 8.369154806854488e-05,
      "loss": 0.0151,
      "step": 10430
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.28839796781539917,
      "learning_rate": 8.366976474005228e-05,
      "loss": 0.044,
      "step": 10431
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.07767215371131897,
      "learning_rate": 8.364798141155967e-05,
      "loss": 0.0089,
      "step": 10432
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.2539178729057312,
      "learning_rate": 8.362619808306708e-05,
      "loss": 0.0835,
      "step": 10433
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.09017384797334671,
      "learning_rate": 8.360441475457448e-05,
      "loss": 0.0056,
      "step": 10434
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.2580116391181946,
      "learning_rate": 8.35826314260819e-05,
      "loss": 0.0486,
      "step": 10435
    },
    {
      "epoch": 2.92,
      "grad_norm": 0.7268374562263489,
      "learning_rate": 8.35608480975893e-05,
      "loss": 0.0552,
      "step": 10436
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.24078096449375153,
      "learning_rate": 8.353906476909672e-05,
      "loss": 0.0222,
      "step": 10437
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.2319321632385254,
      "learning_rate": 8.351728144060412e-05,
      "loss": 0.0421,
      "step": 10438
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.11471261829137802,
      "learning_rate": 8.349549811211153e-05,
      "loss": 0.0229,
      "step": 10439
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.1516156643629074,
      "learning_rate": 8.347371478361892e-05,
      "loss": 0.025,
      "step": 10440
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.2635714113712311,
      "learning_rate": 8.345193145512632e-05,
      "loss": 0.0286,
      "step": 10441
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.14333444833755493,
      "learning_rate": 8.343014812663374e-05,
      "loss": 0.0129,
      "step": 10442
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.11660436540842056,
      "learning_rate": 8.340836479814114e-05,
      "loss": 0.0105,
      "step": 10443
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.26644524931907654,
      "learning_rate": 8.338658146964856e-05,
      "loss": 0.0295,
      "step": 10444
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.19800856709480286,
      "learning_rate": 8.336479814115596e-05,
      "loss": 0.0492,
      "step": 10445
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.13999448716640472,
      "learning_rate": 8.334301481266338e-05,
      "loss": 0.0104,
      "step": 10446
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.37656548619270325,
      "learning_rate": 8.332123148417078e-05,
      "loss": 0.0238,
      "step": 10447
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.517075777053833,
      "learning_rate": 8.329944815567817e-05,
      "loss": 0.0647,
      "step": 10448
    },
    {
      "epoch": 2.93,
      "grad_norm": 1.593579649925232,
      "learning_rate": 8.327766482718558e-05,
      "loss": 0.1676,
      "step": 10449
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.19823364913463593,
      "learning_rate": 8.325588149869298e-05,
      "loss": 0.026,
      "step": 10450
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.1347912847995758,
      "learning_rate": 8.32340981702004e-05,
      "loss": 0.0144,
      "step": 10451
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.10131644457578659,
      "learning_rate": 8.32123148417078e-05,
      "loss": 0.0142,
      "step": 10452
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.13255928456783295,
      "learning_rate": 8.319053151321522e-05,
      "loss": 0.0324,
      "step": 10453
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.18076635897159576,
      "learning_rate": 8.316874818472262e-05,
      "loss": 0.0213,
      "step": 10454
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.19725587964057922,
      "learning_rate": 8.314696485623003e-05,
      "loss": 0.0326,
      "step": 10455
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.19932565093040466,
      "learning_rate": 8.312518152773744e-05,
      "loss": 0.0705,
      "step": 10456
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.13237956166267395,
      "learning_rate": 8.310339819924483e-05,
      "loss": 0.0279,
      "step": 10457
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.09740597009658813,
      "learning_rate": 8.308161487075224e-05,
      "loss": 0.0087,
      "step": 10458
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.21313883364200592,
      "learning_rate": 8.305983154225964e-05,
      "loss": 0.037,
      "step": 10459
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.2654559016227722,
      "learning_rate": 8.303804821376706e-05,
      "loss": 0.0193,
      "step": 10460
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.02113427221775055,
      "learning_rate": 8.301626488527446e-05,
      "loss": 0.002,
      "step": 10461
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.13735197484493256,
      "learning_rate": 8.299448155678188e-05,
      "loss": 0.0273,
      "step": 10462
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.13825397193431854,
      "learning_rate": 8.297269822828928e-05,
      "loss": 0.0207,
      "step": 10463
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.18042975664138794,
      "learning_rate": 8.29509148997967e-05,
      "loss": 0.0275,
      "step": 10464
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.1296890825033188,
      "learning_rate": 8.292913157130408e-05,
      "loss": 0.0191,
      "step": 10465
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.1631411910057068,
      "learning_rate": 8.290734824281148e-05,
      "loss": 0.0428,
      "step": 10466
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.17895129323005676,
      "learning_rate": 8.28855649143189e-05,
      "loss": 0.0275,
      "step": 10467
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.17649631202220917,
      "learning_rate": 8.28637815858263e-05,
      "loss": 0.0252,
      "step": 10468
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.21930289268493652,
      "learning_rate": 8.284199825733372e-05,
      "loss": 0.0378,
      "step": 10469
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.14530666172504425,
      "learning_rate": 8.282021492884112e-05,
      "loss": 0.0328,
      "step": 10470
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.10479209572076797,
      "learning_rate": 8.279843160034853e-05,
      "loss": 0.016,
      "step": 10471
    },
    {
      "epoch": 2.93,
      "grad_norm": 0.16295476257801056,
      "learning_rate": 8.277664827185594e-05,
      "loss": 0.0178,
      "step": 10472
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.45633694529533386,
      "learning_rate": 8.275486494336333e-05,
      "loss": 0.0325,
      "step": 10473
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.0940442755818367,
      "learning_rate": 8.273308161487074e-05,
      "loss": 0.014,
      "step": 10474
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.08044570684432983,
      "learning_rate": 8.271129828637814e-05,
      "loss": 0.0194,
      "step": 10475
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.12317349016666412,
      "learning_rate": 8.268951495788556e-05,
      "loss": 0.0121,
      "step": 10476
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.2145867496728897,
      "learning_rate": 8.266773162939296e-05,
      "loss": 0.0622,
      "step": 10477
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.14466659724712372,
      "learning_rate": 8.264594830090038e-05,
      "loss": 0.033,
      "step": 10478
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.1583586037158966,
      "learning_rate": 8.262416497240778e-05,
      "loss": 0.0364,
      "step": 10479
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.21218396723270416,
      "learning_rate": 8.26023816439152e-05,
      "loss": 0.0313,
      "step": 10480
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.2730882465839386,
      "learning_rate": 8.25805983154226e-05,
      "loss": 0.0333,
      "step": 10481
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.413195937871933,
      "learning_rate": 8.255881498692998e-05,
      "loss": 0.0741,
      "step": 10482
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.1599113494157791,
      "learning_rate": 8.25370316584374e-05,
      "loss": 0.0098,
      "step": 10483
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.27083757519721985,
      "learning_rate": 8.25152483299448e-05,
      "loss": 0.0342,
      "step": 10484
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.2423921525478363,
      "learning_rate": 8.249346500145222e-05,
      "loss": 0.0405,
      "step": 10485
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.15710341930389404,
      "learning_rate": 8.247168167295962e-05,
      "loss": 0.0152,
      "step": 10486
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.1593356877565384,
      "learning_rate": 8.244989834446704e-05,
      "loss": 0.0214,
      "step": 10487
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.1916813850402832,
      "learning_rate": 8.242811501597444e-05,
      "loss": 0.0261,
      "step": 10488
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.13847455382347107,
      "learning_rate": 8.240633168748185e-05,
      "loss": 0.0091,
      "step": 10489
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.11044739186763763,
      "learning_rate": 8.238454835898924e-05,
      "loss": 0.0199,
      "step": 10490
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.1769234538078308,
      "learning_rate": 8.236276503049664e-05,
      "loss": 0.0294,
      "step": 10491
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.38288626074790955,
      "learning_rate": 8.234098170200406e-05,
      "loss": 0.0517,
      "step": 10492
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.19967779517173767,
      "learning_rate": 8.231919837351146e-05,
      "loss": 0.0231,
      "step": 10493
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.06572955846786499,
      "learning_rate": 8.229741504501888e-05,
      "loss": 0.0062,
      "step": 10494
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.1265895664691925,
      "learning_rate": 8.227563171652628e-05,
      "loss": 0.0182,
      "step": 10495
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.15276627242565155,
      "learning_rate": 8.22538483880337e-05,
      "loss": 0.0285,
      "step": 10496
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.23196765780448914,
      "learning_rate": 8.22320650595411e-05,
      "loss": 0.0374,
      "step": 10497
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.06348065286874771,
      "learning_rate": 8.221028173104851e-05,
      "loss": 0.0059,
      "step": 10498
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.2936095893383026,
      "learning_rate": 8.21884984025559e-05,
      "loss": 0.0477,
      "step": 10499
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.22154103219509125,
      "learning_rate": 8.21667150740633e-05,
      "loss": 0.0347,
      "step": 10500
    },
    {
      "epoch": 2.94,
      "eval_loss": 0.06098398566246033,
      "eval_runtime": 182.311,
      "eval_samples_per_second": 14.492,
      "eval_steps_per_second": 0.455,
      "eval_wer": 0.0518048393494645,
      "step": 10500
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.09258150309324265,
      "learning_rate": 8.214493174557072e-05,
      "loss": 0.0134,
      "step": 10501
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.10520186275243759,
      "learning_rate": 8.212314841707812e-05,
      "loss": 0.0204,
      "step": 10502
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.2507023513317108,
      "learning_rate": 8.210136508858554e-05,
      "loss": 0.0331,
      "step": 10503
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.08061715960502625,
      "learning_rate": 8.207958176009294e-05,
      "loss": 0.0091,
      "step": 10504
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.06921446323394775,
      "learning_rate": 8.205779843160035e-05,
      "loss": 0.0082,
      "step": 10505
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.1676001101732254,
      "learning_rate": 8.203601510310775e-05,
      "loss": 0.0268,
      "step": 10506
    },
    {
      "epoch": 2.94,
      "grad_norm": 0.15595875680446625,
      "learning_rate": 8.201423177461514e-05,
      "loss": 0.019,
      "step": 10507
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.1564376801252365,
      "learning_rate": 8.199244844612256e-05,
      "loss": 0.0277,
      "step": 10508
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.12614421546459198,
      "learning_rate": 8.197066511762996e-05,
      "loss": 0.0099,
      "step": 10509
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.07866387814283371,
      "learning_rate": 8.194888178913738e-05,
      "loss": 0.0066,
      "step": 10510
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.4010574519634247,
      "learning_rate": 8.192709846064478e-05,
      "loss": 0.0404,
      "step": 10511
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.10420028865337372,
      "learning_rate": 8.19053151321522e-05,
      "loss": 0.016,
      "step": 10512
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.1548939198255539,
      "learning_rate": 8.18835318036596e-05,
      "loss": 0.0253,
      "step": 10513
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.11907059699296951,
      "learning_rate": 8.1861748475167e-05,
      "loss": 0.0118,
      "step": 10514
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.2645595073699951,
      "learning_rate": 8.18399651466744e-05,
      "loss": 0.0923,
      "step": 10515
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.34099599719047546,
      "learning_rate": 8.18181818181818e-05,
      "loss": 0.0329,
      "step": 10516
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.13166756927967072,
      "learning_rate": 8.179639848968922e-05,
      "loss": 0.0235,
      "step": 10517
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.20359820127487183,
      "learning_rate": 8.177461516119662e-05,
      "loss": 0.0156,
      "step": 10518
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.23547819256782532,
      "learning_rate": 8.175283183270404e-05,
      "loss": 0.0534,
      "step": 10519
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.5540116429328918,
      "learning_rate": 8.173104850421144e-05,
      "loss": 0.0123,
      "step": 10520
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.23502489924430847,
      "learning_rate": 8.170926517571885e-05,
      "loss": 0.0358,
      "step": 10521
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.0961422473192215,
      "learning_rate": 8.168748184722626e-05,
      "loss": 0.0077,
      "step": 10522
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.35508355498313904,
      "learning_rate": 8.166569851873366e-05,
      "loss": 0.0657,
      "step": 10523
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.31037330627441406,
      "learning_rate": 8.164391519024106e-05,
      "loss": 0.058,
      "step": 10524
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.14264877140522003,
      "learning_rate": 8.162213186174846e-05,
      "loss": 0.0118,
      "step": 10525
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.2522946894168854,
      "learning_rate": 8.160034853325588e-05,
      "loss": 0.0223,
      "step": 10526
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.16788707673549652,
      "learning_rate": 8.157856520476328e-05,
      "loss": 0.0201,
      "step": 10527
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.11091027408838272,
      "learning_rate": 8.15567818762707e-05,
      "loss": 0.0108,
      "step": 10528
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.05936774984002113,
      "learning_rate": 8.15349985477781e-05,
      "loss": 0.012,
      "step": 10529
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.27657297253608704,
      "learning_rate": 8.15132152192855e-05,
      "loss": 0.0334,
      "step": 10530
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.2424907237291336,
      "learning_rate": 8.149143189079291e-05,
      "loss": 0.0216,
      "step": 10531
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.08017032593488693,
      "learning_rate": 8.14696485623003e-05,
      "loss": 0.008,
      "step": 10532
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.18771271407604218,
      "learning_rate": 8.144786523380772e-05,
      "loss": 0.0224,
      "step": 10533
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.15185946226119995,
      "learning_rate": 8.142608190531512e-05,
      "loss": 0.0086,
      "step": 10534
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.035000529140233994,
      "learning_rate": 8.140429857682254e-05,
      "loss": 0.003,
      "step": 10535
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.12574824690818787,
      "learning_rate": 8.138251524832994e-05,
      "loss": 0.0125,
      "step": 10536
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.35793083906173706,
      "learning_rate": 8.136073191983734e-05,
      "loss": 0.0387,
      "step": 10537
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.19050949811935425,
      "learning_rate": 8.133894859134476e-05,
      "loss": 0.0327,
      "step": 10538
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.2049832046031952,
      "learning_rate": 8.131716526285216e-05,
      "loss": 0.0248,
      "step": 10539
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.14645248651504517,
      "learning_rate": 8.129538193435956e-05,
      "loss": 0.0179,
      "step": 10540
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.10244962573051453,
      "learning_rate": 8.127359860586696e-05,
      "loss": 0.0182,
      "step": 10541
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.1310604363679886,
      "learning_rate": 8.125181527737438e-05,
      "loss": 0.0266,
      "step": 10542
    },
    {
      "epoch": 2.95,
      "grad_norm": 0.14079900085926056,
      "learning_rate": 8.123003194888178e-05,
      "loss": 0.0273,
      "step": 10543
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.1802908480167389,
      "learning_rate": 8.120824862038918e-05,
      "loss": 0.0285,
      "step": 10544
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.16642862558364868,
      "learning_rate": 8.11864652918966e-05,
      "loss": 0.0164,
      "step": 10545
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.24550661444664001,
      "learning_rate": 8.1164681963404e-05,
      "loss": 0.0379,
      "step": 10546
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.22302493453025818,
      "learning_rate": 8.114289863491141e-05,
      "loss": 0.0094,
      "step": 10547
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.2705214321613312,
      "learning_rate": 8.112111530641882e-05,
      "loss": 0.0191,
      "step": 10548
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.22986629605293274,
      "learning_rate": 8.109933197792622e-05,
      "loss": 0.0258,
      "step": 10549
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.23845671117305756,
      "learning_rate": 8.107754864943362e-05,
      "loss": 0.0424,
      "step": 10550
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.11127658933401108,
      "learning_rate": 8.105576532094104e-05,
      "loss": 0.0265,
      "step": 10551
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.13805976510047913,
      "learning_rate": 8.103398199244844e-05,
      "loss": 0.0335,
      "step": 10552
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.24249184131622314,
      "learning_rate": 8.101219866395584e-05,
      "loss": 0.0295,
      "step": 10553
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.16465091705322266,
      "learning_rate": 8.099041533546326e-05,
      "loss": 0.0228,
      "step": 10554
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.14264656603336334,
      "learning_rate": 8.096863200697066e-05,
      "loss": 0.0219,
      "step": 10555
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.09462656825780869,
      "learning_rate": 8.094684867847807e-05,
      "loss": 0.0099,
      "step": 10556
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.3704715967178345,
      "learning_rate": 8.092506534998546e-05,
      "loss": 0.0356,
      "step": 10557
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.3905605375766754,
      "learning_rate": 8.090328202149288e-05,
      "loss": 0.0988,
      "step": 10558
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.051861442625522614,
      "learning_rate": 8.088149869300028e-05,
      "loss": 0.0035,
      "step": 10559
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.17582213878631592,
      "learning_rate": 8.085971536450768e-05,
      "loss": 0.0109,
      "step": 10560
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.11095616966485977,
      "learning_rate": 8.08379320360151e-05,
      "loss": 0.0055,
      "step": 10561
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.20149512588977814,
      "learning_rate": 8.08161487075225e-05,
      "loss": 0.0304,
      "step": 10562
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.20114967226982117,
      "learning_rate": 8.079436537902991e-05,
      "loss": 0.0322,
      "step": 10563
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.1354125589132309,
      "learning_rate": 8.077258205053732e-05,
      "loss": 0.0406,
      "step": 10564
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.3449881374835968,
      "learning_rate": 8.075079872204473e-05,
      "loss": 0.0781,
      "step": 10565
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.37152335047721863,
      "learning_rate": 8.072901539355212e-05,
      "loss": 0.069,
      "step": 10566
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.13720984756946564,
      "learning_rate": 8.070723206505952e-05,
      "loss": 0.0211,
      "step": 10567
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.26851099729537964,
      "learning_rate": 8.068544873656694e-05,
      "loss": 0.0135,
      "step": 10568
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.1415296196937561,
      "learning_rate": 8.066366540807434e-05,
      "loss": 0.0262,
      "step": 10569
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.2526542842388153,
      "learning_rate": 8.064188207958176e-05,
      "loss": 0.0345,
      "step": 10570
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.2844513952732086,
      "learning_rate": 8.062009875108916e-05,
      "loss": 0.0536,
      "step": 10571
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.23495779931545258,
      "learning_rate": 8.059831542259657e-05,
      "loss": 0.0157,
      "step": 10572
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.20002448558807373,
      "learning_rate": 8.057653209410398e-05,
      "loss": 0.0248,
      "step": 10573
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.9061921834945679,
      "learning_rate": 8.055474876561138e-05,
      "loss": 0.1605,
      "step": 10574
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.16643135249614716,
      "learning_rate": 8.053296543711878e-05,
      "loss": 0.0163,
      "step": 10575
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.15583156049251556,
      "learning_rate": 8.051118210862618e-05,
      "loss": 0.033,
      "step": 10576
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.272258460521698,
      "learning_rate": 8.04893987801336e-05,
      "loss": 0.0516,
      "step": 10577
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.17559324204921722,
      "learning_rate": 8.0467615451641e-05,
      "loss": 0.0184,
      "step": 10578
    },
    {
      "epoch": 2.96,
      "grad_norm": 0.48465633392333984,
      "learning_rate": 8.044583212314841e-05,
      "loss": 0.0517,
      "step": 10579
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.1528441160917282,
      "learning_rate": 8.042404879465582e-05,
      "loss": 0.0357,
      "step": 10580
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.11324111372232437,
      "learning_rate": 8.040226546616323e-05,
      "loss": 0.0162,
      "step": 10581
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.06972390413284302,
      "learning_rate": 8.038048213767062e-05,
      "loss": 0.0066,
      "step": 10582
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.14052782952785492,
      "learning_rate": 8.035869880917802e-05,
      "loss": 0.0113,
      "step": 10583
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.21787749230861664,
      "learning_rate": 8.033691548068544e-05,
      "loss": 0.022,
      "step": 10584
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.3439197540283203,
      "learning_rate": 8.031513215219284e-05,
      "loss": 0.0604,
      "step": 10585
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.346457302570343,
      "learning_rate": 8.029334882370026e-05,
      "loss": 0.0718,
      "step": 10586
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.15478722751140594,
      "learning_rate": 8.027156549520766e-05,
      "loss": 0.0302,
      "step": 10587
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.20307883620262146,
      "learning_rate": 8.024978216671507e-05,
      "loss": 0.0455,
      "step": 10588
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.08916128426790237,
      "learning_rate": 8.022799883822248e-05,
      "loss": 0.0097,
      "step": 10589
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.1130472794175148,
      "learning_rate": 8.020621550972989e-05,
      "loss": 0.0346,
      "step": 10590
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.2523532211780548,
      "learning_rate": 8.018443218123728e-05,
      "loss": 0.0171,
      "step": 10591
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.2071748524904251,
      "learning_rate": 8.016264885274468e-05,
      "loss": 0.035,
      "step": 10592
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.15486471354961395,
      "learning_rate": 8.01408655242521e-05,
      "loss": 0.0196,
      "step": 10593
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.15263864398002625,
      "learning_rate": 8.01190821957595e-05,
      "loss": 0.0185,
      "step": 10594
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.26565152406692505,
      "learning_rate": 8.009729886726692e-05,
      "loss": 0.0442,
      "step": 10595
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.19993771612644196,
      "learning_rate": 8.007551553877432e-05,
      "loss": 0.0215,
      "step": 10596
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.14183908700942993,
      "learning_rate": 8.005373221028173e-05,
      "loss": 0.0102,
      "step": 10597
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.5230482220649719,
      "learning_rate": 8.003194888178913e-05,
      "loss": 0.1099,
      "step": 10598
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.3851684629917145,
      "learning_rate": 8.001016555329652e-05,
      "loss": 0.102,
      "step": 10599
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.14249220490455627,
      "learning_rate": 7.998838222480394e-05,
      "loss": 0.0432,
      "step": 10600
    },
    {
      "epoch": 2.97,
      "eval_loss": 0.06048838049173355,
      "eval_runtime": 187.3218,
      "eval_samples_per_second": 14.104,
      "eval_steps_per_second": 0.443,
      "eval_wer": 0.05122967076556922,
      "step": 10600
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.3082268238067627,
      "learning_rate": 7.996659889631134e-05,
      "loss": 0.0408,
      "step": 10601
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.06463983654975891,
      "learning_rate": 7.994481556781876e-05,
      "loss": 0.0098,
      "step": 10602
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.1546725332736969,
      "learning_rate": 7.992303223932616e-05,
      "loss": 0.0327,
      "step": 10603
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.12798234820365906,
      "learning_rate": 7.990124891083357e-05,
      "loss": 0.011,
      "step": 10604
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.09611178934574127,
      "learning_rate": 7.987946558234098e-05,
      "loss": 0.0102,
      "step": 10605
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.26475051045417786,
      "learning_rate": 7.985768225384839e-05,
      "loss": 0.0213,
      "step": 10606
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.09451433271169662,
      "learning_rate": 7.98358989253558e-05,
      "loss": 0.0093,
      "step": 10607
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.12982529401779175,
      "learning_rate": 7.981411559686318e-05,
      "loss": 0.0235,
      "step": 10608
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.4225381910800934,
      "learning_rate": 7.97923322683706e-05,
      "loss": 0.0386,
      "step": 10609
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.38177862763404846,
      "learning_rate": 7.9770548939878e-05,
      "loss": 0.0733,
      "step": 10610
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.44708389043807983,
      "learning_rate": 7.974876561138542e-05,
      "loss": 0.0294,
      "step": 10611
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.1682130992412567,
      "learning_rate": 7.972698228289282e-05,
      "loss": 0.0327,
      "step": 10612
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.10907571762800217,
      "learning_rate": 7.970519895440023e-05,
      "loss": 0.0204,
      "step": 10613
    },
    {
      "epoch": 2.97,
      "grad_norm": 0.12358526885509491,
      "learning_rate": 7.968341562590764e-05,
      "loss": 0.0253,
      "step": 10614
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.15957851707935333,
      "learning_rate": 7.966163229741505e-05,
      "loss": 0.0382,
      "step": 10615
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.16936227679252625,
      "learning_rate": 7.963984896892244e-05,
      "loss": 0.0188,
      "step": 10616
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.2493768185377121,
      "learning_rate": 7.961806564042984e-05,
      "loss": 0.0372,
      "step": 10617
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.1735047698020935,
      "learning_rate": 7.959628231193726e-05,
      "loss": 0.043,
      "step": 10618
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.22649255394935608,
      "learning_rate": 7.957449898344466e-05,
      "loss": 0.0254,
      "step": 10619
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.18087053298950195,
      "learning_rate": 7.955271565495207e-05,
      "loss": 0.0201,
      "step": 10620
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.14712484180927277,
      "learning_rate": 7.953093232645948e-05,
      "loss": 0.0281,
      "step": 10621
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.3539542853832245,
      "learning_rate": 7.950914899796689e-05,
      "loss": 0.0476,
      "step": 10622
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.3358190357685089,
      "learning_rate": 7.94873656694743e-05,
      "loss": 0.0165,
      "step": 10623
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.06394016742706299,
      "learning_rate": 7.946558234098168e-05,
      "loss": 0.0052,
      "step": 10624
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.22836528718471527,
      "learning_rate": 7.94437990124891e-05,
      "loss": 0.0292,
      "step": 10625
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.17983099818229675,
      "learning_rate": 7.94220156839965e-05,
      "loss": 0.025,
      "step": 10626
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.12164013087749481,
      "learning_rate": 7.940023235550392e-05,
      "loss": 0.0267,
      "step": 10627
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.14886675775051117,
      "learning_rate": 7.937844902701132e-05,
      "loss": 0.0124,
      "step": 10628
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.05170438438653946,
      "learning_rate": 7.935666569851873e-05,
      "loss": 0.0047,
      "step": 10629
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.15937891602516174,
      "learning_rate": 7.933488237002614e-05,
      "loss": 0.0166,
      "step": 10630
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.16071602702140808,
      "learning_rate": 7.931309904153355e-05,
      "loss": 0.0283,
      "step": 10631
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.1780170500278473,
      "learning_rate": 7.929131571304095e-05,
      "loss": 0.0209,
      "step": 10632
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.23125861585140228,
      "learning_rate": 7.926953238454834e-05,
      "loss": 0.0531,
      "step": 10633
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.35021352767944336,
      "learning_rate": 7.924774905605576e-05,
      "loss": 0.0156,
      "step": 10634
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.1949118822813034,
      "learning_rate": 7.922596572756316e-05,
      "loss": 0.0268,
      "step": 10635
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.40404200553894043,
      "learning_rate": 7.920418239907057e-05,
      "loss": 0.0742,
      "step": 10636
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.16055530309677124,
      "learning_rate": 7.918239907057798e-05,
      "loss": 0.0364,
      "step": 10637
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.16510382294654846,
      "learning_rate": 7.916061574208539e-05,
      "loss": 0.048,
      "step": 10638
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.10747072845697403,
      "learning_rate": 7.91388324135928e-05,
      "loss": 0.0166,
      "step": 10639
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.09385378658771515,
      "learning_rate": 7.911704908510021e-05,
      "loss": 0.0092,
      "step": 10640
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.08356773108243942,
      "learning_rate": 7.90952657566076e-05,
      "loss": 0.0068,
      "step": 10641
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.10771536827087402,
      "learning_rate": 7.9073482428115e-05,
      "loss": 0.0165,
      "step": 10642
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.18122635781764984,
      "learning_rate": 7.905169909962242e-05,
      "loss": 0.0287,
      "step": 10643
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.1242525577545166,
      "learning_rate": 7.902991577112982e-05,
      "loss": 0.0193,
      "step": 10644
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.21125614643096924,
      "learning_rate": 7.900813244263723e-05,
      "loss": 0.0176,
      "step": 10645
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.2360084503889084,
      "learning_rate": 7.898634911414464e-05,
      "loss": 0.0437,
      "step": 10646
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.13388840854167938,
      "learning_rate": 7.896456578565205e-05,
      "loss": 0.0075,
      "step": 10647
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.35743701457977295,
      "learning_rate": 7.894278245715945e-05,
      "loss": 0.0319,
      "step": 10648
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.4979288876056671,
      "learning_rate": 7.892099912866684e-05,
      "loss": 0.0517,
      "step": 10649
    },
    {
      "epoch": 2.98,
      "grad_norm": 0.2867792248725891,
      "learning_rate": 7.889921580017426e-05,
      "loss": 0.0383,
      "step": 10650
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.2017158567905426,
      "learning_rate": 7.887743247168166e-05,
      "loss": 0.0315,
      "step": 10651
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.14793819189071655,
      "learning_rate": 7.885564914318907e-05,
      "loss": 0.0231,
      "step": 10652
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.19163887202739716,
      "learning_rate": 7.883386581469648e-05,
      "loss": 0.0178,
      "step": 10653
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.19555449485778809,
      "learning_rate": 7.881208248620389e-05,
      "loss": 0.0602,
      "step": 10654
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.2447676807641983,
      "learning_rate": 7.87902991577113e-05,
      "loss": 0.0388,
      "step": 10655
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.08586709946393967,
      "learning_rate": 7.876851582921871e-05,
      "loss": 0.0078,
      "step": 10656
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.1617143601179123,
      "learning_rate": 7.874673250072611e-05,
      "loss": 0.0092,
      "step": 10657
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.19357828795909882,
      "learning_rate": 7.87249491722335e-05,
      "loss": 0.0291,
      "step": 10658
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.08547542989253998,
      "learning_rate": 7.870316584374092e-05,
      "loss": 0.0029,
      "step": 10659
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.11957456916570663,
      "learning_rate": 7.868138251524832e-05,
      "loss": 0.0063,
      "step": 10660
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.43771493434906006,
      "learning_rate": 7.865959918675573e-05,
      "loss": 0.0737,
      "step": 10661
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.16148628294467926,
      "learning_rate": 7.863781585826314e-05,
      "loss": 0.0353,
      "step": 10662
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.14918002486228943,
      "learning_rate": 7.861603252977055e-05,
      "loss": 0.0169,
      "step": 10663
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.167775958776474,
      "learning_rate": 7.859424920127795e-05,
      "loss": 0.0733,
      "step": 10664
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.1101117804646492,
      "learning_rate": 7.857246587278536e-05,
      "loss": 0.0226,
      "step": 10665
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.20501819252967834,
      "learning_rate": 7.855068254429276e-05,
      "loss": 0.0203,
      "step": 10666
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.1847962737083435,
      "learning_rate": 7.852889921580016e-05,
      "loss": 0.0242,
      "step": 10667
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.29879000782966614,
      "learning_rate": 7.850711588730758e-05,
      "loss": 0.0274,
      "step": 10668
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.24873675405979156,
      "learning_rate": 7.848533255881498e-05,
      "loss": 0.0436,
      "step": 10669
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.17896457016468048,
      "learning_rate": 7.846354923032239e-05,
      "loss": 0.0186,
      "step": 10670
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.5345988869667053,
      "learning_rate": 7.84417659018298e-05,
      "loss": 0.0268,
      "step": 10671
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.4630952477455139,
      "learning_rate": 7.84199825733372e-05,
      "loss": 0.0402,
      "step": 10672
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.4723914563655853,
      "learning_rate": 7.839819924484461e-05,
      "loss": 0.0131,
      "step": 10673
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.26949506998062134,
      "learning_rate": 7.837641591635201e-05,
      "loss": 0.031,
      "step": 10674
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.4706538915634155,
      "learning_rate": 7.835463258785942e-05,
      "loss": 0.0448,
      "step": 10675
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.13601818680763245,
      "learning_rate": 7.833284925936682e-05,
      "loss": 0.028,
      "step": 10676
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.156296044588089,
      "learning_rate": 7.831106593087423e-05,
      "loss": 0.0247,
      "step": 10677
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.17969046533107758,
      "learning_rate": 7.828928260238164e-05,
      "loss": 0.0294,
      "step": 10678
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.11616872251033783,
      "learning_rate": 7.826749927388904e-05,
      "loss": 0.0123,
      "step": 10679
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.16330961883068085,
      "learning_rate": 7.824571594539645e-05,
      "loss": 0.0239,
      "step": 10680
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.10999449342489243,
      "learning_rate": 7.822393261690386e-05,
      "loss": 0.0118,
      "step": 10681
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.08331510424613953,
      "learning_rate": 7.820214928841127e-05,
      "loss": 0.0073,
      "step": 10682
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.550730288028717,
      "learning_rate": 7.818036595991866e-05,
      "loss": 0.033,
      "step": 10683
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.10965080559253693,
      "learning_rate": 7.815858263142608e-05,
      "loss": 0.0159,
      "step": 10684
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.26567065715789795,
      "learning_rate": 7.813679930293348e-05,
      "loss": 0.0101,
      "step": 10685
    },
    {
      "epoch": 2.99,
      "grad_norm": 0.6467937231063843,
      "learning_rate": 7.811501597444089e-05,
      "loss": 0.0608,
      "step": 10686
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.21579904854297638,
      "learning_rate": 7.80932326459483e-05,
      "loss": 0.0672,
      "step": 10687
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.2509537637233734,
      "learning_rate": 7.80714493174557e-05,
      "loss": 0.0356,
      "step": 10688
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.186570942401886,
      "learning_rate": 7.804966598896311e-05,
      "loss": 0.0131,
      "step": 10689
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.17137926816940308,
      "learning_rate": 7.802788266047051e-05,
      "loss": 0.0326,
      "step": 10690
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.1640886664390564,
      "learning_rate": 7.800609933197792e-05,
      "loss": 0.0435,
      "step": 10691
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.17277874052524567,
      "learning_rate": 7.798431600348532e-05,
      "loss": 0.0349,
      "step": 10692
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.4327678680419922,
      "learning_rate": 7.796253267499273e-05,
      "loss": 0.046,
      "step": 10693
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.16426298022270203,
      "learning_rate": 7.794074934650014e-05,
      "loss": 0.0182,
      "step": 10694
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.17567017674446106,
      "learning_rate": 7.791896601800754e-05,
      "loss": 0.0211,
      "step": 10695
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.15653802454471588,
      "learning_rate": 7.789718268951495e-05,
      "loss": 0.0213,
      "step": 10696
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.47578316926956177,
      "learning_rate": 7.787539936102236e-05,
      "loss": 0.1077,
      "step": 10697
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.33206894993782043,
      "learning_rate": 7.785361603252977e-05,
      "loss": 0.0171,
      "step": 10698
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.338040292263031,
      "learning_rate": 7.783183270403717e-05,
      "loss": 0.0504,
      "step": 10699
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.1322801113128662,
      "learning_rate": 7.781004937554458e-05,
      "loss": 0.0187,
      "step": 10700
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.0623050332069397,
      "eval_runtime": 182.5317,
      "eval_samples_per_second": 14.474,
      "eval_steps_per_second": 0.455,
      "eval_wer": 0.050059500198333995,
      "step": 10700
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.2189795970916748,
      "learning_rate": 7.778826604705198e-05,
      "loss": 0.0196,
      "step": 10701
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.33998218178749084,
      "learning_rate": 7.776648271855938e-05,
      "loss": 0.0323,
      "step": 10702
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.5319638252258301,
      "learning_rate": 7.77446993900668e-05,
      "loss": 0.0752,
      "step": 10703
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.2580646276473999,
      "learning_rate": 7.77229160615742e-05,
      "loss": 0.0117,
      "step": 10704
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.10830336064100266,
      "learning_rate": 7.770113273308161e-05,
      "loss": 0.0138,
      "step": 10705
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.16339372098445892,
      "learning_rate": 7.767934940458902e-05,
      "loss": 0.0154,
      "step": 10706
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.14148694276809692,
      "learning_rate": 7.765756607609643e-05,
      "loss": 0.0153,
      "step": 10707
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.11363652348518372,
      "learning_rate": 7.763578274760382e-05,
      "loss": 0.0199,
      "step": 10708
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.1304040551185608,
      "learning_rate": 7.761399941911123e-05,
      "loss": 0.0225,
      "step": 10709
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.06339587271213531,
      "learning_rate": 7.759221609061864e-05,
      "loss": 0.004,
      "step": 10710
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.1745632141828537,
      "learning_rate": 7.757043276212604e-05,
      "loss": 0.015,
      "step": 10711
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.17350657284259796,
      "learning_rate": 7.754864943363345e-05,
      "loss": 0.0157,
      "step": 10712
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.19415515661239624,
      "learning_rate": 7.752686610514086e-05,
      "loss": 0.0202,
      "step": 10713
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.13713055849075317,
      "learning_rate": 7.750508277664827e-05,
      "loss": 0.0156,
      "step": 10714
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.0753721073269844,
      "learning_rate": 7.748329944815567e-05,
      "loss": 0.0062,
      "step": 10715
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.23666879534721375,
      "learning_rate": 7.746151611966308e-05,
      "loss": 0.0715,
      "step": 10716
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.4196906089782715,
      "learning_rate": 7.743973279117048e-05,
      "loss": 0.0452,
      "step": 10717
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.13207736611366272,
      "learning_rate": 7.741794946267788e-05,
      "loss": 0.0327,
      "step": 10718
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.08841709792613983,
      "learning_rate": 7.73961661341853e-05,
      "loss": 0.0096,
      "step": 10719
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.13951833546161652,
      "learning_rate": 7.73743828056927e-05,
      "loss": 0.0359,
      "step": 10720
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.19391898810863495,
      "learning_rate": 7.735259947720011e-05,
      "loss": 0.0229,
      "step": 10721
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.08004825562238693,
      "learning_rate": 7.733081614870752e-05,
      "loss": 0.0091,
      "step": 10722
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.13586245477199554,
      "learning_rate": 7.730903282021493e-05,
      "loss": 0.0215,
      "step": 10723
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.22613558173179626,
      "learning_rate": 7.728724949172233e-05,
      "loss": 0.0276,
      "step": 10724
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.3561716377735138,
      "learning_rate": 7.726546616322972e-05,
      "loss": 0.0676,
      "step": 10725
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.15885905921459198,
      "learning_rate": 7.724368283473714e-05,
      "loss": 0.0168,
      "step": 10726
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.10320533066987991,
      "learning_rate": 7.722189950624454e-05,
      "loss": 0.0126,
      "step": 10727
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.13008944690227509,
      "learning_rate": 7.720011617775195e-05,
      "loss": 0.0038,
      "step": 10728
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.3453578054904938,
      "learning_rate": 7.717833284925936e-05,
      "loss": 0.0281,
      "step": 10729
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.0935778096318245,
      "learning_rate": 7.715654952076677e-05,
      "loss": 0.0111,
      "step": 10730
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.14413338899612427,
      "learning_rate": 7.713476619227417e-05,
      "loss": 0.0258,
      "step": 10731
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.18091364204883575,
      "learning_rate": 7.711298286378159e-05,
      "loss": 0.0182,
      "step": 10732
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.15052486956119537,
      "learning_rate": 7.709119953528898e-05,
      "loss": 0.0211,
      "step": 10733
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.13752701878547668,
      "learning_rate": 7.706941620679638e-05,
      "loss": 0.0171,
      "step": 10734
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.11245553940534592,
      "learning_rate": 7.70476328783038e-05,
      "loss": 0.0112,
      "step": 10735
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.17392949759960175,
      "learning_rate": 7.70258495498112e-05,
      "loss": 0.0124,
      "step": 10736
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.1123507097363472,
      "learning_rate": 7.700406622131861e-05,
      "loss": 0.0051,
      "step": 10737
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.2677936553955078,
      "learning_rate": 7.698228289282602e-05,
      "loss": 0.0126,
      "step": 10738
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.1573697179555893,
      "learning_rate": 7.696049956433343e-05,
      "loss": 0.0095,
      "step": 10739
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.10884516686201096,
      "learning_rate": 7.693871623584083e-05,
      "loss": 0.0117,
      "step": 10740
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.14792796969413757,
      "learning_rate": 7.691693290734825e-05,
      "loss": 0.0106,
      "step": 10741
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.22295676171779633,
      "learning_rate": 7.689514957885564e-05,
      "loss": 0.0263,
      "step": 10742
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.29616671800613403,
      "learning_rate": 7.687336625036304e-05,
      "loss": 0.0336,
      "step": 10743
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.2241523563861847,
      "learning_rate": 7.685158292187045e-05,
      "loss": 0.045,
      "step": 10744
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.1293063461780548,
      "learning_rate": 7.682979959337786e-05,
      "loss": 0.0056,
      "step": 10745
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.14585226774215698,
      "learning_rate": 7.680801626488527e-05,
      "loss": 0.0246,
      "step": 10746
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.0779426246881485,
      "learning_rate": 7.678623293639267e-05,
      "loss": 0.0084,
      "step": 10747
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.2447974979877472,
      "learning_rate": 7.676444960790009e-05,
      "loss": 0.0831,
      "step": 10748
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.17039121687412262,
      "learning_rate": 7.674266627940749e-05,
      "loss": 0.0134,
      "step": 10749
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.18451228737831116,
      "learning_rate": 7.672088295091488e-05,
      "loss": 0.0185,
      "step": 10750
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.15166456997394562,
      "learning_rate": 7.66990996224223e-05,
      "loss": 0.009,
      "step": 10751
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.16701959073543549,
      "learning_rate": 7.66773162939297e-05,
      "loss": 0.0208,
      "step": 10752
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.07257295399904251,
      "learning_rate": 7.665553296543711e-05,
      "loss": 0.0022,
      "step": 10753
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.4924265146255493,
      "learning_rate": 7.663374963694452e-05,
      "loss": 0.0517,
      "step": 10754
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.1474475860595703,
      "learning_rate": 7.661196630845193e-05,
      "loss": 0.0209,
      "step": 10755
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.113357774913311,
      "learning_rate": 7.659018297995933e-05,
      "loss": 0.0232,
      "step": 10756
    },
    {
      "epoch": 3.01,
      "grad_norm": 0.21210543811321259,
      "learning_rate": 7.656839965146675e-05,
      "loss": 0.0411,
      "step": 10757
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.18496081233024597,
      "learning_rate": 7.654661632297414e-05,
      "loss": 0.0212,
      "step": 10758
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.17562235891819,
      "learning_rate": 7.652483299448154e-05,
      "loss": 0.0256,
      "step": 10759
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.2574855089187622,
      "learning_rate": 7.650304966598896e-05,
      "loss": 0.0339,
      "step": 10760
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.0841926783323288,
      "learning_rate": 7.648126633749636e-05,
      "loss": 0.008,
      "step": 10761
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.12477245926856995,
      "learning_rate": 7.645948300900377e-05,
      "loss": 0.0145,
      "step": 10762
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.13769590854644775,
      "learning_rate": 7.643769968051117e-05,
      "loss": 0.0441,
      "step": 10763
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.06551284343004227,
      "learning_rate": 7.641591635201859e-05,
      "loss": 0.0164,
      "step": 10764
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.11323364824056625,
      "learning_rate": 7.639413302352599e-05,
      "loss": 0.0091,
      "step": 10765
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.3588436245918274,
      "learning_rate": 7.637234969503341e-05,
      "loss": 0.0486,
      "step": 10766
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.2252352237701416,
      "learning_rate": 7.63505663665408e-05,
      "loss": 0.0297,
      "step": 10767
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.3318919539451599,
      "learning_rate": 7.63287830380482e-05,
      "loss": 0.0319,
      "step": 10768
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.08286848664283752,
      "learning_rate": 7.630699970955561e-05,
      "loss": 0.0114,
      "step": 10769
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.29057273268699646,
      "learning_rate": 7.628521638106302e-05,
      "loss": 0.0345,
      "step": 10770
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.15524524450302124,
      "learning_rate": 7.626343305257043e-05,
      "loss": 0.0089,
      "step": 10771
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.1587463915348053,
      "learning_rate": 7.624164972407783e-05,
      "loss": 0.0138,
      "step": 10772
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.20028482377529144,
      "learning_rate": 7.621986639558525e-05,
      "loss": 0.0155,
      "step": 10773
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.23768997192382812,
      "learning_rate": 7.619808306709265e-05,
      "loss": 0.0643,
      "step": 10774
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.22836877405643463,
      "learning_rate": 7.617629973860004e-05,
      "loss": 0.0096,
      "step": 10775
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.13974528014659882,
      "learning_rate": 7.615451641010746e-05,
      "loss": 0.0113,
      "step": 10776
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.14417718350887299,
      "learning_rate": 7.613273308161486e-05,
      "loss": 0.0039,
      "step": 10777
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.1810654103755951,
      "learning_rate": 7.611094975312227e-05,
      "loss": 0.0138,
      "step": 10778
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.19059298932552338,
      "learning_rate": 7.608916642462968e-05,
      "loss": 0.0132,
      "step": 10779
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.11011490970849991,
      "learning_rate": 7.606738309613709e-05,
      "loss": 0.0177,
      "step": 10780
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.10810770094394684,
      "learning_rate": 7.604559976764449e-05,
      "loss": 0.0079,
      "step": 10781
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.14313344657421112,
      "learning_rate": 7.602381643915191e-05,
      "loss": 0.0241,
      "step": 10782
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.28375381231307983,
      "learning_rate": 7.60020331106593e-05,
      "loss": 0.0414,
      "step": 10783
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.10896887630224228,
      "learning_rate": 7.59802497821667e-05,
      "loss": 0.0169,
      "step": 10784
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.05713220313191414,
      "learning_rate": 7.595846645367411e-05,
      "loss": 0.0033,
      "step": 10785
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.10786774009466171,
      "learning_rate": 7.593668312518152e-05,
      "loss": 0.0097,
      "step": 10786
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.045043062418699265,
      "learning_rate": 7.591489979668893e-05,
      "loss": 0.0023,
      "step": 10787
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.19615039229393005,
      "learning_rate": 7.589311646819633e-05,
      "loss": 0.0313,
      "step": 10788
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.012346014380455017,
      "learning_rate": 7.587133313970375e-05,
      "loss": 0.0014,
      "step": 10789
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.39880675077438354,
      "learning_rate": 7.584954981121115e-05,
      "loss": 0.0623,
      "step": 10790
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.31055474281311035,
      "learning_rate": 7.582776648271857e-05,
      "loss": 0.0323,
      "step": 10791
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.7913604378700256,
      "learning_rate": 7.580598315422596e-05,
      "loss": 0.0607,
      "step": 10792
    },
    {
      "epoch": 3.02,
      "grad_norm": 0.2406032383441925,
      "learning_rate": 7.578419982573336e-05,
      "loss": 0.0202,
      "step": 10793
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.17313429713249207,
      "learning_rate": 7.576241649724077e-05,
      "loss": 0.0509,
      "step": 10794
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.11998830735683441,
      "learning_rate": 7.574063316874818e-05,
      "loss": 0.0105,
      "step": 10795
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.19572511315345764,
      "learning_rate": 7.571884984025559e-05,
      "loss": 0.0177,
      "step": 10796
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.11105787009000778,
      "learning_rate": 7.569706651176299e-05,
      "loss": 0.0107,
      "step": 10797
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.1866331696510315,
      "learning_rate": 7.567528318327041e-05,
      "loss": 0.0119,
      "step": 10798
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.20602311193943024,
      "learning_rate": 7.565349985477781e-05,
      "loss": 0.0222,
      "step": 10799
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.12974587082862854,
      "learning_rate": 7.56317165262852e-05,
      "loss": 0.0147,
      "step": 10800
    },
    {
      "epoch": 3.03,
      "eval_loss": 0.06517641246318817,
      "eval_runtime": 179.5559,
      "eval_samples_per_second": 14.714,
      "eval_steps_per_second": 0.462,
      "eval_wer": 0.0485918286394288,
      "step": 10800
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.39326468110084534,
      "learning_rate": 7.560993319779261e-05,
      "loss": 0.0249,
      "step": 10801
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.03795569762587547,
      "learning_rate": 7.558814986930002e-05,
      "loss": 0.0027,
      "step": 10802
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.5484996438026428,
      "learning_rate": 7.556636654080743e-05,
      "loss": 0.0551,
      "step": 10803
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.2756538391113281,
      "learning_rate": 7.554458321231483e-05,
      "loss": 0.0173,
      "step": 10804
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.10934621840715408,
      "learning_rate": 7.552279988382225e-05,
      "loss": 0.0066,
      "step": 10805
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.21769985556602478,
      "learning_rate": 7.550101655532965e-05,
      "loss": 0.025,
      "step": 10806
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.10195737332105637,
      "learning_rate": 7.547923322683705e-05,
      "loss": 0.0105,
      "step": 10807
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.11882836371660233,
      "learning_rate": 7.545744989834447e-05,
      "loss": 0.0129,
      "step": 10808
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.31400373578071594,
      "learning_rate": 7.543566656985186e-05,
      "loss": 0.0088,
      "step": 10809
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.08952881395816803,
      "learning_rate": 7.541388324135927e-05,
      "loss": 0.0045,
      "step": 10810
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.07662101835012436,
      "learning_rate": 7.539209991286668e-05,
      "loss": 0.0163,
      "step": 10811
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.14333531260490417,
      "learning_rate": 7.537031658437409e-05,
      "loss": 0.0178,
      "step": 10812
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.33541494607925415,
      "learning_rate": 7.534853325588149e-05,
      "loss": 0.0277,
      "step": 10813
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.3641735017299652,
      "learning_rate": 7.53267499273889e-05,
      "loss": 0.0334,
      "step": 10814
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.21149230003356934,
      "learning_rate": 7.530496659889631e-05,
      "loss": 0.0155,
      "step": 10815
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.2071029096841812,
      "learning_rate": 7.528318327040371e-05,
      "loss": 0.027,
      "step": 10816
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.8033359050750732,
      "learning_rate": 7.526139994191111e-05,
      "loss": 0.0572,
      "step": 10817
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.14330342411994934,
      "learning_rate": 7.523961661341852e-05,
      "loss": 0.0201,
      "step": 10818
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.10932175070047379,
      "learning_rate": 7.521783328492593e-05,
      "loss": 0.0208,
      "step": 10819
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.2498123049736023,
      "learning_rate": 7.519604995643333e-05,
      "loss": 0.0394,
      "step": 10820
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.3116404414176941,
      "learning_rate": 7.517426662794075e-05,
      "loss": 0.0497,
      "step": 10821
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.20272424817085266,
      "learning_rate": 7.515248329944815e-05,
      "loss": 0.0253,
      "step": 10822
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.39600512385368347,
      "learning_rate": 7.513069997095555e-05,
      "loss": 0.0364,
      "step": 10823
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.138058602809906,
      "learning_rate": 7.510891664246297e-05,
      "loss": 0.0227,
      "step": 10824
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.11822329461574554,
      "learning_rate": 7.508713331397036e-05,
      "loss": 0.0284,
      "step": 10825
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.18441441655158997,
      "learning_rate": 7.506534998547777e-05,
      "loss": 0.0165,
      "step": 10826
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.19070996344089508,
      "learning_rate": 7.504356665698518e-05,
      "loss": 0.0151,
      "step": 10827
    },
    {
      "epoch": 3.03,
      "grad_norm": 0.29613950848579407,
      "learning_rate": 7.502178332849259e-05,
      "loss": 0.0307,
      "step": 10828
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.2710745334625244,
      "learning_rate": 7.5e-05,
      "loss": 0.0125,
      "step": 10829
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.21603311598300934,
      "learning_rate": 7.49782166715074e-05,
      "loss": 0.0234,
      "step": 10830
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.17800907790660858,
      "learning_rate": 7.495643334301481e-05,
      "loss": 0.0234,
      "step": 10831
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.14712099730968475,
      "learning_rate": 7.493465001452221e-05,
      "loss": 0.0225,
      "step": 10832
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.23059478402137756,
      "learning_rate": 7.491286668602962e-05,
      "loss": 0.0193,
      "step": 10833
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.2793222665786743,
      "learning_rate": 7.489108335753703e-05,
      "loss": 0.0229,
      "step": 10834
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.16935990750789642,
      "learning_rate": 7.486930002904443e-05,
      "loss": 0.0213,
      "step": 10835
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.23325005173683167,
      "learning_rate": 7.484751670055183e-05,
      "loss": 0.0225,
      "step": 10836
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.09895779937505722,
      "learning_rate": 7.482573337205924e-05,
      "loss": 0.0059,
      "step": 10837
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.540032684803009,
      "learning_rate": 7.480395004356665e-05,
      "loss": 0.0371,
      "step": 10838
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.05373983085155487,
      "learning_rate": 7.478216671507405e-05,
      "loss": 0.0036,
      "step": 10839
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.3638184070587158,
      "learning_rate": 7.476038338658146e-05,
      "loss": 0.0411,
      "step": 10840
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.07805302739143372,
      "learning_rate": 7.473860005808887e-05,
      "loss": 0.0056,
      "step": 10841
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.8094805479049683,
      "learning_rate": 7.471681672959627e-05,
      "loss": 0.0757,
      "step": 10842
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.2803495228290558,
      "learning_rate": 7.469503340110369e-05,
      "loss": 0.0184,
      "step": 10843
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.14735905826091766,
      "learning_rate": 7.467325007261109e-05,
      "loss": 0.0304,
      "step": 10844
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.11627023667097092,
      "learning_rate": 7.46514667441185e-05,
      "loss": 0.0211,
      "step": 10845
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.07588835805654526,
      "learning_rate": 7.46296834156259e-05,
      "loss": 0.0102,
      "step": 10846
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.12473506480455399,
      "learning_rate": 7.460790008713331e-05,
      "loss": 0.007,
      "step": 10847
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.1994132250547409,
      "learning_rate": 7.458611675864071e-05,
      "loss": 0.0233,
      "step": 10848
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.15379248559474945,
      "learning_rate": 7.456433343014812e-05,
      "loss": 0.0217,
      "step": 10849
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.18134252727031708,
      "learning_rate": 7.454255010165553e-05,
      "loss": 0.0279,
      "step": 10850
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.05650165304541588,
      "learning_rate": 7.452076677316293e-05,
      "loss": 0.0057,
      "step": 10851
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.5826349258422852,
      "learning_rate": 7.449898344467035e-05,
      "loss": 0.0413,
      "step": 10852
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.32831451296806335,
      "learning_rate": 7.447720011617774e-05,
      "loss": 0.011,
      "step": 10853
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.2652719020843506,
      "learning_rate": 7.445541678768515e-05,
      "loss": 0.0158,
      "step": 10854
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.182390496134758,
      "learning_rate": 7.443363345919255e-05,
      "loss": 0.0268,
      "step": 10855
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.18335789442062378,
      "learning_rate": 7.441185013069997e-05,
      "loss": 0.0327,
      "step": 10856
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.0949631854891777,
      "learning_rate": 7.439006680220737e-05,
      "loss": 0.0113,
      "step": 10857
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.10306835174560547,
      "learning_rate": 7.436828347371477e-05,
      "loss": 0.0093,
      "step": 10858
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.09985142946243286,
      "learning_rate": 7.434650014522219e-05,
      "loss": 0.0116,
      "step": 10859
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.26906922459602356,
      "learning_rate": 7.432471681672959e-05,
      "loss": 0.0306,
      "step": 10860
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.2277434915304184,
      "learning_rate": 7.4302933488237e-05,
      "loss": 0.0279,
      "step": 10861
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.2203524112701416,
      "learning_rate": 7.42811501597444e-05,
      "loss": 0.0335,
      "step": 10862
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.07986486703157425,
      "learning_rate": 7.425936683125181e-05,
      "loss": 0.0161,
      "step": 10863
    },
    {
      "epoch": 3.04,
      "grad_norm": 0.32301443815231323,
      "learning_rate": 7.423758350275921e-05,
      "loss": 0.0366,
      "step": 10864
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.2123095542192459,
      "learning_rate": 7.421580017426662e-05,
      "loss": 0.0572,
      "step": 10865
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.2128690630197525,
      "learning_rate": 7.419401684577403e-05,
      "loss": 0.0207,
      "step": 10866
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.4058034420013428,
      "learning_rate": 7.417223351728143e-05,
      "loss": 0.0354,
      "step": 10867
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.11525838077068329,
      "learning_rate": 7.415045018878885e-05,
      "loss": 0.0102,
      "step": 10868
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.07628122717142105,
      "learning_rate": 7.412866686029624e-05,
      "loss": 0.0068,
      "step": 10869
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.21048542857170105,
      "learning_rate": 7.410688353180365e-05,
      "loss": 0.0237,
      "step": 10870
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.12778207659721375,
      "learning_rate": 7.408510020331105e-05,
      "loss": 0.0202,
      "step": 10871
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.13931158185005188,
      "learning_rate": 7.406331687481847e-05,
      "loss": 0.0087,
      "step": 10872
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.29552143812179565,
      "learning_rate": 7.404153354632587e-05,
      "loss": 0.0319,
      "step": 10873
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.1465042233467102,
      "learning_rate": 7.401975021783327e-05,
      "loss": 0.0357,
      "step": 10874
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.2876705527305603,
      "learning_rate": 7.399796688934069e-05,
      "loss": 0.0267,
      "step": 10875
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.31799525022506714,
      "learning_rate": 7.397618356084809e-05,
      "loss": 0.0292,
      "step": 10876
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.19813238084316254,
      "learning_rate": 7.395440023235551e-05,
      "loss": 0.0244,
      "step": 10877
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.2969919741153717,
      "learning_rate": 7.39326169038629e-05,
      "loss": 0.0155,
      "step": 10878
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.4036763906478882,
      "learning_rate": 7.391083357537031e-05,
      "loss": 0.0196,
      "step": 10879
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.13589569926261902,
      "learning_rate": 7.388905024687771e-05,
      "loss": 0.0245,
      "step": 10880
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.1474177986383438,
      "learning_rate": 7.386726691838513e-05,
      "loss": 0.0193,
      "step": 10881
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.1267239898443222,
      "learning_rate": 7.384548358989253e-05,
      "loss": 0.0192,
      "step": 10882
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.08059530705213547,
      "learning_rate": 7.382370026139993e-05,
      "loss": 0.0066,
      "step": 10883
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.10501847416162491,
      "learning_rate": 7.380191693290735e-05,
      "loss": 0.0269,
      "step": 10884
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.10369209200143814,
      "learning_rate": 7.378013360441475e-05,
      "loss": 0.0112,
      "step": 10885
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.12574952840805054,
      "learning_rate": 7.375835027592215e-05,
      "loss": 0.019,
      "step": 10886
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.20227780938148499,
      "learning_rate": 7.373656694742956e-05,
      "loss": 0.025,
      "step": 10887
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.1032436266541481,
      "learning_rate": 7.371478361893697e-05,
      "loss": 0.0104,
      "step": 10888
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.12071557343006134,
      "learning_rate": 7.369300029044437e-05,
      "loss": 0.0083,
      "step": 10889
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.1012476310133934,
      "learning_rate": 7.367121696195177e-05,
      "loss": 0.0077,
      "step": 10890
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.20768408477306366,
      "learning_rate": 7.364943363345919e-05,
      "loss": 0.0376,
      "step": 10891
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.50306636095047,
      "learning_rate": 7.362765030496659e-05,
      "loss": 0.0832,
      "step": 10892
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.1376904547214508,
      "learning_rate": 7.3605866976474e-05,
      "loss": 0.0168,
      "step": 10893
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.2076130509376526,
      "learning_rate": 7.35840836479814e-05,
      "loss": 0.0203,
      "step": 10894
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.3539745807647705,
      "learning_rate": 7.356230031948881e-05,
      "loss": 0.0594,
      "step": 10895
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.1215943694114685,
      "learning_rate": 7.354051699099621e-05,
      "loss": 0.0148,
      "step": 10896
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.050718095153570175,
      "learning_rate": 7.351873366250363e-05,
      "loss": 0.0046,
      "step": 10897
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.154484823346138,
      "learning_rate": 7.349695033401103e-05,
      "loss": 0.0199,
      "step": 10898
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.08789296448230743,
      "learning_rate": 7.347516700551843e-05,
      "loss": 0.0106,
      "step": 10899
    },
    {
      "epoch": 3.05,
      "grad_norm": 0.10897005349397659,
      "learning_rate": 7.345338367702585e-05,
      "loss": 0.0112,
      "step": 10900
    },
    {
      "epoch": 3.05,
      "eval_loss": 0.06481882184743881,
      "eval_runtime": 180.487,
      "eval_samples_per_second": 14.638,
      "eval_steps_per_second": 0.46,
      "eval_wer": 0.05,
      "step": 10900
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.14332865178585052,
      "learning_rate": 7.343160034853325e-05,
      "loss": 0.0182,
      "step": 10901
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.17020142078399658,
      "learning_rate": 7.340981702004065e-05,
      "loss": 0.03,
      "step": 10902
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.3108402490615845,
      "learning_rate": 7.338803369154806e-05,
      "loss": 0.0247,
      "step": 10903
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.08946339786052704,
      "learning_rate": 7.336625036305547e-05,
      "loss": 0.0068,
      "step": 10904
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.1571890115737915,
      "learning_rate": 7.334446703456287e-05,
      "loss": 0.0216,
      "step": 10905
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.24047936499118805,
      "learning_rate": 7.332268370607029e-05,
      "loss": 0.0258,
      "step": 10906
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.19877049326896667,
      "learning_rate": 7.330090037757769e-05,
      "loss": 0.0286,
      "step": 10907
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.22333067655563354,
      "learning_rate": 7.327911704908509e-05,
      "loss": 0.0052,
      "step": 10908
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.08379418402910233,
      "learning_rate": 7.32573337205925e-05,
      "loss": 0.0096,
      "step": 10909
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.18056325614452362,
      "learning_rate": 7.323555039209991e-05,
      "loss": 0.0165,
      "step": 10910
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.19194263219833374,
      "learning_rate": 7.321376706360731e-05,
      "loss": 0.0286,
      "step": 10911
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.09349361807107925,
      "learning_rate": 7.319198373511471e-05,
      "loss": 0.0115,
      "step": 10912
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.12316758930683136,
      "learning_rate": 7.317020040662213e-05,
      "loss": 0.0164,
      "step": 10913
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.2931157648563385,
      "learning_rate": 7.314841707812953e-05,
      "loss": 0.0211,
      "step": 10914
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.20440304279327393,
      "learning_rate": 7.312663374963693e-05,
      "loss": 0.0128,
      "step": 10915
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.25779488682746887,
      "learning_rate": 7.310485042114434e-05,
      "loss": 0.0294,
      "step": 10916
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.3862665295600891,
      "learning_rate": 7.308306709265175e-05,
      "loss": 0.055,
      "step": 10917
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.21768997609615326,
      "learning_rate": 7.306128376415915e-05,
      "loss": 0.0254,
      "step": 10918
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.24261674284934998,
      "learning_rate": 7.303950043566657e-05,
      "loss": 0.035,
      "step": 10919
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.10347204655408859,
      "learning_rate": 7.301771710717397e-05,
      "loss": 0.0079,
      "step": 10920
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.15919506549835205,
      "learning_rate": 7.299593377868137e-05,
      "loss": 0.0155,
      "step": 10921
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.48187145590782166,
      "learning_rate": 7.297415045018879e-05,
      "loss": 0.0159,
      "step": 10922
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.34560462832450867,
      "learning_rate": 7.295236712169619e-05,
      "loss": 0.0141,
      "step": 10923
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.04981592297554016,
      "learning_rate": 7.293058379320359e-05,
      "loss": 0.0077,
      "step": 10924
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.16668596863746643,
      "learning_rate": 7.2908800464711e-05,
      "loss": 0.0554,
      "step": 10925
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.08716128021478653,
      "learning_rate": 7.288701713621841e-05,
      "loss": 0.0106,
      "step": 10926
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.10153473168611526,
      "learning_rate": 7.286523380772581e-05,
      "loss": 0.007,
      "step": 10927
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.1477200835943222,
      "learning_rate": 7.284345047923321e-05,
      "loss": 0.0203,
      "step": 10928
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.4708377420902252,
      "learning_rate": 7.282166715074063e-05,
      "loss": 0.0289,
      "step": 10929
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.13409604132175446,
      "learning_rate": 7.279988382224803e-05,
      "loss": 0.0244,
      "step": 10930
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.12238756567239761,
      "learning_rate": 7.277810049375545e-05,
      "loss": 0.0144,
      "step": 10931
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.2020406424999237,
      "learning_rate": 7.275631716526284e-05,
      "loss": 0.0184,
      "step": 10932
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.21675920486450195,
      "learning_rate": 7.273453383677025e-05,
      "loss": 0.0203,
      "step": 10933
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.12528346478939056,
      "learning_rate": 7.271275050827765e-05,
      "loss": 0.02,
      "step": 10934
    },
    {
      "epoch": 3.06,
      "grad_norm": 0.1656234860420227,
      "learning_rate": 7.269096717978507e-05,
      "loss": 0.0158,
      "step": 10935
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.33728718757629395,
      "learning_rate": 7.266918385129247e-05,
      "loss": 0.0337,
      "step": 10936
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.12140174210071564,
      "learning_rate": 7.264740052279987e-05,
      "loss": 0.0174,
      "step": 10937
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.055993832647800446,
      "learning_rate": 7.262561719430729e-05,
      "loss": 0.0025,
      "step": 10938
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.09940442442893982,
      "learning_rate": 7.260383386581469e-05,
      "loss": 0.0048,
      "step": 10939
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.11113253235816956,
      "learning_rate": 7.25820505373221e-05,
      "loss": 0.0177,
      "step": 10940
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.09277191013097763,
      "learning_rate": 7.25602672088295e-05,
      "loss": 0.0071,
      "step": 10941
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.16805294156074524,
      "learning_rate": 7.253848388033691e-05,
      "loss": 0.0237,
      "step": 10942
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.15450319647789001,
      "learning_rate": 7.251670055184431e-05,
      "loss": 0.0157,
      "step": 10943
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.06975998729467392,
      "learning_rate": 7.249491722335173e-05,
      "loss": 0.0083,
      "step": 10944
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.1603294163942337,
      "learning_rate": 7.247313389485913e-05,
      "loss": 0.0278,
      "step": 10945
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.12679532170295715,
      "learning_rate": 7.245135056636653e-05,
      "loss": 0.0121,
      "step": 10946
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.14530393481254578,
      "learning_rate": 7.242956723787395e-05,
      "loss": 0.0229,
      "step": 10947
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.17256659269332886,
      "learning_rate": 7.240778390938135e-05,
      "loss": 0.022,
      "step": 10948
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.317032128572464,
      "learning_rate": 7.238600058088875e-05,
      "loss": 0.0104,
      "step": 10949
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.24908944964408875,
      "learning_rate": 7.236421725239615e-05,
      "loss": 0.0224,
      "step": 10950
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.14049850404262543,
      "learning_rate": 7.234243392390357e-05,
      "loss": 0.0114,
      "step": 10951
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.35225534439086914,
      "learning_rate": 7.232065059541097e-05,
      "loss": 0.0704,
      "step": 10952
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.9897146821022034,
      "learning_rate": 7.229886726691837e-05,
      "loss": 0.0802,
      "step": 10953
    },
    {
      "epoch": 3.07,
      "grad_norm": 1.5769495964050293,
      "learning_rate": 7.227708393842579e-05,
      "loss": 0.1233,
      "step": 10954
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.09140879660844803,
      "learning_rate": 7.225530060993319e-05,
      "loss": 0.0108,
      "step": 10955
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.1360602229833603,
      "learning_rate": 7.223351728144061e-05,
      "loss": 0.0078,
      "step": 10956
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.09843800961971283,
      "learning_rate": 7.2211733952948e-05,
      "loss": 0.0137,
      "step": 10957
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.21223625540733337,
      "learning_rate": 7.218995062445541e-05,
      "loss": 0.0281,
      "step": 10958
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.06481451541185379,
      "learning_rate": 7.216816729596281e-05,
      "loss": 0.0086,
      "step": 10959
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.07532869279384613,
      "learning_rate": 7.214638396747023e-05,
      "loss": 0.012,
      "step": 10960
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.09697745740413666,
      "learning_rate": 7.212460063897763e-05,
      "loss": 0.0108,
      "step": 10961
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.11634933948516846,
      "learning_rate": 7.210281731048503e-05,
      "loss": 0.0088,
      "step": 10962
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.039740581065416336,
      "learning_rate": 7.208103398199245e-05,
      "loss": 0.0027,
      "step": 10963
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.13509145379066467,
      "learning_rate": 7.205925065349985e-05,
      "loss": 0.0308,
      "step": 10964
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.02803419530391693,
      "learning_rate": 7.203746732500725e-05,
      "loss": 0.0022,
      "step": 10965
    },
    {
      "epoch": 3.07,
      "grad_norm": 1.204463243484497,
      "learning_rate": 7.201568399651465e-05,
      "loss": 0.0791,
      "step": 10966
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.11222989112138748,
      "learning_rate": 7.199390066802207e-05,
      "loss": 0.0092,
      "step": 10967
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.1399247944355011,
      "learning_rate": 7.197211733952947e-05,
      "loss": 0.0153,
      "step": 10968
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.15200267732143402,
      "learning_rate": 7.195033401103689e-05,
      "loss": 0.0202,
      "step": 10969
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.08809304237365723,
      "learning_rate": 7.192855068254429e-05,
      "loss": 0.0128,
      "step": 10970
    },
    {
      "epoch": 3.07,
      "grad_norm": 0.10789437592029572,
      "learning_rate": 7.190676735405169e-05,
      "loss": 0.0119,
      "step": 10971
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.2435159981250763,
      "learning_rate": 7.18849840255591e-05,
      "loss": 0.022,
      "step": 10972
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.4101155996322632,
      "learning_rate": 7.186320069706651e-05,
      "loss": 0.0236,
      "step": 10973
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.15758416056632996,
      "learning_rate": 7.184141736857391e-05,
      "loss": 0.0216,
      "step": 10974
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.1325981169939041,
      "learning_rate": 7.181963404008131e-05,
      "loss": 0.0216,
      "step": 10975
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.39283818006515503,
      "learning_rate": 7.179785071158873e-05,
      "loss": 0.0646,
      "step": 10976
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.05363843962550163,
      "learning_rate": 7.177606738309613e-05,
      "loss": 0.0076,
      "step": 10977
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.14458824694156647,
      "learning_rate": 7.175428405460353e-05,
      "loss": 0.0123,
      "step": 10978
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.2478184551000595,
      "learning_rate": 7.173250072611095e-05,
      "loss": 0.0165,
      "step": 10979
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.11063110828399658,
      "learning_rate": 7.171071739761835e-05,
      "loss": 0.0115,
      "step": 10980
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.14666962623596191,
      "learning_rate": 7.168893406912575e-05,
      "loss": 0.0327,
      "step": 10981
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.25676974654197693,
      "learning_rate": 7.166715074063315e-05,
      "loss": 0.0265,
      "step": 10982
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.15583562850952148,
      "learning_rate": 7.164536741214057e-05,
      "loss": 0.0087,
      "step": 10983
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.10533871501684189,
      "learning_rate": 7.162358408364797e-05,
      "loss": 0.0131,
      "step": 10984
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.24091146886348724,
      "learning_rate": 7.160180075515539e-05,
      "loss": 0.066,
      "step": 10985
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.26805683970451355,
      "learning_rate": 7.158001742666279e-05,
      "loss": 0.0386,
      "step": 10986
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.2298223078250885,
      "learning_rate": 7.155823409817019e-05,
      "loss": 0.0203,
      "step": 10987
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.4127608835697174,
      "learning_rate": 7.15364507696776e-05,
      "loss": 0.0174,
      "step": 10988
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.21460561454296112,
      "learning_rate": 7.151466744118501e-05,
      "loss": 0.0162,
      "step": 10989
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.4676705598831177,
      "learning_rate": 7.149288411269241e-05,
      "loss": 0.0375,
      "step": 10990
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.18729810416698456,
      "learning_rate": 7.147110078419981e-05,
      "loss": 0.0285,
      "step": 10991
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.2010236233472824,
      "learning_rate": 7.144931745570723e-05,
      "loss": 0.0132,
      "step": 10992
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.10824883729219437,
      "learning_rate": 7.142753412721463e-05,
      "loss": 0.0087,
      "step": 10993
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.18422792851924896,
      "learning_rate": 7.140575079872205e-05,
      "loss": 0.0127,
      "step": 10994
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.2612859010696411,
      "learning_rate": 7.138396747022944e-05,
      "loss": 0.0084,
      "step": 10995
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.13527800142765045,
      "learning_rate": 7.136218414173685e-05,
      "loss": 0.015,
      "step": 10996
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.16629917919635773,
      "learning_rate": 7.134040081324425e-05,
      "loss": 0.023,
      "step": 10997
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.09587794542312622,
      "learning_rate": 7.131861748475167e-05,
      "loss": 0.0069,
      "step": 10998
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.11544785648584366,
      "learning_rate": 7.129683415625907e-05,
      "loss": 0.0177,
      "step": 10999
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.11001477390527725,
      "learning_rate": 7.127505082776647e-05,
      "loss": 0.0146,
      "step": 11000
    },
    {
      "epoch": 3.08,
      "eval_loss": 0.06376554816961288,
      "eval_runtime": 180.3668,
      "eval_samples_per_second": 14.648,
      "eval_steps_per_second": 0.46,
      "eval_wer": 0.05142800476001587,
      "step": 11000
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.15270552039146423,
      "learning_rate": 7.125326749927389e-05,
      "loss": 0.0175,
      "step": 11001
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.17401134967803955,
      "learning_rate": 7.123148417078129e-05,
      "loss": 0.0164,
      "step": 11002
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.11529704928398132,
      "learning_rate": 7.120970084228869e-05,
      "loss": 0.0073,
      "step": 11003
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.18656383454799652,
      "learning_rate": 7.11879175137961e-05,
      "loss": 0.0427,
      "step": 11004
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.17266316711902618,
      "learning_rate": 7.116613418530351e-05,
      "loss": 0.0338,
      "step": 11005
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.09455615282058716,
      "learning_rate": 7.114435085681091e-05,
      "loss": 0.0083,
      "step": 11006
    },
    {
      "epoch": 3.08,
      "grad_norm": 0.1299392580986023,
      "learning_rate": 7.112256752831833e-05,
      "loss": 0.0155,
      "step": 11007
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.20912642776966095,
      "learning_rate": 7.110078419982573e-05,
      "loss": 0.0167,
      "step": 11008
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.21564334630966187,
      "learning_rate": 7.107900087133313e-05,
      "loss": 0.0346,
      "step": 11009
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.18624931573867798,
      "learning_rate": 7.105721754284055e-05,
      "loss": 0.0495,
      "step": 11010
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.34073662757873535,
      "learning_rate": 7.103543421434795e-05,
      "loss": 0.0247,
      "step": 11011
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.17487144470214844,
      "learning_rate": 7.101365088585535e-05,
      "loss": 0.0228,
      "step": 11012
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.07419071346521378,
      "learning_rate": 7.099186755736275e-05,
      "loss": 0.004,
      "step": 11013
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.19678793847560883,
      "learning_rate": 7.097008422887017e-05,
      "loss": 0.0166,
      "step": 11014
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.35738834738731384,
      "learning_rate": 7.094830090037757e-05,
      "loss": 0.0144,
      "step": 11015
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.02909332513809204,
      "learning_rate": 7.092651757188497e-05,
      "loss": 0.0015,
      "step": 11016
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.10520117729902267,
      "learning_rate": 7.090473424339239e-05,
      "loss": 0.0083,
      "step": 11017
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.05192045122385025,
      "learning_rate": 7.088295091489979e-05,
      "loss": 0.0036,
      "step": 11018
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.2486351728439331,
      "learning_rate": 7.08611675864072e-05,
      "loss": 0.0238,
      "step": 11019
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.1900392770767212,
      "learning_rate": 7.08393842579146e-05,
      "loss": 0.0168,
      "step": 11020
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.11877544969320297,
      "learning_rate": 7.081760092942201e-05,
      "loss": 0.0057,
      "step": 11021
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.34341466426849365,
      "learning_rate": 7.079581760092941e-05,
      "loss": 0.0569,
      "step": 11022
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.08594366908073425,
      "learning_rate": 7.077403427243683e-05,
      "loss": 0.0044,
      "step": 11023
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.08944986760616302,
      "learning_rate": 7.075225094394423e-05,
      "loss": 0.0096,
      "step": 11024
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.11684569716453552,
      "learning_rate": 7.073046761545163e-05,
      "loss": 0.0055,
      "step": 11025
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.19053404033184052,
      "learning_rate": 7.070868428695905e-05,
      "loss": 0.0134,
      "step": 11026
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.07204949110746384,
      "learning_rate": 7.068690095846645e-05,
      "loss": 0.0066,
      "step": 11027
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.10676607489585876,
      "learning_rate": 7.066511762997385e-05,
      "loss": 0.0075,
      "step": 11028
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.39370447397232056,
      "learning_rate": 7.064333430148125e-05,
      "loss": 0.036,
      "step": 11029
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.10659807920455933,
      "learning_rate": 7.062155097298867e-05,
      "loss": 0.0116,
      "step": 11030
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.18445706367492676,
      "learning_rate": 7.059976764449607e-05,
      "loss": 0.0256,
      "step": 11031
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.2549252212047577,
      "learning_rate": 7.057798431600349e-05,
      "loss": 0.0333,
      "step": 11032
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.1591225415468216,
      "learning_rate": 7.055620098751089e-05,
      "loss": 0.0108,
      "step": 11033
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.022378163412213326,
      "learning_rate": 7.053441765901829e-05,
      "loss": 0.0014,
      "step": 11034
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.2781974971294403,
      "learning_rate": 7.05126343305257e-05,
      "loss": 0.017,
      "step": 11035
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.1204298883676529,
      "learning_rate": 7.049085100203311e-05,
      "loss": 0.0119,
      "step": 11036
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.08596834540367126,
      "learning_rate": 7.046906767354051e-05,
      "loss": 0.0095,
      "step": 11037
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.1643161177635193,
      "learning_rate": 7.044728434504791e-05,
      "loss": 0.01,
      "step": 11038
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.1577882021665573,
      "learning_rate": 7.042550101655533e-05,
      "loss": 0.0097,
      "step": 11039
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.4338149428367615,
      "learning_rate": 7.040371768806273e-05,
      "loss": 0.0242,
      "step": 11040
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.15595944225788116,
      "learning_rate": 7.038193435957013e-05,
      "loss": 0.0248,
      "step": 11041
    },
    {
      "epoch": 3.09,
      "grad_norm": 0.20391181111335754,
      "learning_rate": 7.036015103107755e-05,
      "loss": 0.0452,
      "step": 11042
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.04899126663804054,
      "learning_rate": 7.033836770258495e-05,
      "loss": 0.004,
      "step": 11043
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.12448962032794952,
      "learning_rate": 7.031658437409235e-05,
      "loss": 0.0051,
      "step": 11044
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.09677351266145706,
      "learning_rate": 7.029480104559975e-05,
      "loss": 0.0168,
      "step": 11045
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.18167151510715485,
      "learning_rate": 7.027301771710717e-05,
      "loss": 0.0218,
      "step": 11046
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.07601270824670792,
      "learning_rate": 7.025123438861457e-05,
      "loss": 0.003,
      "step": 11047
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.042664799839258194,
      "learning_rate": 7.022945106012199e-05,
      "loss": 0.003,
      "step": 11048
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.13593223690986633,
      "learning_rate": 7.020766773162939e-05,
      "loss": 0.01,
      "step": 11049
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.18366768956184387,
      "learning_rate": 7.018588440313679e-05,
      "loss": 0.0179,
      "step": 11050
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.20661714673042297,
      "learning_rate": 7.016410107464419e-05,
      "loss": 0.0339,
      "step": 11051
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.10568757355213165,
      "learning_rate": 7.014231774615161e-05,
      "loss": 0.0055,
      "step": 11052
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.39292481541633606,
      "learning_rate": 7.012053441765901e-05,
      "loss": 0.0291,
      "step": 11053
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.5556982159614563,
      "learning_rate": 7.009875108916641e-05,
      "loss": 0.0731,
      "step": 11054
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.12848937511444092,
      "learning_rate": 7.007696776067383e-05,
      "loss": 0.0237,
      "step": 11055
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.13317567110061646,
      "learning_rate": 7.005518443218123e-05,
      "loss": 0.0161,
      "step": 11056
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.15277571976184845,
      "learning_rate": 7.003340110368865e-05,
      "loss": 0.017,
      "step": 11057
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.09806656837463379,
      "learning_rate": 7.001161777519603e-05,
      "loss": 0.0136,
      "step": 11058
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.24546414613723755,
      "learning_rate": 6.998983444670345e-05,
      "loss": 0.0186,
      "step": 11059
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.1595270335674286,
      "learning_rate": 6.996805111821085e-05,
      "loss": 0.0201,
      "step": 11060
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.09906657040119171,
      "learning_rate": 6.994626778971827e-05,
      "loss": 0.0098,
      "step": 11061
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.24332451820373535,
      "learning_rate": 6.992448446122567e-05,
      "loss": 0.0452,
      "step": 11062
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.2559380829334259,
      "learning_rate": 6.990270113273307e-05,
      "loss": 0.0542,
      "step": 11063
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.19208182394504547,
      "learning_rate": 6.988091780424049e-05,
      "loss": 0.0155,
      "step": 11064
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.12530066072940826,
      "learning_rate": 6.985913447574789e-05,
      "loss": 0.0064,
      "step": 11065
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.9858490824699402,
      "learning_rate": 6.983735114725529e-05,
      "loss": 0.0156,
      "step": 11066
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.09253177046775818,
      "learning_rate": 6.98155678187627e-05,
      "loss": 0.01,
      "step": 11067
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.08939825743436813,
      "learning_rate": 6.979378449027011e-05,
      "loss": 0.0145,
      "step": 11068
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.23964105546474457,
      "learning_rate": 6.977200116177751e-05,
      "loss": 0.0172,
      "step": 11069
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.3493354320526123,
      "learning_rate": 6.975021783328491e-05,
      "loss": 0.0163,
      "step": 11070
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.25602012872695923,
      "learning_rate": 6.972843450479233e-05,
      "loss": 0.0292,
      "step": 11071
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.059641968458890915,
      "learning_rate": 6.970665117629973e-05,
      "loss": 0.0064,
      "step": 11072
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.08938001841306686,
      "learning_rate": 6.968486784780715e-05,
      "loss": 0.0123,
      "step": 11073
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.17623330652713776,
      "learning_rate": 6.966308451931455e-05,
      "loss": 0.0142,
      "step": 11074
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.2381599396467209,
      "learning_rate": 6.964130119082195e-05,
      "loss": 0.0147,
      "step": 11075
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.23614996671676636,
      "learning_rate": 6.961951786232935e-05,
      "loss": 0.0223,
      "step": 11076
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.22262461483478546,
      "learning_rate": 6.959773453383677e-05,
      "loss": 0.0193,
      "step": 11077
    },
    {
      "epoch": 3.1,
      "grad_norm": 0.14000165462493896,
      "learning_rate": 6.957595120534417e-05,
      "loss": 0.0128,
      "step": 11078
    },
    {
      "epoch": 3.11,
      "grad_norm": 1.4398846626281738,
      "learning_rate": 6.955416787685157e-05,
      "loss": 0.0719,
      "step": 11079
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.1411537528038025,
      "learning_rate": 6.953238454835899e-05,
      "loss": 0.017,
      "step": 11080
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.14861862361431122,
      "learning_rate": 6.951060121986639e-05,
      "loss": 0.0094,
      "step": 11081
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.27122947573661804,
      "learning_rate": 6.94888178913738e-05,
      "loss": 0.0542,
      "step": 11082
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.1883683204650879,
      "learning_rate": 6.94670345628812e-05,
      "loss": 0.0137,
      "step": 11083
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.10611096024513245,
      "learning_rate": 6.944525123438861e-05,
      "loss": 0.0104,
      "step": 11084
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.25972533226013184,
      "learning_rate": 6.942346790589601e-05,
      "loss": 0.0208,
      "step": 11085
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.2718032896518707,
      "learning_rate": 6.940168457740343e-05,
      "loss": 0.0248,
      "step": 11086
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.1815631240606308,
      "learning_rate": 6.937990124891083e-05,
      "loss": 0.0236,
      "step": 11087
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.12200731039047241,
      "learning_rate": 6.935811792041823e-05,
      "loss": 0.0101,
      "step": 11088
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.3470447361469269,
      "learning_rate": 6.933633459192565e-05,
      "loss": 0.0266,
      "step": 11089
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.10859949886798859,
      "learning_rate": 6.931455126343305e-05,
      "loss": 0.0084,
      "step": 11090
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.2124020904302597,
      "learning_rate": 6.929276793494045e-05,
      "loss": 0.0164,
      "step": 11091
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.1712193489074707,
      "learning_rate": 6.927098460644785e-05,
      "loss": 0.0191,
      "step": 11092
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.17697706818580627,
      "learning_rate": 6.924920127795527e-05,
      "loss": 0.0236,
      "step": 11093
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.19968554377555847,
      "learning_rate": 6.922741794946267e-05,
      "loss": 0.031,
      "step": 11094
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.12439227104187012,
      "learning_rate": 6.920563462097007e-05,
      "loss": 0.0103,
      "step": 11095
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.1650855839252472,
      "learning_rate": 6.918385129247749e-05,
      "loss": 0.0239,
      "step": 11096
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.13150514662265778,
      "learning_rate": 6.916206796398489e-05,
      "loss": 0.0168,
      "step": 11097
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.10336790978908539,
      "learning_rate": 6.91402846354923e-05,
      "loss": 0.0128,
      "step": 11098
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.3169976472854614,
      "learning_rate": 6.911850130699971e-05,
      "loss": 0.0184,
      "step": 11099
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.11789318174123764,
      "learning_rate": 6.909671797850711e-05,
      "loss": 0.0064,
      "step": 11100
    },
    {
      "epoch": 3.11,
      "eval_loss": 0.06645573675632477,
      "eval_runtime": 179.2819,
      "eval_samples_per_second": 14.737,
      "eval_steps_per_second": 0.463,
      "eval_wer": 0.04863149543831813,
      "step": 11100
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.2215718924999237,
      "learning_rate": 6.907493465001451e-05,
      "loss": 0.0353,
      "step": 11101
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.29670006036758423,
      "learning_rate": 6.905315132152193e-05,
      "loss": 0.0296,
      "step": 11102
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.8165278434753418,
      "learning_rate": 6.903136799302933e-05,
      "loss": 0.0593,
      "step": 11103
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.8540342450141907,
      "learning_rate": 6.900958466453673e-05,
      "loss": 0.0398,
      "step": 11104
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.21514548361301422,
      "learning_rate": 6.898780133604415e-05,
      "loss": 0.02,
      "step": 11105
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.116752028465271,
      "learning_rate": 6.896601800755155e-05,
      "loss": 0.0195,
      "step": 11106
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.13691075146198273,
      "learning_rate": 6.894423467905895e-05,
      "loss": 0.014,
      "step": 11107
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.18393315374851227,
      "learning_rate": 6.892245135056635e-05,
      "loss": 0.0097,
      "step": 11108
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.13312967121601105,
      "learning_rate": 6.890066802207377e-05,
      "loss": 0.0204,
      "step": 11109
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.22529558837413788,
      "learning_rate": 6.887888469358117e-05,
      "loss": 0.0358,
      "step": 11110
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.08321863412857056,
      "learning_rate": 6.885710136508859e-05,
      "loss": 0.0094,
      "step": 11111
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.13981154561042786,
      "learning_rate": 6.883531803659599e-05,
      "loss": 0.0231,
      "step": 11112
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.2669287919998169,
      "learning_rate": 6.881353470810339e-05,
      "loss": 0.0463,
      "step": 11113
    },
    {
      "epoch": 3.11,
      "grad_norm": 0.09949003159999847,
      "learning_rate": 6.87917513796108e-05,
      "loss": 0.0118,
      "step": 11114
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.2382722645998001,
      "learning_rate": 6.876996805111821e-05,
      "loss": 0.0472,
      "step": 11115
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.44119590520858765,
      "learning_rate": 6.874818472262561e-05,
      "loss": 0.053,
      "step": 11116
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.4189288914203644,
      "learning_rate": 6.872640139413301e-05,
      "loss": 0.0272,
      "step": 11117
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.236420676112175,
      "learning_rate": 6.870461806564043e-05,
      "loss": 0.0274,
      "step": 11118
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.18947245180606842,
      "learning_rate": 6.868283473714783e-05,
      "loss": 0.0293,
      "step": 11119
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.25265613198280334,
      "learning_rate": 6.866105140865524e-05,
      "loss": 0.0234,
      "step": 11120
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.12768031656742096,
      "learning_rate": 6.863926808016265e-05,
      "loss": 0.0114,
      "step": 11121
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.16850320994853973,
      "learning_rate": 6.861748475167005e-05,
      "loss": 0.0075,
      "step": 11122
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.08571167290210724,
      "learning_rate": 6.859570142317745e-05,
      "loss": 0.0085,
      "step": 11123
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.13513734936714172,
      "learning_rate": 6.857391809468487e-05,
      "loss": 0.0247,
      "step": 11124
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.23371745645999908,
      "learning_rate": 6.855213476619227e-05,
      "loss": 0.0232,
      "step": 11125
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.1059955283999443,
      "learning_rate": 6.853035143769967e-05,
      "loss": 0.0231,
      "step": 11126
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.12416883558034897,
      "learning_rate": 6.850856810920709e-05,
      "loss": 0.0123,
      "step": 11127
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.049437351524829865,
      "learning_rate": 6.848678478071449e-05,
      "loss": 0.004,
      "step": 11128
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.777193546295166,
      "learning_rate": 6.846500145222189e-05,
      "loss": 0.1392,
      "step": 11129
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.09249811619520187,
      "learning_rate": 6.844321812372929e-05,
      "loss": 0.0183,
      "step": 11130
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.3699599504470825,
      "learning_rate": 6.842143479523671e-05,
      "loss": 0.0247,
      "step": 11131
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.19000335037708282,
      "learning_rate": 6.839965146674411e-05,
      "loss": 0.0357,
      "step": 11132
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.14250677824020386,
      "learning_rate": 6.837786813825151e-05,
      "loss": 0.0442,
      "step": 11133
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.15822085738182068,
      "learning_rate": 6.835608480975893e-05,
      "loss": 0.0496,
      "step": 11134
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.11872711032629013,
      "learning_rate": 6.833430148126633e-05,
      "loss": 0.0095,
      "step": 11135
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.2501869201660156,
      "learning_rate": 6.831251815277375e-05,
      "loss": 0.0176,
      "step": 11136
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.14715373516082764,
      "learning_rate": 6.829073482428113e-05,
      "loss": 0.012,
      "step": 11137
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.2845108211040497,
      "learning_rate": 6.826895149578855e-05,
      "loss": 0.0524,
      "step": 11138
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.11717217415571213,
      "learning_rate": 6.824716816729595e-05,
      "loss": 0.0114,
      "step": 11139
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.09800607711076736,
      "learning_rate": 6.822538483880337e-05,
      "loss": 0.0112,
      "step": 11140
    },
    {
      "epoch": 3.12,
      "grad_norm": 1.2627160549163818,
      "learning_rate": 6.820360151031077e-05,
      "loss": 0.1178,
      "step": 11141
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.10749299824237823,
      "learning_rate": 6.818181818181817e-05,
      "loss": 0.0145,
      "step": 11142
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.12298500537872314,
      "learning_rate": 6.816003485332559e-05,
      "loss": 0.0264,
      "step": 11143
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.0776435136795044,
      "learning_rate": 6.813825152483299e-05,
      "loss": 0.011,
      "step": 11144
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.039794716984033585,
      "learning_rate": 6.81164681963404e-05,
      "loss": 0.0044,
      "step": 11145
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.0768195241689682,
      "learning_rate": 6.809468486784779e-05,
      "loss": 0.0047,
      "step": 11146
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.08199720829725266,
      "learning_rate": 6.807290153935521e-05,
      "loss": 0.0181,
      "step": 11147
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.11144206672906876,
      "learning_rate": 6.805111821086261e-05,
      "loss": 0.0178,
      "step": 11148
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.1281770020723343,
      "learning_rate": 6.802933488237003e-05,
      "loss": 0.0145,
      "step": 11149
    },
    {
      "epoch": 3.12,
      "grad_norm": 0.26409411430358887,
      "learning_rate": 6.800755155387743e-05,
      "loss": 0.0153,
      "step": 11150
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.37273281812667847,
      "learning_rate": 6.798576822538483e-05,
      "loss": 0.0361,
      "step": 11151
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.13320256769657135,
      "learning_rate": 6.796398489689225e-05,
      "loss": 0.0112,
      "step": 11152
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.15045174956321716,
      "learning_rate": 6.794220156839965e-05,
      "loss": 0.0144,
      "step": 11153
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.4601695239543915,
      "learning_rate": 6.792041823990705e-05,
      "loss": 0.0341,
      "step": 11154
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.04487399011850357,
      "learning_rate": 6.789863491141445e-05,
      "loss": 0.0056,
      "step": 11155
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.15964634716510773,
      "learning_rate": 6.787685158292187e-05,
      "loss": 0.028,
      "step": 11156
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.10745396465063095,
      "learning_rate": 6.785506825442927e-05,
      "loss": 0.0177,
      "step": 11157
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.07242433726787567,
      "learning_rate": 6.783328492593667e-05,
      "loss": 0.0057,
      "step": 11158
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.1351197063922882,
      "learning_rate": 6.781150159744409e-05,
      "loss": 0.0278,
      "step": 11159
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.10904242843389511,
      "learning_rate": 6.778971826895149e-05,
      "loss": 0.0103,
      "step": 11160
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.08833101391792297,
      "learning_rate": 6.77679349404589e-05,
      "loss": 0.0093,
      "step": 11161
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.04775143042206764,
      "learning_rate": 6.774615161196629e-05,
      "loss": 0.0045,
      "step": 11162
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.19554738700389862,
      "learning_rate": 6.772436828347371e-05,
      "loss": 0.0188,
      "step": 11163
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.2523031234741211,
      "learning_rate": 6.770258495498111e-05,
      "loss": 0.0198,
      "step": 11164
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.0522279292345047,
      "learning_rate": 6.768080162648853e-05,
      "loss": 0.0048,
      "step": 11165
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.15084409713745117,
      "learning_rate": 6.765901829799593e-05,
      "loss": 0.0261,
      "step": 11166
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.11855927109718323,
      "learning_rate": 6.763723496950333e-05,
      "loss": 0.0085,
      "step": 11167
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.1360320895910263,
      "learning_rate": 6.761545164101075e-05,
      "loss": 0.016,
      "step": 11168
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.10844893008470535,
      "learning_rate": 6.759366831251815e-05,
      "loss": 0.0171,
      "step": 11169
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.22318701446056366,
      "learning_rate": 6.757188498402556e-05,
      "loss": 0.0382,
      "step": 11170
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.0824282094836235,
      "learning_rate": 6.755010165553295e-05,
      "loss": 0.0081,
      "step": 11171
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.1960580199956894,
      "learning_rate": 6.752831832704037e-05,
      "loss": 0.0256,
      "step": 11172
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.18022701144218445,
      "learning_rate": 6.750653499854777e-05,
      "loss": 0.0525,
      "step": 11173
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.1885475218296051,
      "learning_rate": 6.748475167005518e-05,
      "loss": 0.0164,
      "step": 11174
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.3046017289161682,
      "learning_rate": 6.746296834156259e-05,
      "loss": 0.0193,
      "step": 11175
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.07752317935228348,
      "learning_rate": 6.744118501306999e-05,
      "loss": 0.0055,
      "step": 11176
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.2013574093580246,
      "learning_rate": 6.74194016845774e-05,
      "loss": 0.0418,
      "step": 11177
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.5138131976127625,
      "learning_rate": 6.73976183560848e-05,
      "loss": 0.0515,
      "step": 11178
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.7336254119873047,
      "learning_rate": 6.737583502759221e-05,
      "loss": 0.0379,
      "step": 11179
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.1553589105606079,
      "learning_rate": 6.735405169909961e-05,
      "loss": 0.0258,
      "step": 11180
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.2417445182800293,
      "learning_rate": 6.733226837060703e-05,
      "loss": 0.0326,
      "step": 11181
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.12262420356273651,
      "learning_rate": 6.731048504211443e-05,
      "loss": 0.0225,
      "step": 11182
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.12928982079029083,
      "learning_rate": 6.728870171362183e-05,
      "loss": 0.0136,
      "step": 11183
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.1929517239332199,
      "learning_rate": 6.726691838512925e-05,
      "loss": 0.0249,
      "step": 11184
    },
    {
      "epoch": 3.13,
      "grad_norm": 0.19963489472866058,
      "learning_rate": 6.724513505663665e-05,
      "loss": 0.0217,
      "step": 11185
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.13653825223445892,
      "learning_rate": 6.722335172814405e-05,
      "loss": 0.0154,
      "step": 11186
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.10795732587575912,
      "learning_rate": 6.720156839965147e-05,
      "loss": 0.012,
      "step": 11187
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.2669341564178467,
      "learning_rate": 6.717978507115887e-05,
      "loss": 0.0324,
      "step": 11188
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.2189037799835205,
      "learning_rate": 6.715800174266627e-05,
      "loss": 0.0221,
      "step": 11189
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.228875994682312,
      "learning_rate": 6.713621841417369e-05,
      "loss": 0.0388,
      "step": 11190
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.18911296129226685,
      "learning_rate": 6.711443508568109e-05,
      "loss": 0.0137,
      "step": 11191
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.2096867561340332,
      "learning_rate": 6.709265175718849e-05,
      "loss": 0.0211,
      "step": 11192
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.15223316848278046,
      "learning_rate": 6.707086842869589e-05,
      "loss": 0.0149,
      "step": 11193
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.19224731624126434,
      "learning_rate": 6.704908510020331e-05,
      "loss": 0.0337,
      "step": 11194
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.07292449474334717,
      "learning_rate": 6.702730177171071e-05,
      "loss": 0.0147,
      "step": 11195
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.6378577351570129,
      "learning_rate": 6.700551844321811e-05,
      "loss": 0.0666,
      "step": 11196
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.11453574895858765,
      "learning_rate": 6.698373511472553e-05,
      "loss": 0.0094,
      "step": 11197
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.3206788897514343,
      "learning_rate": 6.696195178623293e-05,
      "loss": 0.023,
      "step": 11198
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.12627185881137848,
      "learning_rate": 6.694016845774034e-05,
      "loss": 0.0083,
      "step": 11199
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.12180683016777039,
      "learning_rate": 6.691838512924775e-05,
      "loss": 0.0223,
      "step": 11200
    },
    {
      "epoch": 3.14,
      "eval_loss": 0.06535537540912628,
      "eval_runtime": 418.2537,
      "eval_samples_per_second": 6.317,
      "eval_steps_per_second": 0.198,
      "eval_wer": 0.04871082903609679,
      "step": 11200
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.16068686544895172,
      "learning_rate": 6.689660180075515e-05,
      "loss": 0.0199,
      "step": 11201
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.4682510495185852,
      "learning_rate": 6.687481847226255e-05,
      "loss": 0.0238,
      "step": 11202
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.32375675439834595,
      "learning_rate": 6.685303514376997e-05,
      "loss": 0.0116,
      "step": 11203
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.33981236815452576,
      "learning_rate": 6.683125181527737e-05,
      "loss": 0.0499,
      "step": 11204
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.10767266154289246,
      "learning_rate": 6.680946848678477e-05,
      "loss": 0.0104,
      "step": 11205
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.20040959119796753,
      "learning_rate": 6.678768515829219e-05,
      "loss": 0.0353,
      "step": 11206
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.21540240943431854,
      "learning_rate": 6.676590182979959e-05,
      "loss": 0.015,
      "step": 11207
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.3029818832874298,
      "learning_rate": 6.6744118501307e-05,
      "loss": 0.0566,
      "step": 11208
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.0785333663225174,
      "learning_rate": 6.672233517281439e-05,
      "loss": 0.0144,
      "step": 11209
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.09266554564237595,
      "learning_rate": 6.670055184432181e-05,
      "loss": 0.0095,
      "step": 11210
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.39594364166259766,
      "learning_rate": 6.667876851582921e-05,
      "loss": 0.0383,
      "step": 11211
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.13125453889369965,
      "learning_rate": 6.665698518733662e-05,
      "loss": 0.0178,
      "step": 11212
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.18402652442455292,
      "learning_rate": 6.663520185884403e-05,
      "loss": 0.0177,
      "step": 11213
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.1506926268339157,
      "learning_rate": 6.661341853035143e-05,
      "loss": 0.0105,
      "step": 11214
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.20722877979278564,
      "learning_rate": 6.659163520185884e-05,
      "loss": 0.0193,
      "step": 11215
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.14760659635066986,
      "learning_rate": 6.656985187336625e-05,
      "loss": 0.0113,
      "step": 11216
    },
    {
      "epoch": 3.14,
      "grad_norm": 1.7611393928527832,
      "learning_rate": 6.654806854487365e-05,
      "loss": 0.0548,
      "step": 11217
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.2096126824617386,
      "learning_rate": 6.652628521638105e-05,
      "loss": 0.032,
      "step": 11218
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.3127112090587616,
      "learning_rate": 6.650450188788847e-05,
      "loss": 0.0367,
      "step": 11219
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.0913650244474411,
      "learning_rate": 6.648271855939587e-05,
      "loss": 0.014,
      "step": 11220
    },
    {
      "epoch": 3.14,
      "grad_norm": 0.5458922982215881,
      "learning_rate": 6.646093523090327e-05,
      "loss": 0.0148,
      "step": 11221
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.11711405217647552,
      "learning_rate": 6.643915190241069e-05,
      "loss": 0.0348,
      "step": 11222
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.11033714562654495,
      "learning_rate": 6.641736857391809e-05,
      "loss": 0.0131,
      "step": 11223
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.12983685731887817,
      "learning_rate": 6.63955852454255e-05,
      "loss": 0.0214,
      "step": 11224
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.5756191611289978,
      "learning_rate": 6.637380191693289e-05,
      "loss": 0.0358,
      "step": 11225
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.12397008389234543,
      "learning_rate": 6.635201858844031e-05,
      "loss": 0.04,
      "step": 11226
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.030394090339541435,
      "learning_rate": 6.633023525994771e-05,
      "loss": 0.0022,
      "step": 11227
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.3660276532173157,
      "learning_rate": 6.630845193145513e-05,
      "loss": 0.0408,
      "step": 11228
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.16682009398937225,
      "learning_rate": 6.628666860296253e-05,
      "loss": 0.008,
      "step": 11229
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.12344727665185928,
      "learning_rate": 6.626488527446993e-05,
      "loss": 0.0097,
      "step": 11230
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.1682959794998169,
      "learning_rate": 6.624310194597734e-05,
      "loss": 0.0297,
      "step": 11231
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.0835699588060379,
      "learning_rate": 6.622131861748475e-05,
      "loss": 0.0074,
      "step": 11232
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.12759383022785187,
      "learning_rate": 6.619953528899216e-05,
      "loss": 0.0107,
      "step": 11233
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.10798656195402145,
      "learning_rate": 6.617775196049955e-05,
      "loss": 0.0216,
      "step": 11234
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.15113700926303864,
      "learning_rate": 6.615596863200697e-05,
      "loss": 0.0106,
      "step": 11235
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.10459344834089279,
      "learning_rate": 6.613418530351437e-05,
      "loss": 0.016,
      "step": 11236
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.2755294442176819,
      "learning_rate": 6.611240197502178e-05,
      "loss": 0.0465,
      "step": 11237
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.1306685507297516,
      "learning_rate": 6.609061864652919e-05,
      "loss": 0.0289,
      "step": 11238
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.557067334651947,
      "learning_rate": 6.606883531803659e-05,
      "loss": 0.0284,
      "step": 11239
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.1481052190065384,
      "learning_rate": 6.6047051989544e-05,
      "loss": 0.0103,
      "step": 11240
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.19145306944847107,
      "learning_rate": 6.60252686610514e-05,
      "loss": 0.0502,
      "step": 11241
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.410929411649704,
      "learning_rate": 6.600348533255881e-05,
      "loss": 0.0183,
      "step": 11242
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.14213497936725616,
      "learning_rate": 6.598170200406621e-05,
      "loss": 0.0161,
      "step": 11243
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.15269853174686432,
      "learning_rate": 6.595991867557363e-05,
      "loss": 0.0159,
      "step": 11244
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.2121652215719223,
      "learning_rate": 6.593813534708103e-05,
      "loss": 0.0432,
      "step": 11245
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.16362425684928894,
      "learning_rate": 6.591635201858843e-05,
      "loss": 0.0092,
      "step": 11246
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.1296198070049286,
      "learning_rate": 6.589456869009584e-05,
      "loss": 0.011,
      "step": 11247
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.17290474474430084,
      "learning_rate": 6.587278536160325e-05,
      "loss": 0.0254,
      "step": 11248
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.07921504229307175,
      "learning_rate": 6.585100203311065e-05,
      "loss": 0.0086,
      "step": 11249
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.05191333219408989,
      "learning_rate": 6.582921870461805e-05,
      "loss": 0.0037,
      "step": 11250
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.0629463642835617,
      "learning_rate": 6.580743537612547e-05,
      "loss": 0.0152,
      "step": 11251
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.09384710341691971,
      "learning_rate": 6.578565204763287e-05,
      "loss": 0.0254,
      "step": 11252
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.05388898402452469,
      "learning_rate": 6.576386871914028e-05,
      "loss": 0.0031,
      "step": 11253
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.35005733370780945,
      "learning_rate": 6.574208539064769e-05,
      "loss": 0.039,
      "step": 11254
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.1818246841430664,
      "learning_rate": 6.572030206215509e-05,
      "loss": 0.0213,
      "step": 11255
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.19179290533065796,
      "learning_rate": 6.56985187336625e-05,
      "loss": 0.0158,
      "step": 11256
    },
    {
      "epoch": 3.15,
      "grad_norm": 0.2547154426574707,
      "learning_rate": 6.56767354051699e-05,
      "loss": 0.0531,
      "step": 11257
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.1651311218738556,
      "learning_rate": 6.565495207667731e-05,
      "loss": 0.0419,
      "step": 11258
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.20643027126789093,
      "learning_rate": 6.563316874818471e-05,
      "loss": 0.0107,
      "step": 11259
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.16085520386695862,
      "learning_rate": 6.561138541969213e-05,
      "loss": 0.019,
      "step": 11260
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.1716717630624771,
      "learning_rate": 6.558960209119953e-05,
      "loss": 0.0352,
      "step": 11261
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.13482730090618134,
      "learning_rate": 6.556781876270694e-05,
      "loss": 0.0148,
      "step": 11262
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.11996400356292725,
      "learning_rate": 6.554603543421435e-05,
      "loss": 0.033,
      "step": 11263
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.24077670276165009,
      "learning_rate": 6.552425210572175e-05,
      "loss": 0.0128,
      "step": 11264
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.21818847954273224,
      "learning_rate": 6.550246877722915e-05,
      "loss": 0.0098,
      "step": 11265
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.10129502415657043,
      "learning_rate": 6.548068544873656e-05,
      "loss": 0.0086,
      "step": 11266
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.5882168412208557,
      "learning_rate": 6.545890212024397e-05,
      "loss": 0.0587,
      "step": 11267
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.10958606004714966,
      "learning_rate": 6.543711879175137e-05,
      "loss": 0.0126,
      "step": 11268
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.16149842739105225,
      "learning_rate": 6.541533546325878e-05,
      "loss": 0.0241,
      "step": 11269
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.12576769292354584,
      "learning_rate": 6.539355213476619e-05,
      "loss": 0.013,
      "step": 11270
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.23740120232105255,
      "learning_rate": 6.537176880627359e-05,
      "loss": 0.0164,
      "step": 11271
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.3300169110298157,
      "learning_rate": 6.534998547778099e-05,
      "loss": 0.0175,
      "step": 11272
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.1911388635635376,
      "learning_rate": 6.53282021492884e-05,
      "loss": 0.0214,
      "step": 11273
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.1671401411294937,
      "learning_rate": 6.530641882079581e-05,
      "loss": 0.0141,
      "step": 11274
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.21230433881282806,
      "learning_rate": 6.528463549230322e-05,
      "loss": 0.03,
      "step": 11275
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.13875451683998108,
      "learning_rate": 6.526285216381063e-05,
      "loss": 0.0181,
      "step": 11276
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.06208261847496033,
      "learning_rate": 6.524106883531803e-05,
      "loss": 0.0102,
      "step": 11277
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.18409429490566254,
      "learning_rate": 6.521928550682544e-05,
      "loss": 0.0201,
      "step": 11278
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.18937011063098907,
      "learning_rate": 6.519750217833285e-05,
      "loss": 0.0275,
      "step": 11279
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.07292377203702927,
      "learning_rate": 6.517571884984025e-05,
      "loss": 0.0386,
      "step": 11280
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.2322276532649994,
      "learning_rate": 6.515393552134765e-05,
      "loss": 0.0207,
      "step": 11281
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.22766773402690887,
      "learning_rate": 6.513215219285507e-05,
      "loss": 0.021,
      "step": 11282
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.12838099896907806,
      "learning_rate": 6.511036886436247e-05,
      "loss": 0.0075,
      "step": 11283
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.17889706790447235,
      "learning_rate": 6.508858553586987e-05,
      "loss": 0.0204,
      "step": 11284
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.11584335565567017,
      "learning_rate": 6.506680220737728e-05,
      "loss": 0.0215,
      "step": 11285
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.1737806648015976,
      "learning_rate": 6.504501887888469e-05,
      "loss": 0.017,
      "step": 11286
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.13520151376724243,
      "learning_rate": 6.50232355503921e-05,
      "loss": 0.0116,
      "step": 11287
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.08780466765165329,
      "learning_rate": 6.500145222189949e-05,
      "loss": 0.0144,
      "step": 11288
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.3511136472225189,
      "learning_rate": 6.49796688934069e-05,
      "loss": 0.055,
      "step": 11289
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.11297853291034698,
      "learning_rate": 6.495788556491431e-05,
      "loss": 0.0071,
      "step": 11290
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.12247291207313538,
      "learning_rate": 6.493610223642172e-05,
      "loss": 0.0062,
      "step": 11291
    },
    {
      "epoch": 3.16,
      "grad_norm": 0.30890995264053345,
      "learning_rate": 6.491431890792913e-05,
      "loss": 0.0602,
      "step": 11292
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.1552218645811081,
      "learning_rate": 6.489253557943653e-05,
      "loss": 0.0205,
      "step": 11293
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.09614741057157516,
      "learning_rate": 6.487075225094394e-05,
      "loss": 0.0129,
      "step": 11294
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.0743933841586113,
      "learning_rate": 6.484896892245135e-05,
      "loss": 0.0124,
      "step": 11295
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.163472980260849,
      "learning_rate": 6.482718559395876e-05,
      "loss": 0.0131,
      "step": 11296
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.15368051826953888,
      "learning_rate": 6.480540226546615e-05,
      "loss": 0.0156,
      "step": 11297
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.1826743334531784,
      "learning_rate": 6.478361893697357e-05,
      "loss": 0.0333,
      "step": 11298
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.14950336515903473,
      "learning_rate": 6.476183560848097e-05,
      "loss": 0.0096,
      "step": 11299
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.23119500279426575,
      "learning_rate": 6.474005227998838e-05,
      "loss": 0.0261,
      "step": 11300
    },
    {
      "epoch": 3.17,
      "eval_loss": 0.06549882888793945,
      "eval_runtime": 177.7003,
      "eval_samples_per_second": 14.868,
      "eval_steps_per_second": 0.467,
      "eval_wer": 0.04884966283220944,
      "step": 11300
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.10722073912620544,
      "learning_rate": 6.471826895149579e-05,
      "loss": 0.0069,
      "step": 11301
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.1972866952419281,
      "learning_rate": 6.469648562300319e-05,
      "loss": 0.012,
      "step": 11302
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.027616161853075027,
      "learning_rate": 6.46747022945106e-05,
      "loss": 0.001,
      "step": 11303
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.21221894025802612,
      "learning_rate": 6.4652918966018e-05,
      "loss": 0.0119,
      "step": 11304
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.11066218465566635,
      "learning_rate": 6.46311356375254e-05,
      "loss": 0.0325,
      "step": 11305
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.1051088497042656,
      "learning_rate": 6.460935230903281e-05,
      "loss": 0.0094,
      "step": 11306
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.3535762429237366,
      "learning_rate": 6.458756898054022e-05,
      "loss": 0.0321,
      "step": 11307
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.09113915264606476,
      "learning_rate": 6.456578565204763e-05,
      "loss": 0.0071,
      "step": 11308
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.0708087757229805,
      "learning_rate": 6.454400232355503e-05,
      "loss": 0.0092,
      "step": 11309
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.27730512619018555,
      "learning_rate": 6.452221899506244e-05,
      "loss": 0.0229,
      "step": 11310
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.20885536074638367,
      "learning_rate": 6.450043566656985e-05,
      "loss": 0.0227,
      "step": 11311
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.07843224704265594,
      "learning_rate": 6.447865233807726e-05,
      "loss": 0.0063,
      "step": 11312
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.17169207334518433,
      "learning_rate": 6.445686900958465e-05,
      "loss": 0.012,
      "step": 11313
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.07927470654249191,
      "learning_rate": 6.443508568109207e-05,
      "loss": 0.0056,
      "step": 11314
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.20690687000751495,
      "learning_rate": 6.441330235259947e-05,
      "loss": 0.0232,
      "step": 11315
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.10046704113483429,
      "learning_rate": 6.439151902410688e-05,
      "loss": 0.004,
      "step": 11316
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.31597721576690674,
      "learning_rate": 6.436973569561429e-05,
      "loss": 0.0253,
      "step": 11317
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.3493425250053406,
      "learning_rate": 6.434795236712169e-05,
      "loss": 0.0495,
      "step": 11318
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.12150505930185318,
      "learning_rate": 6.43261690386291e-05,
      "loss": 0.0217,
      "step": 11319
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.1906438022851944,
      "learning_rate": 6.43043857101365e-05,
      "loss": 0.0168,
      "step": 11320
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.04822290688753128,
      "learning_rate": 6.428260238164391e-05,
      "loss": 0.0054,
      "step": 11321
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.0679994747042656,
      "learning_rate": 6.426081905315131e-05,
      "loss": 0.0047,
      "step": 11322
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.2300318330526352,
      "learning_rate": 6.423903572465872e-05,
      "loss": 0.0349,
      "step": 11323
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.16459941864013672,
      "learning_rate": 6.421725239616613e-05,
      "loss": 0.0125,
      "step": 11324
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.11710486561059952,
      "learning_rate": 6.419546906767354e-05,
      "loss": 0.0124,
      "step": 11325
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.12259934842586517,
      "learning_rate": 6.417368573918094e-05,
      "loss": 0.015,
      "step": 11326
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.19850485026836395,
      "learning_rate": 6.415190241068835e-05,
      "loss": 0.0199,
      "step": 11327
    },
    {
      "epoch": 3.17,
      "grad_norm": 0.3828567862510681,
      "learning_rate": 6.413011908219575e-05,
      "loss": 0.0188,
      "step": 11328
    },
    {
      "epoch": 3.18,
      "grad_norm": 1.0552605390548706,
      "learning_rate": 6.410833575370316e-05,
      "loss": 0.3104,
      "step": 11329
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.2534368336200714,
      "learning_rate": 6.408655242521057e-05,
      "loss": 0.0295,
      "step": 11330
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.06055610626935959,
      "learning_rate": 6.406476909671797e-05,
      "loss": 0.004,
      "step": 11331
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.16291555762290955,
      "learning_rate": 6.404298576822538e-05,
      "loss": 0.027,
      "step": 11332
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.10008994489908218,
      "learning_rate": 6.402120243973279e-05,
      "loss": 0.0115,
      "step": 11333
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.2544696629047394,
      "learning_rate": 6.399941911124019e-05,
      "loss": 0.0137,
      "step": 11334
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.14326068758964539,
      "learning_rate": 6.39776357827476e-05,
      "loss": 0.0156,
      "step": 11335
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.11704539507627487,
      "learning_rate": 6.3955852454255e-05,
      "loss": 0.0097,
      "step": 11336
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.1437903195619583,
      "learning_rate": 6.393406912576241e-05,
      "loss": 0.0134,
      "step": 11337
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.04564034566283226,
      "learning_rate": 6.391228579726981e-05,
      "loss": 0.0025,
      "step": 11338
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.035945355892181396,
      "learning_rate": 6.389050246877722e-05,
      "loss": 0.0031,
      "step": 11339
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.37227359414100647,
      "learning_rate": 6.386871914028463e-05,
      "loss": 0.0194,
      "step": 11340
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.12390248477458954,
      "learning_rate": 6.384693581179204e-05,
      "loss": 0.0067,
      "step": 11341
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.026799175888299942,
      "learning_rate": 6.382515248329944e-05,
      "loss": 0.0019,
      "step": 11342
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.14056867361068726,
      "learning_rate": 6.380336915480685e-05,
      "loss": 0.0077,
      "step": 11343
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.5804967284202576,
      "learning_rate": 6.378158582631425e-05,
      "loss": 0.0386,
      "step": 11344
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.3082830011844635,
      "learning_rate": 6.375980249782166e-05,
      "loss": 0.0622,
      "step": 11345
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.2382688969373703,
      "learning_rate": 6.373801916932907e-05,
      "loss": 0.0415,
      "step": 11346
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.1389176845550537,
      "learning_rate": 6.371623584083647e-05,
      "loss": 0.0231,
      "step": 11347
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.28310754895210266,
      "learning_rate": 6.369445251234388e-05,
      "loss": 0.0213,
      "step": 11348
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.0867791548371315,
      "learning_rate": 6.367266918385129e-05,
      "loss": 0.0123,
      "step": 11349
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.19115008413791656,
      "learning_rate": 6.36508858553587e-05,
      "loss": 0.0308,
      "step": 11350
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.14845676720142365,
      "learning_rate": 6.362910252686609e-05,
      "loss": 0.0368,
      "step": 11351
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.5426986813545227,
      "learning_rate": 6.36073191983735e-05,
      "loss": 0.0379,
      "step": 11352
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.22919322550296783,
      "learning_rate": 6.358553586988091e-05,
      "loss": 0.0281,
      "step": 11353
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.27462202310562134,
      "learning_rate": 6.356375254138832e-05,
      "loss": 0.0293,
      "step": 11354
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.11598096042871475,
      "learning_rate": 6.354196921289573e-05,
      "loss": 0.0166,
      "step": 11355
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.058855101466178894,
      "learning_rate": 6.352018588440313e-05,
      "loss": 0.0066,
      "step": 11356
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.10023941844701767,
      "learning_rate": 6.349840255591054e-05,
      "loss": 0.006,
      "step": 11357
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.12176813930273056,
      "learning_rate": 6.347661922741794e-05,
      "loss": 0.0173,
      "step": 11358
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.09364410489797592,
      "learning_rate": 6.345483589892535e-05,
      "loss": 0.0109,
      "step": 11359
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.1374690681695938,
      "learning_rate": 6.343305257043275e-05,
      "loss": 0.0223,
      "step": 11360
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.14386819303035736,
      "learning_rate": 6.341126924194016e-05,
      "loss": 0.021,
      "step": 11361
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.059183742851018906,
      "learning_rate": 6.338948591344757e-05,
      "loss": 0.0065,
      "step": 11362
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.13534751534461975,
      "learning_rate": 6.336770258495498e-05,
      "loss": 0.0122,
      "step": 11363
    },
    {
      "epoch": 3.18,
      "grad_norm": 0.22124092280864716,
      "learning_rate": 6.334591925646238e-05,
      "loss": 0.0195,
      "step": 11364
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.08963050693273544,
      "learning_rate": 6.332413592796979e-05,
      "loss": 0.0036,
      "step": 11365
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.07548755407333374,
      "learning_rate": 6.33023525994772e-05,
      "loss": 0.003,
      "step": 11366
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.1070609986782074,
      "learning_rate": 6.32805692709846e-05,
      "loss": 0.0337,
      "step": 11367
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.19643396139144897,
      "learning_rate": 6.3258785942492e-05,
      "loss": 0.0365,
      "step": 11368
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.12608598172664642,
      "learning_rate": 6.323700261399941e-05,
      "loss": 0.0235,
      "step": 11369
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.12938541173934937,
      "learning_rate": 6.321521928550682e-05,
      "loss": 0.0093,
      "step": 11370
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.22882163524627686,
      "learning_rate": 6.319343595701423e-05,
      "loss": 0.0252,
      "step": 11371
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.19944624602794647,
      "learning_rate": 6.317165262852163e-05,
      "loss": 0.0244,
      "step": 11372
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.12163779884576797,
      "learning_rate": 6.314986930002904e-05,
      "loss": 0.0166,
      "step": 11373
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.06018166244029999,
      "learning_rate": 6.312808597153645e-05,
      "loss": 0.0066,
      "step": 11374
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.1754930317401886,
      "learning_rate": 6.310630264304386e-05,
      "loss": 0.0267,
      "step": 11375
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.13012440502643585,
      "learning_rate": 6.308451931455125e-05,
      "loss": 0.0204,
      "step": 11376
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.09055643528699875,
      "learning_rate": 6.306273598605866e-05,
      "loss": 0.0072,
      "step": 11377
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.9688342809677124,
      "learning_rate": 6.304095265756607e-05,
      "loss": 0.0324,
      "step": 11378
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.8640827536582947,
      "learning_rate": 6.301916932907348e-05,
      "loss": 0.1046,
      "step": 11379
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.16678054630756378,
      "learning_rate": 6.299738600058088e-05,
      "loss": 0.0229,
      "step": 11380
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.34625864028930664,
      "learning_rate": 6.297560267208829e-05,
      "loss": 0.0275,
      "step": 11381
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.12544581294059753,
      "learning_rate": 6.29538193435957e-05,
      "loss": 0.012,
      "step": 11382
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.055650342255830765,
      "learning_rate": 6.29320360151031e-05,
      "loss": 0.0062,
      "step": 11383
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.13975046575069427,
      "learning_rate": 6.29102526866105e-05,
      "loss": 0.0155,
      "step": 11384
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.09542060643434525,
      "learning_rate": 6.288846935811791e-05,
      "loss": 0.0131,
      "step": 11385
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.15205031633377075,
      "learning_rate": 6.286668602962532e-05,
      "loss": 0.0133,
      "step": 11386
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.10787113010883331,
      "learning_rate": 6.284490270113273e-05,
      "loss": 0.0123,
      "step": 11387
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.08667644113302231,
      "learning_rate": 6.282311937264014e-05,
      "loss": 0.013,
      "step": 11388
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.05715353041887283,
      "learning_rate": 6.280133604414754e-05,
      "loss": 0.0064,
      "step": 11389
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.21604853868484497,
      "learning_rate": 6.277955271565495e-05,
      "loss": 0.0119,
      "step": 11390
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.22436292469501495,
      "learning_rate": 6.275776938716236e-05,
      "loss": 0.0184,
      "step": 11391
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.15197350084781647,
      "learning_rate": 6.273598605866976e-05,
      "loss": 0.0204,
      "step": 11392
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.1348191797733307,
      "learning_rate": 6.271420273017716e-05,
      "loss": 0.015,
      "step": 11393
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.13272829353809357,
      "learning_rate": 6.269241940168457e-05,
      "loss": 0.0327,
      "step": 11394
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.15286920964717865,
      "learning_rate": 6.267063607319198e-05,
      "loss": 0.0197,
      "step": 11395
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.1955704689025879,
      "learning_rate": 6.264885274469938e-05,
      "loss": 0.0311,
      "step": 11396
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.1320326179265976,
      "learning_rate": 6.262706941620679e-05,
      "loss": 0.0139,
      "step": 11397
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.2110787183046341,
      "learning_rate": 6.26052860877142e-05,
      "loss": 0.0489,
      "step": 11398
    },
    {
      "epoch": 3.19,
      "grad_norm": 0.6685272455215454,
      "learning_rate": 6.25835027592216e-05,
      "loss": 0.0364,
      "step": 11399
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.11188295483589172,
      "learning_rate": 6.2561719430729e-05,
      "loss": 0.0144,
      "step": 11400
    },
    {
      "epoch": 3.2,
      "eval_loss": 0.06376070529222488,
      "eval_runtime": 179.8464,
      "eval_samples_per_second": 14.69,
      "eval_steps_per_second": 0.462,
      "eval_wer": 0.048829829432764774,
      "step": 11400
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.2420513778924942,
      "learning_rate": 6.253993610223641e-05,
      "loss": 0.0206,
      "step": 11401
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.19271092116832733,
      "learning_rate": 6.251815277374382e-05,
      "loss": 0.0234,
      "step": 11402
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.194075345993042,
      "learning_rate": 6.249636944525123e-05,
      "loss": 0.0345,
      "step": 11403
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.2003284990787506,
      "learning_rate": 6.247458611675864e-05,
      "loss": 0.0097,
      "step": 11404
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.1530643254518509,
      "learning_rate": 6.245280278826604e-05,
      "loss": 0.0267,
      "step": 11405
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.09899704903364182,
      "learning_rate": 6.243101945977345e-05,
      "loss": 0.0166,
      "step": 11406
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.11462057381868362,
      "learning_rate": 6.240923613128085e-05,
      "loss": 0.0147,
      "step": 11407
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.2004404217004776,
      "learning_rate": 6.238745280278826e-05,
      "loss": 0.0221,
      "step": 11408
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.1480533629655838,
      "learning_rate": 6.236566947429567e-05,
      "loss": 0.0123,
      "step": 11409
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.11148244142532349,
      "learning_rate": 6.234388614580307e-05,
      "loss": 0.0123,
      "step": 11410
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.10907143354415894,
      "learning_rate": 6.232210281731048e-05,
      "loss": 0.0099,
      "step": 11411
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.08454449474811554,
      "learning_rate": 6.230031948881788e-05,
      "loss": 0.0099,
      "step": 11412
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.2514389753341675,
      "learning_rate": 6.22785361603253e-05,
      "loss": 0.0118,
      "step": 11413
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.2450399398803711,
      "learning_rate": 6.22567528318327e-05,
      "loss": 0.0252,
      "step": 11414
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.10265520215034485,
      "learning_rate": 6.22349695033401e-05,
      "loss": 0.0107,
      "step": 11415
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.12643755972385406,
      "learning_rate": 6.22131861748475e-05,
      "loss": 0.0213,
      "step": 11416
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.20618805289268494,
      "learning_rate": 6.219140284635492e-05,
      "loss": 0.0296,
      "step": 11417
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.13786202669143677,
      "learning_rate": 6.216961951786232e-05,
      "loss": 0.0279,
      "step": 11418
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.1987513154745102,
      "learning_rate": 6.214783618936973e-05,
      "loss": 0.0194,
      "step": 11419
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.2362811118364334,
      "learning_rate": 6.212605286087714e-05,
      "loss": 0.0259,
      "step": 11420
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.18964417278766632,
      "learning_rate": 6.210426953238454e-05,
      "loss": 0.0429,
      "step": 11421
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.043059978634119034,
      "learning_rate": 6.208248620389195e-05,
      "loss": 0.0038,
      "step": 11422
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.12821483612060547,
      "learning_rate": 6.206070287539935e-05,
      "loss": 0.0114,
      "step": 11423
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.17234548926353455,
      "learning_rate": 6.203891954690676e-05,
      "loss": 0.0238,
      "step": 11424
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.1525140255689621,
      "learning_rate": 6.201713621841417e-05,
      "loss": 0.0167,
      "step": 11425
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.07823231816291809,
      "learning_rate": 6.199535288992157e-05,
      "loss": 0.0066,
      "step": 11426
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.3020649254322052,
      "learning_rate": 6.197356956142898e-05,
      "loss": 0.019,
      "step": 11427
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.1909560114145279,
      "learning_rate": 6.195178623293639e-05,
      "loss": 0.0121,
      "step": 11428
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.5351805090904236,
      "learning_rate": 6.19300029044438e-05,
      "loss": 0.0634,
      "step": 11429
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.1793404221534729,
      "learning_rate": 6.19082195759512e-05,
      "loss": 0.0295,
      "step": 11430
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.1900819092988968,
      "learning_rate": 6.18864362474586e-05,
      "loss": 0.028,
      "step": 11431
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.09927509725093842,
      "learning_rate": 6.186465291896601e-05,
      "loss": 0.0087,
      "step": 11432
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.2739778757095337,
      "learning_rate": 6.184286959047342e-05,
      "loss": 0.0308,
      "step": 11433
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.1752406805753708,
      "learning_rate": 6.182108626198082e-05,
      "loss": 0.0401,
      "step": 11434
    },
    {
      "epoch": 3.2,
      "grad_norm": 0.2309461385011673,
      "learning_rate": 6.179930293348823e-05,
      "loss": 0.0118,
      "step": 11435
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.13717719912528992,
      "learning_rate": 6.177751960499564e-05,
      "loss": 0.0089,
      "step": 11436
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.13428829610347748,
      "learning_rate": 6.175573627650304e-05,
      "loss": 0.0093,
      "step": 11437
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.39898258447647095,
      "learning_rate": 6.173395294801046e-05,
      "loss": 0.0255,
      "step": 11438
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.23152214288711548,
      "learning_rate": 6.171216961951785e-05,
      "loss": 0.0316,
      "step": 11439
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.1015423908829689,
      "learning_rate": 6.169038629102526e-05,
      "loss": 0.0139,
      "step": 11440
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.3690396845340729,
      "learning_rate": 6.166860296253267e-05,
      "loss": 0.0225,
      "step": 11441
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.23075143992900848,
      "learning_rate": 6.164681963404008e-05,
      "loss": 0.0208,
      "step": 11442
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.6092660427093506,
      "learning_rate": 6.162503630554748e-05,
      "loss": 0.0249,
      "step": 11443
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.07360594719648361,
      "learning_rate": 6.160325297705489e-05,
      "loss": 0.0057,
      "step": 11444
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.1413152664899826,
      "learning_rate": 6.15814696485623e-05,
      "loss": 0.0168,
      "step": 11445
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.15989764034748077,
      "learning_rate": 6.15596863200697e-05,
      "loss": 0.0333,
      "step": 11446
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.08234236389398575,
      "learning_rate": 6.15379029915771e-05,
      "loss": 0.0186,
      "step": 11447
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.08411507308483124,
      "learning_rate": 6.151611966308451e-05,
      "loss": 0.005,
      "step": 11448
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.13873468339443207,
      "learning_rate": 6.149433633459192e-05,
      "loss": 0.01,
      "step": 11449
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.24073557555675507,
      "learning_rate": 6.147255300609932e-05,
      "loss": 0.0216,
      "step": 11450
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.10328319668769836,
      "learning_rate": 6.145076967760674e-05,
      "loss": 0.004,
      "step": 11451
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.14838789403438568,
      "learning_rate": 6.142898634911414e-05,
      "loss": 0.0231,
      "step": 11452
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.12413126230239868,
      "learning_rate": 6.140720302062154e-05,
      "loss": 0.0068,
      "step": 11453
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.369644433259964,
      "learning_rate": 6.138541969212896e-05,
      "loss": 0.0474,
      "step": 11454
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.22122858464717865,
      "learning_rate": 6.136363636363636e-05,
      "loss": 0.0242,
      "step": 11455
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.10409705340862274,
      "learning_rate": 6.134185303514376e-05,
      "loss": 0.0145,
      "step": 11456
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.14667582511901855,
      "learning_rate": 6.132006970665117e-05,
      "loss": 0.0153,
      "step": 11457
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.08204860240221024,
      "learning_rate": 6.129828637815858e-05,
      "loss": 0.0125,
      "step": 11458
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.0930604413151741,
      "learning_rate": 6.127650304966598e-05,
      "loss": 0.0088,
      "step": 11459
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.1506175547838211,
      "learning_rate": 6.125471972117339e-05,
      "loss": 0.025,
      "step": 11460
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.17205879092216492,
      "learning_rate": 6.12329363926808e-05,
      "loss": 0.0199,
      "step": 11461
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.07983719557523727,
      "learning_rate": 6.12111530641882e-05,
      "loss": 0.0105,
      "step": 11462
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.2510097324848175,
      "learning_rate": 6.11893697356956e-05,
      "loss": 0.0176,
      "step": 11463
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.09749206900596619,
      "learning_rate": 6.116758640720301e-05,
      "loss": 0.0099,
      "step": 11464
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.14366042613983154,
      "learning_rate": 6.114580307871042e-05,
      "loss": 0.0195,
      "step": 11465
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.19397707283496857,
      "learning_rate": 6.112401975021782e-05,
      "loss": 0.0148,
      "step": 11466
    },
    {
      "epoch": 3.21,
      "grad_norm": 1.2171989679336548,
      "learning_rate": 6.110223642172524e-05,
      "loss": 0.122,
      "step": 11467
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.18430718779563904,
      "learning_rate": 6.108045309323264e-05,
      "loss": 0.018,
      "step": 11468
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.27909499406814575,
      "learning_rate": 6.105866976474004e-05,
      "loss": 0.0238,
      "step": 11469
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.28482338786125183,
      "learning_rate": 6.103688643624746e-05,
      "loss": 0.0278,
      "step": 11470
    },
    {
      "epoch": 3.21,
      "grad_norm": 0.11287561058998108,
      "learning_rate": 6.101510310775486e-05,
      "loss": 0.013,
      "step": 11471
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.08651960641145706,
      "learning_rate": 6.0993319779262264e-05,
      "loss": 0.0102,
      "step": 11472
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.12930180132389069,
      "learning_rate": 6.097153645076967e-05,
      "loss": 0.0276,
      "step": 11473
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.07241140305995941,
      "learning_rate": 6.094975312227708e-05,
      "loss": 0.0091,
      "step": 11474
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.0655309408903122,
      "learning_rate": 6.0927969793784484e-05,
      "loss": 0.0034,
      "step": 11475
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.29888615012168884,
      "learning_rate": 6.090618646529189e-05,
      "loss": 0.0216,
      "step": 11476
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.12298309803009033,
      "learning_rate": 6.0884403136799295e-05,
      "loss": 0.0111,
      "step": 11477
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.25140315294265747,
      "learning_rate": 6.0862619808306704e-05,
      "loss": 0.0164,
      "step": 11478
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.6938754320144653,
      "learning_rate": 6.084083647981411e-05,
      "loss": 0.0213,
      "step": 11479
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.13081663846969604,
      "learning_rate": 6.081905315132152e-05,
      "loss": 0.0191,
      "step": 11480
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.11412082612514496,
      "learning_rate": 6.079726982282892e-05,
      "loss": 0.0144,
      "step": 11481
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.11841504275798798,
      "learning_rate": 6.0775486494336325e-05,
      "loss": 0.0231,
      "step": 11482
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.14216144382953644,
      "learning_rate": 6.0753703165843734e-05,
      "loss": 0.0122,
      "step": 11483
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.04058624804019928,
      "learning_rate": 6.073191983735114e-05,
      "loss": 0.0023,
      "step": 11484
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.5330018401145935,
      "learning_rate": 6.0710136508858545e-05,
      "loss": 0.0356,
      "step": 11485
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.13973954319953918,
      "learning_rate": 6.0688353180365954e-05,
      "loss": 0.0169,
      "step": 11486
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.1299399733543396,
      "learning_rate": 6.066656985187336e-05,
      "loss": 0.0145,
      "step": 11487
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.13372161984443665,
      "learning_rate": 6.064478652338077e-05,
      "loss": 0.0137,
      "step": 11488
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.0949125736951828,
      "learning_rate": 6.062300319488817e-05,
      "loss": 0.0199,
      "step": 11489
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.19657738506793976,
      "learning_rate": 6.0601219866395575e-05,
      "loss": 0.0577,
      "step": 11490
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.3085964322090149,
      "learning_rate": 6.0579436537902984e-05,
      "loss": 0.0215,
      "step": 11491
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.2417968511581421,
      "learning_rate": 6.055765320941039e-05,
      "loss": 0.0262,
      "step": 11492
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.06843570619821548,
      "learning_rate": 6.0535869880917795e-05,
      "loss": 0.0058,
      "step": 11493
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.16099457442760468,
      "learning_rate": 6.0514086552425204e-05,
      "loss": 0.0295,
      "step": 11494
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.2953416705131531,
      "learning_rate": 6.049230322393261e-05,
      "loss": 0.0123,
      "step": 11495
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.13662220537662506,
      "learning_rate": 6.047051989544002e-05,
      "loss": 0.0359,
      "step": 11496
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.1339830905199051,
      "learning_rate": 6.044873656694743e-05,
      "loss": 0.0122,
      "step": 11497
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.2636045217514038,
      "learning_rate": 6.0426953238454825e-05,
      "loss": 0.0147,
      "step": 11498
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.117047980427742,
      "learning_rate": 6.0405169909962234e-05,
      "loss": 0.0161,
      "step": 11499
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.13461482524871826,
      "learning_rate": 6.038338658146964e-05,
      "loss": 0.0195,
      "step": 11500
    },
    {
      "epoch": 3.22,
      "eval_loss": 0.06549643725156784,
      "eval_runtime": 181.8031,
      "eval_samples_per_second": 14.532,
      "eval_steps_per_second": 0.457,
      "eval_wer": 0.04912733042443475,
      "step": 11500
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.07328920066356659,
      "learning_rate": 6.036160325297705e-05,
      "loss": 0.0089,
      "step": 11501
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.15000343322753906,
      "learning_rate": 6.0339819924484454e-05,
      "loss": 0.0138,
      "step": 11502
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.7309765815734863,
      "learning_rate": 6.031803659599186e-05,
      "loss": 0.0534,
      "step": 11503
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.32734978199005127,
      "learning_rate": 6.029625326749927e-05,
      "loss": 0.0121,
      "step": 11504
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.23867574334144592,
      "learning_rate": 6.027446993900668e-05,
      "loss": 0.0465,
      "step": 11505
    },
    {
      "epoch": 3.22,
      "grad_norm": 0.1358967274427414,
      "learning_rate": 6.0252686610514076e-05,
      "loss": 0.016,
      "step": 11506
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.16792599856853485,
      "learning_rate": 6.0230903282021484e-05,
      "loss": 0.0182,
      "step": 11507
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.09387389570474625,
      "learning_rate": 6.020911995352889e-05,
      "loss": 0.0178,
      "step": 11508
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.28697994351387024,
      "learning_rate": 6.01873366250363e-05,
      "loss": 0.0229,
      "step": 11509
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.1465778797864914,
      "learning_rate": 6.0165553296543704e-05,
      "loss": 0.0187,
      "step": 11510
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.1935899704694748,
      "learning_rate": 6.014376996805111e-05,
      "loss": 0.0411,
      "step": 11511
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.04835459589958191,
      "learning_rate": 6.012198663955852e-05,
      "loss": 0.0049,
      "step": 11512
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.21365953981876373,
      "learning_rate": 6.010020331106593e-05,
      "loss": 0.0114,
      "step": 11513
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.09381689876317978,
      "learning_rate": 6.0078419982573326e-05,
      "loss": 0.0059,
      "step": 11514
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.3622209429740906,
      "learning_rate": 6.0056636654080735e-05,
      "loss": 0.0211,
      "step": 11515
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.2713398039340973,
      "learning_rate": 6.003485332558814e-05,
      "loss": 0.0082,
      "step": 11516
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.5309427380561829,
      "learning_rate": 6.001306999709555e-05,
      "loss": 0.0788,
      "step": 11517
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.20068515837192535,
      "learning_rate": 5.999128666860296e-05,
      "loss": 0.0343,
      "step": 11518
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.14272186160087585,
      "learning_rate": 5.996950334011036e-05,
      "loss": 0.0136,
      "step": 11519
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.18858803808689117,
      "learning_rate": 5.994772001161777e-05,
      "loss": 0.0274,
      "step": 11520
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.20210330188274384,
      "learning_rate": 5.992593668312518e-05,
      "loss": 0.044,
      "step": 11521
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.17363853752613068,
      "learning_rate": 5.990415335463259e-05,
      "loss": 0.023,
      "step": 11522
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.29182010889053345,
      "learning_rate": 5.9882370026139985e-05,
      "loss": 0.0231,
      "step": 11523
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.1630365252494812,
      "learning_rate": 5.9860586697647393e-05,
      "loss": 0.0187,
      "step": 11524
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.17803482711315155,
      "learning_rate": 5.98388033691548e-05,
      "loss": 0.016,
      "step": 11525
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.15010549128055573,
      "learning_rate": 5.981702004066221e-05,
      "loss": 0.0268,
      "step": 11526
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.14373140037059784,
      "learning_rate": 5.979523671216961e-05,
      "loss": 0.009,
      "step": 11527
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.1687002032995224,
      "learning_rate": 5.977345338367702e-05,
      "loss": 0.0095,
      "step": 11528
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.6424495577812195,
      "learning_rate": 5.975167005518443e-05,
      "loss": 0.0422,
      "step": 11529
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.10889645665884018,
      "learning_rate": 5.972988672669184e-05,
      "loss": 0.0201,
      "step": 11530
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.340090811252594,
      "learning_rate": 5.9708103398199235e-05,
      "loss": 0.0471,
      "step": 11531
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.07806258648633957,
      "learning_rate": 5.9686320069706644e-05,
      "loss": 0.0082,
      "step": 11532
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.42619189620018005,
      "learning_rate": 5.966453674121405e-05,
      "loss": 0.0208,
      "step": 11533
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.08755305409431458,
      "learning_rate": 5.964275341272146e-05,
      "loss": 0.0089,
      "step": 11534
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.1308666169643402,
      "learning_rate": 5.962097008422886e-05,
      "loss": 0.011,
      "step": 11535
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.13337671756744385,
      "learning_rate": 5.959918675573627e-05,
      "loss": 0.0242,
      "step": 11536
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.05910937488079071,
      "learning_rate": 5.957740342724368e-05,
      "loss": 0.0043,
      "step": 11537
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.15744860470294952,
      "learning_rate": 5.955562009875108e-05,
      "loss": 0.0233,
      "step": 11538
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.208684504032135,
      "learning_rate": 5.9533836770258485e-05,
      "loss": 0.0157,
      "step": 11539
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.4137762784957886,
      "learning_rate": 5.9512053441765894e-05,
      "loss": 0.0136,
      "step": 11540
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.3330453634262085,
      "learning_rate": 5.94902701132733e-05,
      "loss": 0.016,
      "step": 11541
    },
    {
      "epoch": 3.23,
      "grad_norm": 0.07742605358362198,
      "learning_rate": 5.946848678478071e-05,
      "loss": 0.0065,
      "step": 11542
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.0866081714630127,
      "learning_rate": 5.944670345628812e-05,
      "loss": 0.0092,
      "step": 11543
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.2311001867055893,
      "learning_rate": 5.942492012779552e-05,
      "loss": 0.0434,
      "step": 11544
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.13029514253139496,
      "learning_rate": 5.940313679930293e-05,
      "loss": 0.031,
      "step": 11545
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.14258833229541779,
      "learning_rate": 5.938135347081033e-05,
      "loss": 0.014,
      "step": 11546
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.11050303280353546,
      "learning_rate": 5.935957014231774e-05,
      "loss": 0.0177,
      "step": 11547
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.1429804414510727,
      "learning_rate": 5.9337786813825144e-05,
      "loss": 0.0229,
      "step": 11548
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.10845492035150528,
      "learning_rate": 5.931600348533255e-05,
      "loss": 0.0152,
      "step": 11549
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.13129962980747223,
      "learning_rate": 5.929422015683996e-05,
      "loss": 0.0166,
      "step": 11550
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.09246142953634262,
      "learning_rate": 5.927243682834737e-05,
      "loss": 0.0044,
      "step": 11551
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.05623968690633774,
      "learning_rate": 5.925065349985477e-05,
      "loss": 0.0041,
      "step": 11552
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.2244759202003479,
      "learning_rate": 5.9228870171362174e-05,
      "loss": 0.023,
      "step": 11553
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.14715248346328735,
      "learning_rate": 5.920708684286958e-05,
      "loss": 0.0079,
      "step": 11554
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.25120383501052856,
      "learning_rate": 5.918530351437699e-05,
      "loss": 0.0472,
      "step": 11555
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.07892343401908875,
      "learning_rate": 5.9163520185884394e-05,
      "loss": 0.0068,
      "step": 11556
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.26765477657318115,
      "learning_rate": 5.91417368573918e-05,
      "loss": 0.0251,
      "step": 11557
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.1172727718949318,
      "learning_rate": 5.911995352889921e-05,
      "loss": 0.0251,
      "step": 11558
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.11890493333339691,
      "learning_rate": 5.909817020040662e-05,
      "loss": 0.0159,
      "step": 11559
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.24831107258796692,
      "learning_rate": 5.907638687191402e-05,
      "loss": 0.0289,
      "step": 11560
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.09761274605989456,
      "learning_rate": 5.9054603543421425e-05,
      "loss": 0.028,
      "step": 11561
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.13099075853824615,
      "learning_rate": 5.903282021492883e-05,
      "loss": 0.0168,
      "step": 11562
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.03346666693687439,
      "learning_rate": 5.901103688643624e-05,
      "loss": 0.0022,
      "step": 11563
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.1662445217370987,
      "learning_rate": 5.898925355794365e-05,
      "loss": 0.0145,
      "step": 11564
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.14486372470855713,
      "learning_rate": 5.896747022945105e-05,
      "loss": 0.0111,
      "step": 11565
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.047756001353263855,
      "learning_rate": 5.894568690095846e-05,
      "loss": 0.0017,
      "step": 11566
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.8526595234870911,
      "learning_rate": 5.892390357246587e-05,
      "loss": 0.0781,
      "step": 11567
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.1278010457754135,
      "learning_rate": 5.890212024397328e-05,
      "loss": 0.0156,
      "step": 11568
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.11243358999490738,
      "learning_rate": 5.8880336915480675e-05,
      "loss": 0.0217,
      "step": 11569
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.21586717665195465,
      "learning_rate": 5.8858553586988083e-05,
      "loss": 0.0198,
      "step": 11570
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.25519219040870667,
      "learning_rate": 5.883677025849549e-05,
      "loss": 0.0278,
      "step": 11571
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.12186524271965027,
      "learning_rate": 5.88149869300029e-05,
      "loss": 0.0122,
      "step": 11572
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.15167976915836334,
      "learning_rate": 5.87932036015103e-05,
      "loss": 0.0151,
      "step": 11573
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.3403414785861969,
      "learning_rate": 5.877142027301771e-05,
      "loss": 0.0416,
      "step": 11574
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.5526413321495056,
      "learning_rate": 5.874963694452512e-05,
      "loss": 0.0422,
      "step": 11575
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.3459334075450897,
      "learning_rate": 5.872785361603253e-05,
      "loss": 0.0228,
      "step": 11576
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.20248523354530334,
      "learning_rate": 5.8706070287539925e-05,
      "loss": 0.0206,
      "step": 11577
    },
    {
      "epoch": 3.24,
      "grad_norm": 0.08964958786964417,
      "learning_rate": 5.8684286959047334e-05,
      "loss": 0.0063,
      "step": 11578
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.34471115469932556,
      "learning_rate": 5.866250363055474e-05,
      "loss": 0.036,
      "step": 11579
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.33942294120788574,
      "learning_rate": 5.864072030206215e-05,
      "loss": 0.0477,
      "step": 11580
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.44917625188827515,
      "learning_rate": 5.861893697356955e-05,
      "loss": 0.0226,
      "step": 11581
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.13033527135849,
      "learning_rate": 5.859715364507696e-05,
      "loss": 0.022,
      "step": 11582
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.12366488575935364,
      "learning_rate": 5.857537031658437e-05,
      "loss": 0.0142,
      "step": 11583
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.1872907131910324,
      "learning_rate": 5.855358698809178e-05,
      "loss": 0.0405,
      "step": 11584
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.1703590452671051,
      "learning_rate": 5.853180365959919e-05,
      "loss": 0.02,
      "step": 11585
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.06342285871505737,
      "learning_rate": 5.8510020331106584e-05,
      "loss": 0.008,
      "step": 11586
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.16678650677204132,
      "learning_rate": 5.848823700261399e-05,
      "loss": 0.0186,
      "step": 11587
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.23353376984596252,
      "learning_rate": 5.84664536741214e-05,
      "loss": 0.0117,
      "step": 11588
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.14809192717075348,
      "learning_rate": 5.844467034562881e-05,
      "loss": 0.0156,
      "step": 11589
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.08367527276277542,
      "learning_rate": 5.842288701713621e-05,
      "loss": 0.0054,
      "step": 11590
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.3242630660533905,
      "learning_rate": 5.840110368864362e-05,
      "loss": 0.0661,
      "step": 11591
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.18908153474330902,
      "learning_rate": 5.837932036015103e-05,
      "loss": 0.031,
      "step": 11592
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.17501473426818848,
      "learning_rate": 5.835753703165844e-05,
      "loss": 0.0403,
      "step": 11593
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.18189533054828644,
      "learning_rate": 5.8335753703165834e-05,
      "loss": 0.0206,
      "step": 11594
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.25231850147247314,
      "learning_rate": 5.831397037467324e-05,
      "loss": 0.0232,
      "step": 11595
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.10135520249605179,
      "learning_rate": 5.829218704618065e-05,
      "loss": 0.016,
      "step": 11596
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.12693937122821808,
      "learning_rate": 5.827040371768806e-05,
      "loss": 0.0159,
      "step": 11597
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.10805802047252655,
      "learning_rate": 5.824862038919546e-05,
      "loss": 0.0055,
      "step": 11598
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.11338122934103012,
      "learning_rate": 5.822683706070287e-05,
      "loss": 0.0143,
      "step": 11599
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.11789178103208542,
      "learning_rate": 5.820505373221028e-05,
      "loss": 0.0091,
      "step": 11600
    },
    {
      "epoch": 3.25,
      "eval_loss": 0.06482132524251938,
      "eval_runtime": 183.4437,
      "eval_samples_per_second": 14.402,
      "eval_steps_per_second": 0.452,
      "eval_wer": 0.04924633082110274,
      "step": 11600
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.1220412477850914,
      "learning_rate": 5.818327040371769e-05,
      "loss": 0.0102,
      "step": 11601
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.13284087181091309,
      "learning_rate": 5.8161487075225084e-05,
      "loss": 0.0144,
      "step": 11602
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.12328661233186722,
      "learning_rate": 5.813970374673249e-05,
      "loss": 0.0095,
      "step": 11603
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.5767019391059875,
      "learning_rate": 5.81179204182399e-05,
      "loss": 0.0414,
      "step": 11604
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.09896964579820633,
      "learning_rate": 5.809613708974731e-05,
      "loss": 0.0093,
      "step": 11605
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.15595974028110504,
      "learning_rate": 5.807435376125471e-05,
      "loss": 0.0391,
      "step": 11606
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.08224929124116898,
      "learning_rate": 5.805257043276212e-05,
      "loss": 0.0047,
      "step": 11607
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.07174563407897949,
      "learning_rate": 5.803078710426953e-05,
      "loss": 0.0073,
      "step": 11608
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.07640236616134644,
      "learning_rate": 5.800900377577694e-05,
      "loss": 0.0054,
      "step": 11609
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.1539125144481659,
      "learning_rate": 5.798722044728434e-05,
      "loss": 0.0196,
      "step": 11610
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.13839632272720337,
      "learning_rate": 5.796543711879174e-05,
      "loss": 0.0219,
      "step": 11611
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.20305433869361877,
      "learning_rate": 5.794365379029915e-05,
      "loss": 0.0084,
      "step": 11612
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.20477189123630524,
      "learning_rate": 5.792187046180656e-05,
      "loss": 0.0296,
      "step": 11613
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.15830783545970917,
      "learning_rate": 5.790008713331397e-05,
      "loss": 0.0334,
      "step": 11614
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.2030881941318512,
      "learning_rate": 5.787830380482137e-05,
      "loss": 0.0296,
      "step": 11615
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.07803428173065186,
      "learning_rate": 5.785652047632878e-05,
      "loss": 0.0061,
      "step": 11616
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.23931920528411865,
      "learning_rate": 5.783473714783618e-05,
      "loss": 0.0574,
      "step": 11617
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.16640298068523407,
      "learning_rate": 5.781295381934359e-05,
      "loss": 0.0178,
      "step": 11618
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.10645651072263718,
      "learning_rate": 5.779117049085099e-05,
      "loss": 0.0121,
      "step": 11619
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.12104373425245285,
      "learning_rate": 5.77693871623584e-05,
      "loss": 0.0039,
      "step": 11620
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.26432716846466064,
      "learning_rate": 5.774760383386581e-05,
      "loss": 0.0341,
      "step": 11621
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.07510107010602951,
      "learning_rate": 5.772582050537322e-05,
      "loss": 0.007,
      "step": 11622
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.25914016366004944,
      "learning_rate": 5.770403717688062e-05,
      "loss": 0.015,
      "step": 11623
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.11703550815582275,
      "learning_rate": 5.768225384838803e-05,
      "loss": 0.0225,
      "step": 11624
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.27850598096847534,
      "learning_rate": 5.766047051989543e-05,
      "loss": 0.0213,
      "step": 11625
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.12246818095445633,
      "learning_rate": 5.763868719140284e-05,
      "loss": 0.0106,
      "step": 11626
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.32552221417427063,
      "learning_rate": 5.761690386291024e-05,
      "loss": 0.0237,
      "step": 11627
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.20416727662086487,
      "learning_rate": 5.759512053441765e-05,
      "loss": 0.013,
      "step": 11628
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.30481016635894775,
      "learning_rate": 5.757333720592506e-05,
      "loss": 0.0161,
      "step": 11629
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.09043627977371216,
      "learning_rate": 5.755155387743247e-05,
      "loss": 0.0155,
      "step": 11630
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.08098132163286209,
      "learning_rate": 5.752977054893988e-05,
      "loss": 0.0084,
      "step": 11631
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.11281079053878784,
      "learning_rate": 5.7507987220447274e-05,
      "loss": 0.0057,
      "step": 11632
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.1904686838388443,
      "learning_rate": 5.748620389195468e-05,
      "loss": 0.0307,
      "step": 11633
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.18721601366996765,
      "learning_rate": 5.746442056346209e-05,
      "loss": 0.0252,
      "step": 11634
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.09736689180135727,
      "learning_rate": 5.74426372349695e-05,
      "loss": 0.0052,
      "step": 11635
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.24708926677703857,
      "learning_rate": 5.74208539064769e-05,
      "loss": 0.0352,
      "step": 11636
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.08239538967609406,
      "learning_rate": 5.739907057798431e-05,
      "loss": 0.0108,
      "step": 11637
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.09590721875429153,
      "learning_rate": 5.737728724949172e-05,
      "loss": 0.0114,
      "step": 11638
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.18728743493556976,
      "learning_rate": 5.735550392099913e-05,
      "loss": 0.0102,
      "step": 11639
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.0342215932905674,
      "learning_rate": 5.7333720592506524e-05,
      "loss": 0.0015,
      "step": 11640
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.06940318644046783,
      "learning_rate": 5.731193726401393e-05,
      "loss": 0.0042,
      "step": 11641
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.23840051889419556,
      "learning_rate": 5.729015393552134e-05,
      "loss": 0.0197,
      "step": 11642
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.16160184144973755,
      "learning_rate": 5.726837060702875e-05,
      "loss": 0.0121,
      "step": 11643
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.2749103009700775,
      "learning_rate": 5.724658727853615e-05,
      "loss": 0.0232,
      "step": 11644
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.18054760992527008,
      "learning_rate": 5.722480395004356e-05,
      "loss": 0.0188,
      "step": 11645
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.31553012132644653,
      "learning_rate": 5.720302062155097e-05,
      "loss": 0.0201,
      "step": 11646
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.14641088247299194,
      "learning_rate": 5.718123729305838e-05,
      "loss": 0.0145,
      "step": 11647
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.3503873348236084,
      "learning_rate": 5.7159453964565774e-05,
      "loss": 0.042,
      "step": 11648
    },
    {
      "epoch": 3.26,
      "grad_norm": 0.16377489268779755,
      "learning_rate": 5.713767063607318e-05,
      "loss": 0.0206,
      "step": 11649
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.18870119750499725,
      "learning_rate": 5.711588730758059e-05,
      "loss": 0.0155,
      "step": 11650
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.10594813525676727,
      "learning_rate": 5.7094103979088e-05,
      "loss": 0.0103,
      "step": 11651
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.4464663565158844,
      "learning_rate": 5.707232065059541e-05,
      "loss": 0.0524,
      "step": 11652
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.6882763504981995,
      "learning_rate": 5.705053732210281e-05,
      "loss": 0.052,
      "step": 11653
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.5477825403213501,
      "learning_rate": 5.702875399361022e-05,
      "loss": 0.078,
      "step": 11654
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.08464787155389786,
      "learning_rate": 5.700697066511763e-05,
      "loss": 0.0104,
      "step": 11655
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.11439065635204315,
      "learning_rate": 5.698518733662504e-05,
      "loss": 0.0155,
      "step": 11656
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.06268980354070663,
      "learning_rate": 5.696340400813243e-05,
      "loss": 0.0078,
      "step": 11657
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.23936454951763153,
      "learning_rate": 5.694162067963984e-05,
      "loss": 0.0283,
      "step": 11658
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.1878320872783661,
      "learning_rate": 5.691983735114725e-05,
      "loss": 0.0171,
      "step": 11659
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.1374368518590927,
      "learning_rate": 5.689805402265466e-05,
      "loss": 0.0256,
      "step": 11660
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.10636501014232635,
      "learning_rate": 5.687627069416206e-05,
      "loss": 0.0157,
      "step": 11661
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.1531910002231598,
      "learning_rate": 5.685448736566947e-05,
      "loss": 0.0165,
      "step": 11662
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.20069357752799988,
      "learning_rate": 5.683270403717688e-05,
      "loss": 0.0277,
      "step": 11663
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.17601846158504486,
      "learning_rate": 5.681092070868429e-05,
      "loss": 0.0241,
      "step": 11664
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.07373158633708954,
      "learning_rate": 5.678913738019168e-05,
      "loss": 0.0055,
      "step": 11665
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.35578081011772156,
      "learning_rate": 5.676735405169909e-05,
      "loss": 0.0102,
      "step": 11666
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.20849788188934326,
      "learning_rate": 5.67455707232065e-05,
      "loss": 0.0265,
      "step": 11667
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.19199705123901367,
      "learning_rate": 5.672378739471391e-05,
      "loss": 0.0235,
      "step": 11668
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.202693909406662,
      "learning_rate": 5.670200406622131e-05,
      "loss": 0.0238,
      "step": 11669
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.14122793078422546,
      "learning_rate": 5.668022073772872e-05,
      "loss": 0.0288,
      "step": 11670
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.18245761096477509,
      "learning_rate": 5.665843740923613e-05,
      "loss": 0.0367,
      "step": 11671
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.1642857939004898,
      "learning_rate": 5.663665408074354e-05,
      "loss": 0.0354,
      "step": 11672
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.15216617286205292,
      "learning_rate": 5.661487075225093e-05,
      "loss": 0.0197,
      "step": 11673
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.20563572645187378,
      "learning_rate": 5.659308742375834e-05,
      "loss": 0.0279,
      "step": 11674
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.14553286135196686,
      "learning_rate": 5.657130409526575e-05,
      "loss": 0.0183,
      "step": 11675
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.08477507531642914,
      "learning_rate": 5.654952076677316e-05,
      "loss": 0.0104,
      "step": 11676
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.9361476898193359,
      "learning_rate": 5.652773743828057e-05,
      "loss": 0.0178,
      "step": 11677
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.15377841889858246,
      "learning_rate": 5.650595410978797e-05,
      "loss": 0.0097,
      "step": 11678
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.47906258702278137,
      "learning_rate": 5.648417078129538e-05,
      "loss": 0.0751,
      "step": 11679
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.08689169585704803,
      "learning_rate": 5.646238745280279e-05,
      "loss": 0.0124,
      "step": 11680
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.17815940082073212,
      "learning_rate": 5.644060412431019e-05,
      "loss": 0.0388,
      "step": 11681
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.20440252125263214,
      "learning_rate": 5.641882079581759e-05,
      "loss": 0.035,
      "step": 11682
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.12301461398601532,
      "learning_rate": 5.6397037467325e-05,
      "loss": 0.0132,
      "step": 11683
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.15867683291435242,
      "learning_rate": 5.637525413883241e-05,
      "loss": 0.012,
      "step": 11684
    },
    {
      "epoch": 3.27,
      "grad_norm": 0.22946055233478546,
      "learning_rate": 5.635347081033982e-05,
      "loss": 0.016,
      "step": 11685
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.038989223539829254,
      "learning_rate": 5.633168748184722e-05,
      "loss": 0.0034,
      "step": 11686
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.29280710220336914,
      "learning_rate": 5.630990415335463e-05,
      "loss": 0.0291,
      "step": 11687
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.2751237750053406,
      "learning_rate": 5.628812082486203e-05,
      "loss": 0.0308,
      "step": 11688
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.1305736005306244,
      "learning_rate": 5.626633749636944e-05,
      "loss": 0.0105,
      "step": 11689
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.2663034498691559,
      "learning_rate": 5.624455416787684e-05,
      "loss": 0.0126,
      "step": 11690
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.2606443166732788,
      "learning_rate": 5.622277083938425e-05,
      "loss": 0.0113,
      "step": 11691
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.4010082185268402,
      "learning_rate": 5.620098751089166e-05,
      "loss": 0.0189,
      "step": 11692
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.11286023259162903,
      "learning_rate": 5.617920418239907e-05,
      "loss": 0.0127,
      "step": 11693
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.08690724521875381,
      "learning_rate": 5.615742085390647e-05,
      "loss": 0.0079,
      "step": 11694
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.13459694385528564,
      "learning_rate": 5.613563752541388e-05,
      "loss": 0.0188,
      "step": 11695
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.2442355901002884,
      "learning_rate": 5.611385419692128e-05,
      "loss": 0.0343,
      "step": 11696
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.07229258865118027,
      "learning_rate": 5.609207086842869e-05,
      "loss": 0.0289,
      "step": 11697
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.259859561920166,
      "learning_rate": 5.60702875399361e-05,
      "loss": 0.0333,
      "step": 11698
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.25727754831314087,
      "learning_rate": 5.60485042114435e-05,
      "loss": 0.0146,
      "step": 11699
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.12725692987442017,
      "learning_rate": 5.602672088295091e-05,
      "loss": 0.0171,
      "step": 11700
    },
    {
      "epoch": 3.28,
      "eval_loss": 0.06325484812259674,
      "eval_runtime": 181.9282,
      "eval_samples_per_second": 14.522,
      "eval_steps_per_second": 0.456,
      "eval_wer": 0.04827449424831416,
      "step": 11700
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.22923517227172852,
      "learning_rate": 5.600493755445832e-05,
      "loss": 0.0265,
      "step": 11701
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.17013193666934967,
      "learning_rate": 5.598315422596573e-05,
      "loss": 0.0225,
      "step": 11702
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.2477741539478302,
      "learning_rate": 5.596137089747312e-05,
      "loss": 0.0115,
      "step": 11703
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.3134568929672241,
      "learning_rate": 5.593958756898053e-05,
      "loss": 0.0216,
      "step": 11704
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.15838733315467834,
      "learning_rate": 5.591780424048794e-05,
      "loss": 0.0262,
      "step": 11705
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.0877152681350708,
      "learning_rate": 5.589602091199535e-05,
      "loss": 0.0245,
      "step": 11706
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.14703045785427094,
      "learning_rate": 5.587423758350275e-05,
      "loss": 0.0272,
      "step": 11707
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.15013949573040009,
      "learning_rate": 5.585245425501016e-05,
      "loss": 0.0166,
      "step": 11708
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.19974012672901154,
      "learning_rate": 5.583067092651757e-05,
      "loss": 0.0068,
      "step": 11709
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.11926644295454025,
      "learning_rate": 5.580888759802498e-05,
      "loss": 0.0172,
      "step": 11710
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.24964287877082825,
      "learning_rate": 5.578710426953237e-05,
      "loss": 0.0185,
      "step": 11711
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.07514281570911407,
      "learning_rate": 5.576532094103978e-05,
      "loss": 0.009,
      "step": 11712
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.20049750804901123,
      "learning_rate": 5.574353761254719e-05,
      "loss": 0.0208,
      "step": 11713
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.08952639997005463,
      "learning_rate": 5.57217542840546e-05,
      "loss": 0.0107,
      "step": 11714
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.08829309046268463,
      "learning_rate": 5.5699970955562e-05,
      "loss": 0.0027,
      "step": 11715
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.10420423001050949,
      "learning_rate": 5.567818762706941e-05,
      "loss": 0.0043,
      "step": 11716
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.4158910810947418,
      "learning_rate": 5.565640429857682e-05,
      "loss": 0.0224,
      "step": 11717
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.1881115734577179,
      "learning_rate": 5.563462097008423e-05,
      "loss": 0.0258,
      "step": 11718
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.10670396685600281,
      "learning_rate": 5.561283764159164e-05,
      "loss": 0.0241,
      "step": 11719
    },
    {
      "epoch": 3.28,
      "grad_norm": 0.19147063791751862,
      "learning_rate": 5.559105431309903e-05,
      "loss": 0.0127,
      "step": 11720
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.11399560421705246,
      "learning_rate": 5.556927098460644e-05,
      "loss": 0.0119,
      "step": 11721
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.05851629376411438,
      "learning_rate": 5.554748765611385e-05,
      "loss": 0.0044,
      "step": 11722
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.17204517126083374,
      "learning_rate": 5.552570432762126e-05,
      "loss": 0.0237,
      "step": 11723
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.07453502714633942,
      "learning_rate": 5.550392099912866e-05,
      "loss": 0.009,
      "step": 11724
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.21411585807800293,
      "learning_rate": 5.548213767063607e-05,
      "loss": 0.0435,
      "step": 11725
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.10439539700746536,
      "learning_rate": 5.546035434214348e-05,
      "loss": 0.0085,
      "step": 11726
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.19087214767932892,
      "learning_rate": 5.543857101365089e-05,
      "loss": 0.0275,
      "step": 11727
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.134973406791687,
      "learning_rate": 5.541678768515828e-05,
      "loss": 0.0037,
      "step": 11728
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.5087011456489563,
      "learning_rate": 5.539500435666569e-05,
      "loss": 0.0692,
      "step": 11729
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.09753283113241196,
      "learning_rate": 5.53732210281731e-05,
      "loss": 0.0057,
      "step": 11730
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.10763687640428543,
      "learning_rate": 5.535143769968051e-05,
      "loss": 0.0086,
      "step": 11731
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.131764754652977,
      "learning_rate": 5.532965437118791e-05,
      "loss": 0.0146,
      "step": 11732
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.15042896568775177,
      "learning_rate": 5.530787104269532e-05,
      "loss": 0.0109,
      "step": 11733
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.3016189634799957,
      "learning_rate": 5.528608771420273e-05,
      "loss": 0.0319,
      "step": 11734
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.10871842503547668,
      "learning_rate": 5.526430438571014e-05,
      "loss": 0.0075,
      "step": 11735
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.10536517947912216,
      "learning_rate": 5.524252105721753e-05,
      "loss": 0.0163,
      "step": 11736
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.03811752423644066,
      "learning_rate": 5.522073772872494e-05,
      "loss": 0.0029,
      "step": 11737
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.04126584157347679,
      "learning_rate": 5.519895440023235e-05,
      "loss": 0.0037,
      "step": 11738
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.14601780474185944,
      "learning_rate": 5.517717107173976e-05,
      "loss": 0.0301,
      "step": 11739
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.36746177077293396,
      "learning_rate": 5.515538774324717e-05,
      "loss": 0.0483,
      "step": 11740
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.2543793022632599,
      "learning_rate": 5.513360441475457e-05,
      "loss": 0.0144,
      "step": 11741
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.5773367285728455,
      "learning_rate": 5.511182108626198e-05,
      "loss": 0.0352,
      "step": 11742
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.12550176680088043,
      "learning_rate": 5.509003775776939e-05,
      "loss": 0.0115,
      "step": 11743
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.1153528019785881,
      "learning_rate": 5.506825442927679e-05,
      "loss": 0.0123,
      "step": 11744
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.1904240995645523,
      "learning_rate": 5.504647110078419e-05,
      "loss": 0.019,
      "step": 11745
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.11021405458450317,
      "learning_rate": 5.50246877722916e-05,
      "loss": 0.0155,
      "step": 11746
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.08833639323711395,
      "learning_rate": 5.500290444379901e-05,
      "loss": 0.0052,
      "step": 11747
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.2902982831001282,
      "learning_rate": 5.498112111530642e-05,
      "loss": 0.03,
      "step": 11748
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.18218660354614258,
      "learning_rate": 5.495933778681382e-05,
      "loss": 0.0255,
      "step": 11749
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.0766407772898674,
      "learning_rate": 5.493755445832123e-05,
      "loss": 0.0075,
      "step": 11750
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.23423928022384644,
      "learning_rate": 5.491577112982864e-05,
      "loss": 0.0156,
      "step": 11751
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.13484074175357819,
      "learning_rate": 5.489398780133604e-05,
      "loss": 0.0151,
      "step": 11752
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.1760178506374359,
      "learning_rate": 5.487220447284344e-05,
      "loss": 0.0185,
      "step": 11753
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.15273527801036835,
      "learning_rate": 5.485042114435085e-05,
      "loss": 0.0094,
      "step": 11754
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.11730580776929855,
      "learning_rate": 5.482863781585826e-05,
      "loss": 0.0126,
      "step": 11755
    },
    {
      "epoch": 3.29,
      "grad_norm": 0.16471415758132935,
      "learning_rate": 5.480685448736567e-05,
      "loss": 0.0104,
      "step": 11756
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.2198742926120758,
      "learning_rate": 5.478507115887307e-05,
      "loss": 0.0468,
      "step": 11757
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.1306765228509903,
      "learning_rate": 5.476328783038048e-05,
      "loss": 0.0221,
      "step": 11758
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.1315394937992096,
      "learning_rate": 5.474150450188789e-05,
      "loss": 0.0137,
      "step": 11759
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.134973406791687,
      "learning_rate": 5.471972117339529e-05,
      "loss": 0.0141,
      "step": 11760
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.06133109703660011,
      "learning_rate": 5.469793784490269e-05,
      "loss": 0.0056,
      "step": 11761
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.17688901722431183,
      "learning_rate": 5.46761545164101e-05,
      "loss": 0.0152,
      "step": 11762
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.4033517837524414,
      "learning_rate": 5.465437118791751e-05,
      "loss": 0.0188,
      "step": 11763
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.21727254986763,
      "learning_rate": 5.463258785942492e-05,
      "loss": 0.0236,
      "step": 11764
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.19523945450782776,
      "learning_rate": 5.4610804530932327e-05,
      "loss": 0.0124,
      "step": 11765
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.37635913491249084,
      "learning_rate": 5.458902120243973e-05,
      "loss": 0.0297,
      "step": 11766
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.1721487194299698,
      "learning_rate": 5.456723787394713e-05,
      "loss": 0.0152,
      "step": 11767
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.1985582709312439,
      "learning_rate": 5.454545454545454e-05,
      "loss": 0.0247,
      "step": 11768
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.0908142477273941,
      "learning_rate": 5.452367121696195e-05,
      "loss": 0.011,
      "step": 11769
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.09992042928934097,
      "learning_rate": 5.450188788846935e-05,
      "loss": 0.0097,
      "step": 11770
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.14166931807994843,
      "learning_rate": 5.448010455997676e-05,
      "loss": 0.0335,
      "step": 11771
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.08177542686462402,
      "learning_rate": 5.445832123148417e-05,
      "loss": 0.013,
      "step": 11772
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.1095295175909996,
      "learning_rate": 5.443653790299158e-05,
      "loss": 0.0109,
      "step": 11773
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.12490835040807724,
      "learning_rate": 5.441475457449898e-05,
      "loss": 0.0168,
      "step": 11774
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.15539541840553284,
      "learning_rate": 5.439297124600638e-05,
      "loss": 0.0121,
      "step": 11775
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.22803261876106262,
      "learning_rate": 5.437118791751379e-05,
      "loss": 0.0141,
      "step": 11776
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.22528675198554993,
      "learning_rate": 5.43494045890212e-05,
      "loss": 0.0236,
      "step": 11777
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.35270702838897705,
      "learning_rate": 5.43276212605286e-05,
      "loss": 0.0228,
      "step": 11778
    },
    {
      "epoch": 3.3,
      "grad_norm": 1.0864225625991821,
      "learning_rate": 5.430583793203601e-05,
      "loss": 0.0474,
      "step": 11779
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.11138784885406494,
      "learning_rate": 5.428405460354342e-05,
      "loss": 0.0145,
      "step": 11780
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.19110344350337982,
      "learning_rate": 5.426227127505083e-05,
      "loss": 0.0178,
      "step": 11781
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.3462041914463043,
      "learning_rate": 5.424048794655822e-05,
      "loss": 0.0429,
      "step": 11782
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.07421064376831055,
      "learning_rate": 5.421870461806563e-05,
      "loss": 0.0071,
      "step": 11783
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.2009461224079132,
      "learning_rate": 5.419692128957304e-05,
      "loss": 0.0272,
      "step": 11784
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.12366903573274612,
      "learning_rate": 5.417513796108045e-05,
      "loss": 0.0215,
      "step": 11785
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.12873731553554535,
      "learning_rate": 5.415335463258786e-05,
      "loss": 0.0064,
      "step": 11786
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.0815640464425087,
      "learning_rate": 5.413157130409526e-05,
      "loss": 0.009,
      "step": 11787
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.14215616881847382,
      "learning_rate": 5.410978797560267e-05,
      "loss": 0.0276,
      "step": 11788
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.11708877980709076,
      "learning_rate": 5.408800464711008e-05,
      "loss": 0.0152,
      "step": 11789
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.1267143189907074,
      "learning_rate": 5.4066221318617486e-05,
      "loss": 0.008,
      "step": 11790
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.2660221755504608,
      "learning_rate": 5.404443799012488e-05,
      "loss": 0.0216,
      "step": 11791
    },
    {
      "epoch": 3.3,
      "grad_norm": 0.043144311755895615,
      "learning_rate": 5.402265466163229e-05,
      "loss": 0.0022,
      "step": 11792
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.21342733502388,
      "learning_rate": 5.40008713331397e-05,
      "loss": 0.0265,
      "step": 11793
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.16246724128723145,
      "learning_rate": 5.397908800464711e-05,
      "loss": 0.0152,
      "step": 11794
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.1405297815799713,
      "learning_rate": 5.395730467615451e-05,
      "loss": 0.0151,
      "step": 11795
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.07928766310214996,
      "learning_rate": 5.393552134766192e-05,
      "loss": 0.0064,
      "step": 11796
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.10754012316465378,
      "learning_rate": 5.391373801916933e-05,
      "loss": 0.0165,
      "step": 11797
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.28643798828125,
      "learning_rate": 5.3891954690676736e-05,
      "loss": 0.0311,
      "step": 11798
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.16351668536663055,
      "learning_rate": 5.387017136218413e-05,
      "loss": 0.0222,
      "step": 11799
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.19414852559566498,
      "learning_rate": 5.384838803369154e-05,
      "loss": 0.0538,
      "step": 11800
    },
    {
      "epoch": 3.31,
      "eval_loss": 0.0653800219297409,
      "eval_runtime": 175.0608,
      "eval_samples_per_second": 15.092,
      "eval_steps_per_second": 0.474,
      "eval_wer": 0.04884966283220944,
      "step": 11800
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.15715694427490234,
      "learning_rate": 5.382660470519895e-05,
      "loss": 0.0264,
      "step": 11801
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.21749292314052582,
      "learning_rate": 5.380482137670636e-05,
      "loss": 0.0201,
      "step": 11802
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.2714545726776123,
      "learning_rate": 5.378303804821376e-05,
      "loss": 0.0278,
      "step": 11803
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.5881717205047607,
      "learning_rate": 5.376125471972117e-05,
      "loss": 0.0469,
      "step": 11804
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.12167918682098389,
      "learning_rate": 5.373947139122858e-05,
      "loss": 0.0122,
      "step": 11805
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.1882527470588684,
      "learning_rate": 5.3717688062735986e-05,
      "loss": 0.0196,
      "step": 11806
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.3441963791847229,
      "learning_rate": 5.3695904734243395e-05,
      "loss": 0.0265,
      "step": 11807
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.15683484077453613,
      "learning_rate": 5.367412140575079e-05,
      "loss": 0.0395,
      "step": 11808
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.10256051272153854,
      "learning_rate": 5.36523380772582e-05,
      "loss": 0.0161,
      "step": 11809
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.11760501563549042,
      "learning_rate": 5.363055474876561e-05,
      "loss": 0.0174,
      "step": 11810
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.20886795222759247,
      "learning_rate": 5.3608771420273017e-05,
      "loss": 0.0162,
      "step": 11811
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.2238883227109909,
      "learning_rate": 5.358698809178042e-05,
      "loss": 0.0073,
      "step": 11812
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.15932677686214447,
      "learning_rate": 5.356520476328783e-05,
      "loss": 0.0165,
      "step": 11813
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.25447145104408264,
      "learning_rate": 5.3543421434795236e-05,
      "loss": 0.007,
      "step": 11814
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.24289244413375854,
      "learning_rate": 5.3521638106302645e-05,
      "loss": 0.0259,
      "step": 11815
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.5844863653182983,
      "learning_rate": 5.349985477781004e-05,
      "loss": 0.1049,
      "step": 11816
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.08994007110595703,
      "learning_rate": 5.347807144931745e-05,
      "loss": 0.0137,
      "step": 11817
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.08386626839637756,
      "learning_rate": 5.345628812082486e-05,
      "loss": 0.0088,
      "step": 11818
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.1272459179162979,
      "learning_rate": 5.343450479233227e-05,
      "loss": 0.0159,
      "step": 11819
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.24224770069122314,
      "learning_rate": 5.341272146383967e-05,
      "loss": 0.0206,
      "step": 11820
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.12993468344211578,
      "learning_rate": 5.339093813534708e-05,
      "loss": 0.009,
      "step": 11821
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.049553483724594116,
      "learning_rate": 5.3369154806854486e-05,
      "loss": 0.004,
      "step": 11822
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.12202300131320953,
      "learning_rate": 5.334737147836189e-05,
      "loss": 0.0102,
      "step": 11823
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.09329564869403839,
      "learning_rate": 5.332558814986929e-05,
      "loss": 0.0071,
      "step": 11824
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.18065233528614044,
      "learning_rate": 5.33038048213767e-05,
      "loss": 0.0101,
      "step": 11825
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.12368456274271011,
      "learning_rate": 5.328202149288411e-05,
      "loss": 0.0049,
      "step": 11826
    },
    {
      "epoch": 3.31,
      "grad_norm": 0.03434049338102341,
      "learning_rate": 5.326023816439152e-05,
      "loss": 0.0019,
      "step": 11827
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.26740139722824097,
      "learning_rate": 5.323845483589892e-05,
      "loss": 0.0245,
      "step": 11828
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.22158391773700714,
      "learning_rate": 5.321667150740633e-05,
      "loss": 0.0263,
      "step": 11829
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.059126660227775574,
      "learning_rate": 5.3194888178913736e-05,
      "loss": 0.0022,
      "step": 11830
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.3813543915748596,
      "learning_rate": 5.317310485042114e-05,
      "loss": 0.0286,
      "step": 11831
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.09836623817682266,
      "learning_rate": 5.315132152192855e-05,
      "loss": 0.0133,
      "step": 11832
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.12814606726169586,
      "learning_rate": 5.312953819343595e-05,
      "loss": 0.0147,
      "step": 11833
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.15092749893665314,
      "learning_rate": 5.310775486494336e-05,
      "loss": 0.0277,
      "step": 11834
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.20360222458839417,
      "learning_rate": 5.308597153645077e-05,
      "loss": 0.0341,
      "step": 11835
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.13253283500671387,
      "learning_rate": 5.3064188207958176e-05,
      "loss": 0.0242,
      "step": 11836
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.06064707040786743,
      "learning_rate": 5.304240487946558e-05,
      "loss": 0.0059,
      "step": 11837
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.21475134789943695,
      "learning_rate": 5.302062155097298e-05,
      "loss": 0.0239,
      "step": 11838
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.11794135719537735,
      "learning_rate": 5.299883822248039e-05,
      "loss": 0.014,
      "step": 11839
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.15088915824890137,
      "learning_rate": 5.29770548939878e-05,
      "loss": 0.013,
      "step": 11840
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.22248470783233643,
      "learning_rate": 5.29552715654952e-05,
      "loss": 0.0163,
      "step": 11841
    },
    {
      "epoch": 3.32,
      "grad_norm": 1.129416584968567,
      "learning_rate": 5.293348823700261e-05,
      "loss": 0.0874,
      "step": 11842
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.09874912351369858,
      "learning_rate": 5.291170490851002e-05,
      "loss": 0.0081,
      "step": 11843
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.1306949257850647,
      "learning_rate": 5.2889921580017426e-05,
      "loss": 0.0209,
      "step": 11844
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.1981961578130722,
      "learning_rate": 5.286813825152483e-05,
      "loss": 0.0131,
      "step": 11845
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.17549541592597961,
      "learning_rate": 5.284635492303223e-05,
      "loss": 0.0288,
      "step": 11846
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.06650067120790482,
      "learning_rate": 5.282457159453964e-05,
      "loss": 0.0067,
      "step": 11847
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.1492534875869751,
      "learning_rate": 5.280278826604705e-05,
      "loss": 0.0217,
      "step": 11848
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.2189311683177948,
      "learning_rate": 5.278100493755445e-05,
      "loss": 0.0167,
      "step": 11849
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.5962692499160767,
      "learning_rate": 5.275922160906186e-05,
      "loss": 0.0838,
      "step": 11850
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.23183515667915344,
      "learning_rate": 5.273743828056927e-05,
      "loss": 0.0354,
      "step": 11851
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.034900106489658356,
      "learning_rate": 5.2715654952076676e-05,
      "loss": 0.0021,
      "step": 11852
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.17325511574745178,
      "learning_rate": 5.2693871623584085e-05,
      "loss": 0.0213,
      "step": 11853
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.3490746021270752,
      "learning_rate": 5.267208829509148e-05,
      "loss": 0.044,
      "step": 11854
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.17651788890361786,
      "learning_rate": 5.265030496659889e-05,
      "loss": 0.0344,
      "step": 11855
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.057294756174087524,
      "learning_rate": 5.26285216381063e-05,
      "loss": 0.0033,
      "step": 11856
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.09989547729492188,
      "learning_rate": 5.2606738309613706e-05,
      "loss": 0.0234,
      "step": 11857
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.1403479427099228,
      "learning_rate": 5.258495498112111e-05,
      "loss": 0.0238,
      "step": 11858
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.07075729221105576,
      "learning_rate": 5.256317165262852e-05,
      "loss": 0.0053,
      "step": 11859
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.10924571752548218,
      "learning_rate": 5.2541388324135926e-05,
      "loss": 0.0208,
      "step": 11860
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.0994182825088501,
      "learning_rate": 5.2519604995643335e-05,
      "loss": 0.0119,
      "step": 11861
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.1227497011423111,
      "learning_rate": 5.249782166715073e-05,
      "loss": 0.0102,
      "step": 11862
    },
    {
      "epoch": 3.32,
      "grad_norm": 0.12621234357357025,
      "learning_rate": 5.247603833865814e-05,
      "loss": 0.008,
      "step": 11863
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.11789894104003906,
      "learning_rate": 5.245425501016555e-05,
      "loss": 0.0152,
      "step": 11864
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.2308977246284485,
      "learning_rate": 5.2432471681672957e-05,
      "loss": 0.0196,
      "step": 11865
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.5744068026542664,
      "learning_rate": 5.241068835318036e-05,
      "loss": 0.0555,
      "step": 11866
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.23368795216083527,
      "learning_rate": 5.238890502468777e-05,
      "loss": 0.0198,
      "step": 11867
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.18127764761447906,
      "learning_rate": 5.2367121696195176e-05,
      "loss": 0.0085,
      "step": 11868
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.047394268214702606,
      "learning_rate": 5.2345338367702585e-05,
      "loss": 0.0038,
      "step": 11869
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.11903951317071915,
      "learning_rate": 5.232355503920998e-05,
      "loss": 0.0145,
      "step": 11870
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.18056721985340118,
      "learning_rate": 5.230177171071739e-05,
      "loss": 0.0303,
      "step": 11871
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.2113320380449295,
      "learning_rate": 5.22799883822248e-05,
      "loss": 0.0233,
      "step": 11872
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.13622312247753143,
      "learning_rate": 5.225820505373221e-05,
      "loss": 0.0082,
      "step": 11873
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.23956702649593353,
      "learning_rate": 5.2236421725239616e-05,
      "loss": 0.0181,
      "step": 11874
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.09267941862344742,
      "learning_rate": 5.221463839674702e-05,
      "loss": 0.0073,
      "step": 11875
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.14262178540229797,
      "learning_rate": 5.2192855068254426e-05,
      "loss": 0.0539,
      "step": 11876
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.1131640374660492,
      "learning_rate": 5.2171071739761835e-05,
      "loss": 0.0147,
      "step": 11877
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.10891197621822357,
      "learning_rate": 5.2149288411269244e-05,
      "loss": 0.0046,
      "step": 11878
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.3934086263179779,
      "learning_rate": 5.212750508277664e-05,
      "loss": 0.03,
      "step": 11879
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.08121134340763092,
      "learning_rate": 5.210572175428405e-05,
      "loss": 0.0094,
      "step": 11880
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.07578268647193909,
      "learning_rate": 5.208393842579146e-05,
      "loss": 0.0071,
      "step": 11881
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.18910221755504608,
      "learning_rate": 5.2062155097298866e-05,
      "loss": 0.0232,
      "step": 11882
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.1169930100440979,
      "learning_rate": 5.204037176880627e-05,
      "loss": 0.0081,
      "step": 11883
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.1323980838060379,
      "learning_rate": 5.2018588440313677e-05,
      "loss": 0.0304,
      "step": 11884
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.08433078974485397,
      "learning_rate": 5.1996805111821085e-05,
      "loss": 0.008,
      "step": 11885
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.10995007306337357,
      "learning_rate": 5.1975021783328494e-05,
      "loss": 0.0082,
      "step": 11886
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.236537367105484,
      "learning_rate": 5.195323845483589e-05,
      "loss": 0.0226,
      "step": 11887
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.16817910969257355,
      "learning_rate": 5.19314551263433e-05,
      "loss": 0.017,
      "step": 11888
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.2036677598953247,
      "learning_rate": 5.190967179785071e-05,
      "loss": 0.0243,
      "step": 11889
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.2533027231693268,
      "learning_rate": 5.1887888469358116e-05,
      "loss": 0.026,
      "step": 11890
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.2878776490688324,
      "learning_rate": 5.186610514086552e-05,
      "loss": 0.1022,
      "step": 11891
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.6039884090423584,
      "learning_rate": 5.184432181237293e-05,
      "loss": 0.0805,
      "step": 11892
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.3116466701030731,
      "learning_rate": 5.1822538483880335e-05,
      "loss": 0.0121,
      "step": 11893
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.24771034717559814,
      "learning_rate": 5.1800755155387744e-05,
      "loss": 0.042,
      "step": 11894
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.25003162026405334,
      "learning_rate": 5.177897182689514e-05,
      "loss": 0.0223,
      "step": 11895
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.11455876380205154,
      "learning_rate": 5.175718849840255e-05,
      "loss": 0.0189,
      "step": 11896
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.033669061958789825,
      "learning_rate": 5.173540516990996e-05,
      "loss": 0.0029,
      "step": 11897
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.12098035216331482,
      "learning_rate": 5.1713621841417366e-05,
      "loss": 0.0146,
      "step": 11898
    },
    {
      "epoch": 3.33,
      "grad_norm": 0.07471904903650284,
      "learning_rate": 5.1691838512924775e-05,
      "loss": 0.0166,
      "step": 11899
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.05712229385972023,
      "learning_rate": 5.167005518443218e-05,
      "loss": 0.0047,
      "step": 11900
    },
    {
      "epoch": 3.34,
      "eval_loss": 0.06250175833702087,
      "eval_runtime": 173.411,
      "eval_samples_per_second": 15.235,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.04900833002776676,
      "step": 11900
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.18732993304729462,
      "learning_rate": 5.1648271855939586e-05,
      "loss": 0.0259,
      "step": 11901
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.28135764598846436,
      "learning_rate": 5.162648852744699e-05,
      "loss": 0.0442,
      "step": 11902
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.0717468410730362,
      "learning_rate": 5.1604705198954396e-05,
      "loss": 0.0047,
      "step": 11903
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.14279834926128387,
      "learning_rate": 5.15829218704618e-05,
      "loss": 0.0172,
      "step": 11904
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.14432905614376068,
      "learning_rate": 5.156113854196921e-05,
      "loss": 0.0296,
      "step": 11905
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.24711035192012787,
      "learning_rate": 5.1539355213476616e-05,
      "loss": 0.0325,
      "step": 11906
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.1314384788274765,
      "learning_rate": 5.1517571884984025e-05,
      "loss": 0.0282,
      "step": 11907
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.05598508566617966,
      "learning_rate": 5.149578855649143e-05,
      "loss": 0.0041,
      "step": 11908
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.13234053552150726,
      "learning_rate": 5.1474005227998836e-05,
      "loss": 0.0126,
      "step": 11909
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.15335491299629211,
      "learning_rate": 5.145222189950624e-05,
      "loss": 0.0225,
      "step": 11910
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.09165009111166,
      "learning_rate": 5.1430438571013647e-05,
      "loss": 0.0163,
      "step": 11911
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.11623290181159973,
      "learning_rate": 5.140865524252105e-05,
      "loss": 0.0045,
      "step": 11912
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.2007102072238922,
      "learning_rate": 5.138687191402846e-05,
      "loss": 0.0324,
      "step": 11913
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.21144132316112518,
      "learning_rate": 5.1365088585535866e-05,
      "loss": 0.0209,
      "step": 11914
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.0550602525472641,
      "learning_rate": 5.1343305257043275e-05,
      "loss": 0.007,
      "step": 11915
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.2573126256465912,
      "learning_rate": 5.132152192855068e-05,
      "loss": 0.034,
      "step": 11916
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.3259875476360321,
      "learning_rate": 5.129973860005808e-05,
      "loss": 0.0137,
      "step": 11917
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.20590302348136902,
      "learning_rate": 5.127795527156549e-05,
      "loss": 0.0264,
      "step": 11918
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.08564762771129608,
      "learning_rate": 5.12561719430729e-05,
      "loss": 0.005,
      "step": 11919
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.11280125379562378,
      "learning_rate": 5.1234388614580305e-05,
      "loss": 0.0163,
      "step": 11920
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.09153992682695389,
      "learning_rate": 5.121260528608771e-05,
      "loss": 0.0162,
      "step": 11921
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.13732947409152985,
      "learning_rate": 5.1190821957595116e-05,
      "loss": 0.0195,
      "step": 11922
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.072429358959198,
      "learning_rate": 5.1169038629102525e-05,
      "loss": 0.0065,
      "step": 11923
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.1631912887096405,
      "learning_rate": 5.1147255300609934e-05,
      "loss": 0.0281,
      "step": 11924
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.11996112763881683,
      "learning_rate": 5.112547197211733e-05,
      "loss": 0.0109,
      "step": 11925
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.04563330113887787,
      "learning_rate": 5.110368864362474e-05,
      "loss": 0.0034,
      "step": 11926
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.18451324105262756,
      "learning_rate": 5.108190531513215e-05,
      "loss": 0.0292,
      "step": 11927
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.24468116462230682,
      "learning_rate": 5.1060121986639556e-05,
      "loss": 0.0466,
      "step": 11928
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.48449036478996277,
      "learning_rate": 5.103833865814696e-05,
      "loss": 0.0811,
      "step": 11929
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.18102127313613892,
      "learning_rate": 5.1016555329654366e-05,
      "loss": 0.0138,
      "step": 11930
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.1893378496170044,
      "learning_rate": 5.0994772001161775e-05,
      "loss": 0.0181,
      "step": 11931
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.10433534532785416,
      "learning_rate": 5.0972988672669184e-05,
      "loss": 0.0098,
      "step": 11932
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.14783966541290283,
      "learning_rate": 5.095120534417658e-05,
      "loss": 0.0137,
      "step": 11933
    },
    {
      "epoch": 3.34,
      "grad_norm": 0.06468924134969711,
      "learning_rate": 5.092942201568399e-05,
      "loss": 0.0135,
      "step": 11934
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.14454101026058197,
      "learning_rate": 5.09076386871914e-05,
      "loss": 0.0177,
      "step": 11935
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.08116774260997772,
      "learning_rate": 5.0885855358698806e-05,
      "loss": 0.0134,
      "step": 11936
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.17285430431365967,
      "learning_rate": 5.086407203020621e-05,
      "loss": 0.017,
      "step": 11937
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.07788102328777313,
      "learning_rate": 5.0842288701713617e-05,
      "loss": 0.007,
      "step": 11938
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.13091854751110077,
      "learning_rate": 5.0820505373221025e-05,
      "loss": 0.008,
      "step": 11939
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.3453686833381653,
      "learning_rate": 5.0798722044728434e-05,
      "loss": 0.016,
      "step": 11940
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.24177387356758118,
      "learning_rate": 5.077693871623584e-05,
      "loss": 0.0227,
      "step": 11941
    },
    {
      "epoch": 3.35,
      "grad_norm": 1.0113991498947144,
      "learning_rate": 5.075515538774324e-05,
      "loss": 0.0501,
      "step": 11942
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.10130338370800018,
      "learning_rate": 5.073337205925065e-05,
      "loss": 0.0134,
      "step": 11943
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.19326496124267578,
      "learning_rate": 5.0711588730758056e-05,
      "loss": 0.0266,
      "step": 11944
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.4851497411727905,
      "learning_rate": 5.0689805402265465e-05,
      "loss": 0.0597,
      "step": 11945
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.1936386525630951,
      "learning_rate": 5.066802207377287e-05,
      "loss": 0.0219,
      "step": 11946
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.16648563742637634,
      "learning_rate": 5.0646238745280276e-05,
      "loss": 0.0317,
      "step": 11947
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.2645556926727295,
      "learning_rate": 5.0624455416787684e-05,
      "loss": 0.0245,
      "step": 11948
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.06435399502515793,
      "learning_rate": 5.060267208829509e-05,
      "loss": 0.0054,
      "step": 11949
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.08722548931837082,
      "learning_rate": 5.058088875980249e-05,
      "loss": 0.0068,
      "step": 11950
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.35653552412986755,
      "learning_rate": 5.05591054313099e-05,
      "loss": 0.0242,
      "step": 11951
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.10102257877588272,
      "learning_rate": 5.0537322102817306e-05,
      "loss": 0.0081,
      "step": 11952
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.2094479650259018,
      "learning_rate": 5.0515538774324715e-05,
      "loss": 0.0128,
      "step": 11953
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.49626049399375916,
      "learning_rate": 5.049375544583212e-05,
      "loss": 0.0568,
      "step": 11954
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.1402132511138916,
      "learning_rate": 5.0471972117339526e-05,
      "loss": 0.0298,
      "step": 11955
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.12682409584522247,
      "learning_rate": 5.0450188788846934e-05,
      "loss": 0.0086,
      "step": 11956
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.18881386518478394,
      "learning_rate": 5.042840546035434e-05,
      "loss": 0.0185,
      "step": 11957
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.09701157361268997,
      "learning_rate": 5.040662213186174e-05,
      "loss": 0.0093,
      "step": 11958
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.20003724098205566,
      "learning_rate": 5.038483880336915e-05,
      "loss": 0.0303,
      "step": 11959
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.18828798830509186,
      "learning_rate": 5.0363055474876556e-05,
      "loss": 0.038,
      "step": 11960
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.09374725073575974,
      "learning_rate": 5.0341272146383965e-05,
      "loss": 0.0158,
      "step": 11961
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.24086721241474152,
      "learning_rate": 5.0319488817891374e-05,
      "loss": 0.0214,
      "step": 11962
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.02554200030863285,
      "learning_rate": 5.0297705489398776e-05,
      "loss": 0.0019,
      "step": 11963
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.2706708312034607,
      "learning_rate": 5.0275922160906185e-05,
      "loss": 0.0088,
      "step": 11964
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.13539133965969086,
      "learning_rate": 5.0254138832413593e-05,
      "loss": 0.0175,
      "step": 11965
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.09315516799688339,
      "learning_rate": 5.0232355503920995e-05,
      "loss": 0.0055,
      "step": 11966
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.3791566491127014,
      "learning_rate": 5.02105721754284e-05,
      "loss": 0.0437,
      "step": 11967
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.08834312111139297,
      "learning_rate": 5.0188788846935806e-05,
      "loss": 0.009,
      "step": 11968
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.11031775176525116,
      "learning_rate": 5.0167005518443215e-05,
      "loss": 0.0304,
      "step": 11969
    },
    {
      "epoch": 3.35,
      "grad_norm": 0.07330843806266785,
      "learning_rate": 5.0145222189950624e-05,
      "loss": 0.0126,
      "step": 11970
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.11987562477588654,
      "learning_rate": 5.0123438861458026e-05,
      "loss": 0.0063,
      "step": 11971
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.17594651877880096,
      "learning_rate": 5.0101655532965435e-05,
      "loss": 0.0179,
      "step": 11972
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.1622018963098526,
      "learning_rate": 5.007987220447284e-05,
      "loss": 0.0174,
      "step": 11973
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.07593647390604019,
      "learning_rate": 5.0058088875980246e-05,
      "loss": 0.0046,
      "step": 11974
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.10342033207416534,
      "learning_rate": 5.003630554748765e-05,
      "loss": 0.0206,
      "step": 11975
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.2112749069929123,
      "learning_rate": 5.0014522218995056e-05,
      "loss": 0.0131,
      "step": 11976
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.10940752178430557,
      "learning_rate": 4.9992738890502465e-05,
      "loss": 0.008,
      "step": 11977
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.17422999441623688,
      "learning_rate": 4.9970955562009874e-05,
      "loss": 0.0068,
      "step": 11978
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.43866533041000366,
      "learning_rate": 4.9949172233517276e-05,
      "loss": 0.043,
      "step": 11979
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.12237207591533661,
      "learning_rate": 4.9927388905024685e-05,
      "loss": 0.0128,
      "step": 11980
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.11262985318899155,
      "learning_rate": 4.990560557653209e-05,
      "loss": 0.02,
      "step": 11981
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.04889269545674324,
      "learning_rate": 4.9883822248039496e-05,
      "loss": 0.0046,
      "step": 11982
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.14649257063865662,
      "learning_rate": 4.98620389195469e-05,
      "loss": 0.024,
      "step": 11983
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.12619026005268097,
      "learning_rate": 4.9840255591054307e-05,
      "loss": 0.0116,
      "step": 11984
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.1521068662405014,
      "learning_rate": 4.9818472262561715e-05,
      "loss": 0.0421,
      "step": 11985
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.1571887880563736,
      "learning_rate": 4.9796688934069124e-05,
      "loss": 0.0086,
      "step": 11986
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.11278735846281052,
      "learning_rate": 4.977490560557653e-05,
      "loss": 0.0261,
      "step": 11987
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.420092910528183,
      "learning_rate": 4.9753122277083935e-05,
      "loss": 0.0319,
      "step": 11988
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.055402468889951706,
      "learning_rate": 4.973133894859134e-05,
      "loss": 0.0042,
      "step": 11989
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.3295868933200836,
      "learning_rate": 4.9709555620098746e-05,
      "loss": 0.022,
      "step": 11990
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.2871948182582855,
      "learning_rate": 4.9687772291606155e-05,
      "loss": 0.0451,
      "step": 11991
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.6739876866340637,
      "learning_rate": 4.966598896311356e-05,
      "loss": 0.0655,
      "step": 11992
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.3445031940937042,
      "learning_rate": 4.9644205634620965e-05,
      "loss": 0.0321,
      "step": 11993
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.10808349400758743,
      "learning_rate": 4.9622422306128374e-05,
      "loss": 0.0135,
      "step": 11994
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.16948626935482025,
      "learning_rate": 4.960063897763578e-05,
      "loss": 0.0161,
      "step": 11995
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.10038787126541138,
      "learning_rate": 4.957885564914318e-05,
      "loss": 0.0424,
      "step": 11996
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.0902239978313446,
      "learning_rate": 4.955707232065059e-05,
      "loss": 0.0135,
      "step": 11997
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.1516125351190567,
      "learning_rate": 4.9535288992157996e-05,
      "loss": 0.025,
      "step": 11998
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.15023839473724365,
      "learning_rate": 4.9513505663665405e-05,
      "loss": 0.0063,
      "step": 11999
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.2401944100856781,
      "learning_rate": 4.949172233517281e-05,
      "loss": 0.015,
      "step": 12000
    },
    {
      "epoch": 3.36,
      "eval_loss": 0.0633741021156311,
      "eval_runtime": 173.7441,
      "eval_samples_per_second": 15.206,
      "eval_steps_per_second": 0.478,
      "eval_wer": 0.04760015866719556,
      "step": 12000
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.1255665272474289,
      "learning_rate": 4.9469939006680216e-05,
      "loss": 0.0117,
      "step": 12001
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.09010623395442963,
      "learning_rate": 4.9448155678187624e-05,
      "loss": 0.0052,
      "step": 12002
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.04465861618518829,
      "learning_rate": 4.942637234969503e-05,
      "loss": 0.0034,
      "step": 12003
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.2185971587896347,
      "learning_rate": 4.940458902120243e-05,
      "loss": 0.0231,
      "step": 12004
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.13559341430664062,
      "learning_rate": 4.938280569270984e-05,
      "loss": 0.0172,
      "step": 12005
    },
    {
      "epoch": 3.36,
      "grad_norm": 0.15649354457855225,
      "learning_rate": 4.9361022364217246e-05,
      "loss": 0.0248,
      "step": 12006
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.1990240514278412,
      "learning_rate": 4.9339239035724655e-05,
      "loss": 0.0215,
      "step": 12007
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.22747401893138885,
      "learning_rate": 4.9317455707232064e-05,
      "loss": 0.0221,
      "step": 12008
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.07833509892225266,
      "learning_rate": 4.9295672378739466e-05,
      "loss": 0.0069,
      "step": 12009
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.1097048968076706,
      "learning_rate": 4.9273889050246875e-05,
      "loss": 0.014,
      "step": 12010
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.18500468134880066,
      "learning_rate": 4.925210572175428e-05,
      "loss": 0.0455,
      "step": 12011
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.13038583099842072,
      "learning_rate": 4.923032239326169e-05,
      "loss": 0.0056,
      "step": 12012
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.18086998164653778,
      "learning_rate": 4.920853906476909e-05,
      "loss": 0.0169,
      "step": 12013
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.11654426902532578,
      "learning_rate": 4.9186755736276496e-05,
      "loss": 0.0087,
      "step": 12014
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.16203396022319794,
      "learning_rate": 4.9164972407783905e-05,
      "loss": 0.0301,
      "step": 12015
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.11495408415794373,
      "learning_rate": 4.9143189079291314e-05,
      "loss": 0.0077,
      "step": 12016
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.4731278121471405,
      "learning_rate": 4.9121405750798716e-05,
      "loss": 0.0308,
      "step": 12017
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.1818312257528305,
      "learning_rate": 4.9099622422306125e-05,
      "loss": 0.0156,
      "step": 12018
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.3212794065475464,
      "learning_rate": 4.9077839093813533e-05,
      "loss": 0.0174,
      "step": 12019
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.10437490046024323,
      "learning_rate": 4.905605576532094e-05,
      "loss": 0.0141,
      "step": 12020
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.18839921057224274,
      "learning_rate": 4.903427243682834e-05,
      "loss": 0.0104,
      "step": 12021
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.061917416751384735,
      "learning_rate": 4.9012489108335746e-05,
      "loss": 0.0018,
      "step": 12022
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.055040597915649414,
      "learning_rate": 4.8990705779843155e-05,
      "loss": 0.0109,
      "step": 12023
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.06934905052185059,
      "learning_rate": 4.8968922451350564e-05,
      "loss": 0.0065,
      "step": 12024
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.1701238751411438,
      "learning_rate": 4.8947139122857966e-05,
      "loss": 0.0137,
      "step": 12025
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.05341241508722305,
      "learning_rate": 4.8925355794365375e-05,
      "loss": 0.0037,
      "step": 12026
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.17280705273151398,
      "learning_rate": 4.8903572465872784e-05,
      "loss": 0.0164,
      "step": 12027
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.04193240776658058,
      "learning_rate": 4.888178913738019e-05,
      "loss": 0.0018,
      "step": 12028
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.16979822516441345,
      "learning_rate": 4.88600058088876e-05,
      "loss": 0.0127,
      "step": 12029
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.1551463007926941,
      "learning_rate": 4.8838222480394996e-05,
      "loss": 0.0189,
      "step": 12030
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.09819920361042023,
      "learning_rate": 4.8816439151902405e-05,
      "loss": 0.0071,
      "step": 12031
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.0682029277086258,
      "learning_rate": 4.8794655823409814e-05,
      "loss": 0.0062,
      "step": 12032
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.12657871842384338,
      "learning_rate": 4.877287249491722e-05,
      "loss": 0.0188,
      "step": 12033
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.12137168645858765,
      "learning_rate": 4.8751089166424625e-05,
      "loss": 0.0245,
      "step": 12034
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.1828875094652176,
      "learning_rate": 4.8729305837932034e-05,
      "loss": 0.0138,
      "step": 12035
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.08110401779413223,
      "learning_rate": 4.870752250943944e-05,
      "loss": 0.0262,
      "step": 12036
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.15029838681221008,
      "learning_rate": 4.8685739180946845e-05,
      "loss": 0.0175,
      "step": 12037
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.1345517933368683,
      "learning_rate": 4.866395585245425e-05,
      "loss": 0.0183,
      "step": 12038
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.2979433834552765,
      "learning_rate": 4.8642172523961655e-05,
      "loss": 0.0214,
      "step": 12039
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.1634856015443802,
      "learning_rate": 4.8620389195469064e-05,
      "loss": 0.0133,
      "step": 12040
    },
    {
      "epoch": 3.37,
      "grad_norm": 0.2723569869995117,
      "learning_rate": 4.859860586697647e-05,
      "loss": 0.0181,
      "step": 12041
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.03515394777059555,
      "learning_rate": 4.8576822538483875e-05,
      "loss": 0.0021,
      "step": 12042
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.1330340951681137,
      "learning_rate": 4.8555039209991284e-05,
      "loss": 0.0281,
      "step": 12043
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.07028262317180634,
      "learning_rate": 4.853325588149869e-05,
      "loss": 0.0072,
      "step": 12044
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.09680889546871185,
      "learning_rate": 4.8511472553006095e-05,
      "loss": 0.0137,
      "step": 12045
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.1543368399143219,
      "learning_rate": 4.84896892245135e-05,
      "loss": 0.0183,
      "step": 12046
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.09635882824659348,
      "learning_rate": 4.8467905896020906e-05,
      "loss": 0.0189,
      "step": 12047
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.15724577009677887,
      "learning_rate": 4.8446122567528314e-05,
      "loss": 0.0127,
      "step": 12048
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.03202065825462341,
      "learning_rate": 4.842433923903572e-05,
      "loss": 0.0014,
      "step": 12049
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.17872682213783264,
      "learning_rate": 4.8402555910543125e-05,
      "loss": 0.0385,
      "step": 12050
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.19400545954704285,
      "learning_rate": 4.8380772582050534e-05,
      "loss": 0.0743,
      "step": 12051
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.11935724318027496,
      "learning_rate": 4.8358989253557936e-05,
      "loss": 0.024,
      "step": 12052
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.1577788144350052,
      "learning_rate": 4.8337205925065345e-05,
      "loss": 0.0162,
      "step": 12053
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.1746937334537506,
      "learning_rate": 4.8315422596572754e-05,
      "loss": 0.0216,
      "step": 12054
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.06048683822154999,
      "learning_rate": 4.8293639268080156e-05,
      "loss": 0.0051,
      "step": 12055
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.18066322803497314,
      "learning_rate": 4.8271855939587565e-05,
      "loss": 0.0248,
      "step": 12056
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.19205434620380402,
      "learning_rate": 4.825007261109497e-05,
      "loss": 0.0179,
      "step": 12057
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.158869668841362,
      "learning_rate": 4.822828928260238e-05,
      "loss": 0.0086,
      "step": 12058
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.19677509367465973,
      "learning_rate": 4.8206505954109784e-05,
      "loss": 0.033,
      "step": 12059
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.09046243131160736,
      "learning_rate": 4.8184722625617186e-05,
      "loss": 0.008,
      "step": 12060
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.1822257786989212,
      "learning_rate": 4.8162939297124595e-05,
      "loss": 0.0122,
      "step": 12061
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.10708433389663696,
      "learning_rate": 4.8141155968632004e-05,
      "loss": 0.0097,
      "step": 12062
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.253511905670166,
      "learning_rate": 4.8119372640139406e-05,
      "loss": 0.0211,
      "step": 12063
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.3568306565284729,
      "learning_rate": 4.8097589311646815e-05,
      "loss": 0.0154,
      "step": 12064
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.083599753677845,
      "learning_rate": 4.8075805983154223e-05,
      "loss": 0.0036,
      "step": 12065
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.18829093873500824,
      "learning_rate": 4.805402265466163e-05,
      "loss": 0.0358,
      "step": 12066
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.4482083022594452,
      "learning_rate": 4.803223932616903e-05,
      "loss": 0.0387,
      "step": 12067
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.09475964307785034,
      "learning_rate": 4.8010455997676436e-05,
      "loss": 0.0048,
      "step": 12068
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.09249451756477356,
      "learning_rate": 4.7988672669183845e-05,
      "loss": 0.005,
      "step": 12069
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.07088625431060791,
      "learning_rate": 4.7966889340691254e-05,
      "loss": 0.0091,
      "step": 12070
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.31623440980911255,
      "learning_rate": 4.7945106012198656e-05,
      "loss": 0.0334,
      "step": 12071
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.06607489287853241,
      "learning_rate": 4.7923322683706065e-05,
      "loss": 0.0054,
      "step": 12072
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.35827428102493286,
      "learning_rate": 4.7901539355213474e-05,
      "loss": 0.0126,
      "step": 12073
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.1182866320014,
      "learning_rate": 4.787975602672088e-05,
      "loss": 0.0092,
      "step": 12074
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.40421536564826965,
      "learning_rate": 4.785797269822829e-05,
      "loss": 0.027,
      "step": 12075
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.2322104126214981,
      "learning_rate": 4.7836189369735686e-05,
      "loss": 0.0192,
      "step": 12076
    },
    {
      "epoch": 3.38,
      "grad_norm": 0.8217478394508362,
      "learning_rate": 4.7814406041243095e-05,
      "loss": 0.018,
      "step": 12077
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.21818386018276215,
      "learning_rate": 4.7792622712750504e-05,
      "loss": 0.0212,
      "step": 12078
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.8060124516487122,
      "learning_rate": 4.777083938425791e-05,
      "loss": 0.0361,
      "step": 12079
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.23346278071403503,
      "learning_rate": 4.7749056055765315e-05,
      "loss": 0.0293,
      "step": 12080
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.07758338749408722,
      "learning_rate": 4.7727272727272724e-05,
      "loss": 0.0138,
      "step": 12081
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.1698499619960785,
      "learning_rate": 4.770548939878013e-05,
      "loss": 0.0147,
      "step": 12082
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.1222156286239624,
      "learning_rate": 4.768370607028754e-05,
      "loss": 0.0118,
      "step": 12083
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.1059972420334816,
      "learning_rate": 4.7661922741794937e-05,
      "loss": 0.0151,
      "step": 12084
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.27407106757164,
      "learning_rate": 4.7640139413302345e-05,
      "loss": 0.0188,
      "step": 12085
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.2537929117679596,
      "learning_rate": 4.7618356084809754e-05,
      "loss": 0.021,
      "step": 12086
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.1560440957546234,
      "learning_rate": 4.759657275631716e-05,
      "loss": 0.0228,
      "step": 12087
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.25430768728256226,
      "learning_rate": 4.7574789427824565e-05,
      "loss": 0.0191,
      "step": 12088
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.1399765908718109,
      "learning_rate": 4.7553006099331974e-05,
      "loss": 0.0147,
      "step": 12089
    },
    {
      "epoch": 3.39,
      "grad_norm": 1.167120099067688,
      "learning_rate": 4.753122277083938e-05,
      "loss": 0.0198,
      "step": 12090
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.14913837611675262,
      "learning_rate": 4.750943944234679e-05,
      "loss": 0.0175,
      "step": 12091
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.5488830804824829,
      "learning_rate": 4.748765611385419e-05,
      "loss": 0.0671,
      "step": 12092
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.12913276255130768,
      "learning_rate": 4.7465872785361596e-05,
      "loss": 0.018,
      "step": 12093
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.41454678773880005,
      "learning_rate": 4.7444089456869004e-05,
      "loss": 0.036,
      "step": 12094
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.2281431406736374,
      "learning_rate": 4.742230612837641e-05,
      "loss": 0.0528,
      "step": 12095
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.26579588651657104,
      "learning_rate": 4.740052279988382e-05,
      "loss": 0.0452,
      "step": 12096
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.0888153463602066,
      "learning_rate": 4.7378739471391224e-05,
      "loss": 0.0078,
      "step": 12097
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.1433914452791214,
      "learning_rate": 4.735695614289863e-05,
      "loss": 0.0227,
      "step": 12098
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.11340541392564774,
      "learning_rate": 4.733517281440604e-05,
      "loss": 0.0158,
      "step": 12099
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.2909526228904724,
      "learning_rate": 4.731338948591345e-05,
      "loss": 0.0323,
      "step": 12100
    },
    {
      "epoch": 3.39,
      "eval_loss": 0.06551531702280045,
      "eval_runtime": 171.9554,
      "eval_samples_per_second": 15.364,
      "eval_steps_per_second": 0.483,
      "eval_wer": 0.049404998016660054,
      "step": 12100
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.20903846621513367,
      "learning_rate": 4.7291606157420846e-05,
      "loss": 0.0283,
      "step": 12101
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.22427350282669067,
      "learning_rate": 4.7269822828928254e-05,
      "loss": 0.0125,
      "step": 12102
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.12980416417121887,
      "learning_rate": 4.724803950043566e-05,
      "loss": 0.013,
      "step": 12103
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.6309476494789124,
      "learning_rate": 4.722625617194307e-05,
      "loss": 0.0945,
      "step": 12104
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.10860705375671387,
      "learning_rate": 4.7204472843450474e-05,
      "loss": 0.0147,
      "step": 12105
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.11192229390144348,
      "learning_rate": 4.718268951495788e-05,
      "loss": 0.015,
      "step": 12106
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.1455531269311905,
      "learning_rate": 4.716090618646529e-05,
      "loss": 0.0132,
      "step": 12107
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.24821816384792328,
      "learning_rate": 4.7139122857972694e-05,
      "loss": 0.0125,
      "step": 12108
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.11100535094738007,
      "learning_rate": 4.7117339529480096e-05,
      "loss": 0.012,
      "step": 12109
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.09923392534255981,
      "learning_rate": 4.7095556200987505e-05,
      "loss": 0.0163,
      "step": 12110
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.12079000473022461,
      "learning_rate": 4.7073772872494913e-05,
      "loss": 0.0105,
      "step": 12111
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.14881782233715057,
      "learning_rate": 4.705198954400232e-05,
      "loss": 0.0096,
      "step": 12112
    },
    {
      "epoch": 3.39,
      "grad_norm": 0.1276756227016449,
      "learning_rate": 4.7030206215509724e-05,
      "loss": 0.0211,
      "step": 12113
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.14142371714115143,
      "learning_rate": 4.700842288701713e-05,
      "loss": 0.0186,
      "step": 12114
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.26440879702568054,
      "learning_rate": 4.698663955852454e-05,
      "loss": 0.0329,
      "step": 12115
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.288507878780365,
      "learning_rate": 4.6964856230031944e-05,
      "loss": 0.0115,
      "step": 12116
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.8855335712432861,
      "learning_rate": 4.6943072901539346e-05,
      "loss": 0.1048,
      "step": 12117
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.08398652821779251,
      "learning_rate": 4.6921289573046755e-05,
      "loss": 0.0071,
      "step": 12118
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.1179046556353569,
      "learning_rate": 4.6899506244554164e-05,
      "loss": 0.0128,
      "step": 12119
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.19832077622413635,
      "learning_rate": 4.687772291606157e-05,
      "loss": 0.0687,
      "step": 12120
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.16314907371997833,
      "learning_rate": 4.685593958756898e-05,
      "loss": 0.0177,
      "step": 12121
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.08090904355049133,
      "learning_rate": 4.683415625907638e-05,
      "loss": 0.0035,
      "step": 12122
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.13339635729789734,
      "learning_rate": 4.6812372930583785e-05,
      "loss": 0.0142,
      "step": 12123
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.17714054882526398,
      "learning_rate": 4.6790589602091194e-05,
      "loss": 0.018,
      "step": 12124
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.24354882538318634,
      "learning_rate": 4.67688062735986e-05,
      "loss": 0.0116,
      "step": 12125
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.06157202273607254,
      "learning_rate": 4.6747022945106005e-05,
      "loss": 0.0074,
      "step": 12126
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.454007089138031,
      "learning_rate": 4.6725239616613414e-05,
      "loss": 0.0498,
      "step": 12127
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.025209413841366768,
      "learning_rate": 4.670345628812082e-05,
      "loss": 0.002,
      "step": 12128
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.11179078370332718,
      "learning_rate": 4.668167295962823e-05,
      "loss": 0.0051,
      "step": 12129
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.16385160386562347,
      "learning_rate": 4.665988963113563e-05,
      "loss": 0.0397,
      "step": 12130
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.07936938852071762,
      "learning_rate": 4.6638106302643035e-05,
      "loss": 0.0216,
      "step": 12131
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.11717915534973145,
      "learning_rate": 4.6616322974150444e-05,
      "loss": 0.0102,
      "step": 12132
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.15810351073741913,
      "learning_rate": 4.659453964565785e-05,
      "loss": 0.0216,
      "step": 12133
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.17314618825912476,
      "learning_rate": 4.6572756317165255e-05,
      "loss": 0.0304,
      "step": 12134
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.05052023008465767,
      "learning_rate": 4.6550972988672664e-05,
      "loss": 0.0033,
      "step": 12135
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.16863471269607544,
      "learning_rate": 4.652918966018007e-05,
      "loss": 0.0128,
      "step": 12136
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.14635306596755981,
      "learning_rate": 4.650740633168748e-05,
      "loss": 0.0183,
      "step": 12137
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.0535394586622715,
      "learning_rate": 4.6485623003194883e-05,
      "loss": 0.0044,
      "step": 12138
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.09056580066680908,
      "learning_rate": 4.6463839674702285e-05,
      "loss": 0.0035,
      "step": 12139
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.7098789215087891,
      "learning_rate": 4.6442056346209694e-05,
      "loss": 0.0359,
      "step": 12140
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.17629781365394592,
      "learning_rate": 4.64202730177171e-05,
      "loss": 0.0073,
      "step": 12141
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.18229688704013824,
      "learning_rate": 4.639848968922451e-05,
      "loss": 0.0139,
      "step": 12142
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.21591979265213013,
      "learning_rate": 4.6376706360731914e-05,
      "loss": 0.0218,
      "step": 12143
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.17588049173355103,
      "learning_rate": 4.635492303223932e-05,
      "loss": 0.0316,
      "step": 12144
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.007646193727850914,
      "learning_rate": 4.633313970374673e-05,
      "loss": 0.0007,
      "step": 12145
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.1605682373046875,
      "learning_rate": 4.631135637525414e-05,
      "loss": 0.0175,
      "step": 12146
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.26566803455352783,
      "learning_rate": 4.6289573046761536e-05,
      "loss": 0.017,
      "step": 12147
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.0804126039147377,
      "learning_rate": 4.6267789718268944e-05,
      "loss": 0.0072,
      "step": 12148
    },
    {
      "epoch": 3.4,
      "grad_norm": 0.15379247069358826,
      "learning_rate": 4.624600638977635e-05,
      "loss": 0.0382,
      "step": 12149
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.5335677266120911,
      "learning_rate": 4.622422306128376e-05,
      "loss": 0.0804,
      "step": 12150
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.09506376832723618,
      "learning_rate": 4.6202439732791164e-05,
      "loss": 0.013,
      "step": 12151
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.1507665514945984,
      "learning_rate": 4.618065640429857e-05,
      "loss": 0.0162,
      "step": 12152
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.1662757396697998,
      "learning_rate": 4.615887307580598e-05,
      "loss": 0.0182,
      "step": 12153
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.8635124564170837,
      "learning_rate": 4.613708974731339e-05,
      "loss": 0.071,
      "step": 12154
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.149418905377388,
      "learning_rate": 4.6115306418820786e-05,
      "loss": 0.0068,
      "step": 12155
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.12099737673997879,
      "learning_rate": 4.6093523090328195e-05,
      "loss": 0.0112,
      "step": 12156
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.10483352094888687,
      "learning_rate": 4.60717397618356e-05,
      "loss": 0.0139,
      "step": 12157
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.1445307731628418,
      "learning_rate": 4.604995643334301e-05,
      "loss": 0.0582,
      "step": 12158
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.04872456565499306,
      "learning_rate": 4.6028173104850414e-05,
      "loss": 0.0045,
      "step": 12159
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.17229382693767548,
      "learning_rate": 4.600638977635782e-05,
      "loss": 0.0216,
      "step": 12160
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.07002904266119003,
      "learning_rate": 4.598460644786523e-05,
      "loss": 0.0112,
      "step": 12161
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.19769549369812012,
      "learning_rate": 4.596282311937264e-05,
      "loss": 0.0127,
      "step": 12162
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.24277427792549133,
      "learning_rate": 4.594103979088005e-05,
      "loss": 0.0126,
      "step": 12163
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.2187589704990387,
      "learning_rate": 4.5919256462387445e-05,
      "loss": 0.0138,
      "step": 12164
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.10222122818231583,
      "learning_rate": 4.5897473133894853e-05,
      "loss": 0.0071,
      "step": 12165
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.11121465265750885,
      "learning_rate": 4.587568980540226e-05,
      "loss": 0.0083,
      "step": 12166
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.5919324159622192,
      "learning_rate": 4.585390647690967e-05,
      "loss": 0.0447,
      "step": 12167
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.24719268083572388,
      "learning_rate": 4.583212314841707e-05,
      "loss": 0.0559,
      "step": 12168
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.1425701081752777,
      "learning_rate": 4.581033981992448e-05,
      "loss": 0.0129,
      "step": 12169
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.24149230122566223,
      "learning_rate": 4.578855649143189e-05,
      "loss": 0.0218,
      "step": 12170
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.277923047542572,
      "learning_rate": 4.57667731629393e-05,
      "loss": 0.0211,
      "step": 12171
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.050488490611314774,
      "learning_rate": 4.5744989834446695e-05,
      "loss": 0.0042,
      "step": 12172
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.08090434968471527,
      "learning_rate": 4.5723206505954104e-05,
      "loss": 0.0134,
      "step": 12173
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.15862047672271729,
      "learning_rate": 4.570142317746151e-05,
      "loss": 0.0095,
      "step": 12174
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.23951026797294617,
      "learning_rate": 4.567963984896892e-05,
      "loss": 0.0235,
      "step": 12175
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.23337769508361816,
      "learning_rate": 4.565785652047632e-05,
      "loss": 0.0244,
      "step": 12176
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.1886739283800125,
      "learning_rate": 4.563607319198373e-05,
      "loss": 0.0183,
      "step": 12177
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.15068234503269196,
      "learning_rate": 4.561428986349114e-05,
      "loss": 0.0196,
      "step": 12178
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.17479558289051056,
      "learning_rate": 4.559250653499855e-05,
      "loss": 0.0274,
      "step": 12179
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.1540282666683197,
      "learning_rate": 4.5570723206505945e-05,
      "loss": 0.0256,
      "step": 12180
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.1282893568277359,
      "learning_rate": 4.5548939878013354e-05,
      "loss": 0.0216,
      "step": 12181
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.13006097078323364,
      "learning_rate": 4.552715654952076e-05,
      "loss": 0.0106,
      "step": 12182
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.27462276816368103,
      "learning_rate": 4.550537322102817e-05,
      "loss": 0.0229,
      "step": 12183
    },
    {
      "epoch": 3.41,
      "grad_norm": 0.1316746324300766,
      "learning_rate": 4.548358989253558e-05,
      "loss": 0.016,
      "step": 12184
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.1616242527961731,
      "learning_rate": 4.546180656404298e-05,
      "loss": 0.0151,
      "step": 12185
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.09313202649354935,
      "learning_rate": 4.544002323555039e-05,
      "loss": 0.0099,
      "step": 12186
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.1208702102303505,
      "learning_rate": 4.541823990705779e-05,
      "loss": 0.0264,
      "step": 12187
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.19755487143993378,
      "learning_rate": 4.53964565785652e-05,
      "loss": 0.0234,
      "step": 12188
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.2186254858970642,
      "learning_rate": 4.5374673250072604e-05,
      "loss": 0.0152,
      "step": 12189
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.1119367778301239,
      "learning_rate": 4.535288992158001e-05,
      "loss": 0.0036,
      "step": 12190
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.40858471393585205,
      "learning_rate": 4.533110659308742e-05,
      "loss": 0.0319,
      "step": 12191
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.08758088201284409,
      "learning_rate": 4.530932326459483e-05,
      "loss": 0.014,
      "step": 12192
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.12032186985015869,
      "learning_rate": 4.528753993610223e-05,
      "loss": 0.022,
      "step": 12193
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.08841178566217422,
      "learning_rate": 4.526575660760964e-05,
      "loss": 0.0151,
      "step": 12194
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.10021737217903137,
      "learning_rate": 4.524397327911704e-05,
      "loss": 0.014,
      "step": 12195
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.15179412066936493,
      "learning_rate": 4.522218995062445e-05,
      "loss": 0.0207,
      "step": 12196
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.10735335201025009,
      "learning_rate": 4.5200406622131854e-05,
      "loss": 0.0094,
      "step": 12197
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.06420231610536575,
      "learning_rate": 4.517862329363926e-05,
      "loss": 0.0054,
      "step": 12198
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.19167360663414001,
      "learning_rate": 4.515683996514667e-05,
      "loss": 0.0124,
      "step": 12199
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.4060862064361572,
      "learning_rate": 4.513505663665408e-05,
      "loss": 0.0173,
      "step": 12200
    },
    {
      "epoch": 3.42,
      "eval_loss": 0.06371507048606873,
      "eval_runtime": 173.8906,
      "eval_samples_per_second": 15.193,
      "eval_steps_per_second": 0.477,
      "eval_wer": 0.049523998413328045,
      "step": 12200
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.1723158210515976,
      "learning_rate": 4.511327330816148e-05,
      "loss": 0.011,
      "step": 12201
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.07999424636363983,
      "learning_rate": 4.5091489979668884e-05,
      "loss": 0.0051,
      "step": 12202
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.020182741805911064,
      "learning_rate": 4.506970665117629e-05,
      "loss": 0.0013,
      "step": 12203
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.05345078557729721,
      "learning_rate": 4.50479233226837e-05,
      "loss": 0.002,
      "step": 12204
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.12905937433242798,
      "learning_rate": 4.5026139994191104e-05,
      "loss": 0.028,
      "step": 12205
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.2586371898651123,
      "learning_rate": 4.500435666569851e-05,
      "loss": 0.022,
      "step": 12206
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.1635807901620865,
      "learning_rate": 4.498257333720592e-05,
      "loss": 0.0224,
      "step": 12207
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.3150274157524109,
      "learning_rate": 4.496079000871333e-05,
      "loss": 0.0245,
      "step": 12208
    },
    {
      "epoch": 3.42,
      "grad_norm": 1.6308033466339111,
      "learning_rate": 4.493900668022074e-05,
      "loss": 0.0203,
      "step": 12209
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.24623100459575653,
      "learning_rate": 4.4917223351728135e-05,
      "loss": 0.0274,
      "step": 12210
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.1248319149017334,
      "learning_rate": 4.4895440023235543e-05,
      "loss": 0.011,
      "step": 12211
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.2816227674484253,
      "learning_rate": 4.487365669474295e-05,
      "loss": 0.0396,
      "step": 12212
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.20242822170257568,
      "learning_rate": 4.485187336625036e-05,
      "loss": 0.0079,
      "step": 12213
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.14415614306926727,
      "learning_rate": 4.483009003775776e-05,
      "loss": 0.0258,
      "step": 12214
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.18393009901046753,
      "learning_rate": 4.480830670926517e-05,
      "loss": 0.0186,
      "step": 12215
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.06297264993190765,
      "learning_rate": 4.478652338077258e-05,
      "loss": 0.0113,
      "step": 12216
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.5594754815101624,
      "learning_rate": 4.476474005227999e-05,
      "loss": 0.0467,
      "step": 12217
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.1123005598783493,
      "learning_rate": 4.4742956723787385e-05,
      "loss": 0.0141,
      "step": 12218
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.10422173142433167,
      "learning_rate": 4.4721173395294794e-05,
      "loss": 0.0142,
      "step": 12219
    },
    {
      "epoch": 3.42,
      "grad_norm": 0.09423187375068665,
      "learning_rate": 4.46993900668022e-05,
      "loss": 0.023,
      "step": 12220
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.1214592307806015,
      "learning_rate": 4.467760673830961e-05,
      "loss": 0.0298,
      "step": 12221
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.12823845446109772,
      "learning_rate": 4.465582340981701e-05,
      "loss": 0.0201,
      "step": 12222
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.33345407247543335,
      "learning_rate": 4.463404008132442e-05,
      "loss": 0.0188,
      "step": 12223
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.11743472516536713,
      "learning_rate": 4.461225675283183e-05,
      "loss": 0.0146,
      "step": 12224
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.18318238854408264,
      "learning_rate": 4.459047342433924e-05,
      "loss": 0.007,
      "step": 12225
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.1293642818927765,
      "learning_rate": 4.4568690095846635e-05,
      "loss": 0.0141,
      "step": 12226
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.14478544890880585,
      "learning_rate": 4.4546906767354044e-05,
      "loss": 0.0216,
      "step": 12227
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.21590109169483185,
      "learning_rate": 4.452512343886145e-05,
      "loss": 0.0428,
      "step": 12228
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.4275965094566345,
      "learning_rate": 4.450334011036886e-05,
      "loss": 0.0479,
      "step": 12229
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.09076143056154251,
      "learning_rate": 4.448155678187627e-05,
      "loss": 0.0096,
      "step": 12230
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.1912216693162918,
      "learning_rate": 4.445977345338367e-05,
      "loss": 0.0239,
      "step": 12231
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.07416190952062607,
      "learning_rate": 4.443799012489108e-05,
      "loss": 0.006,
      "step": 12232
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.039348699152469635,
      "learning_rate": 4.441620679639849e-05,
      "loss": 0.0033,
      "step": 12233
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.15053234994411469,
      "learning_rate": 4.43944234679059e-05,
      "loss": 0.0118,
      "step": 12234
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.10185609012842178,
      "learning_rate": 4.4372640139413294e-05,
      "loss": 0.0068,
      "step": 12235
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.13910123705863953,
      "learning_rate": 4.43508568109207e-05,
      "loss": 0.0222,
      "step": 12236
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.17886623740196228,
      "learning_rate": 4.432907348242811e-05,
      "loss": 0.0117,
      "step": 12237
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.11547437310218811,
      "learning_rate": 4.430729015393552e-05,
      "loss": 0.0113,
      "step": 12238
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.25383007526397705,
      "learning_rate": 4.428550682544292e-05,
      "loss": 0.0574,
      "step": 12239
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.026955820620059967,
      "learning_rate": 4.426372349695033e-05,
      "loss": 0.001,
      "step": 12240
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.12039844691753387,
      "learning_rate": 4.424194016845774e-05,
      "loss": 0.02,
      "step": 12241
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.5489881038665771,
      "learning_rate": 4.422015683996515e-05,
      "loss": 0.0276,
      "step": 12242
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.09736884385347366,
      "learning_rate": 4.4198373511472544e-05,
      "loss": 0.0079,
      "step": 12243
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.26162073016166687,
      "learning_rate": 4.417659018297995e-05,
      "loss": 0.0193,
      "step": 12244
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.058655623346567154,
      "learning_rate": 4.415480685448736e-05,
      "loss": 0.0056,
      "step": 12245
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.24392522871494293,
      "learning_rate": 4.413302352599477e-05,
      "loss": 0.0234,
      "step": 12246
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.10930395126342773,
      "learning_rate": 4.411124019750217e-05,
      "loss": 0.0276,
      "step": 12247
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.16744057834148407,
      "learning_rate": 4.408945686900958e-05,
      "loss": 0.0224,
      "step": 12248
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.0838649794459343,
      "learning_rate": 4.406767354051699e-05,
      "loss": 0.0076,
      "step": 12249
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.30748361349105835,
      "learning_rate": 4.40458902120244e-05,
      "loss": 0.018,
      "step": 12250
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.07513657957315445,
      "learning_rate": 4.40241068835318e-05,
      "loss": 0.0038,
      "step": 12251
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.5307663679122925,
      "learning_rate": 4.40023235550392e-05,
      "loss": 0.056,
      "step": 12252
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.20064722001552582,
      "learning_rate": 4.398054022654661e-05,
      "loss": 0.0298,
      "step": 12253
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.3203467130661011,
      "learning_rate": 4.395875689805402e-05,
      "loss": 0.0064,
      "step": 12254
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.1276509314775467,
      "learning_rate": 4.393697356956143e-05,
      "loss": 0.0148,
      "step": 12255
    },
    {
      "epoch": 3.43,
      "grad_norm": 0.12336762994527817,
      "learning_rate": 4.391519024106883e-05,
      "loss": 0.0139,
      "step": 12256
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.13821294903755188,
      "learning_rate": 4.389340691257624e-05,
      "loss": 0.0116,
      "step": 12257
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.03382721170783043,
      "learning_rate": 4.387162358408364e-05,
      "loss": 0.0026,
      "step": 12258
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.39416202902793884,
      "learning_rate": 4.384984025559105e-05,
      "loss": 0.0192,
      "step": 12259
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.1963891088962555,
      "learning_rate": 4.382805692709845e-05,
      "loss": 0.0197,
      "step": 12260
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.09103105217218399,
      "learning_rate": 4.380627359860586e-05,
      "loss": 0.0129,
      "step": 12261
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.1365610957145691,
      "learning_rate": 4.378449027011327e-05,
      "loss": 0.0272,
      "step": 12262
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.08787856996059418,
      "learning_rate": 4.376270694162068e-05,
      "loss": 0.0071,
      "step": 12263
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.1775032877922058,
      "learning_rate": 4.374092361312808e-05,
      "loss": 0.0191,
      "step": 12264
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.05476024001836777,
      "learning_rate": 4.371914028463549e-05,
      "loss": 0.0031,
      "step": 12265
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.16081954538822174,
      "learning_rate": 4.369735695614289e-05,
      "loss": 0.0129,
      "step": 12266
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.07983383536338806,
      "learning_rate": 4.36755736276503e-05,
      "loss": 0.02,
      "step": 12267
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.08481596410274506,
      "learning_rate": 4.36537902991577e-05,
      "loss": 0.0083,
      "step": 12268
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.1285492330789566,
      "learning_rate": 4.363200697066511e-05,
      "loss": 0.0233,
      "step": 12269
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.12951306998729706,
      "learning_rate": 4.361022364217252e-05,
      "loss": 0.0114,
      "step": 12270
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.2643996775150299,
      "learning_rate": 4.358844031367993e-05,
      "loss": 0.0323,
      "step": 12271
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.2472999542951584,
      "learning_rate": 4.356665698518733e-05,
      "loss": 0.013,
      "step": 12272
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.25039470195770264,
      "learning_rate": 4.354487365669474e-05,
      "loss": 0.021,
      "step": 12273
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.17983733117580414,
      "learning_rate": 4.352309032820214e-05,
      "loss": 0.0309,
      "step": 12274
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.297942191362381,
      "learning_rate": 4.350130699970955e-05,
      "loss": 0.0092,
      "step": 12275
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.1294507384300232,
      "learning_rate": 4.347952367121696e-05,
      "loss": 0.0149,
      "step": 12276
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.15174302458763123,
      "learning_rate": 4.345774034272436e-05,
      "loss": 0.0157,
      "step": 12277
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.3234192430973053,
      "learning_rate": 4.343595701423177e-05,
      "loss": 0.0314,
      "step": 12278
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.19422131776809692,
      "learning_rate": 4.341417368573918e-05,
      "loss": 0.0076,
      "step": 12279
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.14913587272167206,
      "learning_rate": 4.339239035724659e-05,
      "loss": 0.0154,
      "step": 12280
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.08547095209360123,
      "learning_rate": 4.3370607028753984e-05,
      "loss": 0.0101,
      "step": 12281
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.29248714447021484,
      "learning_rate": 4.334882370026139e-05,
      "loss": 0.0354,
      "step": 12282
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.23269487917423248,
      "learning_rate": 4.33270403717688e-05,
      "loss": 0.0319,
      "step": 12283
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.05794161185622215,
      "learning_rate": 4.330525704327621e-05,
      "loss": 0.005,
      "step": 12284
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.17608708143234253,
      "learning_rate": 4.328347371478361e-05,
      "loss": 0.0182,
      "step": 12285
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.13581626117229462,
      "learning_rate": 4.326169038629102e-05,
      "loss": 0.0143,
      "step": 12286
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.13162042200565338,
      "learning_rate": 4.323990705779843e-05,
      "loss": 0.0184,
      "step": 12287
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.049523357301950455,
      "learning_rate": 4.321812372930584e-05,
      "loss": 0.0046,
      "step": 12288
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.19885148108005524,
      "learning_rate": 4.3196340400813234e-05,
      "loss": 0.0268,
      "step": 12289
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.1686663031578064,
      "learning_rate": 4.317455707232064e-05,
      "loss": 0.0091,
      "step": 12290
    },
    {
      "epoch": 3.44,
      "grad_norm": 0.47406435012817383,
      "learning_rate": 4.315277374382805e-05,
      "loss": 0.066,
      "step": 12291
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.4498196542263031,
      "learning_rate": 4.313099041533546e-05,
      "loss": 0.0283,
      "step": 12292
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.16297024488449097,
      "learning_rate": 4.310920708684286e-05,
      "loss": 0.0232,
      "step": 12293
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.13861210644245148,
      "learning_rate": 4.308742375835027e-05,
      "loss": 0.0226,
      "step": 12294
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.14380589127540588,
      "learning_rate": 4.306564042985768e-05,
      "loss": 0.0153,
      "step": 12295
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.1211358979344368,
      "learning_rate": 4.304385710136509e-05,
      "loss": 0.0223,
      "step": 12296
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.1322375386953354,
      "learning_rate": 4.30220737728725e-05,
      "loss": 0.0106,
      "step": 12297
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.15718573331832886,
      "learning_rate": 4.300029044437989e-05,
      "loss": 0.0344,
      "step": 12298
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.10333799570798874,
      "learning_rate": 4.29785071158873e-05,
      "loss": 0.0114,
      "step": 12299
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.14777778089046478,
      "learning_rate": 4.295672378739471e-05,
      "loss": 0.0188,
      "step": 12300
    },
    {
      "epoch": 3.45,
      "eval_loss": 0.06379834562540054,
      "eval_runtime": 173.8669,
      "eval_samples_per_second": 15.196,
      "eval_steps_per_second": 0.477,
      "eval_wer": 0.047877826259420865,
      "step": 12300
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.19514983892440796,
      "learning_rate": 4.293494045890212e-05,
      "loss": 0.0315,
      "step": 12301
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.048940692096948624,
      "learning_rate": 4.291315713040952e-05,
      "loss": 0.0032,
      "step": 12302
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.513931930065155,
      "learning_rate": 4.289137380191693e-05,
      "loss": 0.0521,
      "step": 12303
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.3063092827796936,
      "learning_rate": 4.286959047342434e-05,
      "loss": 0.0221,
      "step": 12304
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.09547923505306244,
      "learning_rate": 4.284780714493175e-05,
      "loss": 0.0075,
      "step": 12305
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.23832207918167114,
      "learning_rate": 4.282602381643914e-05,
      "loss": 0.0131,
      "step": 12306
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.15409968793392181,
      "learning_rate": 4.280424048794655e-05,
      "loss": 0.0181,
      "step": 12307
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.10263581573963165,
      "learning_rate": 4.278245715945396e-05,
      "loss": 0.0089,
      "step": 12308
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.07752213627099991,
      "learning_rate": 4.276067383096137e-05,
      "loss": 0.009,
      "step": 12309
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.18419571220874786,
      "learning_rate": 4.273889050246877e-05,
      "loss": 0.0178,
      "step": 12310
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.07001140713691711,
      "learning_rate": 4.271710717397618e-05,
      "loss": 0.0047,
      "step": 12311
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.15898162126541138,
      "learning_rate": 4.269532384548359e-05,
      "loss": 0.0242,
      "step": 12312
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.06276563555002213,
      "learning_rate": 4.2673540516991e-05,
      "loss": 0.0036,
      "step": 12313
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.33863380551338196,
      "learning_rate": 4.265175718849839e-05,
      "loss": 0.0151,
      "step": 12314
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.5518172979354858,
      "learning_rate": 4.26299738600058e-05,
      "loss": 0.0391,
      "step": 12315
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.22258761525154114,
      "learning_rate": 4.260819053151321e-05,
      "loss": 0.0109,
      "step": 12316
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.261107474565506,
      "learning_rate": 4.258640720302062e-05,
      "loss": 0.017,
      "step": 12317
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.14133939146995544,
      "learning_rate": 4.256462387452803e-05,
      "loss": 0.0159,
      "step": 12318
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.28340670466423035,
      "learning_rate": 4.254284054603543e-05,
      "loss": 0.024,
      "step": 12319
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.1365569680929184,
      "learning_rate": 4.252105721754284e-05,
      "loss": 0.0223,
      "step": 12320
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.19195185601711273,
      "learning_rate": 4.249927388905025e-05,
      "loss": 0.0286,
      "step": 12321
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.08826421946287155,
      "learning_rate": 4.247749056055765e-05,
      "loss": 0.0187,
      "step": 12322
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.21583296358585358,
      "learning_rate": 4.245570723206505e-05,
      "loss": 0.0258,
      "step": 12323
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.20855647325515747,
      "learning_rate": 4.243392390357246e-05,
      "loss": 0.0125,
      "step": 12324
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.2063499391078949,
      "learning_rate": 4.241214057507987e-05,
      "loss": 0.0134,
      "step": 12325
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.06591455638408661,
      "learning_rate": 4.239035724658728e-05,
      "loss": 0.0143,
      "step": 12326
    },
    {
      "epoch": 3.45,
      "grad_norm": 0.41331911087036133,
      "learning_rate": 4.236857391809468e-05,
      "loss": 0.0323,
      "step": 12327
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.17224998772144318,
      "learning_rate": 4.234679058960209e-05,
      "loss": 0.0136,
      "step": 12328
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.2257065773010254,
      "learning_rate": 4.23250072611095e-05,
      "loss": 0.0163,
      "step": 12329
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.24291777610778809,
      "learning_rate": 4.23032239326169e-05,
      "loss": 0.0238,
      "step": 12330
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.26307833194732666,
      "learning_rate": 4.22814406041243e-05,
      "loss": 0.0274,
      "step": 12331
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.13082830607891083,
      "learning_rate": 4.225965727563171e-05,
      "loss": 0.0088,
      "step": 12332
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.24332234263420105,
      "learning_rate": 4.223787394713912e-05,
      "loss": 0.0318,
      "step": 12333
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.05555111914873123,
      "learning_rate": 4.221609061864653e-05,
      "loss": 0.0055,
      "step": 12334
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.36239778995513916,
      "learning_rate": 4.219430729015393e-05,
      "loss": 0.0223,
      "step": 12335
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.23909591138362885,
      "learning_rate": 4.217252396166134e-05,
      "loss": 0.0269,
      "step": 12336
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.062121886759996414,
      "learning_rate": 4.215074063316874e-05,
      "loss": 0.0039,
      "step": 12337
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.20800825953483582,
      "learning_rate": 4.212895730467615e-05,
      "loss": 0.0415,
      "step": 12338
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.32224830985069275,
      "learning_rate": 4.210717397618355e-05,
      "loss": 0.0152,
      "step": 12339
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.21759314835071564,
      "learning_rate": 4.208539064769096e-05,
      "loss": 0.0285,
      "step": 12340
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.2884383201599121,
      "learning_rate": 4.206360731919837e-05,
      "loss": 0.0292,
      "step": 12341
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.5340110063552856,
      "learning_rate": 4.204182399070578e-05,
      "loss": 0.046,
      "step": 12342
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.16118912398815155,
      "learning_rate": 4.202004066221319e-05,
      "loss": 0.0159,
      "step": 12343
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.12849684059619904,
      "learning_rate": 4.199825733372059e-05,
      "loss": 0.0173,
      "step": 12344
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.2629445493221283,
      "learning_rate": 4.197647400522799e-05,
      "loss": 0.0306,
      "step": 12345
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.24882866442203522,
      "learning_rate": 4.19546906767354e-05,
      "loss": 0.0181,
      "step": 12346
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.20741409063339233,
      "learning_rate": 4.193290734824281e-05,
      "loss": 0.0151,
      "step": 12347
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.07388380169868469,
      "learning_rate": 4.191112401975021e-05,
      "loss": 0.0118,
      "step": 12348
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.14361724257469177,
      "learning_rate": 4.188934069125762e-05,
      "loss": 0.0111,
      "step": 12349
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.1271141767501831,
      "learning_rate": 4.186755736276503e-05,
      "loss": 0.0106,
      "step": 12350
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.057614073157310486,
      "learning_rate": 4.184577403427244e-05,
      "loss": 0.0067,
      "step": 12351
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.11216641962528229,
      "learning_rate": 4.182399070577983e-05,
      "loss": 0.0085,
      "step": 12352
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.028191443532705307,
      "learning_rate": 4.180220737728724e-05,
      "loss": 0.002,
      "step": 12353
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.18562470376491547,
      "learning_rate": 4.178042404879465e-05,
      "loss": 0.005,
      "step": 12354
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.18346072733402252,
      "learning_rate": 4.175864072030206e-05,
      "loss": 0.0223,
      "step": 12355
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.24444468319416046,
      "learning_rate": 4.173685739180946e-05,
      "loss": 0.0363,
      "step": 12356
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.10542573034763336,
      "learning_rate": 4.171507406331687e-05,
      "loss": 0.0122,
      "step": 12357
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.062493812292814255,
      "learning_rate": 4.169329073482428e-05,
      "loss": 0.0088,
      "step": 12358
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.08744984865188599,
      "learning_rate": 4.167150740633169e-05,
      "loss": 0.0068,
      "step": 12359
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.16271427273750305,
      "learning_rate": 4.164972407783908e-05,
      "loss": 0.0308,
      "step": 12360
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.11762685328722,
      "learning_rate": 4.162794074934649e-05,
      "loss": 0.0162,
      "step": 12361
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.08214877545833588,
      "learning_rate": 4.16061574208539e-05,
      "loss": 0.0058,
      "step": 12362
    },
    {
      "epoch": 3.46,
      "grad_norm": 0.14122022688388824,
      "learning_rate": 4.158437409236131e-05,
      "loss": 0.0039,
      "step": 12363
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.21972739696502686,
      "learning_rate": 4.156259076386872e-05,
      "loss": 0.0063,
      "step": 12364
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.1538374423980713,
      "learning_rate": 4.154080743537612e-05,
      "loss": 0.0227,
      "step": 12365
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.6426541805267334,
      "learning_rate": 4.151902410688353e-05,
      "loss": 0.0154,
      "step": 12366
    },
    {
      "epoch": 3.47,
      "grad_norm": 1.5201672315597534,
      "learning_rate": 4.149724077839094e-05,
      "loss": 0.1342,
      "step": 12367
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.21870489418506622,
      "learning_rate": 4.147545744989835e-05,
      "loss": 0.0179,
      "step": 12368
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.1160346195101738,
      "learning_rate": 4.145367412140574e-05,
      "loss": 0.0095,
      "step": 12369
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.27821090817451477,
      "learning_rate": 4.143189079291315e-05,
      "loss": 0.0341,
      "step": 12370
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.09883737564086914,
      "learning_rate": 4.141010746442056e-05,
      "loss": 0.0088,
      "step": 12371
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.1445172280073166,
      "learning_rate": 4.138832413592797e-05,
      "loss": 0.0197,
      "step": 12372
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.18316853046417236,
      "learning_rate": 4.136654080743537e-05,
      "loss": 0.0101,
      "step": 12373
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.16628187894821167,
      "learning_rate": 4.134475747894278e-05,
      "loss": 0.0077,
      "step": 12374
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.06627628207206726,
      "learning_rate": 4.132297415045019e-05,
      "loss": 0.0098,
      "step": 12375
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.19999746978282928,
      "learning_rate": 4.13011908219576e-05,
      "loss": 0.0305,
      "step": 12376
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.25544217228889465,
      "learning_rate": 4.127940749346499e-05,
      "loss": 0.0233,
      "step": 12377
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.07644985616207123,
      "learning_rate": 4.12576241649724e-05,
      "loss": 0.0031,
      "step": 12378
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.04182950034737587,
      "learning_rate": 4.123584083647981e-05,
      "loss": 0.0028,
      "step": 12379
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.15375612676143646,
      "learning_rate": 4.121405750798722e-05,
      "loss": 0.0223,
      "step": 12380
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.16635490953922272,
      "learning_rate": 4.119227417949462e-05,
      "loss": 0.0182,
      "step": 12381
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.16529624164104462,
      "learning_rate": 4.117049085100203e-05,
      "loss": 0.0097,
      "step": 12382
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.13177691400051117,
      "learning_rate": 4.114870752250944e-05,
      "loss": 0.0141,
      "step": 12383
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.20269963145256042,
      "learning_rate": 4.112692419401685e-05,
      "loss": 0.0158,
      "step": 12384
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.16968177258968353,
      "learning_rate": 4.1105140865524256e-05,
      "loss": 0.0127,
      "step": 12385
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.1068543940782547,
      "learning_rate": 4.108335753703165e-05,
      "loss": 0.0086,
      "step": 12386
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.24714650213718414,
      "learning_rate": 4.106157420853906e-05,
      "loss": 0.0533,
      "step": 12387
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.04998825117945671,
      "learning_rate": 4.103979088004647e-05,
      "loss": 0.0078,
      "step": 12388
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.2906305193901062,
      "learning_rate": 4.101800755155388e-05,
      "loss": 0.0489,
      "step": 12389
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.20497862994670868,
      "learning_rate": 4.099622422306128e-05,
      "loss": 0.0189,
      "step": 12390
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.06969622522592545,
      "learning_rate": 4.097444089456869e-05,
      "loss": 0.004,
      "step": 12391
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.8550990223884583,
      "learning_rate": 4.09526575660761e-05,
      "loss": 0.0192,
      "step": 12392
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.10858915001153946,
      "learning_rate": 4.09308742375835e-05,
      "loss": 0.0118,
      "step": 12393
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.1242336705327034,
      "learning_rate": 4.09090909090909e-05,
      "loss": 0.0263,
      "step": 12394
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.2251104861497879,
      "learning_rate": 4.088730758059831e-05,
      "loss": 0.0086,
      "step": 12395
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.19736532866954803,
      "learning_rate": 4.086552425210572e-05,
      "loss": 0.0231,
      "step": 12396
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.19294686615467072,
      "learning_rate": 4.084374092361313e-05,
      "loss": 0.0077,
      "step": 12397
    },
    {
      "epoch": 3.47,
      "grad_norm": 0.08440961688756943,
      "learning_rate": 4.082195759512053e-05,
      "loss": 0.0174,
      "step": 12398
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.045998793095350266,
      "learning_rate": 4.080017426662794e-05,
      "loss": 0.0082,
      "step": 12399
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.05761513113975525,
      "learning_rate": 4.077839093813535e-05,
      "loss": 0.004,
      "step": 12400
    },
    {
      "epoch": 3.48,
      "eval_loss": 0.06374097615480423,
      "eval_runtime": 173.2765,
      "eval_samples_per_second": 15.247,
      "eval_steps_per_second": 0.479,
      "eval_wer": 0.04585481951606506,
      "step": 12400
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.034792568534612656,
      "learning_rate": 4.075660760964275e-05,
      "loss": 0.0014,
      "step": 12401
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.07173001766204834,
      "learning_rate": 4.073482428115015e-05,
      "loss": 0.0069,
      "step": 12402
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.2179671823978424,
      "learning_rate": 4.071304095265756e-05,
      "loss": 0.0198,
      "step": 12403
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.29767823219299316,
      "learning_rate": 4.069125762416497e-05,
      "loss": 0.043,
      "step": 12404
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.2830919027328491,
      "learning_rate": 4.066947429567238e-05,
      "loss": 0.0366,
      "step": 12405
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.1394989937543869,
      "learning_rate": 4.064769096717978e-05,
      "loss": 0.0169,
      "step": 12406
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.16429902613162994,
      "learning_rate": 4.062590763868719e-05,
      "loss": 0.0277,
      "step": 12407
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.1253359019756317,
      "learning_rate": 4.060412431019459e-05,
      "loss": 0.0095,
      "step": 12408
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.1847390979528427,
      "learning_rate": 4.0582340981702e-05,
      "loss": 0.0186,
      "step": 12409
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.11237265914678574,
      "learning_rate": 4.056055765320941e-05,
      "loss": 0.0127,
      "step": 12410
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.14960356056690216,
      "learning_rate": 4.053877432471681e-05,
      "loss": 0.0154,
      "step": 12411
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.16297006607055664,
      "learning_rate": 4.051699099622422e-05,
      "loss": 0.0172,
      "step": 12412
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.45316895842552185,
      "learning_rate": 4.049520766773163e-05,
      "loss": 0.0272,
      "step": 12413
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.28803232312202454,
      "learning_rate": 4.047342433923904e-05,
      "loss": 0.0112,
      "step": 12414
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.14855746924877167,
      "learning_rate": 4.045164101074644e-05,
      "loss": 0.0146,
      "step": 12415
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.13402292132377625,
      "learning_rate": 4.042985768225384e-05,
      "loss": 0.0146,
      "step": 12416
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.9342952370643616,
      "learning_rate": 4.040807435376125e-05,
      "loss": 0.0464,
      "step": 12417
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.21145303547382355,
      "learning_rate": 4.038629102526866e-05,
      "loss": 0.0212,
      "step": 12418
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.16308346390724182,
      "learning_rate": 4.036450769677606e-05,
      "loss": 0.0313,
      "step": 12419
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.1933215856552124,
      "learning_rate": 4.034272436828347e-05,
      "loss": 0.0196,
      "step": 12420
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.35524359345436096,
      "learning_rate": 4.032094103979088e-05,
      "loss": 0.0169,
      "step": 12421
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.10484437644481659,
      "learning_rate": 4.029915771129829e-05,
      "loss": 0.0073,
      "step": 12422
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.11711911857128143,
      "learning_rate": 4.027737438280569e-05,
      "loss": 0.0129,
      "step": 12423
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.19256934523582458,
      "learning_rate": 4.025559105431309e-05,
      "loss": 0.0258,
      "step": 12424
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.3357110619544983,
      "learning_rate": 4.02338077258205e-05,
      "loss": 0.0315,
      "step": 12425
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.06095394119620323,
      "learning_rate": 4.021202439732791e-05,
      "loss": 0.0029,
      "step": 12426
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.3260410726070404,
      "learning_rate": 4.019024106883531e-05,
      "loss": 0.04,
      "step": 12427
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.5583613514900208,
      "learning_rate": 4.016845774034272e-05,
      "loss": 0.061,
      "step": 12428
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.42334744334220886,
      "learning_rate": 4.014667441185013e-05,
      "loss": 0.0645,
      "step": 12429
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.12583070993423462,
      "learning_rate": 4.012489108335754e-05,
      "loss": 0.0152,
      "step": 12430
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.21092697978019714,
      "learning_rate": 4.0103107754864946e-05,
      "loss": 0.0155,
      "step": 12431
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.13080047070980072,
      "learning_rate": 4.008132442637234e-05,
      "loss": 0.012,
      "step": 12432
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.25887632369995117,
      "learning_rate": 4.005954109787975e-05,
      "loss": 0.0106,
      "step": 12433
    },
    {
      "epoch": 3.48,
      "grad_norm": 0.1140381395816803,
      "learning_rate": 4.003775776938716e-05,
      "loss": 0.0127,
      "step": 12434
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.3450320065021515,
      "learning_rate": 4.001597444089457e-05,
      "loss": 0.0284,
      "step": 12435
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.07902228087186813,
      "learning_rate": 3.999419111240197e-05,
      "loss": 0.0055,
      "step": 12436
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.27755141258239746,
      "learning_rate": 3.997240778390938e-05,
      "loss": 0.0302,
      "step": 12437
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.43742650747299194,
      "learning_rate": 3.995062445541679e-05,
      "loss": 0.0533,
      "step": 12438
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.24145838618278503,
      "learning_rate": 3.9928841126924196e-05,
      "loss": 0.0342,
      "step": 12439
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.2115558236837387,
      "learning_rate": 3.990705779843159e-05,
      "loss": 0.0206,
      "step": 12440
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.06561930477619171,
      "learning_rate": 3.9885274469939e-05,
      "loss": 0.0036,
      "step": 12441
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.5384514927864075,
      "learning_rate": 3.986349114144641e-05,
      "loss": 0.0403,
      "step": 12442
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.20419515669345856,
      "learning_rate": 3.984170781295382e-05,
      "loss": 0.0144,
      "step": 12443
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.10129109770059586,
      "learning_rate": 3.981992448446122e-05,
      "loss": 0.0355,
      "step": 12444
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.2640778422355652,
      "learning_rate": 3.979814115596863e-05,
      "loss": 0.0279,
      "step": 12445
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.15269091725349426,
      "learning_rate": 3.977635782747604e-05,
      "loss": 0.0245,
      "step": 12446
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.14556767046451569,
      "learning_rate": 3.9754574498983446e-05,
      "loss": 0.0238,
      "step": 12447
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.052469246089458466,
      "learning_rate": 3.973279117049084e-05,
      "loss": 0.0064,
      "step": 12448
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.19221548736095428,
      "learning_rate": 3.971100784199825e-05,
      "loss": 0.0566,
      "step": 12449
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.1096445843577385,
      "learning_rate": 3.968922451350566e-05,
      "loss": 0.0239,
      "step": 12450
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.2447991818189621,
      "learning_rate": 3.966744118501307e-05,
      "loss": 0.0236,
      "step": 12451
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.06254862248897552,
      "learning_rate": 3.9645657856520477e-05,
      "loss": 0.0057,
      "step": 12452
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.1794884353876114,
      "learning_rate": 3.962387452802788e-05,
      "loss": 0.0216,
      "step": 12453
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.2562119960784912,
      "learning_rate": 3.960209119953529e-05,
      "loss": 0.0105,
      "step": 12454
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.099200040102005,
      "learning_rate": 3.9580307871042696e-05,
      "loss": 0.0234,
      "step": 12455
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.11680129170417786,
      "learning_rate": 3.9558524542550105e-05,
      "loss": 0.0179,
      "step": 12456
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.05410737171769142,
      "learning_rate": 3.95367412140575e-05,
      "loss": 0.0053,
      "step": 12457
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.1317424476146698,
      "learning_rate": 3.951495788556491e-05,
      "loss": 0.0194,
      "step": 12458
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.10519830882549286,
      "learning_rate": 3.949317455707232e-05,
      "loss": 0.0079,
      "step": 12459
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.11947490274906158,
      "learning_rate": 3.947139122857973e-05,
      "loss": 0.0147,
      "step": 12460
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.2110724151134491,
      "learning_rate": 3.944960790008713e-05,
      "loss": 0.0191,
      "step": 12461
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.12237197905778885,
      "learning_rate": 3.942782457159454e-05,
      "loss": 0.0141,
      "step": 12462
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.08888846635818481,
      "learning_rate": 3.9406041243101946e-05,
      "loss": 0.0073,
      "step": 12463
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.07965856790542603,
      "learning_rate": 3.9384257914609355e-05,
      "loss": 0.0048,
      "step": 12464
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.36682552099227905,
      "learning_rate": 3.936247458611675e-05,
      "loss": 0.0509,
      "step": 12465
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.2696765661239624,
      "learning_rate": 3.934069125762416e-05,
      "loss": 0.0446,
      "step": 12466
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.3283821940422058,
      "learning_rate": 3.931890792913157e-05,
      "loss": 0.0266,
      "step": 12467
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.1775830239057541,
      "learning_rate": 3.929712460063898e-05,
      "loss": 0.0186,
      "step": 12468
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.09445031732320786,
      "learning_rate": 3.927534127214638e-05,
      "loss": 0.0107,
      "step": 12469
    },
    {
      "epoch": 3.49,
      "grad_norm": 0.1512642502784729,
      "learning_rate": 3.925355794365379e-05,
      "loss": 0.0145,
      "step": 12470
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.1427146941423416,
      "learning_rate": 3.9231774615161196e-05,
      "loss": 0.0153,
      "step": 12471
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.19997303187847137,
      "learning_rate": 3.92099912866686e-05,
      "loss": 0.017,
      "step": 12472
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.12387305498123169,
      "learning_rate": 3.918820795817601e-05,
      "loss": 0.0137,
      "step": 12473
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.060864612460136414,
      "learning_rate": 3.916642462968341e-05,
      "loss": 0.0064,
      "step": 12474
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.16614490747451782,
      "learning_rate": 3.914464130119082e-05,
      "loss": 0.0185,
      "step": 12475
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.041501596570014954,
      "learning_rate": 3.912285797269823e-05,
      "loss": 0.0023,
      "step": 12476
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.22420251369476318,
      "learning_rate": 3.9101074644205636e-05,
      "loss": 0.0119,
      "step": 12477
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.14673028886318207,
      "learning_rate": 3.907929131571304e-05,
      "loss": 0.0216,
      "step": 12478
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.5598924160003662,
      "learning_rate": 3.9057507987220447e-05,
      "loss": 0.0184,
      "step": 12479
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.1786147952079773,
      "learning_rate": 3.903572465872785e-05,
      "loss": 0.0048,
      "step": 12480
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.22113142907619476,
      "learning_rate": 3.901394133023526e-05,
      "loss": 0.0359,
      "step": 12481
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.12093029171228409,
      "learning_rate": 3.899215800174266e-05,
      "loss": 0.0112,
      "step": 12482
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.05379730835556984,
      "learning_rate": 3.897037467325007e-05,
      "loss": 0.0043,
      "step": 12483
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.2501940429210663,
      "learning_rate": 3.894859134475748e-05,
      "loss": 0.0179,
      "step": 12484
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.18482570350170135,
      "learning_rate": 3.8926808016264886e-05,
      "loss": 0.053,
      "step": 12485
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.10497985035181046,
      "learning_rate": 3.890502468777229e-05,
      "loss": 0.0122,
      "step": 12486
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.2443402260541916,
      "learning_rate": 3.888324135927969e-05,
      "loss": 0.0126,
      "step": 12487
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.18386797606945038,
      "learning_rate": 3.88614580307871e-05,
      "loss": 0.0254,
      "step": 12488
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.11316139996051788,
      "learning_rate": 3.883967470229451e-05,
      "loss": 0.0154,
      "step": 12489
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.0975458025932312,
      "learning_rate": 3.881789137380191e-05,
      "loss": 0.0074,
      "step": 12490
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.5092969536781311,
      "learning_rate": 3.879610804530932e-05,
      "loss": 0.0436,
      "step": 12491
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.09950462728738785,
      "learning_rate": 3.877432471681673e-05,
      "loss": 0.0065,
      "step": 12492
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.1025986522436142,
      "learning_rate": 3.8752541388324136e-05,
      "loss": 0.0123,
      "step": 12493
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.16725647449493408,
      "learning_rate": 3.873075805983154e-05,
      "loss": 0.0115,
      "step": 12494
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.11024714261293411,
      "learning_rate": 3.870897473133894e-05,
      "loss": 0.0228,
      "step": 12495
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.5222295522689819,
      "learning_rate": 3.868719140284635e-05,
      "loss": 0.0325,
      "step": 12496
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.14638423919677734,
      "learning_rate": 3.866540807435376e-05,
      "loss": 0.0129,
      "step": 12497
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.1017652079463005,
      "learning_rate": 3.8643624745861166e-05,
      "loss": 0.007,
      "step": 12498
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.2573740482330322,
      "learning_rate": 3.862184141736857e-05,
      "loss": 0.0622,
      "step": 12499
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.1864491105079651,
      "learning_rate": 3.860005808887598e-05,
      "loss": 0.022,
      "step": 12500
    },
    {
      "epoch": 3.5,
      "eval_loss": 0.06371302157640457,
      "eval_runtime": 173.9208,
      "eval_samples_per_second": 15.191,
      "eval_steps_per_second": 0.477,
      "eval_wer": 0.046687822292740974,
      "step": 12500
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.10025618970394135,
      "learning_rate": 3.8578274760383386e-05,
      "loss": 0.0076,
      "step": 12501
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.15402020514011383,
      "learning_rate": 3.8556491431890795e-05,
      "loss": 0.0189,
      "step": 12502
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.03667671978473663,
      "learning_rate": 3.853470810339819e-05,
      "loss": 0.0016,
      "step": 12503
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.3747609853744507,
      "learning_rate": 3.85129247749056e-05,
      "loss": 0.0247,
      "step": 12504
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.099713034927845,
      "learning_rate": 3.849114144641301e-05,
      "loss": 0.0202,
      "step": 12505
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.31322917342185974,
      "learning_rate": 3.8469358117920417e-05,
      "loss": 0.0384,
      "step": 12506
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.13167451322078705,
      "learning_rate": 3.844757478942782e-05,
      "loss": 0.0163,
      "step": 12507
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.1962471902370453,
      "learning_rate": 3.842579146093523e-05,
      "loss": 0.0112,
      "step": 12508
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.31266528367996216,
      "learning_rate": 3.8404008132442636e-05,
      "loss": 0.027,
      "step": 12509
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.18007902801036835,
      "learning_rate": 3.8382224803950045e-05,
      "loss": 0.0155,
      "step": 12510
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.0752965584397316,
      "learning_rate": 3.836044147545744e-05,
      "loss": 0.0063,
      "step": 12511
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.09078899770975113,
      "learning_rate": 3.833865814696485e-05,
      "loss": 0.0092,
      "step": 12512
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.2568918764591217,
      "learning_rate": 3.831687481847226e-05,
      "loss": 0.0448,
      "step": 12513
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.24684083461761475,
      "learning_rate": 3.829509148997967e-05,
      "loss": 0.0397,
      "step": 12514
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.2091115117073059,
      "learning_rate": 3.827330816148707e-05,
      "loss": 0.0091,
      "step": 12515
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.14013437926769257,
      "learning_rate": 3.825152483299448e-05,
      "loss": 0.022,
      "step": 12516
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.07255148887634277,
      "learning_rate": 3.8229741504501886e-05,
      "loss": 0.0067,
      "step": 12517
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.09064511209726334,
      "learning_rate": 3.8207958176009295e-05,
      "loss": 0.0132,
      "step": 12518
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.14790010452270508,
      "learning_rate": 3.8186174847516704e-05,
      "loss": 0.0312,
      "step": 12519
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.2235116809606552,
      "learning_rate": 3.81643915190241e-05,
      "loss": 0.0108,
      "step": 12520
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.09615172445774078,
      "learning_rate": 3.814260819053151e-05,
      "loss": 0.0146,
      "step": 12521
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.07136712968349457,
      "learning_rate": 3.812082486203892e-05,
      "loss": 0.0045,
      "step": 12522
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.5069094300270081,
      "learning_rate": 3.8099041533546326e-05,
      "loss": 0.0344,
      "step": 12523
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.1837371289730072,
      "learning_rate": 3.807725820505373e-05,
      "loss": 0.0432,
      "step": 12524
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.2896437346935272,
      "learning_rate": 3.8055474876561136e-05,
      "loss": 0.0218,
      "step": 12525
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.07432932406663895,
      "learning_rate": 3.8033691548068545e-05,
      "loss": 0.0072,
      "step": 12526
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.13355731964111328,
      "learning_rate": 3.8011908219575954e-05,
      "loss": 0.0113,
      "step": 12527
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.1220298483967781,
      "learning_rate": 3.799012489108335e-05,
      "loss": 0.0107,
      "step": 12528
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.3277309238910675,
      "learning_rate": 3.796834156259076e-05,
      "loss": 0.022,
      "step": 12529
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.14820906519889832,
      "learning_rate": 3.794655823409817e-05,
      "loss": 0.0267,
      "step": 12530
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.13248534500598907,
      "learning_rate": 3.7924774905605576e-05,
      "loss": 0.0218,
      "step": 12531
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.11181160062551498,
      "learning_rate": 3.790299157711298e-05,
      "loss": 0.0163,
      "step": 12532
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.14127051830291748,
      "learning_rate": 3.788120824862039e-05,
      "loss": 0.0203,
      "step": 12533
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.1204075962305069,
      "learning_rate": 3.7859424920127795e-05,
      "loss": 0.0067,
      "step": 12534
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.14926540851593018,
      "learning_rate": 3.7837641591635204e-05,
      "loss": 0.0161,
      "step": 12535
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.3851369619369507,
      "learning_rate": 3.78158582631426e-05,
      "loss": 0.0204,
      "step": 12536
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.16297149658203125,
      "learning_rate": 3.779407493465001e-05,
      "loss": 0.0078,
      "step": 12537
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.2036568820476532,
      "learning_rate": 3.777229160615742e-05,
      "loss": 0.0253,
      "step": 12538
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.1740095615386963,
      "learning_rate": 3.7750508277664826e-05,
      "loss": 0.0271,
      "step": 12539
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.13737887144088745,
      "learning_rate": 3.7728724949172235e-05,
      "loss": 0.0056,
      "step": 12540
    },
    {
      "epoch": 3.51,
      "grad_norm": 0.8277444243431091,
      "learning_rate": 3.770694162067964e-05,
      "loss": 0.0694,
      "step": 12541
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.3047741949558258,
      "learning_rate": 3.7685158292187046e-05,
      "loss": 0.0131,
      "step": 12542
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.19264094531536102,
      "learning_rate": 3.766337496369445e-05,
      "loss": 0.0254,
      "step": 12543
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.11820767819881439,
      "learning_rate": 3.7641591635201856e-05,
      "loss": 0.0314,
      "step": 12544
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.1067197322845459,
      "learning_rate": 3.761980830670926e-05,
      "loss": 0.0111,
      "step": 12545
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.06572943925857544,
      "learning_rate": 3.759802497821667e-05,
      "loss": 0.0044,
      "step": 12546
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.1157257929444313,
      "learning_rate": 3.7576241649724076e-05,
      "loss": 0.0049,
      "step": 12547
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.239303857088089,
      "learning_rate": 3.7554458321231485e-05,
      "loss": 0.0157,
      "step": 12548
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.050860531628131866,
      "learning_rate": 3.753267499273889e-05,
      "loss": 0.0045,
      "step": 12549
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.10451079905033112,
      "learning_rate": 3.7510891664246296e-05,
      "loss": 0.0121,
      "step": 12550
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.1620602160692215,
      "learning_rate": 3.74891083357537e-05,
      "loss": 0.0221,
      "step": 12551
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.17679786682128906,
      "learning_rate": 3.7467325007261107e-05,
      "loss": 0.0194,
      "step": 12552
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.09378533810377121,
      "learning_rate": 3.7445541678768515e-05,
      "loss": 0.0074,
      "step": 12553
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.15671180188655853,
      "learning_rate": 3.742375835027592e-05,
      "loss": 0.0243,
      "step": 12554
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.1663316786289215,
      "learning_rate": 3.7401975021783326e-05,
      "loss": 0.0238,
      "step": 12555
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.11589419096708298,
      "learning_rate": 3.738019169329073e-05,
      "loss": 0.0298,
      "step": 12556
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.06953232735395432,
      "learning_rate": 3.735840836479814e-05,
      "loss": 0.0054,
      "step": 12557
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.13818828761577606,
      "learning_rate": 3.7336625036305546e-05,
      "loss": 0.0161,
      "step": 12558
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.0753377303481102,
      "learning_rate": 3.731484170781295e-05,
      "loss": 0.0057,
      "step": 12559
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.11351194977760315,
      "learning_rate": 3.729305837932036e-05,
      "loss": 0.0196,
      "step": 12560
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.15540586411952972,
      "learning_rate": 3.7271275050827765e-05,
      "loss": 0.0161,
      "step": 12561
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.10253926366567612,
      "learning_rate": 3.7249491722335174e-05,
      "loss": 0.0161,
      "step": 12562
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.12469672411680222,
      "learning_rate": 3.7227708393842576e-05,
      "loss": 0.009,
      "step": 12563
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.11098107695579529,
      "learning_rate": 3.7205925065349985e-05,
      "loss": 0.0191,
      "step": 12564
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.16108834743499756,
      "learning_rate": 3.718414173685739e-05,
      "loss": 0.0115,
      "step": 12565
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.05910652503371239,
      "learning_rate": 3.7162358408364796e-05,
      "loss": 0.0033,
      "step": 12566
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.2827400267124176,
      "learning_rate": 3.71405750798722e-05,
      "loss": 0.0156,
      "step": 12567
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.1477869749069214,
      "learning_rate": 3.711879175137961e-05,
      "loss": 0.0325,
      "step": 12568
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.2265150547027588,
      "learning_rate": 3.7097008422887016e-05,
      "loss": 0.0163,
      "step": 12569
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.1754167526960373,
      "learning_rate": 3.7075225094394424e-05,
      "loss": 0.034,
      "step": 12570
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.15318526327610016,
      "learning_rate": 3.7053441765901826e-05,
      "loss": 0.0204,
      "step": 12571
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.10171259194612503,
      "learning_rate": 3.7031658437409235e-05,
      "loss": 0.0119,
      "step": 12572
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.01787470281124115,
      "learning_rate": 3.700987510891664e-05,
      "loss": 0.0014,
      "step": 12573
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.12637200951576233,
      "learning_rate": 3.6988091780424046e-05,
      "loss": 0.0165,
      "step": 12574
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.0353117436170578,
      "learning_rate": 3.696630845193145e-05,
      "loss": 0.0019,
      "step": 12575
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.1899804174900055,
      "learning_rate": 3.694452512343886e-05,
      "loss": 0.0219,
      "step": 12576
    },
    {
      "epoch": 3.52,
      "grad_norm": 0.4201749265193939,
      "learning_rate": 3.6922741794946266e-05,
      "loss": 0.0587,
      "step": 12577
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.2415524274110794,
      "learning_rate": 3.6900958466453675e-05,
      "loss": 0.0255,
      "step": 12578
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.5786228775978088,
      "learning_rate": 3.6879175137961077e-05,
      "loss": 0.0371,
      "step": 12579
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.19264720380306244,
      "learning_rate": 3.6857391809468485e-05,
      "loss": 0.0249,
      "step": 12580
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.13333943486213684,
      "learning_rate": 3.683560848097589e-05,
      "loss": 0.0281,
      "step": 12581
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.2532987892627716,
      "learning_rate": 3.6813825152483296e-05,
      "loss": 0.0176,
      "step": 12582
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.10465902090072632,
      "learning_rate": 3.67920418239907e-05,
      "loss": 0.004,
      "step": 12583
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.128208726644516,
      "learning_rate": 3.677025849549811e-05,
      "loss": 0.0098,
      "step": 12584
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.10668769478797913,
      "learning_rate": 3.6748475167005516e-05,
      "loss": 0.0068,
      "step": 12585
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.170888289809227,
      "learning_rate": 3.6726691838512925e-05,
      "loss": 0.021,
      "step": 12586
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.2604410648345947,
      "learning_rate": 3.670490851002033e-05,
      "loss": 0.0166,
      "step": 12587
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.1041354313492775,
      "learning_rate": 3.6683125181527736e-05,
      "loss": 0.0065,
      "step": 12588
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.3662092387676239,
      "learning_rate": 3.6661341853035144e-05,
      "loss": 0.0455,
      "step": 12589
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.2451382726430893,
      "learning_rate": 3.6639558524542546e-05,
      "loss": 0.0297,
      "step": 12590
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.06741466373205185,
      "learning_rate": 3.6617775196049955e-05,
      "loss": 0.0073,
      "step": 12591
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.07545474171638489,
      "learning_rate": 3.659599186755736e-05,
      "loss": 0.0079,
      "step": 12592
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.16132833063602448,
      "learning_rate": 3.6574208539064766e-05,
      "loss": 0.0069,
      "step": 12593
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.09450433403253555,
      "learning_rate": 3.655242521057217e-05,
      "loss": 0.013,
      "step": 12594
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.29178619384765625,
      "learning_rate": 3.653064188207958e-05,
      "loss": 0.0173,
      "step": 12595
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.06697139889001846,
      "learning_rate": 3.6508858553586986e-05,
      "loss": 0.0054,
      "step": 12596
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.12885767221450806,
      "learning_rate": 3.6487075225094394e-05,
      "loss": 0.0176,
      "step": 12597
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.22310814261436462,
      "learning_rate": 3.6465291896601796e-05,
      "loss": 0.0413,
      "step": 12598
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.13162744045257568,
      "learning_rate": 3.6443508568109205e-05,
      "loss": 0.0127,
      "step": 12599
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.1682179570198059,
      "learning_rate": 3.642172523961661e-05,
      "loss": 0.0139,
      "step": 12600
    },
    {
      "epoch": 3.53,
      "eval_loss": 0.0638195350766182,
      "eval_runtime": 180.0902,
      "eval_samples_per_second": 14.67,
      "eval_steps_per_second": 0.461,
      "eval_wer": 0.046648155493851644,
      "step": 12600
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.04911474138498306,
      "learning_rate": 3.6399941911124016e-05,
      "loss": 0.0058,
      "step": 12601
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.1288449466228485,
      "learning_rate": 3.637815858263142e-05,
      "loss": 0.0049,
      "step": 12602
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.3951340615749359,
      "learning_rate": 3.635637525413883e-05,
      "loss": 0.0211,
      "step": 12603
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.23688291013240814,
      "learning_rate": 3.6334591925646236e-05,
      "loss": 0.0106,
      "step": 12604
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.0937473475933075,
      "learning_rate": 3.6312808597153645e-05,
      "loss": 0.0088,
      "step": 12605
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.08328825235366821,
      "learning_rate": 3.629102526866105e-05,
      "loss": 0.014,
      "step": 12606
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.2158624827861786,
      "learning_rate": 3.6269241940168455e-05,
      "loss": 0.0213,
      "step": 12607
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.06290341913700104,
      "learning_rate": 3.6247458611675864e-05,
      "loss": 0.0066,
      "step": 12608
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.1399262398481369,
      "learning_rate": 3.6225675283183266e-05,
      "loss": 0.0268,
      "step": 12609
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.059989817440509796,
      "learning_rate": 3.6203891954690675e-05,
      "loss": 0.0135,
      "step": 12610
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.11763850599527359,
      "learning_rate": 3.618210862619808e-05,
      "loss": 0.0263,
      "step": 12611
    },
    {
      "epoch": 3.53,
      "grad_norm": 0.24206244945526123,
      "learning_rate": 3.6160325297705486e-05,
      "loss": 0.0179,
      "step": 12612
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.08431471884250641,
      "learning_rate": 3.6138541969212895e-05,
      "loss": 0.0128,
      "step": 12613
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.10241744667291641,
      "learning_rate": 3.6116758640720304e-05,
      "loss": 0.0069,
      "step": 12614
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.05126790329813957,
      "learning_rate": 3.6094975312227706e-05,
      "loss": 0.0041,
      "step": 12615
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.06034352630376816,
      "learning_rate": 3.6073191983735114e-05,
      "loss": 0.0034,
      "step": 12616
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.4757000505924225,
      "learning_rate": 3.6051408655242516e-05,
      "loss": 0.0347,
      "step": 12617
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.1498408168554306,
      "learning_rate": 3.6029625326749925e-05,
      "loss": 0.0119,
      "step": 12618
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.09108488261699677,
      "learning_rate": 3.600784199825733e-05,
      "loss": 0.0266,
      "step": 12619
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.15318666398525238,
      "learning_rate": 3.5986058669764736e-05,
      "loss": 0.0171,
      "step": 12620
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.08139552921056747,
      "learning_rate": 3.5964275341272145e-05,
      "loss": 0.0148,
      "step": 12621
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.13444021344184875,
      "learning_rate": 3.594249201277955e-05,
      "loss": 0.0107,
      "step": 12622
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.1255722939968109,
      "learning_rate": 3.5920708684286956e-05,
      "loss": 0.015,
      "step": 12623
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.19534099102020264,
      "learning_rate": 3.5898925355794364e-05,
      "loss": 0.0111,
      "step": 12624
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.17736288905143738,
      "learning_rate": 3.5877142027301767e-05,
      "loss": 0.01,
      "step": 12625
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.12992896139621735,
      "learning_rate": 3.5855358698809175e-05,
      "loss": 0.0163,
      "step": 12626
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.042343102395534515,
      "learning_rate": 3.583357537031658e-05,
      "loss": 0.0016,
      "step": 12627
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.05705661326646805,
      "learning_rate": 3.5811792041823986e-05,
      "loss": 0.0028,
      "step": 12628
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.8017092943191528,
      "learning_rate": 3.5790008713331395e-05,
      "loss": 0.0354,
      "step": 12629
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.192746102809906,
      "learning_rate": 3.57682253848388e-05,
      "loss": 0.0194,
      "step": 12630
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.1555042862892151,
      "learning_rate": 3.5746442056346206e-05,
      "loss": 0.0169,
      "step": 12631
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.1396733969449997,
      "learning_rate": 3.5724658727853615e-05,
      "loss": 0.0183,
      "step": 12632
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.15075859427452087,
      "learning_rate": 3.5702875399361023e-05,
      "loss": 0.0249,
      "step": 12633
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.12126632034778595,
      "learning_rate": 3.5681092070868425e-05,
      "loss": 0.0089,
      "step": 12634
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.2165011316537857,
      "learning_rate": 3.5659308742375834e-05,
      "loss": 0.0231,
      "step": 12635
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.16009220480918884,
      "learning_rate": 3.5637525413883236e-05,
      "loss": 0.008,
      "step": 12636
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.13503018021583557,
      "learning_rate": 3.5615742085390645e-05,
      "loss": 0.0163,
      "step": 12637
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.14393474161624908,
      "learning_rate": 3.559395875689805e-05,
      "loss": 0.021,
      "step": 12638
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.21753473579883575,
      "learning_rate": 3.5572175428405456e-05,
      "loss": 0.0181,
      "step": 12639
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.17288506031036377,
      "learning_rate": 3.5550392099912865e-05,
      "loss": 0.0082,
      "step": 12640
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.2583785951137543,
      "learning_rate": 3.5528608771420274e-05,
      "loss": 0.0134,
      "step": 12641
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.1487271785736084,
      "learning_rate": 3.5506825442927676e-05,
      "loss": 0.0112,
      "step": 12642
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.10573472082614899,
      "learning_rate": 3.5485042114435084e-05,
      "loss": 0.0095,
      "step": 12643
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.06755263358354568,
      "learning_rate": 3.5463258785942486e-05,
      "loss": 0.0069,
      "step": 12644
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.1182820126414299,
      "learning_rate": 3.5441475457449895e-05,
      "loss": 0.0158,
      "step": 12645
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.18428760766983032,
      "learning_rate": 3.54196921289573e-05,
      "loss": 0.0306,
      "step": 12646
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.26334813237190247,
      "learning_rate": 3.5397908800464706e-05,
      "loss": 0.0235,
      "step": 12647
    },
    {
      "epoch": 3.54,
      "grad_norm": 0.339387446641922,
      "learning_rate": 3.5376125471972115e-05,
      "loss": 0.0244,
      "step": 12648
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.2733764052391052,
      "learning_rate": 3.5354342143479524e-05,
      "loss": 0.019,
      "step": 12649
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.1952820122241974,
      "learning_rate": 3.5332558814986926e-05,
      "loss": 0.0167,
      "step": 12650
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.18500815331935883,
      "learning_rate": 3.5310775486494335e-05,
      "loss": 0.0288,
      "step": 12651
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.18069379031658173,
      "learning_rate": 3.528899215800174e-05,
      "loss": 0.0139,
      "step": 12652
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.5491056442260742,
      "learning_rate": 3.5267208829509145e-05,
      "loss": 0.0401,
      "step": 12653
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.37949028611183167,
      "learning_rate": 3.5245425501016554e-05,
      "loss": 0.026,
      "step": 12654
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.08839693665504456,
      "learning_rate": 3.5223642172523956e-05,
      "loss": 0.0077,
      "step": 12655
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.16780076920986176,
      "learning_rate": 3.5201858844031365e-05,
      "loss": 0.0428,
      "step": 12656
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.11359003186225891,
      "learning_rate": 3.5180075515538774e-05,
      "loss": 0.0143,
      "step": 12657
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.3049022853374481,
      "learning_rate": 3.5158292187046176e-05,
      "loss": 0.0524,
      "step": 12658
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.07177061587572098,
      "learning_rate": 3.5136508858553585e-05,
      "loss": 0.0071,
      "step": 12659
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.2625649571418762,
      "learning_rate": 3.5114725530060993e-05,
      "loss": 0.0276,
      "step": 12660
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.15318825840950012,
      "learning_rate": 3.5092942201568396e-05,
      "loss": 0.0571,
      "step": 12661
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.12737484276294708,
      "learning_rate": 3.5071158873075804e-05,
      "loss": 0.0271,
      "step": 12662
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.09321679919958115,
      "learning_rate": 3.5049375544583206e-05,
      "loss": 0.0073,
      "step": 12663
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.21334736049175262,
      "learning_rate": 3.5027592216090615e-05,
      "loss": 0.03,
      "step": 12664
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.08330975472927094,
      "learning_rate": 3.500580888759802e-05,
      "loss": 0.0046,
      "step": 12665
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.21134860813617706,
      "learning_rate": 3.4984025559105426e-05,
      "loss": 0.0143,
      "step": 12666
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.31589770317077637,
      "learning_rate": 3.4962242230612835e-05,
      "loss": 0.0195,
      "step": 12667
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.10901343077421188,
      "learning_rate": 3.4940458902120244e-05,
      "loss": 0.0131,
      "step": 12668
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.21235135197639465,
      "learning_rate": 3.4918675573627646e-05,
      "loss": 0.0069,
      "step": 12669
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.1634572297334671,
      "learning_rate": 3.4896892245135054e-05,
      "loss": 0.0137,
      "step": 12670
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.1805601716041565,
      "learning_rate": 3.4875108916642456e-05,
      "loss": 0.0146,
      "step": 12671
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.5085951089859009,
      "learning_rate": 3.4853325588149865e-05,
      "loss": 0.0213,
      "step": 12672
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.06651394814252853,
      "learning_rate": 3.4831542259657274e-05,
      "loss": 0.0037,
      "step": 12673
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.2348458617925644,
      "learning_rate": 3.4809758931164676e-05,
      "loss": 0.0306,
      "step": 12674
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.20091116428375244,
      "learning_rate": 3.4787975602672085e-05,
      "loss": 0.0312,
      "step": 12675
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.13368165493011475,
      "learning_rate": 3.4766192274179494e-05,
      "loss": 0.0317,
      "step": 12676
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.3217870593070984,
      "learning_rate": 3.47444089456869e-05,
      "loss": 0.0418,
      "step": 12677
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.21417243778705597,
      "learning_rate": 3.4722625617194305e-05,
      "loss": 0.0177,
      "step": 12678
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.15708456933498383,
      "learning_rate": 3.470084228870171e-05,
      "loss": 0.0112,
      "step": 12679
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.1121530830860138,
      "learning_rate": 3.4679058960209115e-05,
      "loss": 0.0082,
      "step": 12680
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.09038152545690536,
      "learning_rate": 3.4657275631716524e-05,
      "loss": 0.0196,
      "step": 12681
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.08077234774827957,
      "learning_rate": 3.4635492303223926e-05,
      "loss": 0.0101,
      "step": 12682
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.10496529936790466,
      "learning_rate": 3.4613708974731335e-05,
      "loss": 0.0194,
      "step": 12683
    },
    {
      "epoch": 3.55,
      "grad_norm": 0.1077638491988182,
      "learning_rate": 3.4591925646238744e-05,
      "loss": 0.0181,
      "step": 12684
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.252035915851593,
      "learning_rate": 3.457014231774615e-05,
      "loss": 0.0208,
      "step": 12685
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.07624898850917816,
      "learning_rate": 3.4548358989253555e-05,
      "loss": 0.0085,
      "step": 12686
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.11671770364046097,
      "learning_rate": 3.4526575660760964e-05,
      "loss": 0.0117,
      "step": 12687
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.1459132432937622,
      "learning_rate": 3.4504792332268366e-05,
      "loss": 0.0178,
      "step": 12688
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.14733266830444336,
      "learning_rate": 3.4483009003775774e-05,
      "loss": 0.0253,
      "step": 12689
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.1128540188074112,
      "learning_rate": 3.4461225675283176e-05,
      "loss": 0.0087,
      "step": 12690
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.11178062856197357,
      "learning_rate": 3.4439442346790585e-05,
      "loss": 0.0039,
      "step": 12691
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.2695951461791992,
      "learning_rate": 3.4417659018297994e-05,
      "loss": 0.0162,
      "step": 12692
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.2079600989818573,
      "learning_rate": 3.43958756898054e-05,
      "loss": 0.0118,
      "step": 12693
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.16902413964271545,
      "learning_rate": 3.4374092361312805e-05,
      "loss": 0.0407,
      "step": 12694
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.048835720866918564,
      "learning_rate": 3.4352309032820214e-05,
      "loss": 0.0076,
      "step": 12695
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.08156648278236389,
      "learning_rate": 3.433052570432762e-05,
      "loss": 0.0052,
      "step": 12696
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.18208281695842743,
      "learning_rate": 3.4308742375835024e-05,
      "loss": 0.0182,
      "step": 12697
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.1315775066614151,
      "learning_rate": 3.428695904734243e-05,
      "loss": 0.0126,
      "step": 12698
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.2214806079864502,
      "learning_rate": 3.4265175718849835e-05,
      "loss": 0.0062,
      "step": 12699
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.4764775037765503,
      "learning_rate": 3.4243392390357244e-05,
      "loss": 0.024,
      "step": 12700
    },
    {
      "epoch": 3.56,
      "eval_loss": 0.06332114338874817,
      "eval_runtime": 183.4977,
      "eval_samples_per_second": 14.398,
      "eval_steps_per_second": 0.452,
      "eval_wer": 0.04674732249107497,
      "step": 12700
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.22068960964679718,
      "learning_rate": 3.4221609061864646e-05,
      "loss": 0.0372,
      "step": 12701
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.051639534533023834,
      "learning_rate": 3.4199825733372055e-05,
      "loss": 0.0049,
      "step": 12702
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.6540785431861877,
      "learning_rate": 3.4178042404879464e-05,
      "loss": 0.0696,
      "step": 12703
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.3662363588809967,
      "learning_rate": 3.415625907638687e-05,
      "loss": 0.0258,
      "step": 12704
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.2921903133392334,
      "learning_rate": 3.4134475747894275e-05,
      "loss": 0.0405,
      "step": 12705
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.19088709354400635,
      "learning_rate": 3.4112692419401683e-05,
      "loss": 0.018,
      "step": 12706
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.1659855842590332,
      "learning_rate": 3.4090909090909085e-05,
      "loss": 0.0222,
      "step": 12707
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.16052767634391785,
      "learning_rate": 3.4069125762416494e-05,
      "loss": 0.0161,
      "step": 12708
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.13994620740413666,
      "learning_rate": 3.4047342433923896e-05,
      "loss": 0.0146,
      "step": 12709
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.12481004744768143,
      "learning_rate": 3.4025559105431305e-05,
      "loss": 0.0124,
      "step": 12710
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.30021974444389343,
      "learning_rate": 3.4003775776938714e-05,
      "loss": 0.0249,
      "step": 12711
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.13365009427070618,
      "learning_rate": 3.398199244844612e-05,
      "loss": 0.0243,
      "step": 12712
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.13048531115055084,
      "learning_rate": 3.3960209119953525e-05,
      "loss": 0.0161,
      "step": 12713
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.2176610231399536,
      "learning_rate": 3.3938425791460934e-05,
      "loss": 0.0147,
      "step": 12714
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.222466841340065,
      "learning_rate": 3.3916642462968336e-05,
      "loss": 0.0213,
      "step": 12715
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.10421280562877655,
      "learning_rate": 3.3894859134475744e-05,
      "loss": 0.0086,
      "step": 12716
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.7092819809913635,
      "learning_rate": 3.3873075805983146e-05,
      "loss": 0.0468,
      "step": 12717
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.11028356850147247,
      "learning_rate": 3.3851292477490555e-05,
      "loss": 0.0157,
      "step": 12718
    },
    {
      "epoch": 3.56,
      "grad_norm": 0.06174970418214798,
      "learning_rate": 3.3829509148997964e-05,
      "loss": 0.0064,
      "step": 12719
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.2823627293109894,
      "learning_rate": 3.380772582050537e-05,
      "loss": 0.0154,
      "step": 12720
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.11763010919094086,
      "learning_rate": 3.378594249201278e-05,
      "loss": 0.0045,
      "step": 12721
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.16722768545150757,
      "learning_rate": 3.3764159163520184e-05,
      "loss": 0.017,
      "step": 12722
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.08567523211240768,
      "learning_rate": 3.374237583502759e-05,
      "loss": 0.0077,
      "step": 12723
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.3856736421585083,
      "learning_rate": 3.3720592506534995e-05,
      "loss": 0.0369,
      "step": 12724
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.07837739586830139,
      "learning_rate": 3.36988091780424e-05,
      "loss": 0.0168,
      "step": 12725
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.12715379893779755,
      "learning_rate": 3.3677025849549805e-05,
      "loss": 0.0126,
      "step": 12726
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.04086093232035637,
      "learning_rate": 3.3655242521057214e-05,
      "loss": 0.0021,
      "step": 12727
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.10180627554655075,
      "learning_rate": 3.363345919256462e-05,
      "loss": 0.0087,
      "step": 12728
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.5304555296897888,
      "learning_rate": 3.3611675864072025e-05,
      "loss": 0.1012,
      "step": 12729
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.17105735838413239,
      "learning_rate": 3.3589892535579434e-05,
      "loss": 0.0227,
      "step": 12730
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.20414704084396362,
      "learning_rate": 3.356810920708684e-05,
      "loss": 0.0245,
      "step": 12731
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.1778629869222641,
      "learning_rate": 3.3546325878594245e-05,
      "loss": 0.0243,
      "step": 12732
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.06869281828403473,
      "learning_rate": 3.3524542550101653e-05,
      "loss": 0.0059,
      "step": 12733
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.11821575462818146,
      "learning_rate": 3.3502759221609055e-05,
      "loss": 0.0135,
      "step": 12734
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.12680546939373016,
      "learning_rate": 3.3480975893116464e-05,
      "loss": 0.0184,
      "step": 12735
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.09144456684589386,
      "learning_rate": 3.345919256462387e-05,
      "loss": 0.0076,
      "step": 12736
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.11317174136638641,
      "learning_rate": 3.3437409236131275e-05,
      "loss": 0.0149,
      "step": 12737
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.16455455124378204,
      "learning_rate": 3.3415625907638684e-05,
      "loss": 0.0356,
      "step": 12738
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.12775945663452148,
      "learning_rate": 3.339384257914609e-05,
      "loss": 0.0168,
      "step": 12739
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.11606711894273758,
      "learning_rate": 3.33720592506535e-05,
      "loss": 0.0076,
      "step": 12740
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.05872342362999916,
      "learning_rate": 3.3350275922160904e-05,
      "loss": 0.0023,
      "step": 12741
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.049875013530254364,
      "learning_rate": 3.332849259366831e-05,
      "loss": 0.0033,
      "step": 12742
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.11826808750629425,
      "learning_rate": 3.3306709265175714e-05,
      "loss": 0.012,
      "step": 12743
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.13470669090747833,
      "learning_rate": 3.328492593668312e-05,
      "loss": 0.0163,
      "step": 12744
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.11543168872594833,
      "learning_rate": 3.3263142608190525e-05,
      "loss": 0.0104,
      "step": 12745
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.24863004684448242,
      "learning_rate": 3.3241359279697934e-05,
      "loss": 0.0162,
      "step": 12746
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.15877293050289154,
      "learning_rate": 3.321957595120534e-05,
      "loss": 0.0506,
      "step": 12747
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.22157147526741028,
      "learning_rate": 3.319779262271275e-05,
      "loss": 0.0266,
      "step": 12748
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.07784884423017502,
      "learning_rate": 3.3176009294220154e-05,
      "loss": 0.0075,
      "step": 12749
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.12850137054920197,
      "learning_rate": 3.315422596572756e-05,
      "loss": 0.0196,
      "step": 12750
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.16330844163894653,
      "learning_rate": 3.3132442637234965e-05,
      "loss": 0.0193,
      "step": 12751
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.20106500387191772,
      "learning_rate": 3.311065930874237e-05,
      "loss": 0.0207,
      "step": 12752
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.10702306777238846,
      "learning_rate": 3.3088875980249775e-05,
      "loss": 0.0135,
      "step": 12753
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.10574673116207123,
      "learning_rate": 3.3067092651757184e-05,
      "loss": 0.0049,
      "step": 12754
    },
    {
      "epoch": 3.57,
      "grad_norm": 0.1048794537782669,
      "learning_rate": 3.304530932326459e-05,
      "loss": 0.0136,
      "step": 12755
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.17464467883110046,
      "learning_rate": 3.3023525994772e-05,
      "loss": 0.0234,
      "step": 12756
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.10290131717920303,
      "learning_rate": 3.3001742666279404e-05,
      "loss": 0.0117,
      "step": 12757
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.1424913853406906,
      "learning_rate": 3.297995933778681e-05,
      "loss": 0.0214,
      "step": 12758
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.20604121685028076,
      "learning_rate": 3.2958176009294215e-05,
      "loss": 0.0364,
      "step": 12759
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.22591862082481384,
      "learning_rate": 3.2936392680801624e-05,
      "loss": 0.0219,
      "step": 12760
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.5356626510620117,
      "learning_rate": 3.2914609352309026e-05,
      "loss": 0.0201,
      "step": 12761
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.1757093220949173,
      "learning_rate": 3.2892826023816434e-05,
      "loss": 0.0217,
      "step": 12762
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.12507693469524384,
      "learning_rate": 3.287104269532384e-05,
      "loss": 0.0123,
      "step": 12763
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.15014170110225677,
      "learning_rate": 3.284925936683125e-05,
      "loss": 0.0111,
      "step": 12764
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.016837267205119133,
      "learning_rate": 3.2827476038338654e-05,
      "loss": 0.001,
      "step": 12765
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.06231650337576866,
      "learning_rate": 3.280569270984606e-05,
      "loss": 0.0017,
      "step": 12766
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.2970134913921356,
      "learning_rate": 3.278390938135347e-05,
      "loss": 0.0281,
      "step": 12767
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.19324465095996857,
      "learning_rate": 3.2762126052860874e-05,
      "loss": 0.0081,
      "step": 12768
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.10070642083883286,
      "learning_rate": 3.274034272436828e-05,
      "loss": 0.0126,
      "step": 12769
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.12122715264558792,
      "learning_rate": 3.2718559395875684e-05,
      "loss": 0.0149,
      "step": 12770
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.20543897151947021,
      "learning_rate": 3.269677606738309e-05,
      "loss": 0.0183,
      "step": 12771
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.11618931591510773,
      "learning_rate": 3.2674992738890495e-05,
      "loss": 0.0202,
      "step": 12772
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.24816420674324036,
      "learning_rate": 3.2653209410397904e-05,
      "loss": 0.0094,
      "step": 12773
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.08871830254793167,
      "learning_rate": 3.263142608190531e-05,
      "loss": 0.0054,
      "step": 12774
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.05482172966003418,
      "learning_rate": 3.260964275341272e-05,
      "loss": 0.0045,
      "step": 12775
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.2164156138896942,
      "learning_rate": 3.2587859424920124e-05,
      "loss": 0.0214,
      "step": 12776
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.09308841824531555,
      "learning_rate": 3.256607609642753e-05,
      "loss": 0.0051,
      "step": 12777
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.15003256499767303,
      "learning_rate": 3.2544292767934935e-05,
      "loss": 0.0186,
      "step": 12778
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.5327997803688049,
      "learning_rate": 3.2522509439442343e-05,
      "loss": 0.0466,
      "step": 12779
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.1271098554134369,
      "learning_rate": 3.2500726110949745e-05,
      "loss": 0.0111,
      "step": 12780
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.21656112372875214,
      "learning_rate": 3.2478942782457154e-05,
      "loss": 0.0358,
      "step": 12781
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.07664632052183151,
      "learning_rate": 3.245715945396456e-05,
      "loss": 0.0051,
      "step": 12782
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.0631510466337204,
      "learning_rate": 3.243537612547197e-05,
      "loss": 0.0058,
      "step": 12783
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.10794473439455032,
      "learning_rate": 3.241359279697938e-05,
      "loss": 0.0086,
      "step": 12784
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.04507572948932648,
      "learning_rate": 3.239180946848678e-05,
      "loss": 0.0031,
      "step": 12785
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.19624732434749603,
      "learning_rate": 3.237002613999419e-05,
      "loss": 0.0288,
      "step": 12786
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.09601592272520065,
      "learning_rate": 3.2348242811501594e-05,
      "loss": 0.0057,
      "step": 12787
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.04480397328734398,
      "learning_rate": 3.2326459483009e-05,
      "loss": 0.0029,
      "step": 12788
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.19690705835819244,
      "learning_rate": 3.2304676154516404e-05,
      "loss": 0.009,
      "step": 12789
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.12038049846887589,
      "learning_rate": 3.228289282602381e-05,
      "loss": 0.0063,
      "step": 12790
    },
    {
      "epoch": 3.58,
      "grad_norm": 0.6768971085548401,
      "learning_rate": 3.226110949753122e-05,
      "loss": 0.0231,
      "step": 12791
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.1253858357667923,
      "learning_rate": 3.223932616903863e-05,
      "loss": 0.015,
      "step": 12792
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.14978733658790588,
      "learning_rate": 3.221754284054603e-05,
      "loss": 0.0143,
      "step": 12793
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.17610439658164978,
      "learning_rate": 3.219575951205344e-05,
      "loss": 0.0189,
      "step": 12794
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.08454599976539612,
      "learning_rate": 3.2173976183560844e-05,
      "loss": 0.0105,
      "step": 12795
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.1433289647102356,
      "learning_rate": 3.215219285506825e-05,
      "loss": 0.0086,
      "step": 12796
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.2152000069618225,
      "learning_rate": 3.2130409526575655e-05,
      "loss": 0.0332,
      "step": 12797
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.15442921221256256,
      "learning_rate": 3.210862619808306e-05,
      "loss": 0.0113,
      "step": 12798
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.16318070888519287,
      "learning_rate": 3.208684286959047e-05,
      "loss": 0.013,
      "step": 12799
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.06362540274858475,
      "learning_rate": 3.2065059541097874e-05,
      "loss": 0.0047,
      "step": 12800
    },
    {
      "epoch": 3.59,
      "eval_loss": 0.06498311460018158,
      "eval_runtime": 182.4609,
      "eval_samples_per_second": 14.48,
      "eval_steps_per_second": 0.455,
      "eval_wer": 0.046767155890519635,
      "step": 12800
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.06801138073205948,
      "learning_rate": 3.204327621260528e-05,
      "loss": 0.0027,
      "step": 12801
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.18795859813690186,
      "learning_rate": 3.202149288411269e-05,
      "loss": 0.0158,
      "step": 12802
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.08471536636352539,
      "learning_rate": 3.1999709555620094e-05,
      "loss": 0.0143,
      "step": 12803
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.11424252390861511,
      "learning_rate": 3.19779262271275e-05,
      "loss": 0.004,
      "step": 12804
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.18791136145591736,
      "learning_rate": 3.1956142898634905e-05,
      "loss": 0.0204,
      "step": 12805
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.3023836016654968,
      "learning_rate": 3.1934359570142313e-05,
      "loss": 0.0187,
      "step": 12806
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.05236641317605972,
      "learning_rate": 3.191257624164972e-05,
      "loss": 0.0059,
      "step": 12807
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.4460161328315735,
      "learning_rate": 3.1890792913157124e-05,
      "loss": 0.036,
      "step": 12808
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.18769609928131104,
      "learning_rate": 3.186900958466453e-05,
      "loss": 0.0255,
      "step": 12809
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.10253032296895981,
      "learning_rate": 3.184722625617194e-05,
      "loss": 0.0098,
      "step": 12810
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.09431470930576324,
      "learning_rate": 3.182544292767935e-05,
      "loss": 0.0153,
      "step": 12811
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.1534927636384964,
      "learning_rate": 3.180365959918675e-05,
      "loss": 0.006,
      "step": 12812
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.13599854707717896,
      "learning_rate": 3.178187627069416e-05,
      "loss": 0.0094,
      "step": 12813
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.08660362660884857,
      "learning_rate": 3.1760092942201564e-05,
      "loss": 0.005,
      "step": 12814
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.0731114074587822,
      "learning_rate": 3.173830961370897e-05,
      "loss": 0.0113,
      "step": 12815
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.12181783467531204,
      "learning_rate": 3.1716526285216374e-05,
      "loss": 0.0066,
      "step": 12816
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.19070033729076385,
      "learning_rate": 3.169474295672378e-05,
      "loss": 0.0085,
      "step": 12817
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.11415420472621918,
      "learning_rate": 3.167295962823119e-05,
      "loss": 0.0244,
      "step": 12818
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.22102957963943481,
      "learning_rate": 3.16511762997386e-05,
      "loss": 0.0193,
      "step": 12819
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.141470268368721,
      "learning_rate": 3.1629392971246e-05,
      "loss": 0.0204,
      "step": 12820
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.36575910449028015,
      "learning_rate": 3.160760964275341e-05,
      "loss": 0.0514,
      "step": 12821
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.1307845264673233,
      "learning_rate": 3.1585826314260814e-05,
      "loss": 0.01,
      "step": 12822
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.40302395820617676,
      "learning_rate": 3.156404298576822e-05,
      "loss": 0.008,
      "step": 12823
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.15372325479984283,
      "learning_rate": 3.1542259657275625e-05,
      "loss": 0.019,
      "step": 12824
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.24248066544532776,
      "learning_rate": 3.152047632878303e-05,
      "loss": 0.0439,
      "step": 12825
    },
    {
      "epoch": 3.59,
      "grad_norm": 0.0933997631072998,
      "learning_rate": 3.149869300029044e-05,
      "loss": 0.0044,
      "step": 12826
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.25147518515586853,
      "learning_rate": 3.147690967179785e-05,
      "loss": 0.0433,
      "step": 12827
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.1298982948064804,
      "learning_rate": 3.145512634330525e-05,
      "loss": 0.0304,
      "step": 12828
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.12190404534339905,
      "learning_rate": 3.143334301481266e-05,
      "loss": 0.01,
      "step": 12829
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.08142062276601791,
      "learning_rate": 3.141155968632007e-05,
      "loss": 0.0119,
      "step": 12830
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.17155535519123077,
      "learning_rate": 3.138977635782747e-05,
      "loss": 0.0206,
      "step": 12831
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.08062321692705154,
      "learning_rate": 3.136799302933488e-05,
      "loss": 0.0074,
      "step": 12832
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.08560246229171753,
      "learning_rate": 3.1346209700842283e-05,
      "loss": 0.0094,
      "step": 12833
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.12430230528116226,
      "learning_rate": 3.132442637234969e-05,
      "loss": 0.0151,
      "step": 12834
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.2921081483364105,
      "learning_rate": 3.13026430438571e-05,
      "loss": 0.0372,
      "step": 12835
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.08401858061552048,
      "learning_rate": 3.12808597153645e-05,
      "loss": 0.0067,
      "step": 12836
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.09575223922729492,
      "learning_rate": 3.125907638687191e-05,
      "loss": 0.0078,
      "step": 12837
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.23538751900196075,
      "learning_rate": 3.123729305837932e-05,
      "loss": 0.0376,
      "step": 12838
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.26026755571365356,
      "learning_rate": 3.121550972988672e-05,
      "loss": 0.0177,
      "step": 12839
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.01600804179906845,
      "learning_rate": 3.119372640139413e-05,
      "loss": 0.0013,
      "step": 12840
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.5632156729698181,
      "learning_rate": 3.1171943072901534e-05,
      "loss": 0.0397,
      "step": 12841
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.7897838950157166,
      "learning_rate": 3.115015974440894e-05,
      "loss": 0.0439,
      "step": 12842
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.09928163886070251,
      "learning_rate": 3.112837641591635e-05,
      "loss": 0.0089,
      "step": 12843
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.18470147252082825,
      "learning_rate": 3.110659308742375e-05,
      "loss": 0.0165,
      "step": 12844
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.2060435265302658,
      "learning_rate": 3.108480975893116e-05,
      "loss": 0.0135,
      "step": 12845
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.11487936228513718,
      "learning_rate": 3.106302643043857e-05,
      "loss": 0.0245,
      "step": 12846
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.2502581775188446,
      "learning_rate": 3.104124310194597e-05,
      "loss": 0.0214,
      "step": 12847
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.09468865394592285,
      "learning_rate": 3.101945977345338e-05,
      "loss": 0.0116,
      "step": 12848
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.19483327865600586,
      "learning_rate": 3.0997676444960784e-05,
      "loss": 0.0219,
      "step": 12849
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.21302174031734467,
      "learning_rate": 3.097589311646819e-05,
      "loss": 0.0287,
      "step": 12850
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.13831400871276855,
      "learning_rate": 3.09541097879756e-05,
      "loss": 0.0399,
      "step": 12851
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.12881334125995636,
      "learning_rate": 3.0932326459483003e-05,
      "loss": 0.0114,
      "step": 12852
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.21923384070396423,
      "learning_rate": 3.091054313099041e-05,
      "loss": 0.038,
      "step": 12853
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.27728328108787537,
      "learning_rate": 3.088875980249782e-05,
      "loss": 0.0099,
      "step": 12854
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.08487773686647415,
      "learning_rate": 3.086697647400523e-05,
      "loss": 0.0093,
      "step": 12855
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.1870582103729248,
      "learning_rate": 3.084519314551263e-05,
      "loss": 0.0131,
      "step": 12856
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.12364766746759415,
      "learning_rate": 3.082340981702004e-05,
      "loss": 0.0109,
      "step": 12857
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.2528626620769501,
      "learning_rate": 3.080162648852744e-05,
      "loss": 0.0191,
      "step": 12858
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.10303463041782379,
      "learning_rate": 3.077984316003485e-05,
      "loss": 0.0102,
      "step": 12859
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.14364685118198395,
      "learning_rate": 3.0758059831542254e-05,
      "loss": 0.0165,
      "step": 12860
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.0836721882224083,
      "learning_rate": 3.073627650304966e-05,
      "loss": 0.0057,
      "step": 12861
    },
    {
      "epoch": 3.6,
      "grad_norm": 0.7650780081748962,
      "learning_rate": 3.071449317455707e-05,
      "loss": 0.0262,
      "step": 12862
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.08387859165668488,
      "learning_rate": 3.069270984606448e-05,
      "loss": 0.0058,
      "step": 12863
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.20489656925201416,
      "learning_rate": 3.067092651757188e-05,
      "loss": 0.0112,
      "step": 12864
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.91131991147995,
      "learning_rate": 3.064914318907929e-05,
      "loss": 0.0303,
      "step": 12865
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.3171807825565338,
      "learning_rate": 3.062735986058669e-05,
      "loss": 0.0307,
      "step": 12866
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.2989426851272583,
      "learning_rate": 3.06055765320941e-05,
      "loss": 0.0125,
      "step": 12867
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.05799844115972519,
      "learning_rate": 3.0583793203601504e-05,
      "loss": 0.0044,
      "step": 12868
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.2008661925792694,
      "learning_rate": 3.056200987510891e-05,
      "loss": 0.0133,
      "step": 12869
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.117815300822258,
      "learning_rate": 3.054022654661632e-05,
      "loss": 0.0158,
      "step": 12870
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.11932717263698578,
      "learning_rate": 3.051844321812373e-05,
      "loss": 0.0093,
      "step": 12871
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.10747160017490387,
      "learning_rate": 3.0496659889631132e-05,
      "loss": 0.0192,
      "step": 12872
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.08108792454004288,
      "learning_rate": 3.047487656113854e-05,
      "loss": 0.0228,
      "step": 12873
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.34267884492874146,
      "learning_rate": 3.0453093232645946e-05,
      "loss": 0.0263,
      "step": 12874
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.13986149430274963,
      "learning_rate": 3.0431309904153352e-05,
      "loss": 0.0132,
      "step": 12875
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.12449465692043304,
      "learning_rate": 3.040952657566076e-05,
      "loss": 0.0162,
      "step": 12876
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.21634915471076965,
      "learning_rate": 3.0387743247168163e-05,
      "loss": 0.0097,
      "step": 12877
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.176097109913826,
      "learning_rate": 3.036595991867557e-05,
      "loss": 0.0123,
      "step": 12878
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.23947060108184814,
      "learning_rate": 3.0344176590182977e-05,
      "loss": 0.0203,
      "step": 12879
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.209043487906456,
      "learning_rate": 3.0322393261690386e-05,
      "loss": 0.0148,
      "step": 12880
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.2365514039993286,
      "learning_rate": 3.0300609933197788e-05,
      "loss": 0.0282,
      "step": 12881
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.07739170640707016,
      "learning_rate": 3.0278826604705196e-05,
      "loss": 0.0038,
      "step": 12882
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.16834653913974762,
      "learning_rate": 3.0257043276212602e-05,
      "loss": 0.0366,
      "step": 12883
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.16177065670490265,
      "learning_rate": 3.023525994772001e-05,
      "loss": 0.0388,
      "step": 12884
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.08830763399600983,
      "learning_rate": 3.0213476619227413e-05,
      "loss": 0.0064,
      "step": 12885
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.08800256997346878,
      "learning_rate": 3.019169329073482e-05,
      "loss": 0.0094,
      "step": 12886
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.12158764153718948,
      "learning_rate": 3.0169909962242227e-05,
      "loss": 0.0163,
      "step": 12887
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.20955923199653625,
      "learning_rate": 3.0148126633749636e-05,
      "loss": 0.0194,
      "step": 12888
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.11227952688932419,
      "learning_rate": 3.0126343305257038e-05,
      "loss": 0.0115,
      "step": 12889
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.3752827048301697,
      "learning_rate": 3.0104559976764447e-05,
      "loss": 0.0443,
      "step": 12890
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.19163654744625092,
      "learning_rate": 3.0082776648271852e-05,
      "loss": 0.016,
      "step": 12891
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.852564811706543,
      "learning_rate": 3.006099331977926e-05,
      "loss": 0.1128,
      "step": 12892
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.07428982108831406,
      "learning_rate": 3.0039209991286663e-05,
      "loss": 0.006,
      "step": 12893
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.14617739617824554,
      "learning_rate": 3.001742666279407e-05,
      "loss": 0.008,
      "step": 12894
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.10439325124025345,
      "learning_rate": 2.999564333430148e-05,
      "loss": 0.0155,
      "step": 12895
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.16036635637283325,
      "learning_rate": 2.9973860005808886e-05,
      "loss": 0.0149,
      "step": 12896
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.09929537028074265,
      "learning_rate": 2.9952076677316295e-05,
      "loss": 0.0244,
      "step": 12897
    },
    {
      "epoch": 3.61,
      "grad_norm": 0.037611041218042374,
      "learning_rate": 2.9930293348823697e-05,
      "loss": 0.0025,
      "step": 12898
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.1494912952184677,
      "learning_rate": 2.9908510020331106e-05,
      "loss": 0.0314,
      "step": 12899
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.1260923147201538,
      "learning_rate": 2.988672669183851e-05,
      "loss": 0.0099,
      "step": 12900
    },
    {
      "epoch": 3.62,
      "eval_loss": 0.06360543519258499,
      "eval_runtime": 183.1862,
      "eval_samples_per_second": 14.422,
      "eval_steps_per_second": 0.453,
      "eval_wer": 0.04760015866719556,
      "step": 12900
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.060972604900598526,
      "learning_rate": 2.986494336334592e-05,
      "loss": 0.0021,
      "step": 12901
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.10853181034326553,
      "learning_rate": 2.9843160034853322e-05,
      "loss": 0.0074,
      "step": 12902
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.14200015366077423,
      "learning_rate": 2.982137670636073e-05,
      "loss": 0.0156,
      "step": 12903
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.2727072238922119,
      "learning_rate": 2.9799593377868136e-05,
      "loss": 0.0595,
      "step": 12904
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.2828943133354187,
      "learning_rate": 2.977781004937554e-05,
      "loss": 0.0179,
      "step": 12905
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.05201582610607147,
      "learning_rate": 2.9756026720882947e-05,
      "loss": 0.0046,
      "step": 12906
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.2923237681388855,
      "learning_rate": 2.9734243392390356e-05,
      "loss": 0.0289,
      "step": 12907
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.07091748714447021,
      "learning_rate": 2.971246006389776e-05,
      "loss": 0.008,
      "step": 12908
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.16330403089523315,
      "learning_rate": 2.9690676735405167e-05,
      "loss": 0.0509,
      "step": 12909
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.153082475066185,
      "learning_rate": 2.9668893406912572e-05,
      "loss": 0.0137,
      "step": 12910
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.2633535861968994,
      "learning_rate": 2.964711007841998e-05,
      "loss": 0.029,
      "step": 12911
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.11800602823495865,
      "learning_rate": 2.9625326749927386e-05,
      "loss": 0.0097,
      "step": 12912
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.07918938994407654,
      "learning_rate": 2.960354342143479e-05,
      "loss": 0.0154,
      "step": 12913
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.05602479726076126,
      "learning_rate": 2.9581760092942197e-05,
      "loss": 0.0034,
      "step": 12914
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.12692970037460327,
      "learning_rate": 2.9559976764449606e-05,
      "loss": 0.0116,
      "step": 12915
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.3910336196422577,
      "learning_rate": 2.953819343595701e-05,
      "loss": 0.0178,
      "step": 12916
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.06726144999265671,
      "learning_rate": 2.9516410107464417e-05,
      "loss": 0.0042,
      "step": 12917
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.20698045194149017,
      "learning_rate": 2.9494626778971825e-05,
      "loss": 0.0303,
      "step": 12918
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.2091703712940216,
      "learning_rate": 2.947284345047923e-05,
      "loss": 0.0217,
      "step": 12919
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.22322523593902588,
      "learning_rate": 2.945106012198664e-05,
      "loss": 0.0276,
      "step": 12920
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.05832932889461517,
      "learning_rate": 2.9429276793494042e-05,
      "loss": 0.0137,
      "step": 12921
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.035152189433574677,
      "learning_rate": 2.940749346500145e-05,
      "loss": 0.0027,
      "step": 12922
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.14909271895885468,
      "learning_rate": 2.9385710136508856e-05,
      "loss": 0.0102,
      "step": 12923
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.08631082624197006,
      "learning_rate": 2.9363926808016265e-05,
      "loss": 0.0096,
      "step": 12924
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.07206105440855026,
      "learning_rate": 2.9342143479523667e-05,
      "loss": 0.0047,
      "step": 12925
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.16740301251411438,
      "learning_rate": 2.9320360151031076e-05,
      "loss": 0.0116,
      "step": 12926
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.14755170047283173,
      "learning_rate": 2.929857682253848e-05,
      "loss": 0.021,
      "step": 12927
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.3898110091686249,
      "learning_rate": 2.927679349404589e-05,
      "loss": 0.0132,
      "step": 12928
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.18507254123687744,
      "learning_rate": 2.9255010165553292e-05,
      "loss": 0.0038,
      "step": 12929
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.10894037038087845,
      "learning_rate": 2.92332268370607e-05,
      "loss": 0.0155,
      "step": 12930
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.11546431481838226,
      "learning_rate": 2.9211443508568106e-05,
      "loss": 0.015,
      "step": 12931
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.09654781967401505,
      "learning_rate": 2.9189660180075515e-05,
      "loss": 0.0084,
      "step": 12932
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.10209209471940994,
      "learning_rate": 2.9167876851582917e-05,
      "loss": 0.0045,
      "step": 12933
    },
    {
      "epoch": 3.62,
      "grad_norm": 0.1417323499917984,
      "learning_rate": 2.9146093523090326e-05,
      "loss": 0.0212,
      "step": 12934
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.15535305440425873,
      "learning_rate": 2.912431019459773e-05,
      "loss": 0.0174,
      "step": 12935
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.1426364630460739,
      "learning_rate": 2.910252686610514e-05,
      "loss": 0.0191,
      "step": 12936
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.2849034368991852,
      "learning_rate": 2.9080743537612542e-05,
      "loss": 0.028,
      "step": 12937
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.08761148899793625,
      "learning_rate": 2.905896020911995e-05,
      "loss": 0.0063,
      "step": 12938
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.14061973989009857,
      "learning_rate": 2.9037176880627356e-05,
      "loss": 0.0084,
      "step": 12939
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.13752953708171844,
      "learning_rate": 2.9015393552134765e-05,
      "loss": 0.0232,
      "step": 12940
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.9085005521774292,
      "learning_rate": 2.899361022364217e-05,
      "loss": 0.1301,
      "step": 12941
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.523065447807312,
      "learning_rate": 2.8971826895149576e-05,
      "loss": 0.0215,
      "step": 12942
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.2483777105808258,
      "learning_rate": 2.8950043566656985e-05,
      "loss": 0.0211,
      "step": 12943
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.13692300021648407,
      "learning_rate": 2.892826023816439e-05,
      "loss": 0.0158,
      "step": 12944
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.16241562366485596,
      "learning_rate": 2.8906476909671796e-05,
      "loss": 0.0106,
      "step": 12945
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.09243299067020416,
      "learning_rate": 2.88846935811792e-05,
      "loss": 0.0076,
      "step": 12946
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.16433338820934296,
      "learning_rate": 2.886291025268661e-05,
      "loss": 0.0254,
      "step": 12947
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.15644438564777374,
      "learning_rate": 2.8841126924194015e-05,
      "loss": 0.0245,
      "step": 12948
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.1118631660938263,
      "learning_rate": 2.881934359570142e-05,
      "loss": 0.0051,
      "step": 12949
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.12815186381340027,
      "learning_rate": 2.8797560267208826e-05,
      "loss": 0.0081,
      "step": 12950
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.2710276246070862,
      "learning_rate": 2.8775776938716235e-05,
      "loss": 0.0147,
      "step": 12951
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.1374311000108719,
      "learning_rate": 2.8753993610223637e-05,
      "loss": 0.0124,
      "step": 12952
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.38655441999435425,
      "learning_rate": 2.8732210281731046e-05,
      "loss": 0.0393,
      "step": 12953
    },
    {
      "epoch": 3.63,
      "grad_norm": 1.1826956272125244,
      "learning_rate": 2.871042695323845e-05,
      "loss": 0.0494,
      "step": 12954
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.1607421487569809,
      "learning_rate": 2.868864362474586e-05,
      "loss": 0.0131,
      "step": 12955
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.09328858554363251,
      "learning_rate": 2.8666860296253262e-05,
      "loss": 0.0103,
      "step": 12956
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.2938811779022217,
      "learning_rate": 2.864507696776067e-05,
      "loss": 0.0188,
      "step": 12957
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.22218923270702362,
      "learning_rate": 2.8623293639268076e-05,
      "loss": 0.0131,
      "step": 12958
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.16818983852863312,
      "learning_rate": 2.8601510310775485e-05,
      "loss": 0.0252,
      "step": 12959
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.4241499602794647,
      "learning_rate": 2.8579726982282887e-05,
      "loss": 0.0234,
      "step": 12960
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.20397379994392395,
      "learning_rate": 2.8557943653790296e-05,
      "loss": 0.0243,
      "step": 12961
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.07328296452760696,
      "learning_rate": 2.8536160325297705e-05,
      "loss": 0.0162,
      "step": 12962
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.14368250966072083,
      "learning_rate": 2.851437699680511e-05,
      "loss": 0.021,
      "step": 12963
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.3007255494594574,
      "learning_rate": 2.849259366831252e-05,
      "loss": 0.0239,
      "step": 12964
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.36351945996284485,
      "learning_rate": 2.847081033981992e-05,
      "loss": 0.0186,
      "step": 12965
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.274867981672287,
      "learning_rate": 2.844902701132733e-05,
      "loss": 0.0396,
      "step": 12966
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.07445833832025528,
      "learning_rate": 2.8427243682834735e-05,
      "loss": 0.0078,
      "step": 12967
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.11167364567518234,
      "learning_rate": 2.8405460354342144e-05,
      "loss": 0.0099,
      "step": 12968
    },
    {
      "epoch": 3.63,
      "grad_norm": 0.09755551815032959,
      "learning_rate": 2.8383677025849546e-05,
      "loss": 0.0129,
      "step": 12969
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.12278976291418076,
      "learning_rate": 2.8361893697356955e-05,
      "loss": 0.0125,
      "step": 12970
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.1487174928188324,
      "learning_rate": 2.834011036886436e-05,
      "loss": 0.0095,
      "step": 12971
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.06189481168985367,
      "learning_rate": 2.831832704037177e-05,
      "loss": 0.0036,
      "step": 12972
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.12886954843997955,
      "learning_rate": 2.829654371187917e-05,
      "loss": 0.0099,
      "step": 12973
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.09969649463891983,
      "learning_rate": 2.827476038338658e-05,
      "loss": 0.0077,
      "step": 12974
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.12433527410030365,
      "learning_rate": 2.8252977054893985e-05,
      "loss": 0.0284,
      "step": 12975
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.06215684488415718,
      "learning_rate": 2.8231193726401394e-05,
      "loss": 0.0051,
      "step": 12976
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.2146703451871872,
      "learning_rate": 2.8209410397908796e-05,
      "loss": 0.0101,
      "step": 12977
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.31041452288627625,
      "learning_rate": 2.8187627069416205e-05,
      "loss": 0.0478,
      "step": 12978
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.7658624649047852,
      "learning_rate": 2.816584374092361e-05,
      "loss": 0.0154,
      "step": 12979
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.11543635278940201,
      "learning_rate": 2.8144060412431016e-05,
      "loss": 0.0103,
      "step": 12980
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.12143394351005554,
      "learning_rate": 2.812227708393842e-05,
      "loss": 0.013,
      "step": 12981
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.16235706210136414,
      "learning_rate": 2.810049375544583e-05,
      "loss": 0.0117,
      "step": 12982
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.09518778324127197,
      "learning_rate": 2.8078710426953235e-05,
      "loss": 0.0063,
      "step": 12983
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.20339389145374298,
      "learning_rate": 2.805692709846064e-05,
      "loss": 0.0292,
      "step": 12984
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.4049198031425476,
      "learning_rate": 2.803514376996805e-05,
      "loss": 0.0151,
      "step": 12985
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.21973547339439392,
      "learning_rate": 2.8013360441475455e-05,
      "loss": 0.0316,
      "step": 12986
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.14500358700752258,
      "learning_rate": 2.7991577112982864e-05,
      "loss": 0.0154,
      "step": 12987
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.44936403632164,
      "learning_rate": 2.7969793784490266e-05,
      "loss": 0.013,
      "step": 12988
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.19826599955558777,
      "learning_rate": 2.7948010455997675e-05,
      "loss": 0.0176,
      "step": 12989
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.1478920876979828,
      "learning_rate": 2.792622712750508e-05,
      "loss": 0.0235,
      "step": 12990
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.17537334561347961,
      "learning_rate": 2.790444379901249e-05,
      "loss": 0.0149,
      "step": 12991
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.2315952479839325,
      "learning_rate": 2.788266047051989e-05,
      "loss": 0.0175,
      "step": 12992
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.0726533904671669,
      "learning_rate": 2.78608771420273e-05,
      "loss": 0.0031,
      "step": 12993
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.15556301176548004,
      "learning_rate": 2.7839093813534705e-05,
      "loss": 0.0302,
      "step": 12994
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.08328170329332352,
      "learning_rate": 2.7817310485042114e-05,
      "loss": 0.0103,
      "step": 12995
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.22701162099838257,
      "learning_rate": 2.7795527156549516e-05,
      "loss": 0.0208,
      "step": 12996
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.1202954351902008,
      "learning_rate": 2.7773743828056925e-05,
      "loss": 0.0156,
      "step": 12997
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.14340394735336304,
      "learning_rate": 2.775196049956433e-05,
      "loss": 0.0319,
      "step": 12998
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.10047097504138947,
      "learning_rate": 2.773017717107174e-05,
      "loss": 0.0124,
      "step": 12999
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.2159649133682251,
      "learning_rate": 2.770839384257914e-05,
      "loss": 0.0418,
      "step": 13000
    },
    {
      "epoch": 3.64,
      "eval_loss": 0.0631340891122818,
      "eval_runtime": 176.5089,
      "eval_samples_per_second": 14.968,
      "eval_steps_per_second": 0.47,
      "eval_wer": 0.047302657675525585,
      "step": 13000
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.029089659452438354,
      "learning_rate": 2.768661051408655e-05,
      "loss": 0.0021,
      "step": 13001
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.09144551306962967,
      "learning_rate": 2.7664827185593955e-05,
      "loss": 0.0145,
      "step": 13002
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.11081071197986603,
      "learning_rate": 2.7643043857101364e-05,
      "loss": 0.0129,
      "step": 13003
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.06079132854938507,
      "learning_rate": 2.7621260528608766e-05,
      "loss": 0.0032,
      "step": 13004
    },
    {
      "epoch": 3.64,
      "grad_norm": 0.06185136362910271,
      "learning_rate": 2.7599477200116175e-05,
      "loss": 0.005,
      "step": 13005
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.14271502196788788,
      "learning_rate": 2.7577693871623584e-05,
      "loss": 0.0178,
      "step": 13006
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.4959278702735901,
      "learning_rate": 2.755591054313099e-05,
      "loss": 0.0272,
      "step": 13007
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.019972719252109528,
      "learning_rate": 2.7534127214638395e-05,
      "loss": 0.0015,
      "step": 13008
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.2570871114730835,
      "learning_rate": 2.75123438861458e-05,
      "loss": 0.0237,
      "step": 13009
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.15292739868164062,
      "learning_rate": 2.749056055765321e-05,
      "loss": 0.0313,
      "step": 13010
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.5156859159469604,
      "learning_rate": 2.7468777229160614e-05,
      "loss": 0.0513,
      "step": 13011
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.26280730962753296,
      "learning_rate": 2.744699390066802e-05,
      "loss": 0.0204,
      "step": 13012
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.08290021866559982,
      "learning_rate": 2.7425210572175425e-05,
      "loss": 0.0141,
      "step": 13013
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.13587586581707,
      "learning_rate": 2.7403427243682834e-05,
      "loss": 0.0349,
      "step": 13014
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.08333894610404968,
      "learning_rate": 2.738164391519024e-05,
      "loss": 0.0084,
      "step": 13015
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.31216534972190857,
      "learning_rate": 2.7359860586697645e-05,
      "loss": 0.0266,
      "step": 13016
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.16034594178199768,
      "learning_rate": 2.733807725820505e-05,
      "loss": 0.0069,
      "step": 13017
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.312328577041626,
      "learning_rate": 2.731629392971246e-05,
      "loss": 0.0416,
      "step": 13018
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.13415879011154175,
      "learning_rate": 2.7294510601219864e-05,
      "loss": 0.0116,
      "step": 13019
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.11708454042673111,
      "learning_rate": 2.727272727272727e-05,
      "loss": 0.0218,
      "step": 13020
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.09072085469961166,
      "learning_rate": 2.7250943944234675e-05,
      "loss": 0.0129,
      "step": 13021
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.10866730660200119,
      "learning_rate": 2.7229160615742084e-05,
      "loss": 0.0136,
      "step": 13022
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.1701088547706604,
      "learning_rate": 2.720737728724949e-05,
      "loss": 0.0334,
      "step": 13023
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.12873902916908264,
      "learning_rate": 2.7185593958756895e-05,
      "loss": 0.0117,
      "step": 13024
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.06228605657815933,
      "learning_rate": 2.71638106302643e-05,
      "loss": 0.0087,
      "step": 13025
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.07668962329626083,
      "learning_rate": 2.714202730177171e-05,
      "loss": 0.004,
      "step": 13026
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.06350857019424438,
      "learning_rate": 2.712024397327911e-05,
      "loss": 0.0055,
      "step": 13027
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.2644233703613281,
      "learning_rate": 2.709846064478652e-05,
      "loss": 0.036,
      "step": 13028
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.18206101655960083,
      "learning_rate": 2.707667731629393e-05,
      "loss": 0.0188,
      "step": 13029
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.1743219941854477,
      "learning_rate": 2.7054893987801334e-05,
      "loss": 0.0127,
      "step": 13030
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.22699089348316193,
      "learning_rate": 2.7033110659308743e-05,
      "loss": 0.0192,
      "step": 13031
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.14178849756717682,
      "learning_rate": 2.7011327330816145e-05,
      "loss": 0.0203,
      "step": 13032
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.22238101065158844,
      "learning_rate": 2.6989544002323554e-05,
      "loss": 0.0371,
      "step": 13033
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.10966093838214874,
      "learning_rate": 2.696776067383096e-05,
      "loss": 0.0142,
      "step": 13034
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.1125180721282959,
      "learning_rate": 2.6945977345338368e-05,
      "loss": 0.0091,
      "step": 13035
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.14466333389282227,
      "learning_rate": 2.692419401684577e-05,
      "loss": 0.0207,
      "step": 13036
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.08612724393606186,
      "learning_rate": 2.690241068835318e-05,
      "loss": 0.0055,
      "step": 13037
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.16869977116584778,
      "learning_rate": 2.6880627359860584e-05,
      "loss": 0.0255,
      "step": 13038
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.2594345510005951,
      "learning_rate": 2.6858844031367993e-05,
      "loss": 0.0412,
      "step": 13039
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.23496229946613312,
      "learning_rate": 2.6837060702875395e-05,
      "loss": 0.0053,
      "step": 13040
    },
    {
      "epoch": 3.65,
      "grad_norm": 0.2568471431732178,
      "learning_rate": 2.6815277374382804e-05,
      "loss": 0.0162,
      "step": 13041
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.5226613283157349,
      "learning_rate": 2.679349404589021e-05,
      "loss": 0.0373,
      "step": 13042
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.11403200775384903,
      "learning_rate": 2.6771710717397618e-05,
      "loss": 0.0181,
      "step": 13043
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.0494370236992836,
      "learning_rate": 2.674992738890502e-05,
      "loss": 0.0051,
      "step": 13044
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.11913803219795227,
      "learning_rate": 2.672814406041243e-05,
      "loss": 0.0115,
      "step": 13045
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.13966339826583862,
      "learning_rate": 2.6706360731919834e-05,
      "loss": 0.0078,
      "step": 13046
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.07147300988435745,
      "learning_rate": 2.6684577403427243e-05,
      "loss": 0.0104,
      "step": 13047
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.17120026051998138,
      "learning_rate": 2.6662794074934645e-05,
      "loss": 0.0275,
      "step": 13048
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.13935448229312897,
      "learning_rate": 2.6641010746442054e-05,
      "loss": 0.0108,
      "step": 13049
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.10706821829080582,
      "learning_rate": 2.661922741794946e-05,
      "loss": 0.0047,
      "step": 13050
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.05716083198785782,
      "learning_rate": 2.6597444089456868e-05,
      "loss": 0.0037,
      "step": 13051
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.007880874909460545,
      "learning_rate": 2.6575660760964274e-05,
      "loss": 0.0007,
      "step": 13052
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.2352466732263565,
      "learning_rate": 2.655387743247168e-05,
      "loss": 0.0166,
      "step": 13053
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.47233012318611145,
      "learning_rate": 2.6532094103979088e-05,
      "loss": 0.0135,
      "step": 13054
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.07087191939353943,
      "learning_rate": 2.651031077548649e-05,
      "loss": 0.0055,
      "step": 13055
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.15978464484214783,
      "learning_rate": 2.64885274469939e-05,
      "loss": 0.012,
      "step": 13056
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.33241918683052063,
      "learning_rate": 2.6466744118501304e-05,
      "loss": 0.0136,
      "step": 13057
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.0942855179309845,
      "learning_rate": 2.6444960790008713e-05,
      "loss": 0.0152,
      "step": 13058
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.1324353963136673,
      "learning_rate": 2.6423177461516115e-05,
      "loss": 0.0295,
      "step": 13059
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.11499050259590149,
      "learning_rate": 2.6401394133023524e-05,
      "loss": 0.0121,
      "step": 13060
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.20246772468090057,
      "learning_rate": 2.637961080453093e-05,
      "loss": 0.0091,
      "step": 13061
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.15051007270812988,
      "learning_rate": 2.6357827476038338e-05,
      "loss": 0.0177,
      "step": 13062
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.227974995970726,
      "learning_rate": 2.633604414754574e-05,
      "loss": 0.0318,
      "step": 13063
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.11614072322845459,
      "learning_rate": 2.631426081905315e-05,
      "loss": 0.0382,
      "step": 13064
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.10681227594614029,
      "learning_rate": 2.6292477490560554e-05,
      "loss": 0.0067,
      "step": 13065
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.9147719740867615,
      "learning_rate": 2.6270694162067963e-05,
      "loss": 0.0459,
      "step": 13066
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.2716008126735687,
      "learning_rate": 2.6248910833575365e-05,
      "loss": 0.0369,
      "step": 13067
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.07020986825227737,
      "learning_rate": 2.6227127505082774e-05,
      "loss": 0.005,
      "step": 13068
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.29252979159355164,
      "learning_rate": 2.620534417659018e-05,
      "loss": 0.0236,
      "step": 13069
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.053457360714673996,
      "learning_rate": 2.6183560848097588e-05,
      "loss": 0.0048,
      "step": 13070
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.4048451781272888,
      "learning_rate": 2.616177751960499e-05,
      "loss": 0.0262,
      "step": 13071
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.21907025575637817,
      "learning_rate": 2.61399941911124e-05,
      "loss": 0.0188,
      "step": 13072
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.1788507103919983,
      "learning_rate": 2.6118210862619808e-05,
      "loss": 0.0046,
      "step": 13073
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.1853039562702179,
      "learning_rate": 2.6096427534127213e-05,
      "loss": 0.0242,
      "step": 13074
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.07209417968988419,
      "learning_rate": 2.6074644205634622e-05,
      "loss": 0.0042,
      "step": 13075
    },
    {
      "epoch": 3.66,
      "grad_norm": 0.08497703820466995,
      "learning_rate": 2.6052860877142024e-05,
      "loss": 0.0104,
      "step": 13076
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.2360927164554596,
      "learning_rate": 2.6031077548649433e-05,
      "loss": 0.0168,
      "step": 13077
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.24803350865840912,
      "learning_rate": 2.6009294220156838e-05,
      "loss": 0.0351,
      "step": 13078
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.3813146650791168,
      "learning_rate": 2.5987510891664247e-05,
      "loss": 0.0183,
      "step": 13079
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.15807409584522247,
      "learning_rate": 2.596572756317165e-05,
      "loss": 0.0206,
      "step": 13080
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.07997335493564606,
      "learning_rate": 2.5943944234679058e-05,
      "loss": 0.0221,
      "step": 13081
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.051343657076358795,
      "learning_rate": 2.5922160906186463e-05,
      "loss": 0.0042,
      "step": 13082
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.0691143274307251,
      "learning_rate": 2.5900377577693872e-05,
      "loss": 0.0066,
      "step": 13083
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.15149278938770294,
      "learning_rate": 2.5878594249201274e-05,
      "loss": 0.0261,
      "step": 13084
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.266979455947876,
      "learning_rate": 2.5856810920708683e-05,
      "loss": 0.0343,
      "step": 13085
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.11229822784662247,
      "learning_rate": 2.583502759221609e-05,
      "loss": 0.0158,
      "step": 13086
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.14442655444145203,
      "learning_rate": 2.5813244263723494e-05,
      "loss": 0.0138,
      "step": 13087
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.11322036385536194,
      "learning_rate": 2.57914609352309e-05,
      "loss": 0.0137,
      "step": 13088
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.09260863065719604,
      "learning_rate": 2.5769677606738308e-05,
      "loss": 0.0083,
      "step": 13089
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.19469909369945526,
      "learning_rate": 2.5747894278245713e-05,
      "loss": 0.0263,
      "step": 13090
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.1566794067621231,
      "learning_rate": 2.572611094975312e-05,
      "loss": 0.0347,
      "step": 13091
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.39818868041038513,
      "learning_rate": 2.5704327621260524e-05,
      "loss": 0.026,
      "step": 13092
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.1856667846441269,
      "learning_rate": 2.5682544292767933e-05,
      "loss": 0.0322,
      "step": 13093
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.19469240307807922,
      "learning_rate": 2.566076096427534e-05,
      "loss": 0.0288,
      "step": 13094
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.12489595264196396,
      "learning_rate": 2.5638977635782744e-05,
      "loss": 0.0241,
      "step": 13095
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.09267223626375198,
      "learning_rate": 2.5617194307290153e-05,
      "loss": 0.0083,
      "step": 13096
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.07685858011245728,
      "learning_rate": 2.5595410978797558e-05,
      "loss": 0.0139,
      "step": 13097
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.2898201048374176,
      "learning_rate": 2.5573627650304967e-05,
      "loss": 0.036,
      "step": 13098
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.3192391097545624,
      "learning_rate": 2.555184432181237e-05,
      "loss": 0.023,
      "step": 13099
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.3113180696964264,
      "learning_rate": 2.5530060993319778e-05,
      "loss": 0.0298,
      "step": 13100
    },
    {
      "epoch": 3.67,
      "eval_loss": 0.06197133660316467,
      "eval_runtime": 176.0786,
      "eval_samples_per_second": 15.005,
      "eval_steps_per_second": 0.471,
      "eval_wer": 0.04763982546608489,
      "step": 13100
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.050093624740839005,
      "learning_rate": 2.5508277664827183e-05,
      "loss": 0.0037,
      "step": 13101
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.1823674440383911,
      "learning_rate": 2.5486494336334592e-05,
      "loss": 0.0162,
      "step": 13102
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.30900970101356506,
      "learning_rate": 2.5464711007841994e-05,
      "loss": 0.0268,
      "step": 13103
    },
    {
      "epoch": 3.67,
      "grad_norm": 1.3547523021697998,
      "learning_rate": 2.5442927679349403e-05,
      "loss": 0.0989,
      "step": 13104
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.12153623253107071,
      "learning_rate": 2.5421144350856808e-05,
      "loss": 0.0087,
      "step": 13105
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.05671774223446846,
      "learning_rate": 2.5399361022364217e-05,
      "loss": 0.0049,
      "step": 13106
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.17944499850273132,
      "learning_rate": 2.537757769387162e-05,
      "loss": 0.0152,
      "step": 13107
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.2557986080646515,
      "learning_rate": 2.5355794365379028e-05,
      "loss": 0.0247,
      "step": 13108
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.17771174013614655,
      "learning_rate": 2.5334011036886433e-05,
      "loss": 0.0183,
      "step": 13109
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.08866231143474579,
      "learning_rate": 2.5312227708393842e-05,
      "loss": 0.0122,
      "step": 13110
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.44907674193382263,
      "learning_rate": 2.5290444379901244e-05,
      "loss": 0.0396,
      "step": 13111
    },
    {
      "epoch": 3.67,
      "grad_norm": 0.0743410736322403,
      "learning_rate": 2.5268661051408653e-05,
      "loss": 0.0102,
      "step": 13112
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.11481163650751114,
      "learning_rate": 2.524687772291606e-05,
      "loss": 0.0077,
      "step": 13113
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.055684324353933334,
      "learning_rate": 2.5225094394423467e-05,
      "loss": 0.0112,
      "step": 13114
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.08667979389429092,
      "learning_rate": 2.520331106593087e-05,
      "loss": 0.0172,
      "step": 13115
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.31690678000450134,
      "learning_rate": 2.5181527737438278e-05,
      "loss": 0.0368,
      "step": 13116
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.18586350977420807,
      "learning_rate": 2.5159744408945687e-05,
      "loss": 0.0149,
      "step": 13117
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.12663494050502777,
      "learning_rate": 2.5137961080453092e-05,
      "loss": 0.0097,
      "step": 13118
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.09407911449670792,
      "learning_rate": 2.5116177751960498e-05,
      "loss": 0.0176,
      "step": 13119
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.08980557322502136,
      "learning_rate": 2.5094394423467903e-05,
      "loss": 0.0224,
      "step": 13120
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.42966532707214355,
      "learning_rate": 2.5072611094975312e-05,
      "loss": 0.0332,
      "step": 13121
    },
    {
      "epoch": 3.68,
      "grad_norm": 1.2833044528961182,
      "learning_rate": 2.5050827766482717e-05,
      "loss": 0.0253,
      "step": 13122
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.2368374466896057,
      "learning_rate": 2.5029044437990123e-05,
      "loss": 0.0476,
      "step": 13123
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.16164638102054596,
      "learning_rate": 2.5007261109497528e-05,
      "loss": 0.0173,
      "step": 13124
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.056960683315992355,
      "learning_rate": 2.4985477781004937e-05,
      "loss": 0.0057,
      "step": 13125
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.11134317517280579,
      "learning_rate": 2.4963694452512342e-05,
      "loss": 0.0108,
      "step": 13126
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.13775983452796936,
      "learning_rate": 2.4941911124019748e-05,
      "loss": 0.0097,
      "step": 13127
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.3144060969352722,
      "learning_rate": 2.4920127795527153e-05,
      "loss": 0.0326,
      "step": 13128
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.07056356221437454,
      "learning_rate": 2.4898344467034562e-05,
      "loss": 0.0054,
      "step": 13129
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.09587658196687698,
      "learning_rate": 2.4876561138541968e-05,
      "loss": 0.0072,
      "step": 13130
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.06853935867547989,
      "learning_rate": 2.4854777810049373e-05,
      "loss": 0.0137,
      "step": 13131
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.1871827393770218,
      "learning_rate": 2.483299448155678e-05,
      "loss": 0.017,
      "step": 13132
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.1343974471092224,
      "learning_rate": 2.4811211153064187e-05,
      "loss": 0.0226,
      "step": 13133
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.06854451447725296,
      "learning_rate": 2.478942782457159e-05,
      "loss": 0.009,
      "step": 13134
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.09398156404495239,
      "learning_rate": 2.4767644496078998e-05,
      "loss": 0.009,
      "step": 13135
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.13891752064228058,
      "learning_rate": 2.4745861167586403e-05,
      "loss": 0.0138,
      "step": 13136
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.14753518998622894,
      "learning_rate": 2.4724077839093812e-05,
      "loss": 0.0104,
      "step": 13137
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.10311558842658997,
      "learning_rate": 2.4702294510601214e-05,
      "loss": 0.0079,
      "step": 13138
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.22806839644908905,
      "learning_rate": 2.4680511182108623e-05,
      "loss": 0.0239,
      "step": 13139
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.08524667471647263,
      "learning_rate": 2.4658727853616032e-05,
      "loss": 0.0078,
      "step": 13140
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.1756746768951416,
      "learning_rate": 2.4636944525123437e-05,
      "loss": 0.0422,
      "step": 13141
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.17645849287509918,
      "learning_rate": 2.4615161196630846e-05,
      "loss": 0.0082,
      "step": 13142
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.09260153025388718,
      "learning_rate": 2.4593377868138248e-05,
      "loss": 0.0253,
      "step": 13143
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.23460829257965088,
      "learning_rate": 2.4571594539645657e-05,
      "loss": 0.0239,
      "step": 13144
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.1841667741537094,
      "learning_rate": 2.4549811211153062e-05,
      "loss": 0.0312,
      "step": 13145
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.240642711520195,
      "learning_rate": 2.452802788266047e-05,
      "loss": 0.028,
      "step": 13146
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.13211451470851898,
      "learning_rate": 2.4506244554167873e-05,
      "loss": 0.0094,
      "step": 13147
    },
    {
      "epoch": 3.68,
      "grad_norm": 0.2556905746459961,
      "learning_rate": 2.4484461225675282e-05,
      "loss": 0.0371,
      "step": 13148
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.15141673386096954,
      "learning_rate": 2.4462677897182687e-05,
      "loss": 0.0181,
      "step": 13149
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.05947696417570114,
      "learning_rate": 2.4440894568690096e-05,
      "loss": 0.005,
      "step": 13150
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.29988497495651245,
      "learning_rate": 2.4419111240197498e-05,
      "loss": 0.016,
      "step": 13151
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.10790088772773743,
      "learning_rate": 2.4397327911704907e-05,
      "loss": 0.0093,
      "step": 13152
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.08751565963029861,
      "learning_rate": 2.4375544583212312e-05,
      "loss": 0.0059,
      "step": 13153
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.05848538130521774,
      "learning_rate": 2.435376125471972e-05,
      "loss": 0.0039,
      "step": 13154
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.1008923202753067,
      "learning_rate": 2.4331977926227123e-05,
      "loss": 0.0204,
      "step": 13155
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.19721610844135284,
      "learning_rate": 2.4310194597734532e-05,
      "loss": 0.0185,
      "step": 13156
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.08043507486581802,
      "learning_rate": 2.4288411269241938e-05,
      "loss": 0.0101,
      "step": 13157
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.21535450220108032,
      "learning_rate": 2.4266627940749346e-05,
      "loss": 0.0266,
      "step": 13158
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.23617394268512726,
      "learning_rate": 2.424484461225675e-05,
      "loss": 0.0245,
      "step": 13159
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.11943650245666504,
      "learning_rate": 2.4223061283764157e-05,
      "loss": 0.006,
      "step": 13160
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.053910400718450546,
      "learning_rate": 2.4201277955271563e-05,
      "loss": 0.0058,
      "step": 13161
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.15479020774364471,
      "learning_rate": 2.4179494626778968e-05,
      "loss": 0.0183,
      "step": 13162
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.07113747298717499,
      "learning_rate": 2.4157711298286377e-05,
      "loss": 0.0045,
      "step": 13163
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.22924964129924774,
      "learning_rate": 2.4135927969793782e-05,
      "loss": 0.038,
      "step": 13164
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.30393552780151367,
      "learning_rate": 2.411414464130119e-05,
      "loss": 0.0599,
      "step": 13165
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.14861027896404266,
      "learning_rate": 2.4092361312808593e-05,
      "loss": 0.0077,
      "step": 13166
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.2780042886734009,
      "learning_rate": 2.4070577984316002e-05,
      "loss": 0.0424,
      "step": 13167
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.2718691825866699,
      "learning_rate": 2.4048794655823407e-05,
      "loss": 0.0422,
      "step": 13168
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.18812425434589386,
      "learning_rate": 2.4027011327330816e-05,
      "loss": 0.0389,
      "step": 13169
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.061376336961984634,
      "learning_rate": 2.4005227998838218e-05,
      "loss": 0.0104,
      "step": 13170
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.0874909982085228,
      "learning_rate": 2.3983444670345627e-05,
      "loss": 0.0142,
      "step": 13171
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.32127636671066284,
      "learning_rate": 2.3961661341853032e-05,
      "loss": 0.0331,
      "step": 13172
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.12996213138103485,
      "learning_rate": 2.393987801336044e-05,
      "loss": 0.0161,
      "step": 13173
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.16027306020259857,
      "learning_rate": 2.3918094684867843e-05,
      "loss": 0.011,
      "step": 13174
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.12547342479228973,
      "learning_rate": 2.3896311356375252e-05,
      "loss": 0.0201,
      "step": 13175
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.1747761219739914,
      "learning_rate": 2.3874528027882657e-05,
      "loss": 0.0213,
      "step": 13176
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.10756411403417587,
      "learning_rate": 2.3852744699390066e-05,
      "loss": 0.0046,
      "step": 13177
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.10992801189422607,
      "learning_rate": 2.3830961370897468e-05,
      "loss": 0.0072,
      "step": 13178
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.6269004344940186,
      "learning_rate": 2.3809178042404877e-05,
      "loss": 0.0657,
      "step": 13179
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.0618911013007164,
      "learning_rate": 2.3787394713912283e-05,
      "loss": 0.0079,
      "step": 13180
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.18335048854351044,
      "learning_rate": 2.376561138541969e-05,
      "loss": 0.0393,
      "step": 13181
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.10511456429958344,
      "learning_rate": 2.3743828056927093e-05,
      "loss": 0.0086,
      "step": 13182
    },
    {
      "epoch": 3.69,
      "grad_norm": 0.15882721543312073,
      "learning_rate": 2.3722044728434502e-05,
      "loss": 0.0256,
      "step": 13183
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.11774905771017075,
      "learning_rate": 2.370026139994191e-05,
      "loss": 0.0279,
      "step": 13184
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.15633440017700195,
      "learning_rate": 2.3678478071449316e-05,
      "loss": 0.0188,
      "step": 13185
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.17846524715423584,
      "learning_rate": 2.3656694742956725e-05,
      "loss": 0.0078,
      "step": 13186
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.08543926477432251,
      "learning_rate": 2.3634911414464127e-05,
      "loss": 0.0104,
      "step": 13187
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.17959262430667877,
      "learning_rate": 2.3613128085971536e-05,
      "loss": 0.0117,
      "step": 13188
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.08914151787757874,
      "learning_rate": 2.359134475747894e-05,
      "loss": 0.0045,
      "step": 13189
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.37575751543045044,
      "learning_rate": 2.3569561428986347e-05,
      "loss": 0.0085,
      "step": 13190
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.24835218489170074,
      "learning_rate": 2.3547778100493752e-05,
      "loss": 0.0222,
      "step": 13191
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.3394125699996948,
      "learning_rate": 2.352599477200116e-05,
      "loss": 0.022,
      "step": 13192
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.12653878331184387,
      "learning_rate": 2.3504211443508567e-05,
      "loss": 0.0105,
      "step": 13193
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.10595414787530899,
      "learning_rate": 2.3482428115015972e-05,
      "loss": 0.0238,
      "step": 13194
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.12475188076496124,
      "learning_rate": 2.3460644786523377e-05,
      "loss": 0.0156,
      "step": 13195
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.12156743556261063,
      "learning_rate": 2.3438861458030786e-05,
      "loss": 0.0117,
      "step": 13196
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.08277478069067001,
      "learning_rate": 2.341707812953819e-05,
      "loss": 0.0156,
      "step": 13197
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.11057582497596741,
      "learning_rate": 2.3395294801045597e-05,
      "loss": 0.0054,
      "step": 13198
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.08144539594650269,
      "learning_rate": 2.3373511472553002e-05,
      "loss": 0.0044,
      "step": 13199
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.11717964708805084,
      "learning_rate": 2.335172814406041e-05,
      "loss": 0.0382,
      "step": 13200
    },
    {
      "epoch": 3.7,
      "eval_loss": 0.06165760010480881,
      "eval_runtime": 176.4254,
      "eval_samples_per_second": 14.975,
      "eval_steps_per_second": 0.47,
      "eval_wer": 0.046806822689408965,
      "step": 13200
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.09694071114063263,
      "learning_rate": 2.3329944815567817e-05,
      "loss": 0.0193,
      "step": 13201
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.13193655014038086,
      "learning_rate": 2.3308161487075222e-05,
      "loss": 0.0107,
      "step": 13202
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.06932177394628525,
      "learning_rate": 2.3286378158582627e-05,
      "loss": 0.0046,
      "step": 13203
    },
    {
      "epoch": 3.7,
      "grad_norm": 2.405409336090088,
      "learning_rate": 2.3264594830090036e-05,
      "loss": 0.1651,
      "step": 13204
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.12736856937408447,
      "learning_rate": 2.3242811501597442e-05,
      "loss": 0.0116,
      "step": 13205
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.24228712916374207,
      "learning_rate": 2.3221028173104847e-05,
      "loss": 0.0256,
      "step": 13206
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.2717348337173462,
      "learning_rate": 2.3199244844612256e-05,
      "loss": 0.0108,
      "step": 13207
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.15173746645450592,
      "learning_rate": 2.317746151611966e-05,
      "loss": 0.0138,
      "step": 13208
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.12495909631252289,
      "learning_rate": 2.315567818762707e-05,
      "loss": 0.0112,
      "step": 13209
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.08066610246896744,
      "learning_rate": 2.3133894859134472e-05,
      "loss": 0.0121,
      "step": 13210
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.1323695182800293,
      "learning_rate": 2.311211153064188e-05,
      "loss": 0.0197,
      "step": 13211
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.0807420015335083,
      "learning_rate": 2.3090328202149286e-05,
      "loss": 0.0085,
      "step": 13212
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.11091405153274536,
      "learning_rate": 2.3068544873656695e-05,
      "loss": 0.0248,
      "step": 13213
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.14597786962985992,
      "learning_rate": 2.3046761545164097e-05,
      "loss": 0.0133,
      "step": 13214
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.1816810667514801,
      "learning_rate": 2.3024978216671506e-05,
      "loss": 0.01,
      "step": 13215
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.06368791311979294,
      "learning_rate": 2.300319488817891e-05,
      "loss": 0.0024,
      "step": 13216
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.2588752508163452,
      "learning_rate": 2.298141155968632e-05,
      "loss": 0.0215,
      "step": 13217
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.18478664755821228,
      "learning_rate": 2.2959628231193722e-05,
      "loss": 0.0228,
      "step": 13218
    },
    {
      "epoch": 3.7,
      "grad_norm": 0.19585227966308594,
      "learning_rate": 2.293784490270113e-05,
      "loss": 0.0167,
      "step": 13219
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.10824265331029892,
      "learning_rate": 2.2916061574208537e-05,
      "loss": 0.0174,
      "step": 13220
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.05071607977151871,
      "learning_rate": 2.2894278245715945e-05,
      "loss": 0.0077,
      "step": 13221
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.1742485612630844,
      "learning_rate": 2.2872494917223347e-05,
      "loss": 0.0217,
      "step": 13222
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.18846914172172546,
      "learning_rate": 2.2850711588730756e-05,
      "loss": 0.0134,
      "step": 13223
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.04717640206217766,
      "learning_rate": 2.282892826023816e-05,
      "loss": 0.0049,
      "step": 13224
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.1543620079755783,
      "learning_rate": 2.280714493174557e-05,
      "loss": 0.0224,
      "step": 13225
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.1839374601840973,
      "learning_rate": 2.2785361603252972e-05,
      "loss": 0.0458,
      "step": 13226
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.11563608795404434,
      "learning_rate": 2.276357827476038e-05,
      "loss": 0.015,
      "step": 13227
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.08740870654582977,
      "learning_rate": 2.274179494626779e-05,
      "loss": 0.0263,
      "step": 13228
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.7023816704750061,
      "learning_rate": 2.2720011617775196e-05,
      "loss": 0.021,
      "step": 13229
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.08867397159337997,
      "learning_rate": 2.26982282892826e-05,
      "loss": 0.0123,
      "step": 13230
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.20586228370666504,
      "learning_rate": 2.2676444960790006e-05,
      "loss": 0.0151,
      "step": 13231
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.0837213397026062,
      "learning_rate": 2.2654661632297415e-05,
      "loss": 0.0085,
      "step": 13232
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.22776877880096436,
      "learning_rate": 2.263287830380482e-05,
      "loss": 0.0311,
      "step": 13233
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.058907609432935715,
      "learning_rate": 2.2611094975312226e-05,
      "loss": 0.0024,
      "step": 13234
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.2149585783481598,
      "learning_rate": 2.258931164681963e-05,
      "loss": 0.0207,
      "step": 13235
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.24291828274726868,
      "learning_rate": 2.256752831832704e-05,
      "loss": 0.0483,
      "step": 13236
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.10533834993839264,
      "learning_rate": 2.2545744989834442e-05,
      "loss": 0.0095,
      "step": 13237
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.06903094053268433,
      "learning_rate": 2.252396166134185e-05,
      "loss": 0.0188,
      "step": 13238
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.16623955965042114,
      "learning_rate": 2.2502178332849256e-05,
      "loss": 0.0182,
      "step": 13239
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.026033656671643257,
      "learning_rate": 2.2480395004356665e-05,
      "loss": 0.0014,
      "step": 13240
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.7408870458602905,
      "learning_rate": 2.2458611675864067e-05,
      "loss": 0.0596,
      "step": 13241
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.10097552835941315,
      "learning_rate": 2.2436828347371476e-05,
      "loss": 0.0189,
      "step": 13242
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.2206335812807083,
      "learning_rate": 2.241504501887888e-05,
      "loss": 0.022,
      "step": 13243
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.17641842365264893,
      "learning_rate": 2.239326169038629e-05,
      "loss": 0.0106,
      "step": 13244
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.10212445259094238,
      "learning_rate": 2.2371478361893692e-05,
      "loss": 0.0173,
      "step": 13245
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.18759602308273315,
      "learning_rate": 2.23496950334011e-05,
      "loss": 0.015,
      "step": 13246
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.07806403934955597,
      "learning_rate": 2.2327911704908507e-05,
      "loss": 0.0051,
      "step": 13247
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.08152811229228973,
      "learning_rate": 2.2306128376415915e-05,
      "loss": 0.0087,
      "step": 13248
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.17353232204914093,
      "learning_rate": 2.2284345047923317e-05,
      "loss": 0.0128,
      "step": 13249
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.1433345526456833,
      "learning_rate": 2.2262561719430726e-05,
      "loss": 0.0159,
      "step": 13250
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.2137521654367447,
      "learning_rate": 2.2240778390938135e-05,
      "loss": 0.0206,
      "step": 13251
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.03827306255698204,
      "learning_rate": 2.221899506244554e-05,
      "loss": 0.0022,
      "step": 13252
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.3924562633037567,
      "learning_rate": 2.219721173395295e-05,
      "loss": 0.0219,
      "step": 13253
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.032632071524858475,
      "learning_rate": 2.217542840546035e-05,
      "loss": 0.0015,
      "step": 13254
    },
    {
      "epoch": 3.71,
      "grad_norm": 0.08954581618309021,
      "learning_rate": 2.215364507696776e-05,
      "loss": 0.015,
      "step": 13255
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.11108572781085968,
      "learning_rate": 2.2131861748475166e-05,
      "loss": 0.0191,
      "step": 13256
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.22844567894935608,
      "learning_rate": 2.2110078419982574e-05,
      "loss": 0.0265,
      "step": 13257
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.15399524569511414,
      "learning_rate": 2.2088295091489976e-05,
      "loss": 0.011,
      "step": 13258
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.06976678222417831,
      "learning_rate": 2.2066511762997385e-05,
      "loss": 0.005,
      "step": 13259
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.17728742957115173,
      "learning_rate": 2.204472843450479e-05,
      "loss": 0.0336,
      "step": 13260
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.14786005020141602,
      "learning_rate": 2.20229451060122e-05,
      "loss": 0.0258,
      "step": 13261
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.16799916326999664,
      "learning_rate": 2.20011617775196e-05,
      "loss": 0.0157,
      "step": 13262
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.03589394688606262,
      "learning_rate": 2.197937844902701e-05,
      "loss": 0.0025,
      "step": 13263
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.059564828872680664,
      "learning_rate": 2.1957595120534416e-05,
      "loss": 0.004,
      "step": 13264
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.20662415027618408,
      "learning_rate": 2.193581179204182e-05,
      "loss": 0.0369,
      "step": 13265
    },
    {
      "epoch": 3.72,
      "grad_norm": 1.7116825580596924,
      "learning_rate": 2.1914028463549227e-05,
      "loss": 0.1042,
      "step": 13266
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.16785605251789093,
      "learning_rate": 2.1892245135056635e-05,
      "loss": 0.0099,
      "step": 13267
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.1249111071228981,
      "learning_rate": 2.187046180656404e-05,
      "loss": 0.0172,
      "step": 13268
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.08753043413162231,
      "learning_rate": 2.1848678478071446e-05,
      "loss": 0.0081,
      "step": 13269
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.12052707374095917,
      "learning_rate": 2.182689514957885e-05,
      "loss": 0.0127,
      "step": 13270
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.13799721002578735,
      "learning_rate": 2.180511182108626e-05,
      "loss": 0.014,
      "step": 13271
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.21204449236392975,
      "learning_rate": 2.1783328492593666e-05,
      "loss": 0.0411,
      "step": 13272
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.14677254855632782,
      "learning_rate": 2.176154516410107e-05,
      "loss": 0.0179,
      "step": 13273
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.17548367381095886,
      "learning_rate": 2.173976183560848e-05,
      "loss": 0.0413,
      "step": 13274
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.20014235377311707,
      "learning_rate": 2.1717978507115885e-05,
      "loss": 0.0133,
      "step": 13275
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.09660368412733078,
      "learning_rate": 2.1696195178623294e-05,
      "loss": 0.0096,
      "step": 13276
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.22172969579696655,
      "learning_rate": 2.1674411850130696e-05,
      "loss": 0.0202,
      "step": 13277
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.28616952896118164,
      "learning_rate": 2.1652628521638105e-05,
      "loss": 0.0193,
      "step": 13278
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.2210056483745575,
      "learning_rate": 2.163084519314551e-05,
      "loss": 0.009,
      "step": 13279
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.1460665464401245,
      "learning_rate": 2.160906186465292e-05,
      "loss": 0.0128,
      "step": 13280
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.1048826053738594,
      "learning_rate": 2.158727853616032e-05,
      "loss": 0.0085,
      "step": 13281
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.1397789716720581,
      "learning_rate": 2.156549520766773e-05,
      "loss": 0.0073,
      "step": 13282
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.08499528467655182,
      "learning_rate": 2.1543711879175136e-05,
      "loss": 0.0129,
      "step": 13283
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.1821361482143402,
      "learning_rate": 2.1521928550682544e-05,
      "loss": 0.0273,
      "step": 13284
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.26552528142929077,
      "learning_rate": 2.1500145222189946e-05,
      "loss": 0.0221,
      "step": 13285
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.13536004722118378,
      "learning_rate": 2.1478361893697355e-05,
      "loss": 0.0148,
      "step": 13286
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.19110946357250214,
      "learning_rate": 2.145657856520476e-05,
      "loss": 0.0232,
      "step": 13287
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.09269731491804123,
      "learning_rate": 2.143479523671217e-05,
      "loss": 0.012,
      "step": 13288
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.14121538400650024,
      "learning_rate": 2.141301190821957e-05,
      "loss": 0.017,
      "step": 13289
    },
    {
      "epoch": 3.72,
      "grad_norm": 0.21800856292247772,
      "learning_rate": 2.139122857972698e-05,
      "loss": 0.0117,
      "step": 13290
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.36229395866394043,
      "learning_rate": 2.1369445251234386e-05,
      "loss": 0.0401,
      "step": 13291
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.10049409419298172,
      "learning_rate": 2.1347661922741795e-05,
      "loss": 0.0132,
      "step": 13292
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.0865059569478035,
      "learning_rate": 2.1325878594249197e-05,
      "loss": 0.0053,
      "step": 13293
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.07359328120946884,
      "learning_rate": 2.1304095265756605e-05,
      "loss": 0.0079,
      "step": 13294
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.222002774477005,
      "learning_rate": 2.1282311937264014e-05,
      "loss": 0.0312,
      "step": 13295
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.19696739315986633,
      "learning_rate": 2.126052860877142e-05,
      "loss": 0.0186,
      "step": 13296
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.10976126790046692,
      "learning_rate": 2.1238745280278825e-05,
      "loss": 0.0128,
      "step": 13297
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.1543416827917099,
      "learning_rate": 2.121696195178623e-05,
      "loss": 0.0158,
      "step": 13298
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.19781453907489777,
      "learning_rate": 2.119517862329364e-05,
      "loss": 0.0218,
      "step": 13299
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.16455088555812836,
      "learning_rate": 2.1173395294801045e-05,
      "loss": 0.0281,
      "step": 13300
    },
    {
      "epoch": 3.73,
      "eval_loss": 0.061855606734752655,
      "eval_runtime": 178.4997,
      "eval_samples_per_second": 14.801,
      "eval_steps_per_second": 0.465,
      "eval_wer": 0.046350654502181676,
      "step": 13300
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.09208326041698456,
      "learning_rate": 2.115161196630845e-05,
      "loss": 0.0092,
      "step": 13301
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.10143478214740753,
      "learning_rate": 2.1129828637815855e-05,
      "loss": 0.007,
      "step": 13302
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.07021487504243851,
      "learning_rate": 2.1108045309323264e-05,
      "loss": 0.0045,
      "step": 13303
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.7212666273117065,
      "learning_rate": 2.108626198083067e-05,
      "loss": 0.07,
      "step": 13304
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.07833296060562134,
      "learning_rate": 2.1064478652338075e-05,
      "loss": 0.0064,
      "step": 13305
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.12768784165382385,
      "learning_rate": 2.104269532384548e-05,
      "loss": 0.0213,
      "step": 13306
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.23501649498939514,
      "learning_rate": 2.102091199535289e-05,
      "loss": 0.0426,
      "step": 13307
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.22136296331882477,
      "learning_rate": 2.0999128666860295e-05,
      "loss": 0.03,
      "step": 13308
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.18293501436710358,
      "learning_rate": 2.09773453383677e-05,
      "loss": 0.0161,
      "step": 13309
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.1300523430109024,
      "learning_rate": 2.0955562009875106e-05,
      "loss": 0.0372,
      "step": 13310
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.08184760063886642,
      "learning_rate": 2.0933778681382514e-05,
      "loss": 0.0095,
      "step": 13311
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.20184443891048431,
      "learning_rate": 2.0911995352889916e-05,
      "loss": 0.059,
      "step": 13312
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.2221345156431198,
      "learning_rate": 2.0890212024397325e-05,
      "loss": 0.021,
      "step": 13313
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.07683629542589188,
      "learning_rate": 2.086842869590473e-05,
      "loss": 0.0097,
      "step": 13314
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.20294353365898132,
      "learning_rate": 2.084664536741214e-05,
      "loss": 0.0195,
      "step": 13315
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.2855042517185211,
      "learning_rate": 2.082486203891954e-05,
      "loss": 0.0273,
      "step": 13316
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.22508692741394043,
      "learning_rate": 2.080307871042695e-05,
      "loss": 0.0192,
      "step": 13317
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.07534532994031906,
      "learning_rate": 2.078129538193436e-05,
      "loss": 0.0064,
      "step": 13318
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.10144667327404022,
      "learning_rate": 2.0759512053441765e-05,
      "loss": 0.0108,
      "step": 13319
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.06212938204407692,
      "learning_rate": 2.0737728724949173e-05,
      "loss": 0.0048,
      "step": 13320
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.13678483664989471,
      "learning_rate": 2.0715945396456575e-05,
      "loss": 0.0142,
      "step": 13321
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.2629445493221283,
      "learning_rate": 2.0694162067963984e-05,
      "loss": 0.0661,
      "step": 13322
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.11420916020870209,
      "learning_rate": 2.067237873947139e-05,
      "loss": 0.0144,
      "step": 13323
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.1278993785381317,
      "learning_rate": 2.06505954109788e-05,
      "loss": 0.0141,
      "step": 13324
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.1750207394361496,
      "learning_rate": 2.06288120824862e-05,
      "loss": 0.0308,
      "step": 13325
    },
    {
      "epoch": 3.73,
      "grad_norm": 0.14988882839679718,
      "learning_rate": 2.060702875399361e-05,
      "loss": 0.0136,
      "step": 13326
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.09707122296094894,
      "learning_rate": 2.0585245425501015e-05,
      "loss": 0.0081,
      "step": 13327
    },
    {
      "epoch": 3.74,
      "grad_norm": 1.1325128078460693,
      "learning_rate": 2.0563462097008424e-05,
      "loss": 0.0649,
      "step": 13328
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.3775362968444824,
      "learning_rate": 2.0541678768515826e-05,
      "loss": 0.0289,
      "step": 13329
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.06549402326345444,
      "learning_rate": 2.0519895440023234e-05,
      "loss": 0.0097,
      "step": 13330
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.14936184883117676,
      "learning_rate": 2.049811211153064e-05,
      "loss": 0.0085,
      "step": 13331
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.09656548500061035,
      "learning_rate": 2.047632878303805e-05,
      "loss": 0.0134,
      "step": 13332
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.20129552483558655,
      "learning_rate": 2.045454545454545e-05,
      "loss": 0.0338,
      "step": 13333
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.1388111561536789,
      "learning_rate": 2.043276212605286e-05,
      "loss": 0.0299,
      "step": 13334
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.12034565210342407,
      "learning_rate": 2.0410978797560265e-05,
      "loss": 0.014,
      "step": 13335
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.038881752640008926,
      "learning_rate": 2.0389195469067674e-05,
      "loss": 0.0016,
      "step": 13336
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.09158691018819809,
      "learning_rate": 2.0367412140575076e-05,
      "loss": 0.0116,
      "step": 13337
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.1173434853553772,
      "learning_rate": 2.0345628812082484e-05,
      "loss": 0.0159,
      "step": 13338
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.11670400202274323,
      "learning_rate": 2.032384548358989e-05,
      "loss": 0.0086,
      "step": 13339
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.13503167033195496,
      "learning_rate": 2.0302062155097295e-05,
      "loss": 0.0109,
      "step": 13340
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.3525455892086029,
      "learning_rate": 2.0280278826604704e-05,
      "loss": 0.0088,
      "step": 13341
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.12674884498119354,
      "learning_rate": 2.025849549811211e-05,
      "loss": 0.0063,
      "step": 13342
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.10313040763139725,
      "learning_rate": 2.023671216961952e-05,
      "loss": 0.02,
      "step": 13343
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.11117971688508987,
      "learning_rate": 2.021492884112692e-05,
      "loss": 0.0144,
      "step": 13344
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.15453335642814636,
      "learning_rate": 2.019314551263433e-05,
      "loss": 0.0166,
      "step": 13345
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.11728610843420029,
      "learning_rate": 2.0171362184141735e-05,
      "loss": 0.0047,
      "step": 13346
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.14453007280826569,
      "learning_rate": 2.0149578855649143e-05,
      "loss": 0.0302,
      "step": 13347
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.2415439933538437,
      "learning_rate": 2.0127795527156545e-05,
      "loss": 0.0263,
      "step": 13348
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.24443471431732178,
      "learning_rate": 2.0106012198663954e-05,
      "loss": 0.0418,
      "step": 13349
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.07852669805288315,
      "learning_rate": 2.008422887017136e-05,
      "loss": 0.0111,
      "step": 13350
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.08230192214250565,
      "learning_rate": 2.006244554167877e-05,
      "loss": 0.0052,
      "step": 13351
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.1611720770597458,
      "learning_rate": 2.004066221318617e-05,
      "loss": 0.0085,
      "step": 13352
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.35700350999832153,
      "learning_rate": 2.001887888469358e-05,
      "loss": 0.0401,
      "step": 13353
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.03178923949599266,
      "learning_rate": 1.9997095556200985e-05,
      "loss": 0.0023,
      "step": 13354
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.09010577201843262,
      "learning_rate": 1.9975312227708394e-05,
      "loss": 0.0144,
      "step": 13355
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.171163409948349,
      "learning_rate": 1.9953528899215796e-05,
      "loss": 0.0104,
      "step": 13356
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.14396558701992035,
      "learning_rate": 1.9931745570723204e-05,
      "loss": 0.0122,
      "step": 13357
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.17641158401966095,
      "learning_rate": 1.990996224223061e-05,
      "loss": 0.0082,
      "step": 13358
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.20462872087955475,
      "learning_rate": 1.988817891373802e-05,
      "loss": 0.0148,
      "step": 13359
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.18373630940914154,
      "learning_rate": 1.986639558524542e-05,
      "loss": 0.0073,
      "step": 13360
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.13868626952171326,
      "learning_rate": 1.984461225675283e-05,
      "loss": 0.0252,
      "step": 13361
    },
    {
      "epoch": 3.74,
      "grad_norm": 0.14492379128932953,
      "learning_rate": 1.9822828928260238e-05,
      "loss": 0.0094,
      "step": 13362
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.09934644401073456,
      "learning_rate": 1.9801045599767644e-05,
      "loss": 0.0129,
      "step": 13363
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.17705921828746796,
      "learning_rate": 1.9779262271275052e-05,
      "loss": 0.0198,
      "step": 13364
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.117494598031044,
      "learning_rate": 1.9757478942782455e-05,
      "loss": 0.0102,
      "step": 13365
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.22858838737010956,
      "learning_rate": 1.9735695614289863e-05,
      "loss": 0.0209,
      "step": 13366
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.35270240902900696,
      "learning_rate": 1.971391228579727e-05,
      "loss": 0.0625,
      "step": 13367
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.0942707508802414,
      "learning_rate": 1.9692128957304678e-05,
      "loss": 0.0109,
      "step": 13368
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.19386260211467743,
      "learning_rate": 1.967034562881208e-05,
      "loss": 0.0212,
      "step": 13369
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.37018460035324097,
      "learning_rate": 1.964856230031949e-05,
      "loss": 0.0196,
      "step": 13370
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.07573454082012177,
      "learning_rate": 1.9626778971826894e-05,
      "loss": 0.0076,
      "step": 13371
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.10412430763244629,
      "learning_rate": 1.96049956433343e-05,
      "loss": 0.0147,
      "step": 13372
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.11621807515621185,
      "learning_rate": 1.9583212314841705e-05,
      "loss": 0.0067,
      "step": 13373
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.13759489357471466,
      "learning_rate": 1.9561428986349113e-05,
      "loss": 0.008,
      "step": 13374
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.17015936970710754,
      "learning_rate": 1.953964565785652e-05,
      "loss": 0.0161,
      "step": 13375
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.12444379925727844,
      "learning_rate": 1.9517862329363924e-05,
      "loss": 0.0124,
      "step": 13376
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.26385241746902466,
      "learning_rate": 1.949607900087133e-05,
      "loss": 0.0354,
      "step": 13377
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.08952705562114716,
      "learning_rate": 1.947429567237874e-05,
      "loss": 0.0046,
      "step": 13378
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.6307403445243835,
      "learning_rate": 1.9452512343886144e-05,
      "loss": 0.01,
      "step": 13379
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.08306397497653961,
      "learning_rate": 1.943072901539355e-05,
      "loss": 0.0118,
      "step": 13380
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.1491934061050415,
      "learning_rate": 1.9408945686900955e-05,
      "loss": 0.0197,
      "step": 13381
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.1106056198477745,
      "learning_rate": 1.9387162358408364e-05,
      "loss": 0.0161,
      "step": 13382
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.09484916180372238,
      "learning_rate": 1.936537902991577e-05,
      "loss": 0.0084,
      "step": 13383
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.11663955450057983,
      "learning_rate": 1.9343595701423174e-05,
      "loss": 0.0088,
      "step": 13384
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.20025113224983215,
      "learning_rate": 1.9321812372930583e-05,
      "loss": 0.0481,
      "step": 13385
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.10893875360488892,
      "learning_rate": 1.930002904443799e-05,
      "loss": 0.0166,
      "step": 13386
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.15644334256649017,
      "learning_rate": 1.9278245715945397e-05,
      "loss": 0.0206,
      "step": 13387
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.15427803993225098,
      "learning_rate": 1.92564623874528e-05,
      "loss": 0.0248,
      "step": 13388
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.138568714261055,
      "learning_rate": 1.9234679058960208e-05,
      "loss": 0.0131,
      "step": 13389
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.043616101145744324,
      "learning_rate": 1.9212895730467614e-05,
      "loss": 0.0059,
      "step": 13390
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.3023148477077484,
      "learning_rate": 1.9191112401975023e-05,
      "loss": 0.0318,
      "step": 13391
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.2912491261959076,
      "learning_rate": 1.9169329073482425e-05,
      "loss": 0.0157,
      "step": 13392
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.15061840415000916,
      "learning_rate": 1.9147545744989833e-05,
      "loss": 0.0173,
      "step": 13393
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.20037172734737396,
      "learning_rate": 1.912576241649724e-05,
      "loss": 0.0182,
      "step": 13394
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.17224833369255066,
      "learning_rate": 1.9103979088004648e-05,
      "loss": 0.0323,
      "step": 13395
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.08844081312417984,
      "learning_rate": 1.908219575951205e-05,
      "loss": 0.0163,
      "step": 13396
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.05916251987218857,
      "learning_rate": 1.906041243101946e-05,
      "loss": 0.0059,
      "step": 13397
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.19274520874023438,
      "learning_rate": 1.9038629102526864e-05,
      "loss": 0.0076,
      "step": 13398
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.1882852166891098,
      "learning_rate": 1.9016845774034273e-05,
      "loss": 0.0177,
      "step": 13399
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.15668854117393494,
      "learning_rate": 1.8995062445541675e-05,
      "loss": 0.0256,
      "step": 13400
    },
    {
      "epoch": 3.76,
      "eval_loss": 0.06207454577088356,
      "eval_runtime": 176.3453,
      "eval_samples_per_second": 14.982,
      "eval_steps_per_second": 0.471,
      "eval_wer": 0.04633082110273701,
      "step": 13400
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.15346695482730865,
      "learning_rate": 1.8973279117049083e-05,
      "loss": 0.0149,
      "step": 13401
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.19081398844718933,
      "learning_rate": 1.895149578855649e-05,
      "loss": 0.0165,
      "step": 13402
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.17955416440963745,
      "learning_rate": 1.8929712460063898e-05,
      "loss": 0.0151,
      "step": 13403
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.09965501725673676,
      "learning_rate": 1.89079291315713e-05,
      "loss": 0.003,
      "step": 13404
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.10568004846572876,
      "learning_rate": 1.888614580307871e-05,
      "loss": 0.0227,
      "step": 13405
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.13262753188610077,
      "learning_rate": 1.8864362474586117e-05,
      "loss": 0.0129,
      "step": 13406
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.048114147037267685,
      "learning_rate": 1.8842579146093523e-05,
      "loss": 0.0085,
      "step": 13407
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.15554119646549225,
      "learning_rate": 1.8820795817600928e-05,
      "loss": 0.0286,
      "step": 13408
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.22976136207580566,
      "learning_rate": 1.8799012489108334e-05,
      "loss": 0.028,
      "step": 13409
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.04114091396331787,
      "learning_rate": 1.8777229160615742e-05,
      "loss": 0.0022,
      "step": 13410
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.3770059049129486,
      "learning_rate": 1.8755445832123148e-05,
      "loss": 0.0315,
      "step": 13411
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.20689840614795685,
      "learning_rate": 1.8733662503630553e-05,
      "loss": 0.0305,
      "step": 13412
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.07624045014381409,
      "learning_rate": 1.871187917513796e-05,
      "loss": 0.0296,
      "step": 13413
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.13434745371341705,
      "learning_rate": 1.8690095846645364e-05,
      "loss": 0.0182,
      "step": 13414
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.02383781410753727,
      "learning_rate": 1.8668312518152773e-05,
      "loss": 0.0018,
      "step": 13415
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.25197893381118774,
      "learning_rate": 1.864652918966018e-05,
      "loss": 0.0275,
      "step": 13416
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.46494239568710327,
      "learning_rate": 1.8624745861167587e-05,
      "loss": 0.0393,
      "step": 13417
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.11168720573186874,
      "learning_rate": 1.8602962532674993e-05,
      "loss": 0.0126,
      "step": 13418
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.13270652294158936,
      "learning_rate": 1.8581179204182398e-05,
      "loss": 0.016,
      "step": 13419
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.03340595215559006,
      "learning_rate": 1.8559395875689803e-05,
      "loss": 0.0032,
      "step": 13420
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.18634426593780518,
      "learning_rate": 1.8537612547197212e-05,
      "loss": 0.0168,
      "step": 13421
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.12422562390565872,
      "learning_rate": 1.8515829218704618e-05,
      "loss": 0.0111,
      "step": 13422
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.11741220206022263,
      "learning_rate": 1.8494045890212023e-05,
      "loss": 0.0387,
      "step": 13423
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.045290689915418625,
      "learning_rate": 1.847226256171943e-05,
      "loss": 0.004,
      "step": 13424
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.2120959311723709,
      "learning_rate": 1.8450479233226837e-05,
      "loss": 0.0177,
      "step": 13425
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.05532631650567055,
      "learning_rate": 1.8428695904734243e-05,
      "loss": 0.0048,
      "step": 13426
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.04784111678600311,
      "learning_rate": 1.8406912576241648e-05,
      "loss": 0.0075,
      "step": 13427
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.24493657052516937,
      "learning_rate": 1.8385129247749054e-05,
      "loss": 0.0341,
      "step": 13428
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.13009780645370483,
      "learning_rate": 1.8363345919256462e-05,
      "loss": 0.0045,
      "step": 13429
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.18318118155002594,
      "learning_rate": 1.8341562590763868e-05,
      "loss": 0.0321,
      "step": 13430
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.21594023704528809,
      "learning_rate": 1.8319779262271273e-05,
      "loss": 0.0079,
      "step": 13431
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.13353948295116425,
      "learning_rate": 1.829799593377868e-05,
      "loss": 0.0139,
      "step": 13432
    },
    {
      "epoch": 3.76,
      "grad_norm": 0.10554257035255432,
      "learning_rate": 1.8276212605286084e-05,
      "loss": 0.0069,
      "step": 13433
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.2380053699016571,
      "learning_rate": 1.8254429276793493e-05,
      "loss": 0.0393,
      "step": 13434
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.11268864572048187,
      "learning_rate": 1.8232645948300898e-05,
      "loss": 0.0068,
      "step": 13435
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.19862034916877747,
      "learning_rate": 1.8210862619808304e-05,
      "loss": 0.0143,
      "step": 13436
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.066681407392025,
      "learning_rate": 1.818907929131571e-05,
      "loss": 0.0035,
      "step": 13437
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.1864686906337738,
      "learning_rate": 1.8167295962823118e-05,
      "loss": 0.0238,
      "step": 13438
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.07070636749267578,
      "learning_rate": 1.8145512634330523e-05,
      "loss": 0.0074,
      "step": 13439
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.09473425149917603,
      "learning_rate": 1.8123729305837932e-05,
      "loss": 0.0098,
      "step": 13440
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.2511126399040222,
      "learning_rate": 1.8101945977345338e-05,
      "loss": 0.011,
      "step": 13441
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.2574392855167389,
      "learning_rate": 1.8080162648852743e-05,
      "loss": 0.0462,
      "step": 13442
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.09920548647642136,
      "learning_rate": 1.8058379320360152e-05,
      "loss": 0.0147,
      "step": 13443
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.12178726494312286,
      "learning_rate": 1.8036595991867557e-05,
      "loss": 0.0172,
      "step": 13444
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.14567992091178894,
      "learning_rate": 1.8014812663374963e-05,
      "loss": 0.0146,
      "step": 13445
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.1173984706401825,
      "learning_rate": 1.7993029334882368e-05,
      "loss": 0.0122,
      "step": 13446
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.2715674638748169,
      "learning_rate": 1.7971246006389773e-05,
      "loss": 0.0184,
      "step": 13447
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.2903055250644684,
      "learning_rate": 1.7949462677897182e-05,
      "loss": 0.0232,
      "step": 13448
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.12955781817436218,
      "learning_rate": 1.7927679349404588e-05,
      "loss": 0.0071,
      "step": 13449
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.16312691569328308,
      "learning_rate": 1.7905896020911993e-05,
      "loss": 0.0055,
      "step": 13450
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.11711742728948593,
      "learning_rate": 1.78841126924194e-05,
      "loss": 0.0094,
      "step": 13451
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.06279238313436508,
      "learning_rate": 1.7862329363926807e-05,
      "loss": 0.0027,
      "step": 13452
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.23805464804172516,
      "learning_rate": 1.7840546035434213e-05,
      "loss": 0.0305,
      "step": 13453
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.08097512274980545,
      "learning_rate": 1.7818762706941618e-05,
      "loss": 0.0069,
      "step": 13454
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.21296730637550354,
      "learning_rate": 1.7796979378449024e-05,
      "loss": 0.032,
      "step": 13455
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.09852579236030579,
      "learning_rate": 1.7775196049956432e-05,
      "loss": 0.0071,
      "step": 13456
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.04276853799819946,
      "learning_rate": 1.7753412721463838e-05,
      "loss": 0.0026,
      "step": 13457
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.08620864897966385,
      "learning_rate": 1.7731629392971243e-05,
      "loss": 0.0102,
      "step": 13458
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.15429340302944183,
      "learning_rate": 1.770984606447865e-05,
      "loss": 0.0157,
      "step": 13459
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.12615780532360077,
      "learning_rate": 1.7688062735986057e-05,
      "loss": 0.0197,
      "step": 13460
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.12993957102298737,
      "learning_rate": 1.7666279407493463e-05,
      "loss": 0.0107,
      "step": 13461
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.2643260657787323,
      "learning_rate": 1.764449607900087e-05,
      "loss": 0.0343,
      "step": 13462
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.15781265497207642,
      "learning_rate": 1.7622712750508277e-05,
      "loss": 0.0382,
      "step": 13463
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.03200289234519005,
      "learning_rate": 1.7600929422015683e-05,
      "loss": 0.0026,
      "step": 13464
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.18064753711223602,
      "learning_rate": 1.7579146093523088e-05,
      "loss": 0.0245,
      "step": 13465
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.6227974891662598,
      "learning_rate": 1.7557362765030497e-05,
      "loss": 0.0567,
      "step": 13466
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.5331442952156067,
      "learning_rate": 1.7535579436537902e-05,
      "loss": 0.0657,
      "step": 13467
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.3013346195220947,
      "learning_rate": 1.7513796108045308e-05,
      "loss": 0.0235,
      "step": 13468
    },
    {
      "epoch": 3.77,
      "grad_norm": 0.2474115788936615,
      "learning_rate": 1.7492012779552713e-05,
      "loss": 0.0517,
      "step": 13469
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.14276807010173798,
      "learning_rate": 1.7470229451060122e-05,
      "loss": 0.009,
      "step": 13470
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.06743690371513367,
      "learning_rate": 1.7448446122567527e-05,
      "loss": 0.0127,
      "step": 13471
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.13083651661872864,
      "learning_rate": 1.7426662794074933e-05,
      "loss": 0.0184,
      "step": 13472
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.08787857741117477,
      "learning_rate": 1.7404879465582338e-05,
      "loss": 0.0072,
      "step": 13473
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.08642562478780746,
      "learning_rate": 1.7383096137089747e-05,
      "loss": 0.0043,
      "step": 13474
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.17944486439228058,
      "learning_rate": 1.7361312808597152e-05,
      "loss": 0.0146,
      "step": 13475
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.06813372671604156,
      "learning_rate": 1.7339529480104558e-05,
      "loss": 0.0074,
      "step": 13476
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.043449223041534424,
      "learning_rate": 1.7317746151611963e-05,
      "loss": 0.0045,
      "step": 13477
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.33836907148361206,
      "learning_rate": 1.7295962823119372e-05,
      "loss": 0.0132,
      "step": 13478
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.26000329852104187,
      "learning_rate": 1.7274179494626777e-05,
      "loss": 0.019,
      "step": 13479
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.05796332284808159,
      "learning_rate": 1.7252396166134183e-05,
      "loss": 0.0059,
      "step": 13480
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.07678715139627457,
      "learning_rate": 1.7230612837641588e-05,
      "loss": 0.0067,
      "step": 13481
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.20833608508110046,
      "learning_rate": 1.7208829509148997e-05,
      "loss": 0.0326,
      "step": 13482
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.10566838830709457,
      "learning_rate": 1.7187046180656402e-05,
      "loss": 0.0105,
      "step": 13483
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.4399303197860718,
      "learning_rate": 1.716526285216381e-05,
      "loss": 0.0225,
      "step": 13484
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.0670657679438591,
      "learning_rate": 1.7143479523671217e-05,
      "loss": 0.0047,
      "step": 13485
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.1545400768518448,
      "learning_rate": 1.7121696195178622e-05,
      "loss": 0.0155,
      "step": 13486
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.1106712743639946,
      "learning_rate": 1.7099912866686027e-05,
      "loss": 0.0147,
      "step": 13487
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.21208450198173523,
      "learning_rate": 1.7078129538193436e-05,
      "loss": 0.0146,
      "step": 13488
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.014258748851716518,
      "learning_rate": 1.7056346209700842e-05,
      "loss": 0.0011,
      "step": 13489
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.051694490015506744,
      "learning_rate": 1.7034562881208247e-05,
      "loss": 0.0037,
      "step": 13490
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.06372860074043274,
      "learning_rate": 1.7012779552715653e-05,
      "loss": 0.0128,
      "step": 13491
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.06583556532859802,
      "learning_rate": 1.699099622422306e-05,
      "loss": 0.0035,
      "step": 13492
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.15166914463043213,
      "learning_rate": 1.6969212895730467e-05,
      "loss": 0.0208,
      "step": 13493
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.09343472123146057,
      "learning_rate": 1.6947429567237872e-05,
      "loss": 0.0133,
      "step": 13494
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.16636739671230316,
      "learning_rate": 1.6925646238745278e-05,
      "loss": 0.0148,
      "step": 13495
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.12377812713384628,
      "learning_rate": 1.6903862910252686e-05,
      "loss": 0.0193,
      "step": 13496
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.0636996179819107,
      "learning_rate": 1.6882079581760092e-05,
      "loss": 0.0043,
      "step": 13497
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.27912992238998413,
      "learning_rate": 1.6860296253267497e-05,
      "loss": 0.0233,
      "step": 13498
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.10730061680078506,
      "learning_rate": 1.6838512924774903e-05,
      "loss": 0.0216,
      "step": 13499
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.03838127478957176,
      "learning_rate": 1.681672959628231e-05,
      "loss": 0.0024,
      "step": 13500
    },
    {
      "epoch": 3.78,
      "eval_loss": 0.061230868101119995,
      "eval_runtime": 177.427,
      "eval_samples_per_second": 14.891,
      "eval_steps_per_second": 0.468,
      "eval_wer": 0.04625148750495835,
      "step": 13500
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.1072888970375061,
      "learning_rate": 1.6794946267789717e-05,
      "loss": 0.0055,
      "step": 13501
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.14030498266220093,
      "learning_rate": 1.6773162939297122e-05,
      "loss": 0.0169,
      "step": 13502
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.26301106810569763,
      "learning_rate": 1.6751379610804528e-05,
      "loss": 0.0383,
      "step": 13503
    },
    {
      "epoch": 3.78,
      "grad_norm": 0.04703140631318092,
      "learning_rate": 1.6729596282311937e-05,
      "loss": 0.0027,
      "step": 13504
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.14509758353233337,
      "learning_rate": 1.6707812953819342e-05,
      "loss": 0.0237,
      "step": 13505
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.21179118752479553,
      "learning_rate": 1.668602962532675e-05,
      "loss": 0.0258,
      "step": 13506
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.11200529336929321,
      "learning_rate": 1.6664246296834156e-05,
      "loss": 0.0079,
      "step": 13507
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.12430888414382935,
      "learning_rate": 1.664246296834156e-05,
      "loss": 0.0104,
      "step": 13508
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.13196170330047607,
      "learning_rate": 1.6620679639848967e-05,
      "loss": 0.0267,
      "step": 13509
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.20710402727127075,
      "learning_rate": 1.6598896311356376e-05,
      "loss": 0.0245,
      "step": 13510
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.046819496899843216,
      "learning_rate": 1.657711298286378e-05,
      "loss": 0.0071,
      "step": 13511
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.08119463920593262,
      "learning_rate": 1.6555329654371187e-05,
      "loss": 0.0081,
      "step": 13512
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.2178054004907608,
      "learning_rate": 1.6533546325878592e-05,
      "loss": 0.04,
      "step": 13513
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.05415523424744606,
      "learning_rate": 1.6511762997386e-05,
      "loss": 0.0036,
      "step": 13514
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.29744139313697815,
      "learning_rate": 1.6489979668893406e-05,
      "loss": 0.0232,
      "step": 13515
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.4469190537929535,
      "learning_rate": 1.6468196340400812e-05,
      "loss": 0.0278,
      "step": 13516
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.28094425797462463,
      "learning_rate": 1.6446413011908217e-05,
      "loss": 0.0309,
      "step": 13517
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.09875962883234024,
      "learning_rate": 1.6424629683415626e-05,
      "loss": 0.0219,
      "step": 13518
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.1228141337633133,
      "learning_rate": 1.640284635492303e-05,
      "loss": 0.0129,
      "step": 13519
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.1937057077884674,
      "learning_rate": 1.6381063026430437e-05,
      "loss": 0.0253,
      "step": 13520
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.14989429712295532,
      "learning_rate": 1.6359279697937842e-05,
      "loss": 0.021,
      "step": 13521
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.22876065969467163,
      "learning_rate": 1.6337496369445248e-05,
      "loss": 0.0349,
      "step": 13522
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.14109300076961517,
      "learning_rate": 1.6315713040952656e-05,
      "loss": 0.0151,
      "step": 13523
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.22031034529209137,
      "learning_rate": 1.6293929712460062e-05,
      "loss": 0.0211,
      "step": 13524
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.26627641916275024,
      "learning_rate": 1.6272146383967467e-05,
      "loss": 0.0482,
      "step": 13525
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.15121813118457794,
      "learning_rate": 1.6250363055474873e-05,
      "loss": 0.0072,
      "step": 13526
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.21174615621566772,
      "learning_rate": 1.622857972698228e-05,
      "loss": 0.0324,
      "step": 13527
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.03253418952226639,
      "learning_rate": 1.620679639848969e-05,
      "loss": 0.0016,
      "step": 13528
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.4632229506969452,
      "learning_rate": 1.6185013069997096e-05,
      "loss": 0.0284,
      "step": 13529
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.12438634037971497,
      "learning_rate": 1.61632297415045e-05,
      "loss": 0.0256,
      "step": 13530
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.3127211630344391,
      "learning_rate": 1.6141446413011907e-05,
      "loss": 0.0691,
      "step": 13531
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.13660618662834167,
      "learning_rate": 1.6119663084519315e-05,
      "loss": 0.0207,
      "step": 13532
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.4204193651676178,
      "learning_rate": 1.609787975602672e-05,
      "loss": 0.0265,
      "step": 13533
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.1483520269393921,
      "learning_rate": 1.6076096427534126e-05,
      "loss": 0.0122,
      "step": 13534
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.38033464550971985,
      "learning_rate": 1.605431309904153e-05,
      "loss": 0.0234,
      "step": 13535
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.23924246430397034,
      "learning_rate": 1.6032529770548937e-05,
      "loss": 0.0155,
      "step": 13536
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.12753888964653015,
      "learning_rate": 1.6010746442056346e-05,
      "loss": 0.0121,
      "step": 13537
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.1928560733795166,
      "learning_rate": 1.598896311356375e-05,
      "loss": 0.0147,
      "step": 13538
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.16914881765842438,
      "learning_rate": 1.5967179785071157e-05,
      "loss": 0.008,
      "step": 13539
    },
    {
      "epoch": 3.79,
      "grad_norm": 0.08775106072425842,
      "learning_rate": 1.5945396456578562e-05,
      "loss": 0.0062,
      "step": 13540
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.09431452304124832,
      "learning_rate": 1.592361312808597e-05,
      "loss": 0.0032,
      "step": 13541
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.2961828112602234,
      "learning_rate": 1.5901829799593376e-05,
      "loss": 0.0418,
      "step": 13542
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.2049897015094757,
      "learning_rate": 1.5880046471100782e-05,
      "loss": 0.0207,
      "step": 13543
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.10121669620275497,
      "learning_rate": 1.5858263142608187e-05,
      "loss": 0.0066,
      "step": 13544
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.142750084400177,
      "learning_rate": 1.5836479814115596e-05,
      "loss": 0.0197,
      "step": 13545
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.11959666013717651,
      "learning_rate": 1.5814696485623e-05,
      "loss": 0.0138,
      "step": 13546
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.10164876282215118,
      "learning_rate": 1.5792913157130407e-05,
      "loss": 0.0201,
      "step": 13547
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.06428948789834976,
      "learning_rate": 1.5771129828637812e-05,
      "loss": 0.0066,
      "step": 13548
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.19350135326385498,
      "learning_rate": 1.574934650014522e-05,
      "loss": 0.0487,
      "step": 13549
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.13941185176372528,
      "learning_rate": 1.5727563171652627e-05,
      "loss": 0.0041,
      "step": 13550
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.11005716770887375,
      "learning_rate": 1.5705779843160035e-05,
      "loss": 0.0084,
      "step": 13551
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.10913723707199097,
      "learning_rate": 1.568399651466744e-05,
      "loss": 0.0125,
      "step": 13552
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.13502375781536102,
      "learning_rate": 1.5662213186174846e-05,
      "loss": 0.0134,
      "step": 13553
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.4478381276130676,
      "learning_rate": 1.564042985768225e-05,
      "loss": 0.0261,
      "step": 13554
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.06716101616621017,
      "learning_rate": 1.561864652918966e-05,
      "loss": 0.0096,
      "step": 13555
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.06344044953584671,
      "learning_rate": 1.5596863200697066e-05,
      "loss": 0.005,
      "step": 13556
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.06382583826780319,
      "learning_rate": 1.557507987220447e-05,
      "loss": 0.0162,
      "step": 13557
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.16125702857971191,
      "learning_rate": 1.5553296543711877e-05,
      "loss": 0.0206,
      "step": 13558
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.101810023188591,
      "learning_rate": 1.5531513215219285e-05,
      "loss": 0.0098,
      "step": 13559
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.05386613681912422,
      "learning_rate": 1.550972988672669e-05,
      "loss": 0.0125,
      "step": 13560
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.08680031448602676,
      "learning_rate": 1.5487946558234096e-05,
      "loss": 0.0039,
      "step": 13561
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.19680045545101166,
      "learning_rate": 1.5466163229741502e-05,
      "loss": 0.0171,
      "step": 13562
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.04657535254955292,
      "learning_rate": 1.544437990124891e-05,
      "loss": 0.0032,
      "step": 13563
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.105612613260746,
      "learning_rate": 1.5422596572756316e-05,
      "loss": 0.0115,
      "step": 13564
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.077425517141819,
      "learning_rate": 1.540081324426372e-05,
      "loss": 0.0188,
      "step": 13565
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.15610253810882568,
      "learning_rate": 1.5379029915771127e-05,
      "loss": 0.018,
      "step": 13566
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.7072893977165222,
      "learning_rate": 1.5357246587278536e-05,
      "loss": 0.0698,
      "step": 13567
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.18970416486263275,
      "learning_rate": 1.533546325878594e-05,
      "loss": 0.0117,
      "step": 13568
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.10615800321102142,
      "learning_rate": 1.5313679930293346e-05,
      "loss": 0.0054,
      "step": 13569
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.12198502570390701,
      "learning_rate": 1.5291896601800752e-05,
      "loss": 0.0117,
      "step": 13570
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.13795866072177887,
      "learning_rate": 1.527011327330816e-05,
      "loss": 0.0105,
      "step": 13571
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.06064462289214134,
      "learning_rate": 1.5248329944815566e-05,
      "loss": 0.005,
      "step": 13572
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.08916927129030228,
      "learning_rate": 1.5226546616322973e-05,
      "loss": 0.0137,
      "step": 13573
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.04940708726644516,
      "learning_rate": 1.520476328783038e-05,
      "loss": 0.0049,
      "step": 13574
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.11016681045293808,
      "learning_rate": 1.5182979959337786e-05,
      "loss": 0.0082,
      "step": 13575
    },
    {
      "epoch": 3.8,
      "grad_norm": 0.08116581290960312,
      "learning_rate": 1.5161196630845193e-05,
      "loss": 0.0175,
      "step": 13576
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.2491547167301178,
      "learning_rate": 1.5139413302352598e-05,
      "loss": 0.0143,
      "step": 13577
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.14865610003471375,
      "learning_rate": 1.5117629973860005e-05,
      "loss": 0.0136,
      "step": 13578
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.719234824180603,
      "learning_rate": 1.509584664536741e-05,
      "loss": 0.0602,
      "step": 13579
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.16443251073360443,
      "learning_rate": 1.5074063316874818e-05,
      "loss": 0.029,
      "step": 13580
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.12449261546134949,
      "learning_rate": 1.5052279988382223e-05,
      "loss": 0.0181,
      "step": 13581
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.14477823674678802,
      "learning_rate": 1.503049665988963e-05,
      "loss": 0.0095,
      "step": 13582
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.18510358035564423,
      "learning_rate": 1.5008713331397036e-05,
      "loss": 0.012,
      "step": 13583
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.1455775499343872,
      "learning_rate": 1.4986930002904443e-05,
      "loss": 0.0242,
      "step": 13584
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.12163475155830383,
      "learning_rate": 1.4965146674411848e-05,
      "loss": 0.0154,
      "step": 13585
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.15563035011291504,
      "learning_rate": 1.4943363345919255e-05,
      "loss": 0.0087,
      "step": 13586
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.12401066720485687,
      "learning_rate": 1.4921580017426661e-05,
      "loss": 0.0112,
      "step": 13587
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.07615245133638382,
      "learning_rate": 1.4899796688934068e-05,
      "loss": 0.004,
      "step": 13588
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.13364018499851227,
      "learning_rate": 1.4878013360441473e-05,
      "loss": 0.0094,
      "step": 13589
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.16048017144203186,
      "learning_rate": 1.485623003194888e-05,
      "loss": 0.0137,
      "step": 13590
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.06639565527439117,
      "learning_rate": 1.4834446703456286e-05,
      "loss": 0.003,
      "step": 13591
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.18560156226158142,
      "learning_rate": 1.4812663374963693e-05,
      "loss": 0.0105,
      "step": 13592
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.1327321082353592,
      "learning_rate": 1.4790880046471099e-05,
      "loss": 0.0176,
      "step": 13593
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.06639838218688965,
      "learning_rate": 1.4769096717978506e-05,
      "loss": 0.0049,
      "step": 13594
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.1881868541240692,
      "learning_rate": 1.4747313389485913e-05,
      "loss": 0.0278,
      "step": 13595
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.18480633199214935,
      "learning_rate": 1.472553006099332e-05,
      "loss": 0.0237,
      "step": 13596
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.04810286685824394,
      "learning_rate": 1.4703746732500725e-05,
      "loss": 0.0036,
      "step": 13597
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.20747125148773193,
      "learning_rate": 1.4681963404008132e-05,
      "loss": 0.0168,
      "step": 13598
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.18393172323703766,
      "learning_rate": 1.4660180075515538e-05,
      "loss": 0.0213,
      "step": 13599
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.12717188894748688,
      "learning_rate": 1.4638396747022945e-05,
      "loss": 0.0107,
      "step": 13600
    },
    {
      "epoch": 3.81,
      "eval_loss": 0.061107344925403595,
      "eval_runtime": 181.0169,
      "eval_samples_per_second": 14.595,
      "eval_steps_per_second": 0.459,
      "eval_wer": 0.04563665212217374,
      "step": 13600
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.15523584187030792,
      "learning_rate": 1.461661341853035e-05,
      "loss": 0.019,
      "step": 13601
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.0416245274245739,
      "learning_rate": 1.4594830090037757e-05,
      "loss": 0.0042,
      "step": 13602
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.13593076169490814,
      "learning_rate": 1.4573046761545163e-05,
      "loss": 0.0079,
      "step": 13603
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.18330219388008118,
      "learning_rate": 1.455126343305257e-05,
      "loss": 0.0216,
      "step": 13604
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.285916805267334,
      "learning_rate": 1.4529480104559975e-05,
      "loss": 0.0322,
      "step": 13605
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.051112812012434006,
      "learning_rate": 1.4507696776067383e-05,
      "loss": 0.0062,
      "step": 13606
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.11336185783147812,
      "learning_rate": 1.4485913447574788e-05,
      "loss": 0.005,
      "step": 13607
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.18535076081752777,
      "learning_rate": 1.4464130119082195e-05,
      "loss": 0.0304,
      "step": 13608
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.12068501114845276,
      "learning_rate": 1.44423467905896e-05,
      "loss": 0.0078,
      "step": 13609
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.11214538663625717,
      "learning_rate": 1.4420563462097008e-05,
      "loss": 0.0174,
      "step": 13610
    },
    {
      "epoch": 3.81,
      "grad_norm": 0.04005821421742439,
      "learning_rate": 1.4398780133604413e-05,
      "loss": 0.0143,
      "step": 13611
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.18912756443023682,
      "learning_rate": 1.4376996805111818e-05,
      "loss": 0.0119,
      "step": 13612
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.09922760725021362,
      "learning_rate": 1.4355213476619226e-05,
      "loss": 0.0108,
      "step": 13613
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.14501020312309265,
      "learning_rate": 1.4333430148126631e-05,
      "loss": 0.01,
      "step": 13614
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.3357606828212738,
      "learning_rate": 1.4311646819634038e-05,
      "loss": 0.0293,
      "step": 13615
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.13890856504440308,
      "learning_rate": 1.4289863491141443e-05,
      "loss": 0.0123,
      "step": 13616
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.14186781644821167,
      "learning_rate": 1.4268080162648852e-05,
      "loss": 0.0137,
      "step": 13617
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.11626545339822769,
      "learning_rate": 1.424629683415626e-05,
      "loss": 0.0083,
      "step": 13618
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.08153873682022095,
      "learning_rate": 1.4224513505663665e-05,
      "loss": 0.0062,
      "step": 13619
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.3823276162147522,
      "learning_rate": 1.4202730177171072e-05,
      "loss": 0.0291,
      "step": 13620
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.18730154633522034,
      "learning_rate": 1.4180946848678477e-05,
      "loss": 0.0204,
      "step": 13621
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.1656952202320099,
      "learning_rate": 1.4159163520185884e-05,
      "loss": 0.0204,
      "step": 13622
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.19774459302425385,
      "learning_rate": 1.413738019169329e-05,
      "loss": 0.0108,
      "step": 13623
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.28193503618240356,
      "learning_rate": 1.4115596863200697e-05,
      "loss": 0.012,
      "step": 13624
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.14121794700622559,
      "learning_rate": 1.4093813534708102e-05,
      "loss": 0.0105,
      "step": 13625
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.12828275561332703,
      "learning_rate": 1.4072030206215508e-05,
      "loss": 0.015,
      "step": 13626
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.18330904841423035,
      "learning_rate": 1.4050246877722915e-05,
      "loss": 0.0213,
      "step": 13627
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.07097799330949783,
      "learning_rate": 1.402846354923032e-05,
      "loss": 0.0026,
      "step": 13628
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.21086011826992035,
      "learning_rate": 1.4006680220737727e-05,
      "loss": 0.053,
      "step": 13629
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.04139731079339981,
      "learning_rate": 1.3984896892245133e-05,
      "loss": 0.0032,
      "step": 13630
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.183503195643425,
      "learning_rate": 1.396311356375254e-05,
      "loss": 0.0253,
      "step": 13631
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.17372353374958038,
      "learning_rate": 1.3941330235259945e-05,
      "loss": 0.0286,
      "step": 13632
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.170095756649971,
      "learning_rate": 1.3919546906767353e-05,
      "loss": 0.0099,
      "step": 13633
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.07100091129541397,
      "learning_rate": 1.3897763578274758e-05,
      "loss": 0.0089,
      "step": 13634
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.22683604061603546,
      "learning_rate": 1.3875980249782165e-05,
      "loss": 0.0265,
      "step": 13635
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.09929680079221725,
      "learning_rate": 1.385419692128957e-05,
      "loss": 0.0153,
      "step": 13636
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.08020934462547302,
      "learning_rate": 1.3832413592796978e-05,
      "loss": 0.0109,
      "step": 13637
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.09818412363529205,
      "learning_rate": 1.3810630264304383e-05,
      "loss": 0.0259,
      "step": 13638
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.08944761753082275,
      "learning_rate": 1.3788846935811792e-05,
      "loss": 0.0044,
      "step": 13639
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.11951220780611038,
      "learning_rate": 1.3767063607319197e-05,
      "loss": 0.0222,
      "step": 13640
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.11052616685628891,
      "learning_rate": 1.3745280278826604e-05,
      "loss": 0.0033,
      "step": 13641
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.3723979592323303,
      "learning_rate": 1.372349695033401e-05,
      "loss": 0.0642,
      "step": 13642
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.07548325508832932,
      "learning_rate": 1.3701713621841417e-05,
      "loss": 0.0065,
      "step": 13643
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.7517094612121582,
      "learning_rate": 1.3679930293348822e-05,
      "loss": 0.0267,
      "step": 13644
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.1545955091714859,
      "learning_rate": 1.365814696485623e-05,
      "loss": 0.0114,
      "step": 13645
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.17012465000152588,
      "learning_rate": 1.3636363636363635e-05,
      "loss": 0.0224,
      "step": 13646
    },
    {
      "epoch": 3.82,
      "grad_norm": 0.17348136007785797,
      "learning_rate": 1.3614580307871042e-05,
      "loss": 0.0235,
      "step": 13647
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.15513844788074493,
      "learning_rate": 1.3592796979378447e-05,
      "loss": 0.0113,
      "step": 13648
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.11619514226913452,
      "learning_rate": 1.3571013650885855e-05,
      "loss": 0.0176,
      "step": 13649
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.18714970350265503,
      "learning_rate": 1.354923032239326e-05,
      "loss": 0.0224,
      "step": 13650
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.1380445957183838,
      "learning_rate": 1.3527446993900667e-05,
      "loss": 0.0093,
      "step": 13651
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.17061831057071686,
      "learning_rate": 1.3505663665408072e-05,
      "loss": 0.0145,
      "step": 13652
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.03652648627758026,
      "learning_rate": 1.348388033691548e-05,
      "loss": 0.0028,
      "step": 13653
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.40180447697639465,
      "learning_rate": 1.3462097008422885e-05,
      "loss": 0.01,
      "step": 13654
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.2049787938594818,
      "learning_rate": 1.3440313679930292e-05,
      "loss": 0.0252,
      "step": 13655
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.0909162312746048,
      "learning_rate": 1.3418530351437698e-05,
      "loss": 0.0056,
      "step": 13656
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.4521496593952179,
      "learning_rate": 1.3396747022945105e-05,
      "loss": 0.0179,
      "step": 13657
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.12611433863639832,
      "learning_rate": 1.337496369445251e-05,
      "loss": 0.0283,
      "step": 13658
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.19349782168865204,
      "learning_rate": 1.3353180365959917e-05,
      "loss": 0.0213,
      "step": 13659
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.1049545407295227,
      "learning_rate": 1.3331397037467323e-05,
      "loss": 0.0057,
      "step": 13660
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.11430265009403229,
      "learning_rate": 1.330961370897473e-05,
      "loss": 0.0102,
      "step": 13661
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.030653446912765503,
      "learning_rate": 1.3287830380482137e-05,
      "loss": 0.0028,
      "step": 13662
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.14215414226055145,
      "learning_rate": 1.3266047051989544e-05,
      "loss": 0.0264,
      "step": 13663
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.1159793958067894,
      "learning_rate": 1.324426372349695e-05,
      "loss": 0.0127,
      "step": 13664
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.16379663348197937,
      "learning_rate": 1.3222480395004356e-05,
      "loss": 0.0056,
      "step": 13665
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.14008481800556183,
      "learning_rate": 1.3200697066511762e-05,
      "loss": 0.0258,
      "step": 13666
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.1163705438375473,
      "learning_rate": 1.3178913738019169e-05,
      "loss": 0.0091,
      "step": 13667
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.16501304507255554,
      "learning_rate": 1.3157130409526574e-05,
      "loss": 0.0158,
      "step": 13668
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.08751833438873291,
      "learning_rate": 1.3135347081033982e-05,
      "loss": 0.0116,
      "step": 13669
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.06457530707120895,
      "learning_rate": 1.3113563752541387e-05,
      "loss": 0.0085,
      "step": 13670
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.20343202352523804,
      "learning_rate": 1.3091780424048794e-05,
      "loss": 0.0282,
      "step": 13671
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.0972810685634613,
      "learning_rate": 1.30699970955562e-05,
      "loss": 0.0165,
      "step": 13672
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.11440925300121307,
      "learning_rate": 1.3048213767063607e-05,
      "loss": 0.0254,
      "step": 13673
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.03896154463291168,
      "learning_rate": 1.3026430438571012e-05,
      "loss": 0.0024,
      "step": 13674
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.22350169718265533,
      "learning_rate": 1.3004647110078419e-05,
      "loss": 0.0162,
      "step": 13675
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.22324423491954803,
      "learning_rate": 1.2982863781585825e-05,
      "loss": 0.0292,
      "step": 13676
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.28371673822402954,
      "learning_rate": 1.2961080453093232e-05,
      "loss": 0.0158,
      "step": 13677
    },
    {
      "epoch": 3.83,
      "grad_norm": 4.5456695556640625,
      "learning_rate": 1.2939297124600637e-05,
      "loss": 0.0453,
      "step": 13678
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.7310751676559448,
      "learning_rate": 1.2917513796108044e-05,
      "loss": 0.0523,
      "step": 13679
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.10856755822896957,
      "learning_rate": 1.289573046761545e-05,
      "loss": 0.0116,
      "step": 13680
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.08928825706243515,
      "learning_rate": 1.2873947139122857e-05,
      "loss": 0.015,
      "step": 13681
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.4559576213359833,
      "learning_rate": 1.2852163810630262e-05,
      "loss": 0.0299,
      "step": 13682
    },
    {
      "epoch": 3.83,
      "grad_norm": 0.15290047228336334,
      "learning_rate": 1.283038048213767e-05,
      "loss": 0.0219,
      "step": 13683
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.06880436837673187,
      "learning_rate": 1.2808597153645076e-05,
      "loss": 0.004,
      "step": 13684
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.10525679588317871,
      "learning_rate": 1.2786813825152483e-05,
      "loss": 0.0058,
      "step": 13685
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.15057222545146942,
      "learning_rate": 1.2765030496659889e-05,
      "loss": 0.0126,
      "step": 13686
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.11747889965772629,
      "learning_rate": 1.2743247168167296e-05,
      "loss": 0.0082,
      "step": 13687
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.1122993752360344,
      "learning_rate": 1.2721463839674701e-05,
      "loss": 0.0105,
      "step": 13688
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.2891482412815094,
      "learning_rate": 1.2699680511182109e-05,
      "loss": 0.0226,
      "step": 13689
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.06730110943317413,
      "learning_rate": 1.2677897182689514e-05,
      "loss": 0.0065,
      "step": 13690
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.13070419430732727,
      "learning_rate": 1.2656113854196921e-05,
      "loss": 0.0066,
      "step": 13691
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.3156503438949585,
      "learning_rate": 1.2634330525704327e-05,
      "loss": 0.0264,
      "step": 13692
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.2329627424478531,
      "learning_rate": 1.2612547197211734e-05,
      "loss": 0.0351,
      "step": 13693
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.1658419519662857,
      "learning_rate": 1.2590763868719139e-05,
      "loss": 0.0293,
      "step": 13694
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.10400773584842682,
      "learning_rate": 1.2568980540226546e-05,
      "loss": 0.0144,
      "step": 13695
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.10741939395666122,
      "learning_rate": 1.2547197211733952e-05,
      "loss": 0.009,
      "step": 13696
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.1595819592475891,
      "learning_rate": 1.2525413883241359e-05,
      "loss": 0.0066,
      "step": 13697
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.19291198253631592,
      "learning_rate": 1.2503630554748764e-05,
      "loss": 0.0191,
      "step": 13698
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.11863502115011215,
      "learning_rate": 1.2481847226256171e-05,
      "loss": 0.0183,
      "step": 13699
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.07383153587579727,
      "learning_rate": 1.2460063897763577e-05,
      "loss": 0.0084,
      "step": 13700
    },
    {
      "epoch": 3.84,
      "eval_loss": 0.06131873279809952,
      "eval_runtime": 184.693,
      "eval_samples_per_second": 14.305,
      "eval_steps_per_second": 0.449,
      "eval_wer": 0.045577151923839744,
      "step": 13700
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.28367069363594055,
      "learning_rate": 1.2438280569270984e-05,
      "loss": 0.0457,
      "step": 13701
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.049000345170497894,
      "learning_rate": 1.241649724077839e-05,
      "loss": 0.0055,
      "step": 13702
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.10129930824041367,
      "learning_rate": 1.2394713912285795e-05,
      "loss": 0.0109,
      "step": 13703
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.6007006168365479,
      "learning_rate": 1.2372930583793202e-05,
      "loss": 0.024,
      "step": 13704
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.2714962065219879,
      "learning_rate": 1.2351147255300607e-05,
      "loss": 0.0338,
      "step": 13705
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.24186183512210846,
      "learning_rate": 1.2329363926808016e-05,
      "loss": 0.008,
      "step": 13706
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.11353214085102081,
      "learning_rate": 1.2307580598315423e-05,
      "loss": 0.0076,
      "step": 13707
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.08455462753772736,
      "learning_rate": 1.2285797269822828e-05,
      "loss": 0.0059,
      "step": 13708
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.05805813893675804,
      "learning_rate": 1.2264013941330236e-05,
      "loss": 0.0037,
      "step": 13709
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.28090617060661316,
      "learning_rate": 1.2242230612837641e-05,
      "loss": 0.0317,
      "step": 13710
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.08482901751995087,
      "learning_rate": 1.2220447284345048e-05,
      "loss": 0.0212,
      "step": 13711
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.17388753592967987,
      "learning_rate": 1.2198663955852454e-05,
      "loss": 0.021,
      "step": 13712
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.12820091843605042,
      "learning_rate": 1.217688062735986e-05,
      "loss": 0.0182,
      "step": 13713
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.0800023227930069,
      "learning_rate": 1.2155097298867266e-05,
      "loss": 0.005,
      "step": 13714
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.12929010391235352,
      "learning_rate": 1.2133313970374673e-05,
      "loss": 0.008,
      "step": 13715
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.7160918116569519,
      "learning_rate": 1.2111530641882079e-05,
      "loss": 0.0502,
      "step": 13716
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.3104251027107239,
      "learning_rate": 1.2089747313389484e-05,
      "loss": 0.0359,
      "step": 13717
    },
    {
      "epoch": 3.84,
      "grad_norm": 0.1821325123310089,
      "learning_rate": 1.2067963984896891e-05,
      "loss": 0.0093,
      "step": 13718
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.12649501860141754,
      "learning_rate": 1.2046180656404297e-05,
      "loss": 0.0051,
      "step": 13719
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.10653243958950043,
      "learning_rate": 1.2024397327911704e-05,
      "loss": 0.0055,
      "step": 13720
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.30647212266921997,
      "learning_rate": 1.2002613999419109e-05,
      "loss": 0.0219,
      "step": 13721
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.2332352250814438,
      "learning_rate": 1.1980830670926516e-05,
      "loss": 0.0181,
      "step": 13722
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.07928507775068283,
      "learning_rate": 1.1959047342433922e-05,
      "loss": 0.0044,
      "step": 13723
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.2653237581253052,
      "learning_rate": 1.1937264013941329e-05,
      "loss": 0.0199,
      "step": 13724
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.1660393476486206,
      "learning_rate": 1.1915480685448734e-05,
      "loss": 0.0299,
      "step": 13725
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.18508857488632202,
      "learning_rate": 1.1893697356956141e-05,
      "loss": 0.015,
      "step": 13726
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.2312612533569336,
      "learning_rate": 1.1871914028463547e-05,
      "loss": 0.014,
      "step": 13727
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.11021363735198975,
      "learning_rate": 1.1850130699970955e-05,
      "loss": 0.011,
      "step": 13728
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.6778854727745056,
      "learning_rate": 1.1828347371478363e-05,
      "loss": 0.0238,
      "step": 13729
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.16631408035755157,
      "learning_rate": 1.1806564042985768e-05,
      "loss": 0.0334,
      "step": 13730
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.12324792891740799,
      "learning_rate": 1.1784780714493173e-05,
      "loss": 0.0162,
      "step": 13731
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.2005702406167984,
      "learning_rate": 1.176299738600058e-05,
      "loss": 0.0263,
      "step": 13732
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.0848216712474823,
      "learning_rate": 1.1741214057507986e-05,
      "loss": 0.0101,
      "step": 13733
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.0503363236784935,
      "learning_rate": 1.1719430729015393e-05,
      "loss": 0.0035,
      "step": 13734
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.1434781849384308,
      "learning_rate": 1.1697647400522799e-05,
      "loss": 0.0334,
      "step": 13735
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.1973261833190918,
      "learning_rate": 1.1675864072030206e-05,
      "loss": 0.0258,
      "step": 13736
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.15051601827144623,
      "learning_rate": 1.1654080743537611e-05,
      "loss": 0.0142,
      "step": 13737
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.19160285592079163,
      "learning_rate": 1.1632297415045018e-05,
      "loss": 0.0163,
      "step": 13738
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.31019943952560425,
      "learning_rate": 1.1610514086552424e-05,
      "loss": 0.0615,
      "step": 13739
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.4015033543109894,
      "learning_rate": 1.158873075805983e-05,
      "loss": 0.0522,
      "step": 13740
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.4001976251602173,
      "learning_rate": 1.1566947429567236e-05,
      "loss": 0.0324,
      "step": 13741
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.2225196212530136,
      "learning_rate": 1.1545164101074643e-05,
      "loss": 0.0147,
      "step": 13742
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.14617136120796204,
      "learning_rate": 1.1523380772582049e-05,
      "loss": 0.0145,
      "step": 13743
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.33706215023994446,
      "learning_rate": 1.1501597444089456e-05,
      "loss": 0.0208,
      "step": 13744
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.10508537292480469,
      "learning_rate": 1.1479814115596861e-05,
      "loss": 0.0117,
      "step": 13745
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.09647026658058167,
      "learning_rate": 1.1458030787104268e-05,
      "loss": 0.0091,
      "step": 13746
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.08766277134418488,
      "learning_rate": 1.1436247458611674e-05,
      "loss": 0.0075,
      "step": 13747
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.1482664793729782,
      "learning_rate": 1.141446413011908e-05,
      "loss": 0.0186,
      "step": 13748
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.20361322164535522,
      "learning_rate": 1.1392680801626486e-05,
      "loss": 0.0188,
      "step": 13749
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.10007958114147186,
      "learning_rate": 1.1370897473133895e-05,
      "loss": 0.0163,
      "step": 13750
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.10049832612276077,
      "learning_rate": 1.13491141446413e-05,
      "loss": 0.0071,
      "step": 13751
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.3024060130119324,
      "learning_rate": 1.1327330816148708e-05,
      "loss": 0.0334,
      "step": 13752
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.22235827147960663,
      "learning_rate": 1.1305547487656113e-05,
      "loss": 0.0498,
      "step": 13753
    },
    {
      "epoch": 3.85,
      "grad_norm": 0.3018854856491089,
      "learning_rate": 1.128376415916352e-05,
      "loss": 0.0197,
      "step": 13754
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.17608313262462616,
      "learning_rate": 1.1261980830670926e-05,
      "loss": 0.0404,
      "step": 13755
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.13928039371967316,
      "learning_rate": 1.1240197502178333e-05,
      "loss": 0.0196,
      "step": 13756
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.12293877452611923,
      "learning_rate": 1.1218414173685738e-05,
      "loss": 0.0104,
      "step": 13757
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.09033232927322388,
      "learning_rate": 1.1196630845193145e-05,
      "loss": 0.0094,
      "step": 13758
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.07391770929098129,
      "learning_rate": 1.117484751670055e-05,
      "loss": 0.0055,
      "step": 13759
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.22212101519107819,
      "learning_rate": 1.1153064188207958e-05,
      "loss": 0.0214,
      "step": 13760
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.09457596391439438,
      "learning_rate": 1.1131280859715363e-05,
      "loss": 0.0095,
      "step": 13761
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.16802318394184113,
      "learning_rate": 1.110949753122277e-05,
      "loss": 0.0257,
      "step": 13762
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.12115795910358429,
      "learning_rate": 1.1087714202730176e-05,
      "loss": 0.0092,
      "step": 13763
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.38157254457473755,
      "learning_rate": 1.1065930874237583e-05,
      "loss": 0.0338,
      "step": 13764
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.392378032207489,
      "learning_rate": 1.1044147545744988e-05,
      "loss": 0.0329,
      "step": 13765
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.11121026426553726,
      "learning_rate": 1.1022364217252395e-05,
      "loss": 0.0062,
      "step": 13766
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.0716107040643692,
      "learning_rate": 1.10005808887598e-05,
      "loss": 0.0138,
      "step": 13767
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.20570018887519836,
      "learning_rate": 1.0978797560267208e-05,
      "loss": 0.022,
      "step": 13768
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.10885084420442581,
      "learning_rate": 1.0957014231774613e-05,
      "loss": 0.0255,
      "step": 13769
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.029619736596941948,
      "learning_rate": 1.093523090328202e-05,
      "loss": 0.0019,
      "step": 13770
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.208544060587883,
      "learning_rate": 1.0913447574789426e-05,
      "loss": 0.0199,
      "step": 13771
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.06876880675554276,
      "learning_rate": 1.0891664246296833e-05,
      "loss": 0.0047,
      "step": 13772
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.3083082437515259,
      "learning_rate": 1.086988091780424e-05,
      "loss": 0.0529,
      "step": 13773
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.05539828538894653,
      "learning_rate": 1.0848097589311647e-05,
      "loss": 0.0024,
      "step": 13774
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.13704894483089447,
      "learning_rate": 1.0826314260819053e-05,
      "loss": 0.0156,
      "step": 13775
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.15691888332366943,
      "learning_rate": 1.080453093232646e-05,
      "loss": 0.0129,
      "step": 13776
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.06344098597764969,
      "learning_rate": 1.0782747603833865e-05,
      "loss": 0.0042,
      "step": 13777
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.09963568300008774,
      "learning_rate": 1.0760964275341272e-05,
      "loss": 0.0063,
      "step": 13778
    },
    {
      "epoch": 3.86,
      "grad_norm": 1.071420669555664,
      "learning_rate": 1.0739180946848678e-05,
      "loss": 0.0896,
      "step": 13779
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.22052425146102905,
      "learning_rate": 1.0717397618356085e-05,
      "loss": 0.0409,
      "step": 13780
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.07679200917482376,
      "learning_rate": 1.069561428986349e-05,
      "loss": 0.0064,
      "step": 13781
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.06686083972454071,
      "learning_rate": 1.0673830961370897e-05,
      "loss": 0.0042,
      "step": 13782
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.13981623947620392,
      "learning_rate": 1.0652047632878303e-05,
      "loss": 0.0123,
      "step": 13783
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.10364121943712234,
      "learning_rate": 1.063026430438571e-05,
      "loss": 0.0159,
      "step": 13784
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.11136157065629959,
      "learning_rate": 1.0608480975893115e-05,
      "loss": 0.0163,
      "step": 13785
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.15737217664718628,
      "learning_rate": 1.0586697647400522e-05,
      "loss": 0.0187,
      "step": 13786
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.16889312863349915,
      "learning_rate": 1.0564914318907928e-05,
      "loss": 0.0213,
      "step": 13787
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.18041397631168365,
      "learning_rate": 1.0543130990415335e-05,
      "loss": 0.0125,
      "step": 13788
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.05675250664353371,
      "learning_rate": 1.052134766192274e-05,
      "loss": 0.0046,
      "step": 13789
    },
    {
      "epoch": 3.86,
      "grad_norm": 0.0922284871339798,
      "learning_rate": 1.0499564333430147e-05,
      "loss": 0.0233,
      "step": 13790
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.3037406802177429,
      "learning_rate": 1.0477781004937553e-05,
      "loss": 0.0315,
      "step": 13791
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.06842746585607529,
      "learning_rate": 1.0455997676444958e-05,
      "loss": 0.0075,
      "step": 13792
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.09724721312522888,
      "learning_rate": 1.0434214347952365e-05,
      "loss": 0.0185,
      "step": 13793
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.12197687476873398,
      "learning_rate": 1.041243101945977e-05,
      "loss": 0.0137,
      "step": 13794
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.20282873511314392,
      "learning_rate": 1.039064769096718e-05,
      "loss": 0.0468,
      "step": 13795
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.19501812756061554,
      "learning_rate": 1.0368864362474587e-05,
      "loss": 0.0302,
      "step": 13796
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.13442489504814148,
      "learning_rate": 1.0347081033981992e-05,
      "loss": 0.0114,
      "step": 13797
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.05809862166643143,
      "learning_rate": 1.03252977054894e-05,
      "loss": 0.0041,
      "step": 13798
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.13320648670196533,
      "learning_rate": 1.0303514376996805e-05,
      "loss": 0.0133,
      "step": 13799
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.05373328924179077,
      "learning_rate": 1.0281731048504212e-05,
      "loss": 0.0039,
      "step": 13800
    },
    {
      "epoch": 3.87,
      "eval_loss": 0.06137979030609131,
      "eval_runtime": 186.1934,
      "eval_samples_per_second": 14.19,
      "eval_steps_per_second": 0.446,
      "eval_wer": 0.04629115430384768,
      "step": 13800
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.07002411037683487,
      "learning_rate": 1.0259947720011617e-05,
      "loss": 0.006,
      "step": 13801
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.1887025684118271,
      "learning_rate": 1.0238164391519024e-05,
      "loss": 0.0442,
      "step": 13802
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.1761132925748825,
      "learning_rate": 1.021638106302643e-05,
      "loss": 0.0366,
      "step": 13803
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.07025167346000671,
      "learning_rate": 1.0194597734533837e-05,
      "loss": 0.0036,
      "step": 13804
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.13023950159549713,
      "learning_rate": 1.0172814406041242e-05,
      "loss": 0.018,
      "step": 13805
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.10786739736795425,
      "learning_rate": 1.0151031077548648e-05,
      "loss": 0.0096,
      "step": 13806
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.16283871233463287,
      "learning_rate": 1.0129247749056055e-05,
      "loss": 0.0094,
      "step": 13807
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.3494700491428375,
      "learning_rate": 1.010746442056346e-05,
      "loss": 0.0179,
      "step": 13808
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.08607786893844604,
      "learning_rate": 1.0085681092070867e-05,
      "loss": 0.0099,
      "step": 13809
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.19811291992664337,
      "learning_rate": 1.0063897763578273e-05,
      "loss": 0.0388,
      "step": 13810
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.1123088076710701,
      "learning_rate": 1.004211443508568e-05,
      "loss": 0.0088,
      "step": 13811
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.11516623944044113,
      "learning_rate": 1.0020331106593085e-05,
      "loss": 0.0083,
      "step": 13812
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.08624173700809479,
      "learning_rate": 9.998547778100492e-06,
      "loss": 0.006,
      "step": 13813
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.18478210270404816,
      "learning_rate": 9.976764449607898e-06,
      "loss": 0.0155,
      "step": 13814
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.11844334006309509,
      "learning_rate": 9.954981121115305e-06,
      "loss": 0.0054,
      "step": 13815
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.37858787178993225,
      "learning_rate": 9.93319779262271e-06,
      "loss": 0.0152,
      "step": 13816
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.2046169936656952,
      "learning_rate": 9.911414464130119e-06,
      "loss": 0.0274,
      "step": 13817
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.0593622587621212,
      "learning_rate": 9.889631135637526e-06,
      "loss": 0.0049,
      "step": 13818
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.1567547470331192,
      "learning_rate": 9.867847807144932e-06,
      "loss": 0.0184,
      "step": 13819
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.18579645454883575,
      "learning_rate": 9.846064478652339e-06,
      "loss": 0.0119,
      "step": 13820
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.10643266141414642,
      "learning_rate": 9.824281150159744e-06,
      "loss": 0.0208,
      "step": 13821
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.09682469069957733,
      "learning_rate": 9.80249782166715e-06,
      "loss": 0.0198,
      "step": 13822
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.4509846568107605,
      "learning_rate": 9.780714493174557e-06,
      "loss": 0.0174,
      "step": 13823
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.21088743209838867,
      "learning_rate": 9.758931164681962e-06,
      "loss": 0.0272,
      "step": 13824
    },
    {
      "epoch": 3.87,
      "grad_norm": 0.2030525952577591,
      "learning_rate": 9.73714783618937e-06,
      "loss": 0.0209,
      "step": 13825
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.15860594809055328,
      "learning_rate": 9.715364507696775e-06,
      "loss": 0.0472,
      "step": 13826
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.22911687195301056,
      "learning_rate": 9.693581179204182e-06,
      "loss": 0.0338,
      "step": 13827
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.6464274525642395,
      "learning_rate": 9.671797850711587e-06,
      "loss": 0.1288,
      "step": 13828
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.19324325025081635,
      "learning_rate": 9.650014522218994e-06,
      "loss": 0.0079,
      "step": 13829
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.03037206083536148,
      "learning_rate": 9.6282311937264e-06,
      "loss": 0.0025,
      "step": 13830
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.06549018621444702,
      "learning_rate": 9.606447865233807e-06,
      "loss": 0.0203,
      "step": 13831
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.14913026988506317,
      "learning_rate": 9.584664536741212e-06,
      "loss": 0.0234,
      "step": 13832
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.14313186705112457,
      "learning_rate": 9.56288120824862e-06,
      "loss": 0.0087,
      "step": 13833
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.08484034985303879,
      "learning_rate": 9.541097879756025e-06,
      "loss": 0.0117,
      "step": 13834
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.2960580885410309,
      "learning_rate": 9.519314551263432e-06,
      "loss": 0.0428,
      "step": 13835
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.10370632261037827,
      "learning_rate": 9.497531222770837e-06,
      "loss": 0.0076,
      "step": 13836
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.19109627604484558,
      "learning_rate": 9.475747894278244e-06,
      "loss": 0.0098,
      "step": 13837
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.0915883481502533,
      "learning_rate": 9.45396456578565e-06,
      "loss": 0.0091,
      "step": 13838
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.10903273522853851,
      "learning_rate": 9.432181237293059e-06,
      "loss": 0.0078,
      "step": 13839
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.17291273176670074,
      "learning_rate": 9.410397908800464e-06,
      "loss": 0.0238,
      "step": 13840
    },
    {
      "epoch": 3.88,
      "grad_norm": 1.1074389219284058,
      "learning_rate": 9.388614580307871e-06,
      "loss": 0.0668,
      "step": 13841
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.49667686223983765,
      "learning_rate": 9.366831251815277e-06,
      "loss": 0.0796,
      "step": 13842
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.10447406768798828,
      "learning_rate": 9.345047923322682e-06,
      "loss": 0.021,
      "step": 13843
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.200310617685318,
      "learning_rate": 9.32326459483009e-06,
      "loss": 0.0144,
      "step": 13844
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.1497201770544052,
      "learning_rate": 9.301481266337496e-06,
      "loss": 0.0156,
      "step": 13845
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.14573530852794647,
      "learning_rate": 9.279697937844902e-06,
      "loss": 0.0265,
      "step": 13846
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.11895640939474106,
      "learning_rate": 9.257914609352309e-06,
      "loss": 0.0098,
      "step": 13847
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.06026927009224892,
      "learning_rate": 9.236131280859714e-06,
      "loss": 0.0031,
      "step": 13848
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.1420259177684784,
      "learning_rate": 9.214347952367121e-06,
      "loss": 0.0084,
      "step": 13849
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.19036413729190826,
      "learning_rate": 9.192564623874527e-06,
      "loss": 0.0074,
      "step": 13850
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.3406831622123718,
      "learning_rate": 9.170781295381934e-06,
      "loss": 0.0071,
      "step": 13851
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.23450720310211182,
      "learning_rate": 9.14899796688934e-06,
      "loss": 0.0245,
      "step": 13852
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.14109297096729279,
      "learning_rate": 9.127214638396746e-06,
      "loss": 0.032,
      "step": 13853
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.018412144854664803,
      "learning_rate": 9.105431309904152e-06,
      "loss": 0.001,
      "step": 13854
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.06124487519264221,
      "learning_rate": 9.083647981411559e-06,
      "loss": 0.0047,
      "step": 13855
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.04322032630443573,
      "learning_rate": 9.061864652918966e-06,
      "loss": 0.0035,
      "step": 13856
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.13943569362163544,
      "learning_rate": 9.040081324426371e-06,
      "loss": 0.0121,
      "step": 13857
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.17831990122795105,
      "learning_rate": 9.018297995933779e-06,
      "loss": 0.0267,
      "step": 13858
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.07112465798854828,
      "learning_rate": 8.996514667441184e-06,
      "loss": 0.0097,
      "step": 13859
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.11138433963060379,
      "learning_rate": 8.974731338948591e-06,
      "loss": 0.0115,
      "step": 13860
    },
    {
      "epoch": 3.88,
      "grad_norm": 0.22440087795257568,
      "learning_rate": 8.952948010455997e-06,
      "loss": 0.028,
      "step": 13861
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.0882311537861824,
      "learning_rate": 8.931164681963404e-06,
      "loss": 0.0063,
      "step": 13862
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.13454583287239075,
      "learning_rate": 8.909381353470809e-06,
      "loss": 0.0191,
      "step": 13863
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.048548873513936996,
      "learning_rate": 8.887598024978216e-06,
      "loss": 0.0026,
      "step": 13864
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.0792195051908493,
      "learning_rate": 8.865814696485622e-06,
      "loss": 0.0042,
      "step": 13865
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.7428046464920044,
      "learning_rate": 8.844031367993029e-06,
      "loss": 0.0393,
      "step": 13866
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.702640175819397,
      "learning_rate": 8.822248039500436e-06,
      "loss": 0.1032,
      "step": 13867
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.04093034192919731,
      "learning_rate": 8.800464711007841e-06,
      "loss": 0.0025,
      "step": 13868
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.056772731244564056,
      "learning_rate": 8.778681382515248e-06,
      "loss": 0.0032,
      "step": 13869
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.08557592332363129,
      "learning_rate": 8.756898054022654e-06,
      "loss": 0.0092,
      "step": 13870
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.11667545884847641,
      "learning_rate": 8.735114725530061e-06,
      "loss": 0.0168,
      "step": 13871
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.14891712367534637,
      "learning_rate": 8.713331397037466e-06,
      "loss": 0.0099,
      "step": 13872
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.38171324133872986,
      "learning_rate": 8.691548068544873e-06,
      "loss": 0.0275,
      "step": 13873
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.2424106001853943,
      "learning_rate": 8.669764740052279e-06,
      "loss": 0.0203,
      "step": 13874
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.24533288180828094,
      "learning_rate": 8.647981411559686e-06,
      "loss": 0.0227,
      "step": 13875
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.09984803199768066,
      "learning_rate": 8.626198083067091e-06,
      "loss": 0.0057,
      "step": 13876
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.23580573499202728,
      "learning_rate": 8.604414754574499e-06,
      "loss": 0.0132,
      "step": 13877
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.3543579578399658,
      "learning_rate": 8.582631426081906e-06,
      "loss": 0.0162,
      "step": 13878
    },
    {
      "epoch": 3.89,
      "grad_norm": 1.365769863128662,
      "learning_rate": 8.560848097589311e-06,
      "loss": 0.1053,
      "step": 13879
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.20330305397510529,
      "learning_rate": 8.539064769096718e-06,
      "loss": 0.0233,
      "step": 13880
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.2448088377714157,
      "learning_rate": 8.517281440604124e-06,
      "loss": 0.0481,
      "step": 13881
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.12126976251602173,
      "learning_rate": 8.49549811211153e-06,
      "loss": 0.0197,
      "step": 13882
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.10441970080137253,
      "learning_rate": 8.473714783618936e-06,
      "loss": 0.0064,
      "step": 13883
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.0874549075961113,
      "learning_rate": 8.451931455126343e-06,
      "loss": 0.0231,
      "step": 13884
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.0407872274518013,
      "learning_rate": 8.430148126633749e-06,
      "loss": 0.003,
      "step": 13885
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.05251261591911316,
      "learning_rate": 8.408364798141156e-06,
      "loss": 0.0052,
      "step": 13886
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.14289036393165588,
      "learning_rate": 8.386581469648561e-06,
      "loss": 0.0088,
      "step": 13887
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.21726281940937042,
      "learning_rate": 8.364798141155968e-06,
      "loss": 0.014,
      "step": 13888
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.07173416018486023,
      "learning_rate": 8.343014812663375e-06,
      "loss": 0.0061,
      "step": 13889
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.5136677026748657,
      "learning_rate": 8.32123148417078e-06,
      "loss": 0.0135,
      "step": 13890
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.34480464458465576,
      "learning_rate": 8.299448155678188e-06,
      "loss": 0.0134,
      "step": 13891
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.522335410118103,
      "learning_rate": 8.277664827185593e-06,
      "loss": 0.0943,
      "step": 13892
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.14858117699623108,
      "learning_rate": 8.255881498693e-06,
      "loss": 0.016,
      "step": 13893
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.1151236742734909,
      "learning_rate": 8.234098170200406e-06,
      "loss": 0.0312,
      "step": 13894
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.2136545330286026,
      "learning_rate": 8.212314841707813e-06,
      "loss": 0.0319,
      "step": 13895
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.1641368865966797,
      "learning_rate": 8.190531513215218e-06,
      "loss": 0.0088,
      "step": 13896
    },
    {
      "epoch": 3.89,
      "grad_norm": 0.07325027883052826,
      "learning_rate": 8.168748184722624e-06,
      "loss": 0.004,
      "step": 13897
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.05574076250195503,
      "learning_rate": 8.146964856230031e-06,
      "loss": 0.0053,
      "step": 13898
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.18947018682956696,
      "learning_rate": 8.125181527737436e-06,
      "loss": 0.0211,
      "step": 13899
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.051311004906892776,
      "learning_rate": 8.103398199244845e-06,
      "loss": 0.0032,
      "step": 13900
    },
    {
      "epoch": 3.9,
      "eval_loss": 0.061136770993471146,
      "eval_runtime": 185.1186,
      "eval_samples_per_second": 14.272,
      "eval_steps_per_second": 0.448,
      "eval_wer": 0.046072986909956364,
      "step": 13900
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.15419486165046692,
      "learning_rate": 8.08161487075225e-06,
      "loss": 0.0129,
      "step": 13901
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.24375364184379578,
      "learning_rate": 8.059831542259658e-06,
      "loss": 0.0121,
      "step": 13902
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.1487123668193817,
      "learning_rate": 8.038048213767063e-06,
      "loss": 0.0163,
      "step": 13903
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.3534780442714691,
      "learning_rate": 8.016264885274469e-06,
      "loss": 0.0725,
      "step": 13904
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.17578434944152832,
      "learning_rate": 7.994481556781876e-06,
      "loss": 0.0313,
      "step": 13905
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.20424145460128784,
      "learning_rate": 7.972698228289281e-06,
      "loss": 0.0253,
      "step": 13906
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.14577792584896088,
      "learning_rate": 7.950914899796688e-06,
      "loss": 0.01,
      "step": 13907
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.06519275903701782,
      "learning_rate": 7.929131571304094e-06,
      "loss": 0.0056,
      "step": 13908
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.09582696110010147,
      "learning_rate": 7.9073482428115e-06,
      "loss": 0.0111,
      "step": 13909
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.12646707892417908,
      "learning_rate": 7.885564914318906e-06,
      "loss": 0.013,
      "step": 13910
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.08067581057548523,
      "learning_rate": 7.863781585826313e-06,
      "loss": 0.0056,
      "step": 13911
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.12999622523784637,
      "learning_rate": 7.84199825733372e-06,
      "loss": 0.0052,
      "step": 13912
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.09770911931991577,
      "learning_rate": 7.820214928841126e-06,
      "loss": 0.0073,
      "step": 13913
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.16858839988708496,
      "learning_rate": 7.798431600348533e-06,
      "loss": 0.0133,
      "step": 13914
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.17554886639118195,
      "learning_rate": 7.776648271855938e-06,
      "loss": 0.0142,
      "step": 13915
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.4346737265586853,
      "learning_rate": 7.754864943363345e-06,
      "loss": 0.0187,
      "step": 13916
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.1871301829814911,
      "learning_rate": 7.733081614870751e-06,
      "loss": 0.0231,
      "step": 13917
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.20348376035690308,
      "learning_rate": 7.711298286378158e-06,
      "loss": 0.0416,
      "step": 13918
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.17101655900478363,
      "learning_rate": 7.689514957885563e-06,
      "loss": 0.013,
      "step": 13919
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.22623229026794434,
      "learning_rate": 7.66773162939297e-06,
      "loss": 0.0145,
      "step": 13920
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.0842212662100792,
      "learning_rate": 7.645948300900376e-06,
      "loss": 0.0132,
      "step": 13921
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.17088475823402405,
      "learning_rate": 7.624164972407783e-06,
      "loss": 0.0243,
      "step": 13922
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.19177298247814178,
      "learning_rate": 7.60238164391519e-06,
      "loss": 0.0105,
      "step": 13923
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.0992780476808548,
      "learning_rate": 7.580598315422596e-06,
      "loss": 0.0076,
      "step": 13924
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.14293096959590912,
      "learning_rate": 7.558814986930003e-06,
      "loss": 0.0119,
      "step": 13925
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.04880676791071892,
      "learning_rate": 7.537031658437409e-06,
      "loss": 0.0053,
      "step": 13926
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.06337148696184158,
      "learning_rate": 7.515248329944815e-06,
      "loss": 0.0055,
      "step": 13927
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.7211200594902039,
      "learning_rate": 7.4934650014522215e-06,
      "loss": 0.053,
      "step": 13928
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.1497090607881546,
      "learning_rate": 7.471681672959628e-06,
      "loss": 0.0099,
      "step": 13929
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.1858258843421936,
      "learning_rate": 7.449898344467034e-06,
      "loss": 0.0205,
      "step": 13930
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.1477561742067337,
      "learning_rate": 7.42811501597444e-06,
      "loss": 0.0213,
      "step": 13931
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.2312019318342209,
      "learning_rate": 7.4063316874818465e-06,
      "loss": 0.0156,
      "step": 13932
    },
    {
      "epoch": 3.9,
      "grad_norm": 0.15478961169719696,
      "learning_rate": 7.384548358989253e-06,
      "loss": 0.0379,
      "step": 13933
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.05903857573866844,
      "learning_rate": 7.36276503049666e-06,
      "loss": 0.0068,
      "step": 13934
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.09968525916337967,
      "learning_rate": 7.340981702004066e-06,
      "loss": 0.0132,
      "step": 13935
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.25641173124313354,
      "learning_rate": 7.3191983735114725e-06,
      "loss": 0.0235,
      "step": 13936
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.2104431837797165,
      "learning_rate": 7.297415045018879e-06,
      "loss": 0.0107,
      "step": 13937
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.22008930146694183,
      "learning_rate": 7.275631716526285e-06,
      "loss": 0.0133,
      "step": 13938
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.16865836083889008,
      "learning_rate": 7.253848388033691e-06,
      "loss": 0.024,
      "step": 13939
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.1595573127269745,
      "learning_rate": 7.2320650595410975e-06,
      "loss": 0.0142,
      "step": 13940
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.09284655749797821,
      "learning_rate": 7.210281731048504e-06,
      "loss": 0.0042,
      "step": 13941
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.20409999787807465,
      "learning_rate": 7.188498402555909e-06,
      "loss": 0.0091,
      "step": 13942
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.0913490504026413,
      "learning_rate": 7.1667150740633155e-06,
      "loss": 0.0175,
      "step": 13943
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.15168339014053345,
      "learning_rate": 7.144931745570722e-06,
      "loss": 0.0147,
      "step": 13944
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.09109319001436234,
      "learning_rate": 7.12314841707813e-06,
      "loss": 0.0214,
      "step": 13945
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.09610726684331894,
      "learning_rate": 7.101365088585536e-06,
      "loss": 0.0094,
      "step": 13946
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.14580804109573364,
      "learning_rate": 7.079581760092942e-06,
      "loss": 0.0331,
      "step": 13947
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.18114271759986877,
      "learning_rate": 7.0577984316003485e-06,
      "loss": 0.0162,
      "step": 13948
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.12700073421001434,
      "learning_rate": 7.036015103107754e-06,
      "loss": 0.036,
      "step": 13949
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.06797812879085541,
      "learning_rate": 7.01423177461516e-06,
      "loss": 0.0046,
      "step": 13950
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.1172349750995636,
      "learning_rate": 6.9924484461225665e-06,
      "loss": 0.0147,
      "step": 13951
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.5158877372741699,
      "learning_rate": 6.970665117629973e-06,
      "loss": 0.0276,
      "step": 13952
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.1197289377450943,
      "learning_rate": 6.948881789137379e-06,
      "loss": 0.0176,
      "step": 13953
    },
    {
      "epoch": 3.91,
      "grad_norm": 1.02302885055542,
      "learning_rate": 6.927098460644785e-06,
      "loss": 0.0362,
      "step": 13954
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.1448698341846466,
      "learning_rate": 6.9053151321521915e-06,
      "loss": 0.0199,
      "step": 13955
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.2035619020462036,
      "learning_rate": 6.883531803659599e-06,
      "loss": 0.016,
      "step": 13956
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.11904704570770264,
      "learning_rate": 6.861748475167005e-06,
      "loss": 0.0211,
      "step": 13957
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.11547079682350159,
      "learning_rate": 6.839965146674411e-06,
      "loss": 0.0132,
      "step": 13958
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.32667380571365356,
      "learning_rate": 6.8181818181818174e-06,
      "loss": 0.0299,
      "step": 13959
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.11751353740692139,
      "learning_rate": 6.796398489689224e-06,
      "loss": 0.0056,
      "step": 13960
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.17711690068244934,
      "learning_rate": 6.77461516119663e-06,
      "loss": 0.0205,
      "step": 13961
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.21424199640750885,
      "learning_rate": 6.752831832704036e-06,
      "loss": 0.0355,
      "step": 13962
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.13808928430080414,
      "learning_rate": 6.7310485042114425e-06,
      "loss": 0.0104,
      "step": 13963
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.0878307893872261,
      "learning_rate": 6.709265175718849e-06,
      "loss": 0.005,
      "step": 13964
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.0845797136425972,
      "learning_rate": 6.687481847226255e-06,
      "loss": 0.0068,
      "step": 13965
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.11382811516523361,
      "learning_rate": 6.665698518733661e-06,
      "loss": 0.0053,
      "step": 13966
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.14333461225032806,
      "learning_rate": 6.643915190241068e-06,
      "loss": 0.0097,
      "step": 13967
    },
    {
      "epoch": 3.91,
      "grad_norm": 0.05676345154643059,
      "learning_rate": 6.622131861748475e-06,
      "loss": 0.01,
      "step": 13968
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.04768010228872299,
      "learning_rate": 6.600348533255881e-06,
      "loss": 0.0048,
      "step": 13969
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.15843211114406586,
      "learning_rate": 6.578565204763287e-06,
      "loss": 0.0159,
      "step": 13970
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.07835391908884048,
      "learning_rate": 6.5567818762706935e-06,
      "loss": 0.0099,
      "step": 13971
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.10571109503507614,
      "learning_rate": 6.5349985477781e-06,
      "loss": 0.0072,
      "step": 13972
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.17673712968826294,
      "learning_rate": 6.513215219285506e-06,
      "loss": 0.0245,
      "step": 13973
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.13419324159622192,
      "learning_rate": 6.491431890792912e-06,
      "loss": 0.01,
      "step": 13974
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.11512052267789841,
      "learning_rate": 6.4696485623003185e-06,
      "loss": 0.0074,
      "step": 13975
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.12625746428966522,
      "learning_rate": 6.447865233807725e-06,
      "loss": 0.0272,
      "step": 13976
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.11109403520822525,
      "learning_rate": 6.426081905315131e-06,
      "loss": 0.0152,
      "step": 13977
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.39973869919776917,
      "learning_rate": 6.404298576822538e-06,
      "loss": 0.0315,
      "step": 13978
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.16294646263122559,
      "learning_rate": 6.3825152483299445e-06,
      "loss": 0.0205,
      "step": 13979
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.07602836191654205,
      "learning_rate": 6.360731919837351e-06,
      "loss": 0.0068,
      "step": 13980
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.19062352180480957,
      "learning_rate": 6.338948591344757e-06,
      "loss": 0.0358,
      "step": 13981
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.08728035539388657,
      "learning_rate": 6.317165262852163e-06,
      "loss": 0.0052,
      "step": 13982
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.10450204461812973,
      "learning_rate": 6.2953819343595695e-06,
      "loss": 0.0159,
      "step": 13983
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.12531563639640808,
      "learning_rate": 6.273598605866976e-06,
      "loss": 0.0147,
      "step": 13984
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.2197507917881012,
      "learning_rate": 6.251815277374382e-06,
      "loss": 0.0356,
      "step": 13985
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.09778819978237152,
      "learning_rate": 6.230031948881788e-06,
      "loss": 0.0037,
      "step": 13986
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.10030832886695862,
      "learning_rate": 6.208248620389195e-06,
      "loss": 0.0089,
      "step": 13987
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.05217079818248749,
      "learning_rate": 6.186465291896601e-06,
      "loss": 0.0044,
      "step": 13988
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.22589536011219025,
      "learning_rate": 6.164681963404008e-06,
      "loss": 0.05,
      "step": 13989
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.11540070176124573,
      "learning_rate": 6.142898634911414e-06,
      "loss": 0.0189,
      "step": 13990
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.8257546424865723,
      "learning_rate": 6.1211153064188205e-06,
      "loss": 0.0304,
      "step": 13991
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.2275516390800476,
      "learning_rate": 6.099331977926227e-06,
      "loss": 0.0072,
      "step": 13992
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.13936157524585724,
      "learning_rate": 6.077548649433633e-06,
      "loss": 0.0165,
      "step": 13993
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.07299010455608368,
      "learning_rate": 6.055765320941039e-06,
      "loss": 0.0068,
      "step": 13994
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.10011012107133865,
      "learning_rate": 6.0339819924484456e-06,
      "loss": 0.0108,
      "step": 13995
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.1168779730796814,
      "learning_rate": 6.012198663955852e-06,
      "loss": 0.0054,
      "step": 13996
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.08042365312576294,
      "learning_rate": 5.990415335463258e-06,
      "loss": 0.0078,
      "step": 13997
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.0639716312289238,
      "learning_rate": 5.968632006970664e-06,
      "loss": 0.0099,
      "step": 13998
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.056103941053152084,
      "learning_rate": 5.946848678478071e-06,
      "loss": 0.0051,
      "step": 13999
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.05895553156733513,
      "learning_rate": 5.925065349985478e-06,
      "loss": 0.0043,
      "step": 14000
    },
    {
      "epoch": 3.92,
      "eval_loss": 0.06139801815152168,
      "eval_runtime": 184.7715,
      "eval_samples_per_second": 14.299,
      "eval_steps_per_second": 0.449,
      "eval_wer": 0.045815152717175726,
      "step": 14000
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.31867241859436035,
      "learning_rate": 5.903282021492884e-06,
      "loss": 0.0254,
      "step": 14001
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.13470196723937988,
      "learning_rate": 5.88149869300029e-06,
      "loss": 0.0104,
      "step": 14002
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.17762121558189392,
      "learning_rate": 5.8597153645076965e-06,
      "loss": 0.0245,
      "step": 14003
    },
    {
      "epoch": 3.92,
      "grad_norm": 0.6321507692337036,
      "learning_rate": 5.837932036015103e-06,
      "loss": 0.0374,
      "step": 14004
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.12727907299995422,
      "learning_rate": 5.816148707522509e-06,
      "loss": 0.0222,
      "step": 14005
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.18449746072292328,
      "learning_rate": 5.794365379029915e-06,
      "loss": 0.0142,
      "step": 14006
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.034007057547569275,
      "learning_rate": 5.772582050537322e-06,
      "loss": 0.0039,
      "step": 14007
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.05209558084607124,
      "learning_rate": 5.750798722044728e-06,
      "loss": 0.0034,
      "step": 14008
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.15463995933532715,
      "learning_rate": 5.729015393552134e-06,
      "loss": 0.0227,
      "step": 14009
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.14220492541790009,
      "learning_rate": 5.70723206505954e-06,
      "loss": 0.0155,
      "step": 14010
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.1370212435722351,
      "learning_rate": 5.6854487365669475e-06,
      "loss": 0.0166,
      "step": 14011
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.12109913676977158,
      "learning_rate": 5.663665408074354e-06,
      "loss": 0.0096,
      "step": 14012
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.12043385952711105,
      "learning_rate": 5.64188207958176e-06,
      "loss": 0.0102,
      "step": 14013
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.12749548256397247,
      "learning_rate": 5.620098751089166e-06,
      "loss": 0.0097,
      "step": 14014
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.12183470278978348,
      "learning_rate": 5.598315422596573e-06,
      "loss": 0.0109,
      "step": 14015
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.3242865800857544,
      "learning_rate": 5.576532094103979e-06,
      "loss": 0.0272,
      "step": 14016
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.29077962040901184,
      "learning_rate": 5.554748765611385e-06,
      "loss": 0.0358,
      "step": 14017
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.23683911561965942,
      "learning_rate": 5.532965437118791e-06,
      "loss": 0.0202,
      "step": 14018
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.12035341560840607,
      "learning_rate": 5.511182108626198e-06,
      "loss": 0.0126,
      "step": 14019
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.09225082397460938,
      "learning_rate": 5.489398780133604e-06,
      "loss": 0.0104,
      "step": 14020
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.1806197464466095,
      "learning_rate": 5.46761545164101e-06,
      "loss": 0.0094,
      "step": 14021
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.1643824577331543,
      "learning_rate": 5.4458321231484165e-06,
      "loss": 0.0136,
      "step": 14022
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.05801084637641907,
      "learning_rate": 5.4240487946558236e-06,
      "loss": 0.0039,
      "step": 14023
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.16920575499534607,
      "learning_rate": 5.40226546616323e-06,
      "loss": 0.02,
      "step": 14024
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.15742163360118866,
      "learning_rate": 5.380482137670636e-06,
      "loss": 0.0087,
      "step": 14025
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.3226684033870697,
      "learning_rate": 5.358698809178042e-06,
      "loss": 0.0261,
      "step": 14026
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.13691148161888123,
      "learning_rate": 5.336915480685449e-06,
      "loss": 0.0094,
      "step": 14027
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.08922572433948517,
      "learning_rate": 5.315132152192855e-06,
      "loss": 0.0088,
      "step": 14028
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.20867110788822174,
      "learning_rate": 5.293348823700261e-06,
      "loss": 0.03,
      "step": 14029
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.11095622181892395,
      "learning_rate": 5.2715654952076674e-06,
      "loss": 0.0139,
      "step": 14030
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.06634675711393356,
      "learning_rate": 5.249782166715074e-06,
      "loss": 0.0055,
      "step": 14031
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.05208507925271988,
      "learning_rate": 5.227998838222479e-06,
      "loss": 0.0038,
      "step": 14032
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.2980477213859558,
      "learning_rate": 5.206215509729885e-06,
      "loss": 0.0564,
      "step": 14033
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.2592940032482147,
      "learning_rate": 5.184432181237293e-06,
      "loss": 0.0132,
      "step": 14034
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.032209668308496475,
      "learning_rate": 5.1626488527447e-06,
      "loss": 0.0024,
      "step": 14035
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.09840130060911179,
      "learning_rate": 5.140865524252106e-06,
      "loss": 0.0243,
      "step": 14036
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.34208372235298157,
      "learning_rate": 5.119082195759512e-06,
      "loss": 0.0198,
      "step": 14037
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.15344195067882538,
      "learning_rate": 5.097298867266918e-06,
      "loss": 0.0207,
      "step": 14038
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.0984131470322609,
      "learning_rate": 5.075515538774324e-06,
      "loss": 0.0085,
      "step": 14039
    },
    {
      "epoch": 3.93,
      "grad_norm": 0.05855211615562439,
      "learning_rate": 5.05373221028173e-06,
      "loss": 0.0021,
      "step": 14040
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.6601634621620178,
      "learning_rate": 5.031948881789136e-06,
      "loss": 0.0193,
      "step": 14041
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.4934804141521454,
      "learning_rate": 5.010165553296543e-06,
      "loss": 0.0194,
      "step": 14042
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.17646430432796478,
      "learning_rate": 4.988382224803949e-06,
      "loss": 0.0157,
      "step": 14043
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.12325587868690491,
      "learning_rate": 4.966598896311355e-06,
      "loss": 0.0257,
      "step": 14044
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.061213068664073944,
      "learning_rate": 4.944815567818763e-06,
      "loss": 0.0042,
      "step": 14045
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.12256994098424911,
      "learning_rate": 4.923032239326169e-06,
      "loss": 0.0112,
      "step": 14046
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.2059430330991745,
      "learning_rate": 4.901248910833575e-06,
      "loss": 0.0297,
      "step": 14047
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.3178079128265381,
      "learning_rate": 4.879465582340981e-06,
      "loss": 0.0499,
      "step": 14048
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.08944837749004364,
      "learning_rate": 4.857682253848387e-06,
      "loss": 0.0077,
      "step": 14049
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.06467554718255997,
      "learning_rate": 4.835898925355794e-06,
      "loss": 0.0089,
      "step": 14050
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.25231650471687317,
      "learning_rate": 4.8141155968632e-06,
      "loss": 0.0217,
      "step": 14051
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.30255597829818726,
      "learning_rate": 4.792332268370606e-06,
      "loss": 0.026,
      "step": 14052
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.29577139019966125,
      "learning_rate": 4.770548939878012e-06,
      "loss": 0.0108,
      "step": 14053
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.7826931476593018,
      "learning_rate": 4.748765611385419e-06,
      "loss": 0.0844,
      "step": 14054
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.2771648168563843,
      "learning_rate": 4.726982282892825e-06,
      "loss": 0.0203,
      "step": 14055
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.10265044867992401,
      "learning_rate": 4.705198954400232e-06,
      "loss": 0.0127,
      "step": 14056
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.14158521592617035,
      "learning_rate": 4.683415625907638e-06,
      "loss": 0.0134,
      "step": 14057
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.1313754767179489,
      "learning_rate": 4.661632297415045e-06,
      "loss": 0.0187,
      "step": 14058
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.27672243118286133,
      "learning_rate": 4.639848968922451e-06,
      "loss": 0.0491,
      "step": 14059
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.11665879935026169,
      "learning_rate": 4.618065640429857e-06,
      "loss": 0.0194,
      "step": 14060
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.11156530678272247,
      "learning_rate": 4.596282311937263e-06,
      "loss": 0.022,
      "step": 14061
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.06245086342096329,
      "learning_rate": 4.57449898344467e-06,
      "loss": 0.005,
      "step": 14062
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.1922684609889984,
      "learning_rate": 4.552715654952076e-06,
      "loss": 0.0246,
      "step": 14063
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.13630247116088867,
      "learning_rate": 4.530932326459483e-06,
      "loss": 0.0066,
      "step": 14064
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.39774641394615173,
      "learning_rate": 4.509148997966889e-06,
      "loss": 0.0286,
      "step": 14065
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.1888483613729477,
      "learning_rate": 4.4873656694742956e-06,
      "loss": 0.0076,
      "step": 14066
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.11087535321712494,
      "learning_rate": 4.465582340981702e-06,
      "loss": 0.0081,
      "step": 14067
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.07666601240634918,
      "learning_rate": 4.443799012489108e-06,
      "loss": 0.0099,
      "step": 14068
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.08590482175350189,
      "learning_rate": 4.422015683996514e-06,
      "loss": 0.009,
      "step": 14069
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.19872483611106873,
      "learning_rate": 4.400232355503921e-06,
      "loss": 0.0203,
      "step": 14070
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.14395958185195923,
      "learning_rate": 4.378449027011327e-06,
      "loss": 0.022,
      "step": 14071
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.03544974699616432,
      "learning_rate": 4.356665698518733e-06,
      "loss": 0.0031,
      "step": 14072
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.13033781945705414,
      "learning_rate": 4.3348823700261394e-06,
      "loss": 0.0145,
      "step": 14073
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.21438220143318176,
      "learning_rate": 4.313099041533546e-06,
      "loss": 0.0353,
      "step": 14074
    },
    {
      "epoch": 3.94,
      "grad_norm": 0.27848878502845764,
      "learning_rate": 4.291315713040953e-06,
      "loss": 0.0425,
      "step": 14075
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.2540956437587738,
      "learning_rate": 4.269532384548359e-06,
      "loss": 0.0161,
      "step": 14076
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.1619984358549118,
      "learning_rate": 4.247749056055765e-06,
      "loss": 0.0369,
      "step": 14077
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.02453235536813736,
      "learning_rate": 4.225965727563172e-06,
      "loss": 0.0013,
      "step": 14078
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.15029117465019226,
      "learning_rate": 4.204182399070578e-06,
      "loss": 0.0055,
      "step": 14079
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.17361518740653992,
      "learning_rate": 4.182399070577984e-06,
      "loss": 0.0267,
      "step": 14080
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.09932631999254227,
      "learning_rate": 4.16061574208539e-06,
      "loss": 0.0197,
      "step": 14081
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.19934609532356262,
      "learning_rate": 4.138832413592797e-06,
      "loss": 0.0221,
      "step": 14082
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.06583262234926224,
      "learning_rate": 4.117049085100203e-06,
      "loss": 0.0066,
      "step": 14083
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.11738049983978271,
      "learning_rate": 4.095265756607609e-06,
      "loss": 0.0196,
      "step": 14084
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.08497825264930725,
      "learning_rate": 4.0734824281150155e-06,
      "loss": 0.0127,
      "step": 14085
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.1168743297457695,
      "learning_rate": 4.051699099622423e-06,
      "loss": 0.0151,
      "step": 14086
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.181187704205513,
      "learning_rate": 4.029915771129829e-06,
      "loss": 0.0169,
      "step": 14087
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.16991393268108368,
      "learning_rate": 4.008132442637234e-06,
      "loss": 0.0103,
      "step": 14088
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.18913669884204865,
      "learning_rate": 3.9863491141446405e-06,
      "loss": 0.0387,
      "step": 14089
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.19081202149391174,
      "learning_rate": 3.964565785652047e-06,
      "loss": 0.0153,
      "step": 14090
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.10054055601358414,
      "learning_rate": 3.942782457159453e-06,
      "loss": 0.0063,
      "step": 14091
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.08316202461719513,
      "learning_rate": 3.92099912866686e-06,
      "loss": 0.0063,
      "step": 14092
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.2039819359779358,
      "learning_rate": 3.8992158001742664e-06,
      "loss": 0.0269,
      "step": 14093
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.13416798412799835,
      "learning_rate": 3.877432471681673e-06,
      "loss": 0.0205,
      "step": 14094
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.0746159553527832,
      "learning_rate": 3.855649143189079e-06,
      "loss": 0.0077,
      "step": 14095
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.15305934846401215,
      "learning_rate": 3.833865814696485e-06,
      "loss": 0.0157,
      "step": 14096
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.18187430500984192,
      "learning_rate": 3.8120824862038915e-06,
      "loss": 0.025,
      "step": 14097
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.15570859611034393,
      "learning_rate": 3.790299157711298e-06,
      "loss": 0.0057,
      "step": 14098
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.14143578708171844,
      "learning_rate": 3.7685158292187045e-06,
      "loss": 0.0103,
      "step": 14099
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.07933153212070465,
      "learning_rate": 3.7467325007261107e-06,
      "loss": 0.0073,
      "step": 14100
    },
    {
      "epoch": 3.95,
      "eval_loss": 0.0615038238465786,
      "eval_runtime": 182.7689,
      "eval_samples_per_second": 14.455,
      "eval_steps_per_second": 0.454,
      "eval_wer": 0.04599365331217771,
      "step": 14100
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.2184043675661087,
      "learning_rate": 3.724949172233517e-06,
      "loss": 0.0188,
      "step": 14101
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.11312901973724365,
      "learning_rate": 3.7031658437409233e-06,
      "loss": 0.0122,
      "step": 14102
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.3981682360172272,
      "learning_rate": 3.68138251524833e-06,
      "loss": 0.0141,
      "step": 14103
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.12445375323295593,
      "learning_rate": 3.6595991867557362e-06,
      "loss": 0.0229,
      "step": 14104
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.1212228536605835,
      "learning_rate": 3.6378158582631425e-06,
      "loss": 0.0227,
      "step": 14105
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.15569305419921875,
      "learning_rate": 3.6160325297705488e-06,
      "loss": 0.0158,
      "step": 14106
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.08180895447731018,
      "learning_rate": 3.5942492012779546e-06,
      "loss": 0.0161,
      "step": 14107
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.187209814786911,
      "learning_rate": 3.572465872785361e-06,
      "loss": 0.0228,
      "step": 14108
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.1797986477613449,
      "learning_rate": 3.550682544292768e-06,
      "loss": 0.0398,
      "step": 14109
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.08949202299118042,
      "learning_rate": 3.5288992158001742e-06,
      "loss": 0.0255,
      "step": 14110
    },
    {
      "epoch": 3.95,
      "grad_norm": 0.15844573080539703,
      "learning_rate": 3.50711588730758e-06,
      "loss": 0.0216,
      "step": 14111
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.09532303363084793,
      "learning_rate": 3.4853325588149864e-06,
      "loss": 0.0038,
      "step": 14112
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.14027251303195953,
      "learning_rate": 3.4635492303223926e-06,
      "loss": 0.0129,
      "step": 14113
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.1120738685131073,
      "learning_rate": 3.4417659018297993e-06,
      "loss": 0.0083,
      "step": 14114
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.14624889194965363,
      "learning_rate": 3.4199825733372056e-06,
      "loss": 0.0075,
      "step": 14115
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.6791490316390991,
      "learning_rate": 3.398199244844612e-06,
      "loss": 0.0681,
      "step": 14116
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.46241000294685364,
      "learning_rate": 3.376415916352018e-06,
      "loss": 0.0226,
      "step": 14117
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.08724741637706757,
      "learning_rate": 3.3546325878594244e-06,
      "loss": 0.01,
      "step": 14118
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.17249108850955963,
      "learning_rate": 3.3328492593668306e-06,
      "loss": 0.0222,
      "step": 14119
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.061820775270462036,
      "learning_rate": 3.3110659308742373e-06,
      "loss": 0.0069,
      "step": 14120
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.11402510851621628,
      "learning_rate": 3.2892826023816436e-06,
      "loss": 0.006,
      "step": 14121
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.11780283600091934,
      "learning_rate": 3.26749927388905e-06,
      "loss": 0.0076,
      "step": 14122
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.06534548103809357,
      "learning_rate": 3.245715945396456e-06,
      "loss": 0.0097,
      "step": 14123
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.7612583041191101,
      "learning_rate": 3.2239326169038624e-06,
      "loss": 0.0335,
      "step": 14124
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.1751731038093567,
      "learning_rate": 3.202149288411269e-06,
      "loss": 0.0298,
      "step": 14125
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.09454523772001266,
      "learning_rate": 3.1803659599186754e-06,
      "loss": 0.0086,
      "step": 14126
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.21356433629989624,
      "learning_rate": 3.1585826314260816e-06,
      "loss": 0.0199,
      "step": 14127
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.06214737519621849,
      "learning_rate": 3.136799302933488e-06,
      "loss": 0.0067,
      "step": 14128
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.3472915291786194,
      "learning_rate": 3.115015974440894e-06,
      "loss": 0.0125,
      "step": 14129
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.07325812429189682,
      "learning_rate": 3.0932326459483004e-06,
      "loss": 0.0107,
      "step": 14130
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.18582142889499664,
      "learning_rate": 3.071449317455707e-06,
      "loss": 0.021,
      "step": 14131
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.11774186044931412,
      "learning_rate": 3.0496659889631134e-06,
      "loss": 0.012,
      "step": 14132
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.13354496657848358,
      "learning_rate": 3.0278826604705196e-06,
      "loss": 0.0278,
      "step": 14133
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.09463201463222504,
      "learning_rate": 3.006099331977926e-06,
      "loss": 0.0193,
      "step": 14134
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.21154522895812988,
      "learning_rate": 2.984316003485332e-06,
      "loss": 0.0334,
      "step": 14135
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.03639589622616768,
      "learning_rate": 2.962532674992739e-06,
      "loss": 0.0023,
      "step": 14136
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.23047751188278198,
      "learning_rate": 2.940749346500145e-06,
      "loss": 0.0173,
      "step": 14137
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.1908137947320938,
      "learning_rate": 2.9189660180075514e-06,
      "loss": 0.0152,
      "step": 14138
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.16623425483703613,
      "learning_rate": 2.8971826895149577e-06,
      "loss": 0.0126,
      "step": 14139
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.563094437122345,
      "learning_rate": 2.875399361022364e-06,
      "loss": 0.0494,
      "step": 14140
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.06646428257226944,
      "learning_rate": 2.85361603252977e-06,
      "loss": 0.0052,
      "step": 14141
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.02190033718943596,
      "learning_rate": 2.831832704037177e-06,
      "loss": 0.0031,
      "step": 14142
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.1034921258687973,
      "learning_rate": 2.810049375544583e-06,
      "loss": 0.0196,
      "step": 14143
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.154021754860878,
      "learning_rate": 2.7882660470519894e-06,
      "loss": 0.0063,
      "step": 14144
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.19295984506607056,
      "learning_rate": 2.7664827185593957e-06,
      "loss": 0.0565,
      "step": 14145
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.09565857797861099,
      "learning_rate": 2.744699390066802e-06,
      "loss": 0.0094,
      "step": 14146
    },
    {
      "epoch": 3.96,
      "grad_norm": 0.13214731216430664,
      "learning_rate": 2.7229160615742082e-06,
      "loss": 0.0073,
      "step": 14147
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.08135168254375458,
      "learning_rate": 2.701132733081615e-06,
      "loss": 0.004,
      "step": 14148
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.2444794476032257,
      "learning_rate": 2.679349404589021e-06,
      "loss": 0.0275,
      "step": 14149
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.09694195538759232,
      "learning_rate": 2.6575660760964274e-06,
      "loss": 0.0095,
      "step": 14150
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.16880598664283752,
      "learning_rate": 2.6357827476038337e-06,
      "loss": 0.022,
      "step": 14151
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.5789206624031067,
      "learning_rate": 2.6139994191112396e-06,
      "loss": 0.0497,
      "step": 14152
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.25143253803253174,
      "learning_rate": 2.5922160906186467e-06,
      "loss": 0.0232,
      "step": 14153
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.21069522202014923,
      "learning_rate": 2.570432762126053e-06,
      "loss": 0.012,
      "step": 14154
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.12512148916721344,
      "learning_rate": 2.548649433633459e-06,
      "loss": 0.0109,
      "step": 14155
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.10438139736652374,
      "learning_rate": 2.526866105140865e-06,
      "loss": 0.0123,
      "step": 14156
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.18713878095149994,
      "learning_rate": 2.5050827766482713e-06,
      "loss": 0.038,
      "step": 14157
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.016410477459430695,
      "learning_rate": 2.4832994481556776e-06,
      "loss": 0.0013,
      "step": 14158
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.08159482479095459,
      "learning_rate": 2.4615161196630847e-06,
      "loss": 0.0092,
      "step": 14159
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.06887073814868927,
      "learning_rate": 2.4397327911704905e-06,
      "loss": 0.0078,
      "step": 14160
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.12372628599405289,
      "learning_rate": 2.417949462677897e-06,
      "loss": 0.0261,
      "step": 14161
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.16015788912773132,
      "learning_rate": 2.396166134185303e-06,
      "loss": 0.0119,
      "step": 14162
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.19955329596996307,
      "learning_rate": 2.3743828056927093e-06,
      "loss": 0.0162,
      "step": 14163
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.17160414159297943,
      "learning_rate": 2.352599477200116e-06,
      "loss": 0.0201,
      "step": 14164
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.01810801587998867,
      "learning_rate": 2.3308161487075223e-06,
      "loss": 0.0012,
      "step": 14165
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.20565293729305267,
      "learning_rate": 2.3090328202149286e-06,
      "loss": 0.0247,
      "step": 14166
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.1937536746263504,
      "learning_rate": 2.287249491722335e-06,
      "loss": 0.0083,
      "step": 14167
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.1752791404724121,
      "learning_rate": 2.2654661632297415e-06,
      "loss": 0.0194,
      "step": 14168
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.11922517418861389,
      "learning_rate": 2.2436828347371478e-06,
      "loss": 0.019,
      "step": 14169
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.12209036201238632,
      "learning_rate": 2.221899506244554e-06,
      "loss": 0.0143,
      "step": 14170
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.05691812187433243,
      "learning_rate": 2.2001161777519603e-06,
      "loss": 0.0056,
      "step": 14171
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.03734549507498741,
      "learning_rate": 2.1783328492593666e-06,
      "loss": 0.0032,
      "step": 14172
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.10591727495193481,
      "learning_rate": 2.156549520766773e-06,
      "loss": 0.0203,
      "step": 14173
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.19853077828884125,
      "learning_rate": 2.1347661922741795e-06,
      "loss": 0.0172,
      "step": 14174
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.6587558388710022,
      "learning_rate": 2.112982863781586e-06,
      "loss": 0.0177,
      "step": 14175
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.178614541888237,
      "learning_rate": 2.091199535288992e-06,
      "loss": 0.0332,
      "step": 14176
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.17700888216495514,
      "learning_rate": 2.0694162067963983e-06,
      "loss": 0.023,
      "step": 14177
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.1071058064699173,
      "learning_rate": 2.0476328783038046e-06,
      "loss": 0.009,
      "step": 14178
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.3279827833175659,
      "learning_rate": 2.0258495498112113e-06,
      "loss": 0.0366,
      "step": 14179
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.1219271644949913,
      "learning_rate": 2.004066221318617e-06,
      "loss": 0.0084,
      "step": 14180
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.07356970757246017,
      "learning_rate": 1.9822828928260234e-06,
      "loss": 0.0146,
      "step": 14181
    },
    {
      "epoch": 3.97,
      "grad_norm": 0.18613597750663757,
      "learning_rate": 1.96049956433343e-06,
      "loss": 0.018,
      "step": 14182
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.22171062231063843,
      "learning_rate": 1.9387162358408364e-06,
      "loss": 0.0169,
      "step": 14183
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.15055088698863983,
      "learning_rate": 1.9169329073482426e-06,
      "loss": 0.0152,
      "step": 14184
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.08287613838911057,
      "learning_rate": 1.895149578855649e-06,
      "loss": 0.0153,
      "step": 14185
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.21083298325538635,
      "learning_rate": 1.8733662503630554e-06,
      "loss": 0.0107,
      "step": 14186
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.41427919268608093,
      "learning_rate": 1.8515829218704616e-06,
      "loss": 0.0262,
      "step": 14187
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.18260446190834045,
      "learning_rate": 1.8297995933778681e-06,
      "loss": 0.0108,
      "step": 14188
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.09855315089225769,
      "learning_rate": 1.8080162648852744e-06,
      "loss": 0.0046,
      "step": 14189
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.21762891113758087,
      "learning_rate": 1.7862329363926804e-06,
      "loss": 0.0321,
      "step": 14190
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.18290257453918457,
      "learning_rate": 1.7644496079000871e-06,
      "loss": 0.0238,
      "step": 14191
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.26730459928512573,
      "learning_rate": 1.7426662794074932e-06,
      "loss": 0.0178,
      "step": 14192
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.18256410956382751,
      "learning_rate": 1.7208829509148997e-06,
      "loss": 0.0301,
      "step": 14193
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.05991324409842491,
      "learning_rate": 1.699099622422306e-06,
      "loss": 0.0042,
      "step": 14194
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.15953309834003448,
      "learning_rate": 1.6773162939297122e-06,
      "loss": 0.0167,
      "step": 14195
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.06891915202140808,
      "learning_rate": 1.6555329654371187e-06,
      "loss": 0.0075,
      "step": 14196
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.060943640768527985,
      "learning_rate": 1.633749636944525e-06,
      "loss": 0.0207,
      "step": 14197
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.17453138530254364,
      "learning_rate": 1.6119663084519312e-06,
      "loss": 0.026,
      "step": 14198
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.07041280716657639,
      "learning_rate": 1.5901829799593377e-06,
      "loss": 0.0098,
      "step": 14199
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.16448833048343658,
      "learning_rate": 1.568399651466744e-06,
      "loss": 0.0145,
      "step": 14200
    },
    {
      "epoch": 3.98,
      "eval_loss": 0.061568669974803925,
      "eval_runtime": 181.0453,
      "eval_samples_per_second": 14.593,
      "eval_steps_per_second": 0.458,
      "eval_wer": 0.04599365331217771,
      "step": 14200
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.06616546958684921,
      "learning_rate": 1.5466163229741502e-06,
      "loss": 0.0058,
      "step": 14201
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.2716584801673889,
      "learning_rate": 1.5248329944815567e-06,
      "loss": 0.0258,
      "step": 14202
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.31648188829421997,
      "learning_rate": 1.503049665988963e-06,
      "loss": 0.0588,
      "step": 14203
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.16245731711387634,
      "learning_rate": 1.4812663374963694e-06,
      "loss": 0.0088,
      "step": 14204
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.13794106245040894,
      "learning_rate": 1.4594830090037757e-06,
      "loss": 0.0119,
      "step": 14205
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.08024146407842636,
      "learning_rate": 1.437699680511182e-06,
      "loss": 0.0062,
      "step": 14206
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.19764280319213867,
      "learning_rate": 1.4159163520185884e-06,
      "loss": 0.0109,
      "step": 14207
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.2015770673751831,
      "learning_rate": 1.3941330235259947e-06,
      "loss": 0.0138,
      "step": 14208
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.08524883538484573,
      "learning_rate": 1.372349695033401e-06,
      "loss": 0.0302,
      "step": 14209
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.07746779918670654,
      "learning_rate": 1.3505663665408075e-06,
      "loss": 0.0049,
      "step": 14210
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.06776104867458344,
      "learning_rate": 1.3287830380482137e-06,
      "loss": 0.007,
      "step": 14211
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.1086466833949089,
      "learning_rate": 1.3069997095556198e-06,
      "loss": 0.0097,
      "step": 14212
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.12064569443464279,
      "learning_rate": 1.2852163810630265e-06,
      "loss": 0.0108,
      "step": 14213
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.06943874806165695,
      "learning_rate": 1.2634330525704325e-06,
      "loss": 0.0054,
      "step": 14214
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.39924782514572144,
      "learning_rate": 1.2416497240778388e-06,
      "loss": 0.028,
      "step": 14215
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.23691725730895996,
      "learning_rate": 1.2198663955852453e-06,
      "loss": 0.0316,
      "step": 14216
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.3000376224517822,
      "learning_rate": 1.1980830670926515e-06,
      "loss": 0.0297,
      "step": 14217
    },
    {
      "epoch": 3.98,
      "grad_norm": 0.3298085629940033,
      "learning_rate": 1.176299738600058e-06,
      "loss": 0.0371,
      "step": 14218
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.13835172355175018,
      "learning_rate": 1.1545164101074643e-06,
      "loss": 0.0178,
      "step": 14219
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.21481451392173767,
      "learning_rate": 1.1327330816148708e-06,
      "loss": 0.005,
      "step": 14220
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.15780238807201385,
      "learning_rate": 1.110949753122277e-06,
      "loss": 0.0212,
      "step": 14221
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.11441454291343689,
      "learning_rate": 1.0891664246296833e-06,
      "loss": 0.0079,
      "step": 14222
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.09856867790222168,
      "learning_rate": 1.0673830961370898e-06,
      "loss": 0.0088,
      "step": 14223
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.07271238416433334,
      "learning_rate": 1.045599767644496e-06,
      "loss": 0.006,
      "step": 14224
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.07048250734806061,
      "learning_rate": 1.0238164391519023e-06,
      "loss": 0.0033,
      "step": 14225
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.19186954200267792,
      "learning_rate": 1.0020331106593086e-06,
      "loss": 0.0283,
      "step": 14226
    },
    {
      "epoch": 3.99,
      "grad_norm": 1.4246641397476196,
      "learning_rate": 9.80249782166715e-07,
      "loss": 0.0755,
      "step": 14227
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.5165571570396423,
      "learning_rate": 9.584664536741213e-07,
      "loss": 0.0486,
      "step": 14228
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.07398165017366409,
      "learning_rate": 9.366831251815277e-07,
      "loss": 0.0041,
      "step": 14229
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.0974649116396904,
      "learning_rate": 9.148997966889341e-07,
      "loss": 0.0149,
      "step": 14230
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.28262078762054443,
      "learning_rate": 8.931164681963402e-07,
      "loss": 0.0167,
      "step": 14231
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.1405889391899109,
      "learning_rate": 8.713331397037466e-07,
      "loss": 0.0157,
      "step": 14232
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.18997512757778168,
      "learning_rate": 8.49549811211153e-07,
      "loss": 0.0131,
      "step": 14233
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.2549809217453003,
      "learning_rate": 8.277664827185593e-07,
      "loss": 0.0469,
      "step": 14234
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.19163763523101807,
      "learning_rate": 8.059831542259656e-07,
      "loss": 0.0179,
      "step": 14235
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.14873772859573364,
      "learning_rate": 7.84199825733372e-07,
      "loss": 0.0182,
      "step": 14236
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.18769241869449615,
      "learning_rate": 7.624164972407783e-07,
      "loss": 0.0127,
      "step": 14237
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.07144412398338318,
      "learning_rate": 7.406331687481847e-07,
      "loss": 0.0073,
      "step": 14238
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.09587017446756363,
      "learning_rate": 7.18849840255591e-07,
      "loss": 0.0094,
      "step": 14239
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.08482793718576431,
      "learning_rate": 6.970665117629974e-07,
      "loss": 0.0124,
      "step": 14240
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.41498860716819763,
      "learning_rate": 6.752831832704037e-07,
      "loss": 0.0156,
      "step": 14241
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.5871115326881409,
      "learning_rate": 6.534998547778099e-07,
      "loss": 0.0813,
      "step": 14242
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.07726670801639557,
      "learning_rate": 6.317165262852163e-07,
      "loss": 0.0101,
      "step": 14243
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.2026934176683426,
      "learning_rate": 6.099331977926226e-07,
      "loss": 0.0125,
      "step": 14244
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.11936906725168228,
      "learning_rate": 5.88149869300029e-07,
      "loss": 0.004,
      "step": 14245
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.1038273423910141,
      "learning_rate": 5.663665408074354e-07,
      "loss": 0.0094,
      "step": 14246
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.09911087900400162,
      "learning_rate": 5.445832123148416e-07,
      "loss": 0.0061,
      "step": 14247
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.14658567309379578,
      "learning_rate": 5.22799883822248e-07,
      "loss": 0.0164,
      "step": 14248
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.1340879201889038,
      "learning_rate": 5.010165553296543e-07,
      "loss": 0.0094,
      "step": 14249
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.20514701306819916,
      "learning_rate": 4.792332268370607e-07,
      "loss": 0.013,
      "step": 14250
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.2619234323501587,
      "learning_rate": 4.5744989834446703e-07,
      "loss": 0.0482,
      "step": 14251
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.047619521617889404,
      "learning_rate": 4.356665698518733e-07,
      "loss": 0.0044,
      "step": 14252
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.22918058931827545,
      "learning_rate": 4.1388324135927967e-07,
      "loss": 0.0066,
      "step": 14253
    },
    {
      "epoch": 3.99,
      "grad_norm": 0.14570771157741547,
      "learning_rate": 3.92099912866686e-07,
      "loss": 0.0172,
      "step": 14254
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.12030493468046188,
      "learning_rate": 3.7031658437409236e-07,
      "loss": 0.0097,
      "step": 14255
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.1571795642375946,
      "learning_rate": 3.485332558814987e-07,
      "loss": 0.0108,
      "step": 14256
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.08372439444065094,
      "learning_rate": 3.2674992738890494e-07,
      "loss": 0.0071,
      "step": 14257
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.12028080224990845,
      "learning_rate": 3.049665988963113e-07,
      "loss": 0.0146,
      "step": 14258
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.052868276834487915,
      "learning_rate": 2.831832704037177e-07,
      "loss": 0.0127,
      "step": 14259
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.11419171094894409,
      "learning_rate": 2.61399941911124e-07,
      "loss": 0.0139,
      "step": 14260
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.16636411845684052,
      "learning_rate": 2.3961661341853033e-07,
      "loss": 0.0291,
      "step": 14261
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.17494083940982819,
      "learning_rate": 2.1783328492593665e-07,
      "loss": 0.0132,
      "step": 14262
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.1197119802236557,
      "learning_rate": 1.96049956433343e-07,
      "loss": 0.0174,
      "step": 14263
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.1577218919992447,
      "learning_rate": 1.7426662794074934e-07,
      "loss": 0.0138,
      "step": 14264
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.2642615735530853,
      "learning_rate": 1.5248329944815566e-07,
      "loss": 0.0299,
      "step": 14265
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.2641514539718628,
      "learning_rate": 1.30699970955562e-07,
      "loss": 0.0193,
      "step": 14266
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.08968666940927505,
      "learning_rate": 1.0891664246296832e-07,
      "loss": 0.0059,
      "step": 14267
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.045522626489400864,
      "learning_rate": 8.713331397037467e-08,
      "loss": 0.0069,
      "step": 14268
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.06442841142416,
      "learning_rate": 6.5349985477781e-08,
      "loss": 0.01,
      "step": 14269
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.07670982927083969,
      "learning_rate": 4.3566656985187335e-08,
      "loss": 0.0093,
      "step": 14270
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.05984580144286156,
      "learning_rate": 2.1783328492593667e-08,
      "loss": 0.0022,
      "step": 14271
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.12009737640619278,
      "learning_rate": 0.0,
      "loss": 0.0061,
      "step": 14272
    },
    {
      "epoch": 4.0,
      "step": 14272,
      "total_flos": 4.413365249578841e+19,
      "train_loss": 0.13451409900581351,
      "train_runtime": 46616.5397,
      "train_samples_per_second": 2.449,
      "train_steps_per_second": 0.306
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 14272,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 4,
  "save_steps": 400,
  "total_flos": 4.413365249578841e+19,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}