{
  "best_metric": 0.6768932938575745,
  "best_model_checkpoint": "./checkpoints/llava-v1.6-vicuna-7b/checkpoint-250",
  "epoch": 10.0,
  "eval_steps": 1.0,
  "global_step": 320,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.03125,
      "grad_norm": 1.0817695604199613,
      "learning_rate": 0.0,
      "loss": 1.3872,
      "step": 1
    },
    {
      "epoch": 0.03125,
      "eval_loss": 1.4023343324661255,
      "eval_runtime": 35.2562,
      "eval_samples_per_second": 5.673,
      "eval_steps_per_second": 0.369,
      "step": 1
    },
    {
      "epoch": 0.0625,
      "grad_norm": 0.8573794343563677,
      "learning_rate": 8.613531161467863e-06,
      "loss": 1.3352,
      "step": 2
    },
    {
      "epoch": 0.0625,
      "eval_loss": 1.4023343324661255,
      "eval_runtime": 27.8829,
      "eval_samples_per_second": 7.173,
      "eval_steps_per_second": 0.466,
      "step": 2
    },
    {
      "epoch": 0.09375,
      "grad_norm": 0.8545279010393898,
      "learning_rate": 1.3652123889719709e-05,
      "loss": 1.3838,
      "step": 3
    },
    {
      "epoch": 0.09375,
      "eval_loss": 1.3825562000274658,
      "eval_runtime": 27.9018,
      "eval_samples_per_second": 7.168,
      "eval_steps_per_second": 0.466,
      "step": 3
    },
    {
      "epoch": 0.125,
      "grad_norm": 0.7747695318679186,
      "learning_rate": 1.7227062322935725e-05,
      "loss": 1.3442,
      "step": 4
    },
    {
      "epoch": 0.125,
      "eval_loss": 1.3529690504074097,
      "eval_runtime": 27.9234,
      "eval_samples_per_second": 7.162,
      "eval_steps_per_second": 0.466,
      "step": 4
    },
    {
      "epoch": 0.15625,
      "grad_norm": 0.9223438945487747,
      "learning_rate": 2e-05,
      "loss": 1.3265,
      "step": 5
    },
    {
      "epoch": 0.15625,
      "eval_loss": 1.3111159801483154,
      "eval_runtime": 27.8183,
      "eval_samples_per_second": 7.19,
      "eval_steps_per_second": 0.467,
      "step": 5
    },
    {
      "epoch": 0.1875,
      "grad_norm": 0.8553066709777654,
      "learning_rate": 2e-05,
      "loss": 1.2969,
      "step": 6
    },
    {
      "epoch": 0.1875,
      "eval_loss": 1.267953634262085,
      "eval_runtime": 28.5087,
      "eval_samples_per_second": 7.015,
      "eval_steps_per_second": 0.456,
      "step": 6
    },
    {
      "epoch": 0.21875,
      "grad_norm": 0.7513319744508511,
      "learning_rate": 2e-05,
      "loss": 1.2643,
      "step": 7
    },
    {
      "epoch": 0.21875,
      "eval_loss": 1.2324440479278564,
      "eval_runtime": 28.7026,
      "eval_samples_per_second": 6.968,
      "eval_steps_per_second": 0.453,
      "step": 7
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.5926161530676572,
      "learning_rate": 2e-05,
      "loss": 1.2343,
      "step": 8
    },
    {
      "epoch": 0.25,
      "eval_loss": 1.2082672119140625,
      "eval_runtime": 28.709,
      "eval_samples_per_second": 6.966,
      "eval_steps_per_second": 0.453,
      "step": 8
    },
    {
      "epoch": 0.28125,
      "grad_norm": 0.45585108261607465,
      "learning_rate": 2e-05,
      "loss": 1.2556,
      "step": 9
    },
    {
      "epoch": 0.28125,
      "eval_loss": 1.1897780895233154,
      "eval_runtime": 28.5026,
      "eval_samples_per_second": 7.017,
      "eval_steps_per_second": 0.456,
      "step": 9
    },
    {
      "epoch": 0.3125,
      "grad_norm": 0.45306175711380503,
      "learning_rate": 2e-05,
      "loss": 1.1941,
      "step": 10
    },
    {
      "epoch": 0.3125,
      "eval_loss": 1.1719207763671875,
      "eval_runtime": 28.4252,
      "eval_samples_per_second": 7.036,
      "eval_steps_per_second": 0.457,
      "step": 10
    },
    {
      "epoch": 0.34375,
      "grad_norm": 0.40702053502599356,
      "learning_rate": 2e-05,
      "loss": 1.2414,
      "step": 11
    },
    {
      "epoch": 0.34375,
      "eval_loss": 1.1534627676010132,
      "eval_runtime": 31.953,
      "eval_samples_per_second": 6.259,
      "eval_steps_per_second": 0.407,
      "step": 11
    },
    {
      "epoch": 0.375,
      "grad_norm": 0.45771435281195333,
      "learning_rate": 2e-05,
      "loss": 1.202,
      "step": 12
    },
    {
      "epoch": 0.375,
      "eval_loss": 1.1343497037887573,
      "eval_runtime": 31.7064,
      "eval_samples_per_second": 6.308,
      "eval_steps_per_second": 0.41,
      "step": 12
    },
    {
      "epoch": 0.40625,
      "grad_norm": 0.49237132802399297,
      "learning_rate": 2e-05,
      "loss": 1.2167,
      "step": 13
    },
    {
      "epoch": 0.40625,
      "eval_loss": 1.1149284839630127,
      "eval_runtime": 31.7514,
      "eval_samples_per_second": 6.299,
      "eval_steps_per_second": 0.409,
      "step": 13
    },
    {
      "epoch": 0.4375,
      "grad_norm": 0.4707558788321445,
      "learning_rate": 2e-05,
      "loss": 1.0463,
      "step": 14
    },
    {
      "epoch": 0.4375,
      "eval_loss": 1.0956928730010986,
      "eval_runtime": 30.7821,
      "eval_samples_per_second": 6.497,
      "eval_steps_per_second": 0.422,
      "step": 14
    },
    {
      "epoch": 0.46875,
      "grad_norm": 0.44161060970171445,
      "learning_rate": 2e-05,
      "loss": 1.1615,
      "step": 15
    },
    {
      "epoch": 0.46875,
      "eval_loss": 1.0776234865188599,
      "eval_runtime": 30.5336,
      "eval_samples_per_second": 6.55,
      "eval_steps_per_second": 0.426,
      "step": 15
    },
    {
      "epoch": 0.5,
      "grad_norm": 0.43310242386256154,
      "learning_rate": 2e-05,
      "loss": 1.0941,
      "step": 16
    },
    {
      "epoch": 0.5,
      "eval_loss": 1.061128854751587,
      "eval_runtime": 33.8247,
      "eval_samples_per_second": 5.913,
      "eval_steps_per_second": 0.384,
      "step": 16
    },
    {
      "epoch": 0.53125,
      "grad_norm": 0.3719623439057395,
      "learning_rate": 2e-05,
      "loss": 1.0992,
      "step": 17
    },
    {
      "epoch": 0.53125,
      "eval_loss": 1.0465847253799438,
      "eval_runtime": 32.7443,
      "eval_samples_per_second": 6.108,
      "eval_steps_per_second": 0.397,
      "step": 17
    },
    {
      "epoch": 0.5625,
      "grad_norm": 0.42266460981580545,
      "learning_rate": 2e-05,
      "loss": 1.0904,
      "step": 18
    },
    {
      "epoch": 0.5625,
      "eval_loss": 1.0327677726745605,
      "eval_runtime": 32.5697,
      "eval_samples_per_second": 6.141,
      "eval_steps_per_second": 0.399,
      "step": 18
    },
    {
      "epoch": 0.59375,
      "grad_norm": 0.35416098431161336,
      "learning_rate": 2e-05,
      "loss": 1.0055,
      "step": 19
    },
    {
      "epoch": 0.59375,
      "eval_loss": 1.019870638847351,
      "eval_runtime": 32.6927,
      "eval_samples_per_second": 6.118,
      "eval_steps_per_second": 0.398,
      "step": 19
    },
    {
      "epoch": 0.625,
      "grad_norm": 0.3454390449296124,
      "learning_rate": 2e-05,
      "loss": 1.1291,
      "step": 20
    },
    {
      "epoch": 0.625,
      "eval_loss": 1.008323311805725,
      "eval_runtime": 32.5051,
      "eval_samples_per_second": 6.153,
      "eval_steps_per_second": 0.4,
      "step": 20
    },
    {
      "epoch": 0.65625,
      "grad_norm": 0.291766075949861,
      "learning_rate": 2e-05,
      "loss": 1.0363,
      "step": 21
    },
    {
      "epoch": 0.65625,
      "eval_loss": 0.9983346462249756,
      "eval_runtime": 36.1543,
      "eval_samples_per_second": 5.532,
      "eval_steps_per_second": 0.36,
      "step": 21
    },
    {
      "epoch": 0.6875,
      "grad_norm": 0.3071914269593122,
      "learning_rate": 2e-05,
      "loss": 1.0869,
      "step": 22
    },
    {
      "epoch": 0.6875,
      "eval_loss": 0.989651083946228,
      "eval_runtime": 35.9583,
      "eval_samples_per_second": 5.562,
      "eval_steps_per_second": 0.362,
      "step": 22
    },
    {
      "epoch": 0.71875,
      "grad_norm": 0.2642686659789585,
      "learning_rate": 2e-05,
      "loss": 1.0706,
      "step": 23
    },
    {
      "epoch": 0.71875,
      "eval_loss": 0.981977641582489,
      "eval_runtime": 35.7624,
      "eval_samples_per_second": 5.592,
      "eval_steps_per_second": 0.364,
      "step": 23
    },
    {
      "epoch": 0.75,
      "grad_norm": 0.23789134722319716,
      "learning_rate": 2e-05,
      "loss": 1.0669,
      "step": 24
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.9751532077789307,
      "eval_runtime": 35.6905,
      "eval_samples_per_second": 5.604,
      "eval_steps_per_second": 0.364,
      "step": 24
    },
    {
      "epoch": 0.78125,
      "grad_norm": 0.26302325685095884,
      "learning_rate": 2e-05,
      "loss": 1.0141,
      "step": 25
    },
    {
      "epoch": 0.78125,
      "eval_loss": 0.9684178233146667,
      "eval_runtime": 35.4693,
      "eval_samples_per_second": 5.639,
      "eval_steps_per_second": 0.367,
      "step": 25
    },
    {
      "epoch": 0.8125,
      "grad_norm": 0.2406662725995088,
      "learning_rate": 2e-05,
      "loss": 1.0381,
      "step": 26
    },
    {
      "epoch": 0.8125,
      "eval_loss": 0.9618947505950928,
      "eval_runtime": 37.5325,
      "eval_samples_per_second": 5.329,
      "eval_steps_per_second": 0.346,
      "step": 26
    },
    {
      "epoch": 0.84375,
      "grad_norm": 0.27899113172875245,
      "learning_rate": 2e-05,
      "loss": 0.9693,
      "step": 27
    },
    {
      "epoch": 0.84375,
      "eval_loss": 0.9552007913589478,
      "eval_runtime": 37.4006,
      "eval_samples_per_second": 5.348,
      "eval_steps_per_second": 0.348,
      "step": 27
    },
    {
      "epoch": 0.875,
      "grad_norm": 0.29303174930955905,
      "learning_rate": 2e-05,
      "loss": 0.9841,
      "step": 28
    },
    {
      "epoch": 0.875,
      "eval_loss": 0.9481881856918335,
      "eval_runtime": 37.7821,
      "eval_samples_per_second": 5.294,
      "eval_steps_per_second": 0.344,
      "step": 28
    },
    {
      "epoch": 0.90625,
      "grad_norm": 0.22138226087715307,
      "learning_rate": 2e-05,
      "loss": 0.9959,
      "step": 29
    },
    {
      "epoch": 0.90625,
      "eval_loss": 0.9415397644042969,
      "eval_runtime": 37.9058,
      "eval_samples_per_second": 5.276,
      "eval_steps_per_second": 0.343,
      "step": 29
    },
    {
      "epoch": 0.9375,
      "grad_norm": 0.23456101188675513,
      "learning_rate": 2e-05,
      "loss": 1.0351,
      "step": 30
    },
    {
      "epoch": 0.9375,
      "eval_loss": 0.9354143738746643,
      "eval_runtime": 37.9727,
      "eval_samples_per_second": 5.267,
      "eval_steps_per_second": 0.342,
      "step": 30
    },
    {
      "epoch": 0.96875,
      "grad_norm": 0.2594838155429295,
      "learning_rate": 2e-05,
      "loss": 0.8741,
      "step": 31
    },
    {
      "epoch": 0.96875,
      "eval_loss": 0.9291737079620361,
      "eval_runtime": 37.081,
      "eval_samples_per_second": 5.394,
      "eval_steps_per_second": 0.351,
      "step": 31
    },
    {
      "epoch": 1.0,
      "grad_norm": 0.2404582058613114,
      "learning_rate": 2e-05,
      "loss": 0.9814,
      "step": 32
    },
    {
      "epoch": 1.0,
      "eval_loss": 0.9231625199317932,
      "eval_runtime": 37.0946,
      "eval_samples_per_second": 5.392,
      "eval_steps_per_second": 0.35,
      "step": 32
    },
    {
      "epoch": 1.03125,
      "grad_norm": 0.26862391186560797,
      "learning_rate": 2e-05,
      "loss": 1.0241,
      "step": 33
    },
    {
      "epoch": 1.03125,
      "eval_loss": 0.917277991771698,
      "eval_runtime": 37.1872,
      "eval_samples_per_second": 5.378,
      "eval_steps_per_second": 0.35,
      "step": 33
    },
    {
      "epoch": 1.0625,
      "grad_norm": 0.24997341491489666,
      "learning_rate": 2e-05,
      "loss": 1.0296,
      "step": 34
    },
    {
      "epoch": 1.0625,
      "eval_loss": 0.9116549491882324,
      "eval_runtime": 30.7053,
      "eval_samples_per_second": 6.514,
      "eval_steps_per_second": 0.423,
      "step": 34
    },
    {
      "epoch": 1.09375,
      "grad_norm": 0.22755062908849677,
      "learning_rate": 2e-05,
      "loss": 1.047,
      "step": 35
    },
    {
      "epoch": 1.09375,
      "eval_loss": 0.9061525464057922,
      "eval_runtime": 30.5238,
      "eval_samples_per_second": 6.552,
      "eval_steps_per_second": 0.426,
      "step": 35
    },
    {
      "epoch": 1.125,
      "grad_norm": 0.2478793998097894,
      "learning_rate": 2e-05,
      "loss": 1.0071,
      "step": 36
    },
    {
      "epoch": 1.125,
      "eval_loss": 0.9007319808006287,
      "eval_runtime": 30.4573,
      "eval_samples_per_second": 6.567,
      "eval_steps_per_second": 0.427,
      "step": 36
    },
    {
      "epoch": 1.15625,
      "grad_norm": 0.2319702521014333,
      "learning_rate": 2e-05,
      "loss": 0.9517,
      "step": 37
    },
    {
      "epoch": 1.15625,
      "eval_loss": 0.8955077528953552,
      "eval_runtime": 30.6396,
      "eval_samples_per_second": 6.528,
      "eval_steps_per_second": 0.424,
      "step": 37
    },
    {
      "epoch": 1.1875,
      "grad_norm": 0.26929965642782505,
      "learning_rate": 2e-05,
      "loss": 0.9638,
      "step": 38
    },
    {
      "epoch": 1.1875,
      "eval_loss": 0.8906582593917847,
      "eval_runtime": 30.5706,
      "eval_samples_per_second": 6.542,
      "eval_steps_per_second": 0.425,
      "step": 38
    },
    {
      "epoch": 1.21875,
      "grad_norm": 0.25494286133089294,
      "learning_rate": 2e-05,
      "loss": 0.9922,
      "step": 39
    },
    {
      "epoch": 1.21875,
      "eval_loss": 0.8858879804611206,
      "eval_runtime": 30.2267,
      "eval_samples_per_second": 6.617,
      "eval_steps_per_second": 0.43,
      "step": 39
    },
    {
      "epoch": 1.25,
      "grad_norm": 0.2468866713698415,
      "learning_rate": 2e-05,
      "loss": 0.9873,
      "step": 40
    },
    {
      "epoch": 1.25,
      "eval_loss": 0.8811590671539307,
      "eval_runtime": 30.1065,
      "eval_samples_per_second": 6.643,
      "eval_steps_per_second": 0.432,
      "step": 40
    },
    {
      "epoch": 1.28125,
      "grad_norm": 0.2460619663724958,
      "learning_rate": 2e-05,
      "loss": 0.9608,
      "step": 41
    },
    {
      "epoch": 1.28125,
      "eval_loss": 0.876426637172699,
      "eval_runtime": 30.2618,
      "eval_samples_per_second": 6.609,
      "eval_steps_per_second": 0.43,
      "step": 41
    },
    {
      "epoch": 1.3125,
      "grad_norm": 0.244111044045335,
      "learning_rate": 2e-05,
      "loss": 0.9496,
      "step": 42
    },
    {
      "epoch": 1.3125,
      "eval_loss": 0.8720347881317139,
      "eval_runtime": 30.2637,
      "eval_samples_per_second": 6.609,
      "eval_steps_per_second": 0.43,
      "step": 42
    },
    {
      "epoch": 1.34375,
      "grad_norm": 0.24263485999072093,
      "learning_rate": 2e-05,
      "loss": 0.9076,
      "step": 43
    },
    {
      "epoch": 1.34375,
      "eval_loss": 0.8677232265472412,
      "eval_runtime": 30.0588,
      "eval_samples_per_second": 6.654,
      "eval_steps_per_second": 0.432,
      "step": 43
    },
    {
      "epoch": 1.375,
      "grad_norm": 0.2549786588443146,
      "learning_rate": 2e-05,
      "loss": 0.9291,
      "step": 44
    },
    {
      "epoch": 1.375,
      "eval_loss": 0.864047110080719,
      "eval_runtime": 30.3833,
      "eval_samples_per_second": 6.583,
      "eval_steps_per_second": 0.428,
      "step": 44
    },
    {
      "epoch": 1.40625,
      "grad_norm": 0.27020952324959413,
      "learning_rate": 2e-05,
      "loss": 0.9111,
      "step": 45
    },
    {
      "epoch": 1.40625,
      "eval_loss": 0.8608524799346924,
      "eval_runtime": 30.284,
      "eval_samples_per_second": 6.604,
      "eval_steps_per_second": 0.429,
      "step": 45
    },
    {
      "epoch": 1.4375,
      "grad_norm": 0.24108750741309573,
      "learning_rate": 2e-05,
      "loss": 0.8363,
      "step": 46
    },
    {
      "epoch": 1.4375,
      "eval_loss": 0.8525222539901733,
      "eval_runtime": 51.3231,
      "eval_samples_per_second": 3.897,
      "eval_steps_per_second": 0.487,
      "step": 46
    },
    {
      "epoch": 1.46875,
      "grad_norm": 0.23963570627035977,
      "learning_rate": 2e-05,
      "loss": 0.9776,
      "step": 47
    },
    {
      "epoch": 1.46875,
      "eval_loss": 0.8498736619949341,
      "eval_runtime": 43.9039,
      "eval_samples_per_second": 4.555,
      "eval_steps_per_second": 0.569,
      "step": 47
    },
    {
      "epoch": 1.5,
      "grad_norm": 0.2738559790360609,
      "learning_rate": 2e-05,
      "loss": 0.9075,
      "step": 48
    },
    {
      "epoch": 1.5,
      "eval_loss": 0.846975564956665,
      "eval_runtime": 43.6943,
      "eval_samples_per_second": 4.577,
      "eval_steps_per_second": 0.572,
      "step": 48
    },
    {
      "epoch": 1.53125,
      "grad_norm": 0.2516715524185528,
      "learning_rate": 2e-05,
      "loss": 0.9256,
      "step": 49
    },
    {
      "epoch": 1.53125,
      "eval_loss": 0.8441421985626221,
      "eval_runtime": 44.0977,
      "eval_samples_per_second": 4.535,
      "eval_steps_per_second": 0.567,
      "step": 49
    },
    {
      "epoch": 1.5625,
      "grad_norm": 0.25797542568004944,
      "learning_rate": 2e-05,
      "loss": 0.9168,
      "step": 50
    },
    {
      "epoch": 1.5625,
      "eval_loss": 0.8408769369125366,
      "eval_runtime": 45.4442,
      "eval_samples_per_second": 4.401,
      "eval_steps_per_second": 0.55,
      "step": 50
    },
    {
      "epoch": 1.59375,
      "grad_norm": 0.24530872900913284,
      "learning_rate": 2e-05,
      "loss": 0.8547,
      "step": 51
    },
    {
      "epoch": 1.59375,
      "eval_loss": 0.8373726010322571,
      "eval_runtime": 44.6363,
      "eval_samples_per_second": 4.481,
      "eval_steps_per_second": 0.56,
      "step": 51
    },
    {
      "epoch": 1.625,
      "grad_norm": 0.2549609506617865,
      "learning_rate": 2e-05,
      "loss": 0.979,
      "step": 52
    },
    {
      "epoch": 1.625,
      "eval_loss": 0.8340890407562256,
      "eval_runtime": 45.991,
      "eval_samples_per_second": 4.349,
      "eval_steps_per_second": 0.544,
      "step": 52
    },
    {
      "epoch": 1.65625,
      "grad_norm": 0.24114496664848603,
      "learning_rate": 2e-05,
      "loss": 0.9196,
      "step": 53
    },
    {
      "epoch": 1.65625,
      "eval_loss": 0.8311529755592346,
      "eval_runtime": 46.0654,
      "eval_samples_per_second": 4.342,
      "eval_steps_per_second": 0.543,
      "step": 53
    },
    {
      "epoch": 1.6875,
      "grad_norm": 0.29287872202759435,
      "learning_rate": 2e-05,
      "loss": 0.967,
      "step": 54
    },
    {
      "epoch": 1.6875,
      "eval_loss": 0.8281388282775879,
      "eval_runtime": 46.0396,
      "eval_samples_per_second": 4.344,
      "eval_steps_per_second": 0.543,
      "step": 54
    },
    {
      "epoch": 1.71875,
      "grad_norm": 0.2620663114325604,
      "learning_rate": 2e-05,
      "loss": 0.9576,
      "step": 55
    },
    {
      "epoch": 1.71875,
      "eval_loss": 0.8252360820770264,
      "eval_runtime": 44.8935,
      "eval_samples_per_second": 4.455,
      "eval_steps_per_second": 0.557,
      "step": 55
    },
    {
      "epoch": 1.75,
      "grad_norm": 0.24813796796229484,
      "learning_rate": 2e-05,
      "loss": 0.9652,
      "step": 56
    },
    {
      "epoch": 1.75,
      "eval_loss": 0.8228487968444824,
      "eval_runtime": 45.9424,
      "eval_samples_per_second": 4.353,
      "eval_steps_per_second": 0.544,
      "step": 56
    },
    {
      "epoch": 1.78125,
      "grad_norm": 0.25644243214043555,
      "learning_rate": 2e-05,
      "loss": 0.8938,
      "step": 57
    },
    {
      "epoch": 1.78125,
      "eval_loss": 0.8202834129333496,
      "eval_runtime": 45.4583,
      "eval_samples_per_second": 4.4,
      "eval_steps_per_second": 0.55,
      "step": 57
    },
    {
      "epoch": 1.8125,
      "grad_norm": 0.24429328723074778,
      "learning_rate": 2e-05,
      "loss": 0.9373,
      "step": 58
    },
    {
      "epoch": 1.8125,
      "eval_loss": 0.8179032802581787,
      "eval_runtime": 45.7499,
      "eval_samples_per_second": 4.372,
      "eval_steps_per_second": 0.546,
      "step": 58
    },
    {
      "epoch": 1.84375,
      "grad_norm": 0.26226013327841075,
      "learning_rate": 2e-05,
      "loss": 0.8474,
      "step": 59
    },
    {
      "epoch": 1.84375,
      "eval_loss": 0.8154602646827698,
      "eval_runtime": 46.1391,
      "eval_samples_per_second": 4.335,
      "eval_steps_per_second": 0.542,
      "step": 59
    },
    {
      "epoch": 1.875,
      "grad_norm": 0.2581666046262149,
      "learning_rate": 2e-05,
      "loss": 0.8517,
      "step": 60
    },
    {
      "epoch": 1.875,
      "eval_loss": 0.812771737575531,
      "eval_runtime": 45.5621,
      "eval_samples_per_second": 4.39,
      "eval_steps_per_second": 0.549,
      "step": 60
    },
    {
      "epoch": 1.90625,
      "grad_norm": 0.2593197258112398,
      "learning_rate": 2e-05,
      "loss": 0.9011,
      "step": 61
    },
    {
      "epoch": 1.90625,
      "eval_loss": 0.810187816619873,
      "eval_runtime": 46.0597,
      "eval_samples_per_second": 4.342,
      "eval_steps_per_second": 0.543,
      "step": 61
    },
    {
      "epoch": 1.9375,
      "grad_norm": 0.2899895571193183,
      "learning_rate": 2e-05,
      "loss": 0.9277,
      "step": 62
    },
    {
      "epoch": 1.9375,
      "eval_loss": 0.8083757758140564,
      "eval_runtime": 45.8079,
      "eval_samples_per_second": 4.366,
      "eval_steps_per_second": 0.546,
      "step": 62
    },
    {
      "epoch": 1.96875,
      "grad_norm": 0.2759215195414453,
      "learning_rate": 2e-05,
      "loss": 0.772,
      "step": 63
    },
    {
      "epoch": 1.96875,
      "eval_loss": 0.8061204552650452,
      "eval_runtime": 47.3286,
      "eval_samples_per_second": 4.226,
      "eval_steps_per_second": 0.528,
      "step": 63
    },
    {
      "epoch": 2.0,
      "grad_norm": 0.27248680511516205,
      "learning_rate": 2e-05,
      "loss": 0.874,
      "step": 64
    },
    {
      "epoch": 2.0,
      "eval_loss": 0.8037504553794861,
      "eval_runtime": 46.1177,
      "eval_samples_per_second": 4.337,
      "eval_steps_per_second": 0.542,
      "step": 64
    },
    {
      "epoch": 2.03125,
      "grad_norm": 0.3116755816558186,
      "learning_rate": 2e-05,
      "loss": 0.8647,
      "step": 65
    },
    {
      "epoch": 2.03125,
      "eval_loss": 0.8007115125656128,
      "eval_runtime": 46.1583,
      "eval_samples_per_second": 4.333,
      "eval_steps_per_second": 0.542,
      "step": 65
    },
    {
      "epoch": 2.0625,
      "grad_norm": 0.273032515206887,
      "learning_rate": 2e-05,
      "loss": 0.8862,
      "step": 66
    },
    {
      "epoch": 2.0625,
      "eval_loss": 0.7983976006507874,
      "eval_runtime": 47.3469,
      "eval_samples_per_second": 4.224,
      "eval_steps_per_second": 0.528,
      "step": 66
    },
    {
      "epoch": 2.09375,
      "grad_norm": 0.2925240383907651,
      "learning_rate": 2e-05,
      "loss": 0.8617,
      "step": 67
    },
    {
      "epoch": 2.09375,
      "eval_loss": 0.7959001064300537,
      "eval_runtime": 47.9208,
      "eval_samples_per_second": 4.174,
      "eval_steps_per_second": 0.522,
      "step": 67
    },
    {
      "epoch": 2.125,
      "grad_norm": 0.25775933439981163,
      "learning_rate": 2e-05,
      "loss": 0.9269,
      "step": 68
    },
    {
      "epoch": 2.125,
      "eval_loss": 0.7938115000724792,
      "eval_runtime": 47.8909,
      "eval_samples_per_second": 4.176,
      "eval_steps_per_second": 0.522,
      "step": 68
    },
    {
      "epoch": 2.15625,
      "grad_norm": 0.2669684013704678,
      "learning_rate": 2e-05,
      "loss": 0.8607,
      "step": 69
    },
    {
      "epoch": 2.15625,
      "eval_loss": 0.7918573617935181,
      "eval_runtime": 47.39,
      "eval_samples_per_second": 4.22,
      "eval_steps_per_second": 0.528,
      "step": 69
    },
    {
      "epoch": 2.1875,
      "grad_norm": 0.312578346444957,
      "learning_rate": 2e-05,
      "loss": 0.8086,
      "step": 70
    },
    {
      "epoch": 2.1875,
      "eval_loss": 0.7894810438156128,
      "eval_runtime": 46.2927,
      "eval_samples_per_second": 4.32,
      "eval_steps_per_second": 0.54,
      "step": 70
    },
    {
      "epoch": 2.21875,
      "grad_norm": 0.25622754870894693,
      "learning_rate": 2e-05,
      "loss": 0.8945,
      "step": 71
    },
    {
      "epoch": 2.21875,
      "eval_loss": 0.7875316739082336,
      "eval_runtime": 45.7617,
      "eval_samples_per_second": 4.37,
      "eval_steps_per_second": 0.546,
      "step": 71
    },
    {
      "epoch": 2.25,
      "grad_norm": 0.27025767580736354,
      "learning_rate": 2e-05,
      "loss": 0.815,
      "step": 72
    },
    {
      "epoch": 2.25,
      "eval_loss": 0.7858334183692932,
      "eval_runtime": 46.2427,
      "eval_samples_per_second": 4.325,
      "eval_steps_per_second": 0.541,
      "step": 72
    },
    {
      "epoch": 2.28125,
      "grad_norm": 0.3110479115695806,
      "learning_rate": 2e-05,
      "loss": 0.8621,
      "step": 73
    },
    {
      "epoch": 2.28125,
      "eval_loss": 0.7841551303863525,
      "eval_runtime": 46.5372,
      "eval_samples_per_second": 4.298,
      "eval_steps_per_second": 0.537,
      "step": 73
    },
    {
      "epoch": 2.3125,
      "grad_norm": 0.26061305588172545,
      "learning_rate": 2e-05,
      "loss": 0.8622,
      "step": 74
    },
    {
      "epoch": 2.3125,
      "eval_loss": 0.7826495170593262,
      "eval_runtime": 46.1361,
      "eval_samples_per_second": 4.335,
      "eval_steps_per_second": 0.542,
      "step": 74
    },
    {
      "epoch": 2.34375,
      "grad_norm": 0.27448719719872205,
      "learning_rate": 2e-05,
      "loss": 0.9118,
      "step": 75
    },
    {
      "epoch": 2.34375,
      "eval_loss": 0.7811364531517029,
      "eval_runtime": 47.6194,
      "eval_samples_per_second": 4.2,
      "eval_steps_per_second": 0.525,
      "step": 75
    },
    {
      "epoch": 2.375,
      "grad_norm": 0.27078145092639194,
      "learning_rate": 2e-05,
      "loss": 0.8256,
      "step": 76
    },
    {
      "epoch": 2.375,
      "eval_loss": 0.779961109161377,
      "eval_runtime": 46.0097,
      "eval_samples_per_second": 4.347,
      "eval_steps_per_second": 0.543,
      "step": 76
    },
    {
      "epoch": 2.40625,
      "grad_norm": 0.2634646272324293,
      "learning_rate": 2e-05,
      "loss": 0.8774,
      "step": 77
    },
    {
      "epoch": 2.40625,
      "eval_loss": 0.7788712978363037,
      "eval_runtime": 46.2712,
      "eval_samples_per_second": 4.322,
      "eval_steps_per_second": 0.54,
      "step": 77
    },
    {
      "epoch": 2.4375,
      "grad_norm": 0.3101668401682978,
      "learning_rate": 2e-05,
      "loss": 0.8769,
      "step": 78
    },
    {
      "epoch": 2.4375,
      "eval_loss": 0.7776928544044495,
      "eval_runtime": 46.3791,
      "eval_samples_per_second": 4.312,
      "eval_steps_per_second": 0.539,
      "step": 78
    },
    {
      "epoch": 2.46875,
      "grad_norm": 0.28798302574187284,
      "learning_rate": 2e-05,
      "loss": 0.8765,
      "step": 79
    },
    {
      "epoch": 2.46875,
      "eval_loss": 0.7773044109344482,
      "eval_runtime": 43.9352,
      "eval_samples_per_second": 4.552,
      "eval_steps_per_second": 0.569,
      "step": 79
    },
    {
      "epoch": 2.5,
      "grad_norm": 0.3349887736240022,
      "learning_rate": 2e-05,
      "loss": 0.9202,
      "step": 80
    },
    {
      "epoch": 2.5,
      "eval_loss": 0.7766420245170593,
      "eval_runtime": 44.0118,
      "eval_samples_per_second": 4.544,
      "eval_steps_per_second": 0.568,
      "step": 80
    },
    {
      "epoch": 2.53125,
      "grad_norm": 0.3272989979927921,
      "learning_rate": 2e-05,
      "loss": 0.8496,
      "step": 81
    },
    {
      "epoch": 2.53125,
      "eval_loss": 0.7754170894622803,
      "eval_runtime": 44.5079,
      "eval_samples_per_second": 4.494,
      "eval_steps_per_second": 0.562,
      "step": 81
    },
    {
      "epoch": 2.5625,
      "grad_norm": 0.2937867633662159,
      "learning_rate": 2e-05,
      "loss": 0.9088,
      "step": 82
    },
    {
      "epoch": 2.5625,
      "eval_loss": 0.7740327715873718,
      "eval_runtime": 43.7759,
      "eval_samples_per_second": 4.569,
      "eval_steps_per_second": 0.571,
      "step": 82
    },
    {
      "epoch": 2.59375,
      "grad_norm": 0.3001827875228488,
      "learning_rate": 2e-05,
      "loss": 0.8514,
      "step": 83
    },
    {
      "epoch": 2.59375,
      "eval_loss": 0.7725099921226501,
      "eval_runtime": 43.9246,
      "eval_samples_per_second": 4.553,
      "eval_steps_per_second": 0.569,
      "step": 83
    },
    {
      "epoch": 2.625,
      "grad_norm": 0.3153202233063334,
      "learning_rate": 2e-05,
      "loss": 0.8232,
      "step": 84
    },
    {
      "epoch": 2.625,
      "eval_loss": 0.7707765698432922,
      "eval_runtime": 45.7981,
      "eval_samples_per_second": 4.367,
      "eval_steps_per_second": 0.546,
      "step": 84
    },
    {
      "epoch": 2.65625,
      "grad_norm": 0.3084122812305825,
      "learning_rate": 2e-05,
      "loss": 0.7899,
      "step": 85
    },
    {
      "epoch": 2.65625,
      "eval_loss": 0.7689283490180969,
      "eval_runtime": 43.8712,
      "eval_samples_per_second": 4.559,
      "eval_steps_per_second": 0.57,
      "step": 85
    },
    {
      "epoch": 2.6875,
      "grad_norm": 0.34994590801092706,
      "learning_rate": 2e-05,
      "loss": 0.8186,
      "step": 86
    },
    {
      "epoch": 2.6875,
      "eval_loss": 0.7668275237083435,
      "eval_runtime": 44.0477,
      "eval_samples_per_second": 4.541,
      "eval_steps_per_second": 0.568,
      "step": 86
    },
    {
      "epoch": 2.71875,
      "grad_norm": 0.33626535961990944,
      "learning_rate": 2e-05,
      "loss": 0.8439,
      "step": 87
    },
    {
      "epoch": 2.71875,
      "eval_loss": 0.7653672695159912,
      "eval_runtime": 43.9923,
      "eval_samples_per_second": 4.546,
      "eval_steps_per_second": 0.568,
      "step": 87
    },
    {
      "epoch": 2.75,
      "grad_norm": 0.33991458856080364,
      "learning_rate": 2e-05,
      "loss": 0.9309,
      "step": 88
    },
    {
      "epoch": 2.75,
      "eval_loss": 0.7641142010688782,
      "eval_runtime": 44.018,
      "eval_samples_per_second": 4.544,
      "eval_steps_per_second": 0.568,
      "step": 88
    },
    {
      "epoch": 2.78125,
      "grad_norm": 0.3212547051979476,
      "learning_rate": 2e-05,
      "loss": 0.8262,
      "step": 89
    },
    {
      "epoch": 2.78125,
      "eval_loss": 0.763224720954895,
      "eval_runtime": 43.7722,
      "eval_samples_per_second": 4.569,
      "eval_steps_per_second": 0.571,
      "step": 89
    },
    {
      "epoch": 2.8125,
      "grad_norm": 0.335120027091876,
      "learning_rate": 2e-05,
      "loss": 0.8795,
      "step": 90
    },
    {
      "epoch": 2.8125,
      "eval_loss": 0.7624655365943909,
      "eval_runtime": 44.1972,
      "eval_samples_per_second": 4.525,
      "eval_steps_per_second": 0.566,
      "step": 90
    },
    {
      "epoch": 2.84375,
      "grad_norm": 0.33822766071160937,
      "learning_rate": 2e-05,
      "loss": 0.7798,
      "step": 91
    },
    {
      "epoch": 2.84375,
      "eval_loss": 0.761708676815033,
      "eval_runtime": 43.8244,
      "eval_samples_per_second": 4.564,
      "eval_steps_per_second": 0.57,
      "step": 91
    },
    {
      "epoch": 2.875,
      "grad_norm": 0.33505853726890483,
      "learning_rate": 2e-05,
      "loss": 0.8715,
      "step": 92
    },
    {
      "epoch": 2.875,
      "eval_loss": 0.7611495852470398,
      "eval_runtime": 43.7833,
      "eval_samples_per_second": 4.568,
      "eval_steps_per_second": 0.571,
      "step": 92
    },
    {
      "epoch": 2.90625,
      "grad_norm": 0.3126942865091584,
      "learning_rate": 2e-05,
      "loss": 0.8102,
      "step": 93
    },
    {
      "epoch": 2.90625,
      "eval_loss": 0.7608107924461365,
      "eval_runtime": 44.0119,
      "eval_samples_per_second": 4.544,
      "eval_steps_per_second": 0.568,
      "step": 93
    },
    {
      "epoch": 2.9375,
      "grad_norm": 0.3594152593867412,
      "learning_rate": 2e-05,
      "loss": 0.8871,
      "step": 94
    },
    {
      "epoch": 2.9375,
      "eval_loss": 0.7598913311958313,
      "eval_runtime": 43.8956,
      "eval_samples_per_second": 4.556,
      "eval_steps_per_second": 0.57,
      "step": 94
    },
    {
      "epoch": 2.96875,
      "grad_norm": 0.3161380007473764,
      "learning_rate": 2e-05,
      "loss": 0.8278,
      "step": 95
    },
    {
      "epoch": 2.96875,
      "eval_loss": 0.7596660852432251,
      "eval_runtime": 44.0687,
      "eval_samples_per_second": 4.538,
      "eval_steps_per_second": 0.567,
      "step": 95
    },
    {
      "epoch": 3.0,
      "grad_norm": 0.3922097294803287,
      "learning_rate": 2e-05,
      "loss": 0.7988,
      "step": 96
    },
    {
      "epoch": 3.0,
      "eval_loss": 0.7576884627342224,
      "eval_runtime": 44.1881,
      "eval_samples_per_second": 4.526,
      "eval_steps_per_second": 0.566,
      "step": 96
    },
    {
      "epoch": 3.03125,
      "grad_norm": 0.372234038126675,
      "learning_rate": 2e-05,
      "loss": 0.7558,
      "step": 97
    },
    {
      "epoch": 3.03125,
      "eval_loss": 0.7546435594558716,
      "eval_runtime": 43.8881,
      "eval_samples_per_second": 4.557,
      "eval_steps_per_second": 0.57,
      "step": 97
    },
    {
      "epoch": 3.0625,
      "grad_norm": 0.3249396043376576,
      "learning_rate": 2e-05,
      "loss": 0.8422,
      "step": 98
    },
    {
      "epoch": 3.0625,
      "eval_loss": 0.7515354752540588,
      "eval_runtime": 44.5887,
      "eval_samples_per_second": 4.485,
      "eval_steps_per_second": 0.561,
      "step": 98
    },
    {
      "epoch": 3.09375,
      "grad_norm": 0.3194387311297811,
      "learning_rate": 2e-05,
      "loss": 0.8059,
      "step": 99
    },
    {
      "epoch": 3.09375,
      "eval_loss": 0.7486842274665833,
      "eval_runtime": 44.0967,
      "eval_samples_per_second": 4.535,
      "eval_steps_per_second": 0.567,
      "step": 99
    },
    {
      "epoch": 3.125,
      "grad_norm": 0.3434194037136213,
      "learning_rate": 2e-05,
      "loss": 0.8341,
      "step": 100
    },
    {
      "epoch": 3.125,
      "eval_loss": 0.7464652061462402,
      "eval_runtime": 44.0666,
      "eval_samples_per_second": 4.539,
      "eval_steps_per_second": 0.567,
      "step": 100
    },
    {
      "epoch": 3.15625,
      "grad_norm": 0.33666008484696835,
      "learning_rate": 2e-05,
      "loss": 0.7731,
      "step": 101
    },
    {
      "epoch": 3.15625,
      "eval_loss": 0.7450191378593445,
      "eval_runtime": 44.0337,
      "eval_samples_per_second": 4.542,
      "eval_steps_per_second": 0.568,
      "step": 101
    },
    {
      "epoch": 3.1875,
      "grad_norm": 0.3596265575837954,
      "learning_rate": 2e-05,
      "loss": 0.8354,
      "step": 102
    },
    {
      "epoch": 3.1875,
      "eval_loss": 0.7442840337753296,
      "eval_runtime": 44.0804,
      "eval_samples_per_second": 4.537,
      "eval_steps_per_second": 0.567,
      "step": 102
    },
    {
      "epoch": 3.21875,
      "grad_norm": 0.37228869739935877,
      "learning_rate": 2e-05,
      "loss": 0.8476,
      "step": 103
    },
    {
      "epoch": 3.21875,
      "eval_loss": 0.74405837059021,
      "eval_runtime": 43.9201,
      "eval_samples_per_second": 4.554,
      "eval_steps_per_second": 0.569,
      "step": 103
    },
    {
      "epoch": 3.25,
      "grad_norm": 0.372126737706513,
      "learning_rate": 2e-05,
      "loss": 0.7568,
      "step": 104
    },
    {
      "epoch": 3.25,
      "eval_loss": 0.7435027360916138,
      "eval_runtime": 44.0105,
      "eval_samples_per_second": 4.544,
      "eval_steps_per_second": 0.568,
      "step": 104
    },
    {
      "epoch": 3.28125,
      "grad_norm": 0.3362686942090606,
      "learning_rate": 2e-05,
      "loss": 0.8035,
      "step": 105
    },
    {
      "epoch": 3.28125,
      "eval_loss": 0.7431904673576355,
      "eval_runtime": 43.9113,
      "eval_samples_per_second": 4.555,
      "eval_steps_per_second": 0.569,
      "step": 105
    },
    {
      "epoch": 3.3125,
      "grad_norm": 0.36392229188159225,
      "learning_rate": 2e-05,
      "loss": 0.8353,
      "step": 106
    },
    {
      "epoch": 3.3125,
      "eval_loss": 0.7430496215820312,
      "eval_runtime": 44.6371,
      "eval_samples_per_second": 4.481,
      "eval_steps_per_second": 0.56,
      "step": 106
    },
    {
      "epoch": 3.34375,
      "grad_norm": 0.4471327905090859,
      "learning_rate": 2e-05,
      "loss": 0.7363,
      "step": 107
    },
    {
      "epoch": 3.34375,
      "eval_loss": 0.7411425709724426,
      "eval_runtime": 44.7094,
      "eval_samples_per_second": 4.473,
      "eval_steps_per_second": 0.559,
      "step": 107
    },
    {
      "epoch": 3.375,
      "grad_norm": 0.3716356236311949,
      "learning_rate": 2e-05,
      "loss": 0.7774,
      "step": 108
    },
    {
      "epoch": 3.375,
      "eval_loss": 0.7391970753669739,
      "eval_runtime": 44.6877,
      "eval_samples_per_second": 4.476,
      "eval_steps_per_second": 0.559,
      "step": 108
    },
    {
      "epoch": 3.40625,
      "grad_norm": 0.39848151618324823,
      "learning_rate": 2e-05,
      "loss": 0.766,
      "step": 109
    },
    {
      "epoch": 3.40625,
      "eval_loss": 0.7370663285255432,
      "eval_runtime": 44.7716,
      "eval_samples_per_second": 4.467,
      "eval_steps_per_second": 0.558,
      "step": 109
    },
    {
      "epoch": 3.4375,
      "grad_norm": 0.3979613694284285,
      "learning_rate": 2e-05,
      "loss": 0.7647,
      "step": 110
    },
    {
      "epoch": 3.4375,
      "eval_loss": 0.7347142100334167,
      "eval_runtime": 46.1551,
      "eval_samples_per_second": 4.333,
      "eval_steps_per_second": 0.542,
      "step": 110
    },
    {
      "epoch": 3.46875,
      "grad_norm": 0.4005021474949748,
      "learning_rate": 2e-05,
      "loss": 0.8363,
      "step": 111
    },
    {
      "epoch": 3.46875,
      "eval_loss": 0.7330761551856995,
      "eval_runtime": 45.4921,
      "eval_samples_per_second": 4.396,
      "eval_steps_per_second": 0.55,
      "step": 111
    },
    {
      "epoch": 3.5,
      "grad_norm": 0.3814831442952738,
      "learning_rate": 2e-05,
      "loss": 0.8172,
      "step": 112
    },
    {
      "epoch": 3.5,
      "eval_loss": 0.7321842908859253,
      "eval_runtime": 46.3117,
      "eval_samples_per_second": 4.319,
      "eval_steps_per_second": 0.54,
      "step": 112
    },
    {
      "epoch": 3.53125,
      "grad_norm": 0.37084330088188894,
      "learning_rate": 2e-05,
      "loss": 0.8984,
      "step": 113
    },
    {
      "epoch": 3.53125,
      "eval_loss": 0.7323736548423767,
      "eval_runtime": 45.7394,
      "eval_samples_per_second": 4.373,
      "eval_steps_per_second": 0.547,
      "step": 113
    },
    {
      "epoch": 3.5625,
      "grad_norm": 0.4074607742772961,
      "learning_rate": 2e-05,
      "loss": 0.7623,
      "step": 114
    },
    {
      "epoch": 3.5625,
      "eval_loss": 0.7331156134605408,
      "eval_runtime": 47.2117,
      "eval_samples_per_second": 4.236,
      "eval_steps_per_second": 0.53,
      "step": 114
    },
    {
      "epoch": 3.59375,
      "grad_norm": 0.3478981526620727,
      "learning_rate": 2e-05,
      "loss": 0.8294,
      "step": 115
    },
    {
      "epoch": 3.59375,
      "eval_loss": 0.7339057326316833,
      "eval_runtime": 45.3783,
      "eval_samples_per_second": 4.407,
      "eval_steps_per_second": 0.551,
      "step": 115
    },
    {
      "epoch": 3.625,
      "grad_norm": 0.4015868947675386,
      "learning_rate": 2e-05,
      "loss": 0.8,
      "step": 116
    },
    {
      "epoch": 3.625,
      "eval_loss": 0.7341201305389404,
      "eval_runtime": 45.9888,
      "eval_samples_per_second": 4.349,
      "eval_steps_per_second": 0.544,
      "step": 116
    },
    {
      "epoch": 3.65625,
      "grad_norm": 0.3908261734781783,
      "learning_rate": 2e-05,
      "loss": 0.7903,
      "step": 117
    },
    {
      "epoch": 3.65625,
      "eval_loss": 0.7336520552635193,
      "eval_runtime": 45.9012,
      "eval_samples_per_second": 4.357,
      "eval_steps_per_second": 0.545,
      "step": 117
    },
    {
      "epoch": 3.6875,
      "grad_norm": 0.39497646856232355,
      "learning_rate": 2e-05,
      "loss": 0.8072,
      "step": 118
    },
    {
      "epoch": 3.6875,
      "eval_loss": 0.7335306406021118,
      "eval_runtime": 46.2389,
      "eval_samples_per_second": 4.325,
      "eval_steps_per_second": 0.541,
      "step": 118
    },
    {
      "epoch": 3.71875,
      "grad_norm": 0.3773137872461335,
      "learning_rate": 2e-05,
      "loss": 0.8647,
      "step": 119
    },
    {
      "epoch": 3.71875,
      "eval_loss": 0.7331534028053284,
      "eval_runtime": 46.662,
      "eval_samples_per_second": 4.286,
      "eval_steps_per_second": 0.536,
      "step": 119
    },
    {
      "epoch": 3.75,
      "grad_norm": 0.353841599712999,
      "learning_rate": 2e-05,
      "loss": 0.8076,
      "step": 120
    },
    {
      "epoch": 3.75,
      "eval_loss": 0.732619047164917,
      "eval_runtime": 47.5847,
      "eval_samples_per_second": 4.203,
      "eval_steps_per_second": 0.525,
      "step": 120
    },
    {
      "epoch": 3.78125,
      "grad_norm": 0.38703604888096965,
      "learning_rate": 2e-05,
      "loss": 0.783,
      "step": 121
    },
    {
      "epoch": 3.78125,
      "eval_loss": 0.7308679223060608,
      "eval_runtime": 47.3672,
      "eval_samples_per_second": 4.222,
      "eval_steps_per_second": 0.528,
      "step": 121
    },
    {
      "epoch": 3.8125,
      "grad_norm": 0.406784109988961,
      "learning_rate": 2e-05,
      "loss": 0.8592,
      "step": 122
    },
    {
      "epoch": 3.8125,
      "eval_loss": 0.7294270396232605,
      "eval_runtime": 46.3156,
      "eval_samples_per_second": 4.318,
      "eval_steps_per_second": 0.54,
      "step": 122
    },
    {
      "epoch": 3.84375,
      "grad_norm": 0.3867362432665531,
      "learning_rate": 2e-05,
      "loss": 0.7773,
      "step": 123
    },
    {
      "epoch": 3.84375,
      "eval_loss": 0.7278974056243896,
      "eval_runtime": 46.0714,
      "eval_samples_per_second": 4.341,
      "eval_steps_per_second": 0.543,
      "step": 123
    },
    {
      "epoch": 3.875,
      "grad_norm": 0.37454905814944983,
      "learning_rate": 2e-05,
      "loss": 0.8054,
      "step": 124
    },
    {
      "epoch": 3.875,
      "eval_loss": 0.7264491319656372,
      "eval_runtime": 46.0579,
      "eval_samples_per_second": 4.342,
      "eval_steps_per_second": 0.543,
      "step": 124
    },
    {
      "epoch": 3.90625,
      "grad_norm": 0.444384159363942,
      "learning_rate": 2e-05,
      "loss": 0.8434,
      "step": 125
    },
    {
      "epoch": 3.90625,
      "eval_loss": 0.7248883843421936,
      "eval_runtime": 46.2593,
      "eval_samples_per_second": 4.323,
      "eval_steps_per_second": 0.54,
      "step": 125
    },
    {
      "epoch": 3.9375,
      "grad_norm": 0.4296603454332508,
      "learning_rate": 2e-05,
      "loss": 0.8154,
      "step": 126
    },
    {
      "epoch": 3.9375,
      "eval_loss": 0.7236350774765015,
      "eval_runtime": 47.8167,
      "eval_samples_per_second": 4.183,
      "eval_steps_per_second": 0.523,
      "step": 126
    },
    {
      "epoch": 3.96875,
      "grad_norm": 0.4369101294390371,
      "learning_rate": 2e-05,
      "loss": 0.7759,
      "step": 127
    },
    {
      "epoch": 3.96875,
      "eval_loss": 0.7224241495132446,
      "eval_runtime": 45.8583,
      "eval_samples_per_second": 4.361,
      "eval_steps_per_second": 0.545,
      "step": 127
    },
    {
      "epoch": 4.0,
      "grad_norm": 0.4294598409798285,
      "learning_rate": 2e-05,
      "loss": 0.706,
      "step": 128
    },
    {
      "epoch": 4.0,
      "eval_loss": 0.7210729718208313,
      "eval_runtime": 45.9047,
      "eval_samples_per_second": 4.357,
      "eval_steps_per_second": 0.545,
      "step": 128
    },
    {
      "epoch": 4.03125,
      "grad_norm": 0.355178274167416,
      "learning_rate": 2e-05,
      "loss": 0.7969,
      "step": 129
    },
    {
      "epoch": 4.03125,
      "eval_loss": 0.7206510901451111,
      "eval_runtime": 46.1016,
      "eval_samples_per_second": 4.338,
      "eval_steps_per_second": 0.542,
      "step": 129
    },
    {
      "epoch": 4.0625,
      "grad_norm": 0.39855476598487416,
      "learning_rate": 2e-05,
      "loss": 0.8124,
      "step": 130
    },
    {
      "epoch": 4.0625,
      "eval_loss": 0.7203733921051025,
      "eval_runtime": 46.5052,
      "eval_samples_per_second": 4.301,
      "eval_steps_per_second": 0.538,
      "step": 130
    },
    {
      "epoch": 4.09375,
      "grad_norm": 0.38252767359910733,
      "learning_rate": 2e-05,
      "loss": 0.8126,
      "step": 131
    },
    {
      "epoch": 4.09375,
      "eval_loss": 0.7201277017593384,
      "eval_runtime": 47.5144,
      "eval_samples_per_second": 4.209,
      "eval_steps_per_second": 0.526,
      "step": 131
    },
    {
      "epoch": 4.125,
      "grad_norm": 0.44006887742113143,
      "learning_rate": 2e-05,
      "loss": 0.7706,
      "step": 132
    },
    {
      "epoch": 4.125,
      "eval_loss": 0.7195135354995728,
      "eval_runtime": 45.8417,
      "eval_samples_per_second": 4.363,
      "eval_steps_per_second": 0.545,
      "step": 132
    },
    {
      "epoch": 4.15625,
      "grad_norm": 0.426129225179819,
      "learning_rate": 2e-05,
      "loss": 0.8699,
      "step": 133
    },
    {
      "epoch": 4.15625,
      "eval_loss": 0.7189508080482483,
      "eval_runtime": 46.2247,
      "eval_samples_per_second": 4.327,
      "eval_steps_per_second": 0.541,
      "step": 133
    },
    {
      "epoch": 4.1875,
      "grad_norm": 0.4995092725647276,
      "learning_rate": 2e-05,
      "loss": 0.7811,
      "step": 134
    },
    {
      "epoch": 4.1875,
      "eval_loss": 0.7180965542793274,
      "eval_runtime": 46.4605,
      "eval_samples_per_second": 4.305,
      "eval_steps_per_second": 0.538,
      "step": 134
    },
    {
      "epoch": 4.21875,
      "grad_norm": 0.42664484060733815,
      "learning_rate": 2e-05,
      "loss": 0.7795,
      "step": 135
    },
    {
      "epoch": 4.21875,
      "eval_loss": 0.7173775434494019,
      "eval_runtime": 46.1896,
      "eval_samples_per_second": 4.33,
      "eval_steps_per_second": 0.541,
      "step": 135
    },
    {
      "epoch": 4.25,
      "grad_norm": 0.43970733071879864,
      "learning_rate": 2e-05,
      "loss": 0.772,
      "step": 136
    },
    {
      "epoch": 4.25,
      "eval_loss": 0.716987133026123,
      "eval_runtime": 45.88,
      "eval_samples_per_second": 4.359,
      "eval_steps_per_second": 0.545,
      "step": 136
    },
    {
      "epoch": 4.28125,
      "grad_norm": 0.4585774179958974,
      "learning_rate": 2e-05,
      "loss": 0.7594,
      "step": 137
    },
    {
      "epoch": 4.28125,
      "eval_loss": 0.7162837386131287,
      "eval_runtime": 45.9687,
      "eval_samples_per_second": 4.351,
      "eval_steps_per_second": 0.544,
      "step": 137
    },
    {
      "epoch": 4.3125,
      "grad_norm": 0.4482018280143517,
      "learning_rate": 2e-05,
      "loss": 0.7702,
      "step": 138
    },
    {
      "epoch": 4.3125,
      "eval_loss": 0.7155399918556213,
      "eval_runtime": 46.1566,
      "eval_samples_per_second": 4.333,
      "eval_steps_per_second": 0.542,
      "step": 138
    },
    {
      "epoch": 4.34375,
      "grad_norm": 0.44262087649988896,
      "learning_rate": 2e-05,
      "loss": 0.7323,
      "step": 139
    },
    {
      "epoch": 4.34375,
      "eval_loss": 0.7145451307296753,
      "eval_runtime": 46.2257,
      "eval_samples_per_second": 4.327,
      "eval_steps_per_second": 0.541,
      "step": 139
    },
    {
      "epoch": 4.375,
      "grad_norm": 0.4418100350036369,
      "learning_rate": 2e-05,
      "loss": 0.7669,
      "step": 140
    },
    {
      "epoch": 4.375,
      "eval_loss": 0.7139186263084412,
      "eval_runtime": 46.1994,
      "eval_samples_per_second": 4.329,
      "eval_steps_per_second": 0.541,
      "step": 140
    },
    {
      "epoch": 4.40625,
      "grad_norm": 0.4068223149751762,
      "learning_rate": 2e-05,
      "loss": 0.7806,
      "step": 141
    },
    {
      "epoch": 4.40625,
      "eval_loss": 0.7134376764297485,
      "eval_runtime": 48.1068,
      "eval_samples_per_second": 4.157,
      "eval_steps_per_second": 0.52,
      "step": 141
    },
    {
      "epoch": 4.4375,
      "grad_norm": 0.4339025102618351,
      "learning_rate": 2e-05,
      "loss": 0.7312,
      "step": 142
    },
    {
      "epoch": 4.4375,
      "eval_loss": 0.7134268879890442,
      "eval_runtime": 46.8951,
      "eval_samples_per_second": 4.265,
      "eval_steps_per_second": 0.533,
      "step": 142
    },
    {
      "epoch": 4.46875,
      "grad_norm": 0.45474838622605346,
      "learning_rate": 2e-05,
      "loss": 0.7358,
      "step": 143
    },
    {
      "epoch": 4.46875,
      "eval_loss": 0.7131960391998291,
      "eval_runtime": 46.8155,
      "eval_samples_per_second": 4.272,
      "eval_steps_per_second": 0.534,
      "step": 143
    },
    {
      "epoch": 4.5,
      "grad_norm": 0.4284980958119551,
      "learning_rate": 2e-05,
      "loss": 0.7146,
      "step": 144
    },
    {
      "epoch": 4.5,
      "eval_loss": 0.7122372388839722,
      "eval_runtime": 46.7899,
      "eval_samples_per_second": 4.274,
      "eval_steps_per_second": 0.534,
      "step": 144
    },
    {
      "epoch": 4.53125,
      "grad_norm": 0.4679473362578349,
      "learning_rate": 2e-05,
      "loss": 0.8018,
      "step": 145
    },
    {
      "epoch": 4.53125,
      "eval_loss": 0.7106640338897705,
      "eval_runtime": 46.845,
      "eval_samples_per_second": 4.269,
      "eval_steps_per_second": 0.534,
      "step": 145
    },
    {
      "epoch": 4.5625,
      "grad_norm": 0.4900067169351881,
      "learning_rate": 2e-05,
      "loss": 0.6884,
      "step": 146
    },
    {
      "epoch": 4.5625,
      "eval_loss": 0.7087500095367432,
      "eval_runtime": 47.5958,
      "eval_samples_per_second": 4.202,
      "eval_steps_per_second": 0.525,
      "step": 146
    },
    {
      "epoch": 4.59375,
      "grad_norm": 0.4734076525152252,
      "learning_rate": 2e-05,
      "loss": 0.7491,
      "step": 147
    },
    {
      "epoch": 4.59375,
      "eval_loss": 0.7072947025299072,
      "eval_runtime": 48.7251,
      "eval_samples_per_second": 4.105,
      "eval_steps_per_second": 0.513,
      "step": 147
    },
    {
      "epoch": 4.625,
      "grad_norm": 0.44251158400098356,
      "learning_rate": 2e-05,
      "loss": 0.7052,
      "step": 148
    },
    {
      "epoch": 4.625,
      "eval_loss": 0.7068507671356201,
      "eval_runtime": 47.7025,
      "eval_samples_per_second": 4.193,
      "eval_steps_per_second": 0.524,
      "step": 148
    },
    {
      "epoch": 4.65625,
      "grad_norm": 0.4304625716692019,
      "learning_rate": 2e-05,
      "loss": 0.8176,
      "step": 149
    },
    {
      "epoch": 4.65625,
      "eval_loss": 0.7074388265609741,
      "eval_runtime": 48.6321,
      "eval_samples_per_second": 4.113,
      "eval_steps_per_second": 0.514,
      "step": 149
    },
    {
      "epoch": 4.6875,
      "grad_norm": 0.5157530943388945,
      "learning_rate": 2e-05,
      "loss": 0.7429,
      "step": 150
    },
    {
      "epoch": 4.6875,
      "eval_loss": 0.7071186900138855,
      "eval_runtime": 47.9557,
      "eval_samples_per_second": 4.171,
      "eval_steps_per_second": 0.521,
      "step": 150
    },
    {
      "epoch": 4.71875,
      "grad_norm": 0.5469994539610319,
      "learning_rate": 2e-05,
      "loss": 0.7643,
      "step": 151
    },
    {
      "epoch": 4.71875,
      "eval_loss": 0.7050415277481079,
      "eval_runtime": 47.5207,
      "eval_samples_per_second": 4.209,
      "eval_steps_per_second": 0.526,
      "step": 151
    },
    {
      "epoch": 4.75,
      "grad_norm": 0.4821891223190419,
      "learning_rate": 2e-05,
      "loss": 0.7795,
      "step": 152
    },
    {
      "epoch": 4.75,
      "eval_loss": 0.7032743692398071,
      "eval_runtime": 47.2902,
      "eval_samples_per_second": 4.229,
      "eval_steps_per_second": 0.529,
      "step": 152
    },
    {
      "epoch": 4.78125,
      "grad_norm": 0.4785594997922253,
      "learning_rate": 2e-05,
      "loss": 0.7323,
      "step": 153
    },
    {
      "epoch": 4.78125,
      "eval_loss": 0.7028358578681946,
      "eval_runtime": 47.7841,
      "eval_samples_per_second": 4.185,
      "eval_steps_per_second": 0.523,
      "step": 153
    },
    {
      "epoch": 4.8125,
      "grad_norm": 0.47200733754346447,
      "learning_rate": 2e-05,
      "loss": 0.7555,
      "step": 154
    },
    {
      "epoch": 4.8125,
      "eval_loss": 0.7034148573875427,
      "eval_runtime": 47.4952,
      "eval_samples_per_second": 4.211,
      "eval_steps_per_second": 0.526,
      "step": 154
    },
    {
      "epoch": 4.84375,
      "grad_norm": 0.49226670914533455,
      "learning_rate": 2e-05,
      "loss": 0.6884,
      "step": 155
    },
    {
      "epoch": 4.84375,
      "eval_loss": 0.7038142681121826,
      "eval_runtime": 47.6873,
      "eval_samples_per_second": 4.194,
      "eval_steps_per_second": 0.524,
      "step": 155
    },
    {
      "epoch": 4.875,
      "grad_norm": 0.4894781168701622,
      "learning_rate": 2e-05,
      "loss": 0.8079,
      "step": 156
    },
    {
      "epoch": 4.875,
      "eval_loss": 0.7031099200248718,
      "eval_runtime": 47.0438,
      "eval_samples_per_second": 4.251,
      "eval_steps_per_second": 0.531,
      "step": 156
    },
    {
      "epoch": 4.90625,
      "grad_norm": 0.44465660848434874,
      "learning_rate": 2e-05,
      "loss": 0.7868,
      "step": 157
    },
    {
      "epoch": 4.90625,
      "eval_loss": 0.7025811672210693,
      "eval_runtime": 47.2897,
      "eval_samples_per_second": 4.229,
      "eval_steps_per_second": 0.529,
      "step": 157
    },
    {
      "epoch": 4.9375,
      "grad_norm": 0.4671993515654777,
      "learning_rate": 2e-05,
      "loss": 0.7949,
      "step": 158
    },
    {
      "epoch": 4.9375,
      "eval_loss": 0.7016230225563049,
      "eval_runtime": 48.7147,
      "eval_samples_per_second": 4.106,
      "eval_steps_per_second": 0.513,
      "step": 158
    },
    {
      "epoch": 4.96875,
      "grad_norm": 0.46593892888464733,
      "learning_rate": 2e-05,
      "loss": 0.7445,
      "step": 159
    },
    {
      "epoch": 4.96875,
      "eval_loss": 0.7006258964538574,
      "eval_runtime": 48.5723,
      "eval_samples_per_second": 4.118,
      "eval_steps_per_second": 0.515,
      "step": 159
    },
    {
      "epoch": 5.0,
      "grad_norm": 0.47383657575274585,
      "learning_rate": 2e-05,
      "loss": 0.7233,
      "step": 160
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.7000269889831543,
      "eval_runtime": 48.7517,
      "eval_samples_per_second": 4.102,
      "eval_steps_per_second": 0.513,
      "step": 160
    },
    {
      "epoch": 5.03125,
      "grad_norm": 0.42723336337060835,
      "learning_rate": 2e-05,
      "loss": 0.7061,
      "step": 161
    },
    {
      "epoch": 5.03125,
      "eval_loss": 0.7001045942306519,
      "eval_runtime": 51.0355,
      "eval_samples_per_second": 3.919,
      "eval_steps_per_second": 0.49,
      "step": 161
    },
    {
      "epoch": 5.0625,
      "grad_norm": 0.452950592019195,
      "learning_rate": 2e-05,
      "loss": 0.8489,
      "step": 162
    },
    {
      "epoch": 5.0625,
      "eval_loss": 0.7011143565177917,
      "eval_runtime": 44.0195,
      "eval_samples_per_second": 4.543,
      "eval_steps_per_second": 0.568,
      "step": 162
    },
    {
      "epoch": 5.09375,
      "grad_norm": 0.49095068041556844,
      "learning_rate": 2e-05,
      "loss": 0.6523,
      "step": 163
    },
    {
      "epoch": 5.09375,
      "eval_loss": 0.7020147442817688,
      "eval_runtime": 43.9994,
      "eval_samples_per_second": 4.546,
      "eval_steps_per_second": 0.568,
      "step": 163
    },
    {
      "epoch": 5.125,
      "grad_norm": 0.49702685752637826,
      "learning_rate": 2e-05,
      "loss": 0.7931,
      "step": 164
    },
    {
      "epoch": 5.125,
      "eval_loss": 0.7026366591453552,
      "eval_runtime": 43.7736,
      "eval_samples_per_second": 4.569,
      "eval_steps_per_second": 0.571,
      "step": 164
    },
    {
      "epoch": 5.15625,
      "grad_norm": 0.5894972181165574,
      "learning_rate": 2e-05,
      "loss": 0.6297,
      "step": 165
    },
    {
      "epoch": 5.15625,
      "eval_loss": 0.7018793225288391,
      "eval_runtime": 43.8277,
      "eval_samples_per_second": 4.563,
      "eval_steps_per_second": 0.57,
      "step": 165
    },
    {
      "epoch": 5.1875,
      "grad_norm": 0.5431599726243479,
      "learning_rate": 2e-05,
      "loss": 0.7394,
      "step": 166
    },
    {
      "epoch": 5.1875,
      "eval_loss": 0.701405942440033,
      "eval_runtime": 46.007,
      "eval_samples_per_second": 4.347,
      "eval_steps_per_second": 0.543,
      "step": 166
    },
    {
      "epoch": 5.21875,
      "grad_norm": 0.46081080554385206,
      "learning_rate": 2e-05,
      "loss": 0.7587,
      "step": 167
    },
    {
      "epoch": 5.21875,
      "eval_loss": 0.7011873126029968,
      "eval_runtime": 45.6739,
      "eval_samples_per_second": 4.379,
      "eval_steps_per_second": 0.547,
      "step": 167
    },
    {
      "epoch": 5.25,
      "grad_norm": 0.5186784959253576,
      "learning_rate": 2e-05,
      "loss": 0.7944,
      "step": 168
    },
    {
      "epoch": 5.25,
      "eval_loss": 0.7006779313087463,
      "eval_runtime": 46.6382,
      "eval_samples_per_second": 4.288,
      "eval_steps_per_second": 0.536,
      "step": 168
    },
    {
      "epoch": 5.28125,
      "grad_norm": 0.484045023962852,
      "learning_rate": 2e-05,
      "loss": 0.7149,
      "step": 169
    },
    {
      "epoch": 5.28125,
      "eval_loss": 0.7005323171615601,
      "eval_runtime": 45.7584,
      "eval_samples_per_second": 4.371,
      "eval_steps_per_second": 0.546,
      "step": 169
    },
    {
      "epoch": 5.3125,
      "grad_norm": 0.5719751134907255,
      "learning_rate": 2e-05,
      "loss": 0.6939,
      "step": 170
    },
    {
      "epoch": 5.3125,
      "eval_loss": 0.7002266645431519,
      "eval_runtime": 45.9679,
      "eval_samples_per_second": 4.351,
      "eval_steps_per_second": 0.544,
      "step": 170
    },
    {
      "epoch": 5.34375,
      "grad_norm": 0.6060894153712378,
      "learning_rate": 2e-05,
      "loss": 0.7048,
      "step": 171
    },
    {
      "epoch": 5.34375,
      "eval_loss": 0.6983186602592468,
      "eval_runtime": 47.2598,
      "eval_samples_per_second": 4.232,
      "eval_steps_per_second": 0.529,
      "step": 171
    },
    {
      "epoch": 5.375,
      "grad_norm": 0.5548499769346423,
      "learning_rate": 2e-05,
      "loss": 0.7881,
      "step": 172
    },
    {
      "epoch": 5.375,
      "eval_loss": 0.6966648697853088,
      "eval_runtime": 47.0803,
      "eval_samples_per_second": 4.248,
      "eval_steps_per_second": 0.531,
      "step": 172
    },
    {
      "epoch": 5.40625,
      "grad_norm": 0.5102316819603098,
      "learning_rate": 2e-05,
      "loss": 0.7542,
      "step": 173
    },
    {
      "epoch": 5.40625,
      "eval_loss": 0.6953878998756409,
      "eval_runtime": 48.3238,
      "eval_samples_per_second": 4.139,
      "eval_steps_per_second": 0.517,
      "step": 173
    },
    {
      "epoch": 5.4375,
      "grad_norm": 0.5399890621278476,
      "learning_rate": 2e-05,
      "loss": 0.7937,
      "step": 174
    },
    {
      "epoch": 5.4375,
      "eval_loss": 0.69431471824646,
      "eval_runtime": 49.2122,
      "eval_samples_per_second": 4.064,
      "eval_steps_per_second": 0.508,
      "step": 174
    },
    {
      "epoch": 5.46875,
      "grad_norm": 0.5252423839534397,
      "learning_rate": 2e-05,
      "loss": 0.7767,
      "step": 175
    },
    {
      "epoch": 5.46875,
      "eval_loss": 0.6944937109947205,
      "eval_runtime": 49.0039,
      "eval_samples_per_second": 4.081,
      "eval_steps_per_second": 0.51,
      "step": 175
    },
    {
      "epoch": 5.5,
      "grad_norm": 0.5422683424689886,
      "learning_rate": 2e-05,
      "loss": 0.7171,
      "step": 176
    },
    {
      "epoch": 5.5,
      "eval_loss": 0.6943515539169312,
      "eval_runtime": 48.7295,
      "eval_samples_per_second": 4.104,
      "eval_steps_per_second": 0.513,
      "step": 176
    },
    {
      "epoch": 5.53125,
      "grad_norm": 0.551339022612633,
      "learning_rate": 2e-05,
      "loss": 0.7529,
      "step": 177
    },
    {
      "epoch": 5.53125,
      "eval_loss": 0.6935855150222778,
      "eval_runtime": 50.259,
      "eval_samples_per_second": 3.979,
      "eval_steps_per_second": 0.497,
      "step": 177
    },
    {
      "epoch": 5.5625,
      "grad_norm": 0.5040662348893271,
      "learning_rate": 2e-05,
      "loss": 0.7816,
      "step": 178
    },
    {
      "epoch": 5.5625,
      "eval_loss": 0.6929727792739868,
      "eval_runtime": 49.9267,
      "eval_samples_per_second": 4.006,
      "eval_steps_per_second": 0.501,
      "step": 178
    },
    {
      "epoch": 5.59375,
      "grad_norm": 0.538094993002792,
      "learning_rate": 2e-05,
      "loss": 0.6785,
      "step": 179
    },
    {
      "epoch": 5.59375,
      "eval_loss": 0.6930323839187622,
      "eval_runtime": 48.28,
      "eval_samples_per_second": 4.143,
      "eval_steps_per_second": 0.518,
      "step": 179
    },
    {
      "epoch": 5.625,
      "grad_norm": 0.5367726605699668,
      "learning_rate": 2e-05,
      "loss": 0.6868,
      "step": 180
    },
    {
      "epoch": 5.625,
      "eval_loss": 0.6928802728652954,
      "eval_runtime": 49.8478,
      "eval_samples_per_second": 4.012,
      "eval_steps_per_second": 0.502,
      "step": 180
    },
    {
      "epoch": 5.65625,
      "grad_norm": 0.5978542074838507,
      "learning_rate": 2e-05,
      "loss": 0.698,
      "step": 181
    },
    {
      "epoch": 5.65625,
      "eval_loss": 0.6921787858009338,
      "eval_runtime": 50.778,
      "eval_samples_per_second": 3.939,
      "eval_steps_per_second": 0.492,
      "step": 181
    },
    {
      "epoch": 5.6875,
      "grad_norm": 0.5779173967988954,
      "learning_rate": 2e-05,
      "loss": 0.664,
      "step": 182
    },
    {
      "epoch": 5.6875,
      "eval_loss": 0.6921034455299377,
      "eval_runtime": 49.7171,
      "eval_samples_per_second": 4.023,
      "eval_steps_per_second": 0.503,
      "step": 182
    },
    {
      "epoch": 5.71875,
      "grad_norm": 0.6377165996743129,
      "learning_rate": 2e-05,
      "loss": 0.7051,
      "step": 183
    },
    {
      "epoch": 5.71875,
      "eval_loss": 0.6914942264556885,
      "eval_runtime": 51.9608,
      "eval_samples_per_second": 3.849,
      "eval_steps_per_second": 0.481,
      "step": 183
    },
    {
      "epoch": 5.75,
      "grad_norm": 0.6093388082076064,
      "learning_rate": 2e-05,
      "loss": 0.6903,
      "step": 184
    },
    {
      "epoch": 5.75,
      "eval_loss": 0.6904594302177429,
      "eval_runtime": 49.6144,
      "eval_samples_per_second": 4.031,
      "eval_steps_per_second": 0.504,
      "step": 184
    },
    {
      "epoch": 5.78125,
      "grad_norm": 0.5987747297973711,
      "learning_rate": 2e-05,
      "loss": 0.7368,
      "step": 185
    },
    {
      "epoch": 5.78125,
      "eval_loss": 0.6894869804382324,
      "eval_runtime": 49.7122,
      "eval_samples_per_second": 4.023,
      "eval_steps_per_second": 0.503,
      "step": 185
    },
    {
      "epoch": 5.8125,
      "grad_norm": 0.5914952733954625,
      "learning_rate": 2e-05,
      "loss": 0.7003,
      "step": 186
    },
    {
      "epoch": 5.8125,
      "eval_loss": 0.6885225772857666,
      "eval_runtime": 49.8474,
      "eval_samples_per_second": 4.012,
      "eval_steps_per_second": 0.502,
      "step": 186
    },
    {
      "epoch": 5.84375,
      "grad_norm": 0.5641237505681922,
      "learning_rate": 2e-05,
      "loss": 0.7571,
      "step": 187
    },
    {
      "epoch": 5.84375,
      "eval_loss": 0.6889610290527344,
      "eval_runtime": 51.5925,
      "eval_samples_per_second": 3.877,
      "eval_steps_per_second": 0.485,
      "step": 187
    },
    {
      "epoch": 5.875,
      "grad_norm": 0.5566285784572296,
      "learning_rate": 2e-05,
      "loss": 0.6882,
      "step": 188
    },
    {
      "epoch": 5.875,
      "eval_loss": 0.6903389692306519,
      "eval_runtime": 49.713,
      "eval_samples_per_second": 4.023,
      "eval_steps_per_second": 0.503,
      "step": 188
    },
    {
      "epoch": 5.90625,
      "grad_norm": 0.5594562993560854,
      "learning_rate": 2e-05,
      "loss": 0.7028,
      "step": 189
    },
    {
      "epoch": 5.90625,
      "eval_loss": 0.6911373734474182,
      "eval_runtime": 49.929,
      "eval_samples_per_second": 4.006,
      "eval_steps_per_second": 0.501,
      "step": 189
    },
    {
      "epoch": 5.9375,
      "grad_norm": 0.6114177699067616,
      "learning_rate": 2e-05,
      "loss": 0.7181,
      "step": 190
    },
    {
      "epoch": 5.9375,
      "eval_loss": 0.6901592016220093,
      "eval_runtime": 49.9032,
      "eval_samples_per_second": 4.008,
      "eval_steps_per_second": 0.501,
      "step": 190
    },
    {
      "epoch": 5.96875,
      "grad_norm": 0.5564307101453613,
      "learning_rate": 2e-05,
      "loss": 0.7116,
      "step": 191
    },
    {
      "epoch": 5.96875,
      "eval_loss": 0.6883879899978638,
      "eval_runtime": 49.9457,
      "eval_samples_per_second": 4.004,
      "eval_steps_per_second": 0.501,
      "step": 191
    },
    {
      "epoch": 6.0,
      "grad_norm": 0.5242139835965315,
      "learning_rate": 2e-05,
      "loss": 0.6956,
      "step": 192
    },
    {
      "epoch": 6.0,
      "eval_loss": 0.686991274356842,
      "eval_runtime": 51.3206,
      "eval_samples_per_second": 3.897,
      "eval_steps_per_second": 0.487,
      "step": 192
    },
    {
      "epoch": 6.03125,
      "grad_norm": 0.5661038874224659,
      "learning_rate": 2e-05,
      "loss": 0.7667,
      "step": 193
    },
    {
      "epoch": 6.03125,
      "eval_loss": 0.6863989233970642,
      "eval_runtime": 50.3486,
      "eval_samples_per_second": 3.972,
      "eval_steps_per_second": 0.497,
      "step": 193
    },
    {
      "epoch": 6.0625,
      "grad_norm": 0.5015705892320539,
      "learning_rate": 2e-05,
      "loss": 0.7289,
      "step": 194
    },
    {
      "epoch": 6.0625,
      "eval_loss": 0.6869972348213196,
      "eval_runtime": 51.6966,
      "eval_samples_per_second": 3.869,
      "eval_steps_per_second": 0.484,
      "step": 194
    },
    {
      "epoch": 6.09375,
      "grad_norm": 0.5679476318211268,
      "learning_rate": 2e-05,
      "loss": 0.6595,
      "step": 195
    },
    {
      "epoch": 6.09375,
      "eval_loss": 0.6878303289413452,
      "eval_runtime": 44.1921,
      "eval_samples_per_second": 4.526,
      "eval_steps_per_second": 0.566,
      "step": 195
    },
    {
      "epoch": 6.125,
      "grad_norm": 0.5496769650020654,
      "learning_rate": 2e-05,
      "loss": 0.6934,
      "step": 196
    },
    {
      "epoch": 6.125,
      "eval_loss": 0.689085841178894,
      "eval_runtime": 44.0432,
      "eval_samples_per_second": 4.541,
      "eval_steps_per_second": 0.568,
      "step": 196
    },
    {
      "epoch": 6.15625,
      "grad_norm": 0.5761731163916711,
      "learning_rate": 2e-05,
      "loss": 0.7212,
      "step": 197
    },
    {
      "epoch": 6.15625,
      "eval_loss": 0.6919547915458679,
      "eval_runtime": 45.3631,
      "eval_samples_per_second": 4.409,
      "eval_steps_per_second": 0.551,
      "step": 197
    },
    {
      "epoch": 6.1875,
      "grad_norm": 0.6093485410765964,
      "learning_rate": 2e-05,
      "loss": 0.8013,
      "step": 198
    },
    {
      "epoch": 6.1875,
      "eval_loss": 0.6936098337173462,
      "eval_runtime": 44.1956,
      "eval_samples_per_second": 4.525,
      "eval_steps_per_second": 0.566,
      "step": 198
    },
    {
      "epoch": 6.21875,
      "grad_norm": 0.6670365325797192,
      "learning_rate": 2e-05,
      "loss": 0.666,
      "step": 199
    },
    {
      "epoch": 6.21875,
      "eval_loss": 0.693129301071167,
      "eval_runtime": 44.0131,
      "eval_samples_per_second": 4.544,
      "eval_steps_per_second": 0.568,
      "step": 199
    },
    {
      "epoch": 6.25,
      "grad_norm": 0.6464592274733308,
      "learning_rate": 2e-05,
      "loss": 0.7134,
      "step": 200
    },
    {
      "epoch": 6.25,
      "eval_loss": 0.6912326216697693,
      "eval_runtime": 44.0,
      "eval_samples_per_second": 4.545,
      "eval_steps_per_second": 0.568,
      "step": 200
    },
    {
      "epoch": 6.28125,
      "grad_norm": 0.6088225232188101,
      "learning_rate": 2e-05,
      "loss": 0.7405,
      "step": 201
    },
    {
      "epoch": 6.28125,
      "eval_loss": 0.6896650195121765,
      "eval_runtime": 44.3194,
      "eval_samples_per_second": 4.513,
      "eval_steps_per_second": 0.564,
      "step": 201
    },
    {
      "epoch": 6.3125,
      "grad_norm": 0.6638309972807995,
      "learning_rate": 2e-05,
      "loss": 0.6542,
      "step": 202
    },
    {
      "epoch": 6.3125,
      "eval_loss": 0.6878445148468018,
      "eval_runtime": 44.2101,
      "eval_samples_per_second": 4.524,
      "eval_steps_per_second": 0.565,
      "step": 202
    },
    {
      "epoch": 6.34375,
      "grad_norm": 0.5632348029553863,
      "learning_rate": 2e-05,
      "loss": 0.7953,
      "step": 203
    },
    {
      "epoch": 6.34375,
      "eval_loss": 0.6869116425514221,
      "eval_runtime": 44.0039,
      "eval_samples_per_second": 4.545,
      "eval_steps_per_second": 0.568,
      "step": 203
    },
    {
      "epoch": 6.375,
      "grad_norm": 0.6753158068984167,
      "learning_rate": 2e-05,
      "loss": 0.6369,
      "step": 204
    },
    {
      "epoch": 6.375,
      "eval_loss": 0.6856124997138977,
      "eval_runtime": 44.2493,
      "eval_samples_per_second": 4.52,
      "eval_steps_per_second": 0.565,
      "step": 204
    },
    {
      "epoch": 6.40625,
      "grad_norm": 0.5601655147962107,
      "learning_rate": 2e-05,
      "loss": 0.6291,
      "step": 205
    },
    {
      "epoch": 6.40625,
      "eval_loss": 0.685504138469696,
      "eval_runtime": 43.9463,
      "eval_samples_per_second": 4.551,
      "eval_steps_per_second": 0.569,
      "step": 205
    },
    {
      "epoch": 6.4375,
      "grad_norm": 0.6578412065562369,
      "learning_rate": 2e-05,
      "loss": 0.6887,
      "step": 206
    },
    {
      "epoch": 6.4375,
      "eval_loss": 0.6858142018318176,
      "eval_runtime": 45.1556,
      "eval_samples_per_second": 4.429,
      "eval_steps_per_second": 0.554,
      "step": 206
    },
    {
      "epoch": 6.46875,
      "grad_norm": 0.6149787250576099,
      "learning_rate": 2e-05,
      "loss": 0.7375,
      "step": 207
    },
    {
      "epoch": 6.46875,
      "eval_loss": 0.6860241889953613,
      "eval_runtime": 44.9447,
      "eval_samples_per_second": 4.45,
      "eval_steps_per_second": 0.556,
      "step": 207
    },
    {
      "epoch": 6.5,
      "grad_norm": 0.6674521606961297,
      "learning_rate": 2e-05,
      "loss": 0.6856,
      "step": 208
    },
    {
      "epoch": 6.5,
      "eval_loss": 0.6866363286972046,
      "eval_runtime": 44.714,
      "eval_samples_per_second": 4.473,
      "eval_steps_per_second": 0.559,
      "step": 208
    },
    {
      "epoch": 6.53125,
      "grad_norm": 0.700420859386899,
      "learning_rate": 2e-05,
      "loss": 0.6556,
      "step": 209
    },
    {
      "epoch": 6.53125,
      "eval_loss": 0.6870286464691162,
      "eval_runtime": 44.8923,
      "eval_samples_per_second": 4.455,
      "eval_steps_per_second": 0.557,
      "step": 209
    },
    {
      "epoch": 6.5625,
      "grad_norm": 0.6530651968630973,
      "learning_rate": 2e-05,
      "loss": 0.6334,
      "step": 210
    },
    {
      "epoch": 6.5625,
      "eval_loss": 0.6872709393501282,
      "eval_runtime": 44.7944,
      "eval_samples_per_second": 4.465,
      "eval_steps_per_second": 0.558,
      "step": 210
    },
    {
      "epoch": 6.59375,
      "grad_norm": 0.695757498482456,
      "learning_rate": 2e-05,
      "loss": 0.6784,
      "step": 211
    },
    {
      "epoch": 6.59375,
      "eval_loss": 0.6869171857833862,
      "eval_runtime": 45.755,
      "eval_samples_per_second": 4.371,
      "eval_steps_per_second": 0.546,
      "step": 211
    },
    {
      "epoch": 6.625,
      "grad_norm": 0.642060810781652,
      "learning_rate": 2e-05,
      "loss": 0.6489,
      "step": 212
    },
    {
      "epoch": 6.625,
      "eval_loss": 0.685666024684906,
      "eval_runtime": 46.4458,
      "eval_samples_per_second": 4.306,
      "eval_steps_per_second": 0.538,
      "step": 212
    },
    {
      "epoch": 6.65625,
      "grad_norm": 0.6088750940603561,
      "learning_rate": 2e-05,
      "loss": 0.7216,
      "step": 213
    },
    {
      "epoch": 6.65625,
      "eval_loss": 0.6843697428703308,
      "eval_runtime": 46.1389,
      "eval_samples_per_second": 4.335,
      "eval_steps_per_second": 0.542,
      "step": 213
    },
    {
      "epoch": 6.6875,
      "grad_norm": 0.6043945628080053,
      "learning_rate": 2e-05,
      "loss": 0.692,
      "step": 214
    },
    {
      "epoch": 6.6875,
      "eval_loss": 0.6836680769920349,
      "eval_runtime": 47.7324,
      "eval_samples_per_second": 4.19,
      "eval_steps_per_second": 0.524,
      "step": 214
    },
    {
      "epoch": 6.71875,
      "grad_norm": 0.6506615838970475,
      "learning_rate": 2e-05,
      "loss": 0.691,
      "step": 215
    },
    {
      "epoch": 6.71875,
      "eval_loss": 0.6824812293052673,
      "eval_runtime": 45.8056,
      "eval_samples_per_second": 4.366,
      "eval_steps_per_second": 0.546,
      "step": 215
    },
    {
      "epoch": 6.75,
      "grad_norm": 0.6878268158673746,
      "learning_rate": 2e-05,
      "loss": 0.6894,
      "step": 216
    },
    {
      "epoch": 6.75,
      "eval_loss": 0.6817054748535156,
      "eval_runtime": 46.47,
      "eval_samples_per_second": 4.304,
      "eval_steps_per_second": 0.538,
      "step": 216
    },
    {
      "epoch": 6.78125,
      "grad_norm": 0.6793999118325932,
      "learning_rate": 2e-05,
      "loss": 0.6394,
      "step": 217
    },
    {
      "epoch": 6.78125,
      "eval_loss": 0.6831635236740112,
      "eval_runtime": 47.8532,
      "eval_samples_per_second": 4.179,
      "eval_steps_per_second": 0.522,
      "step": 217
    },
    {
      "epoch": 6.8125,
      "grad_norm": 0.6935365262523343,
      "learning_rate": 2e-05,
      "loss": 0.6341,
      "step": 218
    },
    {
      "epoch": 6.8125,
      "eval_loss": 0.6843095421791077,
      "eval_runtime": 46.3828,
      "eval_samples_per_second": 4.312,
      "eval_steps_per_second": 0.539,
      "step": 218
    },
    {
      "epoch": 6.84375,
      "grad_norm": 0.8071019513751874,
      "learning_rate": 2e-05,
      "loss": 0.7211,
      "step": 219
    },
    {
      "epoch": 6.84375,
      "eval_loss": 0.6839814782142639,
      "eval_runtime": 46.5771,
      "eval_samples_per_second": 4.294,
      "eval_steps_per_second": 0.537,
      "step": 219
    },
    {
      "epoch": 6.875,
      "grad_norm": 0.7202535741704769,
      "learning_rate": 2e-05,
      "loss": 0.7305,
      "step": 220
    },
    {
      "epoch": 6.875,
      "eval_loss": 0.6822354197502136,
      "eval_runtime": 46.6149,
      "eval_samples_per_second": 4.29,
      "eval_steps_per_second": 0.536,
      "step": 220
    },
    {
      "epoch": 6.90625,
      "grad_norm": 0.6829442890004696,
      "learning_rate": 2e-05,
      "loss": 0.6965,
      "step": 221
    },
    {
      "epoch": 6.90625,
      "eval_loss": 0.6804749369621277,
      "eval_runtime": 47.9027,
      "eval_samples_per_second": 4.175,
      "eval_steps_per_second": 0.522,
      "step": 221
    },
    {
      "epoch": 6.9375,
      "grad_norm": 0.7007337811403486,
      "learning_rate": 2e-05,
      "loss": 0.6948,
      "step": 222
    },
    {
      "epoch": 6.9375,
      "eval_loss": 0.6785742044448853,
      "eval_runtime": 48.3484,
      "eval_samples_per_second": 4.137,
      "eval_steps_per_second": 0.517,
      "step": 222
    },
    {
      "epoch": 6.96875,
      "grad_norm": 0.6672225040660534,
      "learning_rate": 2e-05,
      "loss": 0.7075,
      "step": 223
    },
    {
      "epoch": 6.96875,
      "eval_loss": 0.6771878004074097,
      "eval_runtime": 46.3836,
      "eval_samples_per_second": 4.312,
      "eval_steps_per_second": 0.539,
      "step": 223
    },
    {
      "epoch": 7.0,
      "grad_norm": 0.6893374424350143,
      "learning_rate": 2e-05,
      "loss": 0.7652,
      "step": 224
    },
    {
      "epoch": 7.0,
      "eval_loss": 0.6772673726081848,
      "eval_runtime": 47.0913,
      "eval_samples_per_second": 4.247,
      "eval_steps_per_second": 0.531,
      "step": 224
    },
    {
      "epoch": 7.03125,
      "grad_norm": 0.5866908507437849,
      "learning_rate": 2e-05,
      "loss": 0.6784,
      "step": 225
    },
    {
      "epoch": 7.03125,
      "eval_loss": 0.6778077483177185,
      "eval_runtime": 46.7766,
      "eval_samples_per_second": 4.276,
      "eval_steps_per_second": 0.534,
      "step": 225
    },
    {
      "epoch": 7.0625,
      "grad_norm": 0.6620785641323407,
      "learning_rate": 2e-05,
      "loss": 0.6107,
      "step": 226
    },
    {
      "epoch": 7.0625,
      "eval_loss": 0.6797336339950562,
      "eval_runtime": 47.0779,
      "eval_samples_per_second": 4.248,
      "eval_steps_per_second": 0.531,
      "step": 226
    },
    {
      "epoch": 7.09375,
      "grad_norm": 0.6646660025868149,
      "learning_rate": 2e-05,
      "loss": 0.6824,
      "step": 227
    },
    {
      "epoch": 7.09375,
      "eval_loss": 0.6831703186035156,
      "eval_runtime": 46.4223,
      "eval_samples_per_second": 4.308,
      "eval_steps_per_second": 0.539,
      "step": 227
    },
    {
      "epoch": 7.125,
      "grad_norm": 0.7653429329219695,
      "learning_rate": 2e-05,
      "loss": 0.6289,
      "step": 228
    },
    {
      "epoch": 7.125,
      "eval_loss": 0.6889806985855103,
      "eval_runtime": 48.2668,
      "eval_samples_per_second": 4.144,
      "eval_steps_per_second": 0.518,
      "step": 228
    },
    {
      "epoch": 7.15625,
      "grad_norm": 0.888507299589656,
      "learning_rate": 2e-05,
      "loss": 0.6405,
      "step": 229
    },
    {
      "epoch": 7.15625,
      "eval_loss": 0.6938297748565674,
      "eval_runtime": 48.2833,
      "eval_samples_per_second": 4.142,
      "eval_steps_per_second": 0.518,
      "step": 229
    },
    {
      "epoch": 7.1875,
      "grad_norm": 0.8483995966585272,
      "learning_rate": 2e-05,
      "loss": 0.6256,
      "step": 230
    },
    {
      "epoch": 7.1875,
      "eval_loss": 0.6941313147544861,
      "eval_runtime": 46.6028,
      "eval_samples_per_second": 4.292,
      "eval_steps_per_second": 0.536,
      "step": 230
    },
    {
      "epoch": 7.21875,
      "grad_norm": 0.8529011065789557,
      "learning_rate": 2e-05,
      "loss": 0.719,
      "step": 231
    },
    {
      "epoch": 7.21875,
      "eval_loss": 0.6908813714981079,
      "eval_runtime": 47.7668,
      "eval_samples_per_second": 4.187,
      "eval_steps_per_second": 0.523,
      "step": 231
    },
    {
      "epoch": 7.25,
      "grad_norm": 0.7891947191711363,
      "learning_rate": 2e-05,
      "loss": 0.7122,
      "step": 232
    },
    {
      "epoch": 7.25,
      "eval_loss": 0.6873031854629517,
      "eval_runtime": 46.9441,
      "eval_samples_per_second": 4.26,
      "eval_steps_per_second": 0.533,
      "step": 232
    },
    {
      "epoch": 7.28125,
      "grad_norm": 0.8410831266636205,
      "learning_rate": 2e-05,
      "loss": 0.6655,
      "step": 233
    },
    {
      "epoch": 7.28125,
      "eval_loss": 0.6842228174209595,
      "eval_runtime": 48.184,
      "eval_samples_per_second": 4.151,
      "eval_steps_per_second": 0.519,
      "step": 233
    },
    {
      "epoch": 7.3125,
      "grad_norm": 0.7543966645145809,
      "learning_rate": 2e-05,
      "loss": 0.702,
      "step": 234
    },
    {
      "epoch": 7.3125,
      "eval_loss": 0.6826092600822449,
      "eval_runtime": 48.7587,
      "eval_samples_per_second": 4.102,
      "eval_steps_per_second": 0.513,
      "step": 234
    },
    {
      "epoch": 7.34375,
      "grad_norm": 0.69863349246919,
      "learning_rate": 2e-05,
      "loss": 0.6676,
      "step": 235
    },
    {
      "epoch": 7.34375,
      "eval_loss": 0.6820936799049377,
      "eval_runtime": 46.5095,
      "eval_samples_per_second": 4.3,
      "eval_steps_per_second": 0.538,
      "step": 235
    },
    {
      "epoch": 7.375,
      "grad_norm": 0.7718198795174328,
      "learning_rate": 2e-05,
      "loss": 0.6322,
      "step": 236
    },
    {
      "epoch": 7.375,
      "eval_loss": 0.681590735912323,
      "eval_runtime": 47.6491,
      "eval_samples_per_second": 4.197,
      "eval_steps_per_second": 0.525,
      "step": 236
    },
    {
      "epoch": 7.40625,
      "grad_norm": 0.8032644336352275,
      "learning_rate": 2e-05,
      "loss": 0.6835,
      "step": 237
    },
    {
      "epoch": 7.40625,
      "eval_loss": 0.6806458234786987,
      "eval_runtime": 47.1412,
      "eval_samples_per_second": 4.243,
      "eval_steps_per_second": 0.53,
      "step": 237
    },
    {
      "epoch": 7.4375,
      "grad_norm": 0.8165151350063435,
      "learning_rate": 2e-05,
      "loss": 0.6744,
      "step": 238
    },
    {
      "epoch": 7.4375,
      "eval_loss": 0.6802331805229187,
      "eval_runtime": 48.2476,
      "eval_samples_per_second": 4.145,
      "eval_steps_per_second": 0.518,
      "step": 238
    },
    {
      "epoch": 7.46875,
      "grad_norm": 0.7665175082054141,
      "learning_rate": 2e-05,
      "loss": 0.6955,
      "step": 239
    },
    {
      "epoch": 7.46875,
      "eval_loss": 0.6806652545928955,
      "eval_runtime": 46.6541,
      "eval_samples_per_second": 4.287,
      "eval_steps_per_second": 0.536,
      "step": 239
    },
    {
      "epoch": 7.5,
      "grad_norm": 0.7584547487112137,
      "learning_rate": 2e-05,
      "loss": 0.6374,
      "step": 240
    },
    {
      "epoch": 7.5,
      "eval_loss": 0.6825945973396301,
      "eval_runtime": 46.3848,
      "eval_samples_per_second": 4.312,
      "eval_steps_per_second": 0.539,
      "step": 240
    },
    {
      "epoch": 7.53125,
      "grad_norm": 0.660822695597991,
      "learning_rate": 2e-05,
      "loss": 0.6825,
      "step": 241
    },
    {
      "epoch": 7.53125,
      "eval_loss": 0.6861986517906189,
      "eval_runtime": 46.2732,
      "eval_samples_per_second": 4.322,
      "eval_steps_per_second": 0.54,
      "step": 241
    },
    {
      "epoch": 7.5625,
      "grad_norm": 0.7793836425815985,
      "learning_rate": 2e-05,
      "loss": 0.6824,
      "step": 242
    },
    {
      "epoch": 7.5625,
      "eval_loss": 0.6895106434822083,
      "eval_runtime": 46.6462,
      "eval_samples_per_second": 4.288,
      "eval_steps_per_second": 0.536,
      "step": 242
    },
    {
      "epoch": 7.59375,
      "grad_norm": 0.8237113294656135,
      "learning_rate": 2e-05,
      "loss": 0.6604,
      "step": 243
    },
    {
      "epoch": 7.59375,
      "eval_loss": 0.6898853778839111,
      "eval_runtime": 46.7904,
      "eval_samples_per_second": 4.274,
      "eval_steps_per_second": 0.534,
      "step": 243
    },
    {
      "epoch": 7.625,
      "grad_norm": 0.9966126829271594,
      "learning_rate": 2e-05,
      "loss": 0.7297,
      "step": 244
    },
    {
      "epoch": 7.625,
      "eval_loss": 0.6854925751686096,
      "eval_runtime": 46.5541,
      "eval_samples_per_second": 4.296,
      "eval_steps_per_second": 0.537,
      "step": 244
    },
    {
      "epoch": 7.65625,
      "grad_norm": 0.7581680879353856,
      "learning_rate": 2e-05,
      "loss": 0.6319,
      "step": 245
    },
    {
      "epoch": 7.65625,
      "eval_loss": 0.6836807131767273,
      "eval_runtime": 48.3404,
      "eval_samples_per_second": 4.137,
      "eval_steps_per_second": 0.517,
      "step": 245
    },
    {
      "epoch": 7.6875,
      "grad_norm": 0.799947909805063,
      "learning_rate": 2e-05,
      "loss": 0.672,
      "step": 246
    },
    {
      "epoch": 7.6875,
      "eval_loss": 0.681761622428894,
      "eval_runtime": 50.0597,
      "eval_samples_per_second": 3.995,
      "eval_steps_per_second": 0.499,
      "step": 246
    },
    {
      "epoch": 7.71875,
      "grad_norm": 0.8377626405796506,
      "learning_rate": 2e-05,
      "loss": 0.6727,
      "step": 247
    },
    {
      "epoch": 7.71875,
      "eval_loss": 0.6791908144950867,
      "eval_runtime": 49.25,
      "eval_samples_per_second": 4.061,
      "eval_steps_per_second": 0.508,
      "step": 247
    },
    {
      "epoch": 7.75,
      "grad_norm": 0.7237789197029182,
      "learning_rate": 2e-05,
      "loss": 0.6576,
      "step": 248
    },
    {
      "epoch": 7.75,
      "eval_loss": 0.6767004132270813,
      "eval_runtime": 48.5162,
      "eval_samples_per_second": 4.122,
      "eval_steps_per_second": 0.515,
      "step": 248
    },
    {
      "epoch": 7.78125,
      "grad_norm": 0.7946831722044173,
      "learning_rate": 2e-05,
      "loss": 0.7029,
      "step": 249
    },
    {
      "epoch": 7.78125,
      "eval_loss": 0.675483763217926,
      "eval_runtime": 49.9932,
      "eval_samples_per_second": 4.001,
      "eval_steps_per_second": 0.5,
      "step": 249
    },
    {
      "epoch": 7.8125,
      "grad_norm": 0.7259305030593936,
      "learning_rate": 2e-05,
      "loss": 0.7109,
      "step": 250
    },
    {
      "epoch": 7.8125,
      "eval_loss": 0.6768932938575745,
      "eval_runtime": 49.852,
      "eval_samples_per_second": 4.012,
      "eval_steps_per_second": 0.501,
      "step": 250
    },
    {
      "epoch": 7.84375,
      "grad_norm": 0.7340863248905795,
      "learning_rate": 2e-05,
      "loss": 0.6231,
      "step": 251
    },
    {
      "epoch": 7.84375,
      "eval_loss": 0.6790910363197327,
      "eval_runtime": 51.2892,
      "eval_samples_per_second": 3.899,
      "eval_steps_per_second": 0.487,
      "step": 251
    },
    {
      "epoch": 7.875,
      "grad_norm": 0.8413325044551803,
      "learning_rate": 2e-05,
      "loss": 0.6325,
      "step": 252
    },
    {
      "epoch": 7.875,
      "eval_loss": 0.6796602010726929,
      "eval_runtime": 51.5508,
      "eval_samples_per_second": 3.88,
      "eval_steps_per_second": 0.485,
      "step": 252
    },
    {
      "epoch": 7.90625,
      "grad_norm": 0.7927416396360353,
      "learning_rate": 2e-05,
      "loss": 0.7207,
      "step": 253
    },
    {
      "epoch": 7.90625,
      "eval_loss": 0.6797543168067932,
      "eval_runtime": 51.7355,
      "eval_samples_per_second": 3.866,
      "eval_steps_per_second": 0.483,
      "step": 253
    },
    {
      "epoch": 7.9375,
      "grad_norm": 0.7510046984656369,
      "learning_rate": 2e-05,
      "loss": 0.6728,
      "step": 254
    },
    {
      "epoch": 7.9375,
      "eval_loss": 0.6813901662826538,
      "eval_runtime": 50.2001,
      "eval_samples_per_second": 3.984,
      "eval_steps_per_second": 0.498,
      "step": 254
    },
    {
      "epoch": 7.96875,
      "grad_norm": 0.8061013994114622,
      "learning_rate": 2e-05,
      "loss": 0.6006,
      "step": 255
    },
    {
      "epoch": 7.96875,
      "eval_loss": 0.681613028049469,
      "eval_runtime": 49.7101,
      "eval_samples_per_second": 4.023,
      "eval_steps_per_second": 0.503,
      "step": 255
    },
    {
      "epoch": 8.0,
      "grad_norm": 0.7889275388211946,
      "learning_rate": 2e-05,
      "loss": 0.662,
      "step": 256
    },
    {
      "epoch": 8.0,
      "eval_loss": 0.6804400086402893,
      "eval_runtime": 51.28,
      "eval_samples_per_second": 3.9,
      "eval_steps_per_second": 0.488,
      "step": 256
    },
    {
      "epoch": 8.03125,
      "grad_norm": 0.7870763956359581,
      "learning_rate": 2e-05,
      "loss": 0.6302,
      "step": 257
    },
    {
      "epoch": 8.03125,
      "eval_loss": 0.6809322834014893,
      "eval_runtime": 52.7641,
      "eval_samples_per_second": 3.79,
      "eval_steps_per_second": 0.474,
      "step": 257
    },
    {
      "epoch": 8.0625,
      "grad_norm": 0.7603743206060642,
      "learning_rate": 2e-05,
      "loss": 0.6426,
      "step": 258
    },
    {
      "epoch": 8.0625,
      "eval_loss": 0.683021068572998,
      "eval_runtime": 43.8381,
      "eval_samples_per_second": 4.562,
      "eval_steps_per_second": 0.57,
      "step": 258
    },
    {
      "epoch": 8.09375,
      "grad_norm": 0.7751516747488628,
      "learning_rate": 2e-05,
      "loss": 0.6734,
      "step": 259
    },
    {
      "epoch": 8.09375,
      "eval_loss": 0.685730516910553,
      "eval_runtime": 43.9143,
      "eval_samples_per_second": 4.554,
      "eval_steps_per_second": 0.569,
      "step": 259
    },
    {
      "epoch": 8.125,
      "grad_norm": 0.8783715889493854,
      "learning_rate": 2e-05,
      "loss": 0.685,
      "step": 260
    },
    {
      "epoch": 8.125,
      "eval_loss": 0.6876766085624695,
      "eval_runtime": 43.8107,
      "eval_samples_per_second": 4.565,
      "eval_steps_per_second": 0.571,
      "step": 260
    },
    {
      "epoch": 8.15625,
      "grad_norm": 0.8683763894470441,
      "learning_rate": 2e-05,
      "loss": 0.6111,
      "step": 261
    },
    {
      "epoch": 8.15625,
      "eval_loss": 0.6892675757408142,
      "eval_runtime": 45.4312,
      "eval_samples_per_second": 4.402,
      "eval_steps_per_second": 0.55,
      "step": 261
    },
    {
      "epoch": 8.1875,
      "grad_norm": 0.83301264234889,
      "learning_rate": 2e-05,
      "loss": 0.7238,
      "step": 262
    },
    {
      "epoch": 8.1875,
      "eval_loss": 0.6900019645690918,
      "eval_runtime": 43.7899,
      "eval_samples_per_second": 4.567,
      "eval_steps_per_second": 0.571,
      "step": 262
    },
    {
      "epoch": 8.21875,
      "grad_norm": 0.9311076945185538,
      "learning_rate": 2e-05,
      "loss": 0.5936,
      "step": 263
    },
    {
      "epoch": 8.21875,
      "eval_loss": 0.6899961233139038,
      "eval_runtime": 45.0746,
      "eval_samples_per_second": 4.437,
      "eval_steps_per_second": 0.555,
      "step": 263
    },
    {
      "epoch": 8.25,
      "grad_norm": 0.8715436312553682,
      "learning_rate": 2e-05,
      "loss": 0.6483,
      "step": 264
    },
    {
      "epoch": 8.25,
      "eval_loss": 0.690051257610321,
      "eval_runtime": 43.9844,
      "eval_samples_per_second": 4.547,
      "eval_steps_per_second": 0.568,
      "step": 264
    },
    {
      "epoch": 8.28125,
      "grad_norm": 0.9923902289464986,
      "learning_rate": 2e-05,
      "loss": 0.6718,
      "step": 265
    },
    {
      "epoch": 8.28125,
      "eval_loss": 0.688658595085144,
      "eval_runtime": 43.8005,
      "eval_samples_per_second": 4.566,
      "eval_steps_per_second": 0.571,
      "step": 265
    },
    {
      "epoch": 8.3125,
      "grad_norm": 0.8485704756867186,
      "learning_rate": 2e-05,
      "loss": 0.663,
      "step": 266
    },
    {
      "epoch": 8.3125,
      "eval_loss": 0.6868423223495483,
      "eval_runtime": 46.8136,
      "eval_samples_per_second": 4.272,
      "eval_steps_per_second": 0.534,
      "step": 266
    },
    {
      "epoch": 8.34375,
      "grad_norm": 0.8355813738463048,
      "learning_rate": 2e-05,
      "loss": 0.5884,
      "step": 267
    },
    {
      "epoch": 8.34375,
      "eval_loss": 0.6864896416664124,
      "eval_runtime": 46.0477,
      "eval_samples_per_second": 4.343,
      "eval_steps_per_second": 0.543,
      "step": 267
    },
    {
      "epoch": 8.375,
      "grad_norm": 0.8932260711586627,
      "learning_rate": 2e-05,
      "loss": 0.6466,
      "step": 268
    },
    {
      "epoch": 8.375,
      "eval_loss": 0.6860455274581909,
      "eval_runtime": 46.3159,
      "eval_samples_per_second": 4.318,
      "eval_steps_per_second": 0.54,
      "step": 268
    },
    {
      "epoch": 8.40625,
      "grad_norm": 0.8536230233577757,
      "learning_rate": 2e-05,
      "loss": 0.6364,
      "step": 269
    },
    {
      "epoch": 8.40625,
      "eval_loss": 0.6861154437065125,
      "eval_runtime": 45.4048,
      "eval_samples_per_second": 4.405,
      "eval_steps_per_second": 0.551,
      "step": 269
    },
    {
      "epoch": 8.4375,
      "grad_norm": 0.83328335532683,
      "learning_rate": 2e-05,
      "loss": 0.6419,
      "step": 270
    },
    {
      "epoch": 8.4375,
      "eval_loss": 0.6856899261474609,
      "eval_runtime": 46.609,
      "eval_samples_per_second": 4.291,
      "eval_steps_per_second": 0.536,
      "step": 270
    },
    {
      "epoch": 8.46875,
      "grad_norm": 0.8841406022945117,
      "learning_rate": 2e-05,
      "loss": 0.5383,
      "step": 271
    },
    {
      "epoch": 8.46875,
      "eval_loss": 0.6865776181221008,
      "eval_runtime": 47.0757,
      "eval_samples_per_second": 4.248,
      "eval_steps_per_second": 0.531,
      "step": 271
    },
    {
      "epoch": 8.5,
      "grad_norm": 0.8194392324450703,
      "learning_rate": 2e-05,
      "loss": 0.6376,
      "step": 272
    },
    {
      "epoch": 8.5,
      "eval_loss": 0.6892414689064026,
      "eval_runtime": 46.8669,
      "eval_samples_per_second": 4.267,
      "eval_steps_per_second": 0.533,
      "step": 272
    },
    {
      "epoch": 8.53125,
      "grad_norm": 0.937948691760343,
      "learning_rate": 2e-05,
      "loss": 0.6485,
      "step": 273
    },
    {
      "epoch": 8.53125,
      "eval_loss": 0.6890290975570679,
      "eval_runtime": 46.649,
      "eval_samples_per_second": 4.287,
      "eval_steps_per_second": 0.536,
      "step": 273
    },
    {
      "epoch": 8.5625,
      "grad_norm": 0.9240471094453983,
      "learning_rate": 2e-05,
      "loss": 0.6387,
      "step": 274
    },
    {
      "epoch": 8.5625,
      "eval_loss": 0.6875545382499695,
      "eval_runtime": 48.2193,
      "eval_samples_per_second": 4.148,
      "eval_steps_per_second": 0.518,
      "step": 274
    },
    {
      "epoch": 8.59375,
      "grad_norm": 0.9186571178066892,
      "learning_rate": 2e-05,
      "loss": 0.6503,
      "step": 275
    },
    {
      "epoch": 8.59375,
      "eval_loss": 0.6848871111869812,
      "eval_runtime": 46.9651,
      "eval_samples_per_second": 4.258,
      "eval_steps_per_second": 0.532,
      "step": 275
    },
    {
      "epoch": 8.625,
      "grad_norm": 0.9603067514462874,
      "learning_rate": 2e-05,
      "loss": 0.6429,
      "step": 276
    },
    {
      "epoch": 8.625,
      "eval_loss": 0.68189537525177,
      "eval_runtime": 47.959,
      "eval_samples_per_second": 4.17,
      "eval_steps_per_second": 0.521,
      "step": 276
    },
    {
      "epoch": 8.65625,
      "grad_norm": 0.8632677172122276,
      "learning_rate": 2e-05,
      "loss": 0.5888,
      "step": 277
    },
    {
      "epoch": 8.65625,
      "eval_loss": 0.6817250847816467,
      "eval_runtime": 47.5519,
      "eval_samples_per_second": 4.206,
      "eval_steps_per_second": 0.526,
      "step": 277
    },
    {
      "epoch": 8.6875,
      "grad_norm": 0.9096699999767647,
      "learning_rate": 2e-05,
      "loss": 0.6434,
      "step": 278
    },
    {
      "epoch": 8.6875,
      "eval_loss": 0.6826667785644531,
      "eval_runtime": 48.058,
      "eval_samples_per_second": 4.162,
      "eval_steps_per_second": 0.52,
      "step": 278
    },
    {
      "epoch": 8.71875,
      "grad_norm": 0.8315455850502919,
      "learning_rate": 2e-05,
      "loss": 0.6012,
      "step": 279
    },
    {
      "epoch": 8.71875,
      "eval_loss": 0.6839814782142639,
      "eval_runtime": 48.1576,
      "eval_samples_per_second": 4.153,
      "eval_steps_per_second": 0.519,
      "step": 279
    },
    {
      "epoch": 8.75,
      "grad_norm": 0.9058679893646637,
      "learning_rate": 2e-05,
      "loss": 0.676,
      "step": 280
    },
    {
      "epoch": 8.75,
      "eval_loss": 0.6849075555801392,
      "eval_runtime": 47.9952,
      "eval_samples_per_second": 4.167,
      "eval_steps_per_second": 0.521,
      "step": 280
    },
    {
      "epoch": 8.78125,
      "grad_norm": 0.8626848465032242,
      "learning_rate": 2e-05,
      "loss": 0.6137,
      "step": 281
    },
    {
      "epoch": 8.78125,
      "eval_loss": 0.6846147775650024,
      "eval_runtime": 50.2338,
      "eval_samples_per_second": 3.981,
      "eval_steps_per_second": 0.498,
      "step": 281
    },
    {
      "epoch": 8.8125,
      "grad_norm": 0.8473178170336938,
      "learning_rate": 2e-05,
      "loss": 0.6017,
      "step": 282
    },
    {
      "epoch": 8.8125,
      "eval_loss": 0.6846247911453247,
      "eval_runtime": 49.6161,
      "eval_samples_per_second": 4.031,
      "eval_steps_per_second": 0.504,
      "step": 282
    },
    {
      "epoch": 8.84375,
      "grad_norm": 0.8161205540198673,
      "learning_rate": 2e-05,
      "loss": 0.5811,
      "step": 283
    },
    {
      "epoch": 8.84375,
      "eval_loss": 0.6851673126220703,
      "eval_runtime": 48.2057,
      "eval_samples_per_second": 4.149,
      "eval_steps_per_second": 0.519,
      "step": 283
    },
    {
      "epoch": 8.875,
      "grad_norm": 0.8854404259280148,
      "learning_rate": 2e-05,
      "loss": 0.5459,
      "step": 284
    },
    {
      "epoch": 8.875,
      "eval_loss": 0.685972273349762,
      "eval_runtime": 49.0992,
      "eval_samples_per_second": 4.073,
      "eval_steps_per_second": 0.509,
      "step": 284
    },
    {
      "epoch": 8.90625,
      "grad_norm": 0.9439945965022273,
      "learning_rate": 2e-05,
      "loss": 0.5908,
      "step": 285
    },
    {
      "epoch": 8.90625,
      "eval_loss": 0.6852046847343445,
      "eval_runtime": 48.1612,
      "eval_samples_per_second": 4.153,
      "eval_steps_per_second": 0.519,
      "step": 285
    },
    {
      "epoch": 8.9375,
      "grad_norm": 1.0054677849137328,
      "learning_rate": 2e-05,
      "loss": 0.7215,
      "step": 286
    },
    {
      "epoch": 8.9375,
      "eval_loss": 0.6840152144432068,
      "eval_runtime": 48.2329,
      "eval_samples_per_second": 4.147,
      "eval_steps_per_second": 0.518,
      "step": 286
    },
    {
      "epoch": 8.96875,
      "grad_norm": 0.8657465123021779,
      "learning_rate": 2e-05,
      "loss": 0.6479,
      "step": 287
    },
    {
      "epoch": 8.96875,
      "eval_loss": 0.6845163106918335,
      "eval_runtime": 47.9574,
      "eval_samples_per_second": 4.17,
      "eval_steps_per_second": 0.521,
      "step": 287
    },
    {
      "epoch": 9.0,
      "grad_norm": 0.9781677785178013,
      "learning_rate": 2e-05,
      "loss": 0.598,
      "step": 288
    },
    {
      "epoch": 9.0,
      "eval_loss": 0.6835929751396179,
      "eval_runtime": 48.3854,
      "eval_samples_per_second": 4.133,
      "eval_steps_per_second": 0.517,
      "step": 288
    },
    {
      "epoch": 9.03125,
      "grad_norm": 0.8913448503162013,
      "learning_rate": 2e-05,
      "loss": 0.608,
      "step": 289
    },
    {
      "epoch": 9.03125,
      "eval_loss": 0.682920515537262,
      "eval_runtime": 48.0787,
      "eval_samples_per_second": 4.16,
      "eval_steps_per_second": 0.52,
      "step": 289
    },
    {
      "epoch": 9.0625,
      "grad_norm": 0.8910028425785708,
      "learning_rate": 2e-05,
      "loss": 0.6249,
      "step": 290
    },
    {
      "epoch": 9.0625,
      "eval_loss": 0.6842910647392273,
      "eval_runtime": 45.3447,
      "eval_samples_per_second": 4.411,
      "eval_steps_per_second": 0.551,
      "step": 290
    },
    {
      "epoch": 9.09375,
      "grad_norm": 0.8766964747132081,
      "learning_rate": 2e-05,
      "loss": 0.6198,
      "step": 291
    },
    {
      "epoch": 9.09375,
      "eval_loss": 0.6897236704826355,
      "eval_runtime": 44.1159,
      "eval_samples_per_second": 4.534,
      "eval_steps_per_second": 0.567,
      "step": 291
    },
    {
      "epoch": 9.125,
      "grad_norm": 1.0295884589810356,
      "learning_rate": 2e-05,
      "loss": 0.5993,
      "step": 292
    },
    {
      "epoch": 9.125,
      "eval_loss": 0.6943468451499939,
      "eval_runtime": 43.8108,
      "eval_samples_per_second": 4.565,
      "eval_steps_per_second": 0.571,
      "step": 292
    },
    {
      "epoch": 9.15625,
      "grad_norm": 0.9773325211255739,
      "learning_rate": 2e-05,
      "loss": 0.6508,
      "step": 293
    },
    {
      "epoch": 9.15625,
      "eval_loss": 0.6970213055610657,
      "eval_runtime": 45.2879,
      "eval_samples_per_second": 4.416,
      "eval_steps_per_second": 0.552,
      "step": 293
    },
    {
      "epoch": 9.1875,
      "grad_norm": 0.8891126608483751,
      "learning_rate": 2e-05,
      "loss": 0.5919,
      "step": 294
    },
    {
      "epoch": 9.1875,
      "eval_loss": 0.6991220116615295,
      "eval_runtime": 45.4682,
      "eval_samples_per_second": 4.399,
      "eval_steps_per_second": 0.55,
      "step": 294
    },
    {
      "epoch": 9.21875,
      "grad_norm": 1.0482454581695644,
      "learning_rate": 2e-05,
      "loss": 0.5355,
      "step": 295
    },
    {
      "epoch": 9.21875,
      "eval_loss": 0.704166054725647,
      "eval_runtime": 45.109,
      "eval_samples_per_second": 4.434,
      "eval_steps_per_second": 0.554,
      "step": 295
    },
    {
      "epoch": 9.25,
      "grad_norm": 0.9935665009180418,
      "learning_rate": 2e-05,
      "loss": 0.5624,
      "step": 296
    },
    {
      "epoch": 9.25,
      "eval_loss": 0.7078476548194885,
      "eval_runtime": 43.6811,
      "eval_samples_per_second": 4.579,
      "eval_steps_per_second": 0.572,
      "step": 296
    },
    {
      "epoch": 9.28125,
      "grad_norm": 1.1040486086703822,
      "learning_rate": 2e-05,
      "loss": 0.66,
      "step": 297
    },
    {
      "epoch": 9.28125,
      "eval_loss": 0.7050178647041321,
      "eval_runtime": 43.9806,
      "eval_samples_per_second": 4.547,
      "eval_steps_per_second": 0.568,
      "step": 297
    },
    {
      "epoch": 9.3125,
      "grad_norm": 1.2781656869693958,
      "learning_rate": 2e-05,
      "loss": 0.5966,
      "step": 298
    },
    {
      "epoch": 9.3125,
      "eval_loss": 0.6992971897125244,
      "eval_runtime": 45.6581,
      "eval_samples_per_second": 4.38,
      "eval_steps_per_second": 0.548,
      "step": 298
    },
    {
      "epoch": 9.34375,
      "grad_norm": 1.0619252838389437,
      "learning_rate": 2e-05,
      "loss": 0.5724,
      "step": 299
    },
    {
      "epoch": 9.34375,
      "eval_loss": 0.6947219967842102,
      "eval_runtime": 45.5657,
      "eval_samples_per_second": 4.389,
      "eval_steps_per_second": 0.549,
      "step": 299
    },
    {
      "epoch": 9.375,
      "grad_norm": 0.9267592917491817,
      "learning_rate": 2e-05,
      "loss": 0.5834,
      "step": 300
    },
    {
      "epoch": 9.375,
      "eval_loss": 0.6934340000152588,
      "eval_runtime": 43.7418,
      "eval_samples_per_second": 4.572,
      "eval_steps_per_second": 0.572,
      "step": 300
    },
    {
      "epoch": 9.40625,
      "grad_norm": 0.9597103067245094,
      "learning_rate": 2e-05,
      "loss": 0.5645,
      "step": 301
    },
    {
      "epoch": 9.40625,
      "eval_loss": 0.6928582787513733,
      "eval_runtime": 45.6592,
      "eval_samples_per_second": 4.38,
      "eval_steps_per_second": 0.548,
      "step": 301
    },
    {
      "epoch": 9.4375,
      "grad_norm": 1.0528189035992561,
      "learning_rate": 2e-05,
      "loss": 0.6196,
      "step": 302
    },
    {
      "epoch": 9.4375,
      "eval_loss": 0.6888896822929382,
      "eval_runtime": 44.9727,
      "eval_samples_per_second": 4.447,
      "eval_steps_per_second": 0.556,
      "step": 302
    },
    {
      "epoch": 9.46875,
      "grad_norm": 1.0053722794735602,
      "learning_rate": 2e-05,
      "loss": 0.6154,
      "step": 303
    },
    {
      "epoch": 9.46875,
      "eval_loss": 0.6855815052986145,
      "eval_runtime": 44.7585,
      "eval_samples_per_second": 4.468,
      "eval_steps_per_second": 0.559,
      "step": 303
    },
    {
      "epoch": 9.5,
      "grad_norm": 0.8783611726661886,
      "learning_rate": 2e-05,
      "loss": 0.6542,
      "step": 304
    },
    {
      "epoch": 9.5,
      "eval_loss": 0.685936689376831,
      "eval_runtime": 44.7918,
      "eval_samples_per_second": 4.465,
      "eval_steps_per_second": 0.558,
      "step": 304
    },
    {
      "epoch": 9.53125,
      "grad_norm": 0.9143611061568578,
      "learning_rate": 2e-05,
      "loss": 0.6178,
      "step": 305
    },
    {
      "epoch": 9.53125,
      "eval_loss": 0.6888444423675537,
      "eval_runtime": 46.8021,
      "eval_samples_per_second": 4.273,
      "eval_steps_per_second": 0.534,
      "step": 305
    },
    {
      "epoch": 9.5625,
      "grad_norm": 1.0642585786595127,
      "learning_rate": 2e-05,
      "loss": 0.6078,
      "step": 306
    },
    {
      "epoch": 9.5625,
      "eval_loss": 0.6898679137229919,
      "eval_runtime": 47.6538,
      "eval_samples_per_second": 4.197,
      "eval_steps_per_second": 0.525,
      "step": 306
    },
    {
      "epoch": 9.59375,
      "grad_norm": 1.1048937808634194,
      "learning_rate": 2e-05,
      "loss": 0.6019,
      "step": 307
    },
    {
      "epoch": 9.59375,
      "eval_loss": 0.6891123056411743,
      "eval_runtime": 45.7695,
      "eval_samples_per_second": 4.37,
      "eval_steps_per_second": 0.546,
      "step": 307
    },
    {
      "epoch": 9.625,
      "grad_norm": 1.0058213310083948,
      "learning_rate": 2e-05,
      "loss": 0.6406,
      "step": 308
    },
    {
      "epoch": 9.625,
      "eval_loss": 0.6902400851249695,
      "eval_runtime": 45.7897,
      "eval_samples_per_second": 4.368,
      "eval_steps_per_second": 0.546,
      "step": 308
    },
    {
      "epoch": 9.65625,
      "grad_norm": 0.9344450130195062,
      "learning_rate": 2e-05,
      "loss": 0.607,
      "step": 309
    },
    {
      "epoch": 9.65625,
      "eval_loss": 0.6951236128807068,
      "eval_runtime": 46.8406,
      "eval_samples_per_second": 4.27,
      "eval_steps_per_second": 0.534,
      "step": 309
    },
    {
      "epoch": 9.6875,
      "grad_norm": 1.1997135893441022,
      "learning_rate": 2e-05,
      "loss": 0.5994,
      "step": 310
    },
    {
      "epoch": 9.6875,
      "eval_loss": 0.6978768706321716,
      "eval_runtime": 47.5626,
      "eval_samples_per_second": 4.205,
      "eval_steps_per_second": 0.526,
      "step": 310
    },
    {
      "epoch": 9.71875,
      "grad_norm": 1.0755945446749937,
      "learning_rate": 2e-05,
      "loss": 0.5265,
      "step": 311
    },
    {
      "epoch": 9.71875,
      "eval_loss": 0.70021653175354,
      "eval_runtime": 46.1678,
      "eval_samples_per_second": 4.332,
      "eval_steps_per_second": 0.542,
      "step": 311
    },
    {
      "epoch": 9.75,
      "grad_norm": 1.069679239983948,
      "learning_rate": 2e-05,
      "loss": 0.6212,
      "step": 312
    },
    {
      "epoch": 9.75,
      "eval_loss": 0.7008029222488403,
      "eval_runtime": 47.797,
      "eval_samples_per_second": 4.184,
      "eval_steps_per_second": 0.523,
      "step": 312
    },
    {
      "epoch": 9.78125,
      "grad_norm": 0.9717104499586322,
      "learning_rate": 2e-05,
      "loss": 0.6063,
      "step": 313
    },
    {
      "epoch": 9.78125,
      "eval_loss": 0.7000299096107483,
      "eval_runtime": 46.9892,
      "eval_samples_per_second": 4.256,
      "eval_steps_per_second": 0.532,
      "step": 313
    },
    {
      "epoch": 9.8125,
      "grad_norm": 1.117536796971012,
      "learning_rate": 2e-05,
      "loss": 0.5875,
      "step": 314
    },
    {
      "epoch": 9.8125,
      "eval_loss": 0.6982808709144592,
      "eval_runtime": 48.0867,
      "eval_samples_per_second": 4.159,
      "eval_steps_per_second": 0.52,
      "step": 314
    },
    {
      "epoch": 9.84375,
      "grad_norm": 0.987633836102932,
      "learning_rate": 2e-05,
      "loss": 0.6072,
      "step": 315
    },
    {
      "epoch": 9.84375,
      "eval_loss": 0.6959852576255798,
      "eval_runtime": 46.1188,
      "eval_samples_per_second": 4.337,
      "eval_steps_per_second": 0.542,
      "step": 315
    },
    {
      "epoch": 9.875,
      "grad_norm": 0.972220541559008,
      "learning_rate": 2e-05,
      "loss": 0.5984,
      "step": 316
    },
    {
      "epoch": 9.875,
      "eval_loss": 0.6931790113449097,
      "eval_runtime": 46.363,
      "eval_samples_per_second": 4.314,
      "eval_steps_per_second": 0.539,
      "step": 316
    },
    {
      "epoch": 9.90625,
      "grad_norm": 1.073192480739423,
      "learning_rate": 2e-05,
      "loss": 0.5686,
      "step": 317
    },
    {
      "epoch": 9.90625,
      "eval_loss": 0.6896910071372986,
      "eval_runtime": 46.2139,
      "eval_samples_per_second": 4.328,
      "eval_steps_per_second": 0.541,
      "step": 317
    },
    {
      "epoch": 9.9375,
      "grad_norm": 1.0275060141171612,
      "learning_rate": 2e-05,
      "loss": 0.5825,
      "step": 318
    },
    {
      "epoch": 9.9375,
      "eval_loss": 0.6866476535797119,
      "eval_runtime": 47.6084,
      "eval_samples_per_second": 4.201,
      "eval_steps_per_second": 0.525,
      "step": 318
    },
    {
      "epoch": 9.96875,
      "grad_norm": 1.1137122139905515,
      "learning_rate": 2e-05,
      "loss": 0.614,
      "step": 319
    },
    {
      "epoch": 9.96875,
      "eval_loss": 0.6832907199859619,
      "eval_runtime": 48.0271,
      "eval_samples_per_second": 4.164,
      "eval_steps_per_second": 0.521,
      "step": 319
    },
    {
      "epoch": 10.0,
      "grad_norm": 1.0329542238815055,
      "learning_rate": 2e-05,
      "loss": 0.569,
      "step": 320
    },
    {
      "epoch": 10.0,
      "eval_loss": 0.6833243370056152,
      "eval_runtime": 46.9821,
      "eval_samples_per_second": 4.257,
      "eval_steps_per_second": 0.532,
      "step": 320
    },
    {
      "epoch": 10.0,
      "step": 320,
      "total_flos": 414702785134592.0,
      "train_loss": 0.12324189562350511,
      "train_runtime": 3831.9747,
      "train_samples_per_second": 2.61,
      "train_steps_per_second": 0.084
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 320,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 5,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 414702785134592.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}