{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.2386634844868735,
  "eval_steps": 25,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.002386634844868735,
      "grad_norm": 1.0450209379196167,
      "learning_rate": 2e-05,
      "loss": 1.1108,
      "step": 1
    },
    {
      "epoch": 0.002386634844868735,
      "eval_loss": 1.0071309804916382,
      "eval_runtime": 34.7474,
      "eval_samples_per_second": 5.094,
      "eval_steps_per_second": 2.561,
      "step": 1
    },
    {
      "epoch": 0.00477326968973747,
      "grad_norm": 0.7904828190803528,
      "learning_rate": 4e-05,
      "loss": 0.8563,
      "step": 2
    },
    {
      "epoch": 0.007159904534606206,
      "grad_norm": 0.7050002813339233,
      "learning_rate": 6e-05,
      "loss": 1.0164,
      "step": 3
    },
    {
      "epoch": 0.00954653937947494,
      "grad_norm": 0.560822606086731,
      "learning_rate": 8e-05,
      "loss": 0.8154,
      "step": 4
    },
    {
      "epoch": 0.011933174224343675,
      "grad_norm": 0.7016718983650208,
      "learning_rate": 0.0001,
      "loss": 0.7792,
      "step": 5
    },
    {
      "epoch": 0.014319809069212411,
      "grad_norm": 1.0643943548202515,
      "learning_rate": 0.00012,
      "loss": 0.8941,
      "step": 6
    },
    {
      "epoch": 0.016706443914081145,
      "grad_norm": 0.6845099925994873,
      "learning_rate": 0.00014,
      "loss": 0.8629,
      "step": 7
    },
    {
      "epoch": 0.01909307875894988,
      "grad_norm": 0.8793440461158752,
      "learning_rate": 0.00016,
      "loss": 1.0928,
      "step": 8
    },
    {
      "epoch": 0.021479713603818614,
      "grad_norm": 0.48879721760749817,
      "learning_rate": 0.00018,
      "loss": 0.7546,
      "step": 9
    },
    {
      "epoch": 0.02386634844868735,
      "grad_norm": 0.5188302993774414,
      "learning_rate": 0.0002,
      "loss": 0.7643,
      "step": 10
    },
    {
      "epoch": 0.026252983293556086,
      "grad_norm": 0.6900399923324585,
      "learning_rate": 0.0001999390827019096,
      "loss": 1.0875,
      "step": 11
    },
    {
      "epoch": 0.028639618138424822,
      "grad_norm": 0.7870529294013977,
      "learning_rate": 0.00019975640502598244,
      "loss": 1.0129,
      "step": 12
    },
    {
      "epoch": 0.031026252983293555,
      "grad_norm": 0.6318848729133606,
      "learning_rate": 0.00019945218953682734,
      "loss": 0.773,
      "step": 13
    },
    {
      "epoch": 0.03341288782816229,
      "grad_norm": 0.6207829713821411,
      "learning_rate": 0.00019902680687415705,
      "loss": 0.7381,
      "step": 14
    },
    {
      "epoch": 0.03579952267303103,
      "grad_norm": 0.5818838477134705,
      "learning_rate": 0.00019848077530122083,
      "loss": 1.0094,
      "step": 15
    },
    {
      "epoch": 0.03818615751789976,
      "grad_norm": 0.6034780740737915,
      "learning_rate": 0.00019781476007338058,
      "loss": 0.965,
      "step": 16
    },
    {
      "epoch": 0.0405727923627685,
      "grad_norm": 0.6101436614990234,
      "learning_rate": 0.00019702957262759965,
      "loss": 0.8952,
      "step": 17
    },
    {
      "epoch": 0.04295942720763723,
      "grad_norm": 0.5870652794837952,
      "learning_rate": 0.0001961261695938319,
      "loss": 0.8977,
      "step": 18
    },
    {
      "epoch": 0.045346062052505964,
      "grad_norm": 0.6480791568756104,
      "learning_rate": 0.00019510565162951537,
      "loss": 0.7486,
      "step": 19
    },
    {
      "epoch": 0.0477326968973747,
      "grad_norm": 0.6001487970352173,
      "learning_rate": 0.00019396926207859084,
      "loss": 0.8561,
      "step": 20
    },
    {
      "epoch": 0.050119331742243436,
      "grad_norm": 0.5912768244743347,
      "learning_rate": 0.00019271838545667876,
      "loss": 0.9607,
      "step": 21
    },
    {
      "epoch": 0.05250596658711217,
      "grad_norm": 0.5560766458511353,
      "learning_rate": 0.0001913545457642601,
      "loss": 0.672,
      "step": 22
    },
    {
      "epoch": 0.05489260143198091,
      "grad_norm": 0.6063298583030701,
      "learning_rate": 0.0001898794046299167,
      "loss": 0.9217,
      "step": 23
    },
    {
      "epoch": 0.057279236276849645,
      "grad_norm": 0.6014498472213745,
      "learning_rate": 0.00018829475928589271,
      "loss": 0.8424,
      "step": 24
    },
    {
      "epoch": 0.059665871121718374,
      "grad_norm": 0.5492991805076599,
      "learning_rate": 0.00018660254037844388,
      "loss": 0.7508,
      "step": 25
    },
    {
      "epoch": 0.059665871121718374,
      "eval_loss": 0.8498036861419678,
      "eval_runtime": 35.092,
      "eval_samples_per_second": 5.044,
      "eval_steps_per_second": 2.536,
      "step": 25
    },
    {
      "epoch": 0.06205250596658711,
      "grad_norm": 0.5979025363922119,
      "learning_rate": 0.0001848048096156426,
      "loss": 0.901,
      "step": 26
    },
    {
      "epoch": 0.06443914081145585,
      "grad_norm": 0.3837530314922333,
      "learning_rate": 0.00018290375725550417,
      "loss": 0.9133,
      "step": 27
    },
    {
      "epoch": 0.06682577565632458,
      "grad_norm": 0.36762621998786926,
      "learning_rate": 0.00018090169943749476,
      "loss": 0.6264,
      "step": 28
    },
    {
      "epoch": 0.06921241050119331,
      "grad_norm": 0.6291572451591492,
      "learning_rate": 0.00017880107536067218,
      "loss": 0.8947,
      "step": 29
    },
    {
      "epoch": 0.07159904534606205,
      "grad_norm": 0.6406276226043701,
      "learning_rate": 0.0001766044443118978,
      "loss": 1.0855,
      "step": 30
    },
    {
      "epoch": 0.07398568019093078,
      "grad_norm": 0.6117343902587891,
      "learning_rate": 0.00017431448254773944,
      "loss": 0.6829,
      "step": 31
    },
    {
      "epoch": 0.07637231503579953,
      "grad_norm": 0.4169491231441498,
      "learning_rate": 0.0001719339800338651,
      "loss": 0.4715,
      "step": 32
    },
    {
      "epoch": 0.07875894988066826,
      "grad_norm": 0.562565267086029,
      "learning_rate": 0.00016946583704589973,
      "loss": 0.8921,
      "step": 33
    },
    {
      "epoch": 0.081145584725537,
      "grad_norm": 0.5665627121925354,
      "learning_rate": 0.00016691306063588583,
      "loss": 0.9898,
      "step": 34
    },
    {
      "epoch": 0.08353221957040573,
      "grad_norm": 0.5303804874420166,
      "learning_rate": 0.00016427876096865394,
      "loss": 0.6849,
      "step": 35
    },
    {
      "epoch": 0.08591885441527446,
      "grad_norm": 0.6137095093727112,
      "learning_rate": 0.0001615661475325658,
      "loss": 0.8831,
      "step": 36
    },
    {
      "epoch": 0.0883054892601432,
      "grad_norm": 0.6591222882270813,
      "learning_rate": 0.00015877852522924732,
      "loss": 1.0837,
      "step": 37
    },
    {
      "epoch": 0.09069212410501193,
      "grad_norm": 0.9407224059104919,
      "learning_rate": 0.0001559192903470747,
      "loss": 1.0914,
      "step": 38
    },
    {
      "epoch": 0.09307875894988067,
      "grad_norm": 0.5275437831878662,
      "learning_rate": 0.0001529919264233205,
      "loss": 0.8568,
      "step": 39
    },
    {
      "epoch": 0.0954653937947494,
      "grad_norm": 0.6186625361442566,
      "learning_rate": 0.00015000000000000001,
      "loss": 0.8595,
      "step": 40
    },
    {
      "epoch": 0.09785202863961814,
      "grad_norm": 0.594353973865509,
      "learning_rate": 0.00014694715627858908,
      "loss": 1.0309,
      "step": 41
    },
    {
      "epoch": 0.10023866348448687,
      "grad_norm": 0.42830130457878113,
      "learning_rate": 0.00014383711467890774,
      "loss": 0.7242,
      "step": 42
    },
    {
      "epoch": 0.1026252983293556,
      "grad_norm": 0.475501149892807,
      "learning_rate": 0.00014067366430758004,
      "loss": 0.7979,
      "step": 43
    },
    {
      "epoch": 0.10501193317422435,
      "grad_norm": 0.5408229827880859,
      "learning_rate": 0.00013746065934159123,
      "loss": 0.7584,
      "step": 44
    },
    {
      "epoch": 0.10739856801909307,
      "grad_norm": 0.5060957670211792,
      "learning_rate": 0.00013420201433256689,
      "loss": 0.8812,
      "step": 45
    },
    {
      "epoch": 0.10978520286396182,
      "grad_norm": 0.5194628238677979,
      "learning_rate": 0.00013090169943749476,
      "loss": 0.9635,
      "step": 46
    },
    {
      "epoch": 0.11217183770883055,
      "grad_norm": 0.48554444313049316,
      "learning_rate": 0.0001275637355816999,
      "loss": 0.6425,
      "step": 47
    },
    {
      "epoch": 0.11455847255369929,
      "grad_norm": 0.557411789894104,
      "learning_rate": 0.00012419218955996676,
      "loss": 0.7724,
      "step": 48
    },
    {
      "epoch": 0.11694510739856802,
      "grad_norm": 0.5317822694778442,
      "learning_rate": 0.00012079116908177593,
      "loss": 0.7985,
      "step": 49
    },
    {
      "epoch": 0.11933174224343675,
      "grad_norm": 0.49006330966949463,
      "learning_rate": 0.00011736481776669306,
      "loss": 0.6489,
      "step": 50
    },
    {
      "epoch": 0.11933174224343675,
      "eval_loss": 0.832510232925415,
      "eval_runtime": 35.0501,
      "eval_samples_per_second": 5.05,
      "eval_steps_per_second": 2.539,
      "step": 50
    },
    {
      "epoch": 0.12171837708830549,
      "grad_norm": 0.4788459539413452,
      "learning_rate": 0.00011391731009600654,
      "loss": 0.9653,
      "step": 51
    },
    {
      "epoch": 0.12410501193317422,
      "grad_norm": 0.4924667179584503,
      "learning_rate": 0.00011045284632676536,
      "loss": 0.6848,
      "step": 52
    },
    {
      "epoch": 0.12649164677804295,
      "grad_norm": 0.4269469380378723,
      "learning_rate": 0.00010697564737441252,
      "loss": 0.6952,
      "step": 53
    },
    {
      "epoch": 0.1288782816229117,
      "grad_norm": 0.5105642676353455,
      "learning_rate": 0.00010348994967025012,
      "loss": 0.7659,
      "step": 54
    },
    {
      "epoch": 0.13126491646778043,
      "grad_norm": 0.6150721311569214,
      "learning_rate": 0.0001,
      "loss": 0.9531,
      "step": 55
    },
    {
      "epoch": 0.13365155131264916,
      "grad_norm": 0.6234554052352905,
      "learning_rate": 9.651005032974994e-05,
      "loss": 1.0244,
      "step": 56
    },
    {
      "epoch": 0.1360381861575179,
      "grad_norm": 0.44356778264045715,
      "learning_rate": 9.302435262558747e-05,
      "loss": 0.6288,
      "step": 57
    },
    {
      "epoch": 0.13842482100238662,
      "grad_norm": 0.7563400268554688,
      "learning_rate": 8.954715367323468e-05,
      "loss": 0.9202,
      "step": 58
    },
    {
      "epoch": 0.14081145584725538,
      "grad_norm": 0.5799483060836792,
      "learning_rate": 8.608268990399349e-05,
      "loss": 0.9032,
      "step": 59
    },
    {
      "epoch": 0.1431980906921241,
      "grad_norm": 0.529781699180603,
      "learning_rate": 8.263518223330697e-05,
      "loss": 0.8071,
      "step": 60
    },
    {
      "epoch": 0.14558472553699284,
      "grad_norm": 0.5381709933280945,
      "learning_rate": 7.920883091822408e-05,
      "loss": 0.7943,
      "step": 61
    },
    {
      "epoch": 0.14797136038186157,
      "grad_norm": 0.675733745098114,
      "learning_rate": 7.580781044003324e-05,
      "loss": 0.8243,
      "step": 62
    },
    {
      "epoch": 0.15035799522673032,
      "grad_norm": 0.549022912979126,
      "learning_rate": 7.243626441830009e-05,
      "loss": 0.8359,
      "step": 63
    },
    {
      "epoch": 0.15274463007159905,
      "grad_norm": 0.620106041431427,
      "learning_rate": 6.909830056250527e-05,
      "loss": 0.8369,
      "step": 64
    },
    {
      "epoch": 0.15513126491646778,
      "grad_norm": 0.5215094089508057,
      "learning_rate": 6.579798566743314e-05,
      "loss": 0.6776,
      "step": 65
    },
    {
      "epoch": 0.1575178997613365,
      "grad_norm": 0.5648626685142517,
      "learning_rate": 6.25393406584088e-05,
      "loss": 0.9495,
      "step": 66
    },
    {
      "epoch": 0.15990453460620524,
      "grad_norm": 0.46306145191192627,
      "learning_rate": 5.9326335692419995e-05,
      "loss": 0.6833,
      "step": 67
    },
    {
      "epoch": 0.162291169451074,
      "grad_norm": 0.555155336856842,
      "learning_rate": 5.616288532109225e-05,
      "loss": 0.8095,
      "step": 68
    },
    {
      "epoch": 0.16467780429594273,
      "grad_norm": 0.5274344086647034,
      "learning_rate": 5.305284372141095e-05,
      "loss": 0.9202,
      "step": 69
    },
    {
      "epoch": 0.16706443914081145,
      "grad_norm": 0.5511350035667419,
      "learning_rate": 5.000000000000002e-05,
      "loss": 1.0942,
      "step": 70
    },
    {
      "epoch": 0.16945107398568018,
      "grad_norm": 0.5189563632011414,
      "learning_rate": 4.700807357667952e-05,
      "loss": 0.8764,
      "step": 71
    },
    {
      "epoch": 0.1718377088305489,
      "grad_norm": 0.7105421423912048,
      "learning_rate": 4.4080709652925336e-05,
      "loss": 0.9026,
      "step": 72
    },
    {
      "epoch": 0.17422434367541767,
      "grad_norm": 0.4522039294242859,
      "learning_rate": 4.12214747707527e-05,
      "loss": 0.8621,
      "step": 73
    },
    {
      "epoch": 0.1766109785202864,
      "grad_norm": 0.5274341702461243,
      "learning_rate": 3.843385246743417e-05,
      "loss": 1.07,
      "step": 74
    },
    {
      "epoch": 0.17899761336515513,
      "grad_norm": 0.4490774869918823,
      "learning_rate": 3.5721239031346066e-05,
      "loss": 0.7299,
      "step": 75
    },
    {
      "epoch": 0.17899761336515513,
      "eval_loss": 0.8282564878463745,
      "eval_runtime": 34.9659,
      "eval_samples_per_second": 5.062,
      "eval_steps_per_second": 2.545,
      "step": 75
    },
    {
      "epoch": 0.18138424821002386,
      "grad_norm": 0.4518599510192871,
      "learning_rate": 3.308693936411421e-05,
      "loss": 0.6287,
      "step": 76
    },
    {
      "epoch": 0.18377088305489261,
      "grad_norm": 0.5499350428581238,
      "learning_rate": 3.053416295410026e-05,
      "loss": 0.6285,
      "step": 77
    },
    {
      "epoch": 0.18615751789976134,
      "grad_norm": 0.5754762291908264,
      "learning_rate": 2.8066019966134904e-05,
      "loss": 0.6451,
      "step": 78
    },
    {
      "epoch": 0.18854415274463007,
      "grad_norm": 0.7732142210006714,
      "learning_rate": 2.5685517452260567e-05,
      "loss": 1.0212,
      "step": 79
    },
    {
      "epoch": 0.1909307875894988,
      "grad_norm": 0.5183526873588562,
      "learning_rate": 2.339555568810221e-05,
      "loss": 0.6797,
      "step": 80
    },
    {
      "epoch": 0.19331742243436753,
      "grad_norm": 0.3806484341621399,
      "learning_rate": 2.119892463932781e-05,
      "loss": 0.6941,
      "step": 81
    },
    {
      "epoch": 0.1957040572792363,
      "grad_norm": 0.5402078032493591,
      "learning_rate": 1.9098300562505266e-05,
      "loss": 0.7054,
      "step": 82
    },
    {
      "epoch": 0.19809069212410502,
      "grad_norm": 0.5552183985710144,
      "learning_rate": 1.7096242744495837e-05,
      "loss": 0.6607,
      "step": 83
    },
    {
      "epoch": 0.20047732696897375,
      "grad_norm": 0.5727123022079468,
      "learning_rate": 1.5195190384357404e-05,
      "loss": 0.8021,
      "step": 84
    },
    {
      "epoch": 0.20286396181384247,
      "grad_norm": 0.45054370164871216,
      "learning_rate": 1.339745962155613e-05,
      "loss": 0.9153,
      "step": 85
    },
    {
      "epoch": 0.2052505966587112,
      "grad_norm": 0.43339234590530396,
      "learning_rate": 1.1705240714107302e-05,
      "loss": 0.675,
      "step": 86
    },
    {
      "epoch": 0.20763723150357996,
      "grad_norm": 0.5368764996528625,
      "learning_rate": 1.0120595370083318e-05,
      "loss": 0.6827,
      "step": 87
    },
    {
      "epoch": 0.2100238663484487,
      "grad_norm": 0.5663527846336365,
      "learning_rate": 8.645454235739903e-06,
      "loss": 0.9642,
      "step": 88
    },
    {
      "epoch": 0.21241050119331742,
      "grad_norm": 0.46338632702827454,
      "learning_rate": 7.281614543321269e-06,
      "loss": 0.9681,
      "step": 89
    },
    {
      "epoch": 0.21479713603818615,
      "grad_norm": 0.4531870186328888,
      "learning_rate": 6.030737921409169e-06,
      "loss": 0.8122,
      "step": 90
    },
    {
      "epoch": 0.2171837708830549,
      "grad_norm": 0.512912929058075,
      "learning_rate": 4.8943483704846475e-06,
      "loss": 0.9124,
      "step": 91
    },
    {
      "epoch": 0.21957040572792363,
      "grad_norm": 0.4402737021446228,
      "learning_rate": 3.873830406168111e-06,
      "loss": 0.619,
      "step": 92
    },
    {
      "epoch": 0.22195704057279236,
      "grad_norm": 0.5990650057792664,
      "learning_rate": 2.970427372400353e-06,
      "loss": 0.7048,
      "step": 93
    },
    {
      "epoch": 0.2243436754176611,
      "grad_norm": 0.553033173084259,
      "learning_rate": 2.1852399266194314e-06,
      "loss": 0.9326,
      "step": 94
    },
    {
      "epoch": 0.22673031026252982,
      "grad_norm": 0.48306721448898315,
      "learning_rate": 1.5192246987791981e-06,
      "loss": 0.7718,
      "step": 95
    },
    {
      "epoch": 0.22911694510739858,
      "grad_norm": 0.5778696537017822,
      "learning_rate": 9.731931258429638e-07,
      "loss": 0.8295,
      "step": 96
    },
    {
      "epoch": 0.2315035799522673,
      "grad_norm": 0.4547498822212219,
      "learning_rate": 5.478104631726711e-07,
      "loss": 0.6779,
      "step": 97
    },
    {
      "epoch": 0.23389021479713604,
      "grad_norm": 0.5626754760742188,
      "learning_rate": 2.4359497401758024e-07,
      "loss": 0.9394,
      "step": 98
    },
    {
      "epoch": 0.23627684964200477,
      "grad_norm": 0.5053015351295471,
      "learning_rate": 6.09172980904238e-08,
      "loss": 0.8733,
      "step": 99
    },
    {
      "epoch": 0.2386634844868735,
      "grad_norm": 0.5155021548271179,
      "learning_rate": 0.0,
      "loss": 0.912,
      "step": 100
    },
    {
      "epoch": 0.2386634844868735,
      "eval_loss": 0.8268756866455078,
      "eval_runtime": 34.9723,
      "eval_samples_per_second": 5.061,
      "eval_steps_per_second": 2.545,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 10,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.93544513912832e+16,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}