{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.7380073800738007,
  "eval_steps": 9,
  "global_step": 100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.007380073800738007,
      "grad_norm": 0.06256721913814545,
      "learning_rate": 1e-05,
      "loss": 10.3611,
      "step": 1
    },
    {
      "epoch": 0.007380073800738007,
      "eval_loss": 10.364021301269531,
      "eval_runtime": 0.2134,
      "eval_samples_per_second": 534.314,
      "eval_steps_per_second": 70.304,
      "step": 1
    },
    {
      "epoch": 0.014760147601476014,
      "grad_norm": 0.07218925654888153,
      "learning_rate": 2e-05,
      "loss": 10.3569,
      "step": 2
    },
    {
      "epoch": 0.02214022140221402,
      "grad_norm": 0.05393102392554283,
      "learning_rate": 3e-05,
      "loss": 10.368,
      "step": 3
    },
    {
      "epoch": 0.02952029520295203,
      "grad_norm": 0.05452526733279228,
      "learning_rate": 4e-05,
      "loss": 10.3642,
      "step": 4
    },
    {
      "epoch": 0.03690036900369004,
      "grad_norm": 0.054869394749403,
      "learning_rate": 5e-05,
      "loss": 10.3578,
      "step": 5
    },
    {
      "epoch": 0.04428044280442804,
      "grad_norm": 0.05008178576827049,
      "learning_rate": 6e-05,
      "loss": 10.3658,
      "step": 6
    },
    {
      "epoch": 0.05166051660516605,
      "grad_norm": 0.05989466607570648,
      "learning_rate": 7e-05,
      "loss": 10.3585,
      "step": 7
    },
    {
      "epoch": 0.05904059040590406,
      "grad_norm": 0.04574362933635712,
      "learning_rate": 8e-05,
      "loss": 10.356,
      "step": 8
    },
    {
      "epoch": 0.06642066420664207,
      "grad_norm": 0.06692593544721603,
      "learning_rate": 9e-05,
      "loss": 10.3609,
      "step": 9
    },
    {
      "epoch": 0.06642066420664207,
      "eval_loss": 10.363554000854492,
      "eval_runtime": 0.2538,
      "eval_samples_per_second": 449.195,
      "eval_steps_per_second": 59.105,
      "step": 9
    },
    {
      "epoch": 0.07380073800738007,
      "grad_norm": 0.064938485622406,
      "learning_rate": 0.0001,
      "loss": 10.3572,
      "step": 10
    },
    {
      "epoch": 0.08118081180811808,
      "grad_norm": 0.057259056717157364,
      "learning_rate": 9.99695413509548e-05,
      "loss": 10.3593,
      "step": 11
    },
    {
      "epoch": 0.08856088560885608,
      "grad_norm": 0.057903651148080826,
      "learning_rate": 9.987820251299122e-05,
      "loss": 10.3648,
      "step": 12
    },
    {
      "epoch": 0.0959409594095941,
      "grad_norm": 0.06259284913539886,
      "learning_rate": 9.972609476841367e-05,
      "loss": 10.3627,
      "step": 13
    },
    {
      "epoch": 0.1033210332103321,
      "grad_norm": 0.04629024863243103,
      "learning_rate": 9.951340343707852e-05,
      "loss": 10.3572,
      "step": 14
    },
    {
      "epoch": 0.11070110701107011,
      "grad_norm": 0.04599935561418533,
      "learning_rate": 9.924038765061042e-05,
      "loss": 10.3596,
      "step": 15
    },
    {
      "epoch": 0.11808118081180811,
      "grad_norm": 0.05176709592342377,
      "learning_rate": 9.890738003669029e-05,
      "loss": 10.36,
      "step": 16
    },
    {
      "epoch": 0.12546125461254612,
      "grad_norm": 0.05611785873770714,
      "learning_rate": 9.851478631379982e-05,
      "loss": 10.3604,
      "step": 17
    },
    {
      "epoch": 0.13284132841328414,
      "grad_norm": 0.04586149379611015,
      "learning_rate": 9.806308479691595e-05,
      "loss": 10.3655,
      "step": 18
    },
    {
      "epoch": 0.13284132841328414,
      "eval_loss": 10.362375259399414,
      "eval_runtime": 0.2517,
      "eval_samples_per_second": 452.974,
      "eval_steps_per_second": 59.602,
      "step": 18
    },
    {
      "epoch": 0.14022140221402213,
      "grad_norm": 0.0533270500600338,
      "learning_rate": 9.755282581475769e-05,
      "loss": 10.3591,
      "step": 19
    },
    {
      "epoch": 0.14760147601476015,
      "grad_norm": 0.0650496557354927,
      "learning_rate": 9.698463103929542e-05,
      "loss": 10.3644,
      "step": 20
    },
    {
      "epoch": 0.15498154981549817,
      "grad_norm": 0.05515008047223091,
      "learning_rate": 9.635919272833938e-05,
      "loss": 10.3548,
      "step": 21
    },
    {
      "epoch": 0.16236162361623616,
      "grad_norm": 0.05346156656742096,
      "learning_rate": 9.567727288213005e-05,
      "loss": 10.3573,
      "step": 22
    },
    {
      "epoch": 0.16974169741697417,
      "grad_norm": 0.05062566325068474,
      "learning_rate": 9.493970231495835e-05,
      "loss": 10.3632,
      "step": 23
    },
    {
      "epoch": 0.17712177121771217,
      "grad_norm": 0.06177437677979469,
      "learning_rate": 9.414737964294636e-05,
      "loss": 10.3565,
      "step": 24
    },
    {
      "epoch": 0.18450184501845018,
      "grad_norm": 0.05376908555626869,
      "learning_rate": 9.330127018922194e-05,
      "loss": 10.3621,
      "step": 25
    },
    {
      "epoch": 0.1918819188191882,
      "grad_norm": 0.05945334956049919,
      "learning_rate": 9.24024048078213e-05,
      "loss": 10.3584,
      "step": 26
    },
    {
      "epoch": 0.1992619926199262,
      "grad_norm": 0.049115318804979324,
      "learning_rate": 9.145187862775209e-05,
      "loss": 10.3698,
      "step": 27
    },
    {
      "epoch": 0.1992619926199262,
      "eval_loss": 10.36121654510498,
      "eval_runtime": 0.2541,
      "eval_samples_per_second": 448.64,
      "eval_steps_per_second": 59.032,
      "step": 27
    },
    {
      "epoch": 0.2066420664206642,
      "grad_norm": 0.0591144897043705,
      "learning_rate": 9.045084971874738e-05,
      "loss": 10.3573,
      "step": 28
    },
    {
      "epoch": 0.2140221402214022,
      "grad_norm": 0.04607441648840904,
      "learning_rate": 8.940053768033609e-05,
      "loss": 10.3615,
      "step": 29
    },
    {
      "epoch": 0.22140221402214022,
      "grad_norm": 0.05733785033226013,
      "learning_rate": 8.83022221559489e-05,
      "loss": 10.365,
      "step": 30
    },
    {
      "epoch": 0.22878228782287824,
      "grad_norm": 0.05551564693450928,
      "learning_rate": 8.715724127386972e-05,
      "loss": 10.3667,
      "step": 31
    },
    {
      "epoch": 0.23616236162361623,
      "grad_norm": 0.06119786947965622,
      "learning_rate": 8.596699001693255e-05,
      "loss": 10.3568,
      "step": 32
    },
    {
      "epoch": 0.24354243542435425,
      "grad_norm": 0.06199464574456215,
      "learning_rate": 8.473291852294987e-05,
      "loss": 10.3634,
      "step": 33
    },
    {
      "epoch": 0.25092250922509224,
      "grad_norm": 0.05202634260058403,
      "learning_rate": 8.345653031794292e-05,
      "loss": 10.35,
      "step": 34
    },
    {
      "epoch": 0.25830258302583026,
      "grad_norm": 0.06763176620006561,
      "learning_rate": 8.213938048432697e-05,
      "loss": 10.3585,
      "step": 35
    },
    {
      "epoch": 0.2656826568265683,
      "grad_norm": 0.05460091680288315,
      "learning_rate": 8.07830737662829e-05,
      "loss": 10.3556,
      "step": 36
    },
    {
      "epoch": 0.2656826568265683,
      "eval_loss": 10.36009693145752,
      "eval_runtime": 0.2643,
      "eval_samples_per_second": 431.338,
      "eval_steps_per_second": 56.755,
      "step": 36
    },
    {
      "epoch": 0.2730627306273063,
      "grad_norm": 0.055408477783203125,
      "learning_rate": 7.938926261462366e-05,
      "loss": 10.3602,
      "step": 37
    },
    {
      "epoch": 0.28044280442804426,
      "grad_norm": 0.06199764087796211,
      "learning_rate": 7.795964517353735e-05,
      "loss": 10.3503,
      "step": 38
    },
    {
      "epoch": 0.2878228782287823,
      "grad_norm": 0.06058415398001671,
      "learning_rate": 7.649596321166024e-05,
      "loss": 10.3625,
      "step": 39
    },
    {
      "epoch": 0.2952029520295203,
      "grad_norm": 0.05479194596409798,
      "learning_rate": 7.500000000000001e-05,
      "loss": 10.3597,
      "step": 40
    },
    {
      "epoch": 0.3025830258302583,
      "grad_norm": 0.06328034400939941,
      "learning_rate": 7.347357813929454e-05,
      "loss": 10.3501,
      "step": 41
    },
    {
      "epoch": 0.30996309963099633,
      "grad_norm": 0.06398607045412064,
      "learning_rate": 7.191855733945387e-05,
      "loss": 10.3631,
      "step": 42
    },
    {
      "epoch": 0.3173431734317343,
      "grad_norm": 0.050947874784469604,
      "learning_rate": 7.033683215379002e-05,
      "loss": 10.3514,
      "step": 43
    },
    {
      "epoch": 0.3247232472324723,
      "grad_norm": 0.059516243636608124,
      "learning_rate": 6.873032967079561e-05,
      "loss": 10.3551,
      "step": 44
    },
    {
      "epoch": 0.33210332103321033,
      "grad_norm": 0.060571130365133286,
      "learning_rate": 6.710100716628344e-05,
      "loss": 10.3614,
      "step": 45
    },
    {
      "epoch": 0.33210332103321033,
      "eval_loss": 10.359009742736816,
      "eval_runtime": 0.2603,
      "eval_samples_per_second": 438.013,
      "eval_steps_per_second": 57.633,
      "step": 45
    },
    {
      "epoch": 0.33948339483394835,
      "grad_norm": 0.06294915080070496,
      "learning_rate": 6.545084971874738e-05,
      "loss": 10.3544,
      "step": 46
    },
    {
      "epoch": 0.34686346863468637,
      "grad_norm": 0.06438196450471878,
      "learning_rate": 6.378186779084995e-05,
      "loss": 10.3484,
      "step": 47
    },
    {
      "epoch": 0.35424354243542433,
      "grad_norm": 0.0660022422671318,
      "learning_rate": 6.209609477998338e-05,
      "loss": 10.358,
      "step": 48
    },
    {
      "epoch": 0.36162361623616235,
      "grad_norm": 0.054936427623033524,
      "learning_rate": 6.0395584540887963e-05,
      "loss": 10.3584,
      "step": 49
    },
    {
      "epoch": 0.36900369003690037,
      "grad_norm": 0.05536165460944176,
      "learning_rate": 5.868240888334653e-05,
      "loss": 10.3482,
      "step": 50
    },
    {
      "epoch": 0.3763837638376384,
      "grad_norm": 0.06291848421096802,
      "learning_rate": 5.695865504800327e-05,
      "loss": 10.3517,
      "step": 51
    },
    {
      "epoch": 0.3837638376383764,
      "grad_norm": 0.0627998635172844,
      "learning_rate": 5.522642316338268e-05,
      "loss": 10.3638,
      "step": 52
    },
    {
      "epoch": 0.39114391143911437,
      "grad_norm": 0.07972683012485504,
      "learning_rate": 5.348782368720626e-05,
      "loss": 10.3552,
      "step": 53
    },
    {
      "epoch": 0.3985239852398524,
      "grad_norm": 0.06060464307665825,
      "learning_rate": 5.174497483512506e-05,
      "loss": 10.3564,
      "step": 54
    },
    {
      "epoch": 0.3985239852398524,
      "eval_loss": 10.3579740524292,
      "eval_runtime": 0.2553,
      "eval_samples_per_second": 446.596,
      "eval_steps_per_second": 58.763,
      "step": 54
    },
    {
      "epoch": 0.4059040590405904,
      "grad_norm": 0.05204768851399422,
      "learning_rate": 5e-05,
      "loss": 10.3626,
      "step": 55
    },
    {
      "epoch": 0.4132841328413284,
      "grad_norm": 0.07554280757904053,
      "learning_rate": 4.825502516487497e-05,
      "loss": 10.3532,
      "step": 56
    },
    {
      "epoch": 0.42066420664206644,
      "grad_norm": 0.06683514267206192,
      "learning_rate": 4.6512176312793736e-05,
      "loss": 10.355,
      "step": 57
    },
    {
      "epoch": 0.4280442804428044,
      "grad_norm": 0.08101712167263031,
      "learning_rate": 4.477357683661734e-05,
      "loss": 10.3584,
      "step": 58
    },
    {
      "epoch": 0.4354243542435424,
      "grad_norm": 0.05437375232577324,
      "learning_rate": 4.3041344951996746e-05,
      "loss": 10.3642,
      "step": 59
    },
    {
      "epoch": 0.44280442804428044,
      "grad_norm": 0.07148314267396927,
      "learning_rate": 4.131759111665349e-05,
      "loss": 10.3536,
      "step": 60
    },
    {
      "epoch": 0.45018450184501846,
      "grad_norm": 0.06779924035072327,
      "learning_rate": 3.960441545911204e-05,
      "loss": 10.3531,
      "step": 61
    },
    {
      "epoch": 0.4575645756457565,
      "grad_norm": 0.06029814854264259,
      "learning_rate": 3.790390522001662e-05,
      "loss": 10.3641,
      "step": 62
    },
    {
      "epoch": 0.46494464944649444,
      "grad_norm": 0.06448680907487869,
      "learning_rate": 3.6218132209150045e-05,
      "loss": 10.3531,
      "step": 63
    },
    {
      "epoch": 0.46494464944649444,
      "eval_loss": 10.357136726379395,
      "eval_runtime": 0.2545,
      "eval_samples_per_second": 447.928,
      "eval_steps_per_second": 58.938,
      "step": 63
    },
    {
      "epoch": 0.47232472324723246,
      "grad_norm": 0.05686628445982933,
      "learning_rate": 3.4549150281252636e-05,
      "loss": 10.3655,
      "step": 64
    },
    {
      "epoch": 0.4797047970479705,
      "grad_norm": 0.06419065594673157,
      "learning_rate": 3.289899283371657e-05,
      "loss": 10.3568,
      "step": 65
    },
    {
      "epoch": 0.4870848708487085,
      "grad_norm": 0.06342583149671555,
      "learning_rate": 3.12696703292044e-05,
      "loss": 10.3573,
      "step": 66
    },
    {
      "epoch": 0.4944649446494465,
      "grad_norm": 0.056026969105005264,
      "learning_rate": 2.9663167846209998e-05,
      "loss": 10.36,
      "step": 67
    },
    {
      "epoch": 0.5018450184501845,
      "grad_norm": 0.07585887610912323,
      "learning_rate": 2.8081442660546125e-05,
      "loss": 10.3511,
      "step": 68
    },
    {
      "epoch": 0.5092250922509225,
      "grad_norm": 0.0630531907081604,
      "learning_rate": 2.6526421860705473e-05,
      "loss": 10.355,
      "step": 69
    },
    {
      "epoch": 0.5166051660516605,
      "grad_norm": 0.06669856607913971,
      "learning_rate": 2.500000000000001e-05,
      "loss": 10.3538,
      "step": 70
    },
    {
      "epoch": 0.5239852398523985,
      "grad_norm": 0.07067961245775223,
      "learning_rate": 2.350403678833976e-05,
      "loss": 10.3578,
      "step": 71
    },
    {
      "epoch": 0.5313653136531366,
      "grad_norm": 0.06368213891983032,
      "learning_rate": 2.2040354826462668e-05,
      "loss": 10.3611,
      "step": 72
    },
    {
      "epoch": 0.5313653136531366,
      "eval_loss": 10.356532096862793,
      "eval_runtime": 0.2507,
      "eval_samples_per_second": 454.656,
      "eval_steps_per_second": 59.823,
      "step": 72
    },
    {
      "epoch": 0.5387453874538746,
      "grad_norm": 0.07432413101196289,
      "learning_rate": 2.061073738537635e-05,
      "loss": 10.3526,
      "step": 73
    },
    {
      "epoch": 0.5461254612546126,
      "grad_norm": 0.06468094140291214,
      "learning_rate": 1.9216926233717085e-05,
      "loss": 10.3627,
      "step": 74
    },
    {
      "epoch": 0.5535055350553506,
      "grad_norm": 0.0772942453622818,
      "learning_rate": 1.7860619515673033e-05,
      "loss": 10.355,
      "step": 75
    },
    {
      "epoch": 0.5608856088560885,
      "grad_norm": 0.08569208532571793,
      "learning_rate": 1.6543469682057106e-05,
      "loss": 10.3477,
      "step": 76
    },
    {
      "epoch": 0.5682656826568265,
      "grad_norm": 0.06884515285491943,
      "learning_rate": 1.526708147705013e-05,
      "loss": 10.3559,
      "step": 77
    },
    {
      "epoch": 0.5756457564575646,
      "grad_norm": 0.08712355047464371,
      "learning_rate": 1.4033009983067452e-05,
      "loss": 10.3498,
      "step": 78
    },
    {
      "epoch": 0.5830258302583026,
      "grad_norm": 0.0719294399023056,
      "learning_rate": 1.2842758726130283e-05,
      "loss": 10.3497,
      "step": 79
    },
    {
      "epoch": 0.5904059040590406,
      "grad_norm": 0.07984092831611633,
      "learning_rate": 1.1697777844051105e-05,
      "loss": 10.3511,
      "step": 80
    },
    {
      "epoch": 0.5977859778597786,
      "grad_norm": 0.06634163111448288,
      "learning_rate": 1.0599462319663905e-05,
      "loss": 10.3598,
      "step": 81
    },
    {
      "epoch": 0.5977859778597786,
      "eval_loss": 10.356156349182129,
      "eval_runtime": 0.3485,
      "eval_samples_per_second": 327.078,
      "eval_steps_per_second": 43.037,
      "step": 81
    },
    {
      "epoch": 0.6051660516605166,
      "grad_norm": 0.06071637198328972,
      "learning_rate": 9.549150281252633e-06,
      "loss": 10.3581,
      "step": 82
    },
    {
      "epoch": 0.6125461254612546,
      "grad_norm": 0.0657428652048111,
      "learning_rate": 8.548121372247918e-06,
      "loss": 10.3592,
      "step": 83
    },
    {
      "epoch": 0.6199261992619927,
      "grad_norm": 0.06935244798660278,
      "learning_rate": 7.597595192178702e-06,
      "loss": 10.3532,
      "step": 84
    },
    {
      "epoch": 0.6273062730627307,
      "grad_norm": 0.07533907890319824,
      "learning_rate": 6.698729810778065e-06,
      "loss": 10.3595,
      "step": 85
    },
    {
      "epoch": 0.6346863468634686,
      "grad_norm": 0.0672995075583458,
      "learning_rate": 5.852620357053651e-06,
      "loss": 10.3543,
      "step": 86
    },
    {
      "epoch": 0.6420664206642066,
      "grad_norm": 0.07711373269557953,
      "learning_rate": 5.060297685041659e-06,
      "loss": 10.3447,
      "step": 87
    },
    {
      "epoch": 0.6494464944649446,
      "grad_norm": 0.05943749099969864,
      "learning_rate": 4.322727117869951e-06,
      "loss": 10.3582,
      "step": 88
    },
    {
      "epoch": 0.6568265682656826,
      "grad_norm": 0.06703980267047882,
      "learning_rate": 3.6408072716606346e-06,
      "loss": 10.3553,
      "step": 89
    },
    {
      "epoch": 0.6642066420664207,
      "grad_norm": 0.07490800321102142,
      "learning_rate": 3.0153689607045845e-06,
      "loss": 10.3604,
      "step": 90
    },
    {
      "epoch": 0.6642066420664207,
      "eval_loss": 10.356014251708984,
      "eval_runtime": 0.263,
      "eval_samples_per_second": 433.463,
      "eval_steps_per_second": 57.035,
      "step": 90
    },
    {
      "epoch": 0.6715867158671587,
      "grad_norm": 0.06388845294713974,
      "learning_rate": 2.4471741852423237e-06,
      "loss": 10.358,
      "step": 91
    },
    {
      "epoch": 0.6789667896678967,
      "grad_norm": 0.07117879390716553,
      "learning_rate": 1.9369152030840556e-06,
      "loss": 10.3492,
      "step": 92
    },
    {
      "epoch": 0.6863468634686347,
      "grad_norm": 0.08810685575008392,
      "learning_rate": 1.4852136862001764e-06,
      "loss": 10.3545,
      "step": 93
    },
    {
      "epoch": 0.6937269372693727,
      "grad_norm": 0.0710313469171524,
      "learning_rate": 1.0926199633097157e-06,
      "loss": 10.3588,
      "step": 94
    },
    {
      "epoch": 0.7011070110701108,
      "grad_norm": 0.06251402199268341,
      "learning_rate": 7.596123493895991e-07,
      "loss": 10.3527,
      "step": 95
    },
    {
      "epoch": 0.7084870848708487,
      "grad_norm": 0.07826722413301468,
      "learning_rate": 4.865965629214819e-07,
      "loss": 10.3565,
      "step": 96
    },
    {
      "epoch": 0.7158671586715867,
      "grad_norm": 0.08423243463039398,
      "learning_rate": 2.7390523158633554e-07,
      "loss": 10.351,
      "step": 97
    },
    {
      "epoch": 0.7232472324723247,
      "grad_norm": 0.06485340744256973,
      "learning_rate": 1.2179748700879012e-07,
      "loss": 10.3546,
      "step": 98
    },
    {
      "epoch": 0.7306273062730627,
      "grad_norm": 0.06696449220180511,
      "learning_rate": 3.04586490452119e-08,
      "loss": 10.3548,
      "step": 99
    },
    {
      "epoch": 0.7306273062730627,
      "eval_loss": 10.355989456176758,
      "eval_runtime": 0.2507,
      "eval_samples_per_second": 454.706,
      "eval_steps_per_second": 59.83,
      "step": 99
    },
    {
      "epoch": 0.7380073800738007,
      "grad_norm": 0.06878489255905151,
      "learning_rate": 0.0,
      "loss": 10.3647,
      "step": 100
    }
  ],
  "logging_steps": 1,
  "max_steps": 100,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 25,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 5230244659200.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}