{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.023112597886413747,
  "eval_steps": 76,
  "global_step": 76,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0003041131300843914,
      "grad_norm": NaN,
      "learning_rate": 4.000000000000001e-06,
      "loss": 0.0,
      "step": 1
    },
    {
      "epoch": 0.0003041131300843914,
      "eval_loss": NaN,
      "eval_runtime": 1407.213,
      "eval_samples_per_second": 3.935,
      "eval_steps_per_second": 0.984,
      "step": 1
    },
    {
      "epoch": 0.0006082262601687828,
      "grad_norm": NaN,
      "learning_rate": 8.000000000000001e-06,
      "loss": 0.0,
      "step": 2
    },
    {
      "epoch": 0.0009123393902531741,
      "grad_norm": NaN,
      "learning_rate": 1.2e-05,
      "loss": 0.0,
      "step": 3
    },
    {
      "epoch": 0.0012164525203375656,
      "grad_norm": NaN,
      "learning_rate": 1.6000000000000003e-05,
      "loss": 0.0,
      "step": 4
    },
    {
      "epoch": 0.001520565650421957,
      "grad_norm": NaN,
      "learning_rate": 2e-05,
      "loss": 0.0,
      "step": 5
    },
    {
      "epoch": 0.0018246787805063483,
      "grad_norm": NaN,
      "learning_rate": 2.4e-05,
      "loss": 0.0,
      "step": 6
    },
    {
      "epoch": 0.0021287919105907396,
      "grad_norm": NaN,
      "learning_rate": 2.8000000000000003e-05,
      "loss": 0.0,
      "step": 7
    },
    {
      "epoch": 0.002432905040675131,
      "grad_norm": NaN,
      "learning_rate": 3.2000000000000005e-05,
      "loss": 0.0,
      "step": 8
    },
    {
      "epoch": 0.0027370181707595228,
      "grad_norm": NaN,
      "learning_rate": 3.6e-05,
      "loss": 0.0,
      "step": 9
    },
    {
      "epoch": 0.003041131300843914,
      "grad_norm": NaN,
      "learning_rate": 4e-05,
      "loss": 0.0,
      "step": 10
    },
    {
      "epoch": 0.0033452444309283054,
      "grad_norm": NaN,
      "learning_rate": 4.4000000000000006e-05,
      "loss": 0.0,
      "step": 11
    },
    {
      "epoch": 0.0036493575610126966,
      "grad_norm": NaN,
      "learning_rate": 4.8e-05,
      "loss": 0.0,
      "step": 12
    },
    {
      "epoch": 0.003953470691097088,
      "grad_norm": NaN,
      "learning_rate": 5.2000000000000004e-05,
      "loss": 0.0,
      "step": 13
    },
    {
      "epoch": 0.004257583821181479,
      "grad_norm": NaN,
      "learning_rate": 5.6000000000000006e-05,
      "loss": 0.0,
      "step": 14
    },
    {
      "epoch": 0.004561696951265871,
      "grad_norm": NaN,
      "learning_rate": 6e-05,
      "loss": 0.0,
      "step": 15
    },
    {
      "epoch": 0.004865810081350262,
      "grad_norm": NaN,
      "learning_rate": 6.400000000000001e-05,
      "loss": 0.0,
      "step": 16
    },
    {
      "epoch": 0.0051699232114346535,
      "grad_norm": NaN,
      "learning_rate": 6.800000000000001e-05,
      "loss": 0.0,
      "step": 17
    },
    {
      "epoch": 0.0054740363415190455,
      "grad_norm": NaN,
      "learning_rate": 7.2e-05,
      "loss": 0.0,
      "step": 18
    },
    {
      "epoch": 0.005778149471603437,
      "grad_norm": NaN,
      "learning_rate": 7.6e-05,
      "loss": 0.0,
      "step": 19
    },
    {
      "epoch": 0.006082262601687828,
      "grad_norm": NaN,
      "learning_rate": 8e-05,
      "loss": 0.0,
      "step": 20
    },
    {
      "epoch": 0.006386375731772219,
      "grad_norm": NaN,
      "learning_rate": 8.4e-05,
      "loss": 0.0,
      "step": 21
    },
    {
      "epoch": 0.006690488861856611,
      "grad_norm": NaN,
      "learning_rate": 8.800000000000001e-05,
      "loss": 0.0,
      "step": 22
    },
    {
      "epoch": 0.006994601991941002,
      "grad_norm": NaN,
      "learning_rate": 9.200000000000001e-05,
      "loss": 0.0,
      "step": 23
    },
    {
      "epoch": 0.007298715122025393,
      "grad_norm": NaN,
      "learning_rate": 9.6e-05,
      "loss": 0.0,
      "step": 24
    },
    {
      "epoch": 0.007602828252109785,
      "grad_norm": NaN,
      "learning_rate": 0.0001,
      "loss": 0.0,
      "step": 25
    },
    {
      "epoch": 0.007906941382194176,
      "grad_norm": NaN,
      "learning_rate": 0.00010400000000000001,
      "loss": 0.0,
      "step": 26
    },
    {
      "epoch": 0.008211054512278567,
      "grad_norm": NaN,
      "learning_rate": 0.00010800000000000001,
      "loss": 0.0,
      "step": 27
    },
    {
      "epoch": 0.008515167642362959,
      "grad_norm": NaN,
      "learning_rate": 0.00011200000000000001,
      "loss": 0.0,
      "step": 28
    },
    {
      "epoch": 0.00881928077244735,
      "grad_norm": NaN,
      "learning_rate": 0.000116,
      "loss": 0.0,
      "step": 29
    },
    {
      "epoch": 0.009123393902531743,
      "grad_norm": NaN,
      "learning_rate": 0.00012,
      "loss": 0.0,
      "step": 30
    },
    {
      "epoch": 0.009427507032616134,
      "grad_norm": NaN,
      "learning_rate": 0.000124,
      "loss": 0.0,
      "step": 31
    },
    {
      "epoch": 0.009731620162700525,
      "grad_norm": NaN,
      "learning_rate": 0.00012800000000000002,
      "loss": 0.0,
      "step": 32
    },
    {
      "epoch": 0.010035733292784916,
      "grad_norm": NaN,
      "learning_rate": 0.000132,
      "loss": 0.0,
      "step": 33
    },
    {
      "epoch": 0.010339846422869307,
      "grad_norm": NaN,
      "learning_rate": 0.00013600000000000003,
      "loss": 0.0,
      "step": 34
    },
    {
      "epoch": 0.010643959552953698,
      "grad_norm": NaN,
      "learning_rate": 0.00014,
      "loss": 0.0,
      "step": 35
    },
    {
      "epoch": 0.010948072683038091,
      "grad_norm": NaN,
      "learning_rate": 0.000144,
      "loss": 0.0,
      "step": 36
    },
    {
      "epoch": 0.011252185813122482,
      "grad_norm": NaN,
      "learning_rate": 0.000148,
      "loss": 0.0,
      "step": 37
    },
    {
      "epoch": 0.011556298943206873,
      "grad_norm": NaN,
      "learning_rate": 0.000152,
      "loss": 0.0,
      "step": 38
    },
    {
      "epoch": 0.011860412073291264,
      "grad_norm": NaN,
      "learning_rate": 0.00015600000000000002,
      "loss": 0.0,
      "step": 39
    },
    {
      "epoch": 0.012164525203375656,
      "grad_norm": NaN,
      "learning_rate": 0.00016,
      "loss": 0.0,
      "step": 40
    },
    {
      "epoch": 0.012468638333460047,
      "grad_norm": NaN,
      "learning_rate": 0.000164,
      "loss": 0.0,
      "step": 41
    },
    {
      "epoch": 0.012772751463544438,
      "grad_norm": NaN,
      "learning_rate": 0.000168,
      "loss": 0.0,
      "step": 42
    },
    {
      "epoch": 0.01307686459362883,
      "grad_norm": NaN,
      "learning_rate": 0.000172,
      "loss": 0.0,
      "step": 43
    },
    {
      "epoch": 0.013380977723713222,
      "grad_norm": NaN,
      "learning_rate": 0.00017600000000000002,
      "loss": 0.0,
      "step": 44
    },
    {
      "epoch": 0.013685090853797613,
      "grad_norm": NaN,
      "learning_rate": 0.00018,
      "loss": 0.0,
      "step": 45
    },
    {
      "epoch": 0.013989203983882004,
      "grad_norm": NaN,
      "learning_rate": 0.00018400000000000003,
      "loss": 0.0,
      "step": 46
    },
    {
      "epoch": 0.014293317113966395,
      "grad_norm": NaN,
      "learning_rate": 0.000188,
      "loss": 0.0,
      "step": 47
    },
    {
      "epoch": 0.014597430244050786,
      "grad_norm": NaN,
      "learning_rate": 0.000192,
      "loss": 0.0,
      "step": 48
    },
    {
      "epoch": 0.014901543374135177,
      "grad_norm": NaN,
      "learning_rate": 0.000196,
      "loss": 0.0,
      "step": 49
    },
    {
      "epoch": 0.01520565650421957,
      "grad_norm": NaN,
      "learning_rate": 0.0002,
      "loss": 0.0,
      "step": 50
    },
    {
      "epoch": 0.015509769634303961,
      "grad_norm": NaN,
      "learning_rate": 0.0001999922905547776,
      "loss": 0.0,
      "step": 51
    },
    {
      "epoch": 0.015813882764388353,
      "grad_norm": NaN,
      "learning_rate": 0.0001999691634078213,
      "loss": 0.0,
      "step": 52
    },
    {
      "epoch": 0.016117995894472745,
      "grad_norm": NaN,
      "learning_rate": 0.00019993062212508053,
      "loss": 0.0,
      "step": 53
    },
    {
      "epoch": 0.016422109024557135,
      "grad_norm": NaN,
      "learning_rate": 0.0001998766726491935,
      "loss": 0.0,
      "step": 54
    },
    {
      "epoch": 0.016726222154641528,
      "grad_norm": NaN,
      "learning_rate": 0.00019980732329857076,
      "loss": 0.0,
      "step": 55
    },
    {
      "epoch": 0.017030335284725917,
      "grad_norm": NaN,
      "learning_rate": 0.0001997225847661127,
      "loss": 0.0,
      "step": 56
    },
    {
      "epoch": 0.01733444841481031,
      "grad_norm": NaN,
      "learning_rate": 0.00019962247011756081,
      "loss": 0.0,
      "step": 57
    },
    {
      "epoch": 0.0176385615448947,
      "grad_norm": NaN,
      "learning_rate": 0.00019950699478948309,
      "loss": 0.0,
      "step": 58
    },
    {
      "epoch": 0.017942674674979092,
      "grad_norm": NaN,
      "learning_rate": 0.00019937617658689384,
      "loss": 0.0,
      "step": 59
    },
    {
      "epoch": 0.018246787805063485,
      "grad_norm": NaN,
      "learning_rate": 0.00019923003568050844,
      "loss": 0.0,
      "step": 60
    },
    {
      "epoch": 0.018550900935147874,
      "grad_norm": NaN,
      "learning_rate": 0.00019906859460363307,
      "loss": 0.0,
      "step": 61
    },
    {
      "epoch": 0.018855014065232267,
      "grad_norm": NaN,
      "learning_rate": 0.0001988918782486906,
      "loss": 0.0,
      "step": 62
    },
    {
      "epoch": 0.019159127195316657,
      "grad_norm": NaN,
      "learning_rate": 0.0001986999138633821,
      "loss": 0.0,
      "step": 63
    },
    {
      "epoch": 0.01946324032540105,
      "grad_norm": NaN,
      "learning_rate": 0.00019849273104648592,
      "loss": 0.0,
      "step": 64
    },
    {
      "epoch": 0.01976735345548544,
      "grad_norm": NaN,
      "learning_rate": 0.00019827036174329353,
      "loss": 0.0,
      "step": 65
    },
    {
      "epoch": 0.020071466585569832,
      "grad_norm": NaN,
      "learning_rate": 0.00019803284024068427,
      "loss": 0.0,
      "step": 66
    },
    {
      "epoch": 0.020375579715654225,
      "grad_norm": NaN,
      "learning_rate": 0.0001977802031618383,
      "loss": 0.0,
      "step": 67
    },
    {
      "epoch": 0.020679692845738614,
      "grad_norm": NaN,
      "learning_rate": 0.00019751248946059014,
      "loss": 0.0,
      "step": 68
    },
    {
      "epoch": 0.020983805975823007,
      "grad_norm": NaN,
      "learning_rate": 0.00019722974041542203,
      "loss": 0.0,
      "step": 69
    },
    {
      "epoch": 0.021287919105907396,
      "grad_norm": NaN,
      "learning_rate": 0.0001969319996230995,
      "loss": 0.0,
      "step": 70
    },
    {
      "epoch": 0.02159203223599179,
      "grad_norm": NaN,
      "learning_rate": 0.0001966193129919491,
      "loss": 0.0,
      "step": 71
    },
    {
      "epoch": 0.021896145366076182,
      "grad_norm": NaN,
      "learning_rate": 0.00019629172873477995,
      "loss": 0.0,
      "step": 72
    },
    {
      "epoch": 0.02220025849616057,
      "grad_norm": NaN,
      "learning_rate": 0.00019594929736144976,
      "loss": 0.0,
      "step": 73
    },
    {
      "epoch": 0.022504371626244964,
      "grad_norm": NaN,
      "learning_rate": 0.00019559207167107684,
      "loss": 0.0,
      "step": 74
    },
    {
      "epoch": 0.022808484756329354,
      "grad_norm": NaN,
      "learning_rate": 0.000195220106743899,
      "loss": 0.0,
      "step": 75
    },
    {
      "epoch": 0.023112597886413747,
      "grad_norm": NaN,
      "learning_rate": 0.00019483345993278093,
      "loss": 0.0,
      "step": 76
    },
    {
      "epoch": 0.023112597886413747,
      "eval_loss": NaN,
      "eval_runtime": 1405.4791,
      "eval_samples_per_second": 3.94,
      "eval_steps_per_second": 0.985,
      "step": 76
    }
  ],
  "logging_steps": 1,
  "max_steps": 303,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 76,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 5.175457109466153e+17,
  "train_batch_size": 2,
  "trial_name": null,
  "trial_params": null
}