{
  "best_metric": 0.2015175074338913,
  "best_model_checkpoint": "./output_solor/exp_16/checkpoint-95",
  "epoch": 5.0,
  "eval_steps": 5,
  "global_step": 95,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.05,
      "learning_rate": 5.0000000000000004e-08,
      "loss": 1.3493,
      "step": 1
    },
    {
      "epoch": 0.05,
      "eval_loss": 1.2794537544250488,
      "eval_runtime": 20.3935,
      "eval_samples_per_second": 3.138,
      "eval_steps_per_second": 0.392,
      "step": 1
    },
    {
      "epoch": 0.11,
      "learning_rate": 2.0000000000000002e-07,
      "loss": 1.301,
      "step": 2
    },
    {
      "epoch": 0.16,
      "learning_rate": 4.5e-07,
      "loss": 1.2596,
      "step": 3
    },
    {
      "epoch": 0.21,
      "learning_rate": 8.000000000000001e-07,
      "loss": 1.2522,
      "step": 4
    },
    {
      "epoch": 0.26,
      "learning_rate": 1.2500000000000003e-06,
      "loss": 1.2483,
      "step": 5
    },
    {
      "epoch": 0.26,
      "eval_loss": 1.2768707275390625,
      "eval_runtime": 20.6266,
      "eval_samples_per_second": 3.103,
      "eval_steps_per_second": 0.388,
      "step": 5
    },
    {
      "epoch": 0.32,
      "learning_rate": 1.8e-06,
      "loss": 1.3056,
      "step": 6
    },
    {
      "epoch": 0.37,
      "learning_rate": 2.4500000000000003e-06,
      "loss": 1.4414,
      "step": 7
    },
    {
      "epoch": 0.42,
      "learning_rate": 3.2000000000000003e-06,
      "loss": 1.2347,
      "step": 8
    },
    {
      "epoch": 0.47,
      "learning_rate": 4.05e-06,
      "loss": 1.2399,
      "step": 9
    },
    {
      "epoch": 0.53,
      "learning_rate": 5.000000000000001e-06,
      "loss": 1.2275,
      "step": 10
    },
    {
      "epoch": 0.53,
      "eval_loss": 1.2099063396453857,
      "eval_runtime": 20.6171,
      "eval_samples_per_second": 3.104,
      "eval_steps_per_second": 0.388,
      "step": 10
    },
    {
      "epoch": 0.58,
      "learning_rate": 6.05e-06,
      "loss": 1.154,
      "step": 11
    },
    {
      "epoch": 0.63,
      "learning_rate": 7.2e-06,
      "loss": 1.2325,
      "step": 12
    },
    {
      "epoch": 0.68,
      "learning_rate": 8.45e-06,
      "loss": 1.1022,
      "step": 13
    },
    {
      "epoch": 0.74,
      "learning_rate": 9.800000000000001e-06,
      "loss": 1.0295,
      "step": 14
    },
    {
      "epoch": 0.79,
      "learning_rate": 1.1249999999999999e-05,
      "loss": 1.0529,
      "step": 15
    },
    {
      "epoch": 0.79,
      "eval_loss": 1.0723849534988403,
      "eval_runtime": 20.6213,
      "eval_samples_per_second": 3.104,
      "eval_steps_per_second": 0.388,
      "step": 15
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.2800000000000001e-05,
      "loss": 1.1019,
      "step": 16
    },
    {
      "epoch": 0.89,
      "learning_rate": 1.4450000000000002e-05,
      "loss": 1.0158,
      "step": 17
    },
    {
      "epoch": 0.95,
      "learning_rate": 1.62e-05,
      "loss": 1.0235,
      "step": 18
    },
    {
      "epoch": 1.0,
      "learning_rate": 1.805e-05,
      "loss": 1.1272,
      "step": 19
    },
    {
      "epoch": 1.05,
      "learning_rate": 2.0000000000000005e-05,
      "loss": 0.8642,
      "step": 20
    },
    {
      "epoch": 1.05,
      "eval_loss": 0.9709420204162598,
      "eval_runtime": 20.3773,
      "eval_samples_per_second": 3.141,
      "eval_steps_per_second": 0.393,
      "step": 20
    },
    {
      "epoch": 1.11,
      "learning_rate": 2.2049999999999997e-05,
      "loss": 0.996,
      "step": 21
    },
    {
      "epoch": 1.16,
      "learning_rate": 2.42e-05,
      "loss": 0.8983,
      "step": 22
    },
    {
      "epoch": 1.21,
      "learning_rate": 2.6450000000000003e-05,
      "loss": 0.9876,
      "step": 23
    },
    {
      "epoch": 1.26,
      "learning_rate": 2.88e-05,
      "loss": 0.7844,
      "step": 24
    },
    {
      "epoch": 1.32,
      "learning_rate": 3.125e-05,
      "loss": 0.8477,
      "step": 25
    },
    {
      "epoch": 1.32,
      "eval_loss": 0.8244509696960449,
      "eval_runtime": 20.6023,
      "eval_samples_per_second": 3.106,
      "eval_steps_per_second": 0.388,
      "step": 25
    },
    {
      "epoch": 1.37,
      "learning_rate": 3.38e-05,
      "loss": 0.786,
      "step": 26
    },
    {
      "epoch": 1.42,
      "learning_rate": 3.6450000000000005e-05,
      "loss": 0.6724,
      "step": 27
    },
    {
      "epoch": 1.47,
      "learning_rate": 3.9200000000000004e-05,
      "loss": 0.8566,
      "step": 28
    },
    {
      "epoch": 1.53,
      "learning_rate": 4.205e-05,
      "loss": 0.6692,
      "step": 29
    },
    {
      "epoch": 1.58,
      "learning_rate": 4.4999999999999996e-05,
      "loss": 0.7207,
      "step": 30
    },
    {
      "epoch": 1.58,
      "eval_loss": 0.6993950009346008,
      "eval_runtime": 20.6231,
      "eval_samples_per_second": 3.103,
      "eval_steps_per_second": 0.388,
      "step": 30
    },
    {
      "epoch": 1.63,
      "learning_rate": 4.805e-05,
      "loss": 0.714,
      "step": 31
    },
    {
      "epoch": 1.68,
      "learning_rate": 5.1200000000000004e-05,
      "loss": 0.6141,
      "step": 32
    },
    {
      "epoch": 1.74,
      "learning_rate": 5.445000000000001e-05,
      "loss": 0.7061,
      "step": 33
    },
    {
      "epoch": 1.79,
      "learning_rate": 5.780000000000001e-05,
      "loss": 0.652,
      "step": 34
    },
    {
      "epoch": 1.84,
      "learning_rate": 6.125e-05,
      "loss": 0.4656,
      "step": 35
    },
    {
      "epoch": 1.84,
      "eval_loss": 0.5878281593322754,
      "eval_runtime": 20.6201,
      "eval_samples_per_second": 3.104,
      "eval_steps_per_second": 0.388,
      "step": 35
    },
    {
      "epoch": 1.89,
      "learning_rate": 6.48e-05,
      "loss": 0.6225,
      "step": 36
    },
    {
      "epoch": 1.95,
      "learning_rate": 6.845e-05,
      "loss": 0.4638,
      "step": 37
    },
    {
      "epoch": 2.0,
      "learning_rate": 7.22e-05,
      "loss": 0.595,
      "step": 38
    },
    {
      "epoch": 2.05,
      "learning_rate": 7.605e-05,
      "loss": 0.5618,
      "step": 39
    },
    {
      "epoch": 2.11,
      "learning_rate": 8.000000000000002e-05,
      "loss": 0.4949,
      "step": 40
    },
    {
      "epoch": 2.11,
      "eval_loss": 0.4970114827156067,
      "eval_runtime": 20.6228,
      "eval_samples_per_second": 3.103,
      "eval_steps_per_second": 0.388,
      "step": 40
    },
    {
      "epoch": 2.16,
      "learning_rate": 8.404999999999998e-05,
      "loss": 0.5576,
      "step": 41
    },
    {
      "epoch": 2.21,
      "learning_rate": 8.819999999999999e-05,
      "loss": 0.5537,
      "step": 42
    },
    {
      "epoch": 2.26,
      "learning_rate": 9.245e-05,
      "loss": 0.3734,
      "step": 43
    },
    {
      "epoch": 2.32,
      "learning_rate": 9.68e-05,
      "loss": 0.4103,
      "step": 44
    },
    {
      "epoch": 2.37,
      "learning_rate": 0.00010125000000000001,
      "loss": 0.3497,
      "step": 45
    },
    {
      "epoch": 2.37,
      "eval_loss": 0.42206770181655884,
      "eval_runtime": 20.6133,
      "eval_samples_per_second": 3.105,
      "eval_steps_per_second": 0.388,
      "step": 45
    },
    {
      "epoch": 2.42,
      "learning_rate": 0.00010580000000000001,
      "loss": 0.4948,
      "step": 46
    },
    {
      "epoch": 2.47,
      "learning_rate": 0.00011045,
      "loss": 0.2884,
      "step": 47
    },
    {
      "epoch": 2.53,
      "learning_rate": 0.0001152,
      "loss": 0.4234,
      "step": 48
    },
    {
      "epoch": 2.58,
      "learning_rate": 0.00012004999999999999,
      "loss": 0.3352,
      "step": 49
    },
    {
      "epoch": 2.63,
      "learning_rate": 0.000125,
      "loss": 0.3288,
      "step": 50
    },
    {
      "epoch": 2.63,
      "eval_loss": 0.3672243356704712,
      "eval_runtime": 20.6204,
      "eval_samples_per_second": 3.104,
      "eval_steps_per_second": 0.388,
      "step": 50
    },
    {
      "epoch": 2.68,
      "learning_rate": 0.00013005,
      "loss": 0.3481,
      "step": 51
    },
    {
      "epoch": 2.74,
      "learning_rate": 0.0001352,
      "loss": 0.362,
      "step": 52
    },
    {
      "epoch": 2.79,
      "learning_rate": 0.00014045000000000003,
      "loss": 0.344,
      "step": 53
    },
    {
      "epoch": 2.84,
      "learning_rate": 0.00014580000000000002,
      "loss": 0.426,
      "step": 54
    },
    {
      "epoch": 2.89,
      "learning_rate": 0.00015125000000000002,
      "loss": 0.3011,
      "step": 55
    },
    {
      "epoch": 2.89,
      "eval_loss": 0.32503682374954224,
      "eval_runtime": 20.6368,
      "eval_samples_per_second": 3.101,
      "eval_steps_per_second": 0.388,
      "step": 55
    },
    {
      "epoch": 2.95,
      "learning_rate": 0.00015680000000000002,
      "loss": 0.4011,
      "step": 56
    },
    {
      "epoch": 3.0,
      "learning_rate": 0.00016245,
      "loss": 0.3796,
      "step": 57
    },
    {
      "epoch": 3.05,
      "learning_rate": 0.0001682,
      "loss": 0.2726,
      "step": 58
    },
    {
      "epoch": 3.11,
      "learning_rate": 0.00017404999999999998,
      "loss": 0.3218,
      "step": 59
    },
    {
      "epoch": 3.16,
      "learning_rate": 0.00017999999999999998,
      "loss": 0.2648,
      "step": 60
    },
    {
      "epoch": 3.16,
      "eval_loss": 0.29000362753868103,
      "eval_runtime": 20.595,
      "eval_samples_per_second": 3.108,
      "eval_steps_per_second": 0.388,
      "step": 60
    },
    {
      "epoch": 3.21,
      "learning_rate": 0.00018605,
      "loss": 0.331,
      "step": 61
    },
    {
      "epoch": 3.26,
      "learning_rate": 0.0001922,
      "loss": 0.2442,
      "step": 62
    },
    {
      "epoch": 3.32,
      "learning_rate": 0.00019845000000000003,
      "loss": 0.2839,
      "step": 63
    },
    {
      "epoch": 3.37,
      "learning_rate": 0.00020480000000000002,
      "loss": 0.3206,
      "step": 64
    },
    {
      "epoch": 3.42,
      "learning_rate": 0.00021125,
      "loss": 0.3084,
      "step": 65
    },
    {
      "epoch": 3.42,
      "eval_loss": 0.25911369919776917,
      "eval_runtime": 20.6071,
      "eval_samples_per_second": 3.106,
      "eval_steps_per_second": 0.388,
      "step": 65
    },
    {
      "epoch": 3.47,
      "learning_rate": 0.00021780000000000004,
      "loss": 0.2479,
      "step": 66
    },
    {
      "epoch": 3.53,
      "learning_rate": 0.00022445000000000003,
      "loss": 0.3003,
      "step": 67
    },
    {
      "epoch": 3.58,
      "learning_rate": 0.00023120000000000004,
      "loss": 0.2757,
      "step": 68
    },
    {
      "epoch": 3.63,
      "learning_rate": 0.00023804999999999996,
      "loss": 0.1921,
      "step": 69
    },
    {
      "epoch": 3.68,
      "learning_rate": 0.000245,
      "loss": 0.2696,
      "step": 70
    },
    {
      "epoch": 3.68,
      "eval_loss": 0.24587483704090118,
      "eval_runtime": 20.6172,
      "eval_samples_per_second": 3.104,
      "eval_steps_per_second": 0.388,
      "step": 70
    },
    {
      "epoch": 3.74,
      "learning_rate": 0.00025205000000000003,
      "loss": 0.2596,
      "step": 71
    },
    {
      "epoch": 3.79,
      "learning_rate": 0.0002592,
      "loss": 0.2386,
      "step": 72
    },
    {
      "epoch": 3.84,
      "learning_rate": 0.00026644999999999994,
      "loss": 0.2281,
      "step": 73
    },
    {
      "epoch": 3.89,
      "learning_rate": 0.0002738,
      "loss": 0.2538,
      "step": 74
    },
    {
      "epoch": 3.95,
      "learning_rate": 0.00028125000000000003,
      "loss": 0.2197,
      "step": 75
    },
    {
      "epoch": 3.95,
      "eval_loss": 0.22858355939388275,
      "eval_runtime": 20.6122,
      "eval_samples_per_second": 3.105,
      "eval_steps_per_second": 0.388,
      "step": 75
    },
    {
      "epoch": 4.0,
      "learning_rate": 0.0002888,
      "loss": 0.182,
      "step": 76
    },
    {
      "epoch": 4.05,
      "learning_rate": 0.00029645,
      "loss": 0.1985,
      "step": 77
    },
    {
      "epoch": 4.11,
      "learning_rate": 0.0003042,
      "loss": 0.1978,
      "step": 78
    },
    {
      "epoch": 4.16,
      "learning_rate": 0.0003120500000000001,
      "loss": 0.2283,
      "step": 79
    },
    {
      "epoch": 4.21,
      "learning_rate": 0.0003200000000000001,
      "loss": 0.1905,
      "step": 80
    },
    {
      "epoch": 4.21,
      "eval_loss": 0.21105319261550903,
      "eval_runtime": 20.595,
      "eval_samples_per_second": 3.108,
      "eval_steps_per_second": 0.388,
      "step": 80
    },
    {
      "epoch": 4.26,
      "learning_rate": 0.0003280500000000001,
      "loss": 0.2222,
      "step": 81
    },
    {
      "epoch": 4.32,
      "learning_rate": 0.00033619999999999993,
      "loss": 0.2051,
      "step": 82
    },
    {
      "epoch": 4.37,
      "learning_rate": 0.00034445,
      "loss": 0.2013,
      "step": 83
    },
    {
      "epoch": 4.42,
      "learning_rate": 0.00035279999999999996,
      "loss": 0.1751,
      "step": 84
    },
    {
      "epoch": 4.47,
      "learning_rate": 0.00036124999999999997,
      "loss": 0.1815,
      "step": 85
    },
    {
      "epoch": 4.47,
      "eval_loss": 0.2084398865699768,
      "eval_runtime": 20.6383,
      "eval_samples_per_second": 3.101,
      "eval_steps_per_second": 0.388,
      "step": 85
    },
    {
      "epoch": 4.53,
      "learning_rate": 0.0003698,
      "loss": 0.1252,
      "step": 86
    },
    {
      "epoch": 4.58,
      "learning_rate": 0.00037845,
      "loss": 0.2354,
      "step": 87
    },
    {
      "epoch": 4.63,
      "learning_rate": 0.0003872,
      "loss": 0.1651,
      "step": 88
    },
    {
      "epoch": 4.68,
      "learning_rate": 0.00039605,
      "loss": 0.2001,
      "step": 89
    },
    {
      "epoch": 4.74,
      "learning_rate": 0.00040500000000000003,
      "loss": 0.2164,
      "step": 90
    },
    {
      "epoch": 4.74,
      "eval_loss": 0.21278557181358337,
      "eval_runtime": 20.6294,
      "eval_samples_per_second": 3.102,
      "eval_steps_per_second": 0.388,
      "step": 90
    },
    {
      "epoch": 4.79,
      "learning_rate": 0.00041405000000000006,
      "loss": 0.155,
      "step": 91
    },
    {
      "epoch": 4.84,
      "learning_rate": 0.00042320000000000004,
      "loss": 0.2454,
      "step": 92
    },
    {
      "epoch": 4.89,
      "learning_rate": 0.0004324500000000001,
      "loss": 0.1804,
      "step": 93
    },
    {
      "epoch": 4.95,
      "learning_rate": 0.0004418,
      "loss": 0.2498,
      "step": 94
    },
    {
      "epoch": 5.0,
      "learning_rate": 0.00045125,
      "loss": 0.1412,
      "step": 95
    },
    {
      "epoch": 5.0,
      "eval_loss": 0.2015175074338913,
      "eval_runtime": 20.5945,
      "eval_samples_per_second": 3.108,
      "eval_steps_per_second": 0.388,
      "step": 95
    }
  ],
  "logging_steps": 1,
  "max_steps": 95,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 19,
  "total_flos": 9751829478899712.0,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}