{
  "best_metric": 1.2027361392974854,
  "best_model_checkpoint": "./outputs/checkpoint-4100",
  "epoch": 2.987249544626594,
  "eval_steps": 100,
  "global_step": 4100,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.07,
      "learning_rate": 0.0002,
      "loss": 2.182,
      "step": 100
    },
    {
      "epoch": 0.07,
      "eval_loss": 2.0125839710235596,
      "eval_runtime": 144.1418,
      "eval_samples_per_second": 43.527,
      "eval_steps_per_second": 5.446,
      "step": 100
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002,
      "loss": 1.9626,
      "step": 200
    },
    {
      "epoch": 0.15,
      "eval_loss": 1.9195271730422974,
      "eval_runtime": 144.2253,
      "eval_samples_per_second": 43.501,
      "eval_steps_per_second": 5.443,
      "step": 200
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002,
      "loss": 1.8881,
      "step": 300
    },
    {
      "epoch": 0.22,
      "eval_loss": 1.858821988105774,
      "eval_runtime": 144.0313,
      "eval_samples_per_second": 43.56,
      "eval_steps_per_second": 5.45,
      "step": 300
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002,
      "loss": 1.8367,
      "step": 400
    },
    {
      "epoch": 0.29,
      "eval_loss": 1.8125503063201904,
      "eval_runtime": 143.9861,
      "eval_samples_per_second": 43.574,
      "eval_steps_per_second": 5.452,
      "step": 400
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0002,
      "loss": 1.785,
      "step": 500
    },
    {
      "epoch": 0.36,
      "eval_loss": 1.7720445394515991,
      "eval_runtime": 144.0061,
      "eval_samples_per_second": 43.568,
      "eval_steps_per_second": 5.451,
      "step": 500
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0002,
      "loss": 1.7562,
      "step": 600
    },
    {
      "epoch": 0.44,
      "eval_loss": 1.7424511909484863,
      "eval_runtime": 144.0245,
      "eval_samples_per_second": 43.562,
      "eval_steps_per_second": 5.45,
      "step": 600
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0002,
      "loss": 1.7176,
      "step": 700
    },
    {
      "epoch": 0.51,
      "eval_loss": 1.7112771272659302,
      "eval_runtime": 144.2204,
      "eval_samples_per_second": 43.503,
      "eval_steps_per_second": 5.443,
      "step": 700
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0002,
      "loss": 1.6969,
      "step": 800
    },
    {
      "epoch": 0.58,
      "eval_loss": 1.6823335886001587,
      "eval_runtime": 144.0134,
      "eval_samples_per_second": 43.565,
      "eval_steps_per_second": 5.451,
      "step": 800
    },
    {
      "epoch": 0.66,
      "learning_rate": 0.0002,
      "loss": 1.6619,
      "step": 900
    },
    {
      "epoch": 0.66,
      "eval_loss": 1.6567240953445435,
      "eval_runtime": 144.0655,
      "eval_samples_per_second": 43.55,
      "eval_steps_per_second": 5.449,
      "step": 900
    },
    {
      "epoch": 0.73,
      "learning_rate": 0.0002,
      "loss": 1.6469,
      "step": 1000
    },
    {
      "epoch": 0.73,
      "eval_loss": 1.6352009773254395,
      "eval_runtime": 144.0664,
      "eval_samples_per_second": 43.549,
      "eval_steps_per_second": 5.449,
      "step": 1000
    },
    {
      "epoch": 0.8,
      "learning_rate": 0.0002,
      "loss": 1.6268,
      "step": 1100
    },
    {
      "epoch": 0.8,
      "eval_loss": 1.6125303506851196,
      "eval_runtime": 144.0648,
      "eval_samples_per_second": 43.55,
      "eval_steps_per_second": 5.449,
      "step": 1100
    },
    {
      "epoch": 0.87,
      "learning_rate": 0.0002,
      "loss": 1.5911,
      "step": 1200
    },
    {
      "epoch": 0.87,
      "eval_loss": 1.5925209522247314,
      "eval_runtime": 144.042,
      "eval_samples_per_second": 43.557,
      "eval_steps_per_second": 5.45,
      "step": 1200
    },
    {
      "epoch": 0.95,
      "learning_rate": 0.0002,
      "loss": 1.5986,
      "step": 1300
    },
    {
      "epoch": 0.95,
      "eval_loss": 1.571681261062622,
      "eval_runtime": 144.1746,
      "eval_samples_per_second": 43.517,
      "eval_steps_per_second": 5.445,
      "step": 1300
    },
    {
      "epoch": 1.02,
      "learning_rate": 0.0002,
      "loss": 1.5514,
      "step": 1400
    },
    {
      "epoch": 1.02,
      "eval_loss": 1.5524405241012573,
      "eval_runtime": 183.3697,
      "eval_samples_per_second": 34.215,
      "eval_steps_per_second": 4.281,
      "step": 1400
    },
    {
      "epoch": 1.09,
      "learning_rate": 0.0002,
      "loss": 1.5235,
      "step": 1500
    },
    {
      "epoch": 1.09,
      "eval_loss": 1.534788966178894,
      "eval_runtime": 317.3733,
      "eval_samples_per_second": 19.769,
      "eval_steps_per_second": 2.473,
      "step": 1500
    },
    {
      "epoch": 1.17,
      "learning_rate": 0.0002,
      "loss": 1.5051,
      "step": 1600
    },
    {
      "epoch": 1.17,
      "eval_loss": 1.517040491104126,
      "eval_runtime": 315.5897,
      "eval_samples_per_second": 19.88,
      "eval_steps_per_second": 2.487,
      "step": 1600
    },
    {
      "epoch": 1.24,
      "learning_rate": 0.0002,
      "loss": 1.5036,
      "step": 1700
    },
    {
      "epoch": 1.24,
      "eval_loss": 1.500235915184021,
      "eval_runtime": 314.1201,
      "eval_samples_per_second": 19.973,
      "eval_steps_per_second": 2.499,
      "step": 1700
    },
    {
      "epoch": 1.31,
      "learning_rate": 0.0002,
      "loss": 1.4767,
      "step": 1800
    },
    {
      "epoch": 1.31,
      "eval_loss": 1.4854458570480347,
      "eval_runtime": 313.3904,
      "eval_samples_per_second": 20.02,
      "eval_steps_per_second": 2.505,
      "step": 1800
    },
    {
      "epoch": 1.38,
      "learning_rate": 0.0002,
      "loss": 1.4665,
      "step": 1900
    },
    {
      "epoch": 1.38,
      "eval_loss": 1.4697930812835693,
      "eval_runtime": 314.584,
      "eval_samples_per_second": 19.944,
      "eval_steps_per_second": 2.495,
      "step": 1900
    },
    {
      "epoch": 1.46,
      "learning_rate": 0.0002,
      "loss": 1.4498,
      "step": 2000
    },
    {
      "epoch": 1.46,
      "eval_loss": 1.456108808517456,
      "eval_runtime": 316.2748,
      "eval_samples_per_second": 19.837,
      "eval_steps_per_second": 2.482,
      "step": 2000
    },
    {
      "epoch": 1.53,
      "learning_rate": 0.0002,
      "loss": 1.4358,
      "step": 2100
    },
    {
      "epoch": 1.53,
      "eval_loss": 1.4408069849014282,
      "eval_runtime": 317.862,
      "eval_samples_per_second": 19.738,
      "eval_steps_per_second": 2.47,
      "step": 2100
    },
    {
      "epoch": 1.6,
      "learning_rate": 0.0002,
      "loss": 1.4099,
      "step": 2200
    },
    {
      "epoch": 1.6,
      "eval_loss": 1.4274669885635376,
      "eval_runtime": 319.6918,
      "eval_samples_per_second": 19.625,
      "eval_steps_per_second": 2.455,
      "step": 2200
    },
    {
      "epoch": 1.68,
      "learning_rate": 0.0002,
      "loss": 1.409,
      "step": 2300
    },
    {
      "epoch": 1.68,
      "eval_loss": 1.4145855903625488,
      "eval_runtime": 320.1441,
      "eval_samples_per_second": 19.597,
      "eval_steps_per_second": 2.452,
      "step": 2300
    },
    {
      "epoch": 1.75,
      "learning_rate": 0.0002,
      "loss": 1.4082,
      "step": 2400
    },
    {
      "epoch": 1.75,
      "eval_loss": 1.4013197422027588,
      "eval_runtime": 318.5235,
      "eval_samples_per_second": 19.697,
      "eval_steps_per_second": 2.464,
      "step": 2400
    },
    {
      "epoch": 1.82,
      "learning_rate": 0.0002,
      "loss": 1.3797,
      "step": 2500
    },
    {
      "epoch": 1.82,
      "eval_loss": 1.388313889503479,
      "eval_runtime": 316.5542,
      "eval_samples_per_second": 19.82,
      "eval_steps_per_second": 2.48,
      "step": 2500
    },
    {
      "epoch": 1.89,
      "learning_rate": 0.0002,
      "loss": 1.37,
      "step": 2600
    },
    {
      "epoch": 1.89,
      "eval_loss": 1.3754903078079224,
      "eval_runtime": 314.9023,
      "eval_samples_per_second": 19.924,
      "eval_steps_per_second": 2.493,
      "step": 2600
    },
    {
      "epoch": 1.97,
      "learning_rate": 0.0002,
      "loss": 1.3591,
      "step": 2700
    },
    {
      "epoch": 1.97,
      "eval_loss": 1.361141324043274,
      "eval_runtime": 313.2121,
      "eval_samples_per_second": 20.031,
      "eval_steps_per_second": 2.506,
      "step": 2700
    },
    {
      "epoch": 2.04,
      "learning_rate": 0.0002,
      "loss": 1.3293,
      "step": 2800
    },
    {
      "epoch": 2.04,
      "eval_loss": 1.35151207447052,
      "eval_runtime": 313.6525,
      "eval_samples_per_second": 20.003,
      "eval_steps_per_second": 2.503,
      "step": 2800
    },
    {
      "epoch": 2.11,
      "learning_rate": 0.0002,
      "loss": 1.3038,
      "step": 2900
    },
    {
      "epoch": 2.11,
      "eval_loss": 1.3370529413223267,
      "eval_runtime": 315.5675,
      "eval_samples_per_second": 19.882,
      "eval_steps_per_second": 2.488,
      "step": 2900
    },
    {
      "epoch": 2.19,
      "learning_rate": 0.0002,
      "loss": 1.3045,
      "step": 3000
    },
    {
      "epoch": 2.19,
      "eval_loss": 1.3253566026687622,
      "eval_runtime": 317.1772,
      "eval_samples_per_second": 19.781,
      "eval_steps_per_second": 2.475,
      "step": 3000
    },
    {
      "epoch": 2.26,
      "learning_rate": 0.0002,
      "loss": 1.2858,
      "step": 3100
    },
    {
      "epoch": 2.26,
      "eval_loss": 1.3158119916915894,
      "eval_runtime": 318.7074,
      "eval_samples_per_second": 19.686,
      "eval_steps_per_second": 2.463,
      "step": 3100
    },
    {
      "epoch": 2.33,
      "learning_rate": 0.0002,
      "loss": 1.2892,
      "step": 3200
    },
    {
      "epoch": 2.33,
      "eval_loss": 1.3039228916168213,
      "eval_runtime": 320.2143,
      "eval_samples_per_second": 19.593,
      "eval_steps_per_second": 2.451,
      "step": 3200
    },
    {
      "epoch": 2.4,
      "learning_rate": 0.0002,
      "loss": 1.2707,
      "step": 3300
    },
    {
      "epoch": 2.4,
      "eval_loss": 1.2919011116027832,
      "eval_runtime": 319.3459,
      "eval_samples_per_second": 19.646,
      "eval_steps_per_second": 2.458,
      "step": 3300
    },
    {
      "epoch": 2.48,
      "learning_rate": 0.0002,
      "loss": 1.2513,
      "step": 3400
    },
    {
      "epoch": 2.48,
      "eval_loss": 1.2831082344055176,
      "eval_runtime": 317.9367,
      "eval_samples_per_second": 19.733,
      "eval_steps_per_second": 2.469,
      "step": 3400
    },
    {
      "epoch": 2.55,
      "learning_rate": 0.0002,
      "loss": 1.2533,
      "step": 3500
    },
    {
      "epoch": 2.55,
      "eval_loss": 1.2713383436203003,
      "eval_runtime": 316.0824,
      "eval_samples_per_second": 19.849,
      "eval_steps_per_second": 2.484,
      "step": 3500
    },
    {
      "epoch": 2.62,
      "learning_rate": 0.0002,
      "loss": 1.2401,
      "step": 3600
    },
    {
      "epoch": 2.62,
      "eval_loss": 1.2587928771972656,
      "eval_runtime": 314.209,
      "eval_samples_per_second": 19.968,
      "eval_steps_per_second": 2.498,
      "step": 3600
    },
    {
      "epoch": 2.7,
      "learning_rate": 0.0002,
      "loss": 1.2235,
      "step": 3700
    },
    {
      "epoch": 2.7,
      "eval_loss": 1.2472882270812988,
      "eval_runtime": 313.2806,
      "eval_samples_per_second": 20.027,
      "eval_steps_per_second": 2.506,
      "step": 3700
    },
    {
      "epoch": 2.77,
      "learning_rate": 0.0002,
      "loss": 1.2008,
      "step": 3800
    },
    {
      "epoch": 2.77,
      "eval_loss": 1.2382943630218506,
      "eval_runtime": 314.1806,
      "eval_samples_per_second": 19.969,
      "eval_steps_per_second": 2.499,
      "step": 3800
    },
    {
      "epoch": 2.84,
      "learning_rate": 0.0002,
      "loss": 1.2127,
      "step": 3900
    },
    {
      "epoch": 2.84,
      "eval_loss": 1.2249549627304077,
      "eval_runtime": 316.2071,
      "eval_samples_per_second": 19.841,
      "eval_steps_per_second": 2.483,
      "step": 3900
    },
    {
      "epoch": 2.91,
      "learning_rate": 0.0002,
      "loss": 1.1949,
      "step": 4000
    },
    {
      "epoch": 2.91,
      "eval_loss": 1.217284917831421,
      "eval_runtime": 317.7217,
      "eval_samples_per_second": 19.747,
      "eval_steps_per_second": 2.471,
      "step": 4000
    },
    {
      "epoch": 2.99,
      "learning_rate": 0.0002,
      "loss": 1.1924,
      "step": 4100
    },
    {
      "epoch": 2.99,
      "eval_loss": 1.2027361392974854,
      "eval_runtime": 319.2657,
      "eval_samples_per_second": 19.651,
      "eval_steps_per_second": 2.459,
      "step": 4100
    }
  ],
  "logging_steps": 100,
  "max_steps": 4116,
  "num_train_epochs": 3,
  "save_steps": 100,
  "total_flos": 2.444085005899776e+17,
  "trial_name": null,
  "trial_params": null
}