{
  "best_metric": 0.2997502386569977,
  "best_model_checkpoint": "rm_ckptreward-p100-w0.3-s0/checkpoint-1400",
  "epoch": 0.8934269304403318,
  "eval_steps": 200,
  "global_step": 1400,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01,
      "learning_rate": 4.9999999999999996e-06,
      "loss": 0.3897,
      "step": 10
    },
    {
      "epoch": 0.01,
      "learning_rate": 6.505149978319905e-06,
      "loss": 0.3441,
      "step": 20
    },
    {
      "epoch": 0.02,
      "learning_rate": 7.385606273598311e-06,
      "loss": 0.326,
      "step": 30
    },
    {
      "epoch": 0.03,
      "learning_rate": 8.010299956639811e-06,
      "loss": 0.3131,
      "step": 40
    },
    {
      "epoch": 0.03,
      "learning_rate": 8.494850021680093e-06,
      "loss": 0.3187,
      "step": 50
    },
    {
      "epoch": 0.04,
      "learning_rate": 8.890756251918216e-06,
      "loss": 0.3105,
      "step": 60
    },
    {
      "epoch": 0.04,
      "learning_rate": 9.225490200071284e-06,
      "loss": 0.3137,
      "step": 70
    },
    {
      "epoch": 0.05,
      "learning_rate": 9.515449934959717e-06,
      "loss": 0.3115,
      "step": 80
    },
    {
      "epoch": 0.06,
      "learning_rate": 9.771212547196623e-06,
      "loss": 0.309,
      "step": 90
    },
    {
      "epoch": 0.06,
      "learning_rate": 9.999999999999999e-06,
      "loss": 0.3073,
      "step": 100
    },
    {
      "epoch": 0.07,
      "learning_rate": 1e-05,
      "loss": 0.3152,
      "step": 110
    },
    {
      "epoch": 0.08,
      "learning_rate": 1e-05,
      "loss": 0.3064,
      "step": 120
    },
    {
      "epoch": 0.08,
      "learning_rate": 1e-05,
      "loss": 0.3094,
      "step": 130
    },
    {
      "epoch": 0.09,
      "learning_rate": 1e-05,
      "loss": 0.3009,
      "step": 140
    },
    {
      "epoch": 0.1,
      "learning_rate": 1e-05,
      "loss": 0.3041,
      "step": 150
    },
    {
      "epoch": 0.1,
      "learning_rate": 1e-05,
      "loss": 0.305,
      "step": 160
    },
    {
      "epoch": 0.11,
      "learning_rate": 1e-05,
      "loss": 0.304,
      "step": 170
    },
    {
      "epoch": 0.11,
      "learning_rate": 1e-05,
      "loss": 0.2999,
      "step": 180
    },
    {
      "epoch": 0.12,
      "learning_rate": 1e-05,
      "loss": 0.3095,
      "step": 190
    },
    {
      "epoch": 0.13,
      "learning_rate": 1e-05,
      "loss": 0.3042,
      "step": 200
    },
    {
      "epoch": 0.13,
      "eval_val_accuracy": 896.5238095238095,
      "eval_val_loss": 0.30677446722984314,
      "eval_val_runtime": 2250.4996,
      "eval_val_samples_per_second": 4.443,
      "eval_val_steps_per_second": 0.555,
      "step": 200
    },
    {
      "epoch": 0.13,
      "eval_test_accuracy": 898.6904761904761,
      "eval_test_loss": 0.30444496870040894,
      "eval_test_runtime": 2251.863,
      "eval_test_samples_per_second": 4.441,
      "eval_test_steps_per_second": 0.555,
      "step": 200
    },
    {
      "epoch": 0.13,
      "learning_rate": 1e-05,
      "loss": 0.3018,
      "step": 210
    },
    {
      "epoch": 0.14,
      "learning_rate": 1e-05,
      "loss": 0.3078,
      "step": 220
    },
    {
      "epoch": 0.15,
      "learning_rate": 1e-05,
      "loss": 0.3028,
      "step": 230
    },
    {
      "epoch": 0.15,
      "learning_rate": 1e-05,
      "loss": 0.3043,
      "step": 240
    },
    {
      "epoch": 0.16,
      "learning_rate": 1e-05,
      "loss": 0.3081,
      "step": 250
    },
    {
      "epoch": 0.17,
      "learning_rate": 1e-05,
      "loss": 0.3056,
      "step": 260
    },
    {
      "epoch": 0.17,
      "learning_rate": 1e-05,
      "loss": 0.3083,
      "step": 270
    },
    {
      "epoch": 0.18,
      "learning_rate": 1e-05,
      "loss": 0.3,
      "step": 280
    },
    {
      "epoch": 0.19,
      "learning_rate": 1e-05,
      "loss": 0.3036,
      "step": 290
    },
    {
      "epoch": 0.19,
      "learning_rate": 1e-05,
      "loss": 0.307,
      "step": 300
    },
    {
      "epoch": 0.2,
      "learning_rate": 1e-05,
      "loss": 0.3029,
      "step": 310
    },
    {
      "epoch": 0.2,
      "learning_rate": 1e-05,
      "loss": 0.3035,
      "step": 320
    },
    {
      "epoch": 0.21,
      "learning_rate": 1e-05,
      "loss": 0.3052,
      "step": 330
    },
    {
      "epoch": 0.22,
      "learning_rate": 1e-05,
      "loss": 0.3034,
      "step": 340
    },
    {
      "epoch": 0.22,
      "learning_rate": 1e-05,
      "loss": 0.3012,
      "step": 350
    },
    {
      "epoch": 0.23,
      "learning_rate": 1e-05,
      "loss": 0.3023,
      "step": 360
    },
    {
      "epoch": 0.24,
      "learning_rate": 1e-05,
      "loss": 0.305,
      "step": 370
    },
    {
      "epoch": 0.24,
      "learning_rate": 1e-05,
      "loss": 0.3075,
      "step": 380
    },
    {
      "epoch": 0.25,
      "learning_rate": 1e-05,
      "loss": 0.3043,
      "step": 390
    },
    {
      "epoch": 0.26,
      "learning_rate": 1e-05,
      "loss": 0.302,
      "step": 400
    },
    {
      "epoch": 0.26,
      "eval_val_accuracy": 901.1428571428571,
      "eval_val_loss": 0.3049960434436798,
      "eval_val_runtime": 2251.3044,
      "eval_val_samples_per_second": 4.442,
      "eval_val_steps_per_second": 0.555,
      "step": 400
    },
    {
      "epoch": 0.26,
      "eval_test_accuracy": 902.547619047619,
      "eval_test_loss": 0.3042500615119934,
      "eval_test_runtime": 2251.0717,
      "eval_test_samples_per_second": 4.442,
      "eval_test_steps_per_second": 0.555,
      "step": 400
    },
    {
      "epoch": 0.26,
      "learning_rate": 1e-05,
      "loss": 0.2984,
      "step": 410
    },
    {
      "epoch": 0.27,
      "learning_rate": 1e-05,
      "loss": 0.3001,
      "step": 420
    },
    {
      "epoch": 0.27,
      "learning_rate": 1e-05,
      "loss": 0.3034,
      "step": 430
    },
    {
      "epoch": 0.28,
      "learning_rate": 1e-05,
      "loss": 0.3005,
      "step": 440
    },
    {
      "epoch": 0.29,
      "learning_rate": 1e-05,
      "loss": 0.308,
      "step": 450
    },
    {
      "epoch": 0.29,
      "learning_rate": 1e-05,
      "loss": 0.3011,
      "step": 460
    },
    {
      "epoch": 0.3,
      "learning_rate": 1e-05,
      "loss": 0.3038,
      "step": 470
    },
    {
      "epoch": 0.31,
      "learning_rate": 1e-05,
      "loss": 0.2988,
      "step": 480
    },
    {
      "epoch": 0.31,
      "learning_rate": 1e-05,
      "loss": 0.3057,
      "step": 490
    },
    {
      "epoch": 0.32,
      "learning_rate": 1e-05,
      "loss": 0.3077,
      "step": 500
    },
    {
      "epoch": 0.33,
      "learning_rate": 1e-05,
      "loss": 0.2962,
      "step": 510
    },
    {
      "epoch": 0.33,
      "learning_rate": 1e-05,
      "loss": 0.3074,
      "step": 520
    },
    {
      "epoch": 0.34,
      "learning_rate": 1e-05,
      "loss": 0.2979,
      "step": 530
    },
    {
      "epoch": 0.34,
      "learning_rate": 1e-05,
      "loss": 0.3027,
      "step": 540
    },
    {
      "epoch": 0.35,
      "learning_rate": 1e-05,
      "loss": 0.2993,
      "step": 550
    },
    {
      "epoch": 0.36,
      "learning_rate": 1e-05,
      "loss": 0.3006,
      "step": 560
    },
    {
      "epoch": 0.36,
      "learning_rate": 1e-05,
      "loss": 0.3018,
      "step": 570
    },
    {
      "epoch": 0.37,
      "learning_rate": 1e-05,
      "loss": 0.3009,
      "step": 580
    },
    {
      "epoch": 0.38,
      "learning_rate": 1e-05,
      "loss": 0.2983,
      "step": 590
    },
    {
      "epoch": 0.38,
      "learning_rate": 1e-05,
      "loss": 0.2968,
      "step": 600
    },
    {
      "epoch": 0.38,
      "eval_val_accuracy": 902.4047619047618,
      "eval_val_loss": 0.30277058482170105,
      "eval_val_runtime": 2248.9082,
      "eval_val_samples_per_second": 4.447,
      "eval_val_steps_per_second": 0.556,
      "step": 600
    },
    {
      "epoch": 0.38,
      "eval_test_accuracy": 904.8809523809524,
      "eval_test_loss": 0.3016507923603058,
      "eval_test_runtime": 2249.9795,
      "eval_test_samples_per_second": 4.444,
      "eval_test_steps_per_second": 0.556,
      "step": 600
    },
    {
      "epoch": 0.39,
      "learning_rate": 1e-05,
      "loss": 0.3034,
      "step": 610
    },
    {
      "epoch": 0.4,
      "learning_rate": 1e-05,
      "loss": 0.304,
      "step": 620
    },
    {
      "epoch": 0.4,
      "learning_rate": 1e-05,
      "loss": 0.2947,
      "step": 630
    },
    {
      "epoch": 0.41,
      "learning_rate": 1e-05,
      "loss": 0.2953,
      "step": 640
    },
    {
      "epoch": 0.41,
      "learning_rate": 1e-05,
      "loss": 0.3028,
      "step": 650
    },
    {
      "epoch": 0.42,
      "learning_rate": 1e-05,
      "loss": 0.2979,
      "step": 660
    },
    {
      "epoch": 0.43,
      "learning_rate": 1e-05,
      "loss": 0.3039,
      "step": 670
    },
    {
      "epoch": 0.43,
      "learning_rate": 1e-05,
      "loss": 0.2969,
      "step": 680
    },
    {
      "epoch": 0.44,
      "learning_rate": 1e-05,
      "loss": 0.2994,
      "step": 690
    },
    {
      "epoch": 0.45,
      "learning_rate": 1e-05,
      "loss": 0.2961,
      "step": 700
    },
    {
      "epoch": 0.45,
      "learning_rate": 1e-05,
      "loss": 0.3031,
      "step": 710
    },
    {
      "epoch": 0.46,
      "learning_rate": 1e-05,
      "loss": 0.3037,
      "step": 720
    },
    {
      "epoch": 0.47,
      "learning_rate": 1e-05,
      "loss": 0.3008,
      "step": 730
    },
    {
      "epoch": 0.47,
      "learning_rate": 1e-05,
      "loss": 0.3089,
      "step": 740
    },
    {
      "epoch": 0.48,
      "learning_rate": 1e-05,
      "loss": 0.3061,
      "step": 750
    },
    {
      "epoch": 0.49,
      "learning_rate": 1e-05,
      "loss": 0.2987,
      "step": 760
    },
    {
      "epoch": 0.49,
      "learning_rate": 1e-05,
      "loss": 0.3041,
      "step": 770
    },
    {
      "epoch": 0.5,
      "learning_rate": 1e-05,
      "loss": 0.2993,
      "step": 780
    },
    {
      "epoch": 0.5,
      "learning_rate": 1e-05,
      "loss": 0.2936,
      "step": 790
    },
    {
      "epoch": 0.51,
      "learning_rate": 1e-05,
      "loss": 0.301,
      "step": 800
    },
    {
      "epoch": 0.51,
      "eval_val_accuracy": 904.3333333333333,
      "eval_val_loss": 0.30156368017196655,
      "eval_val_runtime": 2246.2231,
      "eval_val_samples_per_second": 4.452,
      "eval_val_steps_per_second": 0.556,
      "step": 800
    },
    {
      "epoch": 0.51,
      "eval_test_accuracy": 907.6904761904761,
      "eval_test_loss": 0.3001132309436798,
      "eval_test_runtime": 2247.6939,
      "eval_test_samples_per_second": 4.449,
      "eval_test_steps_per_second": 0.556,
      "step": 800
    },
    {
      "epoch": 0.52,
      "learning_rate": 1e-05,
      "loss": 0.299,
      "step": 810
    },
    {
      "epoch": 0.52,
      "learning_rate": 1e-05,
      "loss": 0.304,
      "step": 820
    },
    {
      "epoch": 0.53,
      "learning_rate": 1e-05,
      "loss": 0.3013,
      "step": 830
    },
    {
      "epoch": 0.54,
      "learning_rate": 1e-05,
      "loss": 0.2989,
      "step": 840
    },
    {
      "epoch": 0.54,
      "learning_rate": 1e-05,
      "loss": 0.3027,
      "step": 850
    },
    {
      "epoch": 0.55,
      "learning_rate": 1e-05,
      "loss": 0.3019,
      "step": 860
    },
    {
      "epoch": 0.56,
      "learning_rate": 1e-05,
      "loss": 0.3033,
      "step": 870
    },
    {
      "epoch": 0.56,
      "learning_rate": 1e-05,
      "loss": 0.2984,
      "step": 880
    },
    {
      "epoch": 0.57,
      "learning_rate": 1e-05,
      "loss": 0.2967,
      "step": 890
    },
    {
      "epoch": 0.57,
      "learning_rate": 1e-05,
      "loss": 0.3,
      "step": 900
    },
    {
      "epoch": 0.58,
      "learning_rate": 1e-05,
      "loss": 0.3025,
      "step": 910
    },
    {
      "epoch": 0.59,
      "learning_rate": 1e-05,
      "loss": 0.3037,
      "step": 920
    },
    {
      "epoch": 0.59,
      "learning_rate": 1e-05,
      "loss": 0.297,
      "step": 930
    },
    {
      "epoch": 0.6,
      "learning_rate": 1e-05,
      "loss": 0.3019,
      "step": 940
    },
    {
      "epoch": 0.61,
      "learning_rate": 1e-05,
      "loss": 0.2966,
      "step": 950
    },
    {
      "epoch": 0.61,
      "learning_rate": 1e-05,
      "loss": 0.3023,
      "step": 960
    },
    {
      "epoch": 0.62,
      "learning_rate": 1e-05,
      "loss": 0.2961,
      "step": 970
    },
    {
      "epoch": 0.63,
      "learning_rate": 1e-05,
      "loss": 0.2987,
      "step": 980
    },
    {
      "epoch": 0.63,
      "learning_rate": 1e-05,
      "loss": 0.2995,
      "step": 990
    },
    {
      "epoch": 0.64,
      "learning_rate": 1e-05,
      "loss": 0.2976,
      "step": 1000
    },
    {
      "epoch": 0.64,
      "eval_val_accuracy": 906.5952380952382,
      "eval_val_loss": 0.3006158769130707,
      "eval_val_runtime": 2245.8387,
      "eval_val_samples_per_second": 4.453,
      "eval_val_steps_per_second": 0.557,
      "step": 1000
    },
    {
      "epoch": 0.64,
      "eval_test_accuracy": 907.5952380952382,
      "eval_test_loss": 0.29969537258148193,
      "eval_test_runtime": 2246.9928,
      "eval_test_samples_per_second": 4.45,
      "eval_test_steps_per_second": 0.556,
      "step": 1000
    },
    {
      "epoch": 0.64,
      "learning_rate": 1e-05,
      "loss": 0.2988,
      "step": 1010
    },
    {
      "epoch": 0.65,
      "learning_rate": 1e-05,
      "loss": 0.2999,
      "step": 1020
    },
    {
      "epoch": 0.66,
      "learning_rate": 1e-05,
      "loss": 0.2995,
      "step": 1030
    },
    {
      "epoch": 0.66,
      "learning_rate": 1e-05,
      "loss": 0.2991,
      "step": 1040
    },
    {
      "epoch": 0.67,
      "learning_rate": 1e-05,
      "loss": 0.2922,
      "step": 1050
    },
    {
      "epoch": 0.68,
      "learning_rate": 1e-05,
      "loss": 0.2957,
      "step": 1060
    },
    {
      "epoch": 0.68,
      "learning_rate": 1e-05,
      "loss": 0.305,
      "step": 1070
    },
    {
      "epoch": 0.69,
      "learning_rate": 1e-05,
      "loss": 0.2996,
      "step": 1080
    },
    {
      "epoch": 0.7,
      "learning_rate": 1e-05,
      "loss": 0.3032,
      "step": 1090
    },
    {
      "epoch": 0.7,
      "learning_rate": 1e-05,
      "loss": 0.3,
      "step": 1100
    },
    {
      "epoch": 0.71,
      "learning_rate": 1e-05,
      "loss": 0.2937,
      "step": 1110
    },
    {
      "epoch": 0.71,
      "learning_rate": 1e-05,
      "loss": 0.2976,
      "step": 1120
    },
    {
      "epoch": 0.72,
      "learning_rate": 1e-05,
      "loss": 0.2993,
      "step": 1130
    },
    {
      "epoch": 0.73,
      "learning_rate": 1e-05,
      "loss": 0.2994,
      "step": 1140
    },
    {
      "epoch": 0.73,
      "learning_rate": 1e-05,
      "loss": 0.3033,
      "step": 1150
    },
    {
      "epoch": 0.74,
      "learning_rate": 1e-05,
      "loss": 0.3029,
      "step": 1160
    },
    {
      "epoch": 0.75,
      "learning_rate": 1e-05,
      "loss": 0.3014,
      "step": 1170
    },
    {
      "epoch": 0.75,
      "learning_rate": 1e-05,
      "loss": 0.2976,
      "step": 1180
    },
    {
      "epoch": 0.76,
      "learning_rate": 1e-05,
      "loss": 0.2978,
      "step": 1190
    },
    {
      "epoch": 0.77,
      "learning_rate": 1e-05,
      "loss": 0.2977,
      "step": 1200
    },
    {
      "epoch": 0.77,
      "eval_val_accuracy": 905.9285714285714,
      "eval_val_loss": 0.30016693472862244,
      "eval_val_runtime": 2246.3367,
      "eval_val_samples_per_second": 4.452,
      "eval_val_steps_per_second": 0.556,
      "step": 1200
    },
    {
      "epoch": 0.77,
      "eval_test_accuracy": 907.4761904761905,
      "eval_test_loss": 0.29916131496429443,
      "eval_test_runtime": 2247.4238,
      "eval_test_samples_per_second": 4.45,
      "eval_test_steps_per_second": 0.556,
      "step": 1200
    },
    {
      "epoch": 0.77,
      "learning_rate": 1e-05,
      "loss": 0.3029,
      "step": 1210
    },
    {
      "epoch": 0.78,
      "learning_rate": 1e-05,
      "loss": 0.2976,
      "step": 1220
    },
    {
      "epoch": 0.78,
      "learning_rate": 1e-05,
      "loss": 0.2965,
      "step": 1230
    },
    {
      "epoch": 0.79,
      "learning_rate": 1e-05,
      "loss": 0.2966,
      "step": 1240
    },
    {
      "epoch": 0.8,
      "learning_rate": 1e-05,
      "loss": 0.2993,
      "step": 1250
    },
    {
      "epoch": 0.8,
      "learning_rate": 1e-05,
      "loss": 0.2961,
      "step": 1260
    },
    {
      "epoch": 0.81,
      "learning_rate": 1e-05,
      "loss": 0.2959,
      "step": 1270
    },
    {
      "epoch": 0.82,
      "learning_rate": 1e-05,
      "loss": 0.2998,
      "step": 1280
    },
    {
      "epoch": 0.82,
      "learning_rate": 1e-05,
      "loss": 0.3024,
      "step": 1290
    },
    {
      "epoch": 0.83,
      "learning_rate": 1e-05,
      "loss": 0.2934,
      "step": 1300
    },
    {
      "epoch": 0.84,
      "learning_rate": 1e-05,
      "loss": 0.2966,
      "step": 1310
    },
    {
      "epoch": 0.84,
      "learning_rate": 1e-05,
      "loss": 0.3051,
      "step": 1320
    },
    {
      "epoch": 0.85,
      "learning_rate": 1e-05,
      "loss": 0.2988,
      "step": 1330
    },
    {
      "epoch": 0.86,
      "learning_rate": 1e-05,
      "loss": 0.3001,
      "step": 1340
    },
    {
      "epoch": 0.86,
      "learning_rate": 1e-05,
      "loss": 0.3032,
      "step": 1350
    },
    {
      "epoch": 0.87,
      "learning_rate": 1e-05,
      "loss": 0.2972,
      "step": 1360
    },
    {
      "epoch": 0.87,
      "learning_rate": 1e-05,
      "loss": 0.2996,
      "step": 1370
    },
    {
      "epoch": 0.88,
      "learning_rate": 1e-05,
      "loss": 0.298,
      "step": 1380
    },
    {
      "epoch": 0.89,
      "learning_rate": 1e-05,
      "loss": 0.2959,
      "step": 1390
    },
    {
      "epoch": 0.89,
      "learning_rate": 1e-05,
      "loss": 0.2951,
      "step": 1400
    },
    {
      "epoch": 0.89,
      "eval_val_accuracy": 909.1904761904761,
      "eval_val_loss": 0.2997502386569977,
      "eval_val_runtime": 2245.4318,
      "eval_val_samples_per_second": 4.453,
      "eval_val_steps_per_second": 0.557,
      "step": 1400
    },
    {
      "epoch": 0.89,
      "eval_test_accuracy": 907.5238095238095,
      "eval_test_loss": 0.2989273965358734,
      "eval_test_runtime": 2246.796,
      "eval_test_samples_per_second": 4.451,
      "eval_test_steps_per_second": 0.556,
      "step": 1400
    }
  ],
  "logging_steps": 10,
  "max_steps": 7835,
  "num_train_epochs": 5,
  "save_steps": 200,
  "total_flos": 0.0,
  "trial_name": null,
  "trial_params": null
}