dkqjrm
/

20230822202110

+{
+    "epoch": 60.0,
+    "train_loss": 0.18218991573040302,
+    "train_runtime": 3746.5818,
+    "train_samples_per_second": 39.876,
+    "train_steps_per_second": 2.498
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 60.0,
+    "train_loss": 0.18218991573040302,
+    "train_runtime": 3746.5818,
+    "train_samples_per_second": 39.876,
+    "train_steps_per_second": 2.498
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1033 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 60.0,
+  "global_step": 9360,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.42201343178749084,
+      "eval_runtime": 4.2448,
+      "eval_samples_per_second": 65.256,
+      "eval_steps_per_second": 8.245,
+      "step": 156
+    },
+    {
+      "best_epoch": 0,
+      "best_eval_accuracy": 0.5270758122743683,
+      "epoch": 1.0,
+      "step": 156
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.2767408788204193,
+      "eval_runtime": 4.3201,
+      "eval_samples_per_second": 64.12,
+      "eval_steps_per_second": 8.102,
+      "step": 312
+    },
+    {
+      "best_epoch": 0,
+      "best_eval_accuracy": 0.5270758122743683,
+      "epoch": 2.0,
+      "step": 312
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.4345341622829437,
+      "eval_runtime": 4.3481,
+      "eval_samples_per_second": 63.706,
+      "eval_steps_per_second": 8.05,
+      "step": 468
+    },
+    {
+      "best_epoch": 0,
+      "best_eval_accuracy": 0.5270758122743683,
+      "epoch": 3.0,
+      "step": 468
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 0.0028397435897435895,
+      "loss": 0.2507,
+      "step": 500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5342960288808665,
+      "eval_loss": 0.20055121183395386,
+      "eval_runtime": 4.3672,
+      "eval_samples_per_second": 63.427,
+      "eval_steps_per_second": 8.014,
+      "step": 624
+    },
+    {
+      "best_epoch": 3,
+      "best_eval_accuracy": 0.5342960288808665,
+      "epoch": 4.0,
+      "step": 624
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.17973236739635468,
+      "eval_runtime": 4.3589,
+      "eval_samples_per_second": 63.548,
+      "eval_steps_per_second": 8.029,
+      "step": 780
+    },
+    {
+      "best_epoch": 3,
+      "best_eval_accuracy": 0.5342960288808665,
+      "epoch": 5.0,
+      "step": 780
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.21800895035266876,
+      "eval_runtime": 4.3571,
+      "eval_samples_per_second": 63.575,
+      "eval_steps_per_second": 8.033,
+      "step": 936
+    },
+    {
+      "best_epoch": 3,
+      "best_eval_accuracy": 0.5342960288808665,
+      "epoch": 6.0,
+      "step": 936
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 0.00267948717948718,
+      "loss": 0.2023,
+      "step": 1000
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.5054151624548736,
+      "eval_loss": 0.17262107133865356,
+      "eval_runtime": 4.3549,
+      "eval_samples_per_second": 63.606,
+      "eval_steps_per_second": 8.037,
+      "step": 1092
+    },
+    {
+      "best_epoch": 3,
+      "best_eval_accuracy": 0.5342960288808665,
+      "epoch": 7.0,
+      "step": 1092
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.181132510304451,
+      "eval_runtime": 4.3482,
+      "eval_samples_per_second": 63.705,
+      "eval_steps_per_second": 8.049,
+      "step": 1248
+    },
+    {
+      "best_epoch": 3,
+      "best_eval_accuracy": 0.5342960288808665,
+      "epoch": 8.0,
+      "step": 1248
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5451263537906137,
+      "eval_loss": 0.1828141212463379,
+      "eval_runtime": 4.3504,
+      "eval_samples_per_second": 63.673,
+      "eval_steps_per_second": 8.045,
+      "step": 1404
+    },
+    {
+      "best_epoch": 8,
+      "best_eval_accuracy": 0.5451263537906137,
+      "epoch": 9.0,
+      "step": 1404
+    },
+    {
+      "epoch": 9.62,
+      "learning_rate": 0.0025192307692307693,
+      "loss": 0.2077,
+      "step": 1500
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.5342960288808665,
+      "eval_loss": 0.19208335876464844,
+      "eval_runtime": 4.3537,
+      "eval_samples_per_second": 63.624,
+      "eval_steps_per_second": 8.039,
+      "step": 1560
+    },
+    {
+      "best_epoch": 8,
+      "best_eval_accuracy": 0.5451263537906137,
+      "epoch": 10.0,
+      "step": 1560
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.48375451263537905,
+      "eval_loss": 0.17719601094722748,
+      "eval_runtime": 4.3563,
+      "eval_samples_per_second": 63.587,
+      "eval_steps_per_second": 8.034,
+      "step": 1716
+    },
+    {
+      "best_epoch": 8,
+      "best_eval_accuracy": 0.5451263537906137,
+      "epoch": 11.0,
+      "step": 1716
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6462093862815884,
+      "eval_loss": 0.17240847647190094,
+      "eval_runtime": 4.3552,
+      "eval_samples_per_second": 63.602,
+      "eval_steps_per_second": 8.036,
+      "step": 1872
+    },
+    {
+      "best_epoch": 11,
+      "best_eval_accuracy": 0.6462093862815884,
+      "epoch": 12.0,
+      "step": 1872
+    },
+    {
+      "epoch": 12.82,
+      "learning_rate": 0.002358974358974359,
+      "loss": 0.189,
+      "step": 2000
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.5379061371841155,
+      "eval_loss": 0.17178961634635925,
+      "eval_runtime": 4.3528,
+      "eval_samples_per_second": 63.637,
+      "eval_steps_per_second": 8.041,
+      "step": 2028
+    },
+    {
+      "best_epoch": 11,
+      "best_eval_accuracy": 0.6462093862815884,
+      "epoch": 13.0,
+      "step": 2028
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.5126353790613718,
+      "eval_loss": 0.1727617383003235,
+      "eval_runtime": 4.352,
+      "eval_samples_per_second": 63.648,
+      "eval_steps_per_second": 8.042,
+      "step": 2184
+    },
+    {
+      "best_epoch": 11,
+      "best_eval_accuracy": 0.6462093862815884,
+      "epoch": 14.0,
+      "step": 2184
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.5126353790613718,
+      "eval_loss": 0.17747661471366882,
+      "eval_runtime": 4.357,
+      "eval_samples_per_second": 63.576,
+      "eval_steps_per_second": 8.033,
+      "step": 2340
+    },
+    {
+      "best_epoch": 11,
+      "best_eval_accuracy": 0.6462093862815884,
+      "epoch": 15.0,
+      "step": 2340
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.5595667870036101,
+      "eval_loss": 0.18130473792552948,
+      "eval_runtime": 4.3517,
+      "eval_samples_per_second": 63.654,
+      "eval_steps_per_second": 8.043,
+      "step": 2496
+    },
+    {
+      "best_epoch": 11,
+      "best_eval_accuracy": 0.6462093862815884,
+      "epoch": 16.0,
+      "step": 2496
+    },
+    {
+      "epoch": 16.03,
+      "learning_rate": 0.0021987179487179486,
+      "loss": 0.1803,
+      "step": 2500
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.631768953068592,
+      "eval_loss": 0.17390955984592438,
+      "eval_runtime": 4.3538,
+      "eval_samples_per_second": 63.623,
+      "eval_steps_per_second": 8.039,
+      "step": 2652
+    },
+    {
+      "best_epoch": 11,
+      "best_eval_accuracy": 0.6462093862815884,
+      "epoch": 17.0,
+      "step": 2652
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.6137184115523465,
+      "eval_loss": 0.17176125943660736,
+      "eval_runtime": 4.3563,
+      "eval_samples_per_second": 63.586,
+      "eval_steps_per_second": 8.034,
+      "step": 2808
+    },
+    {
+      "best_epoch": 11,
+      "best_eval_accuracy": 0.6462093862815884,
+      "epoch": 18.0,
+      "step": 2808
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.6389891696750902,
+      "eval_loss": 0.1711309403181076,
+      "eval_runtime": 4.3659,
+      "eval_samples_per_second": 63.446,
+      "eval_steps_per_second": 8.017,
+      "step": 2964
+    },
+    {
+      "best_epoch": 11,
+      "best_eval_accuracy": 0.6462093862815884,
+      "epoch": 19.0,
+      "step": 2964
+    },
+    {
+      "epoch": 19.23,
+      "learning_rate": 0.0020384615384615385,
+      "loss": 0.1791,
+      "step": 3000
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.5956678700361011,
+      "eval_loss": 0.179701030254364,
+      "eval_runtime": 4.3561,
+      "eval_samples_per_second": 63.589,
+      "eval_steps_per_second": 8.035,
+      "step": 3120
+    },
+    {
+      "best_epoch": 11,
+      "best_eval_accuracy": 0.6462093862815884,
+      "epoch": 20.0,
+      "step": 3120
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.6859205776173285,
+      "eval_loss": 0.17101024091243744,
+      "eval_runtime": 4.3528,
+      "eval_samples_per_second": 63.637,
+      "eval_steps_per_second": 8.041,
+      "step": 3276
+    },
+    {
+      "best_epoch": 20,
+      "best_eval_accuracy": 0.6859205776173285,
+      "epoch": 21.0,
+      "step": 3276
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.6642599277978339,
+      "eval_loss": 0.17285466194152832,
+      "eval_runtime": 4.3557,
+      "eval_samples_per_second": 63.595,
+      "eval_steps_per_second": 8.035,
+      "step": 3432
+    },
+    {
+      "best_epoch": 20,
+      "best_eval_accuracy": 0.6859205776173285,
+      "epoch": 22.0,
+      "step": 3432
+    },
+    {
+      "epoch": 22.44,
+      "learning_rate": 0.0018782051282051281,
+      "loss": 0.1781,
+      "step": 3500
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.6823104693140795,
+      "eval_loss": 0.1700609028339386,
+      "eval_runtime": 4.345,
+      "eval_samples_per_second": 63.751,
+      "eval_steps_per_second": 8.055,
+      "step": 3588
+    },
+    {
+      "best_epoch": 20,
+      "best_eval_accuracy": 0.6859205776173285,
+      "epoch": 23.0,
+      "step": 3588
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.6389891696750902,
+      "eval_loss": 0.17063240706920624,
+      "eval_runtime": 4.3466,
+      "eval_samples_per_second": 63.728,
+      "eval_steps_per_second": 8.052,
+      "step": 3744
+    },
+    {
+      "best_epoch": 20,
+      "best_eval_accuracy": 0.6859205776173285,
+      "epoch": 24.0,
+      "step": 3744
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.6859205776173285,
+      "eval_loss": 0.17078790068626404,
+      "eval_runtime": 4.3477,
+      "eval_samples_per_second": 63.711,
+      "eval_steps_per_second": 8.05,
+      "step": 3900
+    },
+    {
+      "best_epoch": 20,
+      "best_eval_accuracy": 0.6859205776173285,
+      "epoch": 25.0,
+      "step": 3900
+    },
+    {
+      "epoch": 25.64,
+      "learning_rate": 0.0017179487179487178,
+      "loss": 0.1765,
+      "step": 4000
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.6642599277978339,
+      "eval_loss": 0.1696767657995224,
+      "eval_runtime": 4.363,
+      "eval_samples_per_second": 63.488,
+      "eval_steps_per_second": 8.022,
+      "step": 4056
+    },
+    {
+      "best_epoch": 20,
+      "best_eval_accuracy": 0.6859205776173285,
+      "epoch": 26.0,
+      "step": 4056
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.6714801444043321,
+      "eval_loss": 0.16979683935642242,
+      "eval_runtime": 4.3432,
+      "eval_samples_per_second": 63.778,
+      "eval_steps_per_second": 8.059,
+      "step": 4212
+    },
+    {
+      "best_epoch": 20,
+      "best_eval_accuracy": 0.6859205776173285,
+      "epoch": 27.0,
+      "step": 4212
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.6425992779783394,
+      "eval_loss": 0.17104002833366394,
+      "eval_runtime": 4.3513,
+      "eval_samples_per_second": 63.66,
+      "eval_steps_per_second": 8.044,
+      "step": 4368
+    },
+    {
+      "best_epoch": 20,
+      "best_eval_accuracy": 0.6859205776173285,
+      "epoch": 28.0,
+      "step": 4368
+    },
+    {
+      "epoch": 28.85,
+      "learning_rate": 0.0015576923076923079,
+      "loss": 0.176,
+      "step": 4500
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.6931407942238267,
+      "eval_loss": 0.17095446586608887,
+      "eval_runtime": 4.3498,
+      "eval_samples_per_second": 63.681,
+      "eval_steps_per_second": 8.046,
+      "step": 4524
+    },
+    {
+      "best_epoch": 28,
+      "best_eval_accuracy": 0.6931407942238267,
+      "epoch": 29.0,
+      "step": 4524
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.6967509025270758,
+      "eval_loss": 0.1702578067779541,
+      "eval_runtime": 4.3424,
+      "eval_samples_per_second": 63.79,
+      "eval_steps_per_second": 8.06,
+      "step": 4680
+    },
+    {
+      "best_epoch": 29,
+      "best_eval_accuracy": 0.6967509025270758,
+      "epoch": 30.0,
+      "step": 4680
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.6570397111913358,
+      "eval_loss": 0.17254619300365448,
+      "eval_runtime": 4.3471,
+      "eval_samples_per_second": 63.721,
+      "eval_steps_per_second": 8.051,
+      "step": 4836
+    },
+    {
+      "best_epoch": 29,
+      "best_eval_accuracy": 0.6967509025270758,
+      "epoch": 31.0,
+      "step": 4836
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.6714801444043321,
+      "eval_loss": 0.1699478179216385,
+      "eval_runtime": 4.3442,
+      "eval_samples_per_second": 63.763,
+      "eval_steps_per_second": 8.057,
+      "step": 4992
+    },
+    {
+      "best_epoch": 29,
+      "best_eval_accuracy": 0.6967509025270758,
+      "epoch": 32.0,
+      "step": 4992
+    },
+    {
+      "epoch": 32.05,
+      "learning_rate": 0.0013974358974358976,
+      "loss": 0.1749,
+      "step": 5000
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.6895306859205776,
+      "eval_loss": 0.17102044820785522,
+      "eval_runtime": 4.3501,
+      "eval_samples_per_second": 63.677,
+      "eval_steps_per_second": 8.046,
+      "step": 5148
+    },
+    {
+      "best_epoch": 29,
+      "best_eval_accuracy": 0.6967509025270758,
+      "epoch": 33.0,
+      "step": 5148
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.7220216606498195,
+      "eval_loss": 0.1694263070821762,
+      "eval_runtime": 4.347,
+      "eval_samples_per_second": 63.722,
+      "eval_steps_per_second": 8.051,
+      "step": 5304
+    },
+    {
+      "best_epoch": 33,
+      "best_eval_accuracy": 0.7220216606498195,
+      "epoch": 34.0,
+      "step": 5304
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.6534296028880866,
+      "eval_loss": 0.16998881101608276,
+      "eval_runtime": 4.3466,
+      "eval_samples_per_second": 63.727,
+      "eval_steps_per_second": 8.052,
+      "step": 5460
+    },
+    {
+      "best_epoch": 33,
+      "best_eval_accuracy": 0.7220216606498195,
+      "epoch": 35.0,
+      "step": 5460
+    },
+    {
+      "epoch": 35.26,
+      "learning_rate": 0.0012371794871794872,
+      "loss": 0.1739,
+      "step": 5500
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.7111913357400722,
+      "eval_loss": 0.16898111999034882,
+      "eval_runtime": 4.345,
+      "eval_samples_per_second": 63.751,
+      "eval_steps_per_second": 8.055,
+      "step": 5616
+    },
+    {
+      "best_epoch": 33,
+      "best_eval_accuracy": 0.7220216606498195,
+      "epoch": 36.0,
+      "step": 5616
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.7220216606498195,
+      "eval_loss": 0.1684962809085846,
+      "eval_runtime": 4.3495,
+      "eval_samples_per_second": 63.686,
+      "eval_steps_per_second": 8.047,
+      "step": 5772
+    },
+    {
+      "best_epoch": 33,
+      "best_eval_accuracy": 0.7220216606498195,
+      "epoch": 37.0,
+      "step": 5772
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.703971119133574,
+      "eval_loss": 0.1695842742919922,
+      "eval_runtime": 4.3499,
+      "eval_samples_per_second": 63.679,
+      "eval_steps_per_second": 8.046,
+      "step": 5928
+    },
+    {
+      "best_epoch": 33,
+      "best_eval_accuracy": 0.7220216606498195,
+      "epoch": 38.0,
+      "step": 5928
+    },
+    {
+      "epoch": 38.46,
+      "learning_rate": 0.0010769230769230769,
+      "loss": 0.1738,
+      "step": 6000
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.7148014440433214,
+      "eval_loss": 0.16876961290836334,
+      "eval_runtime": 4.3498,
+      "eval_samples_per_second": 63.682,
+      "eval_steps_per_second": 8.046,
+      "step": 6084
+    },
+    {
+      "best_epoch": 33,
+      "best_eval_accuracy": 0.7220216606498195,
+      "epoch": 39.0,
+      "step": 6084
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.7220216606498195,
+      "eval_loss": 0.16915743052959442,
+      "eval_runtime": 4.3454,
+      "eval_samples_per_second": 63.746,
+      "eval_steps_per_second": 8.055,
+      "step": 6240
+    },
+    {
+      "best_epoch": 33,
+      "best_eval_accuracy": 0.7220216606498195,
+      "epoch": 40.0,
+      "step": 6240
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.7364620938628159,
+      "eval_loss": 0.16826777160167694,
+      "eval_runtime": 4.3504,
+      "eval_samples_per_second": 63.672,
+      "eval_steps_per_second": 8.045,
+      "step": 6396
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 41.0,
+      "step": 6396
+    },
+    {
+      "epoch": 41.67,
+      "learning_rate": 0.0009166666666666668,
+      "loss": 0.1726,
+      "step": 6500
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.6678700361010831,
+      "eval_loss": 0.16903138160705566,
+      "eval_runtime": 4.3443,
+      "eval_samples_per_second": 63.761,
+      "eval_steps_per_second": 8.056,
+      "step": 6552
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 42.0,
+      "step": 6552
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.7075812274368231,
+      "eval_loss": 0.16787345707416534,
+      "eval_runtime": 4.3441,
+      "eval_samples_per_second": 63.765,
+      "eval_steps_per_second": 8.057,
+      "step": 6708
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 43.0,
+      "step": 6708
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.7184115523465704,
+      "eval_loss": 0.16910089552402496,
+      "eval_runtime": 4.3519,
+      "eval_samples_per_second": 63.65,
+      "eval_steps_per_second": 8.042,
+      "step": 6864
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 44.0,
+      "step": 6864
+    },
+    {
+      "epoch": 44.87,
+      "learning_rate": 0.0007564102564102564,
+      "loss": 0.1719,
+      "step": 7000
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.7292418772563177,
+      "eval_loss": 0.16922158002853394,
+      "eval_runtime": 4.3511,
+      "eval_samples_per_second": 63.662,
+      "eval_steps_per_second": 8.044,
+      "step": 7020
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 45.0,
+      "step": 7020
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.7328519855595668,
+      "eval_loss": 0.16845819354057312,
+      "eval_runtime": 4.3526,
+      "eval_samples_per_second": 63.64,
+      "eval_steps_per_second": 8.041,
+      "step": 7176
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 46.0,
+      "step": 7176
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.7184115523465704,
+      "eval_loss": 0.1684226542711258,
+      "eval_runtime": 4.354,
+      "eval_samples_per_second": 63.619,
+      "eval_steps_per_second": 8.039,
+      "step": 7332
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 47.0,
+      "step": 7332
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.7111913357400722,
+      "eval_loss": 0.16897501051425934,
+      "eval_runtime": 4.3558,
+      "eval_samples_per_second": 63.593,
+      "eval_steps_per_second": 8.035,
+      "step": 7488
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 48.0,
+      "step": 7488
+    },
+    {
+      "epoch": 48.08,
+      "learning_rate": 0.0005961538461538461,
+      "loss": 0.1712,
+      "step": 7500
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.7292418772563177,
+      "eval_loss": 0.16902127861976624,
+      "eval_runtime": 4.3563,
+      "eval_samples_per_second": 63.585,
+      "eval_steps_per_second": 8.034,
+      "step": 7644
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 49.0,
+      "step": 7644
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.6931407942238267,
+      "eval_loss": 0.16854658722877502,
+      "eval_runtime": 4.3523,
+      "eval_samples_per_second": 63.645,
+      "eval_steps_per_second": 8.042,
+      "step": 7800
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 50.0,
+      "step": 7800
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.7256317689530686,
+      "eval_loss": 0.1680402308702469,
+      "eval_runtime": 4.3572,
+      "eval_samples_per_second": 63.573,
+      "eval_steps_per_second": 8.033,
+      "step": 7956
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 51.0,
+      "step": 7956
+    },
+    {
+      "epoch": 51.28,
+      "learning_rate": 0.00043589743589743596,
+      "loss": 0.1705,
+      "step": 8000
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.7075812274368231,
+      "eval_loss": 0.1686880886554718,
+      "eval_runtime": 4.355,
+      "eval_samples_per_second": 63.606,
+      "eval_steps_per_second": 8.037,
+      "step": 8112
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 52.0,
+      "step": 8112
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.7184115523465704,
+      "eval_loss": 0.1684812754392624,
+      "eval_runtime": 4.3562,
+      "eval_samples_per_second": 63.587,
+      "eval_steps_per_second": 8.034,
+      "step": 8268
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 53.0,
+      "step": 8268
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.7364620938628159,
+      "eval_loss": 0.1689344346523285,
+      "eval_runtime": 4.3562,
+      "eval_samples_per_second": 63.587,
+      "eval_steps_per_second": 8.034,
+      "step": 8424
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 54.0,
+      "step": 8424
+    },
+    {
+      "epoch": 54.49,
+      "learning_rate": 0.0002756410256410257,
+      "loss": 0.1705,
+      "step": 8500
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.7148014440433214,
+      "eval_loss": 0.16774678230285645,
+      "eval_runtime": 4.355,
+      "eval_samples_per_second": 63.606,
+      "eval_steps_per_second": 8.037,
+      "step": 8580
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 55.0,
+      "step": 8580
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.7220216606498195,
+      "eval_loss": 0.1693679541349411,
+      "eval_runtime": 4.3485,
+      "eval_samples_per_second": 63.7,
+      "eval_steps_per_second": 8.049,
+      "step": 8736
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 56.0,
+      "step": 8736
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.7256317689530686,
+      "eval_loss": 0.16823026537895203,
+      "eval_runtime": 4.3527,
+      "eval_samples_per_second": 63.639,
+      "eval_steps_per_second": 8.041,
+      "step": 8892
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 57.0,
+      "step": 8892
+    },
+    {
+      "epoch": 57.69,
+      "learning_rate": 0.0001153846153846154,
+      "loss": 0.1692,
+      "step": 9000
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.7148014440433214,
+      "eval_loss": 0.16843324899673462,
+      "eval_runtime": 4.348,
+      "eval_samples_per_second": 63.707,
+      "eval_steps_per_second": 8.05,
+      "step": 9048
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 58.0,
+      "step": 9048
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.7148014440433214,
+      "eval_loss": 0.16792170703411102,
+      "eval_runtime": 4.3544,
+      "eval_samples_per_second": 63.614,
+      "eval_steps_per_second": 8.038,
+      "step": 9204
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 59.0,
+      "step": 9204
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.7148014440433214,
+      "eval_loss": 0.16792602837085724,
+      "eval_runtime": 4.3537,
+      "eval_samples_per_second": 63.624,
+      "eval_steps_per_second": 8.039,
+      "step": 9360
+    },
+    {
+      "best_epoch": 40,
+      "best_eval_accuracy": 0.7364620938628159,
+      "epoch": 60.0,
+      "step": 9360
+    },
+    {
+      "epoch": 60.0,
+      "step": 9360,
+      "total_flos": 6.96152728406016e+16,
+      "train_loss": 0.18218991573040302,
+      "train_runtime": 3746.5818,
+      "train_samples_per_second": 39.876,
+      "train_steps_per_second": 2.498
+    }
+  ],
+  "max_steps": 9360,
+  "num_train_epochs": 60,
+  "total_flos": 6.96152728406016e+16,
+  "trial_name": null,
+  "trial_params": null
+}