Training in progress, epoch 1

Browse files

Files changed (6) hide show

all_results.json +10 -10
eval_results.json +6 -6
pytorch_model.bin +1 -1
train_results.json +5 -5
trainer_state.json +517 -1189
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 50.0,
-    "eval_accuracy": 0.8832997987927566,
-    "eval_loss": 0.2902894914150238,
-    "eval_runtime": 9.9967,
-    "eval_samples_per_second": 49.716,
-    "eval_steps_per_second": 1.601,
-    "train_loss": 0.044299079362735416,
-    "train_runtime": 9406.6232,
-    "train_samples_per_second": 23.755,
-    "train_steps_per_second": 0.186
 }

 {
+    "epoch": 30.0,
+    "eval_accuracy": 0.9544419134396356,
+    "eval_loss": 0.1568455845117569,
+    "eval_runtime": 8.3538,
+    "eval_samples_per_second": 52.551,
+    "eval_steps_per_second": 1.676,
+    "train_loss": 0.04387470004151911,
+    "train_runtime": 7100.0179,
+    "train_samples_per_second": 16.694,
+    "train_steps_per_second": 0.131
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 50.0,
-    "eval_accuracy": 0.8832997987927566,
-    "eval_loss": 0.2902894914150238,
-    "eval_runtime": 9.9967,
-    "eval_samples_per_second": 49.716,
-    "eval_steps_per_second": 1.601
 }

 {
+    "epoch": 30.0,
+    "eval_accuracy": 0.9544419134396356,
+    "eval_loss": 0.1568455845117569,
+    "eval_runtime": 8.3538,
+    "eval_samples_per_second": 52.551,
+    "eval_steps_per_second": 1.676
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:623a8d99d5d9d9be94f0a527f3f7b5dcc3c0c00c53ba70cba2e34937aa7e2341
 size 110395951

 version https://git-lfs.github.com/spec/v1
+oid sha256:b32cfc9b449084f951cac688af8c461748c8bd11e39a98d942d54f8f732bbd64
 size 110395951

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 50.0,
-    "train_loss": 0.044299079362735416,
-    "train_runtime": 9406.6232,
-    "train_samples_per_second": 23.755,
-    "train_steps_per_second": 0.186
 }

 {
+    "epoch": 30.0,
+    "train_loss": 0.04387470004151911,
+    "train_runtime": 7100.0179,
+    "train_samples_per_second": 16.694,
+    "train_steps_per_second": 0.131
 }

trainer_state.json CHANGED Viewed

@@ -1,1525 +1,853 @@
 {
-  "best_metric": 0.8832997987927566,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-agrivision/checkpoint-175",
-  "epoch": 50.0,
-  "global_step": 1750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.29,
-      "learning_rate": 2.8571428571428573e-06,
-      "loss": 1.2366,
       "step": 10
     },
     {
-      "epoch": 0.57,
-      "learning_rate": 5.7142857142857145e-06,
-      "loss": 1.1495,
       "step": 20
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 8.571428571428573e-06,
-      "loss": 0.9718,
       "step": 30
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6398390342052314,
-      "eval_loss": 0.979684591293335,
-      "eval_runtime": 10.215,
-      "eval_samples_per_second": 48.654,
-      "eval_steps_per_second": 1.566,
-      "step": 35
     },
     {
-      "epoch": 1.14,
-      "learning_rate": 1.1428571428571429e-05,
-      "loss": 0.7506,
       "step": 40
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 1.4285714285714285e-05,
-      "loss": 0.5116,
       "step": 50
     },
     {
-      "epoch": 1.71,
-      "learning_rate": 1.7142857142857145e-05,
-      "loss": 0.3792,
       "step": 60
     },
     {
       "epoch": 2.0,
-      "learning_rate": 2e-05,
-      "loss": 0.2715,
-      "step": 70
     },
     {
-      "epoch": 2.0,
-      "eval_accuracy": 0.7484909456740443,
-      "eval_loss": 0.6352390646934509,
-      "eval_runtime": 10.1148,
-      "eval_samples_per_second": 49.136,
-      "eval_steps_per_second": 1.582,
       "step": 70
     },
     {
-      "epoch": 2.29,
-      "learning_rate": 2.2857142857142858e-05,
-      "loss": 0.1984,
       "step": 80
     },
     {
-      "epoch": 2.57,
-      "learning_rate": 2.5714285714285714e-05,
-      "loss": 0.1842,
       "step": 90
     },
     {
-      "epoch": 2.86,
-      "learning_rate": 2.857142857142857e-05,
-      "loss": 0.1615,
-      "step": 100
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.8128772635814889,
-      "eval_loss": 0.4673824608325958,
-      "eval_runtime": 10.0382,
-      "eval_samples_per_second": 49.511,
-      "eval_steps_per_second": 1.594,
-      "step": 105
     },
     {
-      "epoch": 3.14,
-      "learning_rate": 3.142857142857143e-05,
-      "loss": 0.1257,
       "step": 110
     },
     {
-      "epoch": 3.43,
-      "learning_rate": 3.428571428571429e-05,
-      "loss": 0.103,
       "step": 120
     },
     {
-      "epoch": 3.71,
-      "learning_rate": 3.7142857142857143e-05,
-      "loss": 0.1008,
-      "step": 130
     },
     {
-      "epoch": 4.0,
-      "learning_rate": 4e-05,
-      "loss": 0.0959,
-      "step": 140
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.7847082494969819,
-      "eval_loss": 0.5569615960121155,
-      "eval_runtime": 10.1607,
-      "eval_samples_per_second": 48.914,
-      "eval_steps_per_second": 1.575,
       "step": 140
     },
     {
-      "epoch": 4.29,
-      "learning_rate": 4.2857142857142856e-05,
-      "loss": 0.0909,
       "step": 150
     },
     {
-      "epoch": 4.57,
-      "learning_rate": 4.5714285714285716e-05,
-      "loss": 0.0678,
       "step": 160
     },
     {
-      "epoch": 4.86,
-      "learning_rate": 4.8571428571428576e-05,
-      "loss": 0.0563,
       "step": 170
     },
     {
-      "epoch": 5.0,
-      "eval_accuracy": 0.8832997987927566,
-      "eval_loss": 0.2902894914150238,
-      "eval_runtime": 10.0294,
-      "eval_samples_per_second": 49.554,
-      "eval_steps_per_second": 1.595,
-      "step": 175
     },
     {
-      "epoch": 5.14,
-      "learning_rate": 4.9841269841269845e-05,
-      "loss": 0.0465,
-      "step": 180
     },
     {
-      "epoch": 5.43,
-      "learning_rate": 4.9523809523809525e-05,
-      "loss": 0.0627,
       "step": 190
     },
     {
-      "epoch": 5.71,
-      "learning_rate": 4.9206349206349204e-05,
-      "loss": 0.0262,
       "step": 200
     },
     {
-      "epoch": 6.0,
-      "learning_rate": 4.888888888888889e-05,
-      "loss": 0.0824,
       "step": 210
     },
     {
-      "epoch": 6.0,
-      "eval_accuracy": 0.8450704225352113,
-      "eval_loss": 0.41077324748039246,
-      "eval_runtime": 10.186,
-      "eval_samples_per_second": 48.793,
-      "eval_steps_per_second": 1.571,
-      "step": 210
     },
     {
-      "epoch": 6.29,
-      "learning_rate": 4.8571428571428576e-05,
-      "loss": 0.0562,
       "step": 220
     },
     {
-      "epoch": 6.57,
-      "learning_rate": 4.8253968253968255e-05,
-      "loss": 0.0414,
       "step": 230
     },
     {
-      "epoch": 6.86,
-      "learning_rate": 4.793650793650794e-05,
-      "loss": 0.0441,
       "step": 240
     },
     {
-      "epoch": 7.0,
-      "eval_accuracy": 0.8209255533199196,
-      "eval_loss": 0.5062592029571533,
-      "eval_runtime": 10.1666,
-      "eval_samples_per_second": 48.886,
-      "eval_steps_per_second": 1.574,
-      "step": 245
     },
     {
-      "epoch": 7.14,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 0.0661,
       "step": 250
     },
     {
-      "epoch": 7.43,
-      "learning_rate": 4.73015873015873e-05,
-      "loss": 0.0203,
       "step": 260
     },
     {
-      "epoch": 7.71,
-      "learning_rate": 4.6984126984126986e-05,
-      "loss": 0.0342,
       "step": 270
     },
     {
-      "epoch": 8.0,
-      "learning_rate": 4.666666666666667e-05,
-      "loss": 0.0306,
-      "step": 280
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.8752515090543259,
-      "eval_loss": 0.30527463555336,
-      "eval_runtime": 10.0743,
-      "eval_samples_per_second": 49.333,
-      "eval_steps_per_second": 1.588,
       "step": 280
     },
     {
-      "epoch": 8.29,
-      "learning_rate": 4.634920634920635e-05,
-      "loss": 0.0496,
       "step": 290
     },
     {
-      "epoch": 8.57,
-      "learning_rate": 4.603174603174603e-05,
-      "loss": 0.0253,
       "step": 300
     },
     {
-      "epoch": 8.86,
-      "learning_rate": 4.5714285714285716e-05,
-      "loss": 0.0279,
       "step": 310
     },
     {
-      "epoch": 9.0,
-      "eval_accuracy": 0.8591549295774648,
-      "eval_loss": 0.44667041301727295,
-      "eval_runtime": 9.9268,
-      "eval_samples_per_second": 50.066,
-      "eval_steps_per_second": 1.612,
-      "step": 315
     },
     {
-      "epoch": 9.14,
-      "learning_rate": 4.5396825396825395e-05,
-      "loss": 0.0159,
       "step": 320
     },
     {
-      "epoch": 9.43,
-      "learning_rate": 4.507936507936508e-05,
-      "loss": 0.0207,
       "step": 330
     },
     {
-      "epoch": 9.71,
-      "learning_rate": 4.476190476190477e-05,
-      "loss": 0.0155,
       "step": 340
     },
     {
-      "epoch": 10.0,
-      "learning_rate": 4.4444444444444447e-05,
-      "loss": 0.0223,
-      "step": 350
     },
     {
-      "epoch": 10.0,
-      "eval_accuracy": 0.8551307847082495,
-      "eval_loss": 0.4208771884441376,
-      "eval_runtime": 10.2309,
-      "eval_samples_per_second": 48.578,
-      "eval_steps_per_second": 1.564,
       "step": 350
     },
     {
-      "epoch": 10.29,
-      "learning_rate": 4.4126984126984126e-05,
-      "loss": 0.0152,
       "step": 360
     },
     {
-      "epoch": 10.57,
-      "learning_rate": 4.380952380952381e-05,
-      "loss": 0.0172,
       "step": 370
     },
     {
-      "epoch": 10.86,
-      "learning_rate": 4.34920634920635e-05,
-      "loss": 0.026,
-      "step": 380
     },
     {
-      "epoch": 11.0,
-      "eval_accuracy": 0.8531187122736419,
-      "eval_loss": 0.5075467228889465,
-      "eval_runtime": 10.086,
-      "eval_samples_per_second": 49.276,
-      "eval_steps_per_second": 1.586,
-      "step": 385
     },
     {
-      "epoch": 11.14,
-      "learning_rate": 4.317460317460318e-05,
-      "loss": 0.0204,
       "step": 390
     },
     {
-      "epoch": 11.43,
-      "learning_rate": 4.2857142857142856e-05,
-      "loss": 0.0267,
       "step": 400
     },
     {
-      "epoch": 11.71,
-      "learning_rate": 4.253968253968254e-05,
-      "loss": 0.0227,
-      "step": 410
     },
     {
-      "epoch": 12.0,
-      "learning_rate": 4.222222222222222e-05,
-      "loss": 0.0344,
-      "step": 420
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.8551307847082495,
-      "eval_loss": 0.4921689033508301,
-      "eval_runtime": 10.1843,
-      "eval_samples_per_second": 48.801,
-      "eval_steps_per_second": 1.571,
       "step": 420
     },
     {
-      "epoch": 12.29,
-      "learning_rate": 4.190476190476191e-05,
-      "loss": 0.0175,
       "step": 430
     },
     {
-      "epoch": 12.57,
-      "learning_rate": 4.1587301587301594e-05,
-      "loss": 0.0194,
       "step": 440
     },
     {
-      "epoch": 12.86,
-      "learning_rate": 4.126984126984127e-05,
-      "loss": 0.0079,
       "step": 450
     },
     {
-      "epoch": 13.0,
-      "eval_accuracy": 0.7806841046277666,
-      "eval_loss": 0.725607693195343,
-      "eval_runtime": 10.0703,
-      "eval_samples_per_second": 49.353,
-      "eval_steps_per_second": 1.589,
-      "step": 455
     },
     {
-      "epoch": 13.14,
-      "learning_rate": 4.095238095238095e-05,
-      "loss": 0.0169,
-      "step": 460
     },
     {
-      "epoch": 13.43,
-      "learning_rate": 4.063492063492064e-05,
-      "loss": 0.014,
       "step": 470
     },
     {
-      "epoch": 13.71,
-      "learning_rate": 4.031746031746032e-05,
-      "loss": 0.0043,
       "step": 480
     },
     {
-      "epoch": 14.0,
-      "learning_rate": 4e-05,
-      "loss": 0.0156,
       "step": 490
     },
     {
-      "epoch": 14.0,
-      "eval_accuracy": 0.8370221327967807,
-      "eval_loss": 0.5176514387130737,
-      "eval_runtime": 9.8924,
-      "eval_samples_per_second": 50.241,
-      "eval_steps_per_second": 1.617,
-      "step": 490
     },
     {
-      "epoch": 14.29,
-      "learning_rate": 3.968253968253968e-05,
-      "loss": 0.0051,
       "step": 500
     },
     {
-      "epoch": 14.57,
-      "learning_rate": 3.936507936507937e-05,
-      "loss": 0.012,
       "step": 510
     },
     {
-      "epoch": 14.86,
-      "learning_rate": 3.904761904761905e-05,
-      "loss": 0.0184,
       "step": 520
     },
     {
-      "epoch": 15.0,
-      "eval_accuracy": 0.8350100603621731,
-      "eval_loss": 0.5857502222061157,
-      "eval_runtime": 10.2013,
-      "eval_samples_per_second": 48.719,
-      "eval_steps_per_second": 1.568,
-      "step": 525
     },
     {
-      "epoch": 15.14,
-      "learning_rate": 3.8730158730158734e-05,
-      "loss": 0.0045,
       "step": 530
     },
     {
-      "epoch": 15.43,
-      "learning_rate": 3.841269841269842e-05,
-      "loss": 0.0052,
       "step": 540
     },
     {
-      "epoch": 15.71,
-      "learning_rate": 3.809523809523809e-05,
-      "loss": 0.0074,
       "step": 550
     },
     {
-      "epoch": 16.0,
-      "learning_rate": 3.777777777777778e-05,
-      "loss": 0.0121,
-      "step": 560
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8651911468812877,
-      "eval_loss": 0.4655379056930542,
-      "eval_runtime": 10.2086,
-      "eval_samples_per_second": 48.685,
-      "eval_steps_per_second": 1.567,
       "step": 560
     },
     {
-      "epoch": 16.29,
-      "learning_rate": 3.7460317460317464e-05,
-      "loss": 0.0069,
       "step": 570
     },
     {
-      "epoch": 16.57,
-      "learning_rate": 3.7142857142857143e-05,
-      "loss": 0.0215,
       "step": 580
     },
     {
-      "epoch": 16.86,
-      "learning_rate": 3.682539682539683e-05,
-      "loss": 0.0089,
-      "step": 590
     },
     {
-      "epoch": 17.0,
-      "eval_accuracy": 0.7585513078470825,
-      "eval_loss": 0.9852096438407898,
-      "eval_runtime": 10.1571,
-      "eval_samples_per_second": 48.931,
-      "eval_steps_per_second": 1.575,
-      "step": 595
     },
     {
-      "epoch": 17.14,
-      "learning_rate": 3.650793650793651e-05,
-      "loss": 0.001,
       "step": 600
     },
     {
-      "epoch": 17.43,
-      "learning_rate": 3.619047619047619e-05,
-      "loss": 0.0095,
       "step": 610
     },
     {
-      "epoch": 17.71,
-      "learning_rate": 3.5873015873015874e-05,
-      "loss": 0.0028,
       "step": 620
     },
     {
-      "epoch": 18.0,
-      "learning_rate": 3.555555555555556e-05,
-      "loss": 0.028,
-      "step": 630
     },
     {
-      "epoch": 18.0,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.508708655834198,
-      "eval_runtime": 10.2049,
-      "eval_samples_per_second": 48.702,
-      "eval_steps_per_second": 1.568,
       "step": 630
     },
     {
-      "epoch": 18.29,
-      "learning_rate": 3.523809523809524e-05,
-      "loss": 0.0024,
       "step": 640
     },
     {
-      "epoch": 18.57,
-      "learning_rate": 3.492063492063492e-05,
-      "loss": 0.0017,
       "step": 650
     },
     {
-      "epoch": 18.86,
-      "learning_rate": 3.4603174603174604e-05,
-      "loss": 0.003,
-      "step": 660
     },
     {
-      "epoch": 19.0,
-      "eval_accuracy": 0.8490945674044266,
-      "eval_loss": 0.544687807559967,
-      "eval_runtime": 9.9955,
-      "eval_samples_per_second": 49.722,
-      "eval_steps_per_second": 1.601,
-      "step": 665
     },
     {
-      "epoch": 19.14,
-      "learning_rate": 3.428571428571429e-05,
-      "loss": 0.0009,
       "step": 670
     },
     {
-      "epoch": 19.43,
-      "learning_rate": 3.396825396825397e-05,
-      "loss": 0.0013,
       "step": 680
     },
     {
-      "epoch": 19.71,
-      "learning_rate": 3.3650793650793656e-05,
-      "loss": 0.0011,
-      "step": 690
     },
     {
-      "epoch": 20.0,
-      "learning_rate": 3.3333333333333335e-05,
-      "loss": 0.0015,
-      "step": 700
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy": 0.8390342052313883,
-      "eval_loss": 0.5609642863273621,
-      "eval_runtime": 9.9297,
-      "eval_samples_per_second": 50.052,
-      "eval_steps_per_second": 1.611,
       "step": 700
     },
     {
-      "epoch": 20.29,
-      "learning_rate": 3.3015873015873014e-05,
-      "loss": 0.0045,
       "step": 710
     },
     {
-      "epoch": 20.57,
-      "learning_rate": 3.26984126984127e-05,
-      "loss": 0.0001,
       "step": 720
     },
     {
-      "epoch": 20.86,
-      "learning_rate": 3.2380952380952386e-05,
-      "loss": 0.008,
       "step": 730
     },
     {
-      "epoch": 21.0,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.5701542496681213,
-      "eval_runtime": 10.1334,
-      "eval_samples_per_second": 49.046,
-      "eval_steps_per_second": 1.579,
-      "step": 735
     },
     {
-      "epoch": 21.14,
-      "learning_rate": 3.2063492063492065e-05,
-      "loss": 0.0007,
-      "step": 740
     },
     {
-      "epoch": 21.43,
-      "learning_rate": 3.1746031746031745e-05,
-      "loss": 0.0013,
       "step": 750
     },
     {
-      "epoch": 21.71,
-      "learning_rate": 3.142857142857143e-05,
-      "loss": 0.0008,
       "step": 760
     },
     {
-      "epoch": 22.0,
-      "learning_rate": 3.111111111111111e-05,
-      "loss": 0.0071,
       "step": 770
     },
     {
-      "epoch": 22.0,
-      "eval_accuracy": 0.8450704225352113,
-      "eval_loss": 0.6042529344558716,
-      "eval_runtime": 10.0579,
-      "eval_samples_per_second": 49.414,
-      "eval_steps_per_second": 1.591,
-      "step": 770
     },
     {
-      "epoch": 22.29,
-      "learning_rate": 3.0793650793650796e-05,
-      "loss": 0.003,
       "step": 780
     },
     {
-      "epoch": 22.57,
-      "learning_rate": 3.0476190476190482e-05,
-      "loss": 0.0027,
       "step": 790
     },
     {
-      "epoch": 22.86,
-      "learning_rate": 3.0158730158730158e-05,
-      "loss": 0.0006,
       "step": 800
     },
     {
-      "epoch": 23.0,
-      "eval_accuracy": 0.8450704225352113,
-      "eval_loss": 0.5951006412506104,
-      "eval_runtime": 10.1254,
-      "eval_samples_per_second": 49.085,
-      "eval_steps_per_second": 1.58,
-      "step": 805
     },
     {
-      "epoch": 23.14,
-      "learning_rate": 2.9841269841269844e-05,
-      "loss": 0.0092,
       "step": 810
     },
     {
-      "epoch": 23.43,
-      "learning_rate": 2.9523809523809526e-05,
-      "loss": 0.0058,
       "step": 820
     },
     {
-      "epoch": 23.71,
-      "learning_rate": 2.920634920634921e-05,
-      "loss": 0.0013,
       "step": 830
     },
     {
-      "epoch": 24.0,
-      "learning_rate": 2.8888888888888888e-05,
-      "loss": 0.0077,
-      "step": 840
     },
     {
-      "epoch": 24.0,
-      "eval_accuracy": 0.8309859154929577,
-      "eval_loss": 0.6435739398002625,
-      "eval_runtime": 9.9406,
-      "eval_samples_per_second": 49.997,
-      "eval_steps_per_second": 1.61,
       "step": 840
     },
     {
-      "epoch": 24.29,
-      "learning_rate": 2.857142857142857e-05,
-      "loss": 0.0025,
       "step": 850
     },
     {
-      "epoch": 24.57,
-      "learning_rate": 2.8253968253968253e-05,
-      "loss": 0.0017,
-      "step": 860
-    },
-    {
-      "epoch": 24.86,
-      "learning_rate": 2.793650793650794e-05,
-      "loss": 0.0007,
-      "step": 870
-    },
-    {
-      "epoch": 25.0,
-      "eval_accuracy": 0.8792756539235412,
-      "eval_loss": 0.44388413429260254,
-      "eval_runtime": 10.0384,
-      "eval_samples_per_second": 49.51,
-      "eval_steps_per_second": 1.594,
-      "step": 875
-    },
-    {
-      "epoch": 25.14,
-      "learning_rate": 2.7619047619047622e-05,
-      "loss": 0.0016,
-      "step": 880
-    },
-    {
-      "epoch": 25.43,
-      "learning_rate": 2.73015873015873e-05,
-      "loss": 0.0066,
-      "step": 890
-    },
-    {
-      "epoch": 25.71,
-      "learning_rate": 2.6984126984126984e-05,
-      "loss": 0.0003,
-      "step": 900
-    },
-    {
-      "epoch": 26.0,
-      "learning_rate": 2.6666666666666667e-05,
-      "loss": 0.0081,
-      "step": 910
-    },
-    {
-      "epoch": 26.0,
-      "eval_accuracy": 0.8732394366197183,
-      "eval_loss": 0.46890053153038025,
-      "eval_runtime": 10.0258,
-      "eval_samples_per_second": 49.572,
-      "eval_steps_per_second": 1.596,
-      "step": 910
-    },
-    {
-      "epoch": 26.29,
-      "learning_rate": 2.6349206349206353e-05,
-      "loss": 0.0032,
-      "step": 920
-    },
-    {
-      "epoch": 26.57,
-      "learning_rate": 2.6031746031746035e-05,
-      "loss": 0.0019,
-      "step": 930
-    },
-    {
-      "epoch": 26.86,
-      "learning_rate": 2.5714285714285714e-05,
-      "loss": 0.0036,
-      "step": 940
-    },
-    {
-      "epoch": 27.0,
-      "eval_accuracy": 0.8712273641851107,
-      "eval_loss": 0.5057930946350098,
-      "eval_runtime": 9.9227,
-      "eval_samples_per_second": 50.087,
-      "eval_steps_per_second": 1.612,
-      "step": 945
-    },
-    {
-      "epoch": 27.14,
-      "learning_rate": 2.5396825396825397e-05,
-      "loss": 0.0037,
-      "step": 950
-    },
-    {
-      "epoch": 27.43,
-      "learning_rate": 2.507936507936508e-05,
       "loss": 0.0008,
-      "step": 960
-    },
-    {
-      "epoch": 27.71,
-      "learning_rate": 2.4761904761904762e-05,
-      "loss": 0.0003,
-      "step": 970
-    },
-    {
-      "epoch": 28.0,
-      "learning_rate": 2.4444444444444445e-05,
-      "loss": 0.0004,
-      "step": 980
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.8591549295774648,
-      "eval_loss": 0.5425885319709778,
-      "eval_runtime": 9.8796,
-      "eval_samples_per_second": 50.306,
-      "eval_steps_per_second": 1.62,
-      "step": 980
-    },
-    {
-      "epoch": 28.29,
-      "learning_rate": 2.4126984126984128e-05,
-      "loss": 0.0001,
-      "step": 990
-    },
-    {
-      "epoch": 28.57,
-      "learning_rate": 2.380952380952381e-05,
-      "loss": 0.0003,
-      "step": 1000
-    },
-    {
-      "epoch": 28.86,
-      "learning_rate": 2.3492063492063493e-05,
-      "loss": 0.0007,
-      "step": 1010
-    },
-    {
-      "epoch": 29.0,
-      "eval_accuracy": 0.8631790744466801,
-      "eval_loss": 0.483518123626709,
-      "eval_runtime": 9.9988,
-      "eval_samples_per_second": 49.706,
-      "eval_steps_per_second": 1.6,
-      "step": 1015
-    },
-    {
-      "epoch": 29.14,
-      "learning_rate": 2.3174603174603175e-05,
-      "loss": 0.0006,
-      "step": 1020
-    },
-    {
-      "epoch": 29.43,
-      "learning_rate": 2.2857142857142858e-05,
-      "loss": 0.0008,
-      "step": 1030
-    },
-    {
-      "epoch": 29.71,
-      "learning_rate": 2.253968253968254e-05,
-      "loss": 0.005,
-      "step": 1040
-    },
-    {
-      "epoch": 30.0,
-      "learning_rate": 2.2222222222222223e-05,
-      "loss": 0.005,
-      "step": 1050
     },
     {
-      "epoch": 30.0,
-      "eval_accuracy": 0.8651911468812877,
-      "eval_loss": 0.4958065152168274,
-      "eval_runtime": 10.0529,
-      "eval_samples_per_second": 49.438,
-      "eval_steps_per_second": 1.592,
-      "step": 1050
-    },
-    {
-      "epoch": 30.29,
-      "learning_rate": 2.1904761904761906e-05,
-      "loss": 0.0056,
-      "step": 1060
-    },
-    {
-      "epoch": 30.57,
-      "learning_rate": 2.158730158730159e-05,
-      "loss": 0.003,
-      "step": 1070
-    },
-    {
-      "epoch": 30.86,
-      "learning_rate": 2.126984126984127e-05,
-      "loss": 0.001,
-      "step": 1080
-    },
-    {
-      "epoch": 31.0,
-      "eval_accuracy": 0.8390342052313883,
-      "eval_loss": 0.7008472681045532,
-      "eval_runtime": 10.0335,
-      "eval_samples_per_second": 49.534,
-      "eval_steps_per_second": 1.595,
-      "step": 1085
-    },
-    {
-      "epoch": 31.14,
-      "learning_rate": 2.0952380952380954e-05,
-      "loss": 0.0007,
-      "step": 1090
-    },
-    {
-      "epoch": 31.43,
-      "learning_rate": 2.0634920634920636e-05,
-      "loss": 0.0005,
-      "step": 1100
-    },
-    {
-      "epoch": 31.71,
-      "learning_rate": 2.031746031746032e-05,
-      "loss": 0.0007,
-      "step": 1110
-    },
-    {
-      "epoch": 32.0,
-      "learning_rate": 2e-05,
-      "loss": 0.0022,
-      "step": 1120
-    },
-    {
-      "epoch": 32.0,
-      "eval_accuracy": 0.8631790744466801,
-      "eval_loss": 0.6209988594055176,
-      "eval_runtime": 9.9187,
-      "eval_samples_per_second": 50.107,
-      "eval_steps_per_second": 1.613,
-      "step": 1120
-    },
-    {
-      "epoch": 32.29,
-      "learning_rate": 1.9682539682539684e-05,
-      "loss": 0.0023,
-      "step": 1130
-    },
-    {
-      "epoch": 32.57,
-      "learning_rate": 1.9365079365079367e-05,
-      "loss": 0.0013,
-      "step": 1140
-    },
-    {
-      "epoch": 32.86,
-      "learning_rate": 1.9047619047619046e-05,
-      "loss": 0.0029,
-      "step": 1150
-    },
-    {
-      "epoch": 33.0,
-      "eval_accuracy": 0.8470824949698189,
-      "eval_loss": 0.6328206062316895,
-      "eval_runtime": 9.9469,
-      "eval_samples_per_second": 49.966,
-      "eval_steps_per_second": 1.609,
-      "step": 1155
-    },
-    {
-      "epoch": 33.14,
-      "learning_rate": 1.8730158730158732e-05,
-      "loss": 0.0007,
-      "step": 1160
-    },
-    {
-      "epoch": 33.43,
-      "learning_rate": 1.8412698412698415e-05,
-      "loss": 0.0121,
-      "step": 1170
-    },
-    {
-      "epoch": 33.71,
-      "learning_rate": 1.8095238095238094e-05,
-      "loss": 0.0006,
-      "step": 1180
-    },
-    {
-      "epoch": 34.0,
-      "learning_rate": 1.777777777777778e-05,
-      "loss": 0.0001,
-      "step": 1190
-    },
-    {
-      "epoch": 34.0,
-      "eval_accuracy": 0.8551307847082495,
-      "eval_loss": 0.5887029767036438,
-      "eval_runtime": 10.1735,
-      "eval_samples_per_second": 48.852,
-      "eval_steps_per_second": 1.573,
-      "step": 1190
-    },
-    {
-      "epoch": 34.29,
-      "learning_rate": 1.746031746031746e-05,
-      "loss": 0.0002,
-      "step": 1200
-    },
-    {
-      "epoch": 34.57,
-      "learning_rate": 1.7142857142857145e-05,
-      "loss": 0.0001,
-      "step": 1210
-    },
-    {
-      "epoch": 34.86,
-      "learning_rate": 1.6825396825396828e-05,
-      "loss": 0.0019,
-      "step": 1220
-    },
-    {
-      "epoch": 35.0,
-      "eval_accuracy": 0.8390342052313883,
-      "eval_loss": 0.6666443943977356,
-      "eval_runtime": 9.9948,
-      "eval_samples_per_second": 49.726,
-      "eval_steps_per_second": 1.601,
-      "step": 1225
-    },
-    {
-      "epoch": 35.14,
-      "learning_rate": 1.6507936507936507e-05,
-      "loss": 0.0085,
-      "step": 1230
-    },
-    {
-      "epoch": 35.43,
-      "learning_rate": 1.6190476190476193e-05,
-      "loss": 0.0001,
-      "step": 1240
-    },
-    {
-      "epoch": 35.71,
-      "learning_rate": 1.5873015873015872e-05,
-      "loss": 0.0008,
-      "step": 1250
-    },
-    {
-      "epoch": 36.0,
-      "learning_rate": 1.5555555555555555e-05,
-      "loss": 0.0028,
-      "step": 1260
-    },
-    {
-      "epoch": 36.0,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.6371855735778809,
-      "eval_runtime": 10.0695,
-      "eval_samples_per_second": 49.357,
-      "eval_steps_per_second": 1.589,
-      "step": 1260
-    },
-    {
-      "epoch": 36.29,
-      "learning_rate": 1.5238095238095241e-05,
-      "loss": 0.0003,
-      "step": 1270
-    },
-    {
-      "epoch": 36.57,
-      "learning_rate": 1.4920634920634922e-05,
-      "loss": 0.0001,
-      "step": 1280
-    },
-    {
-      "epoch": 36.86,
-      "learning_rate": 1.4603174603174605e-05,
-      "loss": 0.0077,
-      "step": 1290
-    },
-    {
-      "epoch": 37.0,
-      "eval_accuracy": 0.8631790744466801,
-      "eval_loss": 0.5971932411193848,
-      "eval_runtime": 9.9137,
-      "eval_samples_per_second": 50.132,
-      "eval_steps_per_second": 1.614,
-      "step": 1295
-    },
-    {
-      "epoch": 37.14,
-      "learning_rate": 1.4285714285714285e-05,
       "loss": 0.0002,
-      "step": 1300
-    },
-    {
-      "epoch": 37.43,
-      "learning_rate": 1.396825396825397e-05,
-      "loss": 0.0007,
-      "step": 1310
-    },
-    {
-      "epoch": 37.71,
-      "learning_rate": 1.365079365079365e-05,
-      "loss": 0.0006,
-      "step": 1320
-    },
-    {
-      "epoch": 38.0,
-      "learning_rate": 1.3333333333333333e-05,
-      "loss": 0.0019,
-      "step": 1330
-    },
-    {
-      "epoch": 38.0,
-      "eval_accuracy": 0.8752515090543259,
-      "eval_loss": 0.5053229331970215,
-      "eval_runtime": 10.0433,
-      "eval_samples_per_second": 49.486,
-      "eval_steps_per_second": 1.593,
-      "step": 1330
-    },
-    {
-      "epoch": 38.29,
-      "learning_rate": 1.3015873015873018e-05,
-      "loss": 0.0024,
-      "step": 1340
-    },
-    {
-      "epoch": 38.57,
-      "learning_rate": 1.2698412698412699e-05,
-      "loss": 0.0019,
-      "step": 1350
-    },
-    {
-      "epoch": 38.86,
-      "learning_rate": 1.2380952380952381e-05,
-      "loss": 0.0042,
-      "step": 1360
-    },
-    {
-      "epoch": 39.0,
-      "eval_accuracy": 0.8249496981891348,
-      "eval_loss": 0.8244276642799377,
-      "eval_runtime": 10.1573,
-      "eval_samples_per_second": 48.93,
-      "eval_steps_per_second": 1.575,
-      "step": 1365
-    },
-    {
-      "epoch": 39.14,
-      "learning_rate": 1.2063492063492064e-05,
-      "loss": 0.0003,
-      "step": 1370
-    },
-    {
-      "epoch": 39.43,
-      "learning_rate": 1.1746031746031746e-05,
-      "loss": 0.004,
-      "step": 1380
-    },
-    {
-      "epoch": 39.71,
-      "learning_rate": 1.1428571428571429e-05,
-      "loss": 0.0002,
-      "step": 1390
     },
     {
-      "epoch": 40.0,
-      "learning_rate": 1.1111111111111112e-05,
       "loss": 0.0022,
-      "step": 1400
-    },
-    {
-      "epoch": 40.0,
-      "eval_accuracy": 0.8410462776659959,
-      "eval_loss": 0.7625672221183777,
-      "eval_runtime": 10.1275,
-      "eval_samples_per_second": 49.074,
-      "eval_steps_per_second": 1.58,
-      "step": 1400
-    },
-    {
-      "epoch": 40.29,
-      "learning_rate": 1.0793650793650794e-05,
-      "loss": 0.0019,
-      "step": 1410
-    },
-    {
-      "epoch": 40.57,
-      "learning_rate": 1.0476190476190477e-05,
-      "loss": 0.0001,
-      "step": 1420
     },
     {
-      "epoch": 40.86,
-      "learning_rate": 1.015873015873016e-05,
-      "loss": 0.0036,
-      "step": 1430
     },
     {
-      "epoch": 41.0,
-      "eval_accuracy": 0.8410462776659959,
-      "eval_loss": 0.6884453296661377,
-      "eval_runtime": 9.9577,
-      "eval_samples_per_second": 49.911,
-      "eval_steps_per_second": 1.607,
-      "step": 1435
     },
     {
-      "epoch": 41.14,
-      "learning_rate": 9.841269841269842e-06,
       "loss": 0.0001,
-      "step": 1440
     },
     {
-      "epoch": 41.43,
-      "learning_rate": 9.523809523809523e-06,
       "loss": 0.0004,
-      "step": 1450
-    },
-    {
-      "epoch": 41.71,
-      "learning_rate": 9.206349206349207e-06,
-      "loss": 0.002,
-      "step": 1460
-    },
-    {
-      "epoch": 42.0,
-      "learning_rate": 8.88888888888889e-06,
-      "loss": 0.0016,
-      "step": 1470
-    },
-    {
-      "epoch": 42.0,
-      "eval_accuracy": 0.8410462776659959,
-      "eval_loss": 0.6704004406929016,
-      "eval_runtime": 10.0751,
-      "eval_samples_per_second": 49.33,
-      "eval_steps_per_second": 1.588,
-      "step": 1470
-    },
-    {
-      "epoch": 42.29,
-      "learning_rate": 8.571428571428573e-06,
-      "loss": 0.0003,
-      "step": 1480
-    },
-    {
-      "epoch": 42.57,
-      "learning_rate": 8.253968253968254e-06,
-      "loss": 0.0003,
-      "step": 1490
-    },
-    {
-      "epoch": 42.86,
-      "learning_rate": 7.936507936507936e-06,
-      "loss": 0.0011,
-      "step": 1500
-    },
-    {
-      "epoch": 43.0,
-      "eval_accuracy": 0.8531187122736419,
-      "eval_loss": 0.5821227431297302,
-      "eval_runtime": 9.9252,
-      "eval_samples_per_second": 50.074,
-      "eval_steps_per_second": 1.612,
-      "step": 1505
-    },
-    {
-      "epoch": 43.14,
-      "learning_rate": 7.6190476190476205e-06,
-      "loss": 0.0011,
-      "step": 1510
-    },
-    {
-      "epoch": 43.43,
-      "learning_rate": 7.301587301587302e-06,
-      "loss": 0.0002,
-      "step": 1520
-    },
-    {
-      "epoch": 43.71,
-      "learning_rate": 6.984126984126985e-06,
-      "loss": 0.0,
-      "step": 1530
-    },
-    {
-      "epoch": 44.0,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.0001,
-      "step": 1540
-    },
-    {
-      "epoch": 44.0,
-      "eval_accuracy": 0.8571428571428571,
-      "eval_loss": 0.5814576148986816,
-      "eval_runtime": 10.0565,
-      "eval_samples_per_second": 49.421,
-      "eval_steps_per_second": 1.591,
-      "step": 1540
-    },
-    {
-      "epoch": 44.29,
-      "learning_rate": 6.349206349206349e-06,
-      "loss": 0.0012,
-      "step": 1550
-    },
-    {
-      "epoch": 44.57,
-      "learning_rate": 6.031746031746032e-06,
-      "loss": 0.0006,
-      "step": 1560
-    },
-    {
-      "epoch": 44.86,
-      "learning_rate": 5.7142857142857145e-06,
-      "loss": 0.0003,
-      "step": 1570
-    },
-    {
-      "epoch": 45.0,
-      "eval_accuracy": 0.8430583501006036,
-      "eval_loss": 0.6694456934928894,
-      "eval_runtime": 10.1535,
-      "eval_samples_per_second": 48.949,
-      "eval_steps_per_second": 1.576,
-      "step": 1575
-    },
-    {
-      "epoch": 45.14,
-      "learning_rate": 5.396825396825397e-06,
-      "loss": 0.0001,
-      "step": 1580
-    },
-    {
-      "epoch": 45.43,
-      "learning_rate": 5.07936507936508e-06,
-      "loss": 0.0002,
-      "step": 1590
-    },
-    {
-      "epoch": 45.71,
-      "learning_rate": 4.7619047619047615e-06,
-      "loss": 0.0001,
-      "step": 1600
-    },
-    {
-      "epoch": 46.0,
-      "learning_rate": 4.444444444444445e-06,
-      "loss": 0.0007,
-      "step": 1610
-    },
-    {
-      "epoch": 46.0,
-      "eval_accuracy": 0.8430583501006036,
-      "eval_loss": 0.687676727771759,
-      "eval_runtime": 10.0071,
-      "eval_samples_per_second": 49.665,
-      "eval_steps_per_second": 1.599,
-      "step": 1610
-    },
-    {
-      "epoch": 46.29,
-      "learning_rate": 4.126984126984127e-06,
-      "loss": 0.0024,
-      "step": 1620
-    },
-    {
-      "epoch": 46.57,
-      "learning_rate": 3.8095238095238102e-06,
-      "loss": 0.0001,
-      "step": 1630
-    },
-    {
-      "epoch": 46.86,
-      "learning_rate": 3.4920634920634924e-06,
-      "loss": 0.0,
-      "step": 1640
-    },
-    {
-      "epoch": 47.0,
-      "eval_accuracy": 0.8390342052313883,
-      "eval_loss": 0.6862754821777344,
-      "eval_runtime": 10.0393,
-      "eval_samples_per_second": 49.505,
-      "eval_steps_per_second": 1.594,
-      "step": 1645
-    },
-    {
-      "epoch": 47.14,
-      "learning_rate": 3.1746031746031746e-06,
-      "loss": 0.0,
-      "step": 1650
-    },
-    {
-      "epoch": 47.43,
-      "learning_rate": 2.8571428571428573e-06,
-      "loss": 0.0001,
-      "step": 1660
-    },
-    {
-      "epoch": 47.71,
-      "learning_rate": 2.53968253968254e-06,
-      "loss": 0.0,
-      "step": 1670
-    },
-    {
-      "epoch": 48.0,
-      "learning_rate": 2.2222222222222225e-06,
-      "loss": 0.0,
-      "step": 1680
-    },
-    {
-      "epoch": 48.0,
-      "eval_accuracy": 0.8430583501006036,
-      "eval_loss": 0.6967443823814392,
-      "eval_runtime": 9.9265,
-      "eval_samples_per_second": 50.068,
-      "eval_steps_per_second": 1.612,
-      "step": 1680
-    },
-    {
-      "epoch": 48.29,
-      "learning_rate": 1.9047619047619051e-06,
-      "loss": 0.0003,
-      "step": 1690
-    },
-    {
-      "epoch": 48.57,
-      "learning_rate": 1.5873015873015873e-06,
-      "loss": 0.0001,
-      "step": 1700
-    },
-    {
-      "epoch": 48.86,
-      "learning_rate": 1.26984126984127e-06,
-      "loss": 0.0001,
-      "step": 1710
-    },
-    {
-      "epoch": 49.0,
-      "eval_accuracy": 0.8410462776659959,
-      "eval_loss": 0.6850759387016296,
-      "eval_runtime": 10.186,
-      "eval_samples_per_second": 48.792,
-      "eval_steps_per_second": 1.571,
-      "step": 1715
-    },
-    {
-      "epoch": 49.14,
-      "learning_rate": 9.523809523809526e-07,
-      "loss": 0.0005,
-      "step": 1720
-    },
-    {
-      "epoch": 49.43,
-      "learning_rate": 6.34920634920635e-07,
-      "loss": 0.0001,
-      "step": 1730
     },
     {
-      "epoch": 49.71,
-      "learning_rate": 3.174603174603175e-07,
       "loss": 0.0001,
-      "step": 1740
     },
     {
-      "epoch": 50.0,
       "learning_rate": 0.0,
-      "loss": 0.0,
-      "step": 1750
     },
     {
-      "epoch": 50.0,
-      "eval_accuracy": 0.8410462776659959,
-      "eval_loss": 0.6828312277793884,
-      "eval_runtime": 9.963,
-      "eval_samples_per_second": 49.885,
-      "eval_steps_per_second": 1.606,
-      "step": 1750
     },
     {
-      "epoch": 50.0,
-      "step": 1750,
-      "total_flos": 5.554381127113728e+18,
-      "train_loss": 0.044299079362735416,
-      "train_runtime": 9406.6232,
-      "train_samples_per_second": 23.755,
-      "train_steps_per_second": 0.186
     }
   ],
-  "max_steps": 1750,
-  "num_train_epochs": 50,
-  "total_flos": 5.554381127113728e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.9544419134396356,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-agrivision/checkpoint-186",
+  "epoch": 30.0,
+  "global_step": 930,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.32,
+      "learning_rate": 5.376344086021506e-06,
+      "loss": 1.0346,
       "step": 10
     },
     {
+      "epoch": 0.65,
+      "learning_rate": 1.0752688172043012e-05,
+      "loss": 0.869,
       "step": 20
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 1.6129032258064517e-05,
+      "loss": 0.5829,
       "step": 30
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7266514806378133,
+      "eval_loss": 0.7480179667472839,
+      "eval_runtime": 8.3505,
+      "eval_samples_per_second": 52.572,
+      "eval_steps_per_second": 1.677,
+      "step": 31
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 2.1505376344086024e-05,
+      "loss": 0.3181,
       "step": 40
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 2.6881720430107527e-05,
+      "loss": 0.2013,
       "step": 50
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 3.2258064516129034e-05,
+      "loss": 0.1199,
       "step": 60
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8246013667425968,
+      "eval_loss": 0.4407329261302948,
+      "eval_runtime": 8.4214,
+      "eval_samples_per_second": 52.129,
+      "eval_steps_per_second": 1.662,
+      "step": 62
     },
     {
+      "epoch": 2.26,
+      "learning_rate": 3.763440860215054e-05,
+      "loss": 0.0682,
       "step": 70
     },
     {
+      "epoch": 2.58,
+      "learning_rate": 4.301075268817205e-05,
+      "loss": 0.0962,
       "step": 80
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 4.8387096774193554e-05,
+      "loss": 0.1028,
       "step": 90
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8246013667425968,
+      "eval_loss": 0.4477098882198334,
+      "eval_runtime": 8.5023,
+      "eval_samples_per_second": 51.633,
+      "eval_steps_per_second": 1.647,
+      "step": 93
     },
     {
+      "epoch": 3.23,
+      "learning_rate": 4.9581839904420555e-05,
+      "loss": 0.0575,
+      "step": 100
     },
     {
+      "epoch": 3.55,
+      "learning_rate": 4.898446833930705e-05,
+      "loss": 0.0431,
       "step": 110
     },
     {
+      "epoch": 3.87,
+      "learning_rate": 4.8387096774193554e-05,
+      "loss": 0.0533,
       "step": 120
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8291571753986332,
+      "eval_loss": 0.4605787992477417,
+      "eval_runtime": 8.4753,
+      "eval_samples_per_second": 51.797,
+      "eval_steps_per_second": 1.652,
+      "step": 124
     },
     {
+      "epoch": 4.19,
+      "learning_rate": 4.778972520908005e-05,
+      "loss": 0.0374,
+      "step": 130
     },
     {
+      "epoch": 4.52,
+      "learning_rate": 4.7192353643966546e-05,
+      "loss": 0.0251,
       "step": 140
     },
     {
+      "epoch": 4.84,
+      "learning_rate": 4.659498207885305e-05,
+      "loss": 0.0411,
       "step": 150
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9179954441913439,
+      "eval_loss": 0.24701963365077972,
+      "eval_runtime": 8.3819,
+      "eval_samples_per_second": 52.375,
+      "eval_steps_per_second": 1.67,
+      "step": 155
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 4.5997610513739546e-05,
+      "loss": 0.0336,
       "step": 160
     },
     {
+      "epoch": 5.48,
+      "learning_rate": 4.540023894862604e-05,
+      "loss": 0.0179,
       "step": 170
     },
     {
+      "epoch": 5.81,
+      "learning_rate": 4.4802867383512545e-05,
+      "loss": 0.022,
+      "step": 180
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9544419134396356,
+      "eval_loss": 0.1568455845117569,
+      "eval_runtime": 8.411,
+      "eval_samples_per_second": 52.194,
+      "eval_steps_per_second": 1.664,
+      "step": 186
     },
     {
+      "epoch": 6.13,
+      "learning_rate": 4.420549581839905e-05,
+      "loss": 0.027,
       "step": 190
     },
     {
+      "epoch": 6.45,
+      "learning_rate": 4.360812425328555e-05,
+      "loss": 0.0116,
       "step": 200
     },
     {
+      "epoch": 6.77,
+      "learning_rate": 4.301075268817205e-05,
+      "loss": 0.0206,
       "step": 210
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8792710706150342,
+      "eval_loss": 0.4187353849411011,
+      "eval_runtime": 8.4199,
+      "eval_samples_per_second": 52.139,
+      "eval_steps_per_second": 1.663,
+      "step": 217
     },
     {
+      "epoch": 7.1,
+      "learning_rate": 4.241338112305854e-05,
+      "loss": 0.017,
       "step": 220
     },
     {
+      "epoch": 7.42,
+      "learning_rate": 4.1816009557945046e-05,
+      "loss": 0.0206,
       "step": 230
     },
     {
+      "epoch": 7.74,
+      "learning_rate": 4.121863799283154e-05,
+      "loss": 0.0069,
       "step": 240
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9202733485193622,
+      "eval_loss": 0.24978817999362946,
+      "eval_runtime": 8.4711,
+      "eval_samples_per_second": 51.823,
+      "eval_steps_per_second": 1.653,
+      "step": 248
     },
     {
+      "epoch": 8.06,
+      "learning_rate": 4.062126642771804e-05,
+      "loss": 0.0189,
       "step": 250
     },
     {
+      "epoch": 8.39,
+      "learning_rate": 4.002389486260454e-05,
+      "loss": 0.0091,
       "step": 260
     },
     {
+      "epoch": 8.71,
+      "learning_rate": 3.9426523297491045e-05,
+      "loss": 0.0053,
       "step": 270
     },
     {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9225512528473804,
+      "eval_loss": 0.26543566584587097,
+      "eval_runtime": 8.3285,
+      "eval_samples_per_second": 52.711,
+      "eval_steps_per_second": 1.681,
+      "step": 279
     },
     {
+      "epoch": 9.03,
+      "learning_rate": 3.882915173237754e-05,
+      "loss": 0.0195,
       "step": 280
     },
     {
+      "epoch": 9.35,
+      "learning_rate": 3.8231780167264044e-05,
+      "loss": 0.0037,
       "step": 290
     },
     {
+      "epoch": 9.68,
+      "learning_rate": 3.763440860215054e-05,
+      "loss": 0.005,
       "step": 300
     },
     {
+      "epoch": 10.0,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0094,
       "step": 310
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9384965831435079,
+      "eval_loss": 0.23431657254695892,
+      "eval_runtime": 8.4865,
+      "eval_samples_per_second": 51.729,
+      "eval_steps_per_second": 1.65,
+      "step": 310
     },
     {
+      "epoch": 10.32,
+      "learning_rate": 3.643966547192354e-05,
+      "loss": 0.0104,
       "step": 320
     },
     {
+      "epoch": 10.65,
+      "learning_rate": 3.5842293906810036e-05,
+      "loss": 0.0125,
       "step": 330
     },
     {
+      "epoch": 10.97,
+      "learning_rate": 3.524492234169653e-05,
+      "loss": 0.0152,
       "step": 340
     },
     {
+      "epoch": 11.0,
+      "eval_accuracy": 0.9020501138952164,
+      "eval_loss": 0.3421424627304077,
+      "eval_runtime": 8.3148,
+      "eval_samples_per_second": 52.798,
+      "eval_steps_per_second": 1.684,
+      "step": 341
     },
     {
+      "epoch": 11.29,
+      "learning_rate": 3.4647550776583035e-05,
+      "loss": 0.0072,
       "step": 350
     },
     {
+      "epoch": 11.61,
+      "learning_rate": 3.405017921146954e-05,
+      "loss": 0.0092,
       "step": 360
     },
     {
+      "epoch": 11.94,
+      "learning_rate": 3.3452807646356034e-05,
+      "loss": 0.0047,
       "step": 370
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8724373576309795,
+      "eval_loss": 0.44937077164649963,
+      "eval_runtime": 8.3634,
+      "eval_samples_per_second": 52.49,
+      "eval_steps_per_second": 1.674,
+      "step": 372
     },
     {
+      "epoch": 12.26,
+      "learning_rate": 3.285543608124254e-05,
+      "loss": 0.0047,
+      "step": 380
     },
     {
+      "epoch": 12.58,
+      "learning_rate": 3.2258064516129034e-05,
+      "loss": 0.0029,
       "step": 390
     },
     {
+      "epoch": 12.9,
+      "learning_rate": 3.1660692951015537e-05,
+      "loss": 0.0128,
       "step": 400
     },
     {
+      "epoch": 13.0,
+      "eval_accuracy": 0.8678815489749431,
+      "eval_loss": 0.5359533429145813,
+      "eval_runtime": 8.4935,
+      "eval_samples_per_second": 51.687,
+      "eval_steps_per_second": 1.648,
+      "step": 403
     },
     {
+      "epoch": 13.23,
+      "learning_rate": 3.106332138590203e-05,
+      "loss": 0.0086,
+      "step": 410
     },
     {
+      "epoch": 13.55,
+      "learning_rate": 3.046594982078853e-05,
+      "loss": 0.0041,
       "step": 420
     },
     {
+      "epoch": 13.87,
+      "learning_rate": 2.9868578255675032e-05,
+      "loss": 0.0024,
       "step": 430
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9111617312072893,
+      "eval_loss": 0.2775423526763916,
+      "eval_runtime": 8.5462,
+      "eval_samples_per_second": 51.368,
+      "eval_steps_per_second": 1.638,
+      "step": 434
+    },
+    {
+      "epoch": 14.19,
+      "learning_rate": 2.9271206690561532e-05,
+      "loss": 0.005,
       "step": 440
     },
     {
+      "epoch": 14.52,
+      "learning_rate": 2.8673835125448028e-05,
+      "loss": 0.0041,
       "step": 450
     },
     {
+      "epoch": 14.84,
+      "learning_rate": 2.807646356033453e-05,
+      "loss": 0.0127,
+      "step": 460
     },
     {
+      "epoch": 15.0,
+      "eval_accuracy": 0.89749430523918,
+      "eval_loss": 0.29105421900749207,
+      "eval_runtime": 8.44,
+      "eval_samples_per_second": 52.014,
+      "eval_steps_per_second": 1.659,
+      "step": 465
     },
     {
+      "epoch": 15.16,
+      "learning_rate": 2.747909199522103e-05,
+      "loss": 0.0097,
       "step": 470
     },
     {
+      "epoch": 15.48,
+      "learning_rate": 2.6881720430107527e-05,
+      "loss": 0.0003,
       "step": 480
     },
     {
+      "epoch": 15.81,
+      "learning_rate": 2.628434886499403e-05,
+      "loss": 0.0038,
       "step": 490
     },
     {
+      "epoch": 16.0,
+      "eval_accuracy": 0.929384965831435,
+      "eval_loss": 0.23365984857082367,
+      "eval_runtime": 8.4714,
+      "eval_samples_per_second": 51.821,
+      "eval_steps_per_second": 1.653,
+      "step": 496
     },
     {
+      "epoch": 16.13,
+      "learning_rate": 2.5686977299880526e-05,
+      "loss": 0.0042,
       "step": 500
     },
     {
+      "epoch": 16.45,
+      "learning_rate": 2.5089605734767026e-05,
+      "loss": 0.0008,
       "step": 510
     },
     {
+      "epoch": 16.77,
+      "learning_rate": 2.4492234169653525e-05,
+      "loss": 0.0001,
       "step": 520
     },
     {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9407744874715261,
+      "eval_loss": 0.22065891325473785,
+      "eval_runtime": 8.3769,
+      "eval_samples_per_second": 52.406,
+      "eval_steps_per_second": 1.671,
+      "step": 527
     },
     {
+      "epoch": 17.1,
+      "learning_rate": 2.3894862604540025e-05,
+      "loss": 0.0003,
       "step": 530
     },
     {
+      "epoch": 17.42,
+      "learning_rate": 2.3297491039426525e-05,
+      "loss": 0.0004,
       "step": 540
     },
     {
+      "epoch": 17.74,
+      "learning_rate": 2.270011947431302e-05,
+      "loss": 0.0054,
       "step": 550
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9362186788154897,
+      "eval_loss": 0.2506341338157654,
+      "eval_runtime": 8.432,
+      "eval_samples_per_second": 52.064,
+      "eval_steps_per_second": 1.66,
+      "step": 558
     },
     {
+      "epoch": 18.06,
+      "learning_rate": 2.2102747909199524e-05,
+      "loss": 0.0002,
       "step": 560
     },
     {
+      "epoch": 18.39,
+      "learning_rate": 2.1505376344086024e-05,
+      "loss": 0.0014,
       "step": 570
     },
     {
+      "epoch": 18.71,
+      "learning_rate": 2.0908004778972523e-05,
+      "loss": 0.0011,
       "step": 580
     },
     {
+      "epoch": 19.0,
+      "eval_accuracy": 0.8952164009111617,
+      "eval_loss": 0.37775158882141113,
+      "eval_runtime": 8.3743,
+      "eval_samples_per_second": 52.422,
+      "eval_steps_per_second": 1.672,
+      "step": 589
     },
     {
+      "epoch": 19.03,
+      "learning_rate": 2.031063321385902e-05,
+      "loss": 0.0006,
+      "step": 590
     },
     {
+      "epoch": 19.35,
+      "learning_rate": 1.9713261648745522e-05,
+      "loss": 0.0001,
       "step": 600
     },
     {
+      "epoch": 19.68,
+      "learning_rate": 1.9115890083632022e-05,
+      "loss": 0.0001,
       "step": 610
     },
     {
+      "epoch": 20.0,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0002,
       "step": 620
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9407744874715261,
+      "eval_loss": 0.23159268498420715,
+      "eval_runtime": 8.4951,
+      "eval_samples_per_second": 51.677,
+      "eval_steps_per_second": 1.648,
+      "step": 620
     },
     {
+      "epoch": 20.32,
+      "learning_rate": 1.7921146953405018e-05,
+      "loss": 0.0039,
       "step": 630
     },
     {
+      "epoch": 20.65,
+      "learning_rate": 1.7323775388291518e-05,
+      "loss": 0.0003,
       "step": 640
     },
     {
+      "epoch": 20.97,
+      "learning_rate": 1.6726403823178017e-05,
+      "loss": 0.0003,
       "step": 650
     },
     {
+      "epoch": 21.0,
+      "eval_accuracy": 0.9430523917995444,
+      "eval_loss": 0.21328049898147583,
+      "eval_runtime": 8.4322,
+      "eval_samples_per_second": 52.062,
+      "eval_steps_per_second": 1.66,
+      "step": 651
     },
     {
+      "epoch": 21.29,
+      "learning_rate": 1.6129032258064517e-05,
+      "loss": 0.0008,
+      "step": 660
     },
     {
+      "epoch": 21.61,
+      "learning_rate": 1.5531660692951016e-05,
+      "loss": 0.0007,
       "step": 670
     },
     {
+      "epoch": 21.94,
+      "learning_rate": 1.4934289127837516e-05,
+      "loss": 0.0009,
       "step": 680
     },
     {
+      "epoch": 22.0,
+      "eval_accuracy": 0.9339407744874715,
+      "eval_loss": 0.25188666582107544,
+      "eval_runtime": 8.3597,
+      "eval_samples_per_second": 52.514,
+      "eval_steps_per_second": 1.675,
+      "step": 682
     },
     {
+      "epoch": 22.26,
+      "learning_rate": 1.4336917562724014e-05,
+      "loss": 0.0018,
+      "step": 690
     },
     {
+      "epoch": 22.58,
+      "learning_rate": 1.3739545997610515e-05,
+      "loss": 0.0052,
       "step": 700
     },
     {
+      "epoch": 22.9,
+      "learning_rate": 1.3142174432497015e-05,
+      "loss": 0.0004,
       "step": 710
     },
     {
+      "epoch": 23.0,
+      "eval_accuracy": 0.9202733485193622,
+      "eval_loss": 0.2931215167045593,
+      "eval_runtime": 8.3479,
+      "eval_samples_per_second": 52.588,
+      "eval_steps_per_second": 1.677,
+      "step": 713
+    },
+    {
+      "epoch": 23.23,
+      "learning_rate": 1.2544802867383513e-05,
+      "loss": 0.0005,
       "step": 720
     },
     {
+      "epoch": 23.55,
+      "learning_rate": 1.1947431302270013e-05,
+      "loss": 0.0,
       "step": 730
     },
     {
+      "epoch": 23.87,
+      "learning_rate": 1.135005973715651e-05,
+      "loss": 0.0001,
+      "step": 740
     },
     {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9271070615034168,
+      "eval_loss": 0.2847088575363159,
+      "eval_runtime": 8.2725,
+      "eval_samples_per_second": 53.067,
+      "eval_steps_per_second": 1.692,
+      "step": 744
     },
     {
+      "epoch": 24.19,
+      "learning_rate": 1.0752688172043012e-05,
+      "loss": 0.0001,
       "step": 750
     },
     {
+      "epoch": 24.52,
+      "learning_rate": 1.015531660692951e-05,
+      "loss": 0.007,
       "step": 760
     },
     {
+      "epoch": 24.84,
+      "learning_rate": 9.557945041816011e-06,
+      "loss": 0.0003,
       "step": 770
     },
     {
+      "epoch": 25.0,
+      "eval_accuracy": 0.9316628701594533,
+      "eval_loss": 0.28311699628829956,
+      "eval_runtime": 8.4361,
+      "eval_samples_per_second": 52.038,
+      "eval_steps_per_second": 1.66,
+      "step": 775
     },
     {
+      "epoch": 25.16,
+      "learning_rate": 8.960573476702509e-06,
+      "loss": 0.0001,
       "step": 780
     },
     {
+      "epoch": 25.48,
+      "learning_rate": 8.363201911589009e-06,
+      "loss": 0.0001,
       "step": 790
     },
     {
+      "epoch": 25.81,
+      "learning_rate": 7.765830346475508e-06,
+      "loss": 0.0008,
       "step": 800
     },
     {
+      "epoch": 26.0,
+      "eval_accuracy": 0.9271070615034168,
+      "eval_loss": 0.2918652594089508,
+      "eval_runtime": 8.3526,
+      "eval_samples_per_second": 52.558,
+      "eval_steps_per_second": 1.676,
+      "step": 806
     },
     {
+      "epoch": 26.13,
+      "learning_rate": 7.168458781362007e-06,
+      "loss": 0.0001,
       "step": 810
     },
     {
+      "epoch": 26.45,
+      "learning_rate": 6.5710872162485075e-06,
+      "loss": 0.004,
       "step": 820
     },
     {
+      "epoch": 26.77,
+      "learning_rate": 5.973715651135006e-06,
+      "loss": 0.0003,
       "step": 830
     },
     {
+      "epoch": 27.0,
+      "eval_accuracy": 0.9362186788154897,
+      "eval_loss": 0.2797539532184601,
+      "eval_runtime": 8.3259,
+      "eval_samples_per_second": 52.727,
+      "eval_steps_per_second": 1.681,
+      "step": 837
     },
     {
+      "epoch": 27.1,
+      "learning_rate": 5.376344086021506e-06,
+      "loss": 0.0035,
       "step": 840
     },
     {
+      "epoch": 27.42,
+      "learning_rate": 4.7789725209080055e-06,
+      "loss": 0.0,
       "step": 850
     },
     {
+      "epoch": 27.74,
+      "learning_rate": 4.181600955794504e-06,
       "loss": 0.0008,
+      "step": 860
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.9362186788154897,
+      "eval_loss": 0.28566640615463257,
+      "eval_runtime": 8.5372,
+      "eval_samples_per_second": 51.422,
+      "eval_steps_per_second": 1.64,
+      "step": 868
     },
     {
+      "epoch": 28.06,
+      "learning_rate": 3.5842293906810035e-06,
       "loss": 0.0002,
+      "step": 870
     },
     {
+      "epoch": 28.39,
+      "learning_rate": 2.986857825567503e-06,
       "loss": 0.0022,
+      "step": 880
     },
     {
+      "epoch": 28.71,
+      "learning_rate": 2.3894862604540028e-06,
+      "loss": 0.0008,
+      "step": 890
     },
     {
+      "epoch": 29.0,
+      "eval_accuracy": 0.9362186788154897,
+      "eval_loss": 0.2779512405395508,
+      "eval_runtime": 8.4419,
+      "eval_samples_per_second": 52.003,
+      "eval_steps_per_second": 1.658,
+      "step": 899
     },
     {
+      "epoch": 29.03,
+      "learning_rate": 1.7921146953405017e-06,
       "loss": 0.0001,
+      "step": 900
     },
     {
+      "epoch": 29.35,
+      "learning_rate": 1.1947431302270014e-06,
       "loss": 0.0004,
+      "step": 910
     },
     {
+      "epoch": 29.68,
+      "learning_rate": 5.973715651135007e-07,
       "loss": 0.0001,
+      "step": 920
     },
     {
+      "epoch": 30.0,
       "learning_rate": 0.0,
+      "loss": 0.0013,
+      "step": 930
     },
     {
+      "epoch": 30.0,
+      "eval_accuracy": 0.9362186788154897,
+      "eval_loss": 0.27828121185302734,
+      "eval_runtime": 8.5464,
+      "eval_samples_per_second": 51.367,
+      "eval_steps_per_second": 1.638,
+      "step": 930
     },
     {
+      "epoch": 30.0,
+      "step": 930,
+      "total_flos": 2.9462626978683494e+18,
+      "train_loss": 0.04387470004151911,
+      "train_runtime": 7100.0179,
+      "train_samples_per_second": 16.694,
+      "train_steps_per_second": 0.131
     }
   ],
+  "max_steps": 930,
+  "num_train_epochs": 30,
+  "total_flos": 2.9462626978683494e+18,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c59fb9d277b60c557b7f361b4f4771289f10e485ce9b8b242f8ca8c10071067
 size 3439

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb189b8fe0277d17650a0f646dfbb8764a9c016344e92e0186d7153e1eb1d5ea
 size 3439