Training in progress, epoch 1

Browse files

Files changed (8) hide show

all_results.json +11 -6
eval_results.json +6 -6
model.safetensors +1 -1
runs/Jun16_15-11-38_bf5671fd163d/events.out.tfevents.1718551387.bf5671fd163d.34.2 +3 -0
runs/Jun16_15-26-50_bf5671fd163d/events.out.tfevents.1718551623.bf5671fd163d.34.3 +3 -0
train_results.json +6 -6
trainer_state.json +270 -275
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,13 @@
 {
-    "epoch": 18.983050847457626,
-    "total_flos": 8.770915265286021e+17,
-    "train_loss": 0.5690130770206452,
-    "train_runtime": 721.0619,
-    "train_samples_per_second": 51.507,
-    "train_steps_per_second": 0.388
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.8647342995169082,
+    "eval_loss": 0.4232899248600006,
+    "eval_runtime": 2.6482,
+    "eval_samples_per_second": 78.166,
+    "eval_steps_per_second": 2.643,
+    "total_flos": 8.20362235004928e+17,
+    "train_loss": 0.5571963181862465,
+    "train_runtime": 609.4825,
+    "train_samples_per_second": 54.144,
+    "train_steps_per_second": 0.427
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 24.731182795698924,
-    "eval_accuracy": 0.9156626506024096,
-    "eval_loss": 0.27148592472076416,
-    "eval_runtime": 1.9888,
-    "eval_samples_per_second": 83.466,
-    "eval_steps_per_second": 5.531
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.8647342995169082,
+    "eval_loss": 0.4232899248600006,
+    "eval_runtime": 2.6482,
+    "eval_samples_per_second": 78.166,
+    "eval_steps_per_second": 2.643
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6130f5365f937efe8b53c2c41e23449b506cccb53b5d4aab3b92fd4edf956313
 size 110358212

 version https://git-lfs.github.com/spec/v1
+oid sha256:a90383b0091b00ae8c59a5f66b4491e56cbaea4270c4ac76ac68cfac0db444e4
 size 110358212

runs/Jun16_15-11-38_bf5671fd163d/events.out.tfevents.1718551387.bf5671fd163d.34.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:866e8b5060507ba2196db6803224be50cd89db6b2e2f929485ccf0d26c342404
+size 1380

runs/Jun16_15-26-50_bf5671fd163d/events.out.tfevents.1718551623.bf5671fd163d.34.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:098cfe203254d1105625e7527965524a72aa2a2a322e98c767e521d70f98fd80
+size 5948

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 18.983050847457626,
-    "total_flos": 8.770915265286021e+17,
-    "train_loss": 0.5690130770206452,
-    "train_runtime": 721.0619,
-    "train_samples_per_second": 51.507,
-    "train_steps_per_second": 0.388
 }

 {
+    "epoch": 20.0,
+    "total_flos": 8.20362235004928e+17,
+    "train_loss": 0.5571963181862465,
+    "train_runtime": 609.4825,
+    "train_samples_per_second": 54.144,
+    "train_steps_per_second": 0.427
 }

trainer_state.json CHANGED Viewed

@@ -1,392 +1,387 @@
 {
-  "best_metric": 0.9178743961352657,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-162",
-  "epoch": 18.983050847457626,
   "eval_steps": 500,
-  "global_step": 280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.6779661016949152,
-      "grad_norm": 5.420360565185547,
-      "learning_rate": 1.785714285714286e-05,
-      "loss": 1.8823,
       "step": 10
     },
     {
-      "epoch": 0.9491525423728814,
-      "eval_accuracy": 0.6086956521739131,
-      "eval_loss": 1.2503873109817505,
-      "eval_runtime": 3.2577,
-      "eval_samples_per_second": 63.542,
-      "eval_steps_per_second": 2.149,
-      "step": 14
     },
     {
-      "epoch": 1.3559322033898304,
-      "grad_norm": 4.860891819000244,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 1.2121,
       "step": 20
     },
     {
-      "epoch": 1.9661016949152543,
-      "eval_accuracy": 0.6714975845410628,
-      "eval_loss": 0.9090104699134827,
-      "eval_runtime": 2.3608,
-      "eval_samples_per_second": 87.681,
-      "eval_steps_per_second": 2.965,
-      "step": 29
     },
     {
-      "epoch": 2.0338983050847457,
-      "grad_norm": 7.1142802238464355,
-      "learning_rate": 4.960317460317461e-05,
-      "loss": 1.0172,
       "step": 30
     },
     {
-      "epoch": 2.711864406779661,
-      "grad_norm": 6.562143802642822,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 0.871,
-      "step": 40
     },
     {
-      "epoch": 2.983050847457627,
-      "eval_accuracy": 0.7198067632850241,
-      "eval_loss": 0.7589733600616455,
-      "eval_runtime": 2.4439,
-      "eval_samples_per_second": 84.699,
-      "eval_steps_per_second": 2.864,
-      "step": 44
     },
     {
-      "epoch": 3.389830508474576,
-      "grad_norm": 8.523736000061035,
-      "learning_rate": 4.563492063492064e-05,
-      "loss": 0.7147,
       "step": 50
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.7922705314009661,
-      "eval_loss": 0.6049572229385376,
-      "eval_runtime": 2.3858,
-      "eval_samples_per_second": 86.762,
-      "eval_steps_per_second": 2.934,
-      "step": 59
-    },
-    {
-      "epoch": 4.067796610169491,
-      "grad_norm": 4.974839210510254,
-      "learning_rate": 4.3650793650793655e-05,
-      "loss": 0.6792,
       "step": 60
     },
     {
-      "epoch": 4.745762711864407,
-      "grad_norm": 4.972749710083008,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 0.6267,
       "step": 70
     },
     {
-      "epoch": 4.9491525423728815,
       "eval_accuracy": 0.7536231884057971,
-      "eval_loss": 0.652667224407196,
-      "eval_runtime": 2.3914,
-      "eval_samples_per_second": 86.559,
-      "eval_steps_per_second": 2.927,
-      "step": 73
     },
     {
-      "epoch": 5.423728813559322,
-      "grad_norm": 7.731490135192871,
-      "learning_rate": 3.968253968253968e-05,
-      "loss": 0.5431,
       "step": 80
     },
     {
-      "epoch": 5.966101694915254,
-      "eval_accuracy": 0.8357487922705314,
-      "eval_loss": 0.46888142824172974,
-      "eval_runtime": 2.3671,
-      "eval_samples_per_second": 87.449,
-      "eval_steps_per_second": 2.957,
-      "step": 88
     },
     {
-      "epoch": 6.101694915254237,
-      "grad_norm": 7.260626792907715,
-      "learning_rate": 3.76984126984127e-05,
-      "loss": 0.556,
-      "step": 90
     },
     {
-      "epoch": 6.779661016949152,
-      "grad_norm": 6.438409328460693,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 0.5282,
       "step": 100
     },
     {
-      "epoch": 6.983050847457627,
-      "eval_accuracy": 0.8502415458937198,
-      "eval_loss": 0.43202635645866394,
-      "eval_runtime": 2.4254,
-      "eval_samples_per_second": 85.347,
-      "eval_steps_per_second": 2.886,
-      "step": 103
     },
     {
-      "epoch": 7.4576271186440675,
-      "grad_norm": 7.653568267822266,
-      "learning_rate": 3.3730158730158734e-05,
-      "loss": 0.4961,
       "step": 110
     },
     {
-      "epoch": 8.0,
-      "eval_accuracy": 0.8985507246376812,
-      "eval_loss": 0.36371690034866333,
-      "eval_runtime": 2.411,
-      "eval_samples_per_second": 85.858,
-      "eval_steps_per_second": 2.903,
-      "step": 118
-    },
-    {
-      "epoch": 8.135593220338983,
-      "grad_norm": 5.616615295410156,
-      "learning_rate": 3.1746031746031745e-05,
-      "loss": 0.517,
       "step": 120
     },
     {
-      "epoch": 8.813559322033898,
-      "grad_norm": 7.4094085693359375,
-      "learning_rate": 2.9761904761904762e-05,
-      "loss": 0.441,
       "step": 130
     },
     {
-      "epoch": 8.94915254237288,
-      "eval_accuracy": 0.8647342995169082,
-      "eval_loss": 0.3995893895626068,
-      "eval_runtime": 2.3857,
-      "eval_samples_per_second": 86.766,
-      "eval_steps_per_second": 2.934,
-      "step": 132
     },
     {
-      "epoch": 9.491525423728813,
-      "grad_norm": 10.627859115600586,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.4491,
       "step": 140
     },
     {
-      "epoch": 9.966101694915254,
-      "eval_accuracy": 0.893719806763285,
-      "eval_loss": 0.3271920084953308,
-      "eval_runtime": 2.479,
-      "eval_samples_per_second": 83.502,
-      "eval_steps_per_second": 2.824,
-      "step": 147
     },
     {
-      "epoch": 10.169491525423728,
-      "grad_norm": 6.889646053314209,
-      "learning_rate": 2.5793650793650796e-05,
-      "loss": 0.4444,
       "step": 150
     },
     {
-      "epoch": 10.847457627118644,
-      "grad_norm": 5.192846775054932,
-      "learning_rate": 2.380952380952381e-05,
-      "loss": 0.4053,
       "step": 160
     },
     {
-      "epoch": 10.983050847457626,
-      "eval_accuracy": 0.9178743961352657,
-      "eval_loss": 0.29406073689460754,
-      "eval_runtime": 2.409,
-      "eval_samples_per_second": 85.926,
-      "eval_steps_per_second": 2.906,
-      "step": 162
     },
     {
-      "epoch": 11.525423728813559,
-      "grad_norm": 5.185661792755127,
-      "learning_rate": 2.1825396825396827e-05,
-      "loss": 0.4488,
       "step": 170
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.9082125603864735,
-      "eval_loss": 0.28117918968200684,
-      "eval_runtime": 2.4258,
-      "eval_samples_per_second": 85.333,
-      "eval_steps_per_second": 2.886,
-      "step": 177
-    },
-    {
-      "epoch": 12.203389830508474,
-      "grad_norm": 6.01942777633667,
-      "learning_rate": 1.984126984126984e-05,
-      "loss": 0.3854,
       "step": 180
     },
     {
-      "epoch": 12.88135593220339,
-      "grad_norm": 8.270365715026855,
-      "learning_rate": 1.785714285714286e-05,
-      "loss": 0.3898,
-      "step": 190
     },
     {
-      "epoch": 12.94915254237288,
-      "eval_accuracy": 0.8840579710144928,
-      "eval_loss": 0.3371450901031494,
-      "eval_runtime": 2.3772,
-      "eval_samples_per_second": 87.076,
-      "eval_steps_per_second": 2.945,
-      "step": 191
     },
     {
-      "epoch": 13.559322033898304,
-      "grad_norm": 7.7481207847595215,
-      "learning_rate": 1.5873015873015872e-05,
-      "loss": 0.4012,
-      "step": 200
     },
     {
-      "epoch": 13.966101694915254,
-      "eval_accuracy": 0.893719806763285,
-      "eval_loss": 0.29139503836631775,
-      "eval_runtime": 2.4407,
-      "eval_samples_per_second": 84.811,
-      "eval_steps_per_second": 2.868,
-      "step": 206
     },
     {
-      "epoch": 14.23728813559322,
-      "grad_norm": 6.67825984954834,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.3775,
       "step": 210
     },
     {
-      "epoch": 14.915254237288135,
-      "grad_norm": 6.923623085021973,
-      "learning_rate": 1.1904761904761905e-05,
-      "loss": 0.3477,
       "step": 220
     },
     {
-      "epoch": 14.983050847457626,
-      "eval_accuracy": 0.9033816425120773,
-      "eval_loss": 0.30570876598358154,
-      "eval_runtime": 2.6879,
-      "eval_samples_per_second": 77.012,
-      "eval_steps_per_second": 2.604,
       "step": 221
     },
     {
-      "epoch": 15.59322033898305,
-      "grad_norm": 5.033349990844727,
-      "learning_rate": 9.92063492063492e-06,
-      "loss": 0.3743,
       "step": 230
     },
     {
-      "epoch": 16.0,
-      "eval_accuracy": 0.9178743961352657,
-      "eval_loss": 0.289718359708786,
-      "eval_runtime": 2.4706,
-      "eval_samples_per_second": 83.786,
-      "eval_steps_per_second": 2.833,
-      "step": 236
-    },
-    {
-      "epoch": 16.271186440677965,
-      "grad_norm": 9.052722930908203,
-      "learning_rate": 7.936507936507936e-06,
-      "loss": 0.3651,
       "step": 240
     },
     {
-      "epoch": 16.949152542372882,
-      "grad_norm": 5.250888347625732,
-      "learning_rate": 5.9523809523809525e-06,
-      "loss": 0.3689,
-      "step": 250
     },
     {
-      "epoch": 16.949152542372882,
-      "eval_accuracy": 0.8888888888888888,
-      "eval_loss": 0.30913469195365906,
-      "eval_runtime": 2.4208,
-      "eval_samples_per_second": 85.508,
-      "eval_steps_per_second": 2.892,
       "step": 250
     },
     {
-      "epoch": 17.627118644067796,
-      "grad_norm": 9.214469909667969,
-      "learning_rate": 3.968253968253968e-06,
-      "loss": 0.3672,
       "step": 260
     },
     {
-      "epoch": 17.966101694915253,
-      "eval_accuracy": 0.8985507246376812,
-      "eval_loss": 0.2926962971687317,
-      "eval_runtime": 2.4322,
-      "eval_samples_per_second": 85.11,
-      "eval_steps_per_second": 2.878,
-      "step": 265
-    },
-    {
-      "epoch": 18.305084745762713,
-      "grad_norm": 6.957177639007568,
-      "learning_rate": 1.984126984126984e-06,
-      "loss": 0.3752,
-      "step": 270
     },
     {
-      "epoch": 18.983050847457626,
-      "grad_norm": 5.975354194641113,
-      "learning_rate": 0.0,
-      "loss": 0.3479,
-      "step": 280
-    },
-    {
-      "epoch": 18.983050847457626,
-      "eval_accuracy": 0.893719806763285,
-      "eval_loss": 0.3029150068759918,
-      "eval_runtime": 2.4475,
-      "eval_samples_per_second": 84.576,
-      "eval_steps_per_second": 2.86,
-      "step": 280
-    },
-    {
-      "epoch": 18.983050847457626,
-      "step": 280,
-      "total_flos": 8.770915265286021e+17,
-      "train_loss": 0.5690130770206452,
-      "train_runtime": 721.0619,
-      "train_samples_per_second": 51.507,
-      "train_steps_per_second": 0.388
     }
   ],
   "logging_steps": 10,
-  "max_steps": 280,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
@@ -402,7 +397,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.770915265286021e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8647342995169082,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-234",
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 6.725746154785156,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 1.7993,
       "step": 10
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5942028985507246,
+      "eval_loss": 1.321716070175171,
+      "eval_runtime": 3.305,
+      "eval_samples_per_second": 62.633,
+      "eval_steps_per_second": 2.118,
+      "step": 13
     },
     {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 6.603445053100586,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 1.23,
       "step": 20
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6570048309178744,
+      "eval_loss": 0.9921989440917969,
+      "eval_runtime": 2.4985,
+      "eval_samples_per_second": 82.85,
+      "eval_steps_per_second": 2.802,
+      "step": 26
     },
     {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 6.3381571769714355,
+      "learning_rate": 4.9145299145299147e-05,
+      "loss": 1.0516,
       "step": 30
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6231884057971014,
+      "eval_loss": 1.0678304433822632,
+      "eval_runtime": 2.4205,
+      "eval_samples_per_second": 85.52,
+      "eval_steps_per_second": 2.892,
+      "step": 39
     },
     {
+      "epoch": 3.076923076923077,
+      "grad_norm": 7.780747413635254,
+      "learning_rate": 4.700854700854701e-05,
+      "loss": 0.8173,
+      "step": 40
     },
     {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 7.331319808959961,
+      "learning_rate": 4.4871794871794874e-05,
+      "loss": 0.7172,
       "step": 50
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6618357487922706,
+      "eval_loss": 0.8940783739089966,
+      "eval_runtime": 2.4149,
+      "eval_samples_per_second": 85.718,
+      "eval_steps_per_second": 2.899,
+      "step": 52
+    },
+    {
+      "epoch": 4.615384615384615,
+      "grad_norm": 8.189846992492676,
+      "learning_rate": 4.2735042735042735e-05,
+      "loss": 0.7044,
       "step": 60
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.782608695652174,
+      "eval_loss": 0.6553784608840942,
+      "eval_runtime": 2.4376,
+      "eval_samples_per_second": 84.918,
+      "eval_steps_per_second": 2.872,
+      "step": 65
+    },
+    {
+      "epoch": 5.384615384615385,
+      "grad_norm": 5.5380377769470215,
+      "learning_rate": 4.05982905982906e-05,
+      "loss": 0.5443,
       "step": 70
     },
     {
+      "epoch": 6.0,
       "eval_accuracy": 0.7536231884057971,
+      "eval_loss": 0.6407715678215027,
+      "eval_runtime": 2.4636,
+      "eval_samples_per_second": 84.022,
+      "eval_steps_per_second": 2.841,
+      "step": 78
     },
     {
+      "epoch": 6.153846153846154,
+      "grad_norm": 4.97896671295166,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 0.5464,
       "step": 80
     },
     {
+      "epoch": 6.923076923076923,
+      "grad_norm": 7.994241714477539,
+      "learning_rate": 3.6324786324786323e-05,
+      "loss": 0.516,
+      "step": 90
     },
     {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8260869565217391,
+      "eval_loss": 0.5527260899543762,
+      "eval_runtime": 2.4157,
+      "eval_samples_per_second": 85.688,
+      "eval_steps_per_second": 2.898,
+      "step": 91
     },
     {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 7.403011322021484,
+      "learning_rate": 3.418803418803419e-05,
+      "loss": 0.4639,
       "step": 100
     },
     {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8357487922705314,
+      "eval_loss": 0.5045546889305115,
+      "eval_runtime": 2.4127,
+      "eval_samples_per_second": 85.798,
+      "eval_steps_per_second": 2.901,
+      "step": 104
     },
     {
+      "epoch": 8.461538461538462,
+      "grad_norm": 6.654711723327637,
+      "learning_rate": 3.205128205128206e-05,
+      "loss": 0.5129,
       "step": 110
     },
     {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8019323671497585,
+      "eval_loss": 0.5691552758216858,
+      "eval_runtime": 2.4269,
+      "eval_samples_per_second": 85.294,
+      "eval_steps_per_second": 2.884,
+      "step": 117
+    },
+    {
+      "epoch": 9.23076923076923,
+      "grad_norm": 5.1390228271484375,
+      "learning_rate": 2.9914529914529915e-05,
+      "loss": 0.4434,
       "step": 120
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 7.468532562255859,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.4723,
       "step": 130
     },
     {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7874396135265701,
+      "eval_loss": 0.5761130452156067,
+      "eval_runtime": 2.5844,
+      "eval_samples_per_second": 80.097,
+      "eval_steps_per_second": 2.709,
+      "step": 130
     },
     {
+      "epoch": 10.76923076923077,
+      "grad_norm": 5.666627407073975,
+      "learning_rate": 2.564102564102564e-05,
+      "loss": 0.3949,
       "step": 140
     },
     {
+      "epoch": 11.0,
+      "eval_accuracy": 0.7729468599033816,
+      "eval_loss": 0.5835833549499512,
+      "eval_runtime": 2.4621,
+      "eval_samples_per_second": 84.075,
+      "eval_steps_per_second": 2.843,
+      "step": 143
     },
     {
+      "epoch": 11.538461538461538,
+      "grad_norm": 3.5363669395446777,
+      "learning_rate": 2.3504273504273504e-05,
+      "loss": 0.3694,
       "step": 150
     },
     {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8115942028985508,
+      "eval_loss": 0.5314078330993652,
+      "eval_runtime": 2.5082,
+      "eval_samples_per_second": 82.528,
+      "eval_steps_per_second": 2.791,
+      "step": 156
+    },
+    {
+      "epoch": 12.307692307692308,
+      "grad_norm": 13.049053192138672,
+      "learning_rate": 2.1367521367521368e-05,
+      "loss": 0.4252,
       "step": 160
     },
     {
+      "epoch": 13.0,
+      "eval_accuracy": 0.8502415458937198,
+      "eval_loss": 0.45385822653770447,
+      "eval_runtime": 2.4622,
+      "eval_samples_per_second": 84.072,
+      "eval_steps_per_second": 2.843,
+      "step": 169
     },
     {
+      "epoch": 13.076923076923077,
+      "grad_norm": 5.0738983154296875,
+      "learning_rate": 1.923076923076923e-05,
+      "loss": 0.3531,
       "step": 170
     },
     {
+      "epoch": 13.846153846153847,
+      "grad_norm": 4.928651332855225,
+      "learning_rate": 1.7094017094017095e-05,
+      "loss": 0.3532,
       "step": 180
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8309178743961353,
+      "eval_loss": 0.4720558226108551,
+      "eval_runtime": 2.455,
+      "eval_samples_per_second": 84.317,
+      "eval_steps_per_second": 2.851,
+      "step": 182
     },
     {
+      "epoch": 14.615384615384615,
+      "grad_norm": 7.16459321975708,
+      "learning_rate": 1.4957264957264958e-05,
+      "loss": 0.3556,
+      "step": 190
     },
     {
+      "epoch": 15.0,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.42704012989997864,
+      "eval_runtime": 2.5414,
+      "eval_samples_per_second": 81.451,
+      "eval_steps_per_second": 2.754,
+      "step": 195
     },
     {
+      "epoch": 15.384615384615385,
+      "grad_norm": 7.167410373687744,
+      "learning_rate": 1.282051282051282e-05,
+      "loss": 0.3565,
+      "step": 200
     },
     {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8599033816425121,
+      "eval_loss": 0.45548996329307556,
+      "eval_runtime": 2.4294,
+      "eval_samples_per_second": 85.206,
+      "eval_steps_per_second": 2.881,
+      "step": 208
+    },
+    {
+      "epoch": 16.153846153846153,
+      "grad_norm": 5.148393630981445,
+      "learning_rate": 1.0683760683760684e-05,
+      "loss": 0.3701,
       "step": 210
     },
     {
+      "epoch": 16.923076923076923,
+      "grad_norm": 6.511909008026123,
+      "learning_rate": 8.547008547008548e-06,
+      "loss": 0.3369,
       "step": 220
     },
     {
+      "epoch": 17.0,
+      "eval_accuracy": 0.8502415458937198,
+      "eval_loss": 0.4133504629135132,
+      "eval_runtime": 2.4571,
+      "eval_samples_per_second": 84.246,
+      "eval_steps_per_second": 2.849,
       "step": 221
     },
     {
+      "epoch": 17.692307692307693,
+      "grad_norm": 4.781186580657959,
+      "learning_rate": 6.41025641025641e-06,
+      "loss": 0.347,
       "step": 230
     },
     {
+      "epoch": 18.0,
+      "eval_accuracy": 0.8647342995169082,
+      "eval_loss": 0.4232899248600006,
+      "eval_runtime": 2.4497,
+      "eval_samples_per_second": 84.5,
+      "eval_steps_per_second": 2.857,
+      "step": 234
+    },
+    {
+      "epoch": 18.46153846153846,
+      "grad_norm": 5.714421272277832,
+      "learning_rate": 4.273504273504274e-06,
+      "loss": 0.3386,
       "step": 240
     },
     {
+      "epoch": 19.0,
+      "eval_accuracy": 0.8599033816425121,
+      "eval_loss": 0.4154907464981079,
+      "eval_runtime": 2.5896,
+      "eval_samples_per_second": 79.936,
+      "eval_steps_per_second": 2.703,
+      "step": 247
     },
     {
+      "epoch": 19.23076923076923,
+      "grad_norm": 6.739828109741211,
+      "learning_rate": 2.136752136752137e-06,
+      "loss": 0.3366,
       "step": 250
     },
     {
+      "epoch": 20.0,
+      "grad_norm": 8.137150764465332,
+      "learning_rate": 0.0,
+      "loss": 0.3312,
       "step": 260
     },
     {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8647342995169082,
+      "eval_loss": 0.4072469174861908,
+      "eval_runtime": 2.554,
+      "eval_samples_per_second": 81.051,
+      "eval_steps_per_second": 2.741,
+      "step": 260
     },
     {
+      "epoch": 20.0,
+      "step": 260,
+      "total_flos": 8.20362235004928e+17,
+      "train_loss": 0.5571963181862465,
+      "train_runtime": 609.4825,
+      "train_samples_per_second": 54.144,
+      "train_steps_per_second": 0.427
     }
   ],
   "logging_steps": 10,
+  "max_steps": 260,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 8.20362235004928e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31db4e15bc122328884fffd9af99f49c1ffd8d377e87be06b8dff93c776d2a67
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b0555bcf04ab7d8d5aeefe806f7ef0df233cbc59e70f6e8b8126b58b379d322
 size 5176