Training in progress, step 100

Browse files

Files changed (11) hide show

all_results.json +16 -0
config.json +1 -1
eval_results.json +11 -0
model.safetensors +1 -1
preprocessor_config.json +14 -0
runs/Mar18_15-27-23_9c311a5b3773/events.out.tfevents.1710777139.9c311a5b3773.3314.21 +3 -0
runs/Mar18_16-06-19_9c311a5b3773/events.out.tfevents.1710777980.9c311a5b3773.3314.22 +3 -0
runs/Mar18_16-51-36_9c311a5b3773/events.out.tfevents.1710780698.9c311a5b3773.175663.0 +3 -0
train_results.json +8 -0
trainer_state.json +1506 -0
training_args.bin +1 -1

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 5.61,
+    "eval_accuracy": 0.8401525658807212,
+    "eval_f1": 0.8300860373682543,
+    "eval_loss": 0.5152533650398254,
+    "eval_precision": 0.8326625217058278,
+    "eval_recall": 0.8401525658807212,
+    "eval_runtime": 41.5803,
+    "eval_samples_per_second": 69.36,
+    "eval_steps_per_second": 8.682,
+    "total_flos": 2.2287694956200755e+18,
+    "train_loss": 0.2732895821850333,
+    "train_runtime": 1429.5622,
+    "train_samples_per_second": 358.711,
+    "train_steps_per_second": 22.454
+}

config.json CHANGED Viewed

@@ -38,5 +38,5 @@
   "problem_type": "single_label_classification",
   "qkv_bias": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.38.2"
 }

   "problem_type": "single_label_classification",
   "qkv_bias": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.39.0.dev0"
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 5.61,
+    "eval_accuracy": 0.8401525658807212,
+    "eval_f1": 0.8300860373682543,
+    "eval_loss": 0.5152533650398254,
+    "eval_precision": 0.8326625217058278,
+    "eval_recall": 0.8401525658807212,
+    "eval_runtime": 41.5803,
+    "eval_samples_per_second": 69.36,
+    "eval_steps_per_second": 8.682
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b63414d64d58868f9f12778c6f4f12d4cc8636a13e329ba9be76845535c66c90
 size 343239356

 version https://git-lfs.github.com/spec/v1
+oid sha256:37533831bd4454eece4c9e58d37e99dbcb12d932787fa67126bf9fdb7eabae8f
 size 343239356

preprocessor_config.json CHANGED Viewed

@@ -1,4 +1,18 @@
 {
   "do_normalize": true,
   "do_rescale": true,
   "do_resize": true,

 {
+  "_valid_processor_keys": [
+    "images",
+    "do_resize",
+    "size",
+    "resample",
+    "do_rescale",
+    "rescale_factor",
+    "do_normalize",
+    "image_mean",
+    "image_std",
+    "return_tensors",
+    "data_format",
+    "input_data_format"
+  ],
   "do_normalize": true,
   "do_rescale": true,
   "do_resize": true,

runs/Mar18_15-27-23_9c311a5b3773/events.out.tfevents.1710777139.9c311a5b3773.3314.21 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf8da78b31ec82b4130ab6869cf4497bea3a268b69f7e03c1ab9efdf51e57e86
+size 560

runs/Mar18_16-06-19_9c311a5b3773/events.out.tfevents.1710777980.9c311a5b3773.3314.22 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9d64a813e3ef537dcb26823e2bc3876e5441054327691f52e866098a8c85c4a
+size 4700

runs/Mar18_16-51-36_9c311a5b3773/events.out.tfevents.1710780698.9c311a5b3773.175663.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e7dd54f595722d5a95266c3b948b19757260d44ead65a25472066167ac1409c
+size 7264

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.61,
+    "total_flos": 2.2287694956200755e+18,
+    "train_loss": 0.2732895821850333,
+    "train_runtime": 1429.5622,
+    "train_samples_per_second": 358.711,
+    "train_steps_per_second": 22.454
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1506 @@

+{
+  "best_metric": 0.5152533650398254,
+  "best_model_checkpoint": "./vit-lr-cosine-restarts/checkpoint-800",
+  "epoch": 5.607476635514018,
+  "eval_steps": 100,
+  "global_step": 1800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 5.076780319213867,
+      "learning_rate": 9.999998060388815e-05,
+      "loss": 1.3486,
+      "step": 10
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 4.030631065368652,
+      "learning_rate": 9.999991355561956e-05,
+      "loss": 0.7525,
+      "step": 20
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 4.877225875854492,
+      "learning_rate": 9.999979861580028e-05,
+      "loss": 0.833,
+      "step": 30
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 7.290777683258057,
+      "learning_rate": 9.99996357845404e-05,
+      "loss": 0.9935,
+      "step": 40
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 5.126965522766113,
+      "learning_rate": 9.999942506199588e-05,
+      "loss": 0.7271,
+      "step": 50
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 6.139286518096924,
+      "learning_rate": 9.999916644836857e-05,
+      "loss": 0.8015,
+      "step": 60
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 4.372274398803711,
+      "learning_rate": 9.999885994390619e-05,
+      "loss": 0.8235,
+      "step": 70
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 4.294188976287842,
+      "learning_rate": 9.999850554890226e-05,
+      "loss": 0.6745,
+      "step": 80
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 5.877817153930664,
+      "learning_rate": 9.999810326369631e-05,
+      "loss": 0.6976,
+      "step": 90
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 4.55079984664917,
+      "learning_rate": 9.999765308867361e-05,
+      "loss": 0.5734,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "eval_accuracy": 0.7884882108183079,
+      "eval_f1": 0.7654615392142581,
+      "eval_loss": 0.6007876992225647,
+      "eval_precision": 0.763065724803555,
+      "eval_recall": 0.7884882108183079,
+      "eval_runtime": 39.2669,
+      "eval_samples_per_second": 73.446,
+      "eval_steps_per_second": 9.193,
+      "step": 100
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 3.842815399169922,
+      "learning_rate": 9.999715502426537e-05,
+      "loss": 0.6458,
+      "step": 110
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 8.019635200500488,
+      "learning_rate": 9.999660907094863e-05,
+      "loss": 0.6384,
+      "step": 120
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 7.878860950469971,
+      "learning_rate": 9.999601522924635e-05,
+      "loss": 0.7051,
+      "step": 130
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 2.1701011657714844,
+      "learning_rate": 9.999537349972733e-05,
+      "loss": 0.5199,
+      "step": 140
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 4.154609680175781,
+      "learning_rate": 9.999468388300622e-05,
+      "loss": 0.5967,
+      "step": 150
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 5.633548259735107,
+      "learning_rate": 9.999394637974358e-05,
+      "loss": 0.5481,
+      "step": 160
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 3.171057939529419,
+      "learning_rate": 9.99931609906458e-05,
+      "loss": 0.6302,
+      "step": 170
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 5.892911911010742,
+      "learning_rate": 9.999232771646514e-05,
+      "loss": 0.655,
+      "step": 180
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 3.430375576019287,
+      "learning_rate": 9.999144655799976e-05,
+      "loss": 0.5747,
+      "step": 190
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 5.8416056632995605,
+      "learning_rate": 9.999051751609367e-05,
+      "loss": 0.5602,
+      "step": 200
+    },
+    {
+      "epoch": 0.62,
+      "eval_accuracy": 0.7541608876560333,
+      "eval_f1": 0.7003949849463896,
+      "eval_loss": 0.784325361251831,
+      "eval_precision": 0.742547935218919,
+      "eval_recall": 0.7541608876560333,
+      "eval_runtime": 38.9694,
+      "eval_samples_per_second": 74.007,
+      "eval_steps_per_second": 9.264,
+      "step": 200
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 5.451653480529785,
+      "learning_rate": 9.998954059163672e-05,
+      "loss": 0.6803,
+      "step": 210
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 6.584908485412598,
+      "learning_rate": 9.998851578556461e-05,
+      "loss": 0.7019,
+      "step": 220
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 2.3256571292877197,
+      "learning_rate": 9.998744309885899e-05,
+      "loss": 0.4028,
+      "step": 230
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 3.929255962371826,
+      "learning_rate": 9.998632253254729e-05,
+      "loss": 0.5235,
+      "step": 240
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 4.65420389175415,
+      "learning_rate": 9.998515408770281e-05,
+      "loss": 0.6575,
+      "step": 250
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 5.167401313781738,
+      "learning_rate": 9.998393776544475e-05,
+      "loss": 0.5393,
+      "step": 260
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 3.1561028957366943,
+      "learning_rate": 9.998267356693811e-05,
+      "loss": 0.4725,
+      "step": 270
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 4.633551597595215,
+      "learning_rate": 9.998136149339382e-05,
+      "loss": 0.4838,
+      "step": 280
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 6.649106979370117,
+      "learning_rate": 9.99800015460686e-05,
+      "loss": 0.6252,
+      "step": 290
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 6.892623424530029,
+      "learning_rate": 9.997859372626506e-05,
+      "loss": 0.7117,
+      "step": 300
+    },
+    {
+      "epoch": 0.93,
+      "eval_accuracy": 0.7659500693481276,
+      "eval_f1": 0.7754174880710092,
+      "eval_loss": 0.6221866011619568,
+      "eval_precision": 0.8158439426784209,
+      "eval_recall": 0.7659500693481276,
+      "eval_runtime": 38.9156,
+      "eval_samples_per_second": 74.109,
+      "eval_steps_per_second": 9.276,
+      "step": 300
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 5.1511149406433105,
+      "learning_rate": 9.997713803533167e-05,
+      "loss": 0.5396,
+      "step": 310
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 5.100913047790527,
+      "learning_rate": 9.997563447466271e-05,
+      "loss": 0.4868,
+      "step": 320
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 5.780107498168945,
+      "learning_rate": 9.997408304569836e-05,
+      "loss": 0.4748,
+      "step": 330
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 5.687930107116699,
+      "learning_rate": 9.997248374992462e-05,
+      "loss": 0.3881,
+      "step": 340
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 3.1763672828674316,
+      "learning_rate": 9.997083658887336e-05,
+      "loss": 0.4268,
+      "step": 350
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 2.4463164806365967,
+      "learning_rate": 9.996914156412227e-05,
+      "loss": 0.2806,
+      "step": 360
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 3.662301778793335,
+      "learning_rate": 9.99673986772949e-05,
+      "loss": 0.4249,
+      "step": 370
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 7.021162986755371,
+      "learning_rate": 9.996560793006067e-05,
+      "loss": 0.4093,
+      "step": 380
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 4.5534539222717285,
+      "learning_rate": 9.996376932413478e-05,
+      "loss": 0.4531,
+      "step": 390
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.38512921333313,
+      "learning_rate": 9.996188286127832e-05,
+      "loss": 0.4445,
+      "step": 400
+    },
+    {
+      "epoch": 1.25,
+      "eval_accuracy": 0.7923023578363384,
+      "eval_f1": 0.7998929576261109,
+      "eval_loss": 0.5481300950050354,
+      "eval_precision": 0.8180996676834356,
+      "eval_recall": 0.7923023578363384,
+      "eval_runtime": 39.7555,
+      "eval_samples_per_second": 72.543,
+      "eval_steps_per_second": 9.081,
+      "step": 400
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 4.16684103012085,
+      "learning_rate": 9.995994854329822e-05,
+      "loss": 0.3825,
+      "step": 410
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 4.1305155754089355,
+      "learning_rate": 9.995796637204721e-05,
+      "loss": 0.4733,
+      "step": 420
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 5.665832042694092,
+      "learning_rate": 9.99559363494239e-05,
+      "loss": 0.5294,
+      "step": 430
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 4.365192413330078,
+      "learning_rate": 9.995385847737268e-05,
+      "loss": 0.4245,
+      "step": 440
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 4.794129371643066,
+      "learning_rate": 9.995173275788385e-05,
+      "loss": 0.3817,
+      "step": 450
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 5.548172950744629,
+      "learning_rate": 9.994955919299347e-05,
+      "loss": 0.4014,
+      "step": 460
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 3.7581427097320557,
+      "learning_rate": 9.994733778478344e-05,
+      "loss": 0.3768,
+      "step": 470
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 6.855079174041748,
+      "learning_rate": 9.994506853538152e-05,
+      "loss": 0.4268,
+      "step": 480
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 4.8678483963012695,
+      "learning_rate": 9.994275144696124e-05,
+      "loss": 0.4195,
+      "step": 490
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 2.5210819244384766,
+      "learning_rate": 9.994038652174203e-05,
+      "loss": 0.3471,
+      "step": 500
+    },
+    {
+      "epoch": 1.56,
+      "eval_accuracy": 0.8217753120665742,
+      "eval_f1": 0.8047594572379952,
+      "eval_loss": 0.5284826159477234,
+      "eval_precision": 0.8158080424554234,
+      "eval_recall": 0.8217753120665742,
+      "eval_runtime": 39.5975,
+      "eval_samples_per_second": 72.833,
+      "eval_steps_per_second": 9.117,
+      "step": 500
+    },
+    {
+      "epoch": 1.59,
+      "grad_norm": 3.7428205013275146,
+      "learning_rate": 9.993797376198904e-05,
+      "loss": 0.4145,
+      "step": 510
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 4.127384185791016,
+      "learning_rate": 9.993551317001332e-05,
+      "loss": 0.3791,
+      "step": 520
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 5.904128074645996,
+      "learning_rate": 9.993300474817171e-05,
+      "loss": 0.4183,
+      "step": 530
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 3.835289478302002,
+      "learning_rate": 9.993044849886683e-05,
+      "loss": 0.3489,
+      "step": 540
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 4.441788673400879,
+      "learning_rate": 9.992784442454718e-05,
+      "loss": 0.52,
+      "step": 550
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 4.608953475952148,
+      "learning_rate": 9.9925192527707e-05,
+      "loss": 0.4983,
+      "step": 560
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 3.4798424243927,
+      "learning_rate": 9.992249281088636e-05,
+      "loss": 0.3766,
+      "step": 570
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 3.5282986164093018,
+      "learning_rate": 9.991974527667115e-05,
+      "loss": 0.2979,
+      "step": 580
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 6.50264310836792,
+      "learning_rate": 9.991694992769305e-05,
+      "loss": 0.4602,
+      "step": 590
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 1.7083078622817993,
+      "learning_rate": 9.991410676662952e-05,
+      "loss": 0.3144,
+      "step": 600
+    },
+    {
+      "epoch": 1.87,
+      "eval_accuracy": 0.7961165048543689,
+      "eval_f1": 0.8022817302667706,
+      "eval_loss": 0.5565336346626282,
+      "eval_precision": 0.8311598226972493,
+      "eval_recall": 0.7961165048543689,
+      "eval_runtime": 38.759,
+      "eval_samples_per_second": 74.408,
+      "eval_steps_per_second": 9.314,
+      "step": 600
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 5.729618549346924,
+      "learning_rate": 9.991121579620385e-05,
+      "loss": 0.4488,
+      "step": 610
+    },
+    {
+      "epoch": 1.93,
+      "grad_norm": 3.340083599090576,
+      "learning_rate": 9.99082770191851e-05,
+      "loss": 0.3636,
+      "step": 620
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 2.685565710067749,
+      "learning_rate": 9.990529043838812e-05,
+      "loss": 0.2454,
+      "step": 630
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 4.4097676277160645,
+      "learning_rate": 9.990225605667357e-05,
+      "loss": 0.413,
+      "step": 640
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 3.5152175426483154,
+      "learning_rate": 9.989917387694786e-05,
+      "loss": 0.2442,
+      "step": 650
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 3.326936960220337,
+      "learning_rate": 9.989604390216322e-05,
+      "loss": 0.206,
+      "step": 660
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 5.301408767700195,
+      "learning_rate": 9.989286613531763e-05,
+      "loss": 0.305,
+      "step": 670
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 4.104938507080078,
+      "learning_rate": 9.988964057945486e-05,
+      "loss": 0.2568,
+      "step": 680
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 3.0700721740722656,
+      "learning_rate": 9.988636723766446e-05,
+      "loss": 0.2259,
+      "step": 690
+    },
+    {
+      "epoch": 2.18,
+      "grad_norm": 2.798845052719116,
+      "learning_rate": 9.988304611308174e-05,
+      "loss": 0.1702,
+      "step": 700
+    },
+    {
+      "epoch": 2.18,
+      "eval_accuracy": 0.8255894590846047,
+      "eval_f1": 0.8239856028376362,
+      "eval_loss": 0.5403878688812256,
+      "eval_precision": 0.8319658160543976,
+      "eval_recall": 0.8255894590846047,
+      "eval_runtime": 39.5591,
+      "eval_samples_per_second": 72.903,
+      "eval_steps_per_second": 9.126,
+      "step": 700
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 0.7119998931884766,
+      "learning_rate": 9.987967720888777e-05,
+      "loss": 0.1882,
+      "step": 710
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 4.365331649780273,
+      "learning_rate": 9.987626052830943e-05,
+      "loss": 0.3553,
+      "step": 720
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 5.9306511878967285,
+      "learning_rate": 9.98727960746193e-05,
+      "loss": 0.3306,
+      "step": 730
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 1.0953195095062256,
+      "learning_rate": 9.986928385113575e-05,
+      "loss": 0.1931,
+      "step": 740
+    },
+    {
+      "epoch": 2.34,
+      "grad_norm": 6.899849891662598,
+      "learning_rate": 9.986572386122291e-05,
+      "loss": 0.1806,
+      "step": 750
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 1.6626615524291992,
+      "learning_rate": 9.986211610829065e-05,
+      "loss": 0.1701,
+      "step": 760
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 4.0154709815979,
+      "learning_rate": 9.98584605957946e-05,
+      "loss": 0.2327,
+      "step": 770
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 2.971966028213501,
+      "learning_rate": 9.98547573272361e-05,
+      "loss": 0.3,
+      "step": 780
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 3.9327046871185303,
+      "learning_rate": 9.985100630616231e-05,
+      "loss": 0.3169,
+      "step": 790
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 2.108839750289917,
+      "learning_rate": 9.984720753616604e-05,
+      "loss": 0.2557,
+      "step": 800
+    },
+    {
+      "epoch": 2.49,
+      "eval_accuracy": 0.8401525658807212,
+      "eval_f1": 0.8300860373682543,
+      "eval_loss": 0.5152533650398254,
+      "eval_precision": 0.8326625217058278,
+      "eval_recall": 0.8401525658807212,
+      "eval_runtime": 39.7502,
+      "eval_samples_per_second": 72.553,
+      "eval_steps_per_second": 9.082,
+      "step": 800
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 2.910875082015991,
+      "learning_rate": 9.98433610208859e-05,
+      "loss": 0.4144,
+      "step": 810
+    },
+    {
+      "epoch": 2.55,
+      "grad_norm": 3.922912359237671,
+      "learning_rate": 9.98394667640062e-05,
+      "loss": 0.2054,
+      "step": 820
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 4.223613739013672,
+      "learning_rate": 9.983552476925697e-05,
+      "loss": 0.2299,
+      "step": 830
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 4.242312908172607,
+      "learning_rate": 9.983153504041402e-05,
+      "loss": 0.176,
+      "step": 840
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 2.051708936691284,
+      "learning_rate": 9.98274975812988e-05,
+      "loss": 0.1621,
+      "step": 850
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 4.030768871307373,
+      "learning_rate": 9.982341239577855e-05,
+      "loss": 0.2601,
+      "step": 860
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 3.5723698139190674,
+      "learning_rate": 9.98192794877662e-05,
+      "loss": 0.2528,
+      "step": 870
+    },
+    {
+      "epoch": 2.74,
+      "grad_norm": 8.439871788024902,
+      "learning_rate": 9.981509886122034e-05,
+      "loss": 0.2787,
+      "step": 880
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 1.1091142892837524,
+      "learning_rate": 9.981087052014534e-05,
+      "loss": 0.2204,
+      "step": 890
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 6.232639312744141,
+      "learning_rate": 9.980659446859127e-05,
+      "loss": 0.1579,
+      "step": 900
+    },
+    {
+      "epoch": 2.8,
+      "eval_accuracy": 0.8217753120665742,
+      "eval_f1": 0.8250088481014233,
+      "eval_loss": 0.5866798162460327,
+      "eval_precision": 0.841958803508682,
+      "eval_recall": 0.8217753120665742,
+      "eval_runtime": 39.5043,
+      "eval_samples_per_second": 73.005,
+      "eval_steps_per_second": 9.138,
+      "step": 900
+    },
+    {
+      "epoch": 2.83,
+      "grad_norm": 7.044712543487549,
+      "learning_rate": 9.980227071065382e-05,
+      "loss": 0.3333,
+      "step": 910
+    },
+    {
+      "epoch": 2.87,
+      "grad_norm": 5.107402324676514,
+      "learning_rate": 9.979789925047447e-05,
+      "loss": 0.2788,
+      "step": 920
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 3.1622753143310547,
+      "learning_rate": 9.979348009224032e-05,
+      "loss": 0.3464,
+      "step": 930
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 6.17850399017334,
+      "learning_rate": 9.97890132401842e-05,
+      "loss": 0.3268,
+      "step": 940
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 0.5498158931732178,
+      "learning_rate": 9.978449869858458e-05,
+      "loss": 0.2121,
+      "step": 950
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 5.8213300704956055,
+      "learning_rate": 9.977993647176566e-05,
+      "loss": 0.1871,
+      "step": 960
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 0.513097882270813,
+      "learning_rate": 9.97753265640973e-05,
+      "loss": 0.1037,
+      "step": 970
+    },
+    {
+      "epoch": 3.05,
+      "grad_norm": 5.008875846862793,
+      "learning_rate": 9.977066897999499e-05,
+      "loss": 0.1076,
+      "step": 980
+    },
+    {
+      "epoch": 3.08,
+      "grad_norm": 2.2303969860076904,
+      "learning_rate": 9.976596372391993e-05,
+      "loss": 0.0691,
+      "step": 990
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 2.022919178009033,
+      "learning_rate": 9.976121080037899e-05,
+      "loss": 0.0815,
+      "step": 1000
+    },
+    {
+      "epoch": 3.12,
+      "eval_accuracy": 0.8401525658807212,
+      "eval_f1": 0.8350952876276385,
+      "eval_loss": 0.621809184551239,
+      "eval_precision": 0.8475972155785173,
+      "eval_recall": 0.8401525658807212,
+      "eval_runtime": 41.1855,
+      "eval_samples_per_second": 70.025,
+      "eval_steps_per_second": 8.765,
+      "step": 1000
+    },
+    {
+      "epoch": 3.15,
+      "grad_norm": 3.9770946502685547,
+      "learning_rate": 9.975641021392464e-05,
+      "loss": 0.0985,
+      "step": 1010
+    },
+    {
+      "epoch": 3.18,
+      "grad_norm": 1.0038492679595947,
+      "learning_rate": 9.975156196915505e-05,
+      "loss": 0.1406,
+      "step": 1020
+    },
+    {
+      "epoch": 3.21,
+      "grad_norm": 2.54162335395813,
+      "learning_rate": 9.974666607071404e-05,
+      "loss": 0.1524,
+      "step": 1030
+    },
+    {
+      "epoch": 3.24,
+      "grad_norm": 3.7266845703125,
+      "learning_rate": 9.974172252329104e-05,
+      "loss": 0.0771,
+      "step": 1040
+    },
+    {
+      "epoch": 3.27,
+      "grad_norm": 8.810432434082031,
+      "learning_rate": 9.973673133162115e-05,
+      "loss": 0.1663,
+      "step": 1050
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 0.4533999562263489,
+      "learning_rate": 9.973169250048511e-05,
+      "loss": 0.0733,
+      "step": 1060
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.25851675868034363,
+      "learning_rate": 9.972660603470927e-05,
+      "loss": 0.1261,
+      "step": 1070
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 4.003190994262695,
+      "learning_rate": 9.97214719391656e-05,
+      "loss": 0.1786,
+      "step": 1080
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 3.595621109008789,
+      "learning_rate": 9.971629021877172e-05,
+      "loss": 0.0972,
+      "step": 1090
+    },
+    {
+      "epoch": 3.43,
+      "grad_norm": 2.7062487602233887,
+      "learning_rate": 9.971106087849084e-05,
+      "loss": 0.1075,
+      "step": 1100
+    },
+    {
+      "epoch": 3.43,
+      "eval_accuracy": 0.8429264909847434,
+      "eval_f1": 0.8341860243029758,
+      "eval_loss": 0.6122580170631409,
+      "eval_precision": 0.8456371193220292,
+      "eval_recall": 0.8429264909847434,
+      "eval_runtime": 39.1852,
+      "eval_samples_per_second": 73.599,
+      "eval_steps_per_second": 9.213,
+      "step": 1100
+    },
+    {
+      "epoch": 3.46,
+      "grad_norm": 4.331242561340332,
+      "learning_rate": 9.97057839233318e-05,
+      "loss": 0.0529,
+      "step": 1110
+    },
+    {
+      "epoch": 3.49,
+      "grad_norm": 4.688290119171143,
+      "learning_rate": 9.970045935834904e-05,
+      "loss": 0.1567,
+      "step": 1120
+    },
+    {
+      "epoch": 3.52,
+      "grad_norm": 6.66792106628418,
+      "learning_rate": 9.96950871886426e-05,
+      "loss": 0.053,
+      "step": 1130
+    },
+    {
+      "epoch": 3.55,
+      "grad_norm": 13.5020170211792,
+      "learning_rate": 9.968966741935813e-05,
+      "loss": 0.1816,
+      "step": 1140
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 2.9301021099090576,
+      "learning_rate": 9.968420005568684e-05,
+      "loss": 0.1387,
+      "step": 1150
+    },
+    {
+      "epoch": 3.61,
+      "grad_norm": 0.7428218126296997,
+      "learning_rate": 9.967868510286557e-05,
+      "loss": 0.2021,
+      "step": 1160
+    },
+    {
+      "epoch": 3.64,
+      "grad_norm": 5.887143611907959,
+      "learning_rate": 9.967312256617671e-05,
+      "loss": 0.1325,
+      "step": 1170
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 0.15455959737300873,
+      "learning_rate": 9.966751245094823e-05,
+      "loss": 0.0623,
+      "step": 1180
+    },
+    {
+      "epoch": 3.71,
+      "grad_norm": 11.433218002319336,
+      "learning_rate": 9.966185476255371e-05,
+      "loss": 0.099,
+      "step": 1190
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 1.5371123552322388,
+      "learning_rate": 9.965614950641225e-05,
+      "loss": 0.161,
+      "step": 1200
+    },
+    {
+      "epoch": 3.74,
+      "eval_accuracy": 0.8509015256588072,
+      "eval_f1": 0.8419411480198592,
+      "eval_loss": 0.6438868045806885,
+      "eval_precision": 0.8478228582682292,
+      "eval_recall": 0.8509015256588072,
+      "eval_runtime": 39.7116,
+      "eval_samples_per_second": 72.624,
+      "eval_steps_per_second": 9.091,
+      "step": 1200
+    },
+    {
+      "epoch": 3.77,
+      "grad_norm": 5.211598873138428,
+      "learning_rate": 9.965039668798855e-05,
+      "loss": 0.1748,
+      "step": 1210
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 6.897021770477295,
+      "learning_rate": 9.96445963127928e-05,
+      "loss": 0.2178,
+      "step": 1220
+    },
+    {
+      "epoch": 3.83,
+      "grad_norm": 2.0479114055633545,
+      "learning_rate": 9.963874838638084e-05,
+      "loss": 0.0631,
+      "step": 1230
+    },
+    {
+      "epoch": 3.86,
+      "grad_norm": 0.7689093351364136,
+      "learning_rate": 9.963285291435398e-05,
+      "loss": 0.1147,
+      "step": 1240
+    },
+    {
+      "epoch": 3.89,
+      "grad_norm": 0.16739872097969055,
+      "learning_rate": 9.96269099023591e-05,
+      "loss": 0.1705,
+      "step": 1250
+    },
+    {
+      "epoch": 3.93,
+      "grad_norm": 0.712565004825592,
+      "learning_rate": 9.962091935608861e-05,
+      "loss": 0.0937,
+      "step": 1260
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 9.288028717041016,
+      "learning_rate": 9.961488128128047e-05,
+      "loss": 0.1466,
+      "step": 1270
+    },
+    {
+      "epoch": 3.99,
+      "grad_norm": 1.646752119064331,
+      "learning_rate": 9.960879568371813e-05,
+      "loss": 0.0806,
+      "step": 1280
+    },
+    {
+      "epoch": 4.02,
+      "grad_norm": 0.14091795682907104,
+      "learning_rate": 9.960266256923055e-05,
+      "loss": 0.0882,
+      "step": 1290
+    },
+    {
+      "epoch": 4.05,
+      "grad_norm": 0.6831271052360535,
+      "learning_rate": 9.959648194369227e-05,
+      "loss": 0.0446,
+      "step": 1300
+    },
+    {
+      "epoch": 4.05,
+      "eval_accuracy": 0.8561026352288488,
+      "eval_f1": 0.8516177334392149,
+      "eval_loss": 0.6347180008888245,
+      "eval_precision": 0.8514533351685835,
+      "eval_recall": 0.8561026352288488,
+      "eval_runtime": 39.1555,
+      "eval_samples_per_second": 73.655,
+      "eval_steps_per_second": 9.22,
+      "step": 1300
+    },
+    {
+      "epoch": 4.08,
+      "grad_norm": 0.6896274089813232,
+      "learning_rate": 9.959025381302325e-05,
+      "loss": 0.0551,
+      "step": 1310
+    },
+    {
+      "epoch": 4.11,
+      "grad_norm": 1.7469240427017212,
+      "learning_rate": 9.958397818318904e-05,
+      "loss": 0.0172,
+      "step": 1320
+    },
+    {
+      "epoch": 4.14,
+      "grad_norm": 1.5375361442565918,
+      "learning_rate": 9.957765506020062e-05,
+      "loss": 0.1115,
+      "step": 1330
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 0.022675570100545883,
+      "learning_rate": 9.95712844501145e-05,
+      "loss": 0.0172,
+      "step": 1340
+    },
+    {
+      "epoch": 4.21,
+      "grad_norm": 0.012827737256884575,
+      "learning_rate": 9.956486635903263e-05,
+      "loss": 0.0473,
+      "step": 1350
+    },
+    {
+      "epoch": 4.24,
+      "grad_norm": 9.727991104125977,
+      "learning_rate": 9.955840079310251e-05,
+      "loss": 0.0425,
+      "step": 1360
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 0.1388218253850937,
+      "learning_rate": 9.955188775851703e-05,
+      "loss": 0.0799,
+      "step": 1370
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 6.434169769287109,
+      "learning_rate": 9.95453272615146e-05,
+      "loss": 0.1215,
+      "step": 1380
+    },
+    {
+      "epoch": 4.33,
+      "grad_norm": 0.04131891950964928,
+      "learning_rate": 9.953871930837908e-05,
+      "loss": 0.2098,
+      "step": 1390
+    },
+    {
+      "epoch": 4.36,
+      "grad_norm": 5.073083400726318,
+      "learning_rate": 9.953206390543979e-05,
+      "loss": 0.1209,
+      "step": 1400
+    },
+    {
+      "epoch": 4.36,
+      "eval_accuracy": 0.8453536754507628,
+      "eval_f1": 0.8453570551603792,
+      "eval_loss": 0.6838424801826477,
+      "eval_precision": 0.8481646167581471,
+      "eval_recall": 0.8453536754507628,
+      "eval_runtime": 40.1161,
+      "eval_samples_per_second": 71.891,
+      "eval_steps_per_second": 8.999,
+      "step": 1400
+    },
+    {
+      "epoch": 4.39,
+      "grad_norm": 0.1268097162246704,
+      "learning_rate": 9.952536105907148e-05,
+      "loss": 0.0401,
+      "step": 1410
+    },
+    {
+      "epoch": 4.42,
+      "grad_norm": 0.3008650839328766,
+      "learning_rate": 9.951861077569438e-05,
+      "loss": 0.0539,
+      "step": 1420
+    },
+    {
+      "epoch": 4.45,
+      "grad_norm": 1.8736006021499634,
+      "learning_rate": 9.951181306177408e-05,
+      "loss": 0.0375,
+      "step": 1430
+    },
+    {
+      "epoch": 4.49,
+      "grad_norm": 0.02439166232943535,
+      "learning_rate": 9.950496792382172e-05,
+      "loss": 0.0783,
+      "step": 1440
+    },
+    {
+      "epoch": 4.52,
+      "grad_norm": 2.347705841064453,
+      "learning_rate": 9.949807536839375e-05,
+      "loss": 0.0744,
+      "step": 1450
+    },
+    {
+      "epoch": 4.55,
+      "grad_norm": 0.04086657613515854,
+      "learning_rate": 9.94911354020921e-05,
+      "loss": 0.0466,
+      "step": 1460
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 1.9723145961761475,
+      "learning_rate": 9.94841480315641e-05,
+      "loss": 0.0459,
+      "step": 1470
+    },
+    {
+      "epoch": 4.61,
+      "grad_norm": 0.05683187022805214,
+      "learning_rate": 9.947711326350247e-05,
+      "loss": 0.1431,
+      "step": 1480
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 3.9203383922576904,
+      "learning_rate": 9.947003110464533e-05,
+      "loss": 0.0488,
+      "step": 1490
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 1.1523628234863281,
+      "learning_rate": 9.946290156177625e-05,
+      "loss": 0.006,
+      "step": 1500
+    },
+    {
+      "epoch": 4.67,
+      "eval_accuracy": 0.8394590846047156,
+      "eval_f1": 0.8362644621553696,
+      "eval_loss": 0.7756162285804749,
+      "eval_precision": 0.8375320979339962,
+      "eval_recall": 0.8394590846047156,
+      "eval_runtime": 40.2425,
+      "eval_samples_per_second": 71.666,
+      "eval_steps_per_second": 8.971,
+      "step": 1500
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 10.209505081176758,
+      "learning_rate": 9.945572464172408e-05,
+      "loss": 0.0775,
+      "step": 1510
+    },
+    {
+      "epoch": 4.74,
+      "grad_norm": 1.9617162942886353,
+      "learning_rate": 9.944850035136317e-05,
+      "loss": 0.0089,
+      "step": 1520
+    },
+    {
+      "epoch": 4.77,
+      "grad_norm": 4.741919994354248,
+      "learning_rate": 9.944122869761312e-05,
+      "loss": 0.0835,
+      "step": 1530
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 8.549369812011719,
+      "learning_rate": 9.943390968743899e-05,
+      "loss": 0.0569,
+      "step": 1540
+    },
+    {
+      "epoch": 4.83,
+      "grad_norm": 0.6695631146430969,
+      "learning_rate": 9.942654332785117e-05,
+      "loss": 0.1164,
+      "step": 1550
+    },
+    {
+      "epoch": 4.86,
+      "grad_norm": 4.1318278312683105,
+      "learning_rate": 9.94191296259054e-05,
+      "loss": 0.042,
+      "step": 1560
+    },
+    {
+      "epoch": 4.89,
+      "grad_norm": 6.556665897369385,
+      "learning_rate": 9.941166858870275e-05,
+      "loss": 0.045,
+      "step": 1570
+    },
+    {
+      "epoch": 4.92,
+      "grad_norm": 13.292597770690918,
+      "learning_rate": 9.940416022338966e-05,
+      "loss": 0.0682,
+      "step": 1580
+    },
+    {
+      "epoch": 4.95,
+      "grad_norm": 7.545276165008545,
+      "learning_rate": 9.939660453715789e-05,
+      "loss": 0.1476,
+      "step": 1590
+    },
+    {
+      "epoch": 4.98,
+      "grad_norm": 4.052639961242676,
+      "learning_rate": 9.93890015372445e-05,
+      "loss": 0.0219,
+      "step": 1600
+    },
+    {
+      "epoch": 4.98,
+      "eval_accuracy": 0.8280166435506241,
+      "eval_f1": 0.8270572625886861,
+      "eval_loss": 0.8814780116081238,
+      "eval_precision": 0.8368468785461194,
+      "eval_recall": 0.8280166435506241,
+      "eval_runtime": 39.3962,
+      "eval_samples_per_second": 73.205,
+      "eval_steps_per_second": 9.163,
+      "step": 1600
+    },
+    {
+      "epoch": 5.02,
+      "grad_norm": 0.7045537829399109,
+      "learning_rate": 9.93813512309319e-05,
+      "loss": 0.102,
+      "step": 1610
+    },
+    {
+      "epoch": 5.05,
+      "grad_norm": 0.47862136363983154,
+      "learning_rate": 9.937365362554782e-05,
+      "loss": 0.0198,
+      "step": 1620
+    },
+    {
+      "epoch": 5.08,
+      "grad_norm": 0.06051962450146675,
+      "learning_rate": 9.936590872846529e-05,
+      "loss": 0.029,
+      "step": 1630
+    },
+    {
+      "epoch": 5.11,
+      "grad_norm": 8.44522762298584,
+      "learning_rate": 9.935811654710257e-05,
+      "loss": 0.0077,
+      "step": 1640
+    },
+    {
+      "epoch": 5.14,
+      "grad_norm": 0.15062321722507477,
+      "learning_rate": 9.935027708892333e-05,
+      "loss": 0.011,
+      "step": 1650
+    },
+    {
+      "epoch": 5.17,
+      "grad_norm": 0.006027880124747753,
+      "learning_rate": 9.93423903614364e-05,
+      "loss": 0.0524,
+      "step": 1660
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.09458424896001816,
+      "learning_rate": 9.933445637219598e-05,
+      "loss": 0.074,
+      "step": 1670
+    },
+    {
+      "epoch": 5.23,
+      "grad_norm": 4.973755836486816,
+      "learning_rate": 9.932647512880151e-05,
+      "loss": 0.1273,
+      "step": 1680
+    },
+    {
+      "epoch": 5.26,
+      "grad_norm": 5.976691246032715,
+      "learning_rate": 9.931844663889766e-05,
+      "loss": 0.007,
+      "step": 1690
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 14.914401054382324,
+      "learning_rate": 9.931037091017441e-05,
+      "loss": 0.0616,
+      "step": 1700
+    },
+    {
+      "epoch": 5.3,
+      "eval_accuracy": 0.8155339805825242,
+      "eval_f1": 0.7863981529949345,
+      "eval_loss": 1.0824644565582275,
+      "eval_precision": 0.8128168319440793,
+      "eval_recall": 0.8155339805825242,
+      "eval_runtime": 38.9135,
+      "eval_samples_per_second": 74.113,
+      "eval_steps_per_second": 9.277,
+      "step": 1700
+    },
+    {
+      "epoch": 5.33,
+      "grad_norm": 0.02390890195965767,
+      "learning_rate": 9.930224795036694e-05,
+      "loss": 0.009,
+      "step": 1710
+    },
+    {
+      "epoch": 5.36,
+      "grad_norm": 6.92083740234375,
+      "learning_rate": 9.929407776725565e-05,
+      "loss": 0.118,
+      "step": 1720
+    },
+    {
+      "epoch": 5.39,
+      "grad_norm": 0.024119729176163673,
+      "learning_rate": 9.928586036866628e-05,
+      "loss": 0.0051,
+      "step": 1730
+    },
+    {
+      "epoch": 5.42,
+      "grad_norm": 8.526777267456055,
+      "learning_rate": 9.927759576246969e-05,
+      "loss": 0.1098,
+      "step": 1740
+    },
+    {
+      "epoch": 5.45,
+      "grad_norm": 2.77993106842041,
+      "learning_rate": 9.926928395658198e-05,
+      "loss": 0.1047,
+      "step": 1750
+    },
+    {
+      "epoch": 5.48,
+      "grad_norm": 0.030404316261410713,
+      "learning_rate": 9.926092495896446e-05,
+      "loss": 0.0495,
+      "step": 1760
+    },
+    {
+      "epoch": 5.51,
+      "grad_norm": 0.07882791757583618,
+      "learning_rate": 9.925251877762369e-05,
+      "loss": 0.0609,
+      "step": 1770
+    },
+    {
+      "epoch": 5.55,
+      "grad_norm": 1.615186095237732,
+      "learning_rate": 9.924406542061135e-05,
+      "loss": 0.0399,
+      "step": 1780
+    },
+    {
+      "epoch": 5.58,
+      "grad_norm": 5.359433650970459,
+      "learning_rate": 9.923556489602436e-05,
+      "loss": 0.032,
+      "step": 1790
+    },
+    {
+      "epoch": 5.61,
+      "grad_norm": 1.139506459236145,
+      "learning_rate": 9.922701721200479e-05,
+      "loss": 0.0305,
+      "step": 1800
+    },
+    {
+      "epoch": 5.61,
+      "eval_accuracy": 0.840499306518724,
+      "eval_f1": 0.8366786621950907,
+      "eval_loss": 0.8289232850074768,
+      "eval_precision": 0.8427815878781533,
+      "eval_recall": 0.840499306518724,
+      "eval_runtime": 40.1613,
+      "eval_samples_per_second": 71.81,
+      "eval_steps_per_second": 8.989,
+      "step": 1800
+    },
+    {
+      "epoch": 5.61,
+      "step": 1800,
+      "total_flos": 2.2287694956200755e+18,
+      "train_loss": 0.2732895821850333,
+      "train_runtime": 1429.5622,
+      "train_samples_per_second": 358.711,
+      "train_steps_per_second": 22.454
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 32100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 100,
+  "total_flos": 2.2287694956200755e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2a635317bae1c238244ca6e5e6c1f043e7908565728a9b0686c08020db030df
 size 4920

 version https://git-lfs.github.com/spec/v1
+oid sha256:aab637bd8e8c36001550bf35ab0a6ca3623a95000dfa39cb3d55b23c77bd97fc
 size 4920