🍻 cheers

Browse files

Files changed (6) hide show

README.md +7 -6
all_results.json +16 -0
eval_results.json +11 -0
runs/Mar19_05-57-04_6492c5bf3fae/events.out.tfevents.1710829161.6492c5bf3fae.6515.7 +3 -0
train_results.json +8 -0
trainer_state.json +1424 -0

README.md CHANGED Viewed

@@ -2,6 +2,7 @@
 license: apache-2.0
 base_model: google/vit-base-patch16-224
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -18,13 +19,13 @@ should probably proofread and complete it, then remove this comment. -->
 # vit-lr-inverse-sqrt
-This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6353
-- Accuracy: 0.8755
-- Precision: 0.8751
-- Recall: 0.8755
-- F1: 0.8725
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224
 tags:
+- image-classification
 - generated_from_trainer
 metrics:
 - accuracy
 # vit-lr-inverse-sqrt
+This model is a fine-tuned version of [google/vit-base-patch16-224](https://huggingface.co/google/vit-base-patch16-224) on the skin-cancer dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4469
+- Accuracy: 0.8499
+- Precision: 0.8565
+- Recall: 0.8499
+- F1: 0.8516
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 5.3,
+    "eval_accuracy": 0.8498613037447988,
+    "eval_f1": 0.8515512179522667,
+    "eval_loss": 0.44692692160606384,
+    "eval_precision": 0.856522763832034,
+    "eval_recall": 0.8498613037447988,
+    "eval_runtime": 37.3402,
+    "eval_samples_per_second": 77.236,
+    "eval_steps_per_second": 9.668,
+    "total_flos": 2.1047767559471923e+18,
+    "train_loss": 0.21456260421779005,
+    "train_runtime": 1227.9557,
+    "train_samples_per_second": 417.605,
+    "train_steps_per_second": 26.141
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 5.3,
+    "eval_accuracy": 0.8498613037447988,
+    "eval_f1": 0.8515512179522667,
+    "eval_loss": 0.44692692160606384,
+    "eval_precision": 0.856522763832034,
+    "eval_recall": 0.8498613037447988,
+    "eval_runtime": 37.3402,
+    "eval_samples_per_second": 77.236,
+    "eval_steps_per_second": 9.668
+}

runs/Mar19_05-57-04_6492c5bf3fae/events.out.tfevents.1710829161.6492c5bf3fae.6515.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:722b3ad70bd73a57d10c963d9971a604b3a146f600a192ab87fd18c1ec60a615
+size 560

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.3,
+    "total_flos": 2.1047767559471923e+18,
+    "train_loss": 0.21456260421779005,
+    "train_runtime": 1227.9557,
+    "train_samples_per_second": 417.605,
+    "train_steps_per_second": 26.141
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1424 @@

+{
+  "best_metric": 0.44692692160606384,
+  "best_model_checkpoint": "./vit-lr-inverse-sqrt/checkpoint-700",
+  "epoch": 5.29595015576324,
+  "eval_steps": 100,
+  "global_step": 1700,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 17.940969467163086,
+      "learning_rate": 1.125e-05,
+      "loss": 2.0172,
+      "step": 10
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 4.308961391448975,
+      "learning_rate": 2.375e-05,
+      "loss": 1.1159,
+      "step": 20
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 5.38205099105835,
+      "learning_rate": 3.625e-05,
+      "loss": 1.1398,
+      "step": 30
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 5.569328308105469,
+      "learning_rate": 4.875e-05,
+      "loss": 1.0508,
+      "step": 40
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 5.870121002197266,
+      "learning_rate": 6.125000000000001e-05,
+      "loss": 0.8095,
+      "step": 50
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 6.100069046020508,
+      "learning_rate": 7.375e-05,
+      "loss": 0.8756,
+      "step": 60
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 4.655179023742676,
+      "learning_rate": 8.625000000000001e-05,
+      "loss": 0.9221,
+      "step": 70
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 4.762995719909668,
+      "learning_rate": 9.875000000000002e-05,
+      "loss": 0.6852,
+      "step": 80
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 5.286139011383057,
+      "learning_rate": 9.480909262799545e-05,
+      "loss": 0.6655,
+      "step": 90
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 4.113163471221924,
+      "learning_rate": 8.989331499509895e-05,
+      "loss": 0.6694,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "eval_accuracy": 0.7631761442441054,
+      "eval_f1": 0.7499001805196772,
+      "eval_loss": 0.6511249542236328,
+      "eval_precision": 0.7557663051217941,
+      "eval_recall": 0.7631761442441054,
+      "eval_runtime": 36.5742,
+      "eval_samples_per_second": 78.853,
+      "eval_steps_per_second": 9.87,
+      "step": 100
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 3.8087217807769775,
+      "learning_rate": 8.567058737562387e-05,
+      "loss": 0.6742,
+      "step": 110
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 8.133487701416016,
+      "learning_rate": 8.199200616907878e-05,
+      "loss": 0.6546,
+      "step": 120
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 7.749859809875488,
+      "learning_rate": 7.874992309581578e-05,
+      "loss": 0.6175,
+      "step": 130
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 3.3360700607299805,
+      "learning_rate": 7.586432418108816e-05,
+      "loss": 0.4904,
+      "step": 140
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 4.42198371887207,
+      "learning_rate": 7.327433054473117e-05,
+      "loss": 0.5958,
+      "step": 150
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 6.188783168792725,
+      "learning_rate": 7.093269021319087e-05,
+      "loss": 0.5494,
+      "step": 160
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 4.339505672454834,
+      "learning_rate": 6.880209161537815e-05,
+      "loss": 0.5787,
+      "step": 170
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 7.221861362457275,
+      "learning_rate": 6.685262704648756e-05,
+      "loss": 0.6344,
+      "step": 180
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 6.194063663482666,
+      "learning_rate": 6.506000486323555e-05,
+      "loss": 0.5987,
+      "step": 190
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 5.874014854431152,
+      "learning_rate": 6.340426249482415e-05,
+      "loss": 0.5468,
+      "step": 200
+    },
+    {
+      "epoch": 0.62,
+      "eval_accuracy": 0.7617891816920943,
+      "eval_f1": 0.7109169676846827,
+      "eval_loss": 0.6536840796470642,
+      "eval_precision": 0.7713261180604432,
+      "eval_recall": 0.7617891816920943,
+      "eval_runtime": 36.698,
+      "eval_samples_per_second": 78.587,
+      "eval_steps_per_second": 9.837,
+      "step": 200
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 4.4315361976623535,
+      "learning_rate": 6.18688224889746e-05,
+      "loss": 0.6049,
+      "step": 210
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 6.3696699142456055,
+      "learning_rate": 6.043978852154994e-05,
+      "loss": 0.6266,
+      "step": 220
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 4.233091354370117,
+      "learning_rate": 5.910541245655418e-05,
+      "loss": 0.3634,
+      "step": 230
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.4452743530273438,
+      "learning_rate": 5.7855685414037173e-05,
+      "loss": 0.5039,
+      "step": 240
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 6.689948558807373,
+      "learning_rate": 5.6796183424706484e-05,
+      "loss": 0.6249,
+      "step": 250
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 5.241004467010498,
+      "learning_rate": 5.568460463897046e-05,
+      "loss": 0.4695,
+      "step": 260
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 3.0335886478424072,
+      "learning_rate": 5.46358364708153e-05,
+      "loss": 0.4405,
+      "step": 270
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 4.185052394866943,
+      "learning_rate": 5.364417807858201e-05,
+      "loss": 0.4555,
+      "step": 280
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 7.301243305206299,
+      "learning_rate": 5.270462766947299e-05,
+      "loss": 0.5954,
+      "step": 290
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 5.7551798820495605,
+      "learning_rate": 5.181277601508398e-05,
+      "loss": 0.6132,
+      "step": 300
+    },
+    {
+      "epoch": 0.93,
+      "eval_accuracy": 0.8144937586685159,
+      "eval_f1": 0.813842282595786,
+      "eval_loss": 0.5131940841674805,
+      "eval_precision": 0.8261935513216945,
+      "eval_recall": 0.8144937586685159,
+      "eval_runtime": 35.4672,
+      "eval_samples_per_second": 81.314,
+      "eval_steps_per_second": 10.178,
+      "step": 300
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 3.989379405975342,
+      "learning_rate": 5.0964719143762554e-05,
+      "loss": 0.4919,
+      "step": 310
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 6.611064910888672,
+      "learning_rate": 5.015698625755192e-05,
+      "loss": 0.4443,
+      "step": 320
+    },
+    {
+      "epoch": 1.03,
+      "grad_norm": 3.822683334350586,
+      "learning_rate": 4.9386479832479486e-05,
+      "loss": 0.4072,
+      "step": 330
+    },
+    {
+      "epoch": 1.06,
+      "grad_norm": 3.768205165863037,
+      "learning_rate": 4.865042554105199e-05,
+      "loss": 0.2584,
+      "step": 340
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 1.0489230155944824,
+      "learning_rate": 4.794633014853842e-05,
+      "loss": 0.3173,
+      "step": 350
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 3.1184098720550537,
+      "learning_rate": 4.727194592470655e-05,
+      "loss": 0.2359,
+      "step": 360
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 2.9331960678100586,
+      "learning_rate": 4.662524041201569e-05,
+      "loss": 0.2935,
+      "step": 370
+    },
+    {
+      "epoch": 1.18,
+      "grad_norm": 10.099534034729004,
+      "learning_rate": 4.600437062282362e-05,
+      "loss": 0.2998,
+      "step": 380
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 4.351399898529053,
+      "learning_rate": 4.540766091864998e-05,
+      "loss": 0.4389,
+      "step": 390
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.582808256149292,
+      "learning_rate": 4.4833583966222034e-05,
+      "loss": 0.3319,
+      "step": 400
+    },
+    {
+      "epoch": 1.25,
+      "eval_accuracy": 0.8307905686546463,
+      "eval_f1": 0.829309725170082,
+      "eval_loss": 0.47056975960731506,
+      "eval_precision": 0.8327103233714703,
+      "eval_recall": 0.8307905686546463,
+      "eval_runtime": 36.3423,
+      "eval_samples_per_second": 79.357,
+      "eval_steps_per_second": 9.933,
+      "step": 400
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 5.291513919830322,
+      "learning_rate": 4.428074427700477e-05,
+      "loss": 0.2839,
+      "step": 410
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 5.357462406158447,
+      "learning_rate": 4.3747863925980715e-05,
+      "loss": 0.3073,
+      "step": 420
+    },
+    {
+      "epoch": 1.34,
+      "grad_norm": 4.056901454925537,
+      "learning_rate": 4.32337701167117e-05,
+      "loss": 0.3814,
+      "step": 430
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 4.224523544311523,
+      "learning_rate": 4.273738431706883e-05,
+      "loss": 0.2582,
+      "step": 440
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 5.398918628692627,
+      "learning_rate": 4.225771273642583e-05,
+      "loss": 0.3279,
+      "step": 450
+    },
+    {
+      "epoch": 1.43,
+      "grad_norm": 4.845595359802246,
+      "learning_rate": 4.179383795285729e-05,
+      "loss": 0.2912,
+      "step": 460
+    },
+    {
+      "epoch": 1.46,
+      "grad_norm": 3.754013776779175,
+      "learning_rate": 4.1344911529736155e-05,
+      "loss": 0.224,
+      "step": 470
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 9.241665840148926,
+      "learning_rate": 4.0910147486461317e-05,
+      "loss": 0.3102,
+      "step": 480
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 6.650195598602295,
+      "learning_rate": 4.0488816508945806e-05,
+      "loss": 0.3613,
+      "step": 490
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 2.6371705532073975,
+      "learning_rate": 4.008024080281012e-05,
+      "loss": 0.2286,
+      "step": 500
+    },
+    {
+      "epoch": 1.56,
+      "eval_accuracy": 0.8352981969486823,
+      "eval_f1": 0.8225709280993477,
+      "eval_loss": 0.4952014982700348,
+      "eval_precision": 0.8446619811727021,
+      "eval_recall": 0.8352981969486823,
+      "eval_runtime": 37.026,
+      "eval_samples_per_second": 77.891,
+      "eval_steps_per_second": 9.75,
+      "step": 500
+    },
+    {
+      "epoch": 1.59,
+      "grad_norm": 2.9743077754974365,
+      "learning_rate": 3.9683789506627256e-05,
+      "loss": 0.3705,
+      "step": 510
+    },
+    {
+      "epoch": 1.62,
+      "grad_norm": 3.7261903285980225,
+      "learning_rate": 3.929887459459297e-05,
+      "loss": 0.305,
+      "step": 520
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 6.446900367736816,
+      "learning_rate": 3.892494720807615e-05,
+      "loss": 0.278,
+      "step": 530
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 2.1284918785095215,
+      "learning_rate": 3.856149436398495e-05,
+      "loss": 0.2053,
+      "step": 540
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 4.4590277671813965,
+      "learning_rate": 3.8208035995043505e-05,
+      "loss": 0.3642,
+      "step": 550
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 4.997034549713135,
+      "learning_rate": 3.786412228313765e-05,
+      "loss": 0.3187,
+      "step": 560
+    },
+    {
+      "epoch": 1.78,
+      "grad_norm": 2.7240359783172607,
+      "learning_rate": 3.752933125204008e-05,
+      "loss": 0.2594,
+      "step": 570
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 4.143340110778809,
+      "learning_rate": 3.720326659021623e-05,
+      "loss": 0.2151,
+      "step": 580
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 5.146928787231445,
+      "learning_rate": 3.688555567816587e-05,
+      "loss": 0.3299,
+      "step": 590
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 2.214599132537842,
+      "learning_rate": 3.6575847797972757e-05,
+      "loss": 0.2299,
+      "step": 600
+    },
+    {
+      "epoch": 1.87,
+      "eval_accuracy": 0.8366851595006934,
+      "eval_f1": 0.8357987474414161,
+      "eval_loss": 0.46962958574295044,
+      "eval_precision": 0.8516509479787296,
+      "eval_recall": 0.8366851595006934,
+      "eval_runtime": 35.6912,
+      "eval_samples_per_second": 80.804,
+      "eval_steps_per_second": 10.115,
+      "step": 600
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 3.345350980758667,
+      "learning_rate": 3.627381250550059e-05,
+      "loss": 0.273,
+      "step": 610
+    },
+    {
+      "epoch": 1.93,
+      "grad_norm": 5.383599758148193,
+      "learning_rate": 3.597913814805773e-05,
+      "loss": 0.2903,
+      "step": 620
+    },
+    {
+      "epoch": 1.96,
+      "grad_norm": 3.014591932296753,
+      "learning_rate": 3.5691530512412484e-05,
+      "loss": 0.2079,
+      "step": 630
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 3.041154146194458,
+      "learning_rate": 3.541071158982556e-05,
+      "loss": 0.2614,
+      "step": 640
+    },
+    {
+      "epoch": 2.02,
+      "grad_norm": 3.956765651702881,
+      "learning_rate": 3.513641844631533e-05,
+      "loss": 0.1976,
+      "step": 650
+    },
+    {
+      "epoch": 2.06,
+      "grad_norm": 4.5174736976623535,
+      "learning_rate": 3.4868402187720335e-05,
+      "loss": 0.1183,
+      "step": 660
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 1.5246050357818604,
+      "learning_rate": 3.460642701029914e-05,
+      "loss": 0.1483,
+      "step": 670
+    },
+    {
+      "epoch": 2.12,
+      "grad_norm": 4.209073066711426,
+      "learning_rate": 3.435026932863631e-05,
+      "loss": 0.1136,
+      "step": 680
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 3.5777525901794434,
+      "learning_rate": 3.4099716973523676e-05,
+      "loss": 0.0993,
+      "step": 690
+    },
+    {
+      "epoch": 2.18,
+      "grad_norm": 4.207378387451172,
+      "learning_rate": 3.385456845327663e-05,
+      "loss": 0.0542,
+      "step": 700
+    },
+    {
+      "epoch": 2.18,
+      "eval_accuracy": 0.8498613037447988,
+      "eval_f1": 0.8515512179522667,
+      "eval_loss": 0.44692692160606384,
+      "eval_precision": 0.856522763832034,
+      "eval_recall": 0.8498613037447988,
+      "eval_runtime": 35.9166,
+      "eval_samples_per_second": 80.297,
+      "eval_steps_per_second": 10.051,
+      "step": 700
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 2.78676438331604,
+      "learning_rate": 3.361463227264072e-05,
+      "loss": 0.1083,
+      "step": 710
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 3.2999024391174316,
+      "learning_rate": 3.337972630405625e-05,
+      "loss": 0.1755,
+      "step": 720
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 4.462038040161133,
+      "learning_rate": 3.3149677206589793e-05,
+      "loss": 0.1548,
+      "step": 730
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 2.0917258262634277,
+      "learning_rate": 3.2924319888319655e-05,
+      "loss": 0.0877,
+      "step": 740
+    },
+    {
+      "epoch": 2.34,
+      "grad_norm": 4.596163272857666,
+      "learning_rate": 3.2703497008386434e-05,
+      "loss": 0.1115,
+      "step": 750
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 0.25166478753089905,
+      "learning_rate": 3.24870585152958e-05,
+      "loss": 0.1126,
+      "step": 760
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 1.1833806037902832,
+      "learning_rate": 3.2274861218395145e-05,
+      "loss": 0.2144,
+      "step": 770
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 3.9837536811828613,
+      "learning_rate": 3.206676838974329e-05,
+      "loss": 0.1465,
+      "step": 780
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 0.4924279451370239,
+      "learning_rate": 3.1862649393858316e-05,
+      "loss": 0.1795,
+      "step": 790
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 7.527681350708008,
+      "learning_rate": 3.166237934306518e-05,
+      "loss": 0.198,
+      "step": 800
+    },
+    {
+      "epoch": 2.49,
+      "eval_accuracy": 0.8224687933425797,
+      "eval_f1": 0.8322706898840134,
+      "eval_loss": 0.5284662246704102,
+      "eval_precision": 0.8615898706530778,
+      "eval_recall": 0.8224687933425797,
+      "eval_runtime": 36.8194,
+      "eval_samples_per_second": 78.328,
+      "eval_steps_per_second": 9.805,
+      "step": 800
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 2.07871150970459,
+      "learning_rate": 3.146583877637763e-05,
+      "loss": 0.1241,
+      "step": 810
+    },
+    {
+      "epoch": 2.55,
+      "grad_norm": 8.270013809204102,
+      "learning_rate": 3.127291336003811e-05,
+      "loss": 0.1626,
+      "step": 820
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 4.030840873718262,
+      "learning_rate": 3.1083493608010464e-05,
+      "loss": 0.0771,
+      "step": 830
+    },
+    {
+      "epoch": 2.62,
+      "grad_norm": 3.374802589416504,
+      "learning_rate": 3.0897474620873045e-05,
+      "loss": 0.0761,
+      "step": 840
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 0.3307746946811676,
+      "learning_rate": 3.0714755841697564e-05,
+      "loss": 0.0477,
+      "step": 850
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 5.573653221130371,
+      "learning_rate": 3.0535240827622965e-05,
+      "loss": 0.0799,
+      "step": 860
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 1.2958701848983765,
+      "learning_rate": 3.035883703594582e-05,
+      "loss": 0.0984,
+      "step": 870
+    },
+    {
+      "epoch": 2.74,
+      "grad_norm": 3.165799379348755,
+      "learning_rate": 3.0185455623649106e-05,
+      "loss": 0.1073,
+      "step": 880
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 0.7759466767311096,
+      "learning_rate": 3.0015011259383213e-05,
+      "loss": 0.0734,
+      "step": 890
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 1.0856852531433105,
+      "learning_rate": 2.9847421946995018e-05,
+      "loss": 0.0311,
+      "step": 900
+    },
+    {
+      "epoch": 2.8,
+      "eval_accuracy": 0.8651178918169209,
+      "eval_f1": 0.8661898070442219,
+      "eval_loss": 0.4723583161830902,
+      "eval_precision": 0.8686654723138755,
+      "eval_recall": 0.8651178918169209,
+      "eval_runtime": 36.0484,
+      "eval_samples_per_second": 80.004,
+      "eval_steps_per_second": 10.014,
+      "step": 900
+    },
+    {
+      "epoch": 2.83,
+      "grad_norm": 0.283659428358078,
+      "learning_rate": 2.968260885977624e-05,
+      "loss": 0.0772,
+      "step": 910
+    },
+    {
+      "epoch": 2.87,
+      "grad_norm": 6.567378520965576,
+      "learning_rate": 2.9520496184669844e-05,
+      "loss": 0.1693,
+      "step": 920
+    },
+    {
+      "epoch": 2.9,
+      "grad_norm": 0.2684701681137085,
+      "learning_rate": 2.9361010975735175e-05,
+      "loss": 0.2045,
+      "step": 930
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 3.3332574367523193,
+      "learning_rate": 2.9204083016228457e-05,
+      "loss": 0.0739,
+      "step": 940
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 1.2437993288040161,
+      "learning_rate": 2.904964468870634e-05,
+      "loss": 0.0674,
+      "step": 950
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 12.299838066101074,
+      "learning_rate": 2.8897630852606727e-05,
+      "loss": 0.1677,
+      "step": 960
+    },
+    {
+      "epoch": 3.02,
+      "grad_norm": 5.6871442794799805,
+      "learning_rate": 2.8747978728803455e-05,
+      "loss": 0.0329,
+      "step": 970
+    },
+    {
+      "epoch": 3.05,
+      "grad_norm": 0.1499292105436325,
+      "learning_rate": 2.8600627790670087e-05,
+      "loss": 0.019,
+      "step": 980
+    },
+    {
+      "epoch": 3.08,
+      "grad_norm": 0.24846801161766052,
+      "learning_rate": 2.8455519661223613e-05,
+      "loss": 0.0075,
+      "step": 990
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.13459719717502594,
+      "learning_rate": 2.8312598015950882e-05,
+      "loss": 0.0543,
+      "step": 1000
+    },
+    {
+      "epoch": 3.12,
+      "eval_accuracy": 0.866504854368932,
+      "eval_f1": 0.8610792630184371,
+      "eval_loss": 0.4949225187301636,
+      "eval_precision": 0.8612246115926523,
+      "eval_recall": 0.866504854368932,
+      "eval_runtime": 36.1317,
+      "eval_samples_per_second": 79.819,
+      "eval_steps_per_second": 9.991,
+      "step": 1000
+    },
+    {
+      "epoch": 3.15,
+      "grad_norm": 5.778144836425781,
+      "learning_rate": 2.817180849095055e-05,
+      "loss": 0.0448,
+      "step": 1010
+    },
+    {
+      "epoch": 3.18,
+      "grad_norm": 0.5647971630096436,
+      "learning_rate": 2.803309859605025e-05,
+      "loss": 0.0279,
+      "step": 1020
+    },
+    {
+      "epoch": 3.21,
+      "grad_norm": 0.3868822157382965,
+      "learning_rate": 2.7896417632583534e-05,
+      "loss": 0.0175,
+      "step": 1030
+    },
+    {
+      "epoch": 3.24,
+      "grad_norm": 0.2270067036151886,
+      "learning_rate": 2.77617166155343e-05,
+      "loss": 0.0073,
+      "step": 1040
+    },
+    {
+      "epoch": 3.27,
+      "grad_norm": 0.43895870447158813,
+      "learning_rate": 2.762894819977688e-05,
+      "loss": 0.0243,
+      "step": 1050
+    },
+    {
+      "epoch": 3.3,
+      "grad_norm": 3.83394455909729,
+      "learning_rate": 2.749806661015982e-05,
+      "loss": 0.0217,
+      "step": 1060
+    },
+    {
+      "epoch": 3.33,
+      "grad_norm": 0.19903437793254852,
+      "learning_rate": 2.736902757519867e-05,
+      "loss": 0.0235,
+      "step": 1070
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 0.2069879025220871,
+      "learning_rate": 2.724178826415978e-05,
+      "loss": 0.0398,
+      "step": 1080
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 9.80591106414795,
+      "learning_rate": 2.711630722733202e-05,
+      "loss": 0.0649,
+      "step": 1090
+    },
+    {
+      "epoch": 3.43,
+      "grad_norm": 0.3856530487537384,
+      "learning_rate": 2.69925443392972e-05,
+      "loss": 0.0242,
+      "step": 1100
+    },
+    {
+      "epoch": 3.43,
+      "eval_accuracy": 0.8623439667128987,
+      "eval_f1": 0.8510243678619469,
+      "eval_loss": 0.6283301115036011,
+      "eval_precision": 0.8661193391176473,
+      "eval_recall": 0.8623439667128987,
+      "eval_runtime": 36.1111,
+      "eval_samples_per_second": 79.865,
+      "eval_steps_per_second": 9.997,
+      "step": 1100
+    },
+    {
+      "epoch": 3.46,
+      "grad_norm": 0.18870727717876434,
+      "learning_rate": 2.687046074502295e-05,
+      "loss": 0.0271,
+      "step": 1110
+    },
+    {
+      "epoch": 3.49,
+      "grad_norm": 1.5470973253250122,
+      "learning_rate": 2.675001880861359e-05,
+      "loss": 0.0398,
+      "step": 1120
+    },
+    {
+      "epoch": 3.52,
+      "grad_norm": 0.26312679052352905,
+      "learning_rate": 2.6631182064565375e-05,
+      "loss": 0.0141,
+      "step": 1130
+    },
+    {
+      "epoch": 3.55,
+      "grad_norm": 0.15462630987167358,
+      "learning_rate": 2.6513915171382936e-05,
+      "loss": 0.0761,
+      "step": 1140
+    },
+    {
+      "epoch": 3.58,
+      "grad_norm": 0.10996732115745544,
+      "learning_rate": 2.6398183867422732e-05,
+      "loss": 0.0048,
+      "step": 1150
+    },
+    {
+      "epoch": 3.61,
+      "grad_norm": 0.38109445571899414,
+      "learning_rate": 2.6283954928838412e-05,
+      "loss": 0.0243,
+      "step": 1160
+    },
+    {
+      "epoch": 3.64,
+      "grad_norm": 0.5097649097442627,
+      "learning_rate": 2.6171196129510684e-05,
+      "loss": 0.0362,
+      "step": 1170
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 0.05090225115418434,
+      "learning_rate": 2.605987620285215e-05,
+      "loss": 0.0261,
+      "step": 1180
+    },
+    {
+      "epoch": 3.71,
+      "grad_norm": 0.6788052320480347,
+      "learning_rate": 2.5949964805384102e-05,
+      "loss": 0.0045,
+      "step": 1190
+    },
+    {
+      "epoch": 3.74,
+      "grad_norm": 0.026266297325491905,
+      "learning_rate": 2.5841432481989113e-05,
+      "loss": 0.0179,
+      "step": 1200
+    },
+    {
+      "epoch": 3.74,
+      "eval_accuracy": 0.8723994452149791,
+      "eval_f1": 0.8674518149970984,
+      "eval_loss": 0.5766238570213318,
+      "eval_precision": 0.8681300166641136,
+      "eval_recall": 0.8723994452149791,
+      "eval_runtime": 36.8086,
+      "eval_samples_per_second": 78.351,
+      "eval_steps_per_second": 9.807,
+      "step": 1200
+    },
+    {
+      "epoch": 3.77,
+      "grad_norm": 4.131288528442383,
+      "learning_rate": 2.573425063274894e-05,
+      "loss": 0.0311,
+      "step": 1210
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 0.09610464423894882,
+      "learning_rate": 2.5628391481282988e-05,
+      "loss": 0.0247,
+      "step": 1220
+    },
+    {
+      "epoch": 3.83,
+      "grad_norm": 0.39180612564086914,
+      "learning_rate": 2.5523828044507798e-05,
+      "loss": 0.0185,
+      "step": 1230
+    },
+    {
+      "epoch": 3.86,
+      "grad_norm": 0.017242716625332832,
+      "learning_rate": 2.5420534103742737e-05,
+      "loss": 0.0258,
+      "step": 1240
+    },
+    {
+      "epoch": 3.89,
+      "grad_norm": 4.467873573303223,
+      "learning_rate": 2.5318484177091666e-05,
+      "loss": 0.0137,
+      "step": 1250
+    },
+    {
+      "epoch": 3.93,
+      "grad_norm": 0.21439874172210693,
+      "learning_rate": 2.5217653493034472e-05,
+      "loss": 0.032,
+      "step": 1260
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 0.06672481447458267,
+      "learning_rate": 2.511801796516642e-05,
+      "loss": 0.0061,
+      "step": 1270
+    },
+    {
+      "epoch": 3.99,
+      "grad_norm": 0.050495993345975876,
+      "learning_rate": 2.501955416802672e-05,
+      "loss": 0.0194,
+      "step": 1280
+    },
+    {
+      "epoch": 4.02,
+      "grad_norm": 0.430034875869751,
+      "learning_rate": 2.492223931396134e-05,
+      "loss": 0.0138,
+      "step": 1290
+    },
+    {
+      "epoch": 4.05,
+      "grad_norm": 0.020715204998850822,
+      "learning_rate": 2.482605123096805e-05,
+      "loss": 0.01,
+      "step": 1300
+    },
+    {
+      "epoch": 4.05,
+      "eval_accuracy": 0.8595700416088765,
+      "eval_f1": 0.8534690367784884,
+      "eval_loss": 0.6232466697692871,
+      "eval_precision": 0.8523064665048566,
+      "eval_recall": 0.8595700416088765,
+      "eval_runtime": 36.0575,
+      "eval_samples_per_second": 79.983,
+      "eval_steps_per_second": 10.012,
+      "step": 1300
+    },
+    {
+      "epoch": 4.08,
+      "grad_norm": 0.04595523327589035,
+      "learning_rate": 2.47309683414749e-05,
+      "loss": 0.0065,
+      "step": 1310
+    },
+    {
+      "epoch": 4.11,
+      "grad_norm": 0.03214849531650543,
+      "learning_rate": 2.4636969642005952e-05,
+      "loss": 0.0019,
+      "step": 1320
+    },
+    {
+      "epoch": 4.14,
+      "grad_norm": 0.10033855587244034,
+      "learning_rate": 2.45440346836908e-05,
+      "loss": 0.0039,
+      "step": 1330
+    },
+    {
+      "epoch": 4.17,
+      "grad_norm": 2.8943097591400146,
+      "learning_rate": 2.4452143553576716e-05,
+      "loss": 0.0023,
+      "step": 1340
+    },
+    {
+      "epoch": 4.21,
+      "grad_norm": 0.9686470627784729,
+      "learning_rate": 2.4361276856704794e-05,
+      "loss": 0.0037,
+      "step": 1350
+    },
+    {
+      "epoch": 4.24,
+      "grad_norm": 0.03016245923936367,
+      "learning_rate": 2.4271415698913302e-05,
+      "loss": 0.0018,
+      "step": 1360
+    },
+    {
+      "epoch": 4.27,
+      "grad_norm": 0.10285181552171707,
+      "learning_rate": 2.4182541670333722e-05,
+      "loss": 0.0017,
+      "step": 1370
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 0.1811099499464035,
+      "learning_rate": 2.4094636829546745e-05,
+      "loss": 0.0011,
+      "step": 1380
+    },
+    {
+      "epoch": 4.33,
+      "grad_norm": 0.03486869856715202,
+      "learning_rate": 2.4007683688367184e-05,
+      "loss": 0.0013,
+      "step": 1390
+    },
+    {
+      "epoch": 4.36,
+      "grad_norm": 0.019455306231975555,
+      "learning_rate": 2.3921665197228592e-05,
+      "loss": 0.0018,
+      "step": 1400
+    },
+    {
+      "epoch": 4.36,
+      "eval_accuracy": 0.874133148404993,
+      "eval_f1": 0.8710107373815618,
+      "eval_loss": 0.6012547612190247,
+      "eval_precision": 0.8707403535526532,
+      "eval_recall": 0.874133148404993,
+      "eval_runtime": 35.9997,
+      "eval_samples_per_second": 80.112,
+      "eval_steps_per_second": 10.028,
+      "step": 1400
+    },
+    {
+      "epoch": 4.39,
+      "grad_norm": 3.699671745300293,
+      "learning_rate": 2.383656473113981e-05,
+      "loss": 0.0054,
+      "step": 1410
+    },
+    {
+      "epoch": 4.42,
+      "grad_norm": 0.07088273018598557,
+      "learning_rate": 2.3752366076187175e-05,
+      "loss": 0.0012,
+      "step": 1420
+    },
+    {
+      "epoch": 4.45,
+      "grad_norm": 0.006407163105905056,
+      "learning_rate": 2.3669053416557544e-05,
+      "loss": 0.0058,
+      "step": 1430
+    },
+    {
+      "epoch": 4.49,
+      "grad_norm": 0.24147652089595795,
+      "learning_rate": 2.35866113220585e-05,
+      "loss": 0.0288,
+      "step": 1440
+    },
+    {
+      "epoch": 4.52,
+      "grad_norm": 0.0284121036529541,
+      "learning_rate": 2.3505024736113422e-05,
+      "loss": 0.0012,
+      "step": 1450
+    },
+    {
+      "epoch": 4.55,
+      "grad_norm": 0.10920742154121399,
+      "learning_rate": 2.3424278964210216e-05,
+      "loss": 0.0171,
+      "step": 1460
+    },
+    {
+      "epoch": 4.58,
+      "grad_norm": 0.02022623084485531,
+      "learning_rate": 2.334435966278354e-05,
+      "loss": 0.0013,
+      "step": 1470
+    },
+    {
+      "epoch": 4.61,
+      "grad_norm": 1.6955662965774536,
+      "learning_rate": 2.3265252828511455e-05,
+      "loss": 0.0043,
+      "step": 1480
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 0.2646436095237732,
+      "learning_rate": 2.3186944788008412e-05,
+      "loss": 0.007,
+      "step": 1490
+    },
+    {
+      "epoch": 4.67,
+      "grad_norm": 0.02134719491004944,
+      "learning_rate": 2.3109422187897257e-05,
+      "loss": 0.0019,
+      "step": 1500
+    },
+    {
+      "epoch": 4.67,
+      "eval_accuracy": 0.8682385575589459,
+      "eval_f1": 0.8643329503142037,
+      "eval_loss": 0.6553735136985779,
+      "eval_precision": 0.8688611568946607,
+      "eval_recall": 0.8682385575589459,
+      "eval_runtime": 36.5058,
+      "eval_samples_per_second": 79.001,
+      "eval_steps_per_second": 9.889,
+      "step": 1500
+    },
+    {
+      "epoch": 4.7,
+      "grad_norm": 0.10854582488536835,
+      "learning_rate": 2.3032671985243938e-05,
+      "loss": 0.0035,
+      "step": 1510
+    },
+    {
+      "epoch": 4.74,
+      "grad_norm": 0.023413635790348053,
+      "learning_rate": 2.2956681438339396e-05,
+      "loss": 0.0014,
+      "step": 1520
+    },
+    {
+      "epoch": 4.77,
+      "grad_norm": 0.03499768301844597,
+      "learning_rate": 2.2881438097813777e-05,
+      "loss": 0.001,
+      "step": 1530
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.28913193941116333,
+      "learning_rate": 2.2806929798068923e-05,
+      "loss": 0.0016,
+      "step": 1540
+    },
+    {
+      "epoch": 4.83,
+      "grad_norm": 0.02359519526362419,
+      "learning_rate": 2.273314464901578e-05,
+      "loss": 0.017,
+      "step": 1550
+    },
+    {
+      "epoch": 4.86,
+      "grad_norm": 0.20512829720973969,
+      "learning_rate": 2.2660071028103958e-05,
+      "loss": 0.0011,
+      "step": 1560
+    },
+    {
+      "epoch": 4.89,
+      "grad_norm": 0.017939003184437752,
+      "learning_rate": 2.2587697572631283e-05,
+      "loss": 0.0114,
+      "step": 1570
+    },
+    {
+      "epoch": 4.92,
+      "grad_norm": 0.05149148404598236,
+      "learning_rate": 2.2516013172321875e-05,
+      "loss": 0.0008,
+      "step": 1580
+    },
+    {
+      "epoch": 4.95,
+      "grad_norm": 0.03117392770946026,
+      "learning_rate": 2.2445006962161678e-05,
+      "loss": 0.001,
+      "step": 1590
+    },
+    {
+      "epoch": 4.98,
+      "grad_norm": 0.03808211162686348,
+      "learning_rate": 2.2374668315480894e-05,
+      "loss": 0.0024,
+      "step": 1600
+    },
+    {
+      "epoch": 4.98,
+      "eval_accuracy": 0.8713592233009708,
+      "eval_f1": 0.8718548085138199,
+      "eval_loss": 0.6107261776924133,
+      "eval_precision": 0.8729661517370155,
+      "eval_recall": 0.8713592233009708,
+      "eval_runtime": 35.9356,
+      "eval_samples_per_second": 80.255,
+      "eval_steps_per_second": 10.046,
+      "step": 1600
+    },
+    {
+      "epoch": 5.02,
+      "grad_norm": 0.016484640538692474,
+      "learning_rate": 2.2304986837273524e-05,
+      "loss": 0.004,
+      "step": 1610
+    },
+    {
+      "epoch": 5.05,
+      "grad_norm": 0.026364829391241074,
+      "learning_rate": 2.2235952357744237e-05,
+      "loss": 0.001,
+      "step": 1620
+    },
+    {
+      "epoch": 5.08,
+      "grad_norm": 0.007881557568907738,
+      "learning_rate": 2.2167554926073632e-05,
+      "loss": 0.0005,
+      "step": 1630
+    },
+    {
+      "epoch": 5.11,
+      "grad_norm": 0.02089390717446804,
+      "learning_rate": 2.2099784804393198e-05,
+      "loss": 0.0005,
+      "step": 1640
+    },
+    {
+      "epoch": 5.14,
+      "grad_norm": 0.01271623745560646,
+      "learning_rate": 2.2032632461961585e-05,
+      "loss": 0.0008,
+      "step": 1650
+    },
+    {
+      "epoch": 5.17,
+      "grad_norm": 0.006357505917549133,
+      "learning_rate": 2.196608856953445e-05,
+      "loss": 0.0005,
+      "step": 1660
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.0172483678907156,
+      "learning_rate": 2.1900143993920144e-05,
+      "loss": 0.0005,
+      "step": 1670
+    },
+    {
+      "epoch": 5.23,
+      "grad_norm": 0.009964230470359325,
+      "learning_rate": 2.1834789792714154e-05,
+      "loss": 0.0005,
+      "step": 1680
+    },
+    {
+      "epoch": 5.26,
+      "grad_norm": 0.017695054411888123,
+      "learning_rate": 2.1770017209205408e-05,
+      "loss": 0.0015,
+      "step": 1690
+    },
+    {
+      "epoch": 5.3,
+      "grad_norm": 0.058045148849487305,
+      "learning_rate": 2.170581766744771e-05,
+      "loss": 0.0006,
+      "step": 1700
+    },
+    {
+      "epoch": 5.3,
+      "eval_accuracy": 0.8755201109570042,
+      "eval_f1": 0.8725140598764357,
+      "eval_loss": 0.6352503299713135,
+      "eval_precision": 0.8751361058141811,
+      "eval_recall": 0.8755201109570042,
+      "eval_runtime": 35.8249,
+      "eval_samples_per_second": 80.503,
+      "eval_steps_per_second": 10.077,
+      "step": 1700
+    },
+    {
+      "epoch": 5.3,
+      "step": 1700,
+      "total_flos": 2.1047767559471923e+18,
+      "train_loss": 0.21456260421779005,
+      "train_runtime": 1227.9557,
+      "train_samples_per_second": 417.605,
+      "train_steps_per_second": 26.141
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 32100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 100,
+  "total_flos": 2.1047767559471923e+18,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}