🍻 cheers

Browse files

Files changed (6) hide show

README.md +10 -6
all_results.json +16 -0
config.json +1 -1
eval_results.json +12 -0
train_results.json +8 -0
trainer_state.json +1699 -0

README.md CHANGED Viewed

@@ -1,7 +1,11 @@
 ---
 license: apache-2.0
 base_model: facebook/dinov2-base
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
@@ -15,13 +19,13 @@ should probably proofread and complete it, then remove this comment. -->
 # dino-base-2023_12_01-with_custom_small_head
-This model is a fine-tuned version of [facebook/dinov2-base](https://huggingface.co/facebook/dinov2-base) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1286
-- F1 Micro: 0.8324
-- F1 Macro: 0.7995
-- Roc Auc: 0.8936
-- Accuracy: 0.5284
 - Learning Rate: 0.0000
 ## Model description

 ---
+language:
+- eng
 license: apache-2.0
 base_model: facebook/dinov2-base
 tags:
+- multilabel-image-classification
+- multilabel
 - generated_from_trainer
 metrics:
 - accuracy
 # dino-base-2023_12_01-with_custom_small_head
+This model is a fine-tuned version of [facebook/dinov2-base](https://huggingface.co/facebook/dinov2-base) on the multilabel_complete_dataset dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1266
+- F1 Micro: 0.8318
+- F1 Macro: 0.8018
+- Roc Auc: 0.8960
+- Accuracy: 0.5224
 - Learning Rate: 0.0000
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 86.0,
+    "eval_accuracy": 0.5223512847588877,
+    "eval_f1_macro": 0.8017650848720057,
+    "eval_f1_micro": 0.8318343195266272,
+    "eval_loss": 0.1265595406293869,
+    "eval_roc_auc": 0.896027183058249,
+    "eval_runtime": 660.9127,
+    "eval_samples_per_second": 4.299,
+    "eval_steps_per_second": 0.269,
+    "learning_rate": 1.0000000000000002e-06,
+    "train_loss": 0.1030069793400273,
+    "train_runtime": 233299.8908,
+    "train_samples_per_second": 3.305,
+    "train_steps_per_second": 0.207
+}

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "facebook/dinov2-base",
   "apply_layernorm": true,
   "architectures": [
     "NewheadDinov2ForImageClassification"

 {
+  "_name_or_path": "facebook/dinov2-base2023_12_01",
   "apply_layernorm": true,
   "architectures": [
     "NewheadDinov2ForImageClassification"

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 86.0,
+    "eval_accuracy": 0.5223512847588877,
+    "eval_f1_macro": 0.8017650848720057,
+    "eval_f1_micro": 0.8318343195266272,
+    "eval_loss": 0.1265595406293869,
+    "eval_roc_auc": 0.896027183058249,
+    "eval_runtime": 660.9127,
+    "eval_samples_per_second": 4.299,
+    "eval_steps_per_second": 0.269,
+    "learning_rate": 1.0000000000000002e-06
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 86.0,
+    "learning_rate": 1.0000000000000002e-06,
+    "train_loss": 0.1030069793400273,
+    "train_runtime": 233299.8908,
+    "train_samples_per_second": 3.305,
+    "train_steps_per_second": 0.207
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1699 @@

+{
+  "best_metric": 0.128558948636055,
+  "best_model_checkpoint": "./dino-base-2023_12_01-with_custom_small_head/checkpoint-40736",
+  "epoch": 86.0,
+  "eval_steps": 500,
+  "global_step": 46096,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.01,
+      "loss": 0.4702,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.42979635584137194,
+      "eval_f1_macro": 0.6933212404746647,
+      "eval_f1_micro": 0.7549217566885411,
+      "eval_loss": 0.45448988676071167,
+      "eval_roc_auc": 0.8355761494354749,
+      "eval_runtime": 677.2303,
+      "eval_samples_per_second": 4.133,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 0.01,
+      "step": 536
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.01,
+      "loss": 0.4091,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.4376563058235084,
+      "eval_f1_macro": 0.731458561583255,
+      "eval_f1_micro": 0.7831797235023041,
+      "eval_loss": 0.36905375123023987,
+      "eval_roc_auc": 0.8761564570737086,
+      "eval_runtime": 660.2957,
+      "eval_samples_per_second": 4.239,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 0.01,
+      "step": 1072
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 0.01,
+      "loss": 0.3999,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.41407645587709896,
+      "eval_f1_macro": 0.7213523804674298,
+      "eval_f1_micro": 0.7724575524352272,
+      "eval_loss": 0.4630758464336395,
+      "eval_roc_auc": 0.8642590860319617,
+      "eval_runtime": 660.6001,
+      "eval_samples_per_second": 4.237,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 0.01,
+      "step": 1608
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.01,
+      "loss": 0.3958,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4533762057877814,
+      "eval_f1_macro": 0.7310289607537521,
+      "eval_f1_micro": 0.7858175718665047,
+      "eval_loss": 0.4028192162513733,
+      "eval_roc_auc": 0.8765227946021852,
+      "eval_runtime": 677.2178,
+      "eval_samples_per_second": 4.133,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 0.01,
+      "step": 2144
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 0.01,
+      "loss": 0.3795,
+      "step": 2500
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.42300821722043586,
+      "eval_f1_macro": 0.6973925526262326,
+      "eval_f1_micro": 0.7451515331237768,
+      "eval_loss": 0.5129237174987793,
+      "eval_roc_auc": 0.8459416898849885,
+      "eval_runtime": 681.0638,
+      "eval_samples_per_second": 4.11,
+      "eval_steps_per_second": 0.257,
+      "learning_rate": 0.01,
+      "step": 2680
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 0.01,
+      "loss": 0.3877,
+      "step": 3000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.4258663808503037,
+      "eval_f1_macro": 0.6805137576503333,
+      "eval_f1_micro": 0.7385924713584288,
+      "eval_loss": 0.518527090549469,
+      "eval_roc_auc": 0.8180316790465337,
+      "eval_runtime": 675.3189,
+      "eval_samples_per_second": 4.145,
+      "eval_steps_per_second": 0.259,
+      "learning_rate": 0.01,
+      "step": 3216
+    },
+    {
+      "epoch": 6.53,
+      "learning_rate": 0.01,
+      "loss": 0.3658,
+      "step": 3500
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.4390853876384423,
+      "eval_f1_macro": 0.703387001922082,
+      "eval_f1_micro": 0.7709620206715185,
+      "eval_loss": 0.4688432514667511,
+      "eval_roc_auc": 0.8524541561034484,
+      "eval_runtime": 682.6316,
+      "eval_samples_per_second": 4.1,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.01,
+      "step": 3752
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 0.01,
+      "loss": 0.373,
+      "step": 4000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.3858520900321543,
+      "eval_f1_macro": 0.7019752151317524,
+      "eval_f1_micro": 0.7607600732600732,
+      "eval_loss": 0.5070469975471497,
+      "eval_roc_auc": 0.8646759677959497,
+      "eval_runtime": 677.56,
+      "eval_samples_per_second": 4.131,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 0.01,
+      "step": 4288
+    },
+    {
+      "epoch": 8.4,
+      "learning_rate": 0.001,
+      "loss": 0.2911,
+      "step": 4500
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5087531261164702,
+      "eval_f1_macro": 0.7938389006088229,
+      "eval_f1_micro": 0.8212945870303103,
+      "eval_loss": 0.23266172409057617,
+      "eval_roc_auc": 0.8884873189781101,
+      "eval_runtime": 683.0549,
+      "eval_samples_per_second": 4.098,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.001,
+      "step": 4824
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 0.001,
+      "loss": 0.139,
+      "step": 5000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.49874955341193283,
+      "eval_f1_macro": 0.7890622914838611,
+      "eval_f1_micro": 0.8193090720341427,
+      "eval_loss": 0.22383752465248108,
+      "eval_roc_auc": 0.8971633903103337,
+      "eval_runtime": 677.2477,
+      "eval_samples_per_second": 4.133,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 0.001,
+      "step": 5360
+    },
+    {
+      "epoch": 10.26,
+      "learning_rate": 0.001,
+      "loss": 0.1187,
+      "step": 5500
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.5083958556627367,
+      "eval_f1_macro": 0.785811349764938,
+      "eval_f1_micro": 0.8168929472545957,
+      "eval_loss": 0.20949247479438782,
+      "eval_roc_auc": 0.8833373336547201,
+      "eval_runtime": 679.1488,
+      "eval_samples_per_second": 4.121,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 0.001,
+      "step": 5896
+    },
+    {
+      "epoch": 11.19,
+      "learning_rate": 0.001,
+      "loss": 0.1084,
+      "step": 6000
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.49589138978206504,
+      "eval_f1_macro": 0.7994867347489195,
+      "eval_f1_micro": 0.8209378903145226,
+      "eval_loss": 0.19851598143577576,
+      "eval_roc_auc": 0.9030839510366602,
+      "eval_runtime": 649.8973,
+      "eval_samples_per_second": 4.307,
+      "eval_steps_per_second": 0.269,
+      "learning_rate": 0.001,
+      "step": 6432
+    },
+    {
+      "epoch": 12.13,
+      "learning_rate": 0.001,
+      "loss": 0.1038,
+      "step": 6500
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.4901750625223294,
+      "eval_f1_macro": 0.7914460723507714,
+      "eval_f1_micro": 0.8185889606235096,
+      "eval_loss": 0.19494152069091797,
+      "eval_roc_auc": 0.8941173115453266,
+      "eval_runtime": 652.683,
+      "eval_samples_per_second": 4.288,
+      "eval_steps_per_second": 0.268,
+      "learning_rate": 0.001,
+      "step": 6968
+    },
+    {
+      "epoch": 13.06,
+      "learning_rate": 0.001,
+      "loss": 0.098,
+      "step": 7000
+    },
+    {
+      "epoch": 13.99,
+      "learning_rate": 0.001,
+      "loss": 0.0936,
+      "step": 7500
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.5012504465880672,
+      "eval_f1_macro": 0.7854615126335902,
+      "eval_f1_micro": 0.824316394789344,
+      "eval_loss": 0.1806003302335739,
+      "eval_roc_auc": 0.894735074423797,
+      "eval_runtime": 647.2683,
+      "eval_samples_per_second": 4.324,
+      "eval_steps_per_second": 0.27,
+      "learning_rate": 0.001,
+      "step": 7504
+    },
+    {
+      "epoch": 14.93,
+      "learning_rate": 0.001,
+      "loss": 0.0915,
+      "step": 8000
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.5112540192926045,
+      "eval_f1_macro": 0.7788134070338611,
+      "eval_f1_micro": 0.8163314756481705,
+      "eval_loss": 0.17990005016326904,
+      "eval_roc_auc": 0.8805525074154283,
+      "eval_runtime": 652.5868,
+      "eval_samples_per_second": 4.289,
+      "eval_steps_per_second": 0.268,
+      "learning_rate": 0.001,
+      "step": 8040
+    },
+    {
+      "epoch": 15.86,
+      "learning_rate": 0.001,
+      "loss": 0.0875,
+      "step": 8500
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.5026795284030011,
+      "eval_f1_macro": 0.7847917223659133,
+      "eval_f1_micro": 0.8195751227883308,
+      "eval_loss": 0.17393216490745544,
+      "eval_roc_auc": 0.889408863512499,
+      "eval_runtime": 651.4492,
+      "eval_samples_per_second": 4.297,
+      "eval_steps_per_second": 0.269,
+      "learning_rate": 0.001,
+      "step": 8576
+    },
+    {
+      "epoch": 16.79,
+      "learning_rate": 0.001,
+      "loss": 0.0848,
+      "step": 9000
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.48981779206859594,
+      "eval_f1_macro": 0.7894356238873693,
+      "eval_f1_micro": 0.8224427743675061,
+      "eval_loss": 0.17188657820224762,
+      "eval_roc_auc": 0.9006792141073352,
+      "eval_runtime": 682.0855,
+      "eval_samples_per_second": 4.104,
+      "eval_steps_per_second": 0.257,
+      "learning_rate": 0.001,
+      "step": 9112
+    },
+    {
+      "epoch": 17.72,
+      "learning_rate": 0.001,
+      "loss": 0.0861,
+      "step": 9500
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.4962486602357985,
+      "eval_f1_macro": 0.7838583531688857,
+      "eval_f1_micro": 0.8212320255636428,
+      "eval_loss": 0.16859883069992065,
+      "eval_roc_auc": 0.8903635137148811,
+      "eval_runtime": 684.152,
+      "eval_samples_per_second": 4.091,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.001,
+      "step": 9648
+    },
+    {
+      "epoch": 18.66,
+      "learning_rate": 0.001,
+      "loss": 0.0845,
+      "step": 10000
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.4941050375133976,
+      "eval_f1_macro": 0.7830428904767566,
+      "eval_f1_micro": 0.8178590139123347,
+      "eval_loss": 0.16593919694423676,
+      "eval_roc_auc": 0.8934385043997719,
+      "eval_runtime": 685.5342,
+      "eval_samples_per_second": 4.083,
+      "eval_steps_per_second": 0.255,
+      "learning_rate": 0.001,
+      "step": 10184
+    },
+    {
+      "epoch": 19.59,
+      "learning_rate": 0.001,
+      "loss": 0.0824,
+      "step": 10500
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.4930332261521972,
+      "eval_f1_macro": 0.7826195114415129,
+      "eval_f1_micro": 0.8104714522624972,
+      "eval_loss": 0.1742611825466156,
+      "eval_roc_auc": 0.8838985778017561,
+      "eval_runtime": 661.552,
+      "eval_samples_per_second": 4.231,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 0.001,
+      "step": 10720
+    },
+    {
+      "epoch": 20.52,
+      "learning_rate": 0.001,
+      "loss": 0.0834,
+      "step": 11000
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.4976777420507324,
+      "eval_f1_macro": 0.7904779420228514,
+      "eval_f1_micro": 0.8183342003352406,
+      "eval_loss": 0.16005221009254456,
+      "eval_roc_auc": 0.8959053934881437,
+      "eval_runtime": 670.1613,
+      "eval_samples_per_second": 4.177,
+      "eval_steps_per_second": 0.261,
+      "learning_rate": 0.001,
+      "step": 11256
+    },
+    {
+      "epoch": 21.46,
+      "learning_rate": 0.001,
+      "loss": 0.0803,
+      "step": 11500
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.4969632011432655,
+      "eval_f1_macro": 0.7884767354416139,
+      "eval_f1_micro": 0.8205630073110356,
+      "eval_loss": 0.16171583533287048,
+      "eval_roc_auc": 0.8984811576138753,
+      "eval_runtime": 656.3872,
+      "eval_samples_per_second": 4.264,
+      "eval_steps_per_second": 0.267,
+      "learning_rate": 0.001,
+      "step": 11792
+    },
+    {
+      "epoch": 22.39,
+      "learning_rate": 0.001,
+      "loss": 0.0817,
+      "step": 12000
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.5037513397642015,
+      "eval_f1_macro": 0.7892866813532138,
+      "eval_f1_micro": 0.8190240160500384,
+      "eval_loss": 0.15858659148216248,
+      "eval_roc_auc": 0.8899535391642385,
+      "eval_runtime": 668.9537,
+      "eval_samples_per_second": 4.184,
+      "eval_steps_per_second": 0.262,
+      "learning_rate": 0.001,
+      "step": 12328
+    },
+    {
+      "epoch": 23.32,
+      "learning_rate": 0.001,
+      "loss": 0.0821,
+      "step": 12500
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.5148267238299392,
+      "eval_f1_macro": 0.7797850637288645,
+      "eval_f1_micro": 0.8202982902873773,
+      "eval_loss": 0.15610341727733612,
+      "eval_roc_auc": 0.8825330829765095,
+      "eval_runtime": 669.422,
+      "eval_samples_per_second": 4.181,
+      "eval_steps_per_second": 0.261,
+      "learning_rate": 0.001,
+      "step": 12864
+    },
+    {
+      "epoch": 24.25,
+      "learning_rate": 0.001,
+      "loss": 0.0795,
+      "step": 13000
+    },
+    {
+      "epoch": 25.0,
+      "eval_accuracy": 0.5012504465880672,
+      "eval_f1_macro": 0.7897208141772845,
+      "eval_f1_micro": 0.8208025830258302,
+      "eval_loss": 0.15515093505382538,
+      "eval_roc_auc": 0.8981364210784262,
+      "eval_runtime": 659.9944,
+      "eval_samples_per_second": 4.241,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 0.001,
+      "step": 13400
+    },
+    {
+      "epoch": 25.19,
+      "learning_rate": 0.001,
+      "loss": 0.0792,
+      "step": 13500
+    },
+    {
+      "epoch": 26.0,
+      "eval_accuracy": 0.5048231511254019,
+      "eval_f1_macro": 0.7843716119943152,
+      "eval_f1_micro": 0.816484761734359,
+      "eval_loss": 0.1544334441423416,
+      "eval_roc_auc": 0.8852686700886229,
+      "eval_runtime": 682.4531,
+      "eval_samples_per_second": 4.101,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.001,
+      "step": 13936
+    },
+    {
+      "epoch": 26.12,
+      "learning_rate": 0.001,
+      "loss": 0.0799,
+      "step": 14000
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.5105394783851376,
+      "eval_f1_macro": 0.7845481004416396,
+      "eval_f1_micro": 0.8234521463967999,
+      "eval_loss": 0.15092138946056366,
+      "eval_roc_auc": 0.8889256358413551,
+      "eval_runtime": 680.1803,
+      "eval_samples_per_second": 4.115,
+      "eval_steps_per_second": 0.257,
+      "learning_rate": 0.001,
+      "step": 14472
+    },
+    {
+      "epoch": 27.05,
+      "learning_rate": 0.001,
+      "loss": 0.0808,
+      "step": 14500
+    },
+    {
+      "epoch": 27.99,
+      "learning_rate": 0.001,
+      "loss": 0.0795,
+      "step": 15000
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.5076813147552698,
+      "eval_f1_macro": 0.7841559133264137,
+      "eval_f1_micro": 0.8207829522327307,
+      "eval_loss": 0.15122035145759583,
+      "eval_roc_auc": 0.8866264189509026,
+      "eval_runtime": 677.2495,
+      "eval_samples_per_second": 4.133,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 0.001,
+      "step": 15008
+    },
+    {
+      "epoch": 28.92,
+      "learning_rate": 0.001,
+      "loss": 0.079,
+      "step": 15500
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.510896748838871,
+      "eval_f1_macro": 0.787896717103026,
+      "eval_f1_micro": 0.8222397189752286,
+      "eval_loss": 0.1465974897146225,
+      "eval_roc_auc": 0.8839320871832598,
+      "eval_runtime": 685.2461,
+      "eval_samples_per_second": 4.085,
+      "eval_steps_per_second": 0.255,
+      "learning_rate": 0.001,
+      "step": 15544
+    },
+    {
+      "epoch": 29.85,
+      "learning_rate": 0.001,
+      "loss": 0.0803,
+      "step": 16000
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.5001786352268668,
+      "eval_f1_macro": 0.7873972046596285,
+      "eval_f1_micro": 0.8223657415488451,
+      "eval_loss": 0.14788155257701874,
+      "eval_roc_auc": 0.8962227610317826,
+      "eval_runtime": 678.2025,
+      "eval_samples_per_second": 4.127,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 0.001,
+      "step": 16080
+    },
+    {
+      "epoch": 30.78,
+      "learning_rate": 0.001,
+      "loss": 0.0787,
+      "step": 16500
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.4948195784208646,
+      "eval_f1_macro": 0.7579386481110097,
+      "eval_f1_micro": 0.8014166455856311,
+      "eval_loss": 0.16386918723583221,
+      "eval_roc_auc": 0.8600737845838163,
+      "eval_runtime": 660.488,
+      "eval_samples_per_second": 4.238,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 0.001,
+      "step": 16616
+    },
+    {
+      "epoch": 31.72,
+      "learning_rate": 0.001,
+      "loss": 0.0807,
+      "step": 17000
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.49660593068953196,
+      "eval_f1_macro": 0.7923913892380705,
+      "eval_f1_micro": 0.8229665071770335,
+      "eval_loss": 0.14676448702812195,
+      "eval_roc_auc": 0.8919057724127171,
+      "eval_runtime": 658.2108,
+      "eval_samples_per_second": 4.252,
+      "eval_steps_per_second": 0.266,
+      "learning_rate": 0.001,
+      "step": 17152
+    },
+    {
+      "epoch": 32.65,
+      "learning_rate": 0.001,
+      "loss": 0.0776,
+      "step": 17500
+    },
+    {
+      "epoch": 33.0,
+      "eval_accuracy": 0.4994640943193998,
+      "eval_f1_macro": 0.79165656686277,
+      "eval_f1_micro": 0.821977517779307,
+      "eval_loss": 0.1479729562997818,
+      "eval_roc_auc": 0.9004930267725352,
+      "eval_runtime": 664.8245,
+      "eval_samples_per_second": 4.21,
+      "eval_steps_per_second": 0.263,
+      "learning_rate": 0.001,
+      "step": 17688
+    },
+    {
+      "epoch": 33.58,
+      "learning_rate": 0.001,
+      "loss": 0.0802,
+      "step": 18000
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.5030367988567346,
+      "eval_f1_macro": 0.7907408943492529,
+      "eval_f1_micro": 0.8228120099889656,
+      "eval_loss": 0.14384005963802338,
+      "eval_roc_auc": 0.8970632032341331,
+      "eval_runtime": 653.9329,
+      "eval_samples_per_second": 4.28,
+      "eval_steps_per_second": 0.268,
+      "learning_rate": 0.001,
+      "step": 18224
+    },
+    {
+      "epoch": 34.51,
+      "learning_rate": 0.001,
+      "loss": 0.0797,
+      "step": 18500
+    },
+    {
+      "epoch": 35.0,
+      "eval_accuracy": 0.4908896034297964,
+      "eval_f1_macro": 0.785398158465356,
+      "eval_f1_micro": 0.8206463833313602,
+      "eval_loss": 0.14965663850307465,
+      "eval_roc_auc": 0.8899359973481499,
+      "eval_runtime": 655.2313,
+      "eval_samples_per_second": 4.272,
+      "eval_steps_per_second": 0.267,
+      "learning_rate": 0.001,
+      "step": 18760
+    },
+    {
+      "epoch": 35.45,
+      "learning_rate": 0.001,
+      "loss": 0.0781,
+      "step": 19000
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.510896748838871,
+      "eval_f1_macro": 0.7947026561241459,
+      "eval_f1_micro": 0.8267408810990052,
+      "eval_loss": 0.14068089425563812,
+      "eval_roc_auc": 0.8933370435378387,
+      "eval_runtime": 668.7519,
+      "eval_samples_per_second": 4.185,
+      "eval_steps_per_second": 0.262,
+      "learning_rate": 0.001,
+      "step": 19296
+    },
+    {
+      "epoch": 36.38,
+      "learning_rate": 0.001,
+      "loss": 0.0791,
+      "step": 19500
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.5133976420150054,
+      "eval_f1_macro": 0.7714447792962602,
+      "eval_f1_micro": 0.8219422322595982,
+      "eval_loss": 0.14676533639431,
+      "eval_roc_auc": 0.8894541780339088,
+      "eval_runtime": 686.4859,
+      "eval_samples_per_second": 4.077,
+      "eval_steps_per_second": 0.255,
+      "learning_rate": 0.001,
+      "step": 19832
+    },
+    {
+      "epoch": 37.31,
+      "learning_rate": 0.001,
+      "loss": 0.082,
+      "step": 20000
+    },
+    {
+      "epoch": 38.0,
+      "eval_accuracy": 0.4858878170775277,
+      "eval_f1_macro": 0.7883082180339228,
+      "eval_f1_micro": 0.8104836340130457,
+      "eval_loss": 0.1538211852312088,
+      "eval_roc_auc": 0.8862558876743165,
+      "eval_runtime": 678.2901,
+      "eval_samples_per_second": 4.127,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 0.001,
+      "step": 20368
+    },
+    {
+      "epoch": 38.25,
+      "learning_rate": 0.001,
+      "loss": 0.0781,
+      "step": 20500
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.5055376920328689,
+      "eval_f1_macro": 0.7857732289175323,
+      "eval_f1_micro": 0.8208928886536085,
+      "eval_loss": 0.1463109254837036,
+      "eval_roc_auc": 0.8920067982385395,
+      "eval_runtime": 661.0429,
+      "eval_samples_per_second": 4.234,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 0.001,
+      "step": 20904
+    },
+    {
+      "epoch": 39.18,
+      "learning_rate": 0.001,
+      "loss": 0.0811,
+      "step": 21000
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.4976777420507324,
+      "eval_f1_macro": 0.7789772985289035,
+      "eval_f1_micro": 0.8150636492220651,
+      "eval_loss": 0.14692291617393494,
+      "eval_roc_auc": 0.8880396099752541,
+      "eval_runtime": 656.7404,
+      "eval_samples_per_second": 4.262,
+      "eval_steps_per_second": 0.266,
+      "learning_rate": 0.001,
+      "step": 21440
+    },
+    {
+      "epoch": 40.11,
+      "learning_rate": 0.001,
+      "loss": 0.0786,
+      "step": 21500
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.5051804215791355,
+      "eval_f1_macro": 0.7689577848820183,
+      "eval_f1_micro": 0.8167210198636229,
+      "eval_loss": 0.1517634242773056,
+      "eval_roc_auc": 0.8871563695003593,
+      "eval_runtime": 661.7774,
+      "eval_samples_per_second": 4.23,
+      "eval_steps_per_second": 0.264,
+      "learning_rate": 0.001,
+      "step": 21976
+    },
+    {
+      "epoch": 41.04,
+      "learning_rate": 0.001,
+      "loss": 0.0801,
+      "step": 22000
+    },
+    {
+      "epoch": 41.98,
+      "learning_rate": 0.001,
+      "loss": 0.0775,
+      "step": 22500
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.5130403715612719,
+      "eval_f1_macro": 0.7913206484933839,
+      "eval_f1_micro": 0.8260360571294779,
+      "eval_loss": 0.1422175019979477,
+      "eval_roc_auc": 0.8964987386597802,
+      "eval_runtime": 656.5585,
+      "eval_samples_per_second": 4.263,
+      "eval_steps_per_second": 0.267,
+      "learning_rate": 0.001,
+      "step": 22512
+    },
+    {
+      "epoch": 42.91,
+      "learning_rate": 0.0001,
+      "loss": 0.0641,
+      "step": 23000
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.5248302965344765,
+      "eval_f1_macro": 0.8001162834127045,
+      "eval_f1_micro": 0.8339575530586767,
+      "eval_loss": 0.13186925649642944,
+      "eval_roc_auc": 0.8962547274852131,
+      "eval_runtime": 660.0805,
+      "eval_samples_per_second": 4.24,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 0.0001,
+      "step": 23048
+    },
+    {
+      "epoch": 43.84,
+      "learning_rate": 0.0001,
+      "loss": 0.0633,
+      "step": 23500
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.5298320828867452,
+      "eval_f1_macro": 0.7959357724172665,
+      "eval_f1_micro": 0.8325938361913899,
+      "eval_loss": 0.13134370744228363,
+      "eval_roc_auc": 0.8928378169786795,
+      "eval_runtime": 657.8245,
+      "eval_samples_per_second": 4.255,
+      "eval_steps_per_second": 0.266,
+      "learning_rate": 0.0001,
+      "step": 23584
+    },
+    {
+      "epoch": 44.78,
+      "learning_rate": 0.0001,
+      "loss": 0.0627,
+      "step": 24000
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.5241157556270096,
+      "eval_f1_macro": 0.7994285450135317,
+      "eval_f1_micro": 0.8324022346368715,
+      "eval_loss": 0.13141845166683197,
+      "eval_roc_auc": 0.8954548364488818,
+      "eval_runtime": 680.5175,
+      "eval_samples_per_second": 4.113,
+      "eval_steps_per_second": 0.257,
+      "learning_rate": 0.0001,
+      "step": 24120
+    },
+    {
+      "epoch": 45.71,
+      "learning_rate": 0.0001,
+      "loss": 0.0627,
+      "step": 24500
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.5234012147195427,
+      "eval_f1_macro": 0.8008904907382265,
+      "eval_f1_micro": 0.8323726899994057,
+      "eval_loss": 0.13084658980369568,
+      "eval_roc_auc": 0.895493140508376,
+      "eval_runtime": 683.1876,
+      "eval_samples_per_second": 4.097,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.0001,
+      "step": 24656
+    },
+    {
+      "epoch": 46.64,
+      "learning_rate": 0.0001,
+      "loss": 0.0619,
+      "step": 25000
+    },
+    {
+      "epoch": 47.0,
+      "eval_accuracy": 0.5251875669882101,
+      "eval_f1_macro": 0.7996410381874448,
+      "eval_f1_micro": 0.8332838038632987,
+      "eval_loss": 0.13081477582454681,
+      "eval_roc_auc": 0.8959421232969647,
+      "eval_runtime": 678.1257,
+      "eval_samples_per_second": 4.128,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 0.0001,
+      "step": 25192
+    },
+    {
+      "epoch": 47.57,
+      "learning_rate": 0.0001,
+      "loss": 0.0626,
+      "step": 25500
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.5198285101822079,
+      "eval_f1_macro": 0.8009337599160304,
+      "eval_f1_micro": 0.8332938107659472,
+      "eval_loss": 0.13103964924812317,
+      "eval_roc_auc": 0.8967411755836743,
+      "eval_runtime": 686.2682,
+      "eval_samples_per_second": 4.079,
+      "eval_steps_per_second": 0.255,
+      "learning_rate": 0.0001,
+      "step": 25728
+    },
+    {
+      "epoch": 48.51,
+      "learning_rate": 0.0001,
+      "loss": 0.063,
+      "step": 26000
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.5198285101822079,
+      "eval_f1_macro": 0.7989267774722452,
+      "eval_f1_micro": 0.832758825627006,
+      "eval_loss": 0.13107521831989288,
+      "eval_roc_auc": 0.8956594043493923,
+      "eval_runtime": 697.4946,
+      "eval_samples_per_second": 4.013,
+      "eval_steps_per_second": 0.251,
+      "learning_rate": 0.0001,
+      "step": 26264
+    },
+    {
+      "epoch": 49.44,
+      "learning_rate": 0.0001,
+      "loss": 0.0623,
+      "step": 26500
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.5234012147195427,
+      "eval_f1_macro": 0.7989859780104293,
+      "eval_f1_micro": 0.8329772079772079,
+      "eval_loss": 0.13077349960803986,
+      "eval_roc_auc": 0.8961903282196413,
+      "eval_runtime": 670.019,
+      "eval_samples_per_second": 4.177,
+      "eval_steps_per_second": 0.261,
+      "learning_rate": 0.0001,
+      "step": 26800
+    },
+    {
+      "epoch": 50.37,
+      "learning_rate": 0.0001,
+      "loss": 0.0627,
+      "step": 27000
+    },
+    {
+      "epoch": 51.0,
+      "eval_accuracy": 0.5219721329046088,
+      "eval_f1_macro": 0.8007681086108336,
+      "eval_f1_micro": 0.8329191811619926,
+      "eval_loss": 0.13088488578796387,
+      "eval_roc_auc": 0.89715255849122,
+      "eval_runtime": 663.0956,
+      "eval_samples_per_second": 4.221,
+      "eval_steps_per_second": 0.264,
+      "learning_rate": 0.0001,
+      "step": 27336
+    },
+    {
+      "epoch": 51.31,
+      "learning_rate": 0.0001,
+      "loss": 0.0624,
+      "step": 27500
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.5255448374419436,
+      "eval_f1_macro": 0.7964913854037948,
+      "eval_f1_micro": 0.8308876593697379,
+      "eval_loss": 0.13053081929683685,
+      "eval_roc_auc": 0.890949278817321,
+      "eval_runtime": 670.678,
+      "eval_samples_per_second": 4.173,
+      "eval_steps_per_second": 0.261,
+      "learning_rate": 0.0001,
+      "step": 27872
+    },
+    {
+      "epoch": 52.24,
+      "learning_rate": 0.0001,
+      "loss": 0.0626,
+      "step": 28000
+    },
+    {
+      "epoch": 53.0,
+      "eval_accuracy": 0.5230439442658092,
+      "eval_f1_macro": 0.7991690934335338,
+      "eval_f1_micro": 0.8313217194839171,
+      "eval_loss": 0.13074837625026703,
+      "eval_roc_auc": 0.8947062970750835,
+      "eval_runtime": 675.1165,
+      "eval_samples_per_second": 4.146,
+      "eval_steps_per_second": 0.259,
+      "learning_rate": 0.0001,
+      "step": 28408
+    },
+    {
+      "epoch": 53.17,
+      "learning_rate": 0.0001,
+      "loss": 0.0621,
+      "step": 28500
+    },
+    {
+      "epoch": 54.0,
+      "eval_accuracy": 0.5223294033583422,
+      "eval_f1_macro": 0.7955466725271905,
+      "eval_f1_micro": 0.8319223254987862,
+      "eval_loss": 0.13037194311618805,
+      "eval_roc_auc": 0.8963756768048193,
+      "eval_runtime": 663.6427,
+      "eval_samples_per_second": 4.218,
+      "eval_steps_per_second": 0.264,
+      "learning_rate": 0.0001,
+      "step": 28944
+    },
+    {
+      "epoch": 54.1,
+      "learning_rate": 0.0001,
+      "loss": 0.0631,
+      "step": 29000
+    },
+    {
+      "epoch": 55.0,
+      "eval_accuracy": 0.5248302965344765,
+      "eval_f1_macro": 0.8000559108101813,
+      "eval_f1_micro": 0.8328169685414681,
+      "eval_loss": 0.1299433708190918,
+      "eval_roc_auc": 0.894918579615961,
+      "eval_runtime": 684.8991,
+      "eval_samples_per_second": 4.087,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.0001,
+      "step": 29480
+    },
+    {
+      "epoch": 55.04,
+      "learning_rate": 0.0001,
+      "loss": 0.0621,
+      "step": 29500
+    },
+    {
+      "epoch": 55.97,
+      "learning_rate": 0.0001,
+      "loss": 0.063,
+      "step": 30000
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.5223294033583422,
+      "eval_f1_macro": 0.7989243557029326,
+      "eval_f1_micro": 0.8320864505403159,
+      "eval_loss": 0.13019777834415436,
+      "eval_roc_auc": 0.8955682056992913,
+      "eval_runtime": 679.7556,
+      "eval_samples_per_second": 4.118,
+      "eval_steps_per_second": 0.257,
+      "learning_rate": 0.0001,
+      "step": 30016
+    },
+    {
+      "epoch": 56.9,
+      "learning_rate": 0.0001,
+      "loss": 0.0621,
+      "step": 30500
+    },
+    {
+      "epoch": 57.0,
+      "eval_accuracy": 0.5230439442658092,
+      "eval_f1_macro": 0.7969527402194384,
+      "eval_f1_micro": 0.8289875921596835,
+      "eval_loss": 0.1304127722978592,
+      "eval_roc_auc": 0.8908787078394556,
+      "eval_runtime": 705.4131,
+      "eval_samples_per_second": 3.968,
+      "eval_steps_per_second": 0.248,
+      "learning_rate": 0.0001,
+      "step": 30552
+    },
+    {
+      "epoch": 57.84,
+      "learning_rate": 0.0001,
+      "loss": 0.0623,
+      "step": 31000
+    },
+    {
+      "epoch": 58.0,
+      "eval_accuracy": 0.5237584851732762,
+      "eval_f1_macro": 0.7977835811692552,
+      "eval_f1_micro": 0.8301569169722841,
+      "eval_loss": 0.13054853677749634,
+      "eval_roc_auc": 0.8906267128821808,
+      "eval_runtime": 666.4705,
+      "eval_samples_per_second": 4.2,
+      "eval_steps_per_second": 0.263,
+      "learning_rate": 0.0001,
+      "step": 31088
+    },
+    {
+      "epoch": 58.77,
+      "learning_rate": 0.0001,
+      "loss": 0.0622,
+      "step": 31500
+    },
+    {
+      "epoch": 59.0,
+      "eval_accuracy": 0.5237584851732762,
+      "eval_f1_macro": 0.796535523287011,
+      "eval_f1_micro": 0.8307526107310047,
+      "eval_loss": 0.1307431012392044,
+      "eval_roc_auc": 0.8914970403252072,
+      "eval_runtime": 676.3635,
+      "eval_samples_per_second": 4.138,
+      "eval_steps_per_second": 0.259,
+      "learning_rate": 0.0001,
+      "step": 31624
+    },
+    {
+      "epoch": 59.7,
+      "learning_rate": 0.0001,
+      "loss": 0.0627,
+      "step": 32000
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.5301893533404788,
+      "eval_f1_macro": 0.7997719728514119,
+      "eval_f1_micro": 0.8327465839250552,
+      "eval_loss": 0.12943749129772186,
+      "eval_roc_auc": 0.8944175409863876,
+      "eval_runtime": 664.0543,
+      "eval_samples_per_second": 4.215,
+      "eval_steps_per_second": 0.264,
+      "learning_rate": 0.0001,
+      "step": 32160
+    },
+    {
+      "epoch": 60.63,
+      "learning_rate": 0.0001,
+      "loss": 0.0627,
+      "step": 32500
+    },
+    {
+      "epoch": 61.0,
+      "eval_accuracy": 0.5241157556270096,
+      "eval_f1_macro": 0.8000371368033877,
+      "eval_f1_micro": 0.8319088319088318,
+      "eval_loss": 0.13030506670475006,
+      "eval_roc_auc": 0.8955766245181099,
+      "eval_runtime": 682.9901,
+      "eval_samples_per_second": 4.098,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.0001,
+      "step": 32696
+    },
+    {
+      "epoch": 61.57,
+      "learning_rate": 0.0001,
+      "loss": 0.0626,
+      "step": 33000
+    },
+    {
+      "epoch": 62.0,
+      "eval_accuracy": 0.5244730260807431,
+      "eval_f1_macro": 0.7981976460241279,
+      "eval_f1_micro": 0.8316939231187014,
+      "eval_loss": 0.13014619052410126,
+      "eval_roc_auc": 0.8903578802872688,
+      "eval_runtime": 683.442,
+      "eval_samples_per_second": 4.095,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.0001,
+      "step": 33232
+    },
+    {
+      "epoch": 62.5,
+      "learning_rate": 0.0001,
+      "loss": 0.0629,
+      "step": 33500
+    },
+    {
+      "epoch": 63.0,
+      "eval_accuracy": 0.5248302965344765,
+      "eval_f1_macro": 0.798892356454433,
+      "eval_f1_micro": 0.8321628377574097,
+      "eval_loss": 0.12966355681419373,
+      "eval_roc_auc": 0.8948756467722464,
+      "eval_runtime": 688.3652,
+      "eval_samples_per_second": 4.066,
+      "eval_steps_per_second": 0.254,
+      "learning_rate": 0.0001,
+      "step": 33768
+    },
+    {
+      "epoch": 63.43,
+      "learning_rate": 0.0001,
+      "loss": 0.0617,
+      "step": 34000
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.5244730260807431,
+      "eval_f1_macro": 0.7981842150860963,
+      "eval_f1_micro": 0.8310847274689693,
+      "eval_loss": 0.13000145554542542,
+      "eval_roc_auc": 0.8919613178233593,
+      "eval_runtime": 676.0033,
+      "eval_samples_per_second": 4.141,
+      "eval_steps_per_second": 0.259,
+      "learning_rate": 0.0001,
+      "step": 34304
+    },
+    {
+      "epoch": 64.37,
+      "learning_rate": 0.0001,
+      "loss": 0.0631,
+      "step": 34500
+    },
+    {
+      "epoch": 65.0,
+      "eval_accuracy": 0.5244730260807431,
+      "eval_f1_macro": 0.7986308658625665,
+      "eval_f1_micro": 0.8318573480134035,
+      "eval_loss": 0.12924692034721375,
+      "eval_roc_auc": 0.8930446319857147,
+      "eval_runtime": 651.5802,
+      "eval_samples_per_second": 4.296,
+      "eval_steps_per_second": 0.269,
+      "learning_rate": 0.0001,
+      "step": 34840
+    },
+    {
+      "epoch": 65.3,
+      "learning_rate": 0.0001,
+      "loss": 0.0619,
+      "step": 35000
+    },
+    {
+      "epoch": 66.0,
+      "eval_accuracy": 0.5298320828867452,
+      "eval_f1_macro": 0.7981870614941995,
+      "eval_f1_micro": 0.831923192319232,
+      "eval_loss": 0.12978804111480713,
+      "eval_roc_auc": 0.892217237386403,
+      "eval_runtime": 681.5539,
+      "eval_samples_per_second": 4.107,
+      "eval_steps_per_second": 0.257,
+      "learning_rate": 0.0001,
+      "step": 35376
+    },
+    {
+      "epoch": 66.23,
+      "learning_rate": 0.0001,
+      "loss": 0.0636,
+      "step": 35500
+    },
+    {
+      "epoch": 67.0,
+      "eval_accuracy": 0.5244730260807431,
+      "eval_f1_macro": 0.799861643126952,
+      "eval_f1_micro": 0.832350860646074,
+      "eval_loss": 0.12984319031238556,
+      "eval_roc_auc": 0.8979669054874929,
+      "eval_runtime": 683.6934,
+      "eval_samples_per_second": 4.094,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.0001,
+      "step": 35912
+    },
+    {
+      "epoch": 67.16,
+      "learning_rate": 0.0001,
+      "loss": 0.0627,
+      "step": 36000
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.5194712397284744,
+      "eval_f1_macro": 0.8006367293204648,
+      "eval_f1_micro": 0.8319219007292402,
+      "eval_loss": 0.12975776195526123,
+      "eval_roc_auc": 0.8984548965140277,
+      "eval_runtime": 683.9871,
+      "eval_samples_per_second": 4.092,
+      "eval_steps_per_second": 0.256,
+      "learning_rate": 0.0001,
+      "step": 36448
+    },
+    {
+      "epoch": 68.1,
+      "learning_rate": 0.0001,
+      "loss": 0.0624,
+      "step": 36500
+    },
+    {
+      "epoch": 69.0,
+      "eval_accuracy": 0.525902107895677,
+      "eval_f1_macro": 0.7980251812621267,
+      "eval_f1_micro": 0.8309201866698576,
+      "eval_loss": 0.12929844856262207,
+      "eval_roc_auc": 0.8925473833907398,
+      "eval_runtime": 653.0587,
+      "eval_samples_per_second": 4.286,
+      "eval_steps_per_second": 0.268,
+      "learning_rate": 0.0001,
+      "step": 36984
+    },
+    {
+      "epoch": 69.03,
+      "learning_rate": 0.0001,
+      "loss": 0.0629,
+      "step": 37000
+    },
+    {
+      "epoch": 69.96,
+      "learning_rate": 0.0001,
+      "loss": 0.0625,
+      "step": 37500
+    },
+    {
+      "epoch": 70.0,
+      "eval_accuracy": 0.5244730260807431,
+      "eval_f1_macro": 0.7967283277711645,
+      "eval_f1_micro": 0.8312570781426953,
+      "eval_loss": 0.13054105639457703,
+      "eval_roc_auc": 0.8938972830414821,
+      "eval_runtime": 661.1431,
+      "eval_samples_per_second": 4.234,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 0.0001,
+      "step": 37520
+    },
+    {
+      "epoch": 70.9,
+      "learning_rate": 0.0001,
+      "loss": 0.0624,
+      "step": 38000
+    },
+    {
+      "epoch": 71.0,
+      "eval_accuracy": 0.5166130760986066,
+      "eval_f1_macro": 0.7941604755891036,
+      "eval_f1_micro": 0.828351938542792,
+      "eval_loss": 0.13031570613384247,
+      "eval_roc_auc": 0.8901332543218042,
+      "eval_runtime": 652.968,
+      "eval_samples_per_second": 4.287,
+      "eval_steps_per_second": 0.268,
+      "learning_rate": 0.0001,
+      "step": 38056
+    },
+    {
+      "epoch": 71.83,
+      "learning_rate": 1e-05,
+      "loss": 0.0618,
+      "step": 38500
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.526616648803144,
+      "eval_f1_macro": 0.8010117361492859,
+      "eval_f1_micro": 0.833323387241153,
+      "eval_loss": 0.12878653407096863,
+      "eval_roc_auc": 0.8947102216808521,
+      "eval_runtime": 664.2267,
+      "eval_samples_per_second": 4.214,
+      "eval_steps_per_second": 0.263,
+      "learning_rate": 1e-05,
+      "step": 38592
+    },
+    {
+      "epoch": 72.76,
+      "learning_rate": 1e-05,
+      "loss": 0.0615,
+      "step": 39000
+    },
+    {
+      "epoch": 73.0,
+      "eval_accuracy": 0.5291175419792783,
+      "eval_f1_macro": 0.7990050923407436,
+      "eval_f1_micro": 0.8323747903187154,
+      "eval_loss": 0.12884607911109924,
+      "eval_roc_auc": 0.8929711097228729,
+      "eval_runtime": 659.8974,
+      "eval_samples_per_second": 4.242,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 1e-05,
+      "step": 39128
+    },
+    {
+      "epoch": 73.69,
+      "learning_rate": 1e-05,
+      "loss": 0.0602,
+      "step": 39500
+    },
+    {
+      "epoch": 74.0,
+      "eval_accuracy": 0.5251875669882101,
+      "eval_f1_macro": 0.7988669656016311,
+      "eval_f1_micro": 0.8322677024200775,
+      "eval_loss": 0.1286717653274536,
+      "eval_roc_auc": 0.8937019727094121,
+      "eval_runtime": 656.8867,
+      "eval_samples_per_second": 4.261,
+      "eval_steps_per_second": 0.266,
+      "learning_rate": 1e-05,
+      "step": 39664
+    },
+    {
+      "epoch": 74.63,
+      "learning_rate": 1e-05,
+      "loss": 0.0612,
+      "step": 40000
+    },
+    {
+      "epoch": 75.0,
+      "eval_accuracy": 0.5262593783494105,
+      "eval_f1_macro": 0.8003789338109041,
+      "eval_f1_micro": 0.8326477076253503,
+      "eval_loss": 0.12862080335617065,
+      "eval_roc_auc": 0.8946190230307514,
+      "eval_runtime": 674.3061,
+      "eval_samples_per_second": 4.151,
+      "eval_steps_per_second": 0.26,
+      "learning_rate": 1e-05,
+      "step": 40200
+    },
+    {
+      "epoch": 75.56,
+      "learning_rate": 1e-05,
+      "loss": 0.0611,
+      "step": 40500
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.525902107895677,
+      "eval_f1_macro": 0.8001400823935392,
+      "eval_f1_micro": 0.8323506640462152,
+      "eval_loss": 0.128558948636055,
+      "eval_roc_auc": 0.8947806580875474,
+      "eval_runtime": 677.6714,
+      "eval_samples_per_second": 4.13,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 1e-05,
+      "step": 40736
+    },
+    {
+      "epoch": 76.49,
+      "learning_rate": 1e-05,
+      "loss": 0.061,
+      "step": 41000
+    },
+    {
+      "epoch": 77.0,
+      "eval_accuracy": 0.5280457306180779,
+      "eval_f1_macro": 0.7994288724930265,
+      "eval_f1_micro": 0.8320391828933223,
+      "eval_loss": 0.12870018184185028,
+      "eval_roc_auc": 0.8937004297813388,
+      "eval_runtime": 678.86,
+      "eval_samples_per_second": 4.123,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 1e-05,
+      "step": 41272
+    },
+    {
+      "epoch": 77.43,
+      "learning_rate": 1e-05,
+      "loss": 0.0603,
+      "step": 41500
+    },
+    {
+      "epoch": 78.0,
+      "eval_accuracy": 0.5276884601643445,
+      "eval_f1_macro": 0.7996470258117457,
+      "eval_f1_micro": 0.8322565206987317,
+      "eval_loss": 0.1287216991186142,
+      "eval_roc_auc": 0.8933457314989977,
+      "eval_runtime": 689.8146,
+      "eval_samples_per_second": 4.058,
+      "eval_steps_per_second": 0.254,
+      "learning_rate": 1e-05,
+      "step": 41808
+    },
+    {
+      "epoch": 78.36,
+      "learning_rate": 1e-05,
+      "loss": 0.0616,
+      "step": 42000
+    },
+    {
+      "epoch": 79.0,
+      "eval_accuracy": 0.5269739192568774,
+      "eval_f1_macro": 0.7993654831116606,
+      "eval_f1_micro": 0.8321778627779107,
+      "eval_loss": 0.12864746153354645,
+      "eval_roc_auc": 0.8935954793497476,
+      "eval_runtime": 681.1334,
+      "eval_samples_per_second": 4.109,
+      "eval_steps_per_second": 0.257,
+      "learning_rate": 1e-05,
+      "step": 42344
+    },
+    {
+      "epoch": 79.29,
+      "learning_rate": 1e-05,
+      "loss": 0.061,
+      "step": 42500
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.5280457306180779,
+      "eval_f1_macro": 0.7986609577778621,
+      "eval_f1_micro": 0.831889081455806,
+      "eval_loss": 0.12863147258758545,
+      "eval_roc_auc": 0.8934491390025154,
+      "eval_runtime": 713.1545,
+      "eval_samples_per_second": 3.925,
+      "eval_steps_per_second": 0.245,
+      "learning_rate": 1e-05,
+      "step": 42880
+    },
+    {
+      "epoch": 80.22,
+      "learning_rate": 1e-05,
+      "loss": 0.0607,
+      "step": 43000
+    },
+    {
+      "epoch": 81.0,
+      "eval_accuracy": 0.5280457306180779,
+      "eval_f1_macro": 0.8002720191845476,
+      "eval_f1_micro": 0.8328151160009567,
+      "eval_loss": 0.12868718802928925,
+      "eval_roc_auc": 0.8938115519252234,
+      "eval_runtime": 691.4261,
+      "eval_samples_per_second": 4.048,
+      "eval_steps_per_second": 0.253,
+      "learning_rate": 1e-05,
+      "step": 43416
+    },
+    {
+      "epoch": 81.16,
+      "learning_rate": 1e-05,
+      "loss": 0.0609,
+      "step": 43500
+    },
+    {
+      "epoch": 82.0,
+      "eval_accuracy": 0.5287602715255448,
+      "eval_f1_macro": 0.7990970221139213,
+      "eval_f1_micro": 0.8321377331420372,
+      "eval_loss": 0.12876012921333313,
+      "eval_roc_auc": 0.893498947736975,
+      "eval_runtime": 711.2784,
+      "eval_samples_per_second": 3.935,
+      "eval_steps_per_second": 0.246,
+      "learning_rate": 1e-05,
+      "step": 43952
+    },
+    {
+      "epoch": 82.09,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0611,
+      "step": 44000
+    },
+    {
+      "epoch": 83.0,
+      "eval_accuracy": 0.5287602715255448,
+      "eval_f1_macro": 0.7994362993568213,
+      "eval_f1_micro": 0.8323968918111178,
+      "eval_loss": 0.12867788970470428,
+      "eval_roc_auc": 0.8936835921437016,
+      "eval_runtime": 662.5317,
+      "eval_samples_per_second": 4.225,
+      "eval_steps_per_second": 0.264,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 44488
+    },
+    {
+      "epoch": 83.02,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0606,
+      "step": 44500
+    },
+    {
+      "epoch": 83.96,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0611,
+      "step": 45000
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.5284030010718114,
+      "eval_f1_macro": 0.7992778813134658,
+      "eval_f1_micro": 0.8324563501554653,
+      "eval_loss": 0.12863513827323914,
+      "eval_roc_auc": 0.8936069840247131,
+      "eval_runtime": 678.6961,
+      "eval_samples_per_second": 4.124,
+      "eval_steps_per_second": 0.258,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 45024
+    },
+    {
+      "epoch": 84.89,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0608,
+      "step": 45500
+    },
+    {
+      "epoch": 85.0,
+      "eval_accuracy": 0.5287602715255448,
+      "eval_f1_macro": 0.7992228177009172,
+      "eval_f1_micro": 0.8324162679425838,
+      "eval_loss": 0.12861298024654388,
+      "eval_roc_auc": 0.8935104524119406,
+      "eval_runtime": 655.8213,
+      "eval_samples_per_second": 4.268,
+      "eval_steps_per_second": 0.267,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 45560
+    },
+    {
+      "epoch": 85.82,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.0607,
+      "step": 46000
+    },
+    {
+      "epoch": 86.0,
+      "eval_accuracy": 0.5284030010718114,
+      "eval_f1_macro": 0.7994679642402115,
+      "eval_f1_micro": 0.8323768531802965,
+      "eval_loss": 0.12859971821308136,
+      "eval_roc_auc": 0.8936353263373153,
+      "eval_runtime": 659.2519,
+      "eval_samples_per_second": 4.246,
+      "eval_steps_per_second": 0.265,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 46096
+    },
+    {
+      "epoch": 86.0,
+      "learning_rate": 1.0000000000000002e-06,
+      "step": 46096,
+      "total_flos": 5.764057623662956e+19,
+      "train_loss": 0.1030069793400273,
+      "train_runtime": 233299.8908,
+      "train_samples_per_second": 3.305,
+      "train_steps_per_second": 0.207
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 48240,
+  "num_train_epochs": 90,
+  "save_steps": 500,
+  "total_flos": 5.764057623662956e+19,
+  "trial_name": null,
+  "trial_params": null
+}