Training in progress, epoch 1

Browse files

Files changed (8) hide show

all_results.json +15 -6
eval_results.json +12 -0
model.safetensors +1 -1
runs/May28_10-35-54_RTX3090/events.out.tfevents.1716868887.RTX3090.123086.1 +3 -0
runs/May28_13-11-48_RTX3090/events.out.tfevents.1716869509.RTX3090.58490.0 +3 -0
train_results.json +6 -6
trainer_state.json +1681 -46
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,8 +1,17 @@
 {
-    "epoch": 3.0,
-    "total_flos": 1.385556774308905e+17,
-    "train_loss": 0.33811448540603906,
-    "train_runtime": 48.6875,
-    "train_samples_per_second": 36.724,
-    "train_steps_per_second": 1.171
 }

 {
+    "epoch": 100.0,
+    "eval_AUC": 0.5354853273137697,
+    "eval_F1": 0.5271698859516118,
+    "eval_Precision": 0.8450433108758422,
+    "eval_Recall": 0.9909706546275395,
+    "eval_accuracy": 0.8407163053722903,
+    "eval_loss": 0.42085567116737366,
+    "eval_runtime": 11.8095,
+    "eval_samples_per_second": 89.843,
+    "eval_steps_per_second": 5.673,
+    "total_flos": 3.2879851193471386e+19,
+    "train_loss": 0.05622970362024654,
+    "train_runtime": 7456.0224,
+    "train_samples_per_second": 56.907,
+    "train_steps_per_second": 3.568
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 100.0,
+    "eval_AUC": 0.5354853273137697,
+    "eval_F1": 0.5271698859516118,
+    "eval_Precision": 0.8450433108758422,
+    "eval_Recall": 0.9909706546275395,
+    "eval_accuracy": 0.8407163053722903,
+    "eval_loss": 0.42085567116737366,
+    "eval_runtime": 11.8095,
+    "eval_samples_per_second": 89.843,
+    "eval_steps_per_second": 5.673
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3abe4097d5e56fd23c7f775a44c6357ab155b7301f1265b60ba464ef2d0eaae
 size 343223968

 version https://git-lfs.github.com/spec/v1
+oid sha256:821c8b4f00bae0fe5bb7907ddff695d80ed05c3c5049cd6eea4b76b51faac684
 size 343223968

runs/May28_10-35-54_RTX3090/events.out.tfevents.1716868887.RTX3090.123086.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89672d01ed2eab339588546a698998d4b3ddc1e017ed0ef25088d74cc6ae39e0
+size 617

runs/May28_13-11-48_RTX3090/events.out.tfevents.1716869509.RTX3090.58490.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:662b83880d53b2c7b48def2cfde901de234243734a37509b9ae7b3ea662de76f
+size 5635

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 3.0,
-    "total_flos": 1.385556774308905e+17,
-    "train_loss": 0.33811448540603906,
-    "train_runtime": 48.6875,
-    "train_samples_per_second": 36.724,
-    "train_steps_per_second": 1.171
 }

 {
+    "epoch": 100.0,
+    "total_flos": 3.2879851193471386e+19,
+    "train_loss": 0.05622970362024654,
+    "train_runtime": 7456.0224,
+    "train_samples_per_second": 56.907,
+    "train_steps_per_second": 3.568
 }

trainer_state.json CHANGED Viewed

@@ -1,70 +1,1705 @@
 {
-  "best_metric": 0.3061524033546448,
-  "best_model_checkpoint": "google/vit-base-patch16-224-in21k_covid_19_ct_scans/checkpoint-57",
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 57,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05263157894736842,
-      "grad_norm": 0.7303336262702942,
-      "learning_rate": 0.00019649122807017543,
-      "loss": 0.6963,
       "step": 1
     },
     {
       "epoch": 1.0,
-      "eval_F1": 0.7857142857142857,
-      "eval_Precision": 0.75,
-      "eval_Recall": 0.825,
-      "eval_accuracy": 0.76,
-      "eval_loss": 0.5245552659034729,
-      "eval_runtime": 6.9325,
-      "eval_samples_per_second": 21.637,
-      "eval_steps_per_second": 1.442,
-      "step": 19
     },
     {
       "epoch": 2.0,
-      "eval_F1": 0.8322147651006712,
-      "eval_Precision": 0.8985507246376812,
-      "eval_Recall": 0.775,
-      "eval_accuracy": 0.8333333333333334,
-      "eval_loss": 0.39111995697021484,
-      "eval_runtime": 6.1326,
-      "eval_samples_per_second": 24.46,
-      "eval_steps_per_second": 1.631,
-      "step": 38
     },
     {
       "epoch": 3.0,
-      "eval_F1": 0.8571428571428571,
-      "eval_Precision": 0.8518518518518519,
-      "eval_Recall": 0.8625,
-      "eval_accuracy": 0.8466666666666667,
-      "eval_loss": 0.3061524033546448,
-      "eval_runtime": 5.7977,
-      "eval_samples_per_second": 25.872,
-      "eval_steps_per_second": 1.725,
-      "step": 57
     },
     {
-      "epoch": 3.0,
-      "step": 57,
-      "total_flos": 1.385556774308905e+17,
-      "train_loss": 0.33811448540603906,
-      "train_runtime": 48.6875,
-      "train_samples_per_second": 36.724,
-      "train_steps_per_second": 1.171
     }
   ],
   "logging_steps": 500,
-  "max_steps": 57,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -78,8 +1713,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.385556774308905e+17,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.42085567116737366,
+  "best_model_checkpoint": "google/vit-base-patch16-224-in21k_covid_19_ct_scans/checkpoint-2394",
+  "epoch": 100.0,
   "eval_steps": 500,
+  "global_step": 26600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0037593984962406013,
+      "grad_norm": 3.3277029991149902,
+      "learning_rate": 0.00019999248120300753,
+      "loss": 0.768,
       "step": 1
     },
     {
       "epoch": 1.0,
+      "eval_AUC": 0.5,
+      "eval_F1": 0.45505906522855677,
+      "eval_Precision": 0.8350612629594723,
+      "eval_Recall": 1.0,
+      "eval_accuracy": 0.8350612629594723,
+      "eval_loss": 0.45460373163223267,
+      "eval_runtime": 23.809,
+      "eval_samples_per_second": 44.563,
+      "eval_steps_per_second": 2.814,
+      "step": 266
+    },
+    {
+      "epoch": 1.8796992481203008,
+      "grad_norm": 0.9518311023712158,
+      "learning_rate": 0.0001962406015037594,
+      "loss": 0.4516,
+      "step": 500
     },
     {
       "epoch": 2.0,
+      "eval_AUC": 0.5,
+      "eval_F1": 0.45505906522855677,
+      "eval_Precision": 0.8350612629594723,
+      "eval_Recall": 1.0,
+      "eval_accuracy": 0.8350612629594723,
+      "eval_loss": 0.449796199798584,
+      "eval_runtime": 12.1544,
+      "eval_samples_per_second": 87.293,
+      "eval_steps_per_second": 5.512,
+      "step": 532
     },
     {
       "epoch": 3.0,
+      "eval_AUC": 0.5,
+      "eval_F1": 0.45505906522855677,
+      "eval_Precision": 0.8350612629594723,
+      "eval_Recall": 1.0,
+      "eval_accuracy": 0.8350612629594723,
+      "eval_loss": 0.4491786062717438,
+      "eval_runtime": 12.1586,
+      "eval_samples_per_second": 87.263,
+      "eval_steps_per_second": 5.51,
+      "step": 798
     },
     {
+      "epoch": 3.7593984962406015,
+      "grad_norm": 0.6577199101448059,
+      "learning_rate": 0.0001924812030075188,
+      "loss": 0.4521,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_AUC": 0.5,
+      "eval_F1": 0.45505906522855677,
+      "eval_Precision": 0.8350612629594723,
+      "eval_Recall": 1.0,
+      "eval_accuracy": 0.8350612629594723,
+      "eval_loss": 0.44855841994285583,
+      "eval_runtime": 12.3395,
+      "eval_samples_per_second": 85.984,
+      "eval_steps_per_second": 5.43,
+      "step": 1064
+    },
+    {
+      "epoch": 5.0,
+      "eval_AUC": 0.5,
+      "eval_F1": 0.45505906522855677,
+      "eval_Precision": 0.8350612629594723,
+      "eval_Recall": 1.0,
+      "eval_accuracy": 0.8350612629594723,
+      "eval_loss": 0.44568774104118347,
+      "eval_runtime": 12.3116,
+      "eval_samples_per_second": 86.179,
+      "eval_steps_per_second": 5.442,
+      "step": 1330
+    },
+    {
+      "epoch": 5.639097744360902,
+      "grad_norm": 0.03062070906162262,
+      "learning_rate": 0.00018872180451127822,
+      "loss": 0.4415,
+      "step": 1500
+    },
+    {
+      "epoch": 6.0,
+      "eval_AUC": 0.5,
+      "eval_F1": 0.45505906522855677,
+      "eval_Precision": 0.8350612629594723,
+      "eval_Recall": 1.0,
+      "eval_accuracy": 0.8350612629594723,
+      "eval_loss": 0.4421917796134949,
+      "eval_runtime": 11.8255,
+      "eval_samples_per_second": 89.721,
+      "eval_steps_per_second": 5.666,
+      "step": 1596
+    },
+    {
+      "epoch": 7.0,
+      "eval_AUC": 0.5,
+      "eval_F1": 0.45505906522855677,
+      "eval_Precision": 0.8350612629594723,
+      "eval_Recall": 1.0,
+      "eval_accuracy": 0.8350612629594723,
+      "eval_loss": 0.42494845390319824,
+      "eval_runtime": 11.7622,
+      "eval_samples_per_second": 90.204,
+      "eval_steps_per_second": 5.696,
+      "step": 1862
+    },
+    {
+      "epoch": 7.518796992481203,
+      "grad_norm": 0.4491100311279297,
+      "learning_rate": 0.0001849624060150376,
+      "loss": 0.4344,
+      "step": 2000
+    },
+    {
+      "epoch": 8.0,
+      "eval_AUC": 0.5183424701709126,
+      "eval_F1": 0.4965715075876916,
+      "eval_Precision": 0.8401913875598086,
+      "eval_Recall": 0.9909706546275395,
+      "eval_accuracy": 0.8350612629594723,
+      "eval_loss": 0.4643925130367279,
+      "eval_runtime": 12.3543,
+      "eval_samples_per_second": 85.881,
+      "eval_steps_per_second": 5.423,
+      "step": 2128
+    },
+    {
+      "epoch": 9.0,
+      "eval_AUC": 0.5354853273137697,
+      "eval_F1": 0.5271698859516118,
+      "eval_Precision": 0.8450433108758422,
+      "eval_Recall": 0.9909706546275395,
+      "eval_accuracy": 0.8407163053722903,
+      "eval_loss": 0.42085567116737366,
+      "eval_runtime": 12.5156,
+      "eval_samples_per_second": 84.774,
+      "eval_steps_per_second": 5.353,
+      "step": 2394
+    },
+    {
+      "epoch": 9.398496240601503,
+      "grad_norm": 0.23315227031707764,
+      "learning_rate": 0.000181203007518797,
+      "loss": 0.3848,
+      "step": 2500
+    },
+    {
+      "epoch": 10.0,
+      "eval_AUC": 0.6642373427926476,
+      "eval_F1": 0.6571900744677727,
+      "eval_Precision": 0.8904267589388697,
+      "eval_Recall": 0.871331828442438,
+      "eval_accuracy": 0.8030160226201697,
+      "eval_loss": 0.4335523247718811,
+      "eval_runtime": 12.0639,
+      "eval_samples_per_second": 87.948,
+      "eval_steps_per_second": 5.554,
+      "step": 2660
+    },
+    {
+      "epoch": 11.0,
+      "eval_AUC": 0.6386617220251531,
+      "eval_F1": 0.6595258665704602,
+      "eval_Precision": 0.8777660695468915,
+      "eval_Recall": 0.9401805869074492,
+      "eval_accuracy": 0.8407163053722903,
+      "eval_loss": 0.43072912096977234,
+      "eval_runtime": 11.6338,
+      "eval_samples_per_second": 91.2,
+      "eval_steps_per_second": 5.759,
+      "step": 2926
+    },
+    {
+      "epoch": 11.278195488721805,
+      "grad_norm": 0.8828286528587341,
+      "learning_rate": 0.0001774436090225564,
+      "loss": 0.2882,
+      "step": 3000
+    },
+    {
+      "epoch": 12.0,
+      "eval_AUC": 0.7007449209932279,
+      "eval_F1": 0.6913138583881986,
+      "eval_Precision": 0.9028901734104047,
+      "eval_Recall": 0.881489841986456,
+      "eval_accuracy": 0.82186616399623,
+      "eval_loss": 0.5094270706176758,
+      "eval_runtime": 12.013,
+      "eval_samples_per_second": 88.321,
+      "eval_steps_per_second": 5.577,
+      "step": 3192
+    },
+    {
+      "epoch": 13.0,
+      "eval_AUC": 0.6362624959690422,
+      "eval_F1": 0.6636744500641045,
+      "eval_Precision": 0.8761609907120743,
+      "eval_Recall": 0.9582392776523702,
+      "eval_accuracy": 0.8520263901979265,
+      "eval_loss": 0.46198517084121704,
+      "eval_runtime": 11.833,
+      "eval_samples_per_second": 89.665,
+      "eval_steps_per_second": 5.662,
+      "step": 3458
+    },
+    {
+      "epoch": 13.157894736842104,
+      "grad_norm": 0.10690835863351822,
+      "learning_rate": 0.0001736842105263158,
+      "loss": 0.1654,
+      "step": 3500
+    },
+    {
+      "epoch": 14.0,
+      "eval_AUC": 0.7246952595936795,
+      "eval_F1": 0.7141794985075913,
+      "eval_Precision": 0.9109826589595376,
+      "eval_Recall": 0.8893905191873589,
+      "eval_accuracy": 0.8350612629594723,
+      "eval_loss": 0.58914715051651,
+      "eval_runtime": 12.2166,
+      "eval_samples_per_second": 86.849,
+      "eval_steps_per_second": 5.484,
+      "step": 3724
+    },
+    {
+      "epoch": 15.0,
+      "eval_AUC": 0.6827894227668494,
+      "eval_F1": 0.6940221645449677,
+      "eval_Precision": 0.893640350877193,
+      "eval_Recall": 0.9198645598194131,
+      "eval_accuracy": 0.8416588124410933,
+      "eval_loss": 0.5601742267608643,
+      "eval_runtime": 12.0344,
+      "eval_samples_per_second": 88.164,
+      "eval_steps_per_second": 5.567,
+      "step": 3990
+    },
+    {
+      "epoch": 15.037593984962406,
+      "grad_norm": 0.1679229587316513,
+      "learning_rate": 0.0001699248120300752,
+      "loss": 0.0868,
+      "step": 4000
+    },
+    {
+      "epoch": 16.0,
+      "eval_AUC": 0.6785198323121573,
+      "eval_F1": 0.7114280962304207,
+      "eval_Precision": 0.8894681960375391,
+      "eval_Recall": 0.9627539503386005,
+      "eval_accuracy": 0.8689915174363808,
+      "eval_loss": 0.5927982926368713,
+      "eval_runtime": 11.7748,
+      "eval_samples_per_second": 90.107,
+      "eval_steps_per_second": 5.69,
+      "step": 4256
+    },
+    {
+      "epoch": 16.917293233082706,
+      "grad_norm": 0.02159872278571129,
+      "learning_rate": 0.00016616541353383458,
+      "loss": 0.045,
+      "step": 4500
+    },
+    {
+      "epoch": 17.0,
+      "eval_AUC": 0.7072331505965818,
+      "eval_F1": 0.7268478980719824,
+      "eval_Precision": 0.9005405405405406,
+      "eval_Recall": 0.9401805869074492,
+      "eval_accuracy": 0.8633364750235627,
+      "eval_loss": 0.6153913140296936,
+      "eval_runtime": 11.9361,
+      "eval_samples_per_second": 88.89,
+      "eval_steps_per_second": 5.613,
+      "step": 4522
+    },
+    {
+      "epoch": 18.0,
+      "eval_AUC": 0.7169332473395679,
+      "eval_F1": 0.7369669924918544,
+      "eval_Precision": 0.9036796536796536,
+      "eval_Recall": 0.9424379232505643,
+      "eval_accuracy": 0.8680490103675778,
+      "eval_loss": 0.6357868909835815,
+      "eval_runtime": 11.728,
+      "eval_samples_per_second": 90.467,
+      "eval_steps_per_second": 5.713,
+      "step": 4788
+    },
+    {
+      "epoch": 18.796992481203006,
+      "grad_norm": 0.00539048295468092,
+      "learning_rate": 0.00016240601503759398,
+      "loss": 0.021,
+      "step": 5000
+    },
+    {
+      "epoch": 19.0,
+      "eval_AUC": 0.7422960335375686,
+      "eval_F1": 0.737905217953103,
+      "eval_Precision": 0.9157175398633257,
+      "eval_Recall": 0.90744920993228,
+      "eval_accuracy": 0.8529688972667295,
+      "eval_loss": 0.8246906399726868,
+      "eval_runtime": 11.7691,
+      "eval_samples_per_second": 90.151,
+      "eval_steps_per_second": 5.693,
+      "step": 5054
+    },
+    {
+      "epoch": 20.0,
+      "eval_AUC": 0.7228603676233473,
+      "eval_F1": 0.7228603676233474,
+      "eval_Precision": 0.9085778781038375,
+      "eval_Recall": 0.9085778781038375,
+      "eval_accuracy": 0.8473138548539114,
+      "eval_loss": 0.9930059909820557,
+      "eval_runtime": 11.643,
+      "eval_samples_per_second": 91.128,
+      "eval_steps_per_second": 5.755,
+      "step": 5320
+    },
+    {
+      "epoch": 20.67669172932331,
+      "grad_norm": 1.4996395111083984,
+      "learning_rate": 0.0001586466165413534,
+      "loss": 0.0136,
+      "step": 5500
+    },
+    {
+      "epoch": 21.0,
+      "eval_AUC": 0.7037762012254112,
+      "eval_F1": 0.7262231926161842,
+      "eval_Precision": 0.8990332975295381,
+      "eval_Recall": 0.9446952595936795,
+      "eval_accuracy": 0.8652214891611687,
+      "eval_loss": 0.5600523352622986,
+      "eval_runtime": 11.6192,
+      "eval_samples_per_second": 91.315,
+      "eval_steps_per_second": 5.766,
+      "step": 5586
+    },
+    {
+      "epoch": 22.0,
+      "eval_AUC": 0.6561560786842955,
+      "eval_F1": 0.6934912580385852,
+      "eval_Precision": 0.8816326530612245,
+      "eval_Recall": 0.9751693002257337,
+      "eval_accuracy": 0.8699340245051838,
+      "eval_loss": 0.64747554063797,
+      "eval_runtime": 11.5363,
+      "eval_samples_per_second": 91.971,
+      "eval_steps_per_second": 5.808,
+      "step": 5852
+    },
+    {
+      "epoch": 22.55639097744361,
+      "grad_norm": 0.029281923547387123,
+      "learning_rate": 0.0001548872180451128,
+      "loss": 0.0464,
+      "step": 6000
+    },
+    {
+      "epoch": 23.0,
+      "eval_AUC": 0.7170396646243147,
+      "eval_F1": 0.7272862554112554,
+      "eval_Precision": 0.9050772626931567,
+      "eval_Recall": 0.9255079006772009,
+      "eval_accuracy": 0.8567389255419415,
+      "eval_loss": 0.5766553282737732,
+      "eval_runtime": 11.6613,
+      "eval_samples_per_second": 90.984,
+      "eval_steps_per_second": 5.745,
+      "step": 6118
+    },
+    {
+      "epoch": 24.0,
+      "eval_AUC": 0.7451886488229603,
+      "eval_F1": 0.736944199717763,
+      "eval_Precision": 0.9173363949483353,
+      "eval_Recall": 0.9018058690744921,
+      "eval_accuracy": 0.8501413760603205,
+      "eval_loss": 0.7393656373023987,
+      "eval_runtime": 11.8414,
+      "eval_samples_per_second": 89.601,
+      "eval_steps_per_second": 5.658,
+      "step": 6384
+    },
+    {
+      "epoch": 24.43609022556391,
+      "grad_norm": 0.0072451187297701836,
+      "learning_rate": 0.00015112781954887218,
+      "loss": 0.0438,
+      "step": 6500
+    },
+    {
+      "epoch": 25.0,
+      "eval_AUC": 0.6412705578845533,
+      "eval_F1": 0.6781337216357238,
+      "eval_Precision": 0.8767676767676768,
+      "eval_Recall": 0.9796839729119639,
+      "eval_accuracy": 0.8680490103675778,
+      "eval_loss": 0.762208878993988,
+      "eval_runtime": 11.8755,
+      "eval_samples_per_second": 89.344,
+      "eval_steps_per_second": 5.642,
+      "step": 6650
+    },
+    {
+      "epoch": 26.0,
+      "eval_AUC": 0.7167913576265721,
+      "eval_F1": 0.7509163334545014,
+      "eval_Precision": 0.9018987341772152,
+      "eval_Recall": 0.9650112866817155,
+      "eval_accuracy": 0.883129123468426,
+      "eval_loss": 0.7616934180259705,
+      "eval_runtime": 11.673,
+      "eval_samples_per_second": 90.893,
+      "eval_steps_per_second": 5.74,
+      "step": 6916
+    },
+    {
+      "epoch": 26.31578947368421,
+      "grad_norm": 0.005205586086958647,
+      "learning_rate": 0.00014736842105263158,
+      "loss": 0.0126,
+      "step": 7000
+    },
+    {
+      "epoch": 27.0,
+      "eval_AUC": 0.7227184779103515,
+      "eval_F1": 0.7354277398991624,
+      "eval_Precision": 0.9065934065934066,
+      "eval_Recall": 0.9311512415349887,
+      "eval_accuracy": 0.8623939679547596,
+      "eval_loss": 0.8840720653533936,
+      "eval_runtime": 12.2613,
+      "eval_samples_per_second": 86.533,
+      "eval_steps_per_second": 5.464,
+      "step": 7182
+    },
+    {
+      "epoch": 28.0,
+      "eval_AUC": 0.7300193485972267,
+      "eval_F1": 0.7543650900476486,
+      "eval_Precision": 0.907427341227126,
+      "eval_Recall": 0.9514672686230248,
+      "eval_accuracy": 0.8784165881244109,
+      "eval_loss": 0.7538221478462219,
+      "eval_runtime": 11.7032,
+      "eval_samples_per_second": 90.659,
+      "eval_steps_per_second": 5.725,
+      "step": 7448
+    },
+    {
+      "epoch": 28.195488721804512,
+      "grad_norm": 0.03350173309445381,
+      "learning_rate": 0.000143609022556391,
+      "loss": 0.016,
+      "step": 7500
+    },
+    {
+      "epoch": 29.0,
+      "eval_AUC": 0.6320638503708481,
+      "eval_F1": 0.6709177157453019,
+      "eval_Precision": 0.8735059760956175,
+      "eval_Recall": 0.989841986455982,
+      "eval_accuracy": 0.8718190386427899,
+      "eval_loss": 0.7105740308761597,
+      "eval_runtime": 11.7867,
+      "eval_samples_per_second": 90.017,
+      "eval_steps_per_second": 5.684,
+      "step": 7714
+    },
+    {
+      "epoch": 30.0,
+      "eval_AUC": 0.689348597226701,
+      "eval_F1": 0.72511658580244,
+      "eval_Precision": 0.8927083333333333,
+      "eval_Recall": 0.9672686230248307,
+      "eval_accuracy": 0.8755890669180019,
+      "eval_loss": 0.6111597418785095,
+      "eval_runtime": 11.7504,
+      "eval_samples_per_second": 90.295,
+      "eval_steps_per_second": 5.702,
+      "step": 7980
+    },
+    {
+      "epoch": 30.075187969924812,
+      "grad_norm": 0.013551408424973488,
+      "learning_rate": 0.0001398496240601504,
+      "loss": 0.0384,
+      "step": 8000
+    },
+    {
+      "epoch": 31.0,
+      "eval_AUC": 0.6887487907126733,
+      "eval_F1": 0.7271465907527794,
+      "eval_Precision": 0.8922279792746114,
+      "eval_Recall": 0.9717832957110609,
+      "eval_accuracy": 0.8784165881244109,
+      "eval_loss": 0.5990052223205566,
+      "eval_runtime": 11.854,
+      "eval_samples_per_second": 89.506,
+      "eval_steps_per_second": 5.652,
+      "step": 8246
+    },
+    {
+      "epoch": 31.954887218045112,
+      "grad_norm": 0.10003461688756943,
+      "learning_rate": 0.0001360902255639098,
+      "loss": 0.0276,
+      "step": 8500
+    },
+    {
+      "epoch": 32.0,
+      "eval_AUC": 0.699577555627217,
+      "eval_F1": 0.741136709063275,
+      "eval_Precision": 0.8954451345755694,
+      "eval_Recall": 0.9762979683972912,
+      "eval_accuracy": 0.8850141376060321,
+      "eval_loss": 0.6617034673690796,
+      "eval_runtime": 11.7353,
+      "eval_samples_per_second": 90.411,
+      "eval_steps_per_second": 5.709,
+      "step": 8512
+    },
+    {
+      "epoch": 33.0,
+      "eval_AUC": 0.7190132215414382,
+      "eval_F1": 0.7599135442188549,
+      "eval_Precision": 0.9018789144050104,
+      "eval_Recall": 0.9751693002257337,
+      "eval_accuracy": 0.8906691800188501,
+      "eval_loss": 0.7068904042243958,
+      "eval_runtime": 11.6304,
+      "eval_samples_per_second": 91.226,
+      "eval_steps_per_second": 5.761,
+      "step": 8778
+    },
+    {
+      "epoch": 33.83458646616541,
+      "grad_norm": 0.00604345602914691,
+      "learning_rate": 0.00013233082706766918,
+      "loss": 0.0109,
+      "step": 9000
+    },
+    {
+      "epoch": 34.0,
+      "eval_AUC": 0.6566849403418252,
+      "eval_F1": 0.6974271887335782,
+      "eval_Precision": 0.8814589665653495,
+      "eval_Recall": 0.981941309255079,
+      "eval_accuracy": 0.8746465598491989,
+      "eval_loss": 0.8042259812355042,
+      "eval_runtime": 11.739,
+      "eval_samples_per_second": 90.382,
+      "eval_steps_per_second": 5.707,
+      "step": 9044
+    },
+    {
+      "epoch": 35.0,
+      "eval_AUC": 0.6961560786842954,
+      "eval_F1": 0.7368930485561156,
+      "eval_Precision": 0.8944099378881988,
+      "eval_Recall": 0.9751693002257337,
+      "eval_accuracy": 0.883129123468426,
+      "eval_loss": 0.7705923914909363,
+      "eval_runtime": 11.6824,
+      "eval_samples_per_second": 90.821,
+      "eval_steps_per_second": 5.735,
+      "step": 9310
+    },
+    {
+      "epoch": 35.714285714285715,
+      "grad_norm": 0.0020399852655828,
+      "learning_rate": 0.00012857142857142858,
+      "loss": 0.0028,
+      "step": 9500
+    },
+    {
+      "epoch": 36.0,
+      "eval_AUC": 0.712170267655595,
+      "eval_F1": 0.7516347009160568,
+      "eval_Precision": 0.8997912317327766,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8868991517436381,
+      "eval_loss": 0.8394030928611755,
+      "eval_runtime": 11.8855,
+      "eval_samples_per_second": 89.268,
+      "eval_steps_per_second": 5.637,
+      "step": 9576
+    },
+    {
+      "epoch": 37.0,
+      "eval_AUC": 0.7087487907126733,
+      "eval_F1": 0.7474952792646576,
+      "eval_Precision": 0.8987473903966597,
+      "eval_Recall": 0.9717832957110609,
+      "eval_accuracy": 0.8850141376060321,
+      "eval_loss": 0.8953573107719421,
+      "eval_runtime": 11.8186,
+      "eval_samples_per_second": 89.774,
+      "eval_steps_per_second": 5.669,
+      "step": 9842
+    },
+    {
+      "epoch": 37.59398496240601,
+      "grad_norm": 0.0010929929558187723,
+      "learning_rate": 0.00012481203007518797,
+      "loss": 0.0076,
+      "step": 10000
+    },
+    {
+      "epoch": 38.0,
+      "eval_AUC": 0.7087487907126733,
+      "eval_F1": 0.7474952792646576,
+      "eval_Precision": 0.8987473903966597,
+      "eval_Recall": 0.9717832957110609,
+      "eval_accuracy": 0.8850141376060321,
+      "eval_loss": 0.9388997554779053,
+      "eval_runtime": 11.6255,
+      "eval_samples_per_second": 91.265,
+      "eval_steps_per_second": 5.763,
+      "step": 10108
+    },
+    {
+      "epoch": 39.0,
+      "eval_AUC": 0.7087487907126733,
+      "eval_F1": 0.7474952792646576,
+      "eval_Precision": 0.8987473903966597,
+      "eval_Recall": 0.9717832957110609,
+      "eval_accuracy": 0.8850141376060321,
+      "eval_loss": 0.9697290062904358,
+      "eval_runtime": 11.5778,
+      "eval_samples_per_second": 91.641,
+      "eval_steps_per_second": 5.787,
+      "step": 10374
+    },
+    {
+      "epoch": 39.473684210526315,
+      "grad_norm": 0.0006237945053726435,
+      "learning_rate": 0.00012105263157894738,
+      "loss": 0.0001,
+      "step": 10500
+    },
+    {
+      "epoch": 40.0,
+      "eval_AUC": 0.7087487907126733,
+      "eval_F1": 0.7474952792646576,
+      "eval_Precision": 0.8987473903966597,
+      "eval_Recall": 0.9717832957110609,
+      "eval_accuracy": 0.8850141376060321,
+      "eval_loss": 0.9953697323799133,
+      "eval_runtime": 11.7777,
+      "eval_samples_per_second": 90.086,
+      "eval_steps_per_second": 5.689,
+      "step": 10640
+    },
+    {
+      "epoch": 41.0,
+      "eval_AUC": 0.7087487907126733,
+      "eval_F1": 0.7474952792646576,
+      "eval_Precision": 0.8987473903966597,
+      "eval_Recall": 0.9717832957110609,
+      "eval_accuracy": 0.8850141376060321,
+      "eval_loss": 1.0168683528900146,
+      "eval_runtime": 11.7874,
+      "eval_samples_per_second": 90.011,
+      "eval_steps_per_second": 5.684,
+      "step": 10906
+    },
+    {
+      "epoch": 41.35338345864662,
+      "grad_norm": 0.000347771099768579,
+      "learning_rate": 0.00011729323308270677,
+      "loss": 0.0,
+      "step": 11000
+    },
+    {
+      "epoch": 42.0,
+      "eval_AUC": 0.7093131247984521,
+      "eval_F1": 0.7487971197401504,
+      "eval_Precision": 0.8988529718456726,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.885956644674835,
+      "eval_loss": 1.038093090057373,
+      "eval_runtime": 11.6656,
+      "eval_samples_per_second": 90.951,
+      "eval_steps_per_second": 5.743,
+      "step": 11172
+    },
+    {
+      "epoch": 43.0,
+      "eval_AUC": 0.7093131247984521,
+      "eval_F1": 0.7487971197401504,
+      "eval_Precision": 0.8988529718456726,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.885956644674835,
+      "eval_loss": 1.0582064390182495,
+      "eval_runtime": 11.7863,
+      "eval_samples_per_second": 90.019,
+      "eval_steps_per_second": 5.685,
+      "step": 11438
+    },
+    {
+      "epoch": 43.233082706766915,
+      "grad_norm": 0.00026405107928439975,
+      "learning_rate": 0.00011353383458646618,
+      "loss": 0.0,
+      "step": 11500
+    },
+    {
+      "epoch": 44.0,
+      "eval_AUC": 0.7093131247984521,
+      "eval_F1": 0.7487971197401504,
+      "eval_Precision": 0.8988529718456726,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.885956644674835,
+      "eval_loss": 1.0762717723846436,
+      "eval_runtime": 11.6351,
+      "eval_samples_per_second": 91.189,
+      "eval_steps_per_second": 5.758,
+      "step": 11704
+    },
+    {
+      "epoch": 45.0,
+      "eval_AUC": 0.7093131247984521,
+      "eval_F1": 0.7487971197401504,
+      "eval_Precision": 0.8988529718456726,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.885956644674835,
+      "eval_loss": 1.0936743021011353,
+      "eval_runtime": 11.9085,
+      "eval_samples_per_second": 89.096,
+      "eval_steps_per_second": 5.626,
+      "step": 11970
+    },
+    {
+      "epoch": 45.11278195488722,
+      "grad_norm": 0.00022154749603942037,
+      "learning_rate": 0.00010977443609022557,
+      "loss": 0.0,
+      "step": 12000
+    },
+    {
+      "epoch": 46.0,
+      "eval_AUC": 0.7150274105127379,
+      "eval_F1": 0.7544540322094451,
+      "eval_Precision": 0.9007314524555904,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8878416588124411,
+      "eval_loss": 1.1094835996627808,
+      "eval_runtime": 11.7724,
+      "eval_samples_per_second": 90.126,
+      "eval_steps_per_second": 5.691,
+      "step": 12236
+    },
+    {
+      "epoch": 46.99248120300752,
+      "grad_norm": 0.00019688473548740149,
+      "learning_rate": 0.00010601503759398497,
+      "loss": 0.0,
+      "step": 12500
+    },
+    {
+      "epoch": 47.0,
+      "eval_AUC": 0.7150274105127379,
+      "eval_F1": 0.7544540322094451,
+      "eval_Precision": 0.9007314524555904,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8878416588124411,
+      "eval_loss": 1.1262503862380981,
+      "eval_runtime": 11.5453,
+      "eval_samples_per_second": 91.899,
+      "eval_steps_per_second": 5.803,
+      "step": 12502
+    },
+    {
+      "epoch": 48.0,
+      "eval_AUC": 0.7150274105127379,
+      "eval_F1": 0.7544540322094451,
+      "eval_Precision": 0.9007314524555904,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8878416588124411,
+      "eval_loss": 1.1426563262939453,
+      "eval_runtime": 11.6837,
+      "eval_samples_per_second": 90.81,
+      "eval_steps_per_second": 5.734,
+      "step": 12768
+    },
+    {
+      "epoch": 48.87218045112782,
+      "grad_norm": 0.0001134950143750757,
+      "learning_rate": 0.00010225563909774436,
+      "loss": 0.0,
+      "step": 13000
+    },
+    {
+      "epoch": 49.0,
+      "eval_AUC": 0.7150274105127379,
+      "eval_F1": 0.7544540322094451,
+      "eval_Precision": 0.9007314524555904,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8878416588124411,
+      "eval_loss": 1.1587177515029907,
+      "eval_runtime": 11.7191,
+      "eval_samples_per_second": 90.536,
+      "eval_steps_per_second": 5.717,
+      "step": 13034
+    },
+    {
+      "epoch": 50.0,
+      "eval_AUC": 0.7150274105127379,
+      "eval_F1": 0.7544540322094451,
+      "eval_Precision": 0.9007314524555904,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8878416588124411,
+      "eval_loss": 1.174465537071228,
+      "eval_runtime": 11.8222,
+      "eval_samples_per_second": 89.747,
+      "eval_steps_per_second": 5.667,
+      "step": 13300
+    },
+    {
+      "epoch": 50.75187969924812,
+      "grad_norm": 9.584094368619844e-05,
+      "learning_rate": 9.849624060150377e-05,
+      "loss": 0.0,
+      "step": 13500
+    },
+    {
+      "epoch": 51.0,
+      "eval_AUC": 0.7150274105127379,
+      "eval_F1": 0.7544540322094451,
+      "eval_Precision": 0.9007314524555904,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8878416588124411,
+      "eval_loss": 1.1900520324707031,
+      "eval_runtime": 11.7601,
+      "eval_samples_per_second": 90.22,
+      "eval_steps_per_second": 5.697,
+      "step": 13566
+    },
+    {
+      "epoch": 52.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.2051938772201538,
+      "eval_runtime": 11.9347,
+      "eval_samples_per_second": 88.901,
+      "eval_steps_per_second": 5.614,
+      "step": 13832
+    },
+    {
+      "epoch": 52.63157894736842,
+      "grad_norm": 7.240776903927326e-05,
+      "learning_rate": 9.473684210526316e-05,
+      "loss": 0.0,
+      "step": 14000
+    },
+    {
+      "epoch": 53.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.2201390266418457,
+      "eval_runtime": 11.8013,
+      "eval_samples_per_second": 89.905,
+      "eval_steps_per_second": 5.677,
+      "step": 14098
+    },
+    {
+      "epoch": 54.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.2349706888198853,
+      "eval_runtime": 11.8152,
+      "eval_samples_per_second": 89.8,
+      "eval_steps_per_second": 5.671,
+      "step": 14364
+    },
+    {
+      "epoch": 54.51127819548872,
+      "grad_norm": 4.7142420953605324e-05,
+      "learning_rate": 9.097744360902256e-05,
+      "loss": 0.0,
+      "step": 14500
+    },
+    {
+      "epoch": 55.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.249691367149353,
+      "eval_runtime": 11.9642,
+      "eval_samples_per_second": 88.682,
+      "eval_steps_per_second": 5.6,
+      "step": 14630
+    },
+    {
+      "epoch": 56.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.2640849351882935,
+      "eval_runtime": 11.9363,
+      "eval_samples_per_second": 88.889,
+      "eval_steps_per_second": 5.613,
+      "step": 14896
+    },
+    {
+      "epoch": 56.390977443609025,
+      "grad_norm": 4.406652442412451e-05,
+      "learning_rate": 8.721804511278195e-05,
+      "loss": 0.0,
+      "step": 15000
+    },
+    {
+      "epoch": 57.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.2785232067108154,
+      "eval_runtime": 11.9798,
+      "eval_samples_per_second": 88.566,
+      "eval_steps_per_second": 5.593,
+      "step": 15162
+    },
+    {
+      "epoch": 58.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.2925220727920532,
+      "eval_runtime": 11.9038,
+      "eval_samples_per_second": 89.131,
+      "eval_steps_per_second": 5.628,
+      "step": 15428
+    },
+    {
+      "epoch": 58.27067669172932,
+      "grad_norm": 2.6122717827092856e-05,
+      "learning_rate": 8.345864661654136e-05,
+      "loss": 0.0,
+      "step": 15500
+    },
+    {
+      "epoch": 59.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.3067699670791626,
+      "eval_runtime": 11.8267,
+      "eval_samples_per_second": 89.713,
+      "eval_steps_per_second": 5.665,
+      "step": 15694
+    },
+    {
+      "epoch": 60.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.3207120895385742,
+      "eval_runtime": 11.6077,
+      "eval_samples_per_second": 91.405,
+      "eval_steps_per_second": 5.772,
+      "step": 15960
+    },
+    {
+      "epoch": 60.150375939849624,
+      "grad_norm": 2.532277903810609e-05,
+      "learning_rate": 7.969924812030075e-05,
+      "loss": 0.0,
+      "step": 16000
+    },
+    {
+      "epoch": 61.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.3345941305160522,
+      "eval_runtime": 11.8443,
+      "eval_samples_per_second": 89.579,
+      "eval_steps_per_second": 5.657,
+      "step": 16226
+    },
+    {
+      "epoch": 62.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.3484621047973633,
+      "eval_runtime": 11.6458,
+      "eval_samples_per_second": 91.106,
+      "eval_steps_per_second": 5.753,
+      "step": 16492
+    },
+    {
+      "epoch": 62.03007518796993,
+      "grad_norm": 1.7661703168414533e-05,
+      "learning_rate": 7.593984962406016e-05,
+      "loss": 0.0,
+      "step": 16500
+    },
+    {
+      "epoch": 63.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.3622149229049683,
+      "eval_runtime": 11.7437,
+      "eval_samples_per_second": 90.346,
+      "eval_steps_per_second": 5.705,
+      "step": 16758
+    },
+    {
+      "epoch": 63.909774436090224,
+      "grad_norm": 1.633859210414812e-05,
+      "learning_rate": 7.218045112781955e-05,
+      "loss": 0.0,
+      "step": 17000
+    },
+    {
+      "epoch": 64.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.3757728338241577,
+      "eval_runtime": 11.6035,
+      "eval_samples_per_second": 91.438,
+      "eval_steps_per_second": 5.774,
+      "step": 17024
+    },
+    {
+      "epoch": 65.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.3893355131149292,
+      "eval_runtime": 11.8424,
+      "eval_samples_per_second": 89.593,
+      "eval_steps_per_second": 5.658,
+      "step": 17290
+    },
+    {
+      "epoch": 65.78947368421052,
+      "grad_norm": 1.2574956599564757e-05,
+      "learning_rate": 6.842105263157895e-05,
+      "loss": 0.0,
+      "step": 17500
+    },
+    {
+      "epoch": 66.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.40289306640625,
+      "eval_runtime": 11.9699,
+      "eval_samples_per_second": 88.639,
+      "eval_steps_per_second": 5.597,
+      "step": 17556
+    },
+    {
+      "epoch": 67.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.4165505170822144,
+      "eval_runtime": 11.6917,
+      "eval_samples_per_second": 90.748,
+      "eval_steps_per_second": 5.731,
+      "step": 17822
+    },
+    {
+      "epoch": 67.66917293233082,
+      "grad_norm": 1.0964651664835401e-05,
+      "learning_rate": 6.466165413533834e-05,
+      "loss": 0.0,
+      "step": 18000
+    },
+    {
+      "epoch": 68.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.4297924041748047,
+      "eval_runtime": 11.881,
+      "eval_samples_per_second": 89.302,
+      "eval_steps_per_second": 5.639,
+      "step": 18088
+    },
+    {
+      "epoch": 69.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.4431047439575195,
+      "eval_runtime": 11.6298,
+      "eval_samples_per_second": 91.231,
+      "eval_steps_per_second": 5.761,
+      "step": 18354
+    },
+    {
+      "epoch": 69.54887218045113,
+      "grad_norm": 8.276247172034346e-06,
+      "learning_rate": 6.090225563909775e-05,
+      "loss": 0.0,
+      "step": 18500
+    },
+    {
+      "epoch": 70.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.4565781354904175,
+      "eval_runtime": 11.6654,
+      "eval_samples_per_second": 90.952,
+      "eval_steps_per_second": 5.743,
+      "step": 18620
+    },
+    {
+      "epoch": 71.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.4694792032241821,
+      "eval_runtime": 12.0384,
+      "eval_samples_per_second": 88.134,
+      "eval_steps_per_second": 5.566,
+      "step": 18886
+    },
+    {
+      "epoch": 71.42857142857143,
+      "grad_norm": 7.255929176608333e-06,
+      "learning_rate": 5.714285714285714e-05,
+      "loss": 0.0,
+      "step": 19000
+    },
+    {
+      "epoch": 72.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.482446551322937,
+      "eval_runtime": 11.6854,
+      "eval_samples_per_second": 90.797,
+      "eval_steps_per_second": 5.734,
+      "step": 19152
+    },
+    {
+      "epoch": 73.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.4949710369110107,
+      "eval_runtime": 11.7291,
+      "eval_samples_per_second": 90.459,
+      "eval_steps_per_second": 5.712,
+      "step": 19418
+    },
+    {
+      "epoch": 73.30827067669173,
+      "grad_norm": 5.73582974539022e-06,
+      "learning_rate": 5.338345864661655e-05,
+      "loss": 0.0,
+      "step": 19500
+    },
+    {
+      "epoch": 74.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.50760817527771,
+      "eval_runtime": 11.6937,
+      "eval_samples_per_second": 90.732,
+      "eval_steps_per_second": 5.73,
+      "step": 19684
+    },
+    {
+      "epoch": 75.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.5201044082641602,
+      "eval_runtime": 11.779,
+      "eval_samples_per_second": 90.075,
+      "eval_steps_per_second": 5.688,
+      "step": 19950
+    },
+    {
+      "epoch": 75.18796992481202,
+      "grad_norm": 3.381761189302779e-06,
+      "learning_rate": 4.9624060150375936e-05,
+      "loss": 0.0,
+      "step": 20000
+    },
+    {
+      "epoch": 76.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.5320940017700195,
+      "eval_runtime": 11.7044,
+      "eval_samples_per_second": 90.65,
+      "eval_steps_per_second": 5.724,
+      "step": 20216
+    },
+    {
+      "epoch": 77.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.5440773963928223,
+      "eval_runtime": 11.8766,
+      "eval_samples_per_second": 89.335,
+      "eval_steps_per_second": 5.641,
+      "step": 20482
+    },
+    {
+      "epoch": 77.06766917293233,
+      "grad_norm": 4.261892627255293e-06,
+      "learning_rate": 4.586466165413534e-05,
+      "loss": 0.0,
+      "step": 20500
+    },
+    {
+      "epoch": 78.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.5564316511154175,
+      "eval_runtime": 11.9626,
+      "eval_samples_per_second": 88.693,
+      "eval_steps_per_second": 5.601,
+      "step": 20748
+    },
+    {
+      "epoch": 78.94736842105263,
+      "grad_norm": 2.5668264242995065e-06,
+      "learning_rate": 4.210526315789474e-05,
+      "loss": 0.0,
+      "step": 21000
+    },
+    {
+      "epoch": 79.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.5691113471984863,
+      "eval_runtime": 11.9711,
+      "eval_samples_per_second": 88.63,
+      "eval_steps_per_second": 5.597,
+      "step": 21014
+    },
+    {
+      "epoch": 80.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.5799812078475952,
+      "eval_runtime": 11.8905,
+      "eval_samples_per_second": 89.231,
+      "eval_steps_per_second": 5.635,
+      "step": 21280
+    },
+    {
+      "epoch": 80.82706766917293,
+      "grad_norm": 1.7882749716591206e-06,
+      "learning_rate": 3.834586466165413e-05,
+      "loss": 0.0,
+      "step": 21500
+    },
+    {
+      "epoch": 81.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.5909699201583862,
+      "eval_runtime": 11.8739,
+      "eval_samples_per_second": 89.355,
+      "eval_steps_per_second": 5.643,
+      "step": 21546
+    },
+    {
+      "epoch": 82.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6020997762680054,
+      "eval_runtime": 11.7593,
+      "eval_samples_per_second": 90.226,
+      "eval_steps_per_second": 5.698,
+      "step": 21812
+    },
+    {
+      "epoch": 82.70676691729324,
+      "grad_norm": 3.307637371108285e-06,
+      "learning_rate": 3.458646616541353e-05,
+      "loss": 0.0,
+      "step": 22000
+    },
+    {
+      "epoch": 83.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6133201122283936,
+      "eval_runtime": 11.7049,
+      "eval_samples_per_second": 90.645,
+      "eval_steps_per_second": 5.724,
+      "step": 22078
+    },
+    {
+      "epoch": 84.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6243833303451538,
+      "eval_runtime": 11.7522,
+      "eval_samples_per_second": 90.281,
+      "eval_steps_per_second": 5.701,
+      "step": 22344
+    },
+    {
+      "epoch": 84.58646616541354,
+      "grad_norm": 2.0808365661650896e-06,
+      "learning_rate": 3.082706766917293e-05,
+      "loss": 0.0,
+      "step": 22500
+    },
+    {
+      "epoch": 85.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6356879472732544,
+      "eval_runtime": 11.8494,
+      "eval_samples_per_second": 89.54,
+      "eval_steps_per_second": 5.654,
+      "step": 22610
+    },
+    {
+      "epoch": 86.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.646845817565918,
+      "eval_runtime": 11.9457,
+      "eval_samples_per_second": 88.819,
+      "eval_steps_per_second": 5.609,
+      "step": 22876
+    },
+    {
+      "epoch": 86.46616541353383,
+      "grad_norm": 1.6075608755272697e-06,
+      "learning_rate": 2.706766917293233e-05,
+      "loss": 0.0,
+      "step": 23000
+    },
+    {
+      "epoch": 87.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6580337285995483,
+      "eval_runtime": 11.988,
+      "eval_samples_per_second": 88.505,
+      "eval_steps_per_second": 5.589,
+      "step": 23142
+    },
+    {
+      "epoch": 88.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6693716049194336,
+      "eval_runtime": 11.563,
+      "eval_samples_per_second": 91.758,
+      "eval_steps_per_second": 5.794,
+      "step": 23408
+    },
+    {
+      "epoch": 88.34586466165413,
+      "grad_norm": 1.4785607618250651e-06,
+      "learning_rate": 2.3308270676691728e-05,
+      "loss": 0.0,
+      "step": 23500
+    },
+    {
+      "epoch": 89.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6805604696273804,
+      "eval_runtime": 11.7292,
+      "eval_samples_per_second": 90.458,
+      "eval_steps_per_second": 5.712,
+      "step": 23674
+    },
+    {
+      "epoch": 90.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6876078844070435,
+      "eval_runtime": 11.6884,
+      "eval_samples_per_second": 90.774,
+      "eval_steps_per_second": 5.732,
+      "step": 23940
+    },
+    {
+      "epoch": 90.22556390977444,
+      "grad_norm": 7.791019811520528e-07,
+      "learning_rate": 1.954887218045113e-05,
+      "loss": 0.0,
+      "step": 24000
+    },
+    {
+      "epoch": 91.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6937507390975952,
+      "eval_runtime": 11.7263,
+      "eval_samples_per_second": 90.481,
+      "eval_steps_per_second": 5.714,
+      "step": 24206
+    },
+    {
+      "epoch": 92.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.6996102333068848,
+      "eval_runtime": 11.8252,
+      "eval_samples_per_second": 89.723,
+      "eval_steps_per_second": 5.666,
+      "step": 24472
+    },
+    {
+      "epoch": 92.10526315789474,
+      "grad_norm": 8.590963034293964e-07,
+      "learning_rate": 1.5789473684210526e-05,
+      "loss": 0.0,
+      "step": 24500
+    },
+    {
+      "epoch": 93.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.705134630203247,
+      "eval_runtime": 12.0159,
+      "eval_samples_per_second": 88.3,
+      "eval_steps_per_second": 5.576,
+      "step": 24738
+    },
+    {
+      "epoch": 93.98496240601504,
+      "grad_norm": 1.100646727536514e-06,
+      "learning_rate": 1.2030075187969925e-05,
+      "loss": 0.0,
+      "step": 25000
+    },
+    {
+      "epoch": 94.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.7103519439697266,
+      "eval_runtime": 11.7931,
+      "eval_samples_per_second": 89.968,
+      "eval_steps_per_second": 5.681,
+      "step": 25004
+    },
+    {
+      "epoch": 95.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.715171456336975,
+      "eval_runtime": 11.6391,
+      "eval_samples_per_second": 91.159,
+      "eval_steps_per_second": 5.756,
+      "step": 25270
+    },
+    {
+      "epoch": 95.86466165413533,
+      "grad_norm": 5.422148774414381e-07,
+      "learning_rate": 8.270676691729324e-06,
+      "loss": 0.0,
+      "step": 25500
+    },
+    {
+      "epoch": 96.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.7194596529006958,
+      "eval_runtime": 11.8706,
+      "eval_samples_per_second": 89.38,
+      "eval_steps_per_second": 5.644,
+      "step": 25536
+    },
+    {
+      "epoch": 97.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.723157286643982,
+      "eval_runtime": 12.0004,
+      "eval_samples_per_second": 88.414,
+      "eval_steps_per_second": 5.583,
+      "step": 25802
+    },
+    {
+      "epoch": 97.74436090225564,
+      "grad_norm": 8.843226737553778e-07,
+      "learning_rate": 4.511278195488722e-06,
+      "loss": 0.0,
+      "step": 26000
+    },
+    {
+      "epoch": 98.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.7260410785675049,
+      "eval_runtime": 11.8627,
+      "eval_samples_per_second": 89.44,
+      "eval_steps_per_second": 5.648,
+      "step": 26068
+    },
+    {
+      "epoch": 99.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.7279813289642334,
+      "eval_runtime": 12.0306,
+      "eval_samples_per_second": 88.192,
+      "eval_steps_per_second": 5.569,
+      "step": 26334
+    },
+    {
+      "epoch": 99.62406015037594,
+      "grad_norm": 6.334667546070705e-07,
+      "learning_rate": 7.518796992481203e-07,
+      "loss": 0.0,
+      "step": 26500
+    },
+    {
+      "epoch": 100.0,
+      "eval_AUC": 0.7178845533698807,
+      "eval_F1": 0.7572553125484722,
+      "eval_Precision": 0.9016736401673641,
+      "eval_Recall": 0.9729119638826185,
+      "eval_accuracy": 0.8887841658812441,
+      "eval_loss": 1.7286875247955322,
+      "eval_runtime": 11.7137,
+      "eval_samples_per_second": 90.578,
+      "eval_steps_per_second": 5.72,
+      "step": 26600
+    },
+    {
+      "epoch": 100.0,
+      "step": 26600,
+      "total_flos": 3.2879851193471386e+19,
+      "train_loss": 0.05622970362024654,
+      "train_runtime": 7456.0224,
+      "train_samples_per_second": 56.907,
+      "train_steps_per_second": 3.568
     }
   ],
   "logging_steps": 500,
+  "max_steps": 26600,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 3.2879851193471386e+19,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2083fb31a3069b3585c96d3f3553dcb97dd69189e01137cd1ad0b76d96a137be
 size 4731

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2c95be8dfa078f207769e6a45a60c21d63ea3efa725e9cccfa4863abae40541
 size 4731