re-trained model after eliminating annotation errors

Browse files

Files changed (7) hide show

README.md +0 -9
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +342 -390
training_args.bin +1 -1

README.md DELETED Viewed

@@ -1,9 +0,0 @@
----
-language:
-- es
-tags:
-- biomedical
-- clinical
-- text classification
-inference: false
----

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ab5160acad3d74173a4403c17739f967dc134af1d0745ce1006e9ca8a26edf3
 size 879021981

 version https://git-lfs.github.com/spec/v1
+oid sha256:d673794abea4f9f32eea45bf697ff4f12dbc1c561636dc997b2ae1b27bfe388a
 size 879021981

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4ba8e9988869a67365759a0f3aa37ab81a0bdb3e4afd5bd68c367ebc235638b
 size 439523757

 version https://git-lfs.github.com/spec/v1
+oid sha256:e82d3be659eb92da58bcdb69222b26712769fe017e49faed50ffc3338b643fed
 size 439523757

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39abed38f4f2569ad671d5803bd513b010a73e88bf62fbed07babd396767ccd4
 size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:7828668887420de455e689846f2ffee8b491eb4b7ae2754cb0b4960cdf279faf
 size 14567

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:484b84811abc41f5316517dfb03f6e67a4ae8d76db69bf34db3d62248e624fba
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:535e27d2fd00cdf025bc38be672c110138265000fc7ca104327b68dd9437be23
 size 623

trainer_state.json CHANGED Viewed

@@ -1,506 +1,458 @@
 {
-  "best_metric": 0.7252073370829516,
-  "best_model_checkpoint": "./CARES/checkpoints/bert-ba-stratified/run-3/checkpoint-4402",
-  "epoch": 31.21985815602837,
-  "global_step": 4402,
   "is_hyper_param_search": true,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 1.01,
-      "eval_loss": 0.2769930064678192,
-      "eval_macro_f1": 0.04276761517615176,
-      "eval_macro_precision": 0.03250514933058703,
-      "eval_macro_recall": 0.0625,
-      "eval_micro_f1": 0.4057854560064283,
-      "eval_micro_precision": 0.5200823892893924,
-      "eval_micro_recall": 0.3326745718050066,
-      "eval_runtime": 10.4856,
-      "eval_samples_per_second": 92.603,
-      "eval_steps_per_second": 2.956,
       "step": 142
     },
     {
-      "epoch": 2.01,
-      "eval_loss": 0.23320329189300537,
-      "eval_macro_f1": 0.07268419522929685,
-      "eval_macro_precision": 0.09945738083657588,
-      "eval_macro_recall": 0.07568745319910142,
-      "eval_micro_f1": 0.4403274450667815,
-      "eval_micro_precision": 0.6363636363636364,
-      "eval_micro_recall": 0.33662714097496704,
-      "eval_runtime": 10.4881,
-      "eval_samples_per_second": 92.581,
-      "eval_steps_per_second": 2.956,
       "step": 284
     },
     {
-      "epoch": 3.02,
-      "eval_loss": 0.18873895704746246,
-      "eval_macro_f1": 0.18226771045112236,
-      "eval_macro_precision": 0.20572045142357642,
-      "eval_macro_recall": 0.16688644032337763,
-      "eval_micro_f1": 0.6089478044739022,
-      "eval_micro_precision": 0.8203125,
-      "eval_micro_recall": 0.4841897233201581,
-      "eval_runtime": 10.4735,
-      "eval_samples_per_second": 92.71,
-      "eval_steps_per_second": 2.96,
       "step": 426
     },
     {
-      "epoch": 3.55,
-      "learning_rate": 3.0199029012738545e-05,
-      "loss": 0.2864,
       "step": 500
     },
     {
-      "epoch": 4.03,
-      "eval_loss": 0.1688539683818817,
-      "eval_macro_f1": 0.2604924389345447,
-      "eval_macro_precision": 0.3576131893465115,
-      "eval_macro_recall": 0.24005925564568711,
-      "eval_micro_f1": 0.6585842784513101,
-      "eval_micro_precision": 0.8103946102021174,
-      "eval_micro_recall": 0.5546772068511199,
-      "eval_runtime": 10.5012,
-      "eval_samples_per_second": 92.465,
-      "eval_steps_per_second": 2.952,
       "step": 568
     },
     {
-      "epoch": 5.04,
-      "eval_loss": 0.14974796772003174,
-      "eval_macro_f1": 0.31858165699036184,
-      "eval_macro_precision": 0.3683087696286302,
-      "eval_macro_recall": 0.2922878974373826,
-      "eval_micro_f1": 0.7164622816796731,
-      "eval_micro_precision": 0.8218243819266837,
-      "eval_micro_recall": 0.6350461133069829,
-      "eval_runtime": 10.488,
-      "eval_samples_per_second": 92.582,
-      "eval_steps_per_second": 2.956,
       "step": 710
     },
     {
-      "epoch": 6.04,
-      "eval_loss": 0.1422141045331955,
-      "eval_macro_f1": 0.45636691704527516,
-      "eval_macro_precision": 0.6115096433126577,
-      "eval_macro_recall": 0.4073540760438781,
-      "eval_micro_f1": 0.7305970149253732,
-      "eval_micro_precision": 0.842512908777969,
-      "eval_micro_recall": 0.644927536231884,
-      "eval_runtime": 10.4831,
-      "eval_samples_per_second": 92.625,
-      "eval_steps_per_second": 2.957,
       "step": 852
     },
     {
-      "epoch": 7.05,
-      "eval_loss": 0.1337544023990631,
-      "eval_macro_f1": 0.5272952937702646,
-      "eval_macro_precision": 0.6898645530460084,
-      "eval_macro_recall": 0.47291207140683184,
-      "eval_micro_f1": 0.7612208258527827,
-      "eval_micro_precision": 0.8366219415943172,
-      "eval_micro_recall": 0.6982872200263505,
-      "eval_runtime": 10.4851,
-      "eval_samples_per_second": 92.608,
-      "eval_steps_per_second": 2.957,
       "step": 994
     },
     {
-      "epoch": 7.09,
-      "learning_rate": 4.790731259177651e-05,
-      "loss": 0.1272,
       "step": 1000
     },
     {
-      "epoch": 8.06,
-      "eval_loss": 0.13911226391792297,
-      "eval_macro_f1": 0.5414520142513848,
-      "eval_macro_precision": 0.6021054439096823,
-      "eval_macro_recall": 0.5152762028502071,
-      "eval_micro_f1": 0.7606779661016948,
-      "eval_micro_precision": 0.7835195530726257,
-      "eval_micro_recall": 0.7391304347826086,
-      "eval_runtime": 10.487,
-      "eval_samples_per_second": 92.591,
-      "eval_steps_per_second": 2.956,
       "step": 1136
     },
     {
-      "epoch": 9.06,
-      "eval_loss": 0.1353491097688675,
-      "eval_macro_f1": 0.5516496195059415,
-      "eval_macro_precision": 0.6105827458765187,
-      "eval_macro_recall": 0.5327103225574433,
-      "eval_micro_f1": 0.7625212947189096,
-      "eval_micro_precision": 0.78969654199012,
-      "eval_micro_recall": 0.7371541501976284,
-      "eval_runtime": 10.4862,
-      "eval_samples_per_second": 92.598,
-      "eval_steps_per_second": 2.956,
       "step": 1278
     },
     {
-      "epoch": 10.07,
-      "eval_loss": 0.13818134367465973,
-      "eval_macro_f1": 0.5629085360191737,
-      "eval_macro_precision": 0.6601053330799342,
-      "eval_macro_recall": 0.5158438987675726,
-      "eval_micro_f1": 0.7794221282593375,
-      "eval_micro_precision": 0.8378787878787879,
-      "eval_micro_recall": 0.7285902503293807,
-      "eval_runtime": 10.4843,
-      "eval_samples_per_second": 92.615,
-      "eval_steps_per_second": 2.957,
       "step": 1420
     },
     {
-      "epoch": 10.64,
-      "learning_rate": 4.6078789210411e-05,
-      "loss": 0.0577,
       "step": 1500
     },
     {
-      "epoch": 11.08,
-      "eval_loss": 0.145726278424263,
-      "eval_macro_f1": 0.5903998605572057,
-      "eval_macro_precision": 0.653652711667118,
-      "eval_macro_recall": 0.5513401858459299,
-      "eval_micro_f1": 0.7780429594272077,
-      "eval_micro_precision": 0.8063604240282686,
-      "eval_micro_recall": 0.7516469038208169,
-      "eval_runtime": 10.4837,
-      "eval_samples_per_second": 92.62,
-      "eval_steps_per_second": 2.957,
       "step": 1562
     },
     {
-      "epoch": 12.09,
-      "eval_loss": 0.1388859748840332,
-      "eval_macro_f1": 0.6030363323278404,
-      "eval_macro_precision": 0.6755461130761506,
-      "eval_macro_recall": 0.5610332958067313,
-      "eval_micro_f1": 0.8001355013550135,
-      "eval_micro_precision": 0.8235704323570432,
-      "eval_micro_recall": 0.7779973649538867,
-      "eval_runtime": 10.4865,
-      "eval_samples_per_second": 92.595,
-      "eval_steps_per_second": 2.956,
       "step": 1704
     },
     {
-      "epoch": 13.09,
-      "eval_loss": 0.1482115238904953,
-      "eval_macro_f1": 0.6056908525913866,
-      "eval_macro_precision": 0.6552837427265621,
-      "eval_macro_recall": 0.572537210182014,
-      "eval_micro_f1": 0.7822553335590924,
-      "eval_micro_precision": 0.8048780487804879,
-      "eval_micro_recall": 0.7608695652173914,
-      "eval_runtime": 10.5045,
-      "eval_samples_per_second": 92.437,
-      "eval_steps_per_second": 2.951,
       "step": 1846
     },
     {
-      "epoch": 14.1,
-      "eval_loss": 0.14726266264915466,
-      "eval_macro_f1": 0.6072794535097282,
-      "eval_macro_precision": 0.680123510778154,
-      "eval_macro_recall": 0.5630252433183344,
-      "eval_micro_f1": 0.7845188284518829,
-      "eval_micro_precision": 0.8333333333333334,
-      "eval_micro_recall": 0.741106719367589,
-      "eval_runtime": 10.487,
-      "eval_samples_per_second": 92.591,
-      "eval_steps_per_second": 2.956,
       "step": 1988
     },
     {
-      "epoch": 14.18,
-      "learning_rate": 4.425026582904548e-05,
-      "loss": 0.0284,
       "step": 2000
     },
     {
-      "epoch": 15.11,
-      "eval_loss": 0.14193882048130035,
-      "eval_macro_f1": 0.6169717669838317,
-      "eval_macro_precision": 0.6503808357210328,
-      "eval_macro_recall": 0.5931599384917411,
-      "eval_micro_f1": 0.7969924812030075,
-      "eval_micro_precision": 0.828125,
-      "eval_micro_recall": 0.7681159420289855,
-      "eval_runtime": 10.4855,
-      "eval_samples_per_second": 92.604,
-      "eval_steps_per_second": 2.956,
       "step": 2130
     },
     {
-      "epoch": 16.11,
-      "eval_loss": 0.15002837777137756,
-      "eval_macro_f1": 0.6525221299555535,
-      "eval_macro_precision": 0.8021892379342418,
-      "eval_macro_recall": 0.5999831390602388,
-      "eval_micro_f1": 0.8061016949152543,
-      "eval_micro_precision": 0.8303072625698324,
-      "eval_micro_recall": 0.7832674571805006,
-      "eval_runtime": 10.503,
-      "eval_samples_per_second": 92.45,
-      "eval_steps_per_second": 2.952,
       "step": 2272
     },
     {
-      "epoch": 17.12,
-      "eval_loss": 0.14581723511219025,
-      "eval_macro_f1": 0.6138635616219041,
-      "eval_macro_precision": 0.6561402184700652,
-      "eval_macro_recall": 0.5837363386062422,
-      "eval_micro_f1": 0.8006768189509307,
-      "eval_micro_precision": 0.8232428670842032,
-      "eval_micro_recall": 0.7793148880105402,
-      "eval_runtime": 10.4901,
-      "eval_samples_per_second": 92.564,
-      "eval_steps_per_second": 2.955,
       "step": 2414
     },
     {
-      "epoch": 17.73,
-      "learning_rate": 4.242174244767996e-05,
-      "loss": 0.0145,
       "step": 2500
     },
     {
-      "epoch": 18.13,
-      "eval_loss": 0.16017772257328033,
-      "eval_macro_f1": 0.6444367141145684,
-      "eval_macro_precision": 0.7439848776601259,
-      "eval_macro_recall": 0.5952268137231111,
-      "eval_micro_f1": 0.7922971114167813,
-      "eval_micro_precision": 0.8287769784172662,
-      "eval_micro_recall": 0.758893280632411,
-      "eval_runtime": 10.4941,
-      "eval_samples_per_second": 92.528,
-      "eval_steps_per_second": 2.954,
       "step": 2556
     },
     {
-      "epoch": 19.13,
-      "eval_loss": 0.16528286039829254,
-      "eval_macro_f1": 0.6255401892998842,
-      "eval_macro_precision": 0.7027892098283081,
-      "eval_macro_recall": 0.5807621048617468,
-      "eval_micro_f1": 0.799320882852292,
-      "eval_micro_precision": 0.8248072880168185,
-      "eval_micro_recall": 0.7753623188405797,
-      "eval_runtime": 10.5086,
-      "eval_samples_per_second": 92.4,
-      "eval_steps_per_second": 2.95,
       "step": 2698
     },
     {
-      "epoch": 20.14,
-      "eval_loss": 0.16131597757339478,
-      "eval_macro_f1": 0.6758630342355485,
-      "eval_macro_precision": 0.7848399016138751,
-      "eval_macro_recall": 0.6311385295870753,
-      "eval_micro_f1": 0.795959595959596,
-      "eval_micro_precision": 0.8140495867768595,
-      "eval_micro_recall": 0.7786561264822134,
-      "eval_runtime": 10.4977,
-      "eval_samples_per_second": 92.496,
-      "eval_steps_per_second": 2.953,
       "step": 2840
     },
     {
-      "epoch": 21.15,
-      "eval_loss": 0.16260398924350739,
-      "eval_macro_f1": 0.6471248124455184,
-      "eval_macro_precision": 0.7519504537117815,
-      "eval_macro_recall": 0.5979276636724924,
-      "eval_micro_f1": 0.8031604259704569,
-      "eval_micro_precision": 0.8391959798994975,
-      "eval_micro_recall": 0.7700922266139657,
-      "eval_runtime": 10.5031,
-      "eval_samples_per_second": 92.449,
-      "eval_steps_per_second": 2.952,
       "step": 2982
     },
     {
-      "epoch": 21.28,
-      "learning_rate": 4.059321906631445e-05,
-      "loss": 0.0097,
       "step": 3000
     },
     {
-      "epoch": 22.16,
-      "eval_loss": 0.1720920354127884,
-      "eval_macro_f1": 0.6197445878457252,
-      "eval_macro_precision": 0.6777223144129594,
-      "eval_macro_recall": 0.5809350716774138,
-      "eval_micro_f1": 0.7995860641600551,
-      "eval_micro_precision": 0.8392469225199131,
-      "eval_micro_recall": 0.7635046113306982,
-      "eval_runtime": 10.5022,
-      "eval_samples_per_second": 92.457,
-      "eval_steps_per_second": 2.952,
       "step": 3124
     },
     {
-      "epoch": 23.16,
-      "eval_loss": 0.18361401557922363,
-      "eval_macro_f1": 0.679814364002206,
-      "eval_macro_precision": 0.7438188782599036,
-      "eval_macro_recall": 0.6793295713709084,
-      "eval_micro_f1": 0.7756177924217464,
-      "eval_micro_precision": 0.7758734344100198,
-      "eval_micro_recall": 0.7753623188405797,
-      "eval_runtime": 10.4795,
-      "eval_samples_per_second": 92.658,
-      "eval_steps_per_second": 2.958,
       "step": 3266
     },
     {
-      "epoch": 24.17,
-      "eval_loss": 0.18593738973140717,
-      "eval_macro_f1": 0.6768305526976849,
-      "eval_macro_precision": 0.7623894236010156,
-      "eval_macro_recall": 0.639542168905185,
-      "eval_micro_f1": 0.7799253984401492,
-      "eval_micro_precision": 0.803633822501747,
-      "eval_micro_recall": 0.7575757575757576,
-      "eval_runtime": 10.5008,
-      "eval_samples_per_second": 92.469,
-      "eval_steps_per_second": 2.952,
       "step": 3408
     },
     {
-      "epoch": 24.82,
-      "learning_rate": 3.8764695684948935e-05,
-      "loss": 0.0076,
       "step": 3500
     },
     {
-      "epoch": 25.18,
-      "eval_loss": 0.17676377296447754,
-      "eval_macro_f1": 0.6779522309735053,
-      "eval_macro_precision": 0.7968781822538058,
-      "eval_macro_recall": 0.6336237715199059,
-      "eval_micro_f1": 0.796775277124622,
-      "eval_micro_precision": 0.8128855380397533,
-      "eval_micro_recall": 0.7812911725955204,
-      "eval_runtime": 10.5104,
-      "eval_samples_per_second": 92.384,
-      "eval_steps_per_second": 2.949,
       "step": 3550
     },
     {
-      "epoch": 26.18,
-      "eval_loss": 0.1732201725244522,
-      "eval_macro_f1": 0.707509469543303,
-      "eval_macro_precision": 0.8146827025242978,
-      "eval_macro_recall": 0.6503143056843191,
-      "eval_micro_f1": 0.7985299031072502,
-      "eval_micro_precision": 0.8101694915254237,
-      "eval_micro_recall": 0.7872200263504612,
-      "eval_runtime": 10.4892,
-      "eval_samples_per_second": 92.571,
-      "eval_steps_per_second": 2.955,
       "step": 3692
     },
     {
-      "epoch": 27.19,
-      "eval_loss": 0.20233392715454102,
-      "eval_macro_f1": 0.6513179543559465,
-      "eval_macro_precision": 0.7916846976726903,
-      "eval_macro_recall": 0.5806696184169113,
-      "eval_micro_f1": 0.7844352617079889,
-      "eval_micro_precision": 0.8217893217893217,
-      "eval_micro_recall": 0.7503293807641633,
-      "eval_runtime": 10.5011,
-      "eval_samples_per_second": 92.466,
-      "eval_steps_per_second": 2.952,
       "step": 3834
     },
     {
-      "epoch": 28.2,
-      "eval_loss": 0.1885799914598465,
-      "eval_macro_f1": 0.6823207317968834,
-      "eval_macro_precision": 0.7917566921291868,
-      "eval_macro_recall": 0.6430312076263187,
-      "eval_micro_f1": 0.7875717662951706,
-      "eval_micro_precision": 0.808038808038808,
-      "eval_micro_recall": 0.7681159420289855,
-      "eval_runtime": 10.5149,
-      "eval_samples_per_second": 92.345,
-      "eval_steps_per_second": 2.948,
       "step": 3976
-    },
-    {
-      "epoch": 28.37,
-      "learning_rate": 3.6936172303583416e-05,
-      "loss": 0.0066,
-      "step": 4000
-    },
-    {
-      "epoch": 29.21,
-      "eval_loss": 0.19189482927322388,
-      "eval_macro_f1": 0.6669099856977689,
-      "eval_macro_precision": 0.7967630539496974,
-      "eval_macro_recall": 0.6033413092496192,
-      "eval_micro_f1": 0.8017894012388163,
-      "eval_micro_precision": 0.8393371757925072,
-      "eval_micro_recall": 0.7674571805006588,
-      "eval_runtime": 10.4969,
-      "eval_samples_per_second": 92.503,
-      "eval_steps_per_second": 2.953,
-      "step": 4118
-    },
-    {
-      "epoch": 30.21,
-      "eval_loss": 0.18965879082679749,
-      "eval_macro_f1": 0.6876913982263068,
-      "eval_macro_precision": 0.8027653366004972,
-      "eval_macro_recall": 0.6233955552143939,
-      "eval_micro_f1": 0.7947112038970077,
-      "eval_micro_precision": 0.8421828908554573,
-      "eval_micro_recall": 0.7523056653491436,
-      "eval_runtime": 10.497,
-      "eval_samples_per_second": 92.503,
-      "eval_steps_per_second": 2.953,
-      "step": 4260
-    },
-    {
-      "epoch": 31.22,
-      "eval_loss": 0.1917509138584137,
-      "eval_macro_f1": 0.7252073370829516,
-      "eval_macro_precision": 0.7693080004594731,
-      "eval_macro_recall": 0.703604344156779,
-      "eval_micro_f1": 0.7954469367258119,
-      "eval_micro_precision": 0.808713410483322,
-      "eval_micro_recall": 0.782608695652174,
-      "eval_runtime": 10.5118,
-      "eval_samples_per_second": 92.373,
-      "eval_steps_per_second": 2.949,
-      "step": 4402
     }
   ],
-  "max_steps": 14100,
   "num_train_epochs": 100,
-  "total_flos": 1.6671849861800448e+16,
   "trial_name": null,
   "trial_params": {
-    "adam_epsilon": 1.874740778707177e-08,
-    "learning_rate": 4.862043671050906e-05,
-    "per_device_eval_batch_size": 32,
-    "per_device_train_batch_size": 16,
-    "seed": 322,
-    "warmup_steps": 805,
-    "weight_decay": 1.0026204622214607e-07
   }
 }

 {
+  "best_metric": 0.8249799337347952,
+  "best_model_checkpoint": "./CARES/checkpoints/bert-ba-stratified/run-9/checkpoint-3976",
+  "epoch": 56.0,
+  "global_step": 3976,
   "is_hyper_param_search": true,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 2.0,
+      "eval_loss": 0.24943208694458008,
+      "eval_macro_f1": 0.08911588063155029,
+      "eval_macro_precision": 0.1020147123407993,
+      "eval_macro_recall": 0.08017933766090879,
+      "eval_micro_f1": 0.27627302275189597,
+      "eval_micro_precision": 0.7750759878419453,
+      "eval_micro_recall": 0.16809492419248517,
+      "eval_runtime": 2.9775,
+      "eval_samples_per_second": 324.431,
+      "eval_steps_per_second": 20.487,
       "step": 142
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 0.1698431819677353,
+      "eval_macro_f1": 0.30238618603356054,
+      "eval_macro_precision": 0.4320649543604988,
+      "eval_macro_recall": 0.2644492382273683,
+      "eval_micro_f1": 0.6521739130434782,
+      "eval_micro_precision": 0.8376421923474664,
+      "eval_micro_recall": 0.5339485827290705,
+      "eval_runtime": 2.979,
+      "eval_samples_per_second": 324.273,
+      "eval_steps_per_second": 20.477,
       "step": 284
     },
     {
+      "epoch": 6.0,
+      "eval_loss": 0.14047418534755707,
+      "eval_macro_f1": 0.40223830727079396,
+      "eval_macro_precision": 0.4784721691006365,
+      "eval_macro_recall": 0.3687052580973402,
+      "eval_micro_f1": 0.739880059970015,
+      "eval_micro_precision": 0.8575152041702867,
+      "eval_micro_recall": 0.6506262359920897,
+      "eval_runtime": 2.9805,
+      "eval_samples_per_second": 324.11,
+      "eval_steps_per_second": 20.467,
       "step": 426
     },
     {
+      "epoch": 7.04,
+      "learning_rate": 3.279287453609026e-05,
+      "loss": 0.2244,
       "step": 500
     },
     {
+      "epoch": 8.0,
+      "eval_loss": 0.1187577173113823,
+      "eval_macro_f1": 0.5347249220382584,
+      "eval_macro_precision": 0.7327975628305986,
+      "eval_macro_recall": 0.4754068941604508,
+      "eval_micro_f1": 0.7880299251870324,
+      "eval_micro_precision": 0.8573643410852713,
+      "eval_micro_recall": 0.7290705339485827,
+      "eval_runtime": 2.9805,
+      "eval_samples_per_second": 324.108,
+      "eval_steps_per_second": 20.466,
       "step": 568
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 0.11074026674032211,
+      "eval_macro_f1": 0.5991127961103198,
+      "eval_macro_precision": 0.6991665233729463,
+      "eval_macro_recall": 0.5596673950826421,
+      "eval_micro_f1": 0.8128196385952949,
+      "eval_micro_precision": 0.8418079096045198,
+      "eval_micro_recall": 0.7857613711272248,
+      "eval_runtime": 2.9796,
+      "eval_samples_per_second": 324.206,
+      "eval_steps_per_second": 20.473,
       "step": 710
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 0.10078531503677368,
+      "eval_macro_f1": 0.6568773778388772,
+      "eval_macro_precision": 0.700413763066982,
+      "eval_macro_recall": 0.6283428000904666,
+      "eval_micro_f1": 0.8347529812606473,
+      "eval_micro_precision": 0.8638928067700987,
+      "eval_micro_recall": 0.8075148319050758,
+      "eval_runtime": 2.979,
+      "eval_samples_per_second": 324.274,
+      "eval_steps_per_second": 20.477,
       "step": 852
     },
     {
+      "epoch": 14.0,
+      "eval_loss": 0.10221733897924423,
+      "eval_macro_f1": 0.6758575377881516,
+      "eval_macro_precision": 0.838910780569426,
+      "eval_macro_recall": 0.6238243641780066,
+      "eval_micro_f1": 0.8337912087912088,
+      "eval_micro_precision": 0.8702508960573476,
+      "eval_micro_recall": 0.8002636783124588,
+      "eval_runtime": 2.9795,
+      "eval_samples_per_second": 324.21,
+      "eval_steps_per_second": 20.473,
       "step": 994
     },
     {
+      "epoch": 14.08,
+      "learning_rate": 3.0308565859113728e-05,
+      "loss": 0.0513,
       "step": 1000
     },
     {
+      "epoch": 16.0,
+      "eval_loss": 0.10313227772712708,
+      "eval_macro_f1": 0.7298003500123689,
+      "eval_macro_precision": 0.8118751777216693,
+      "eval_macro_recall": 0.6944187826598622,
+      "eval_micro_f1": 0.8354006034193765,
+      "eval_micro_precision": 0.849931787175989,
+      "eval_micro_recall": 0.8213579433091628,
+      "eval_runtime": 2.9811,
+      "eval_samples_per_second": 324.042,
+      "eval_steps_per_second": 20.462,
       "step": 1136
     },
     {
+      "epoch": 18.0,
+      "eval_loss": 0.10032625496387482,
+      "eval_macro_f1": 0.7681297243773157,
+      "eval_macro_precision": 0.8958394795684446,
+      "eval_macro_recall": 0.7124194145895655,
+      "eval_micro_f1": 0.8443093549476527,
+      "eval_micro_precision": 0.8656509695290858,
+      "eval_micro_recall": 0.8239947264337508,
+      "eval_runtime": 2.9813,
+      "eval_samples_per_second": 324.018,
+      "eval_steps_per_second": 20.461,
       "step": 1278
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 0.1044757142663002,
+      "eval_macro_f1": 0.7829375079467304,
+      "eval_macro_precision": 0.8858384241353942,
+      "eval_macro_recall": 0.7367403001149204,
+      "eval_micro_f1": 0.8420698924731183,
+      "eval_micro_precision": 0.8588074023303632,
+      "eval_micro_recall": 0.8259723137771918,
+      "eval_runtime": 2.9861,
+      "eval_samples_per_second": 323.499,
+      "eval_steps_per_second": 20.428,
       "step": 1420
     },
     {
+      "epoch": 21.13,
+      "learning_rate": 2.7824257182137193e-05,
+      "loss": 0.0183,
       "step": 1500
     },
     {
+      "epoch": 22.0,
+      "eval_loss": 0.1039622500538826,
+      "eval_macro_f1": 0.7902798824417182,
+      "eval_macro_precision": 0.89276275853935,
+      "eval_macro_recall": 0.7403232660636272,
+      "eval_micro_f1": 0.8479512360311547,
+      "eval_micro_precision": 0.871866295264624,
+      "eval_micro_recall": 0.8253131179960448,
+      "eval_runtime": 2.977,
+      "eval_samples_per_second": 324.483,
+      "eval_steps_per_second": 20.49,
       "step": 1562
     },
     {
+      "epoch": 24.0,
+      "eval_loss": 0.10449391603469849,
+      "eval_macro_f1": 0.7973957256263516,
+      "eval_macro_precision": 0.8897797609904068,
+      "eval_macro_recall": 0.7482788788828134,
+      "eval_micro_f1": 0.8530297957817209,
+      "eval_micro_precision": 0.8666666666666667,
+      "eval_micro_recall": 0.8398154251812788,
+      "eval_runtime": 2.982,
+      "eval_samples_per_second": 323.947,
+      "eval_steps_per_second": 20.456,
       "step": 1704
     },
     {
+      "epoch": 26.0,
+      "eval_loss": 0.10751193016767502,
+      "eval_macro_f1": 0.815099576727704,
+      "eval_macro_precision": 0.8596170620799346,
+      "eval_macro_recall": 0.7893940744657464,
+      "eval_micro_f1": 0.8517287234042553,
+      "eval_micro_precision": 0.8591549295774648,
+      "eval_micro_recall": 0.8444297956493079,
+      "eval_runtime": 2.9874,
+      "eval_samples_per_second": 323.362,
+      "eval_steps_per_second": 20.419,
       "step": 1846
     },
     {
+      "epoch": 28.0,
+      "eval_loss": 0.10826986283063889,
+      "eval_macro_f1": 0.8122978188941863,
+      "eval_macro_precision": 0.8818206343623207,
+      "eval_macro_recall": 0.7768327155632533,
+      "eval_micro_f1": 0.8507362784471219,
+      "eval_micro_precision": 0.8640380693405847,
+      "eval_micro_recall": 0.8378378378378378,
+      "eval_runtime": 2.9805,
+      "eval_samples_per_second": 324.106,
+      "eval_steps_per_second": 20.466,
       "step": 1988
     },
     {
+      "epoch": 28.17,
+      "learning_rate": 2.5339948505160657e-05,
+      "loss": 0.0094,
       "step": 2000
     },
     {
+      "epoch": 30.0,
+      "eval_loss": 0.11172767728567123,
+      "eval_macro_f1": 0.7952069303877679,
+      "eval_macro_precision": 0.8834731091800803,
+      "eval_macro_recall": 0.7589521997225694,
+      "eval_micro_f1": 0.8510210913960494,
+      "eval_micro_precision": 0.8646258503401361,
+      "eval_micro_recall": 0.8378378378378378,
+      "eval_runtime": 2.9811,
+      "eval_samples_per_second": 324.039,
+      "eval_steps_per_second": 20.462,
       "step": 2130
     },
     {
+      "epoch": 32.0,
+      "eval_loss": 0.12214264273643494,
+      "eval_macro_f1": 0.784963786280585,
+      "eval_macro_precision": 0.8399655989881138,
+      "eval_macro_recall": 0.7539663033116887,
+      "eval_micro_f1": 0.8395881766854865,
+      "eval_micro_precision": 0.8460508701472557,
+      "eval_micro_recall": 0.8332234673698088,
+      "eval_runtime": 2.9802,
+      "eval_samples_per_second": 324.138,
+      "eval_steps_per_second": 20.468,
       "step": 2272
     },
     {
+      "epoch": 34.0,
+      "eval_loss": 0.10992709547281265,
+      "eval_macro_f1": 0.818123937895116,
+      "eval_macro_precision": 0.846307748666965,
+      "eval_macro_recall": 0.7959472696549352,
+      "eval_micro_f1": 0.8540829986613119,
+      "eval_micro_precision": 0.86743711760707,
+      "eval_micro_recall": 0.8411338167435728,
+      "eval_runtime": 2.9817,
+      "eval_samples_per_second": 323.976,
+      "eval_steps_per_second": 20.458,
       "step": 2414
     },
     {
+      "epoch": 35.21,
+      "learning_rate": 2.2855639828184125e-05,
+      "loss": 0.0088,
       "step": 2500
     },
     {
+      "epoch": 36.0,
+      "eval_loss": 0.11282340437173843,
+      "eval_macro_f1": 0.810588172484549,
+      "eval_macro_precision": 0.8881718400115531,
+      "eval_macro_recall": 0.7660828954423657,
+      "eval_micro_f1": 0.8533783783783784,
+      "eval_micro_precision": 0.8752598752598753,
+      "eval_micro_recall": 0.8325642715886619,
+      "eval_runtime": 2.9823,
+      "eval_samples_per_second": 323.913,
+      "eval_steps_per_second": 20.454,
       "step": 2556
     },
     {
+      "epoch": 38.0,
+      "eval_loss": 0.11364943534135818,
+      "eval_macro_f1": 0.8086979072156089,
+      "eval_macro_precision": 0.874192444614366,
+      "eval_macro_recall": 0.7687841160082525,
+      "eval_micro_f1": 0.855510752688172,
+      "eval_micro_precision": 0.8725154215215901,
+      "eval_micro_recall": 0.8391562294001318,
+      "eval_runtime": 2.9856,
+      "eval_samples_per_second": 323.552,
+      "eval_steps_per_second": 20.431,
       "step": 2698
     },
     {
+      "epoch": 40.0,
+      "eval_loss": 0.11377756297588348,
+      "eval_macro_f1": 0.8074550758048753,
+      "eval_macro_precision": 0.8601506214626871,
+      "eval_macro_recall": 0.7772364003410493,
+      "eval_micro_f1": 0.8550483172275909,
+      "eval_micro_precision": 0.8645552560646901,
+      "eval_micro_recall": 0.8457481872116018,
+      "eval_runtime": 2.987,
+      "eval_samples_per_second": 323.399,
+      "eval_steps_per_second": 20.422,
       "step": 2840
     },
     {
+      "epoch": 42.0,
+      "eval_loss": 0.11456111818552017,
+      "eval_macro_f1": 0.8197602680311404,
+      "eval_macro_precision": 0.8652772327919502,
+      "eval_macro_recall": 0.7923572373451824,
+      "eval_micro_f1": 0.8584748584748586,
+      "eval_micro_precision": 0.8674293405114402,
+      "eval_micro_recall": 0.8497033618984838,
+      "eval_runtime": 2.9793,
+      "eval_samples_per_second": 324.237,
+      "eval_steps_per_second": 20.475,
       "step": 2982
     },
     {
+      "epoch": 42.25,
+      "learning_rate": 2.0371331151207586e-05,
+      "loss": 0.0049,
       "step": 3000
     },
     {
+      "epoch": 44.0,
+      "eval_loss": 0.11773423105478287,
+      "eval_macro_f1": 0.8086306686692242,
+      "eval_macro_precision": 0.8642281309223148,
+      "eval_macro_recall": 0.7764573931394076,
+      "eval_micro_f1": 0.8553291012362179,
+      "eval_micro_precision": 0.8672086720867209,
+      "eval_micro_recall": 0.8437705998681608,
+      "eval_runtime": 2.9813,
+      "eval_samples_per_second": 324.023,
+      "eval_steps_per_second": 20.461,
       "step": 3124
     },
     {
+      "epoch": 46.0,
+      "eval_loss": 0.11780666559934616,
+      "eval_macro_f1": 0.8101599105843645,
+      "eval_macro_precision": 0.8691080726361069,
+      "eval_macro_recall": 0.7762766074908475,
+      "eval_micro_f1": 0.8565723793677205,
+      "eval_micro_precision": 0.8649193548387096,
+      "eval_micro_recall": 0.8483849703361899,
+      "eval_runtime": 2.9804,
+      "eval_samples_per_second": 324.123,
+      "eval_steps_per_second": 20.467,
       "step": 3266
     },
     {
+      "epoch": 48.0,
+      "eval_loss": 0.11932362616062164,
+      "eval_macro_f1": 0.8165194442314286,
+      "eval_macro_precision": 0.8648115942931565,
+      "eval_macro_recall": 0.7864788866212832,
+      "eval_micro_f1": 0.8535201868535202,
+      "eval_micro_precision": 0.8641891891891892,
+      "eval_micro_recall": 0.8431114040870138,
+      "eval_runtime": 2.985,
+      "eval_samples_per_second": 323.616,
+      "eval_steps_per_second": 20.435,
       "step": 3408
     },
     {
+      "epoch": 49.3,
+      "learning_rate": 1.7887022474231054e-05,
+      "loss": 0.0034,
       "step": 3500
     },
     {
+      "epoch": 50.0,
+      "eval_loss": 0.12221735715866089,
+      "eval_macro_f1": 0.8141089592504215,
+      "eval_macro_precision": 0.8615361853719665,
+      "eval_macro_recall": 0.7844581807191786,
+      "eval_micro_f1": 0.8523714094856378,
+      "eval_micro_precision": 0.8639133378469871,
+      "eval_micro_recall": 0.8411338167435728,
+      "eval_runtime": 2.9803,
+      "eval_samples_per_second": 324.125,
+      "eval_steps_per_second": 20.468,
       "step": 3550
     },
     {
+      "epoch": 52.0,
+      "eval_loss": 0.12201466411352158,
+      "eval_macro_f1": 0.8215839258353351,
+      "eval_macro_precision": 0.8618774470352207,
+      "eval_macro_recall": 0.795741448912531,
+      "eval_micro_f1": 0.8534223706176962,
+      "eval_micro_precision": 0.86468200270636,
+      "eval_micro_recall": 0.8424522083058669,
+      "eval_runtime": 2.9796,
+      "eval_samples_per_second": 324.208,
+      "eval_steps_per_second": 20.473,
       "step": 3692
     },
     {
+      "epoch": 54.0,
+      "eval_loss": 0.12538054585456848,
+      "eval_macro_f1": 0.8134875725433206,
+      "eval_macro_precision": 0.8710944940417797,
+      "eval_macro_recall": 0.7763605326378977,
+      "eval_micro_f1": 0.85425782564793,
+      "eval_micro_precision": 0.8727647867950481,
+      "eval_micro_recall": 0.8365194462755439,
+      "eval_runtime": 2.9841,
+      "eval_samples_per_second": 323.717,
+      "eval_steps_per_second": 20.442,
       "step": 3834
     },
     {
+      "epoch": 56.0,
+      "eval_loss": 0.12492760270833969,
+      "eval_macro_f1": 0.8249799337347952,
+      "eval_macro_precision": 0.8672879358583392,
+      "eval_macro_recall": 0.7974535529440212,
+      "eval_micro_f1": 0.8574290484140235,
+      "eval_micro_precision": 0.8687415426251691,
+      "eval_micro_recall": 0.8464073829927489,
+      "eval_runtime": 2.9821,
+      "eval_samples_per_second": 323.938,
+      "eval_steps_per_second": 20.456,
       "step": 3976
     }
   ],
+  "max_steps": 7100,
   "num_train_epochs": 100,
+  "total_flos": 3.752304368656253e+16,
   "trial_name": null,
   "trial_params": {
+    "adam_epsilon": 2.4799103776060603e-09,
+    "learning_rate": 3.4268553890214325e-05,
+    "per_device_eval_batch_size": 16,
+    "per_device_train_batch_size": 32,
+    "seed": 326,
+    "warmup_steps": 203,
+    "weight_decay": 2.8436289860950645e-08
   }
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e22d401a238ce3adc83154913c58c917ec7973fe9836231c70e0a1d523c1a29
 size 3439

 version https://git-lfs.github.com/spec/v1
+oid sha256:37f4e882cd31f2d436be9606d7ed946398b5677251e675bf12792e7c776cb7b7
 size 3439