MHGanainy
/

roberta-base-downstream-build_rr

@@ -1,45 +1,9 @@
 {
-    "epoch": 14.0,
-    "eval_accuracy": 0.17645015630427233,
-    "eval_classification_report": "               precision    recall  f1-score   support\n\n           AC     0.0000    0.0000    0.0000        65\n         ATIO     0.0000    0.0000    0.0000        26\n           LC     0.0000    0.0000    0.0000        33\n      NALYSIS     0.0000    0.0000    0.0000        92\n          ONE     0.0000    0.0000    0.0000        60\n           PC     0.0000    0.0000    0.0000        31\n      REAMBLE     0.0000    0.0000    0.0000        30\nRE_NOT_RELIED     0.0000    0.0000    0.0000         5\n    RE_RELIED     0.0000    0.0000    0.0000        29\nRG_PETITIONER     0.0000    0.0000    0.0000        19\nRG_RESPONDENT     0.0000    0.0000    0.0000        13\n         SSUE     0.0000    0.0000    0.0000        23\n           TA     0.0000    0.0000    0.0000        28\n\n    micro avg     0.0000    0.0000    0.0000       454\n    macro avg     0.0000    0.0000    0.0000       454\n weighted avg     0.0000    0.0000    0.0000       454\n",
-    "eval_f1": 0.0,
-    "eval_loss": NaN,
-    "eval_macro-f1": 0.023074651949762666,
-    "eval_micro-f1": 0.17645015630427233,
-    "eval_micro_f1": 0.0,
-    "eval_precision": 0.0,
-    "eval_precision-macro": 0.013573088946482487,
-    "eval_precision-micro": 0.17645015630427233,
-    "eval_recall": 0.0,
-    "eval_recall-macro": 0.07692307692307693,
-    "eval_recall-micro": 0.17645015630427233,
-    "eval_runtime": 1.8343,
-    "eval_samples": 30,
-    "eval_samples_per_second": 16.355,
-    "eval_steps_per_second": 4.361,
-    "predict_accuracy": 0.1738816738816739,
-    "predict_eval_accuracy": 0.1738816738816739,
-    "predict_eval_classification_report": "               precision    recall  f1-score   support\n\n           AC     0.0000    0.0000    0.0000       102\n         ATIO     0.0000    0.0000    0.0000        51\n           LC     0.0000    0.0000    0.0000        42\n      NALYSIS     0.0000    0.0000    0.0000       148\n          ONE     0.0000    0.0000    0.0000        98\n           PC     0.0000    0.0000    0.0000        63\n      REAMBLE     0.0000    0.0000    0.0000        54\nRE_NOT_RELIED     0.0000    0.0000    0.0000         1\n    RE_RELIED     0.0000    0.0000    0.0000        70\nRG_PETITIONER     0.0000    0.0000    0.0000        49\nRG_RESPONDENT     0.0000    0.0000    0.0000        27\n         SSUE     0.0000    0.0000    0.0000        22\n           TA     0.0000    0.0000    0.0000        61\n\n    micro avg     0.0000    0.0000    0.0000       788\n    macro avg     0.0000    0.0000    0.0000       788\n weighted avg     0.0000    0.0000    0.0000       788\n",
-    "predict_eval_f1": 0.0,
-    "predict_eval_micro-f1": 0.0,
-    "predict_eval_micro_f1": 0.0,
-    "predict_eval_precision": 0.0,
-    "predict_eval_recall": 0.0,
-    "predict_loss": NaN,
-    "predict_macro-f1": 0.022788520637322115,
-    "predict_micro-f1": 0.1738816738816739,
-    "predict_precision-macro": 0.013375513375513376,
-    "predict_precision-micro": 0.1738816738816739,
-    "predict_recall-macro": 0.07692307692307693,
-    "predict_recall-micro": 0.1738816738816739,
-    "predict_runtime": 2.1377,
-    "predict_samples": 50,
-    "predict_samples_per_second": 23.39,
-    "predict_steps_per_second": 6.081,
-    "total_flos": 6.747257278287053e+16,
-    "train_loss": 0.6624447870913739,
-    "train_runtime": 488.5119,
     "train_samples": 247,
-    "train_samples_per_second": 10.112,
-    "train_steps_per_second": 2.538
 }

 {
+    "epoch": 11.0,
+    "total_flos": 5.301416432939827e+16,
+    "train_loss": 0.6726446291568342,
+    "train_runtime": 895.6751,
     "train_samples": 247,
+    "train_samples_per_second": 5.515,
+    "train_steps_per_second": 2.769
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 14.0,
-    "total_flos": 6.747257278287053e+16,
-    "train_loss": 0.6624447870913739,
-    "train_runtime": 488.5119,
     "train_samples": 247,
-    "train_samples_per_second": 10.112,
-    "train_steps_per_second": 2.538
 }

 {
+    "epoch": 11.0,
+    "total_flos": 5.301416432939827e+16,
+    "train_loss": 0.6726446291568342,
+    "train_runtime": 895.6751,
     "train_samples": 247,
+    "train_samples_per_second": 5.515,
+    "train_steps_per_second": 2.769
 }

trainer_state.json CHANGED Viewed

@@ -1,242 +1,204 @@
 {
-  "best_metric": 0.7829107328933658,
-  "best_model_checkpoint": "logs/indian_build_rr/roberta-base/seed_1/checkpoint-682",
-  "epoch": 14.0,
   "eval_steps": 500,
-  "global_step": 868,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6509204584925321,
-      "eval_loss": 1.1796680688858032,
-      "eval_macro-f1": 0.2406374552281572,
-      "eval_micro-f1": 0.6509204584925321,
-      "eval_precision-macro": 0.36507985738726567,
-      "eval_precision-micro": 0.6509204584925321,
-      "eval_recall-macro": 0.24249037703341708,
-      "eval_recall-micro": 0.6509204584925321,
-      "eval_runtime": 1.5286,
-      "eval_samples_per_second": 19.625,
-      "eval_steps_per_second": 5.233,
-      "step": 62
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.7349774227162209,
-      "eval_loss": 0.8353763222694397,
-      "eval_macro-f1": 0.5254710956125371,
-      "eval_micro-f1": 0.7349774227162209,
-      "eval_precision-macro": 0.5349847227650002,
-      "eval_precision-micro": 0.7349774227162209,
-      "eval_recall-macro": 0.5291052629047126,
-      "eval_recall-micro": 0.7349774227162209,
-      "eval_runtime": 1.6436,
-      "eval_samples_per_second": 18.252,
-      "eval_steps_per_second": 4.867,
-      "step": 124
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.7342827370614797,
-      "eval_loss": 0.8058456182479858,
-      "eval_macro-f1": 0.536617185045311,
-      "eval_micro-f1": 0.7342827370614797,
-      "eval_precision-macro": 0.5558680331273026,
-      "eval_precision-micro": 0.7342827370614797,
-      "eval_recall-macro": 0.5381948279596481,
-      "eval_recall-micro": 0.7342827370614797,
-      "eval_runtime": 1.5882,
-      "eval_samples_per_second": 18.889,
-      "eval_steps_per_second": 5.037,
-      "step": 186
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.7502605071205279,
-      "eval_loss": 0.7717716097831726,
-      "eval_macro-f1": 0.530010703703156,
-      "eval_micro-f1": 0.7502605071205279,
-      "eval_precision-macro": 0.6245985387634561,
-      "eval_precision-micro": 0.7502605071205279,
-      "eval_recall-macro": 0.5200955397553431,
-      "eval_recall-micro": 0.7502605071205279,
-      "eval_runtime": 1.601,
-      "eval_samples_per_second": 18.738,
-      "eval_steps_per_second": 4.997,
-      "step": 248
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.7641542202153525,
-      "eval_loss": 0.7306948900222778,
-      "eval_macro-f1": 0.5578515609115684,
       "eval_micro-f1": 0.7641542202153525,
-      "eval_precision-macro": 0.5889876526435496,
       "eval_precision-micro": 0.7641542202153525,
-      "eval_recall-macro": 0.5462553107739512,
       "eval_recall-micro": 0.7641542202153525,
-      "eval_runtime": 2.1379,
-      "eval_samples_per_second": 14.032,
-      "eval_steps_per_second": 3.742,
-      "step": 310
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.774574505036471,
-      "eval_loss": 0.7098783254623413,
-      "eval_macro-f1": 0.5481274858908393,
-      "eval_micro-f1": 0.774574505036471,
-      "eval_precision-macro": 0.6076438792386994,
-      "eval_precision-micro": 0.774574505036471,
-      "eval_recall-macro": 0.5431283891127849,
-      "eval_recall-micro": 0.774574505036471,
-      "eval_runtime": 2.1932,
-      "eval_samples_per_second": 13.679,
-      "eval_steps_per_second": 3.648,
-      "step": 372
-    },
-    {
-      "epoch": 7.0,
       "eval_accuracy": 0.7811740187565127,
-      "eval_loss": 0.7071970701217651,
-      "eval_macro-f1": 0.5261426411307122,
       "eval_micro-f1": 0.7811740187565127,
-      "eval_precision-macro": 0.6089513985670642,
       "eval_precision-micro": 0.7811740187565127,
-      "eval_recall-macro": 0.5125569147899907,
       "eval_recall-micro": 0.7811740187565127,
-      "eval_runtime": 1.6371,
-      "eval_samples_per_second": 18.326,
-      "eval_steps_per_second": 4.887,
-      "step": 434
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.7825633900659952,
-      "eval_loss": 0.6919089555740356,
-      "eval_macro-f1": 0.5675875408188613,
-      "eval_micro-f1": 0.7825633900659952,
-      "eval_precision-macro": 0.6321251715307294,
-      "eval_precision-micro": 0.7825633900659952,
-      "eval_recall-macro": 0.5470775441802167,
-      "eval_recall-micro": 0.7825633900659952,
-      "eval_runtime": 1.6786,
-      "eval_samples_per_second": 17.872,
-      "eval_steps_per_second": 4.766,
-      "step": 496
     },
     {
       "epoch": 8.064516129032258,
-      "grad_norm": 7.422909736633301,
       "learning_rate": 1.7951612903225806e-05,
-      "loss": 0.8758,
-      "step": 500
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.7735324765543592,
-      "eval_loss": 0.7503196597099304,
-      "eval_macro-f1": 0.569622502930968,
-      "eval_micro-f1": 0.7735324765543592,
-      "eval_precision-macro": 0.5665598749803964,
-      "eval_precision-micro": 0.7735324765543592,
-      "eval_recall-macro": 0.5818475586367124,
-      "eval_recall-micro": 0.7735324765543592,
-      "eval_runtime": 1.5468,
-      "eval_samples_per_second": 19.395,
-      "eval_steps_per_second": 5.172,
-      "step": 558
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.7783952761375478,
-      "eval_loss": 0.7511970400810242,
-      "eval_macro-f1": 0.5755339015228546,
-      "eval_micro-f1": 0.7783952761375478,
-      "eval_precision-macro": 0.6053985952851118,
-      "eval_precision-micro": 0.7783952761375478,
-      "eval_recall-macro": 0.5655629578179421,
-      "eval_recall-micro": 0.7783952761375478,
-      "eval_runtime": 2.2548,
-      "eval_samples_per_second": 13.305,
-      "eval_steps_per_second": 3.548,
-      "step": 620
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.7829107328933658,
-      "eval_loss": 0.7655877470970154,
-      "eval_macro-f1": 0.591328685794211,
-      "eval_micro-f1": 0.7829107328933658,
-      "eval_precision-macro": 0.6085589543807931,
-      "eval_precision-micro": 0.7829107328933658,
-      "eval_recall-macro": 0.5834711775606751,
-      "eval_recall-micro": 0.7829107328933658,
-      "eval_runtime": 2.2566,
-      "eval_samples_per_second": 13.295,
-      "eval_steps_per_second": 3.545,
-      "step": 682
     },
     {
-      "epoch": 12.0,
-      "eval_accuracy": 0.7738798193817298,
-      "eval_loss": 0.786118745803833,
-      "eval_macro-f1": 0.5843444583481733,
-      "eval_micro-f1": 0.7738798193817298,
-      "eval_precision-macro": 0.5971774078353586,
-      "eval_precision-micro": 0.7738798193817298,
-      "eval_recall-macro": 0.5885123710730829,
-      "eval_recall-micro": 0.7738798193817298,
-      "eval_runtime": 1.5545,
-      "eval_samples_per_second": 19.299,
-      "eval_steps_per_second": 5.146,
-      "step": 744
-    },
-    {
-      "epoch": 13.0,
-      "eval_accuracy": 0.7780479333101772,
-      "eval_loss": 0.8238919377326965,
-      "eval_macro-f1": 0.5701476938599402,
-      "eval_micro-f1": 0.7780479333101772,
-      "eval_precision-macro": 0.5975031172688886,
-      "eval_precision-micro": 0.7780479333101772,
-      "eval_recall-macro": 0.5748658781079373,
-      "eval_recall-micro": 0.7780479333101772,
-      "eval_runtime": 1.5795,
-      "eval_samples_per_second": 18.993,
-      "eval_steps_per_second": 5.065,
-      "step": 806
-    },
-    {
-      "epoch": 14.0,
-      "eval_accuracy": 0.7797846474470302,
-      "eval_loss": 0.8271887302398682,
-      "eval_macro-f1": 0.592619371017184,
-      "eval_micro-f1": 0.7797846474470302,
-      "eval_precision-macro": 0.6088825353073621,
-      "eval_precision-micro": 0.7797846474470302,
-      "eval_recall-macro": 0.5868004304340952,
-      "eval_recall-micro": 0.7797846474470302,
-      "eval_runtime": 2.326,
-      "eval_samples_per_second": 12.898,
-      "eval_steps_per_second": 3.439,
-      "step": 868
-    },
-    {
-      "epoch": 14.0,
-      "step": 868,
-      "total_flos": 6.747257278287053e+16,
-      "train_loss": 0.6624447870913739,
-      "train_runtime": 488.5119,
-      "train_samples_per_second": 10.112,
-      "train_steps_per_second": 2.538
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1240,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
@@ -261,8 +223,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.747257278287053e+16,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7929836748871136,
+  "best_model_checkpoint": "logs/indian_build_rr/roberta-base/seed_1/checkpoint-992",
+  "epoch": 11.0,
   "eval_steps": 500,
+  "global_step": 1364,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7155262243834665,
+      "eval_loss": 0.9702894687652588,
+      "eval_macro-f1": 0.3565778389617827,
+      "eval_micro-f1": 0.7155262243834665,
+      "eval_precision-macro": 0.5485369419220343,
+      "eval_precision-micro": 0.7155262243834665,
+      "eval_recall-macro": 0.34472385514524134,
+      "eval_recall-micro": 0.7155262243834665,
+      "eval_runtime": 3.534,
+      "eval_samples_per_second": 8.489,
+      "eval_steps_per_second": 4.244,
+      "step": 124
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.7353247655435915,
+      "eval_loss": 0.8005266189575195,
+      "eval_macro-f1": 0.5080224547196512,
+      "eval_micro-f1": 0.7353247655435915,
+      "eval_precision-macro": 0.5180988726198199,
+      "eval_precision-micro": 0.7353247655435915,
+      "eval_recall-macro": 0.5222058583864981,
+      "eval_recall-micro": 0.7353247655435915,
+      "eval_runtime": 3.5582,
+      "eval_samples_per_second": 8.431,
+      "eval_steps_per_second": 4.216,
+      "step": 248
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7453977075373394,
+      "eval_loss": 0.815595269203186,
+      "eval_macro-f1": 0.5288442820595285,
+      "eval_micro-f1": 0.7453977075373394,
+      "eval_precision-macro": 0.5625997012224085,
+      "eval_precision-micro": 0.7453977075373394,
+      "eval_recall-macro": 0.532191762651922,
+      "eval_recall-micro": 0.7453977075373394,
+      "eval_runtime": 3.3982,
+      "eval_samples_per_second": 8.828,
+      "eval_steps_per_second": 4.414,
+      "step": 372
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7704063911080237,
+      "eval_loss": 0.7056049108505249,
+      "eval_macro-f1": 0.5179788731015686,
+      "eval_micro-f1": 0.7704063911080237,
+      "eval_precision-macro": 0.5880911415103544,
+      "eval_precision-micro": 0.7704063911080237,
+      "eval_recall-macro": 0.5197063822818007,
+      "eval_recall-micro": 0.7704063911080237,
+      "eval_runtime": 3.325,
+      "eval_samples_per_second": 9.023,
+      "eval_steps_per_second": 4.511,
+      "step": 496
+    },
+    {
+      "epoch": 4.032258064516129,
+      "grad_norm": 7.048013210296631,
+      "learning_rate": 2.398790322580645e-05,
+      "loss": 1.0549,
+      "step": 500
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.7641542202153525,
+      "eval_loss": 0.7525667548179626,
+      "eval_macro-f1": 0.5774815867474451,
       "eval_micro-f1": 0.7641542202153525,
+      "eval_precision-macro": 0.5877505487951785,
       "eval_precision-micro": 0.7641542202153525,
+      "eval_recall-macro": 0.5905806919233985,
       "eval_recall-micro": 0.7641542202153525,
+      "eval_runtime": 3.7943,
+      "eval_samples_per_second": 7.907,
+      "eval_steps_per_second": 3.953,
+      "step": 620
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.7811740187565127,
+      "eval_loss": 0.7093824148178101,
+      "eval_macro-f1": 0.564925492252011,
       "eval_micro-f1": 0.7811740187565127,
+      "eval_precision-macro": 0.6335954751289583,
       "eval_precision-micro": 0.7811740187565127,
+      "eval_recall-macro": 0.5394598039562246,
       "eval_recall-micro": 0.7811740187565127,
+      "eval_runtime": 3.6662,
+      "eval_samples_per_second": 8.183,
+      "eval_steps_per_second": 4.091,
+      "step": 744
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.780826675929142,
+      "eval_loss": 0.7391286492347717,
+      "eval_macro-f1": 0.5535439959165813,
+      "eval_micro-f1": 0.780826675929142,
+      "eval_precision-macro": 0.6475047138793736,
+      "eval_precision-micro": 0.780826675929142,
+      "eval_recall-macro": 0.5338983669485645,
+      "eval_recall-micro": 0.780826675929142,
+      "eval_runtime": 3.3578,
+      "eval_samples_per_second": 8.934,
+      "eval_steps_per_second": 4.467,
+      "step": 868
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7929836748871136,
+      "eval_loss": 0.7354127168655396,
+      "eval_macro-f1": 0.5881256788610278,
+      "eval_micro-f1": 0.7929836748871136,
+      "eval_precision-macro": 0.616862114635611,
+      "eval_precision-micro": 0.7929836748871136,
+      "eval_recall-macro": 0.5756480546409108,
+      "eval_recall-micro": 0.7929836748871136,
+      "eval_runtime": 3.5028,
+      "eval_samples_per_second": 8.565,
+      "eval_steps_per_second": 4.282,
+      "step": 992
     },
     {
       "epoch": 8.064516129032258,
+      "grad_norm": 4.143438339233398,
       "learning_rate": 1.7951612903225806e-05,
+      "loss": 0.545,
+      "step": 1000
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.7804793331017714,
+      "eval_loss": 0.8143337965011597,
+      "eval_macro-f1": 0.5927580984411855,
+      "eval_micro-f1": 0.7804793331017714,
+      "eval_precision-macro": 0.5950513529543718,
+      "eval_precision-micro": 0.7804793331017714,
+      "eval_recall-macro": 0.5963301506624595,
+      "eval_recall-micro": 0.7804793331017714,
+      "eval_runtime": 3.3219,
+      "eval_samples_per_second": 9.031,
+      "eval_steps_per_second": 4.515,
+      "step": 1116
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.7794373046196597,
+      "eval_loss": 0.8351579904556274,
+      "eval_macro-f1": 0.5917556551043053,
+      "eval_micro-f1": 0.7794373046196597,
+      "eval_precision-macro": 0.602885463862158,
+      "eval_precision-micro": 0.7794373046196597,
+      "eval_recall-macro": 0.5915247045666512,
+      "eval_recall-micro": 0.7794373046196597,
+      "eval_runtime": 3.5978,
+      "eval_samples_per_second": 8.339,
+      "eval_steps_per_second": 4.169,
+      "step": 1240
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.7870788468218132,
+      "eval_loss": 0.8609802722930908,
+      "eval_macro-f1": 0.5742187338887501,
+      "eval_micro-f1": 0.7870788468218132,
+      "eval_precision-macro": 0.60147377967397,
+      "eval_precision-micro": 0.7870788468218132,
+      "eval_recall-macro": 0.5642213023272796,
+      "eval_recall-micro": 0.7870788468218132,
+      "eval_runtime": 24.3263,
+      "eval_samples_per_second": 1.233,
+      "eval_steps_per_second": 0.617,
+      "step": 1364
     },
     {
+      "epoch": 11.0,
+      "step": 1364,
+      "total_flos": 5.301416432939827e+16,
+      "train_loss": 0.6726446291568342,
+      "train_runtime": 895.6751,
+      "train_samples_per_second": 5.515,
+      "train_steps_per_second": 2.769
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2480,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 5.301416432939827e+16,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }