End of training

Browse files

Files changed (6) hide show

README.md +7 -5
all_results.json +10 -10
eval_results.json +6 -6
logs/events.out.tfevents.1686792388.garda.2589545.9 +3 -0
train_results.json +5 -5
trainer_state.json +82 -67

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 datasets:
@@ -12,7 +14,7 @@ model-index:
       name: Text Classification
       type: text-classification
     dataset:
-      name: glue
       type: glue
       config: rte
       split: validation
@@ -20,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.5018050541516246
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -28,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # hBERTv2_new_no_pretrain_rte
-This model is a fine-tuned version of [](https://huggingface.co/) on the glue dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.4299
-- Accuracy: 0.5018
 ## Model description

 ---
+language:
+- en
 tags:
 - generated_from_trainer
 datasets:
       name: Text Classification
       type: text-classification
     dataset:
+      name: GLUE RTE
       type: glue
       config: rte
       split: validation
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.5306859205776173
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # hBERTv2_new_no_pretrain_rte
+This model is a fine-tuned version of [](https://huggingface.co/) on the GLUE RTE dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6981
+- Accuracy: 0.5307
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 8.0,
-    "eval_accuracy": 0.5270758122743683,
-    "eval_loss": 0.6922065615653992,
-    "eval_runtime": 0.4714,
     "eval_samples": 277,
-    "eval_samples_per_second": 587.641,
-    "eval_steps_per_second": 6.364,
-    "train_loss": 0.8700327098369598,
-    "train_runtime": 124.062,
     "train_samples": 2490,
-    "train_samples_per_second": 1003.531,
-    "train_steps_per_second": 8.06
 }

 {
+    "epoch": 9.0,
+    "eval_accuracy": 0.5306859205776173,
+    "eval_loss": 0.6981092095375061,
+    "eval_runtime": 1.2478,
     "eval_samples": 277,
+    "eval_samples_per_second": 221.995,
+    "eval_steps_per_second": 2.404,
+    "train_loss": 0.5750118308597141,
+    "train_runtime": 406.7196,
     "train_samples": 2490,
+    "train_samples_per_second": 306.108,
+    "train_steps_per_second": 2.459
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 8.0,
-    "eval_accuracy": 0.5270758122743683,
-    "eval_loss": 0.6922065615653992,
-    "eval_runtime": 0.4714,
     "eval_samples": 277,
-    "eval_samples_per_second": 587.641,
-    "eval_steps_per_second": 6.364
 }

 {
+    "epoch": 9.0,
+    "eval_accuracy": 0.5306859205776173,
+    "eval_loss": 0.6981092095375061,
+    "eval_runtime": 1.2478,
     "eval_samples": 277,
+    "eval_samples_per_second": 221.995,
+    "eval_steps_per_second": 2.404
 }

logs/events.out.tfevents.1686792388.garda.2589545.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34d460dacde38b9ec27a29c644295f9a0ec695014e19a97e50c8a088810cba70
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 8.0,
-    "train_loss": 0.8700327098369598,
-    "train_runtime": 124.062,
     "train_samples": 2490,
-    "train_samples_per_second": 1003.531,
-    "train_steps_per_second": 8.06
 }

 {
+    "epoch": 9.0,
+    "train_loss": 0.5750118308597141,
+    "train_runtime": 406.7196,
     "train_samples": 2490,
+    "train_samples_per_second": 306.108,
+    "train_steps_per_second": 2.459
 }

trainer_state.json CHANGED Viewed

@@ -1,145 +1,160 @@
 {
-  "best_metric": 0.6922065615653992,
-  "best_model_checkpoint": "hBERTv2_new_no_pretrain_rte/checkpoint-60",
-  "epoch": 8.0,
-  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 0.000491,
-      "loss": 1.9288,
       "step": 20
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.7325037717819214,
-      "eval_runtime": 0.4747,
-      "eval_samples_per_second": 583.555,
-      "eval_steps_per_second": 6.32,
       "step": 20
     },
     {
       "epoch": 2.0,
-      "learning_rate": 0.000481,
-      "loss": 0.7537,
       "step": 40
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7467247843742371,
-      "eval_runtime": 0.4697,
-      "eval_samples_per_second": 589.754,
-      "eval_steps_per_second": 6.387,
       "step": 40
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.000471,
-      "loss": 0.7174,
       "step": 60
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6922065615653992,
-      "eval_runtime": 0.4713,
-      "eval_samples_per_second": 587.75,
-      "eval_steps_per_second": 6.366,
       "step": 60
     },
     {
       "epoch": 4.0,
-      "learning_rate": 0.00046100000000000004,
-      "loss": 0.7089,
       "step": 80
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.6933523416519165,
-      "eval_runtime": 0.4686,
-      "eval_samples_per_second": 591.078,
-      "eval_steps_per_second": 6.402,
       "step": 80
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.000451,
-      "loss": 0.7227,
       "step": 100
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.7452582120895386,
-      "eval_runtime": 0.4686,
-      "eval_samples_per_second": 591.134,
-      "eval_steps_per_second": 6.402,
       "step": 100
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.000441,
-      "loss": 0.7265,
       "step": 120
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.6941314339637756,
-      "eval_runtime": 0.4698,
-      "eval_samples_per_second": 589.653,
-      "eval_steps_per_second": 6.386,
       "step": 120
     },
     {
       "epoch": 7.0,
-      "learning_rate": 0.000431,
-      "loss": 0.6981,
       "step": 140
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6930913925170898,
-      "eval_runtime": 0.4697,
-      "eval_samples_per_second": 589.687,
-      "eval_steps_per_second": 6.387,
       "step": 140
     },
     {
       "epoch": 8.0,
-      "learning_rate": 0.000421,
-      "loss": 0.7041,
       "step": 160
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6993597745895386,
-      "eval_runtime": 0.4702,
-      "eval_samples_per_second": 589.159,
-      "eval_steps_per_second": 6.381,
       "step": 160
     },
     {
-      "epoch": 8.0,
-      "step": 160,
-      "total_flos": 2915076176609280.0,
-      "train_loss": 0.8700327098369598,
-      "train_runtime": 124.062,
-      "train_samples_per_second": 1003.531,
-      "train_steps_per_second": 8.06
     }
   ],
   "max_steps": 1000,
   "num_train_epochs": 50,
-  "total_flos": 2915076176609280.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.6981092095375061,
+  "best_model_checkpoint": "hBERTv2_new_no_pretrain_rte/checkpoint-80",
+  "epoch": 9.0,
+  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 3.9200000000000004e-05,
+      "loss": 0.7697,
       "step": 20
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.7525500059127808,
+      "eval_runtime": 1.2347,
+      "eval_samples_per_second": 224.352,
+      "eval_steps_per_second": 2.43,
       "step": 20
     },
     {
       "epoch": 2.0,
+      "learning_rate": 3.8400000000000005e-05,
+      "loss": 0.7285,
       "step": 40
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.7207568883895874,
+      "eval_runtime": 1.2348,
+      "eval_samples_per_second": 224.333,
+      "eval_steps_per_second": 2.43,
       "step": 40
     },
     {
       "epoch": 3.0,
+      "learning_rate": 3.76e-05,
+      "loss": 0.7201,
       "step": 60
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.5342960288808665,
+      "eval_loss": 0.711172878742218,
+      "eval_runtime": 1.2352,
+      "eval_samples_per_second": 224.258,
+      "eval_steps_per_second": 2.429,
       "step": 60
     },
     {
       "epoch": 4.0,
+      "learning_rate": 3.680000000000001e-05,
+      "loss": 0.7043,
       "step": 80
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.5306859205776173,
+      "eval_loss": 0.6981092095375061,
+      "eval_runtime": 1.2363,
+      "eval_samples_per_second": 224.056,
+      "eval_steps_per_second": 2.427,
       "step": 80
     },
     {
       "epoch": 5.0,
+      "learning_rate": 3.6e-05,
+      "loss": 0.6569,
       "step": 100
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.5234657039711191,
+      "eval_loss": 0.7251222133636475,
+      "eval_runtime": 1.2329,
+      "eval_samples_per_second": 224.67,
+      "eval_steps_per_second": 2.433,
       "step": 100
     },
     {
       "epoch": 6.0,
+      "learning_rate": 3.52e-05,
+      "loss": 0.5762,
       "step": 120
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.47653429602888087,
+      "eval_loss": 0.8571105003356934,
+      "eval_runtime": 1.2323,
+      "eval_samples_per_second": 224.79,
+      "eval_steps_per_second": 2.435,
       "step": 120
     },
     {
       "epoch": 7.0,
+      "learning_rate": 3.44e-05,
+      "loss": 0.4336,
       "step": 140
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.47653429602888087,
+      "eval_loss": 0.9540057182312012,
+      "eval_runtime": 1.2314,
+      "eval_samples_per_second": 224.941,
+      "eval_steps_per_second": 2.436,
       "step": 140
     },
     {
       "epoch": 8.0,
+      "learning_rate": 3.3600000000000004e-05,
+      "loss": 0.3299,
       "step": 160
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.48375451263537905,
+      "eval_loss": 1.2463710308074951,
+      "eval_runtime": 1.2289,
+      "eval_samples_per_second": 225.397,
+      "eval_steps_per_second": 2.441,
       "step": 160
     },
     {
+      "epoch": 9.0,
+      "learning_rate": 3.28e-05,
+      "loss": 0.2561,
+      "step": 180
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.5018050541516246,
+      "eval_loss": 1.4298744201660156,
+      "eval_runtime": 1.2283,
+      "eval_samples_per_second": 225.522,
+      "eval_steps_per_second": 2.442,
+      "step": 180
+    },
+    {
+      "epoch": 9.0,
+      "step": 180,
+      "total_flos": 3279460698685440.0,
+      "train_loss": 0.5750118308597141,
+      "train_runtime": 406.7196,
+      "train_samples_per_second": 306.108,
+      "train_steps_per_second": 2.459
     }
   ],
   "max_steps": 1000,
   "num_train_epochs": 50,
+  "total_flos": 3279460698685440.0,
   "trial_name": null,
   "trial_params": null
 }