End of training

Browse files

Files changed (6) hide show

README.md +7 -5
all_results.json +9 -9
eval_results.json +5 -5
logs/events.out.tfevents.1686773182.serv-9219.1715196.9 +3 -0
train_results.json +5 -5
trainer_state.json +49 -139

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 datasets:
@@ -12,7 +14,7 @@ model-index:
       name: Text Classification
       type: text-classification
     dataset:
-      name: glue
       type: glue
       config: rte
       split: validation
@@ -20,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.4729241877256318
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -28,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # add_BERT_no_pretrain_rte
-This model is a fine-tuned version of [](https://huggingface.co/) on the glue dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7269
-- Accuracy: 0.4729
 ## Model description

 ---
+language:
+- en
 tags:
 - generated_from_trainer
 datasets:
       name: Text Classification
       type: text-classification
     dataset:
+      name: GLUE RTE
       type: glue
       config: rte
       split: validation
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.5270758122743683
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # add_BERT_no_pretrain_rte
+This model is a fine-tuned version of [](https://huggingface.co/) on the GLUE RTE dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6942
+- Accuracy: 0.5271
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 12.0,
     "eval_accuracy": 0.5270758122743683,
-    "eval_loss": 0.6916900277137756,
-    "eval_runtime": 0.4398,
     "eval_samples": 277,
-    "eval_samples_per_second": 629.814,
-    "eval_steps_per_second": 6.821,
-    "train_loss": 0.8102153817812602,
-    "train_runtime": 192.7212,
     "train_samples": 2490,
-    "train_samples_per_second": 646.011,
-    "train_steps_per_second": 5.189
 }

 {
+    "epoch": 6.0,
     "eval_accuracy": 0.5270758122743683,
+    "eval_loss": 0.6942489743232727,
+    "eval_runtime": 0.5351,
     "eval_samples": 277,
+    "eval_samples_per_second": 517.62,
+    "eval_steps_per_second": 5.606,
+    "train_loss": 0.7188253561655681,
+    "train_runtime": 120.124,
     "train_samples": 2490,
+    "train_samples_per_second": 1036.429,
+    "train_steps_per_second": 8.325
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 12.0,
     "eval_accuracy": 0.5270758122743683,
-    "eval_loss": 0.6916900277137756,
-    "eval_runtime": 0.4398,
     "eval_samples": 277,
-    "eval_samples_per_second": 629.814,
-    "eval_steps_per_second": 6.821
 }

 {
+    "epoch": 6.0,
     "eval_accuracy": 0.5270758122743683,
+    "eval_loss": 0.6942489743232727,
+    "eval_runtime": 0.5351,
     "eval_samples": 277,
+    "eval_samples_per_second": 517.62,
+    "eval_steps_per_second": 5.606
 }

logs/events.out.tfevents.1686773182.serv-9219.1715196.9 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11fa2f266640137e6b12c8746132782ae8547fe0a9ec5629ef06c7576d46a1d2
+size 357

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 12.0,
-    "train_loss": 0.8102153817812602,
-    "train_runtime": 192.7212,
     "train_samples": 2490,
-    "train_samples_per_second": 646.011,
-    "train_steps_per_second": 5.189
 }

 {
+    "epoch": 6.0,
+    "train_loss": 0.7188253561655681,
+    "train_runtime": 120.124,
     "train_samples": 2490,
+    "train_samples_per_second": 1036.429,
+    "train_steps_per_second": 8.325
 }

trainer_state.json CHANGED Viewed

@@ -1,205 +1,115 @@
 {
-  "best_metric": 0.6916900277137756,
-  "best_model_checkpoint": "add_BERT_no_pretrain_rte/checkpoint-140",
-  "epoch": 12.0,
-  "global_step": 240,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 0.000491,
-      "loss": 1.9285,
       "step": 20
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.730164647102356,
-      "eval_runtime": 0.4422,
-      "eval_samples_per_second": 626.451,
-      "eval_steps_per_second": 6.785,
       "step": 20
     },
     {
       "epoch": 2.0,
-      "learning_rate": 0.000481,
-      "loss": 0.7216,
       "step": 40
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6919297575950623,
-      "eval_runtime": 0.4417,
-      "eval_samples_per_second": 627.184,
-      "eval_steps_per_second": 6.793,
       "step": 40
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.000471,
-      "loss": 0.7641,
       "step": 60
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7044311761856079,
-      "eval_runtime": 0.4414,
-      "eval_samples_per_second": 627.498,
-      "eval_steps_per_second": 6.796,
       "step": 60
     },
     {
       "epoch": 4.0,
-      "learning_rate": 0.00046100000000000004,
-      "loss": 0.7002,
       "step": 80
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7476167678833008,
-      "eval_runtime": 0.4419,
-      "eval_samples_per_second": 626.82,
-      "eval_steps_per_second": 6.789,
       "step": 80
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.000451,
-      "loss": 0.7253,
       "step": 100
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.7223910093307495,
-      "eval_runtime": 0.441,
-      "eval_samples_per_second": 628.089,
-      "eval_steps_per_second": 6.802,
       "step": 100
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.000441,
-      "loss": 0.7081,
       "step": 120
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7065941095352173,
-      "eval_runtime": 0.4416,
-      "eval_samples_per_second": 627.262,
-      "eval_steps_per_second": 6.793,
       "step": 120
     },
     {
-      "epoch": 7.0,
-      "learning_rate": 0.000431,
-      "loss": 0.6975,
-      "step": 140
-    },
-    {
-      "epoch": 7.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6916900277137756,
-      "eval_runtime": 0.4423,
-      "eval_samples_per_second": 626.273,
-      "eval_steps_per_second": 6.783,
-      "step": 140
-    },
-    {
-      "epoch": 8.0,
-      "learning_rate": 0.000421,
-      "loss": 0.698,
-      "step": 160
-    },
-    {
-      "epoch": 8.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.693280041217804,
-      "eval_runtime": 0.4459,
-      "eval_samples_per_second": 621.162,
-      "eval_steps_per_second": 6.727,
-      "step": 160
-    },
-    {
-      "epoch": 9.0,
-      "learning_rate": 0.00041099999999999996,
-      "loss": 0.6967,
-      "step": 180
-    },
-    {
-      "epoch": 9.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6917147040367126,
-      "eval_runtime": 0.4434,
-      "eval_samples_per_second": 624.713,
-      "eval_steps_per_second": 6.766,
-      "step": 180
-    },
-    {
-      "epoch": 10.0,
-      "learning_rate": 0.00040100000000000004,
-      "loss": 0.6926,
-      "step": 200
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.715362012386322,
-      "eval_runtime": 0.4422,
-      "eval_samples_per_second": 626.383,
-      "eval_steps_per_second": 6.784,
-      "step": 200
-    },
-    {
-      "epoch": 11.0,
-      "learning_rate": 0.000391,
-      "loss": 0.696,
-      "step": 220
-    },
-    {
-      "epoch": 11.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.6963789463043213,
-      "eval_runtime": 0.4402,
-      "eval_samples_per_second": 629.307,
-      "eval_steps_per_second": 6.816,
-      "step": 220
-    },
-    {
-      "epoch": 12.0,
-      "learning_rate": 0.000381,
-      "loss": 0.694,
-      "step": 240
-    },
-    {
-      "epoch": 12.0,
-      "eval_accuracy": 0.5270758122743683,
-      "eval_loss": 0.6917306780815125,
-      "eval_runtime": 0.4402,
-      "eval_samples_per_second": 629.308,
-      "eval_steps_per_second": 6.816,
-      "step": 240
-    },
-    {
-      "epoch": 12.0,
-      "step": 240,
-      "total_flos": 4267580168601600.0,
-      "train_loss": 0.8102153817812602,
-      "train_runtime": 192.7212,
-      "train_samples_per_second": 646.011,
-      "train_steps_per_second": 5.189
     }
   ],
   "max_steps": 1000,
   "num_train_epochs": 50,
-  "total_flos": 4267580168601600.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.6942489743232727,
+  "best_model_checkpoint": "add_BERT_no_pretrain_rte/checkpoint-20",
+  "epoch": 6.0,
+  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 3.9200000000000004e-05,
+      "loss": 0.7731,
       "step": 20
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.6942489743232727,
+      "eval_runtime": 0.5221,
+      "eval_samples_per_second": 530.559,
+      "eval_steps_per_second": 5.746,
       "step": 20
     },
     {
       "epoch": 2.0,
+      "learning_rate": 3.8400000000000005e-05,
+      "loss": 0.709,
       "step": 40
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.71894770860672,
+      "eval_runtime": 0.5216,
+      "eval_samples_per_second": 531.047,
+      "eval_steps_per_second": 5.751,
       "step": 40
     },
     {
       "epoch": 3.0,
+      "learning_rate": 3.76e-05,
+      "loss": 0.7188,
       "step": 60
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.6948172450065613,
+      "eval_runtime": 0.5214,
+      "eval_samples_per_second": 531.271,
+      "eval_steps_per_second": 5.754,
       "step": 60
     },
     {
       "epoch": 4.0,
+      "learning_rate": 3.680000000000001e-05,
+      "loss": 0.7007,
       "step": 80
     },
     {
       "epoch": 4.0,
       "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.6980084180831909,
+      "eval_runtime": 0.5256,
+      "eval_samples_per_second": 527.056,
+      "eval_steps_per_second": 5.708,
       "step": 80
     },
     {
       "epoch": 5.0,
+      "learning_rate": 3.6e-05,
+      "loss": 0.7048,
       "step": 100
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.5270758122743683,
+      "eval_loss": 0.7017844319343567,
+      "eval_runtime": 0.5223,
+      "eval_samples_per_second": 530.325,
+      "eval_steps_per_second": 5.744,
       "step": 100
     },
     {
       "epoch": 6.0,
+      "learning_rate": 3.52e-05,
+      "loss": 0.7065,
       "step": 120
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.4729241877256318,
+      "eval_loss": 0.726894199848175,
+      "eval_runtime": 0.5221,
+      "eval_samples_per_second": 530.593,
+      "eval_steps_per_second": 5.746,
       "step": 120
     },
     {
+      "epoch": 6.0,
+      "step": 120,
+      "total_flos": 2133790084300800.0,
+      "train_loss": 0.7188253561655681,
+      "train_runtime": 120.124,
+      "train_samples_per_second": 1036.429,
+      "train_steps_per_second": 8.325
     }
   ],
   "max_steps": 1000,
   "num_train_epochs": 50,
+  "total_flos": 2133790084300800.0,
   "trial_name": null,
   "trial_params": null
 }