End of training

Browse files

Files changed (6) hide show

README.md +5 -3
all_results.json +10 -10
eval_results.json +6 -6
logs/events.out.tfevents.1686032816.serv-3317.3374904.2 +3 -0
train_results.json +5 -5
trainer_state.json +68 -203

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 datasets:
@@ -12,7 +14,7 @@ model-index:
       name: Text Classification
       type: text-classification
     dataset:
-      name: glue
       type: glue
       config: sst2
       split: validation
@@ -28,9 +30,9 @@ should probably proofread and complete it, then remove this comment. -->
 # hBERTv1_new_pretrain_sst2
-This model is a fine-tuned version of [gokuls/bert_12_layer_model_v1_complete_training_new](https://huggingface.co/gokuls/bert_12_layer_model_v1_complete_training_new) on the glue dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6715
 - Accuracy: 0.7878
 ## Model description

 ---
+language:
+- en
 tags:
 - generated_from_trainer
 datasets:
       name: Text Classification
       type: text-classification
     dataset:
+      name: GLUE SST2
       type: glue
       config: sst2
       split: validation
 # hBERTv1_new_pretrain_sst2
+This model is a fine-tuned version of [gokuls/bert_12_layer_model_v1_complete_training_new](https://huggingface.co/gokuls/bert_12_layer_model_v1_complete_training_new) on the GLUE SST2 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4752
 - Accuracy: 0.7878
 ## Model description

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
-    "epoch": 17.0,
-    "eval_accuracy": 0.5091743119266054,
-    "eval_loss": 15.8276948928833,
-    "eval_runtime": 1.5896,
     "eval_samples": 872,
-    "eval_samples_per_second": 548.556,
-    "eval_steps_per_second": 4.404,
-    "train_loss": 18.8269163690144,
-    "train_runtime": 6345.0217,
     "train_samples": 67349,
-    "train_samples_per_second": 530.723,
-    "train_steps_per_second": 4.153
 }

 {
+    "epoch": 8.0,
+    "eval_accuracy": 0.7878440366972477,
+    "eval_loss": 0.4752452075481415,
+    "eval_runtime": 1.5682,
     "eval_samples": 872,
+    "eval_samples_per_second": 556.038,
+    "eval_steps_per_second": 4.464,
+    "train_loss": 0.21951200025583806,
+    "train_runtime": 2980.0427,
     "train_samples": 67349,
+    "train_samples_per_second": 1130.001,
+    "train_steps_per_second": 8.842
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 17.0,
-    "eval_accuracy": 0.5091743119266054,
-    "eval_loss": 15.8276948928833,
-    "eval_runtime": 1.5896,
     "eval_samples": 872,
-    "eval_samples_per_second": 548.556,
-    "eval_steps_per_second": 4.404
 }

 {
+    "epoch": 8.0,
+    "eval_accuracy": 0.7878440366972477,
+    "eval_loss": 0.4752452075481415,
+    "eval_runtime": 1.5682,
     "eval_samples": 872,
+    "eval_samples_per_second": 556.038,
+    "eval_steps_per_second": 4.464
 }

logs/events.out.tfevents.1686032816.serv-3317.3374904.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7978721358aed31a7b5ab3b2a22c74dc72a719952d5ceadc1dbf5f4a213c4bb5
+size 363

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 17.0,
-    "train_loss": 18.8269163690144,
-    "train_runtime": 6345.0217,
     "train_samples": 67349,
-    "train_samples_per_second": 530.723,
-    "train_steps_per_second": 4.153
 }

 {
+    "epoch": 8.0,
+    "train_loss": 0.21951200025583806,
+    "train_runtime": 2980.0427,
     "train_samples": 67349,
+    "train_samples_per_second": 1130.001,
+    "train_steps_per_second": 8.842
 }

trainer_state.json CHANGED Viewed

@@ -1,280 +1,145 @@
 {
-  "best_metric": 15.8276948928833,
-  "best_model_checkpoint": "hBERTv1_new_pretrain_sst2/checkpoint-6324",
-  "epoch": 17.0,
-  "global_step": 8959,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 0.00049,
-      "loss": 23.7143,
       "step": 527
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 22.548738479614258,
-      "eval_runtime": 1.5969,
-      "eval_samples_per_second": 546.055,
-      "eval_steps_per_second": 4.383,
       "step": 527
     },
     {
       "epoch": 2.0,
-      "learning_rate": 0.00048,
-      "loss": 20.5968,
       "step": 1054
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 21.770069122314453,
-      "eval_runtime": 1.5945,
-      "eval_samples_per_second": 546.892,
-      "eval_steps_per_second": 4.39,
       "step": 1054
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.00047,
-      "loss": 19.7199,
       "step": 1581
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 18.56766128540039,
-      "eval_runtime": 1.595,
-      "eval_samples_per_second": 546.696,
-      "eval_steps_per_second": 4.389,
       "step": 1581
     },
     {
       "epoch": 4.0,
-      "learning_rate": 0.00046,
-      "loss": 19.5252,
       "step": 2108
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 21.57282066345215,
-      "eval_runtime": 1.5944,
-      "eval_samples_per_second": 546.93,
-      "eval_steps_per_second": 4.39,
       "step": 2108
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.00045000000000000004,
-      "loss": 19.812,
       "step": 2635
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.837729454040527,
-      "eval_runtime": 1.5948,
-      "eval_samples_per_second": 546.785,
-      "eval_steps_per_second": 4.389,
       "step": 2635
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.00044,
-      "loss": 18.4467,
       "step": 3162
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.82912826538086,
-      "eval_runtime": 1.5987,
-      "eval_samples_per_second": 545.457,
-      "eval_steps_per_second": 4.379,
       "step": 3162
     },
     {
       "epoch": 7.0,
-      "learning_rate": 0.00043,
-      "loss": 18.04,
       "step": 3689
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.857224464416504,
-      "eval_runtime": 1.5927,
-      "eval_samples_per_second": 547.494,
-      "eval_steps_per_second": 4.395,
       "step": 3689
     },
     {
       "epoch": 8.0,
-      "learning_rate": 0.00042,
-      "loss": 18.0932,
       "step": 4216
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.828842163085938,
-      "eval_runtime": 1.5924,
-      "eval_samples_per_second": 547.593,
-      "eval_steps_per_second": 4.396,
       "step": 4216
     },
     {
-      "epoch": 9.0,
-      "learning_rate": 0.00041,
-      "loss": 18.1005,
-      "step": 4743
-    },
-    {
-      "epoch": 9.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.828842163085938,
-      "eval_runtime": 1.5921,
-      "eval_samples_per_second": 547.697,
-      "eval_steps_per_second": 4.397,
-      "step": 4743
-    },
-    {
-      "epoch": 10.0,
-      "learning_rate": 0.0004,
-      "loss": 18.0769,
-      "step": 5270
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.82912826538086,
-      "eval_runtime": 1.5922,
-      "eval_samples_per_second": 547.654,
-      "eval_steps_per_second": 4.396,
-      "step": 5270
-    },
-    {
-      "epoch": 11.0,
-      "learning_rate": 0.00039000000000000005,
-      "loss": 17.912,
-      "step": 5797
-    },
-    {
-      "epoch": 11.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.82912826538086,
-      "eval_runtime": 1.5971,
-      "eval_samples_per_second": 546.001,
-      "eval_steps_per_second": 4.383,
-      "step": 5797
-    },
-    {
-      "epoch": 12.0,
-      "learning_rate": 0.00038,
-      "loss": 17.887,
-      "step": 6324
-    },
-    {
-      "epoch": 12.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.8276948928833,
-      "eval_runtime": 1.5951,
-      "eval_samples_per_second": 546.657,
-      "eval_steps_per_second": 4.388,
-      "step": 6324
-    },
-    {
-      "epoch": 13.0,
-      "learning_rate": 0.00037,
-      "loss": 18.1205,
-      "step": 6851
-    },
-    {
-      "epoch": 13.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.828842163085938,
-      "eval_runtime": 1.592,
-      "eval_samples_per_second": 547.732,
-      "eval_steps_per_second": 4.397,
-      "step": 6851
-    },
-    {
-      "epoch": 14.0,
-      "learning_rate": 0.00035999999999999997,
-      "loss": 18.0703,
-      "step": 7378
-    },
-    {
-      "epoch": 14.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.82912826538086,
-      "eval_runtime": 1.5956,
-      "eval_samples_per_second": 546.517,
-      "eval_steps_per_second": 4.387,
-      "step": 7378
-    },
-    {
-      "epoch": 15.0,
-      "learning_rate": 0.00035,
-      "loss": 18.044,
-      "step": 7905
-    },
-    {
-      "epoch": 15.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.829415321350098,
-      "eval_runtime": 1.5932,
-      "eval_samples_per_second": 547.338,
-      "eval_steps_per_second": 4.394,
-      "step": 7905
-    },
-    {
-      "epoch": 16.0,
-      "learning_rate": 0.00034,
-      "loss": 18.0354,
-      "step": 8432
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.829415321350098,
-      "eval_runtime": 1.5889,
-      "eval_samples_per_second": 548.804,
-      "eval_steps_per_second": 4.406,
-      "step": 8432
-    },
-    {
-      "epoch": 17.0,
-      "learning_rate": 0.00033,
-      "loss": 17.8629,
-      "step": 8959
-    },
-    {
-      "epoch": 17.0,
-      "eval_accuracy": 0.5091743119266054,
-      "eval_loss": 15.82970142364502,
-      "eval_runtime": 1.599,
-      "eval_samples_per_second": 545.355,
-      "eval_steps_per_second": 4.378,
-      "step": 8959
-    },
-    {
-      "epoch": 17.0,
-      "step": 8959,
-      "total_flos": 1.6956087751357235e+17,
-      "train_loss": 18.8269163690144,
-      "train_runtime": 6345.0217,
-      "train_samples_per_second": 530.723,
-      "train_steps_per_second": 4.153
     }
   ],
   "max_steps": 26350,
   "num_train_epochs": 50,
-  "total_flos": 1.6956087751357235e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.4752452075481415,
+  "best_model_checkpoint": "hBERTv1_new_pretrain_sst2/checkpoint-1581",
+  "epoch": 8.0,
+  "global_step": 4216,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 3.9200000000000004e-05,
+      "loss": 0.4258,
       "step": 527
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8061926605504587,
+      "eval_loss": 0.49944204092025757,
+      "eval_runtime": 1.5738,
+      "eval_samples_per_second": 554.064,
+      "eval_steps_per_second": 4.448,
       "step": 527
     },
     {
       "epoch": 2.0,
+      "learning_rate": 3.8400000000000005e-05,
+      "loss": 0.2652,
       "step": 1054
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8004587155963303,
+      "eval_loss": 0.5633484125137329,
+      "eval_runtime": 1.5754,
+      "eval_samples_per_second": 553.509,
+      "eval_steps_per_second": 4.443,
       "step": 1054
     },
     {
       "epoch": 3.0,
+      "learning_rate": 3.76e-05,
+      "loss": 0.2214,
       "step": 1581
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.7878440366972477,
+      "eval_loss": 0.4752452075481415,
+      "eval_runtime": 1.5737,
+      "eval_samples_per_second": 554.116,
+      "eval_steps_per_second": 4.448,
       "step": 1581
     },
     {
       "epoch": 4.0,
+      "learning_rate": 3.680000000000001e-05,
+      "loss": 0.2014,
       "step": 2108
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7889908256880734,
+      "eval_loss": 0.532899796962738,
+      "eval_runtime": 1.5757,
+      "eval_samples_per_second": 553.39,
+      "eval_steps_per_second": 4.442,
       "step": 2108
     },
     {
       "epoch": 5.0,
+      "learning_rate": 3.6e-05,
+      "loss": 0.1813,
       "step": 2635
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7924311926605505,
+      "eval_loss": 0.541002631187439,
+      "eval_runtime": 1.5754,
+      "eval_samples_per_second": 553.495,
+      "eval_steps_per_second": 4.443,
       "step": 2635
     },
     {
       "epoch": 6.0,
+      "learning_rate": 3.52e-05,
+      "loss": 0.1679,
       "step": 3162
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8084862385321101,
+      "eval_loss": 0.5856852531433105,
+      "eval_runtime": 1.575,
+      "eval_samples_per_second": 553.657,
+      "eval_steps_per_second": 4.444,
       "step": 3162
     },
     {
       "epoch": 7.0,
+      "learning_rate": 3.44e-05,
+      "loss": 0.1526,
       "step": 3689
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8038990825688074,
+      "eval_loss": 0.7653970718383789,
+      "eval_runtime": 1.5719,
+      "eval_samples_per_second": 554.734,
+      "eval_steps_per_second": 4.453,
       "step": 3689
     },
     {
       "epoch": 8.0,
+      "learning_rate": 3.3600000000000004e-05,
+      "loss": 0.1405,
       "step": 4216
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.7878440366972477,
+      "eval_loss": 0.671506941318512,
+      "eval_runtime": 1.5757,
+      "eval_samples_per_second": 553.416,
+      "eval_steps_per_second": 4.443,
       "step": 4216
     },
     {
+      "epoch": 8.0,
+      "step": 4216,
+      "total_flos": 7.979335412403405e+16,
+      "train_loss": 0.21951200025583806,
+      "train_runtime": 2980.0427,
+      "train_samples_per_second": 1130.001,
+      "train_steps_per_second": 8.842
     }
   ],
   "max_steps": 26350,
   "num_train_epochs": 50,
+  "total_flos": 7.979335412403405e+16,
   "trial_name": null,
   "trial_params": null
 }