End of training

Browse files

Files changed (6) hide show

README.md +7 -5
all_results.json +16 -16
eval_results.json +12 -12
logs/events.out.tfevents.1686081469.serv-3317.3374904.26 +3 -0
train_results.json +5 -5
trainer_state.json +158 -53

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 tags:
 - generated_from_trainer
 datasets:
@@ -12,7 +14,7 @@ model-index:
       name: Text Classification
       type: text-classification
     dataset:
-      name: glue
       type: glue
       config: mnli
       split: validation_matched
@@ -20,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.3544574630667346
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -28,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # hBERTv1_new_pretrain_mnli
-This model is a fine-tuned version of [gokuls/bert_12_layer_model_v1_complete_training_new](https://huggingface.co/gokuls/bert_12_layer_model_v1_complete_training_new) on the glue dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1016
-- Accuracy: 0.3545
 ## Model description

 ---
+language:
+- en
 tags:
 - generated_from_trainer
 datasets:
       name: Text Classification
       type: text-classification
     dataset:
+      name: GLUE MNLI
       type: glue
       config: mnli
       split: validation_matched
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.3522172497965826
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # hBERTv1_new_pretrain_mnli
+This model is a fine-tuned version of [gokuls/bert_12_layer_model_v1_complete_training_new](https://huggingface.co/gokuls/bert_12_layer_model_v1_complete_training_new) on the GLUE MNLI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0962
+- Accuracy: 0.3522
 ## Model description

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 6.0,
-    "epoch_mm": 6.0,
-    "eval_accuracy": 0.3273560876209883,
-    "eval_accuracy_mm": 0.3295362082994304,
-    "eval_loss": 15.246305465698242,
-    "eval_loss_mm": 15.164895057678223,
-    "eval_runtime": 17.7885,
-    "eval_runtime_mm": 17.8247,
     "eval_samples": 9815,
     "eval_samples_mm": 9832,
-    "eval_samples_per_second": 551.762,
-    "eval_samples_per_second_mm": 551.595,
-    "eval_steps_per_second": 4.329,
-    "eval_steps_per_second_mm": 4.32,
-    "train_loss": 24.543312944779444,
-    "train_runtime": 12385.4858,
     "train_samples": 392702,
-    "train_samples_per_second": 1585.331,
-    "train_steps_per_second": 12.385
 }

 {
+    "epoch": 13.0,
+    "epoch_mm": 13.0,
+    "eval_accuracy": 0.3544574630667346,
+    "eval_accuracy_mm": 0.3522172497965826,
+    "eval_loss": 1.0961673259735107,
+    "eval_loss_mm": 1.0962355136871338,
+    "eval_runtime": 17.5933,
+    "eval_runtime_mm": 17.6493,
     "eval_samples": 9815,
     "eval_samples_mm": 9832,
+    "eval_samples_per_second": 557.884,
+    "eval_samples_per_second_mm": 557.076,
+    "eval_steps_per_second": 4.377,
+    "eval_steps_per_second_mm": 4.363,
+    "train_loss": 1.194441406935582,
+    "train_runtime": 27037.304,
     "train_samples": 392702,
+    "train_samples_per_second": 726.223,
+    "train_steps_per_second": 5.674
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 6.0,
-    "epoch_mm": 6.0,
-    "eval_accuracy": 0.3273560876209883,
-    "eval_accuracy_mm": 0.3295362082994304,
-    "eval_loss": 15.246305465698242,
-    "eval_loss_mm": 15.164895057678223,
-    "eval_runtime": 17.7885,
-    "eval_runtime_mm": 17.8247,
     "eval_samples": 9815,
     "eval_samples_mm": 9832,
-    "eval_samples_per_second": 551.762,
-    "eval_samples_per_second_mm": 551.595,
-    "eval_steps_per_second": 4.329,
-    "eval_steps_per_second_mm": 4.32
 }

 {
+    "epoch": 13.0,
+    "epoch_mm": 13.0,
+    "eval_accuracy": 0.3544574630667346,
+    "eval_accuracy_mm": 0.3522172497965826,
+    "eval_loss": 1.0961673259735107,
+    "eval_loss_mm": 1.0962355136871338,
+    "eval_runtime": 17.5933,
+    "eval_runtime_mm": 17.6493,
     "eval_samples": 9815,
     "eval_samples_mm": 9832,
+    "eval_samples_per_second": 557.884,
+    "eval_samples_per_second_mm": 557.076,
+    "eval_steps_per_second": 4.377,
+    "eval_steps_per_second_mm": 4.363
 }

logs/events.out.tfevents.1686081469.serv-3317.3374904.26 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c56eee09ca18f358fbe154ca8a69925fa6bb8ad5d7766020e1d9458a33c6df79
+size 698

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 6.0,
-    "train_loss": 24.543312944779444,
-    "train_runtime": 12385.4858,
     "train_samples": 392702,
-    "train_samples_per_second": 1585.331,
-    "train_steps_per_second": 12.385
 }

 {
+    "epoch": 13.0,
+    "train_loss": 1.194441406935582,
+    "train_runtime": 27037.304,
     "train_samples": 392702,
+    "train_samples_per_second": 726.223,
+    "train_steps_per_second": 5.674
 }

trainer_state.json CHANGED Viewed

@@ -1,115 +1,220 @@
 {
-  "best_metric": 15.246305465698242,
-  "best_model_checkpoint": "hBERTv1_new_pretrain_mnli/checkpoint-3068",
-  "epoch": 6.0,
-  "global_step": 18408,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "learning_rate": 0.00049,
-      "loss": 30.2532,
       "step": 3068
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.3273560876209883,
-      "eval_loss": 15.246305465698242,
-      "eval_runtime": 17.8319,
-      "eval_samples_per_second": 550.419,
-      "eval_steps_per_second": 4.318,
       "step": 3068
     },
     {
       "epoch": 2.0,
-      "learning_rate": 0.00048,
-      "loss": 28.5719,
       "step": 6136
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.3521141110545084,
-      "eval_loss": 22.4074764251709,
-      "eval_runtime": 17.8388,
-      "eval_samples_per_second": 550.205,
-      "eval_steps_per_second": 4.316,
       "step": 6136
     },
     {
       "epoch": 3.0,
-      "learning_rate": 0.00047,
-      "loss": 29.4656,
       "step": 9204
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.3521141110545084,
-      "eval_loss": 22.4074764251709,
-      "eval_runtime": 17.8305,
-      "eval_samples_per_second": 550.46,
-      "eval_steps_per_second": 4.318,
       "step": 9204
     },
     {
       "epoch": 4.0,
-      "learning_rate": 0.00046,
-      "loss": 29.488,
       "step": 12272
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.3521141110545084,
-      "eval_loss": 22.4074764251709,
-      "eval_runtime": 17.8149,
-      "eval_samples_per_second": 550.945,
-      "eval_steps_per_second": 4.322,
       "step": 12272
     },
     {
       "epoch": 5.0,
-      "learning_rate": 0.00045000000000000004,
-      "loss": 29.4812,
       "step": 15340
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.3544574630667346,
-      "eval_loss": NaN,
-      "eval_runtime": 17.6387,
-      "eval_samples_per_second": 556.446,
-      "eval_steps_per_second": 4.365,
       "step": 15340
     },
     {
       "epoch": 6.0,
-      "learning_rate": 0.00044,
-      "loss": 0.0,
       "step": 18408
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.3544574630667346,
-      "eval_loss": NaN,
-      "eval_runtime": 17.6186,
-      "eval_samples_per_second": 557.082,
-      "eval_steps_per_second": 4.37,
       "step": 18408
     },
     {
-      "epoch": 6.0,
-      "step": 18408,
-      "total_flos": 3.48950175651201e+17,
-      "train_loss": 24.543312944779444,
-      "train_runtime": 12385.4858,
-      "train_samples_per_second": 1585.331,
-      "train_steps_per_second": 12.385
     }
   ],
   "max_steps": 153400,
   "num_train_epochs": 50,
-  "total_flos": 3.48950175651201e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 1.0961673259735107,
+  "best_model_checkpoint": "hBERTv1_new_pretrain_mnli/checkpoint-24544",
+  "epoch": 13.0,
+  "global_step": 39884,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "learning_rate": 3.9200000000000004e-05,
+      "loss": 1.1036,
       "step": 3068
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.31818644931227713,
+      "eval_loss": 1.0992199182510376,
+      "eval_runtime": 17.6477,
+      "eval_samples_per_second": 556.162,
+      "eval_steps_per_second": 4.363,
       "step": 3068
     },
     {
       "epoch": 2.0,
+      "learning_rate": 3.8400000000000005e-05,
+      "loss": 1.0989,
       "step": 6136
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.31818644931227713,
+      "eval_loss": 1.0991482734680176,
+      "eval_runtime": 17.6383,
+      "eval_samples_per_second": 556.461,
+      "eval_steps_per_second": 4.366,
       "step": 6136
     },
     {
       "epoch": 3.0,
+      "learning_rate": 3.76e-05,
+      "loss": 1.099,
       "step": 9204
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.33958227203260316,
+      "eval_loss": 1.0985369682312012,
+      "eval_runtime": 17.6432,
+      "eval_samples_per_second": 556.306,
+      "eval_steps_per_second": 4.364,
       "step": 9204
     },
     {
       "epoch": 4.0,
+      "learning_rate": 3.680000000000001e-05,
+      "loss": 1.099,
       "step": 12272
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.31818644931227713,
+      "eval_loss": 1.0975842475891113,
+      "eval_runtime": 17.6309,
+      "eval_samples_per_second": 556.694,
+      "eval_steps_per_second": 4.367,
       "step": 12272
     },
     {
       "epoch": 5.0,
+      "learning_rate": 3.6e-05,
+      "loss": 1.0991,
       "step": 15340
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.31818644931227713,
+      "eval_loss": 1.0994316339492798,
+      "eval_runtime": 17.6333,
+      "eval_samples_per_second": 556.617,
+      "eval_steps_per_second": 4.367,
       "step": 15340
     },
     {
       "epoch": 6.0,
+      "learning_rate": 3.52e-05,
+      "loss": 1.0992,
       "step": 18408
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.3544574630667346,
+      "eval_loss": 1.098584771156311,
+      "eval_runtime": 17.6283,
+      "eval_samples_per_second": 556.774,
+      "eval_steps_per_second": 4.368,
       "step": 18408
     },
     {
+      "epoch": 7.0,
+      "learning_rate": 3.44e-05,
+      "loss": 1.0992,
+      "step": 21476
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.3273560876209883,
+      "eval_loss": 1.096727728843689,
+      "eval_runtime": 17.6361,
+      "eval_samples_per_second": 556.528,
+      "eval_steps_per_second": 4.366,
+      "step": 21476
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 3.3600000000000004e-05,
+      "loss": 1.0992,
+      "step": 24544
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.3544574630667346,
+      "eval_loss": 1.0961673259735107,
+      "eval_runtime": 17.6187,
+      "eval_samples_per_second": 557.077,
+      "eval_steps_per_second": 4.37,
+      "step": 24544
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 3.28e-05,
+      "loss": 1.0991,
+      "step": 27612
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.31818644931227713,
+      "eval_loss": 1.1021356582641602,
+      "eval_runtime": 17.638,
+      "eval_samples_per_second": 556.469,
+      "eval_steps_per_second": 4.366,
+      "step": 27612
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.099,
+      "step": 30680
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.31818644931227713,
+      "eval_loss": 1.0981477499008179,
+      "eval_runtime": 17.631,
+      "eval_samples_per_second": 556.691,
+      "eval_steps_per_second": 4.367,
+      "step": 30680
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 3.1200000000000006e-05,
+      "loss": 1.0992,
+      "step": 33748
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.3544574630667346,
+      "eval_loss": 1.0980195999145508,
+      "eval_runtime": 17.6356,
+      "eval_samples_per_second": 556.544,
+      "eval_steps_per_second": 4.366,
+      "step": 33748
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 3.0400000000000004e-05,
+      "loss": 1.2036,
+      "step": 36816
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.3544574630667346,
+      "eval_loss": 1.1015625,
+      "eval_runtime": 17.6259,
+      "eval_samples_per_second": 556.851,
+      "eval_steps_per_second": 4.369,
+      "step": 36816
+    },
+    {
+      "epoch": 13.0,
+      "learning_rate": 2.96e-05,
+      "loss": 2.2296,
+      "step": 39884
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.3544574630667346,
+      "eval_loss": 1.1015625,
+      "eval_runtime": 17.7344,
+      "eval_samples_per_second": 553.444,
+      "eval_steps_per_second": 4.342,
+      "step": 39884
+    },
+    {
+      "epoch": 13.0,
+      "step": 39884,
+      "total_flos": 7.560587139109356e+17,
+      "train_loss": 1.194441406935582,
+      "train_runtime": 27037.304,
+      "train_samples_per_second": 726.223,
+      "train_steps_per_second": 5.674
     }
   ],
   "max_steps": 153400,
   "num_train_epochs": 50,
+  "total_flos": 7.560587139109356e+17,
   "trial_name": null,
   "trial_params": null
 }