End of training

Browse files

Files changed (6) hide show

README.md +19 -4
all_results.json +10 -10
eval_results.json +5 -5
logs/events.out.tfevents.1733318016.ki-g0008.1208741.15 +3 -0
train_results.json +6 -6
trainer_state.json +90 -170

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 library_name: transformers
 base_model: gokulsrinivasagan/bert_base_lda_100_v1
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: bert_base_lda_100_v1_wnli
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # bert_base_lda_100_v1_wnli
-This model is a fine-tuned version of [gokulsrinivasagan/bert_base_lda_100_v1](https://huggingface.co/gokulsrinivasagan/bert_base_lda_100_v1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6992
-- Accuracy: 0.4789
 ## Model description

 ---
 library_name: transformers
+language:
+- en
 base_model: gokulsrinivasagan/bert_base_lda_100_v1
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
 model-index:
 - name: bert_base_lda_100_v1_wnli
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE WNLI
+      type: glue
+      args: wnli
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.5633802816901409
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert_base_lda_100_v1_wnli
+This model is a fine-tuned version of [gokulsrinivasagan/bert_base_lda_100_v1](https://huggingface.co/gokulsrinivasagan/bert_base_lda_100_v1) on the GLUE WNLI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6905
+- Accuracy: 0.5634
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 15.0,
     "eval_accuracy": 0.5633802816901409,
-    "eval_loss": 0.6856295466423035,
-    "eval_runtime": 0.0576,
     "eval_samples": 71,
-    "eval_samples_per_second": 1232.399,
-    "eval_steps_per_second": 17.358,
-    "total_flos": 1253066401152000.0,
-    "train_loss": 0.8670393943786621,
-    "train_runtime": 52.286,
     "train_samples": 635,
-    "train_samples_per_second": 607.237,
-    "train_steps_per_second": 2.869
 }

 {
+    "epoch": 10.0,
     "eval_accuracy": 0.5633802816901409,
+    "eval_loss": 0.6904709935188293,
+    "eval_runtime": 0.0593,
     "eval_samples": 71,
+    "eval_samples_per_second": 1198.136,
+    "eval_steps_per_second": 16.875,
+    "total_flos": 835377600768000.0,
+    "train_loss": 0.7168338775634766,
+    "train_runtime": 36.7707,
     "train_samples": 635,
+    "train_samples_per_second": 863.458,
+    "train_steps_per_second": 4.079
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 15.0,
     "eval_accuracy": 0.5633802816901409,
-    "eval_loss": 0.6856295466423035,
-    "eval_runtime": 0.0576,
     "eval_samples": 71,
-    "eval_samples_per_second": 1232.399,
-    "eval_steps_per_second": 17.358
 }

 {
+    "epoch": 10.0,
     "eval_accuracy": 0.5633802816901409,
+    "eval_loss": 0.6904709935188293,
+    "eval_runtime": 0.0593,
     "eval_samples": 71,
+    "eval_samples_per_second": 1198.136,
+    "eval_steps_per_second": 16.875
 }

logs/events.out.tfevents.1733318016.ki-g0008.1208741.15 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5724054cbef3214d8b0ba351ca7a4919834d10140d1336f0604da5e9736079
+size 405

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 15.0,
-    "total_flos": 1253066401152000.0,
-    "train_loss": 0.8670393943786621,
-    "train_runtime": 52.286,
     "train_samples": 635,
-    "train_samples_per_second": 607.237,
-    "train_steps_per_second": 2.869
 }

 {
+    "epoch": 10.0,
+    "total_flos": 835377600768000.0,
+    "train_loss": 0.7168338775634766,
+    "train_runtime": 36.7707,
     "train_samples": 635,
+    "train_samples_per_second": 863.458,
+    "train_steps_per_second": 4.079
 }

trainer_state.json CHANGED Viewed

@@ -1,261 +1,181 @@
 {
-  "best_metric": 0.6856295466423035,
-  "best_model_checkpoint": "bert_base_lda_100_v1_wnli/checkpoint-30",
-  "epoch": 15.0,
   "eval_steps": 500,
-  "global_step": 45,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 5.07452392578125,
-      "learning_rate": 0.00098,
-      "loss": 0.9555,
       "step": 3
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 1.7839032411575317,
-      "eval_runtime": 0.0536,
-      "eval_samples_per_second": 1324.278,
-      "eval_steps_per_second": 18.652,
       "step": 3
     },
     {
       "epoch": 2.0,
-      "grad_norm": 12.76796817779541,
-      "learning_rate": 0.00096,
-      "loss": 1.287,
       "step": 6
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 1.9711134433746338,
-      "eval_runtime": 0.0533,
-      "eval_samples_per_second": 1331.507,
-      "eval_steps_per_second": 18.754,
       "step": 6
     },
     {
       "epoch": 3.0,
-      "grad_norm": 12.501447677612305,
-      "learning_rate": 0.00094,
-      "loss": 1.9411,
       "step": 9
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.7585827708244324,
-      "eval_runtime": 0.0551,
-      "eval_samples_per_second": 1289.404,
-      "eval_steps_per_second": 18.161,
       "step": 9
     },
     {
       "epoch": 4.0,
-      "grad_norm": 6.754487037658691,
-      "learning_rate": 0.00092,
-      "loss": 0.8928,
       "step": 12
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.43661971830985913,
-      "eval_loss": 0.9854752421379089,
-      "eval_runtime": 0.0538,
-      "eval_samples_per_second": 1320.402,
-      "eval_steps_per_second": 18.597,
       "step": 12
     },
     {
       "epoch": 5.0,
-      "grad_norm": 4.53428316116333,
-      "learning_rate": 0.0009000000000000001,
-      "loss": 0.8147,
       "step": 15
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.7991858720779419,
-      "eval_runtime": 0.0554,
-      "eval_samples_per_second": 1282.584,
-      "eval_steps_per_second": 18.065,
       "step": 15
     },
     {
       "epoch": 6.0,
-      "grad_norm": 2.009016752243042,
-      "learning_rate": 0.00088,
-      "loss": 0.8064,
       "step": 18
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.43661971830985913,
-      "eval_loss": 0.6986685991287231,
-      "eval_runtime": 0.0546,
-      "eval_samples_per_second": 1299.668,
-      "eval_steps_per_second": 18.305,
       "step": 18
     },
     {
       "epoch": 7.0,
-      "grad_norm": 1.4272738695144653,
-      "learning_rate": 0.00086,
-      "loss": 0.7033,
       "step": 21
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.69140625,
-      "eval_runtime": 0.0542,
-      "eval_samples_per_second": 1309.561,
-      "eval_steps_per_second": 18.445,
       "step": 21
     },
     {
       "epoch": 8.0,
-      "grad_norm": 2.7512166500091553,
-      "learning_rate": 0.00084,
-      "loss": 0.7235,
       "step": 24
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6867297291755676,
-      "eval_runtime": 0.0548,
-      "eval_samples_per_second": 1296.517,
-      "eval_steps_per_second": 18.261,
       "step": 24
     },
     {
       "epoch": 9.0,
-      "grad_norm": 0.845127522945404,
-      "learning_rate": 0.00082,
-      "loss": 0.701,
       "step": 27
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.43661971830985913,
-      "eval_loss": 0.720455527305603,
-      "eval_runtime": 0.0588,
-      "eval_samples_per_second": 1206.74,
-      "eval_steps_per_second": 16.996,
       "step": 27
     },
     {
       "epoch": 10.0,
-      "grad_norm": 0.6040953993797302,
-      "learning_rate": 0.0008,
-      "loss": 0.6954,
       "step": 30
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6856295466423035,
-      "eval_runtime": 0.0566,
-      "eval_samples_per_second": 1253.86,
-      "eval_steps_per_second": 17.66,
       "step": 30
     },
     {
-      "epoch": 11.0,
-      "grad_norm": 0.5374388098716736,
-      "learning_rate": 0.0007800000000000001,
-      "loss": 0.6999,
-      "step": 33
-    },
-    {
-      "epoch": 11.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6916264295578003,
-      "eval_runtime": 0.0546,
-      "eval_samples_per_second": 1301.224,
-      "eval_steps_per_second": 18.327,
-      "step": 33
-    },
-    {
-      "epoch": 12.0,
-      "grad_norm": 1.1416128873825073,
-      "learning_rate": 0.00076,
-      "loss": 0.7008,
-      "step": 36
-    },
-    {
-      "epoch": 12.0,
-      "eval_accuracy": 0.43661971830985913,
-      "eval_loss": 0.7042252421379089,
-      "eval_runtime": 0.0559,
-      "eval_samples_per_second": 1269.717,
-      "eval_steps_per_second": 17.883,
-      "step": 36
-    },
-    {
-      "epoch": 13.0,
-      "grad_norm": 0.340388685464859,
-      "learning_rate": 0.00074,
-      "loss": 0.6948,
-      "step": 39
-    },
-    {
-      "epoch": 13.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6856295466423035,
-      "eval_runtime": 0.0552,
-      "eval_samples_per_second": 1286.391,
-      "eval_steps_per_second": 18.118,
-      "step": 39
-    },
-    {
-      "epoch": 14.0,
-      "grad_norm": 0.5490344166755676,
-      "learning_rate": 0.0007199999999999999,
-      "loss": 0.6948,
-      "step": 42
-    },
-    {
-      "epoch": 14.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.6863997578620911,
-      "eval_runtime": 0.0541,
-      "eval_samples_per_second": 1312.014,
-      "eval_steps_per_second": 18.479,
-      "step": 42
-    },
-    {
-      "epoch": 15.0,
-      "grad_norm": 0.25031745433807373,
-      "learning_rate": 0.0007,
-      "loss": 0.6946,
-      "step": 45
-    },
-    {
-      "epoch": 15.0,
-      "eval_accuracy": 0.5633802816901409,
-      "eval_loss": 0.690690815448761,
-      "eval_runtime": 0.0566,
-      "eval_samples_per_second": 1255.234,
-      "eval_steps_per_second": 17.679,
-      "step": 45
-    },
-    {
-      "epoch": 15.0,
-      "step": 45,
-      "total_flos": 1253066401152000.0,
-      "train_loss": 0.8670393943786621,
-      "train_runtime": 52.286,
-      "train_samples_per_second": 607.237,
-      "train_steps_per_second": 2.869
     }
   ],
   "logging_steps": 1,
@@ -284,7 +204,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1253066401152000.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6904709935188293,
+  "best_model_checkpoint": "bert_base_lda_100_v1_wnli/checkpoint-15",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 30,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 2.2745001316070557,
+      "learning_rate": 4.9e-05,
+      "loss": 0.8315,
       "step": 3
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.43661971830985913,
+      "eval_loss": 0.8521126508712769,
+      "eval_runtime": 0.0533,
+      "eval_samples_per_second": 1331.293,
+      "eval_steps_per_second": 18.751,
       "step": 3
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.3648812770843506,
+      "learning_rate": 4.8e-05,
+      "loss": 0.7469,
       "step": 6
     },
     {
       "epoch": 2.0,
       "eval_accuracy": 0.5633802816901409,
+      "eval_loss": 0.6963852643966675,
+      "eval_runtime": 0.0539,
+      "eval_samples_per_second": 1316.061,
+      "eval_steps_per_second": 18.536,
       "step": 6
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.9801316857337952,
+      "learning_rate": 4.7e-05,
+      "loss": 0.7109,
       "step": 9
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.4647887323943662,
+      "eval_loss": 0.7104423642158508,
+      "eval_runtime": 0.0544,
+      "eval_samples_per_second": 1304.828,
+      "eval_steps_per_second": 18.378,
       "step": 9
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.6583738923072815,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.707,
       "step": 12
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.49295774647887325,
+      "eval_loss": 0.6994937658309937,
+      "eval_runtime": 0.0541,
+      "eval_samples_per_second": 1313.46,
+      "eval_steps_per_second": 18.499,
       "step": 12
     },
     {
       "epoch": 5.0,
+      "grad_norm": 2.0036449432373047,
+      "learning_rate": 4.5e-05,
+      "loss": 0.7035,
       "step": 15
     },
     {
       "epoch": 5.0,
       "eval_accuracy": 0.5633802816901409,
+      "eval_loss": 0.6904709935188293,
+      "eval_runtime": 0.0544,
+      "eval_samples_per_second": 1306.075,
+      "eval_steps_per_second": 18.395,
       "step": 15
     },
     {
       "epoch": 6.0,
+      "grad_norm": 1.6977219581604004,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.6961,
       "step": 18
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.4647887323943662,
+      "eval_loss": 0.709176778793335,
+      "eval_runtime": 0.0553,
+      "eval_samples_per_second": 1282.999,
+      "eval_steps_per_second": 18.07,
       "step": 18
     },
     {
       "epoch": 7.0,
+      "grad_norm": 0.5806699395179749,
+      "learning_rate": 4.3e-05,
+      "loss": 0.6981,
       "step": 21
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.5211267605633803,
+      "eval_loss": 0.6949273347854614,
+      "eval_runtime": 0.0538,
+      "eval_samples_per_second": 1319.273,
+      "eval_steps_per_second": 18.581,
       "step": 21
     },
     {
       "epoch": 8.0,
+      "grad_norm": 2.4361250400543213,
+      "learning_rate": 4.2e-05,
+      "loss": 0.692,
       "step": 24
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.39436619718309857,
+      "eval_loss": 0.702409565448761,
+      "eval_runtime": 0.0534,
+      "eval_samples_per_second": 1330.805,
+      "eval_steps_per_second": 18.744,
       "step": 24
     },
     {
       "epoch": 9.0,
+      "grad_norm": 0.9071682095527649,
+      "learning_rate": 4.1e-05,
+      "loss": 0.6974,
       "step": 27
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.4084507042253521,
+      "eval_loss": 0.705875813961029,
+      "eval_runtime": 0.0538,
+      "eval_samples_per_second": 1319.01,
+      "eval_steps_per_second": 18.578,
       "step": 27
     },
     {
       "epoch": 10.0,
+      "grad_norm": 1.0903393030166626,
+      "learning_rate": 4e-05,
+      "loss": 0.685,
       "step": 30
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.4788732394366197,
+      "eval_loss": 0.6992462873458862,
+      "eval_runtime": 0.0537,
+      "eval_samples_per_second": 1321.891,
+      "eval_steps_per_second": 18.618,
       "step": 30
     },
     {
+      "epoch": 10.0,
+      "step": 30,
+      "total_flos": 835377600768000.0,
+      "train_loss": 0.7168338775634766,
+      "train_runtime": 36.7707,
+      "train_samples_per_second": 863.458,
+      "train_steps_per_second": 4.079
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 835377600768000.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null