End of training

Browse files

Files changed (6) hide show

README.md +19 -4
all_results.json +11 -11
eval_results.json +6 -6
logs/events.out.tfevents.1733311305.ki-g0008.1207389.5 +3 -0
train_results.json +6 -6
trainer_state.json +108 -60

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 library_name: transformers
 base_model: gokulsrinivasagan/bert_base_lda_20_v1
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: bert_base_lda_20_v1_qnli
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,10 +30,10 @@ should probably proofread and complete it, then remove this comment. -->
 # bert_base_lda_20_v1_qnli
-This model is a fine-tuned version of [gokulsrinivasagan/bert_base_lda_20_v1](https://huggingface.co/gokulsrinivasagan/bert_base_lda_20_v1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9915
-- Accuracy: 0.7066
 ## Model description

 ---
 library_name: transformers
+language:
+- en
 base_model: gokulsrinivasagan/bert_base_lda_20_v1
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
 model-index:
 - name: bert_base_lda_20_v1_qnli
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE QNLI
+      type: glue
+      args: qnli
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.7230459454512173
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert_base_lda_20_v1_qnli
+This model is a fine-tuned version of [gokulsrinivasagan/bert_base_lda_20_v1](https://huggingface.co/gokulsrinivasagan/bert_base_lda_20_v1) on the GLUE QNLI dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5702
+- Accuracy: 0.7230
 ## Model description

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 6.0,
-    "eval_accuracy": 0.5053999633900788,
-    "eval_loss": 0.6933382749557495,
-    "eval_runtime": 3.491,
     "eval_samples": 5463,
-    "eval_samples_per_second": 1564.864,
-    "eval_steps_per_second": 6.302,
-    "total_flos": 8.267712381471744e+16,
-    "train_loss": 0.7020159961731454,
-    "train_runtime": 1044.8612,
     "train_samples": 104743,
-    "train_samples_per_second": 5012.293,
-    "train_steps_per_second": 19.62
 }

 {
+    "epoch": 9.0,
+    "eval_accuracy": 0.7230459454512173,
+    "eval_loss": 0.5702007412910461,
+    "eval_runtime": 3.5152,
     "eval_samples": 5463,
+    "eval_samples_per_second": 1554.113,
+    "eval_steps_per_second": 6.259,
+    "total_flos": 1.2401568572207616e+17,
+    "train_loss": 0.38834146535816555,
+    "train_runtime": 1585.5512,
     "train_samples": 104743,
+    "train_samples_per_second": 3303.047,
+    "train_steps_per_second": 12.929
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 6.0,
-    "eval_accuracy": 0.5053999633900788,
-    "eval_loss": 0.6933382749557495,
-    "eval_runtime": 3.491,
     "eval_samples": 5463,
-    "eval_samples_per_second": 1564.864,
-    "eval_steps_per_second": 6.302
 }

 {
+    "epoch": 9.0,
+    "eval_accuracy": 0.7230459454512173,
+    "eval_loss": 0.5702007412910461,
+    "eval_runtime": 3.5152,
     "eval_samples": 5463,
+    "eval_samples_per_second": 1554.113,
+    "eval_steps_per_second": 6.259
 }

logs/events.out.tfevents.1733311305.ki-g0008.1207389.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38bb6033d5d335c4e4f1d0495331d536b9b5db18dafd2519488f5772bc73b42f
+size 411

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 6.0,
-    "total_flos": 8.267712381471744e+16,
-    "train_loss": 0.7020159961731454,
-    "train_runtime": 1044.8612,
     "train_samples": 104743,
-    "train_samples_per_second": 5012.293,
-    "train_steps_per_second": 19.62
 }

 {
+    "epoch": 9.0,
+    "total_flos": 1.2401568572207616e+17,
+    "train_loss": 0.38834146535816555,
+    "train_runtime": 1585.5512,
     "train_samples": 104743,
+    "train_samples_per_second": 3303.047,
+    "train_steps_per_second": 12.929
 }

trainer_state.json CHANGED Viewed

@@ -1,117 +1,165 @@
 {
-  "best_metric": 0.6933382749557495,
-  "best_model_checkpoint": "bert_base_lda_20_v1_qnli/checkpoint-410",
-  "epoch": 6.0,
   "eval_steps": 500,
-  "global_step": 2460,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.12706193327903748,
-      "learning_rate": 0.00098,
-      "loss": 0.7463,
       "step": 410
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5053999633900788,
-      "eval_loss": 0.6933382749557495,
-      "eval_runtime": 3.5554,
-      "eval_samples_per_second": 1536.551,
-      "eval_steps_per_second": 6.188,
       "step": 410
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.09045995026826859,
-      "learning_rate": 0.00096,
-      "loss": 0.6932,
       "step": 820
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.5053999633900788,
-      "eval_loss": 0.6933382749557495,
-      "eval_runtime": 3.4846,
-      "eval_samples_per_second": 1567.745,
-      "eval_steps_per_second": 6.313,
       "step": 820
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.1270582526922226,
-      "learning_rate": 0.00094,
-      "loss": 0.6932,
       "step": 1230
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.5053999633900788,
-      "eval_loss": 0.6933382749557495,
-      "eval_runtime": 3.5053,
-      "eval_samples_per_second": 1558.508,
-      "eval_steps_per_second": 6.276,
       "step": 1230
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.01812651753425598,
-      "learning_rate": 0.00092,
-      "loss": 0.6931,
       "step": 1640
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5053999633900788,
-      "eval_loss": 0.6933382749557495,
-      "eval_runtime": 3.4781,
-      "eval_samples_per_second": 1570.686,
-      "eval_steps_per_second": 6.325,
       "step": 1640
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.047646842896938324,
-      "learning_rate": 0.0009000000000000001,
-      "loss": 0.6931,
       "step": 2050
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.4946000366099213,
-      "eval_loss": 0.6934648156166077,
-      "eval_runtime": 3.5198,
-      "eval_samples_per_second": 1552.085,
-      "eval_steps_per_second": 6.25,
       "step": 2050
     },
     {
       "epoch": 6.0,
-      "grad_norm": 0.05455218255519867,
-      "learning_rate": 0.00088,
-      "loss": 0.6932,
       "step": 2460
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5053999633900788,
-      "eval_loss": 0.6933382749557495,
-      "eval_runtime": 3.5682,
-      "eval_samples_per_second": 1531.045,
-      "eval_steps_per_second": 6.166,
       "step": 2460
     },
     {
-      "epoch": 6.0,
-      "step": 2460,
-      "total_flos": 8.267712381471744e+16,
-      "train_loss": 0.7020159961731454,
-      "train_runtime": 1044.8612,
-      "train_samples_per_second": 5012.293,
-      "train_steps_per_second": 19.62
     }
   ],
   "logging_steps": 1,
@@ -140,7 +188,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.267712381471744e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5702007412910461,
+  "best_model_checkpoint": "bert_base_lda_20_v1_qnli/checkpoint-1640",
+  "epoch": 9.0,
   "eval_steps": 500,
+  "global_step": 3690,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.8115450143814087,
+      "learning_rate": 4.9e-05,
+      "loss": 0.6969,
       "step": 410
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4946000366099213,
+      "eval_loss": 0.7002705931663513,
+      "eval_runtime": 3.4962,
+      "eval_samples_per_second": 1562.56,
+      "eval_steps_per_second": 6.293,
       "step": 410
     },
     {
       "epoch": 2.0,
+      "grad_norm": 2.0501978397369385,
+      "learning_rate": 4.8e-05,
+      "loss": 0.6528,
       "step": 820
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.676917444627494,
+      "eval_loss": 0.600149929523468,
+      "eval_runtime": 3.5463,
+      "eval_samples_per_second": 1540.467,
+      "eval_steps_per_second": 6.204,
       "step": 820
     },
     {
       "epoch": 3.0,
+      "grad_norm": 2.8618063926696777,
+      "learning_rate": 4.7e-05,
+      "loss": 0.5423,
       "step": 1230
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.680029287937031,
+      "eval_loss": 0.5867719054222107,
+      "eval_runtime": 3.4859,
+      "eval_samples_per_second": 1567.18,
+      "eval_steps_per_second": 6.311,
       "step": 1230
     },
     {
       "epoch": 4.0,
+      "grad_norm": 5.153026103973389,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.4379,
       "step": 1640
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7230459454512173,
+      "eval_loss": 0.5702007412910461,
+      "eval_runtime": 3.4822,
+      "eval_samples_per_second": 1568.819,
+      "eval_steps_per_second": 6.318,
       "step": 1640
     },
     {
       "epoch": 5.0,
+      "grad_norm": 5.406683921813965,
+      "learning_rate": 4.5e-05,
+      "loss": 0.354,
       "step": 2050
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.7182866556836903,
+      "eval_loss": 0.6331011056900024,
+      "eval_runtime": 3.5219,
+      "eval_samples_per_second": 1551.143,
+      "eval_steps_per_second": 6.247,
       "step": 2050
     },
     {
       "epoch": 6.0,
+      "grad_norm": 7.347181797027588,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.2797,
       "step": 2460
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.709134175361523,
+      "eval_loss": 0.7637792229652405,
+      "eval_runtime": 3.51,
+      "eval_samples_per_second": 1556.397,
+      "eval_steps_per_second": 6.268,
       "step": 2460
     },
     {
+      "epoch": 7.0,
+      "grad_norm": 12.102325439453125,
+      "learning_rate": 4.3e-05,
+      "loss": 0.2193,
+      "step": 2870
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7058392824455427,
+      "eval_loss": 0.8050958514213562,
+      "eval_runtime": 3.517,
+      "eval_samples_per_second": 1553.299,
+      "eval_steps_per_second": 6.255,
+      "step": 2870
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 3.6945276260375977,
+      "learning_rate": 4.2e-05,
+      "loss": 0.1732,
+      "step": 3280
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7190188541094636,
+      "eval_loss": 0.8758088946342468,
+      "eval_runtime": 3.5494,
+      "eval_samples_per_second": 1539.117,
+      "eval_steps_per_second": 6.198,
+      "step": 3280
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 5.872611045837402,
+      "learning_rate": 4.1e-05,
+      "loss": 0.1391,
+      "step": 3690
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7065714808713162,
+      "eval_loss": 0.9915491342544556,
+      "eval_runtime": 3.4891,
+      "eval_samples_per_second": 1565.716,
+      "eval_steps_per_second": 6.305,
+      "step": 3690
+    },
+    {
+      "epoch": 9.0,
+      "step": 3690,
+      "total_flos": 1.2401568572207616e+17,
+      "train_loss": 0.38834146535816555,
+      "train_runtime": 1585.5512,
+      "train_samples_per_second": 3303.047,
+      "train_steps_per_second": 12.929
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.2401568572207616e+17,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null