End of training

Browse files

Files changed (6) hide show

README.md +21 -6
all_results.json +13 -13
eval_results.json +8 -8
logs/events.out.tfevents.1733326113.ki-g0008.1207389.31 +3 -0
train_results.json +6 -6
trainer_state.json +146 -92

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 library_name: transformers
 base_model: gokulsrinivasagan/bert_tiny_lda_20_v1
 tags:
 - generated_from_trainer
 metrics:
 - spearmanr
 model-index:
 - name: bert_tiny_lda_20_v1_stsb
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,12 +30,12 @@ should probably proofread and complete it, then remove this comment. -->
 # bert_tiny_lda_20_v1_stsb
-This model is a fine-tuned version of [gokulsrinivasagan/bert_tiny_lda_20_v1](https://huggingface.co/gokulsrinivasagan/bert_tiny_lda_20_v1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.8757
-- Pearson: 0.1997
-- Spearmanr: 0.1970
-- Combined Score: 0.1984
 ## Model description

 ---
 library_name: transformers
+language:
+- en
 base_model: gokulsrinivasagan/bert_tiny_lda_20_v1
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - spearmanr
 model-index:
 - name: bert_tiny_lda_20_v1_stsb
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE STSB
+      type: glue
+      args: stsb
+    metrics:
+    - name: Spearmanr
+      type: spearmanr
+      value: 0.206178007684053
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert_tiny_lda_20_v1_stsb
+This model is a fine-tuned version of [gokulsrinivasagan/bert_tiny_lda_20_v1](https://huggingface.co/gokulsrinivasagan/bert_tiny_lda_20_v1) on the GLUE STSB dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.4012
+- Pearson: 0.2090
+- Spearmanr: 0.2062
+- Combined Score: 0.2076
 ## Model description

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-    "epoch": 8.0,
-    "eval_combined_score": NaN,
-    "eval_loss": 2.3181252479553223,
-    "eval_pearson": NaN,
-    "eval_runtime": 0.4736,
     "eval_samples": 1500,
-    "eval_samples_per_second": 3167.304,
-    "eval_spearmanr": NaN,
-    "eval_steps_per_second": 12.669,
-    "total_flos": 1206038564302848.0,
-    "train_loss": 2.290126302967901,
-    "train_runtime": 33.8916,
     "train_samples": 5749,
-    "train_samples_per_second": 8481.462,
-    "train_steps_per_second": 33.932
 }

 {
+    "epoch": 11.0,
+    "eval_combined_score": 0.2075935956930616,
+    "eval_loss": 2.4011762142181396,
+    "eval_pearson": 0.2090091837020702,
+    "eval_runtime": 0.4676,
     "eval_samples": 1500,
+    "eval_samples_per_second": 3207.599,
+    "eval_spearmanr": 0.206178007684053,
+    "eval_steps_per_second": 12.83,
+    "total_flos": 1658303025916416.0,
+    "train_loss": 1.4676968043029543,
+    "train_runtime": 48.6684,
     "train_samples": 5749,
+    "train_samples_per_second": 5906.293,
+    "train_steps_per_second": 23.629
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 8.0,
-    "eval_combined_score": NaN,
-    "eval_loss": 2.3181252479553223,
-    "eval_pearson": NaN,
-    "eval_runtime": 0.4736,
     "eval_samples": 1500,
-    "eval_samples_per_second": 3167.304,
-    "eval_spearmanr": NaN,
-    "eval_steps_per_second": 12.669
 }

 {
+    "epoch": 11.0,
+    "eval_combined_score": 0.2075935956930616,
+    "eval_loss": 2.4011762142181396,
+    "eval_pearson": 0.2090091837020702,
+    "eval_runtime": 0.4676,
     "eval_samples": 1500,
+    "eval_samples_per_second": 3207.599,
+    "eval_spearmanr": 0.206178007684053,
+    "eval_steps_per_second": 12.83
 }

logs/events.out.tfevents.1733326113.ki-g0008.1207389.31 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e4ccefde6ce284a434b371a54500edca4fc03521c20cb961369ab4a9296da49
+size 521

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 8.0,
-    "total_flos": 1206038564302848.0,
-    "train_loss": 2.290126302967901,
-    "train_runtime": 33.8916,
     "train_samples": 5749,
-    "train_samples_per_second": 8481.462,
-    "train_steps_per_second": 33.932
 }

 {
+    "epoch": 11.0,
+    "total_flos": 1658303025916416.0,
+    "train_loss": 1.4676968043029543,
+    "train_runtime": 48.6684,
     "train_samples": 5749,
+    "train_samples_per_second": 5906.293,
+    "train_steps_per_second": 23.629
 }

trainer_state.json CHANGED Viewed

@@ -1,165 +1,219 @@
 {
-  "best_metric": 2.3181252479553223,
-  "best_model_checkpoint": "bert_tiny_lda_20_v1_stsb/checkpoint-69",
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 184,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 10.162191390991211,
-      "learning_rate": 0.00098,
-      "loss": 2.8571,
       "step": 23
     },
     {
       "epoch": 1.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.424130916595459,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4727,
-      "eval_samples_per_second": 3173.504,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 12.694,
       "step": 23
     },
     {
       "epoch": 2.0,
-      "grad_norm": 8.037949562072754,
-      "learning_rate": 0.00096,
-      "loss": 2.2328,
       "step": 46
     },
     {
       "epoch": 2.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.465453863143921,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4771,
-      "eval_samples_per_second": 3144.102,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 12.576,
       "step": 46
     },
     {
       "epoch": 3.0,
-      "grad_norm": 3.9923179149627686,
-      "learning_rate": 0.00094,
-      "loss": 2.2,
       "step": 69
     },
     {
       "epoch": 3.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.3181252479553223,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4761,
-      "eval_samples_per_second": 3150.899,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 12.604,
       "step": 69
     },
     {
       "epoch": 4.0,
-      "grad_norm": 2.869777202606201,
-      "learning_rate": 0.00092,
-      "loss": 2.2045,
       "step": 92
     },
     {
       "epoch": 4.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.6349358558654785,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.537,
-      "eval_samples_per_second": 2793.055,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 11.172,
       "step": 92
     },
     {
       "epoch": 5.0,
-      "grad_norm": 9.981119155883789,
-      "learning_rate": 0.0009000000000000001,
-      "loss": 2.1921,
       "step": 115
     },
     {
       "epoch": 5.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.511171817779541,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4756,
-      "eval_samples_per_second": 3153.702,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 12.615,
       "step": 115
     },
     {
       "epoch": 6.0,
-      "grad_norm": 4.7162299156188965,
-      "learning_rate": 0.00088,
-      "loss": 2.1841,
       "step": 138
     },
     {
       "epoch": 6.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.424130916595459,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4834,
-      "eval_samples_per_second": 3102.909,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 12.412,
       "step": 138
     },
     {
       "epoch": 7.0,
-      "grad_norm": 13.312565803527832,
-      "learning_rate": 0.00086,
-      "loss": 2.2209,
       "step": 161
     },
     {
       "epoch": 7.0,
-      "eval_combined_score": -0.009495833329605522,
-      "eval_loss": 2.8759829998016357,
-      "eval_pearson": -0.010530367316048256,
-      "eval_runtime": 0.4786,
-      "eval_samples_per_second": 3134.296,
-      "eval_spearmanr": -0.008461299343162788,
-      "eval_steps_per_second": 12.537,
       "step": 161
     },
     {
       "epoch": 8.0,
-      "grad_norm": 7.72174596786499,
-      "learning_rate": 0.00084,
-      "loss": 2.2294,
       "step": 184
     },
     {
       "epoch": 8.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.387202262878418,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.4664,
-      "eval_samples_per_second": 3216.42,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 12.866,
       "step": 184
     },
     {
-      "epoch": 8.0,
-      "step": 184,
-      "total_flos": 1206038564302848.0,
-      "train_loss": 2.290126302967901,
-      "train_runtime": 33.8916,
-      "train_samples_per_second": 8481.462,
-      "train_steps_per_second": 33.932
     }
   ],
   "logging_steps": 1,
@@ -188,7 +242,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1206038564302848.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.4011762142181396,
+  "best_model_checkpoint": "bert_tiny_lda_20_v1_stsb/checkpoint-138",
+  "epoch": 11.0,
   "eval_steps": 500,
+  "global_step": 253,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 4.078850746154785,
+      "learning_rate": 4.9e-05,
+      "loss": 2.8045,
       "step": 23
     },
     {
       "epoch": 1.0,
+      "eval_combined_score": 0.0642216010584959,
+      "eval_loss": 2.513618230819702,
+      "eval_pearson": 0.064936627100268,
+      "eval_runtime": 0.4715,
+      "eval_samples_per_second": 3181.205,
+      "eval_spearmanr": 0.06350657501672381,
+      "eval_steps_per_second": 12.725,
       "step": 23
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.2883362770080566,
+      "learning_rate": 4.8e-05,
+      "loss": 2.0273,
       "step": 46
     },
     {
       "epoch": 2.0,
+      "eval_combined_score": 0.10230063868778806,
+      "eval_loss": 2.7011005878448486,
+      "eval_pearson": 0.1058160068227315,
+      "eval_runtime": 0.5247,
+      "eval_samples_per_second": 2858.604,
+      "eval_spearmanr": 0.09878527055284463,
+      "eval_steps_per_second": 11.434,
       "step": 46
     },
     {
       "epoch": 3.0,
+      "grad_norm": 5.794046401977539,
+      "learning_rate": 4.7e-05,
+      "loss": 1.9624,
       "step": 69
     },
     {
       "epoch": 3.0,
+      "eval_combined_score": 0.13613083243886837,
+      "eval_loss": 2.505896806716919,
+      "eval_pearson": 0.14014522096042487,
+      "eval_runtime": 0.4791,
+      "eval_samples_per_second": 3130.962,
+      "eval_spearmanr": 0.13211644391731184,
+      "eval_steps_per_second": 12.524,
       "step": 69
     },
     {
       "epoch": 4.0,
+      "grad_norm": 6.938534259796143,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 1.7728,
       "step": 92
     },
     {
       "epoch": 4.0,
+      "eval_combined_score": 0.1913977626501815,
+      "eval_loss": 2.4245388507843018,
+      "eval_pearson": 0.1928209100774551,
+      "eval_runtime": 0.4586,
+      "eval_samples_per_second": 3271.118,
+      "eval_spearmanr": 0.1899746152229079,
+      "eval_steps_per_second": 13.084,
       "step": 92
     },
     {
       "epoch": 5.0,
+      "grad_norm": 18.05712890625,
+      "learning_rate": 4.5e-05,
+      "loss": 1.5681,
       "step": 115
     },
     {
       "epoch": 5.0,
+      "eval_combined_score": 0.20464505901163094,
+      "eval_loss": 2.5047056674957275,
+      "eval_pearson": 0.20578695703488406,
+      "eval_runtime": 0.5672,
+      "eval_samples_per_second": 2644.741,
+      "eval_spearmanr": 0.20350316098837784,
+      "eval_steps_per_second": 10.579,
       "step": 115
     },
     {
       "epoch": 6.0,
+      "grad_norm": 23.27094268798828,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 1.3579,
       "step": 138
     },
     {
       "epoch": 6.0,
+      "eval_combined_score": 0.2075935956930616,
+      "eval_loss": 2.4011762142181396,
+      "eval_pearson": 0.2090091837020702,
+      "eval_runtime": 0.4788,
+      "eval_samples_per_second": 3132.869,
+      "eval_spearmanr": 0.206178007684053,
+      "eval_steps_per_second": 12.531,
       "step": 138
     },
     {
       "epoch": 7.0,
+      "grad_norm": 11.902989387512207,
+      "learning_rate": 4.3e-05,
+      "loss": 1.1855,
       "step": 161
     },
     {
       "epoch": 7.0,
+      "eval_combined_score": 0.20311250613057802,
+      "eval_loss": 2.8718066215515137,
+      "eval_pearson": 0.20275399184122003,
+      "eval_runtime": 0.4751,
+      "eval_samples_per_second": 3157.537,
+      "eval_spearmanr": 0.203471020419936,
+      "eval_steps_per_second": 12.63,
       "step": 161
     },
     {
       "epoch": 8.0,
+      "grad_norm": 15.490907669067383,
+      "learning_rate": 4.2e-05,
+      "loss": 0.9932,
       "step": 184
     },
     {
       "epoch": 8.0,
+      "eval_combined_score": 0.2052307079672449,
+      "eval_loss": 2.7052783966064453,
+      "eval_pearson": 0.2053961730959851,
+      "eval_runtime": 0.4874,
+      "eval_samples_per_second": 3077.498,
+      "eval_spearmanr": 0.2050652428385047,
+      "eval_steps_per_second": 12.31,
       "step": 184
     },
     {
+      "epoch": 9.0,
+      "grad_norm": 5.574343681335449,
+      "learning_rate": 4.1e-05,
+      "loss": 0.8913,
+      "step": 207
+    },
+    {
+      "epoch": 9.0,
+      "eval_combined_score": 0.19414953178513866,
+      "eval_loss": 2.746152400970459,
+      "eval_pearson": 0.19461422727495464,
+      "eval_runtime": 0.4798,
+      "eval_samples_per_second": 3126.418,
+      "eval_spearmanr": 0.19368483629532268,
+      "eval_steps_per_second": 12.506,
+      "step": 207
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 13.67994213104248,
+      "learning_rate": 4e-05,
+      "loss": 0.8264,
+      "step": 230
+    },
+    {
+      "epoch": 10.0,
+      "eval_combined_score": 0.1847674200473241,
+      "eval_loss": 3.26761531829834,
+      "eval_pearson": 0.18704749995802297,
+      "eval_runtime": 0.4609,
+      "eval_samples_per_second": 3254.422,
+      "eval_spearmanr": 0.1824873401366252,
+      "eval_steps_per_second": 13.018,
+      "step": 230
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 9.96199893951416,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.7553,
+      "step": 253
+    },
+    {
+      "epoch": 11.0,
+      "eval_combined_score": 0.19835967511335195,
+      "eval_loss": 2.8757433891296387,
+      "eval_pearson": 0.19969849037673149,
+      "eval_runtime": 0.4527,
+      "eval_samples_per_second": 3313.534,
+      "eval_spearmanr": 0.19702085984997245,
+      "eval_steps_per_second": 13.254,
+      "step": 253
+    },
+    {
+      "epoch": 11.0,
+      "step": 253,
+      "total_flos": 1658303025916416.0,
+      "train_loss": 1.4676968043029543,
+      "train_runtime": 48.6684,
+      "train_samples_per_second": 5906.293,
+      "train_steps_per_second": 23.629
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1658303025916416.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null