End of training

Browse files

Files changed (6) hide show

README.md +21 -6
all_results.json +13 -13
eval_results.json +8 -8
logs/events.out.tfevents.1733317705.ki-g0008.1207984.13 +3 -0
train_results.json +6 -6
trainer_state.json +146 -92

README.md CHANGED Viewed

@@ -1,13 +1,28 @@
 ---
 library_name: transformers
 base_model: gokulsrinivasagan/bert_base_lda_50_v1
 tags:
 - generated_from_trainer
 metrics:
 - spearmanr
 model-index:
 - name: bert_base_lda_50_v1_stsb
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,12 +30,12 @@ should probably proofread and complete it, then remove this comment. -->
 # bert_base_lda_50_v1_stsb
-This model is a fine-tuned version of [gokulsrinivasagan/bert_base_lda_50_v1](https://huggingface.co/gokulsrinivasagan/bert_base_lda_50_v1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.0050
-- Pearson: 0.5558
-- Spearmanr: 0.5493
-- Combined Score: 0.5526
 ## Model description

 ---
 library_name: transformers
+language:
+- en
 base_model: gokulsrinivasagan/bert_base_lda_50_v1
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - spearmanr
 model-index:
 - name: bert_base_lda_50_v1_stsb
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE STSB
+      type: glue
+      args: stsb
+    metrics:
+    - name: Spearmanr
+      type: spearmanr
+      value: 0.5589090761362828
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert_base_lda_50_v1_stsb
+This model is a fine-tuned version of [gokulsrinivasagan/bert_base_lda_50_v1](https://huggingface.co/gokulsrinivasagan/bert_base_lda_50_v1) on the GLUE STSB dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.6371
+- Pearson: 0.5607
+- Spearmanr: 0.5589
+- Combined Score: 0.5598
 ## Model description

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-    "epoch": 8.0,
-    "eval_combined_score": NaN,
-    "eval_loss": 2.2729742527008057,
-    "eval_pearson": NaN,
-    "eval_runtime": 0.9476,
     "eval_samples": 1500,
-    "eval_samples_per_second": 1582.938,
-    "eval_spearmanr": NaN,
-    "eval_steps_per_second": 6.332,
-    "total_flos": 6050447504044032.0,
-    "train_loss": 2.691379339798637,
-    "train_runtime": 97.5477,
     "train_samples": 5749,
-    "train_samples_per_second": 2946.763,
-    "train_steps_per_second": 11.789
 }

 {
+    "epoch": 11.0,
+    "eval_combined_score": 0.559797186554887,
+    "eval_loss": 1.6371002197265625,
+    "eval_pearson": 0.560685296973491,
+    "eval_runtime": 0.9619,
     "eval_samples": 1500,
+    "eval_samples_per_second": 1559.336,
+    "eval_spearmanr": 0.5589090761362828,
+    "eval_steps_per_second": 6.237,
+    "total_flos": 8319365318060544.0,
+    "train_loss": 0.9649757660424756,
+    "train_runtime": 142.9045,
     "train_samples": 5749,
+    "train_samples_per_second": 2011.483,
+    "train_steps_per_second": 8.047
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 8.0,
-    "eval_combined_score": NaN,
-    "eval_loss": 2.2729742527008057,
-    "eval_pearson": NaN,
-    "eval_runtime": 0.9476,
     "eval_samples": 1500,
-    "eval_samples_per_second": 1582.938,
-    "eval_spearmanr": NaN,
-    "eval_steps_per_second": 6.332
 }

 {
+    "epoch": 11.0,
+    "eval_combined_score": 0.559797186554887,
+    "eval_loss": 1.6371002197265625,
+    "eval_pearson": 0.560685296973491,
+    "eval_runtime": 0.9619,
     "eval_samples": 1500,
+    "eval_samples_per_second": 1559.336,
+    "eval_spearmanr": 0.5589090761362828,
+    "eval_steps_per_second": 6.237
 }

logs/events.out.tfevents.1733317705.ki-g0008.1207984.13 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d05accd6cd4df277c4e0f1fec68248b9122d9a1e4c2c52cc2a3d654342272c01
+size 521

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 8.0,
-    "total_flos": 6050447504044032.0,
-    "train_loss": 2.691379339798637,
-    "train_runtime": 97.5477,
     "train_samples": 5749,
-    "train_samples_per_second": 2946.763,
-    "train_steps_per_second": 11.789
 }

 {
+    "epoch": 11.0,
+    "total_flos": 8319365318060544.0,
+    "train_loss": 0.9649757660424756,
+    "train_runtime": 142.9045,
     "train_samples": 5749,
+    "train_samples_per_second": 2011.483,
+    "train_steps_per_second": 8.047
 }

trainer_state.json CHANGED Viewed

@@ -1,165 +1,219 @@
 {
-  "best_metric": 2.2729742527008057,
-  "best_model_checkpoint": "bert_base_lda_50_v1_stsb/checkpoint-69",
-  "epoch": 8.0,
   "eval_steps": 500,
-  "global_step": 184,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 8.73307991027832,
-      "learning_rate": 0.00098,
-      "loss": 6.0649,
       "step": 23
     },
     {
       "epoch": 1.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.3650248050689697,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.9635,
-      "eval_samples_per_second": 1556.811,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 6.227,
       "step": 23
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.9381163120269775,
-      "learning_rate": 0.00096,
-      "loss": 2.2353,
       "step": 46
     },
     {
       "epoch": 2.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.9027676582336426,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.9401,
-      "eval_samples_per_second": 1595.62,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 6.382,
       "step": 46
     },
     {
       "epoch": 3.0,
-      "grad_norm": 3.263155221939087,
-      "learning_rate": 0.00094,
-      "loss": 2.2088,
       "step": 69
     },
     {
       "epoch": 3.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.2729742527008057,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.9531,
-      "eval_samples_per_second": 1573.815,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 6.295,
       "step": 69
     },
     {
       "epoch": 4.0,
-      "grad_norm": 17.50048065185547,
-      "learning_rate": 0.00092,
-      "loss": 2.2442,
       "step": 92
     },
     {
       "epoch": 4.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.3650248050689697,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.9477,
-      "eval_samples_per_second": 1582.73,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 6.331,
       "step": 92
     },
     {
       "epoch": 5.0,
-      "grad_norm": 19.822242736816406,
-      "learning_rate": 0.0009000000000000001,
-      "loss": 2.186,
       "step": 115
     },
     {
       "epoch": 5.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.5440917015075684,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.9591,
-      "eval_samples_per_second": 1564.007,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 6.256,
       "step": 115
     },
     {
       "epoch": 6.0,
-      "grad_norm": 11.794938087463379,
-      "learning_rate": 0.00088,
-      "loss": 2.2071,
       "step": 138
     },
     {
       "epoch": 6.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.3354201316833496,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.957,
-      "eval_samples_per_second": 1567.38,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 6.27,
       "step": 138
     },
     {
       "epoch": 7.0,
-      "grad_norm": 13.783312797546387,
-      "learning_rate": 0.00086,
-      "loss": 2.1952,
       "step": 161
     },
     {
       "epoch": 7.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.561283588409424,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.9859,
-      "eval_samples_per_second": 1521.457,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 6.086,
       "step": 161
     },
     {
       "epoch": 8.0,
-      "grad_norm": 4.902163028717041,
-      "learning_rate": 0.00084,
-      "loss": 2.1895,
       "step": 184
     },
     {
       "epoch": 8.0,
-      "eval_combined_score": NaN,
-      "eval_loss": 2.615790605545044,
-      "eval_pearson": NaN,
-      "eval_runtime": 0.9607,
-      "eval_samples_per_second": 1561.399,
-      "eval_spearmanr": NaN,
-      "eval_steps_per_second": 6.246,
       "step": 184
     },
     {
-      "epoch": 8.0,
-      "step": 184,
-      "total_flos": 6050447504044032.0,
-      "train_loss": 2.691379339798637,
-      "train_runtime": 97.5477,
-      "train_samples_per_second": 2946.763,
-      "train_steps_per_second": 11.789
     }
   ],
   "logging_steps": 1,
@@ -188,7 +242,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6050447504044032.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.6371002197265625,
+  "best_model_checkpoint": "bert_base_lda_50_v1_stsb/checkpoint-138",
+  "epoch": 11.0,
   "eval_steps": 500,
+  "global_step": 253,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 6.3296051025390625,
+      "learning_rate": 4.9e-05,
+      "loss": 2.6627,
       "step": 23
     },
     {
       "epoch": 1.0,
+      "eval_combined_score": 0.06494268218902295,
+      "eval_loss": 2.5606296062469482,
+      "eval_pearson": 0.06187602665686126,
+      "eval_runtime": 0.957,
+      "eval_samples_per_second": 1567.353,
+      "eval_spearmanr": 0.06800933772118464,
+      "eval_steps_per_second": 6.269,
       "step": 23
     },
     {
       "epoch": 2.0,
+      "grad_norm": 12.320566177368164,
+      "learning_rate": 4.8e-05,
+      "loss": 1.9634,
       "step": 46
     },
     {
       "epoch": 2.0,
+      "eval_combined_score": 0.30998578325243265,
+      "eval_loss": 2.086641550064087,
+      "eval_pearson": 0.3207566292536792,
+      "eval_runtime": 0.9895,
+      "eval_samples_per_second": 1515.912,
+      "eval_spearmanr": 0.29921493725118614,
+      "eval_steps_per_second": 6.064,
       "step": 46
     },
     {
       "epoch": 3.0,
+      "grad_norm": 11.113969802856445,
+      "learning_rate": 4.7e-05,
+      "loss": 1.5146,
       "step": 69
     },
     {
       "epoch": 3.0,
+      "eval_combined_score": 0.4755539101703913,
+      "eval_loss": 1.9855146408081055,
+      "eval_pearson": 0.48212418411682795,
+      "eval_runtime": 0.9719,
+      "eval_samples_per_second": 1543.364,
+      "eval_spearmanr": 0.4689836362239546,
+      "eval_steps_per_second": 6.173,
       "step": 69
     },
     {
       "epoch": 4.0,
+      "grad_norm": 12.492632865905762,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 1.0707,
       "step": 92
     },
     {
       "epoch": 4.0,
+      "eval_combined_score": 0.47411143532938405,
+      "eval_loss": 2.3493354320526123,
+      "eval_pearson": 0.4692525816689466,
+      "eval_runtime": 0.9687,
+      "eval_samples_per_second": 1548.421,
+      "eval_spearmanr": 0.4789702889898215,
+      "eval_steps_per_second": 6.194,
       "step": 92
     },
     {
       "epoch": 5.0,
+      "grad_norm": 17.909231185913086,
+      "learning_rate": 4.5e-05,
+      "loss": 0.8577,
       "step": 115
     },
     {
       "epoch": 5.0,
+      "eval_combined_score": 0.5322450011905526,
+      "eval_loss": 1.7065768241882324,
+      "eval_pearson": 0.5351874246687656,
+      "eval_runtime": 0.9801,
+      "eval_samples_per_second": 1530.489,
+      "eval_spearmanr": 0.5293025777123396,
+      "eval_steps_per_second": 6.122,
       "step": 115
     },
     {
       "epoch": 6.0,
+      "grad_norm": 9.92444133758545,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.6288,
       "step": 138
     },
     {
       "epoch": 6.0,
+      "eval_combined_score": 0.559797186554887,
+      "eval_loss": 1.6371002197265625,
+      "eval_pearson": 0.560685296973491,
+      "eval_runtime": 1.0615,
+      "eval_samples_per_second": 1413.067,
+      "eval_spearmanr": 0.5589090761362828,
+      "eval_steps_per_second": 5.652,
       "step": 138
     },
     {
       "epoch": 7.0,
+      "grad_norm": 12.71578311920166,
+      "learning_rate": 4.3e-05,
+      "loss": 0.5403,
       "step": 161
     },
     {
       "epoch": 7.0,
+      "eval_combined_score": 0.5614071171966524,
+      "eval_loss": 1.6739599704742432,
+      "eval_pearson": 0.5635509224069212,
+      "eval_runtime": 0.976,
+      "eval_samples_per_second": 1536.84,
+      "eval_spearmanr": 0.5592633119863837,
+      "eval_steps_per_second": 6.147,
       "step": 161
     },
     {
       "epoch": 8.0,
+      "grad_norm": 6.189964294433594,
+      "learning_rate": 4.2e-05,
+      "loss": 0.4198,
       "step": 184
     },
     {
       "epoch": 8.0,
+      "eval_combined_score": 0.5633803172390597,
+      "eval_loss": 1.7393492460250854,
+      "eval_pearson": 0.5655303330048267,
+      "eval_runtime": 0.9693,
+      "eval_samples_per_second": 1547.518,
+      "eval_spearmanr": 0.5612303014732926,
+      "eval_steps_per_second": 6.19,
       "step": 184
     },
     {
+      "epoch": 9.0,
+      "grad_norm": 6.257621765136719,
+      "learning_rate": 4.1e-05,
+      "loss": 0.3618,
+      "step": 207
+    },
+    {
+      "epoch": 9.0,
+      "eval_combined_score": 0.5394844687046827,
+      "eval_loss": 1.696278691291809,
+      "eval_pearson": 0.5445639339098167,
+      "eval_runtime": 0.9809,
+      "eval_samples_per_second": 1529.25,
+      "eval_spearmanr": 0.5344050034995488,
+      "eval_steps_per_second": 6.117,
+      "step": 207
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 12.734039306640625,
+      "learning_rate": 4e-05,
+      "loss": 0.3216,
+      "step": 230
+    },
+    {
+      "epoch": 10.0,
+      "eval_combined_score": 0.5555231621684992,
+      "eval_loss": 1.6674435138702393,
+      "eval_pearson": 0.5593674576511678,
+      "eval_runtime": 0.9707,
+      "eval_samples_per_second": 1545.211,
+      "eval_spearmanr": 0.5516788666858305,
+      "eval_steps_per_second": 6.181,
+      "step": 230
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 13.98444652557373,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.2733,
+      "step": 253
+    },
+    {
+      "epoch": 11.0,
+      "eval_combined_score": 0.5525614402945593,
+      "eval_loss": 2.0049800872802734,
+      "eval_pearson": 0.5557989652919822,
+      "eval_runtime": 0.9675,
+      "eval_samples_per_second": 1550.429,
+      "eval_spearmanr": 0.5493239152971364,
+      "eval_steps_per_second": 6.202,
+      "step": 253
+    },
+    {
+      "epoch": 11.0,
+      "step": 253,
+      "total_flos": 8319365318060544.0,
+      "train_loss": 0.9649757660424756,
+      "train_runtime": 142.9045,
+      "train_samples_per_second": 2011.483,
+      "train_steps_per_second": 8.047
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8319365318060544.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null