End of training

Browse files

Files changed (6) hide show

README.md +24 -6
all_results.json +13 -13
eval_results.json +8 -8
logs/events.out.tfevents.1733323324.ki-g0008.1207389.21 +3 -0
train_results.json +6 -6
trainer_state.json +92 -146

README.md CHANGED Viewed

@@ -1,14 +1,32 @@
 ---
 library_name: transformers
 base_model: gokulsrinivasagan/bert_tiny_lda_20_v1
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 - f1
 model-index:
 - name: bert_tiny_lda_20_v1_mrpc
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -16,12 +34,12 @@ should probably proofread and complete it, then remove this comment. -->
 # bert_tiny_lda_20_v1_mrpc
-This model is a fine-tuned version of [gokulsrinivasagan/bert_tiny_lda_20_v1](https://huggingface.co/gokulsrinivasagan/bert_tiny_lda_20_v1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9865
-- Accuracy: 0.6225
-- F1: 0.7004
-- Combined Score: 0.6615
 ## Model description

 ---
 library_name: transformers
+language:
+- en
 base_model: gokulsrinivasagan/bert_tiny_lda_20_v1
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
 - f1
 model-index:
 - name: bert_tiny_lda_20_v1_mrpc
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE MRPC
+      type: glue
+      args: mrpc
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.6985294117647058
+    - name: F1
+      type: f1
+      value: 0.8098918083462132
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert_tiny_lda_20_v1_mrpc
+This model is a fine-tuned version of [gokulsrinivasagan/bert_tiny_lda_20_v1](https://huggingface.co/gokulsrinivasagan/bert_tiny_lda_20_v1) on the GLUE MRPC dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5935
+- Accuracy: 0.6985
+- F1: 0.8099
+- Combined Score: 0.7542
 ## Model description

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-    "epoch": 11.0,
-    "eval_accuracy": 0.6838235294117647,
-    "eval_combined_score": 0.7480253018237863,
-    "eval_f1": 0.8122270742358079,
-    "eval_loss": 0.6233484745025635,
-    "eval_runtime": 0.1332,
     "eval_samples": 408,
-    "eval_samples_per_second": 3062.177,
-    "eval_steps_per_second": 15.011,
-    "total_flos": 1058068929662976.0,
-    "train_loss": 0.6397525556159742,
-    "train_runtime": 32.0741,
     "train_samples": 3668,
-    "train_samples_per_second": 5718.002,
-    "train_steps_per_second": 23.383
 }

 {
+    "epoch": 8.0,
+    "eval_accuracy": 0.6985294117647058,
+    "eval_combined_score": 0.7542106100554595,
+    "eval_f1": 0.8098918083462132,
+    "eval_loss": 0.5935130715370178,
+    "eval_runtime": 0.1495,
     "eval_samples": 408,
+    "eval_samples_per_second": 2728.516,
+    "eval_steps_per_second": 13.375,
+    "total_flos": 769504676118528.0,
+    "train_loss": 0.4692632933457693,
+    "train_runtime": 24.0661,
     "train_samples": 3668,
+    "train_samples_per_second": 7620.676,
+    "train_steps_per_second": 31.164
 }

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 11.0,
-    "eval_accuracy": 0.6838235294117647,
-    "eval_combined_score": 0.7480253018237863,
-    "eval_f1": 0.8122270742358079,
-    "eval_loss": 0.6233484745025635,
-    "eval_runtime": 0.1332,
     "eval_samples": 408,
-    "eval_samples_per_second": 3062.177,
-    "eval_steps_per_second": 15.011
 }

 {
+    "epoch": 8.0,
+    "eval_accuracy": 0.6985294117647058,
+    "eval_combined_score": 0.7542106100554595,
+    "eval_f1": 0.8098918083462132,
+    "eval_loss": 0.5935130715370178,
+    "eval_runtime": 0.1495,
     "eval_samples": 408,
+    "eval_samples_per_second": 2728.516,
+    "eval_steps_per_second": 13.375
 }

logs/events.out.tfevents.1733323324.ki-g0008.1207389.21 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b49643fad1b7bbe6a0f8e512d735abf99b606a74dbd2a051995ccc519fe9f91
+size 507

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 11.0,
-    "total_flos": 1058068929662976.0,
-    "train_loss": 0.6397525556159742,
-    "train_runtime": 32.0741,
     "train_samples": 3668,
-    "train_samples_per_second": 5718.002,
-    "train_steps_per_second": 23.383
 }

 {
+    "epoch": 8.0,
+    "total_flos": 769504676118528.0,
+    "train_loss": 0.4692632933457693,
+    "train_runtime": 24.0661,
     "train_samples": 3668,
+    "train_samples_per_second": 7620.676,
+    "train_steps_per_second": 31.164
 }

trainer_state.json CHANGED Viewed

@@ -1,219 +1,165 @@
 {
-  "best_metric": 0.6233484745025635,
-  "best_model_checkpoint": "bert_tiny_lda_20_v1_mrpc/checkpoint-90",
-  "epoch": 11.0,
   "eval_steps": 500,
-  "global_step": 165,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.3626367449760437,
-      "learning_rate": 0.00098,
-      "loss": 0.7043,
       "step": 15
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.6263547539710999,
-      "eval_runtime": 0.1373,
-      "eval_samples_per_second": 2972.281,
-      "eval_steps_per_second": 14.57,
       "step": 15
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.480228066444397,
-      "learning_rate": 0.00096,
-      "loss": 0.6367,
       "step": 30
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.6249425411224365,
-      "eval_runtime": 0.144,
-      "eval_samples_per_second": 2832.746,
-      "eval_steps_per_second": 13.886,
       "step": 30
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.5654810667037964,
-      "learning_rate": 0.00094,
-      "loss": 0.6299,
       "step": 45
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.6277430057525635,
-      "eval_runtime": 0.1408,
-      "eval_samples_per_second": 2898.537,
-      "eval_steps_per_second": 14.209,
       "step": 45
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.6313713788986206,
-      "learning_rate": 0.00092,
-      "loss": 0.6347,
       "step": 60
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.6264792680740356,
-      "eval_runtime": 0.1397,
-      "eval_samples_per_second": 2920.306,
-      "eval_steps_per_second": 14.315,
       "step": 60
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.23377956449985504,
-      "learning_rate": 0.0009000000000000001,
-      "loss": 0.633,
       "step": 75
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.626091480255127,
-      "eval_runtime": 0.1403,
-      "eval_samples_per_second": 2908.355,
-      "eval_steps_per_second": 14.257,
       "step": 75
     },
     {
       "epoch": 6.0,
-      "grad_norm": 0.40783149003982544,
-      "learning_rate": 0.00088,
-      "loss": 0.6335,
       "step": 90
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.6233484745025635,
-      "eval_runtime": 0.1371,
-      "eval_samples_per_second": 2976.003,
-      "eval_steps_per_second": 14.588,
       "step": 90
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.4742684066295624,
-      "learning_rate": 0.00086,
-      "loss": 0.6321,
       "step": 105
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.6243536472320557,
-      "eval_runtime": 0.1448,
-      "eval_samples_per_second": 2817.356,
-      "eval_steps_per_second": 13.811,
       "step": 105
     },
     {
       "epoch": 8.0,
-      "grad_norm": 0.4599599540233612,
-      "learning_rate": 0.00084,
-      "loss": 0.6341,
       "step": 120
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.624885082244873,
-      "eval_runtime": 0.1371,
-      "eval_samples_per_second": 2975.46,
-      "eval_steps_per_second": 14.586,
       "step": 120
     },
     {
-      "epoch": 9.0,
-      "grad_norm": 0.6461894512176514,
-      "learning_rate": 0.00082,
-      "loss": 0.6283,
-      "step": 135
-    },
-    {
-      "epoch": 9.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.6298109889030457,
-      "eval_runtime": 0.142,
-      "eval_samples_per_second": 2872.907,
-      "eval_steps_per_second": 14.083,
-      "step": 135
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.2639431357383728,
-      "learning_rate": 0.0008,
-      "loss": 0.6357,
-      "step": 150
-    },
-    {
-      "epoch": 10.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.6238223314285278,
-      "eval_runtime": 0.1445,
-      "eval_samples_per_second": 2824.153,
-      "eval_steps_per_second": 13.844,
-      "step": 150
-    },
-    {
-      "epoch": 11.0,
-      "grad_norm": 0.7383787035942078,
-      "learning_rate": 0.0007800000000000001,
-      "loss": 0.635,
-      "step": 165
-    },
-    {
-      "epoch": 11.0,
-      "eval_accuracy": 0.6838235294117647,
-      "eval_combined_score": 0.7480253018237863,
-      "eval_f1": 0.8122270742358079,
-      "eval_loss": 0.6249233484268188,
-      "eval_runtime": 0.1377,
-      "eval_samples_per_second": 2962.771,
-      "eval_steps_per_second": 14.523,
-      "step": 165
-    },
-    {
-      "epoch": 11.0,
-      "step": 165,
-      "total_flos": 1058068929662976.0,
-      "train_loss": 0.6397525556159742,
-      "train_runtime": 32.0741,
-      "train_samples_per_second": 5718.002,
-      "train_steps_per_second": 23.383
     }
   ],
   "logging_steps": 1,
@@ -242,7 +188,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1058068929662976.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5935130715370178,
+  "best_model_checkpoint": "bert_tiny_lda_20_v1_mrpc/checkpoint-45",
+  "epoch": 8.0,
   "eval_steps": 500,
+  "global_step": 120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.7700666189193726,
+      "learning_rate": 4.9e-05,
+      "loss": 0.6315,
       "step": 15
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6862745098039216,
+      "eval_combined_score": 0.7492956126732218,
+      "eval_f1": 0.812316715542522,
+      "eval_loss": 0.6003513932228088,
+      "eval_runtime": 0.1367,
+      "eval_samples_per_second": 2984.452,
+      "eval_steps_per_second": 14.63,
       "step": 15
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.322261929512024,
+      "learning_rate": 4.8e-05,
+      "loss": 0.6013,
       "step": 30
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.6887254901960784,
+      "eval_combined_score": 0.7462174591629542,
+      "eval_f1": 0.8037094281298299,
+      "eval_loss": 0.5958060622215271,
+      "eval_runtime": 0.1396,
+      "eval_samples_per_second": 2921.977,
+      "eval_steps_per_second": 14.323,
       "step": 30
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.471887469291687,
+      "learning_rate": 4.7e-05,
+      "loss": 0.5707,
       "step": 45
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.6985294117647058,
+      "eval_combined_score": 0.7542106100554595,
+      "eval_f1": 0.8098918083462132,
+      "eval_loss": 0.5935130715370178,
+      "eval_runtime": 0.1333,
+      "eval_samples_per_second": 3060.988,
+      "eval_steps_per_second": 15.005,
       "step": 45
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.2280375957489014,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.5415,
       "step": 60
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.6985294117647058,
+      "eval_combined_score": 0.750864705882353,
+      "eval_f1": 0.8032000000000001,
+      "eval_loss": 0.6068510413169861,
+      "eval_runtime": 0.1378,
+      "eval_samples_per_second": 2961.536,
+      "eval_steps_per_second": 14.517,
       "step": 60
     },
     {
       "epoch": 5.0,
+      "grad_norm": 2.841067314147949,
+      "learning_rate": 4.5e-05,
+      "loss": 0.4866,
       "step": 75
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.678921568627451,
+      "eval_combined_score": 0.7263347048664026,
+      "eval_f1": 0.7737478411053541,
+      "eval_loss": 0.6273573040962219,
+      "eval_runtime": 0.1355,
+      "eval_samples_per_second": 3011.787,
+      "eval_steps_per_second": 14.764,
       "step": 75
     },
     {
       "epoch": 6.0,
+      "grad_norm": 7.474719524383545,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.397,
       "step": 90
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.6985294117647058,
+      "eval_combined_score": 0.7495888549909429,
+      "eval_f1": 0.8006482982171799,
+      "eval_loss": 0.7452647089958191,
+      "eval_runtime": 0.137,
+      "eval_samples_per_second": 2978.759,
+      "eval_steps_per_second": 14.602,
       "step": 90
     },
     {
       "epoch": 7.0,
+      "grad_norm": 6.474092483520508,
+      "learning_rate": 4.3e-05,
+      "loss": 0.3039,
       "step": 105
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.6519607843137255,
+      "eval_combined_score": 0.6968894830659537,
+      "eval_f1": 0.7418181818181818,
+      "eval_loss": 0.8151072859764099,
+      "eval_runtime": 0.1328,
+      "eval_samples_per_second": 3071.421,
+      "eval_steps_per_second": 15.056,
       "step": 105
     },
     {
       "epoch": 8.0,
+      "grad_norm": 3.6470448970794678,
+      "learning_rate": 4.2e-05,
+      "loss": 0.2217,
       "step": 120
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.6225490196078431,
+      "eval_combined_score": 0.6614690623331044,
+      "eval_f1": 0.7003891050583657,
+      "eval_loss": 0.986514687538147,
+      "eval_runtime": 0.1369,
+      "eval_samples_per_second": 2979.22,
+      "eval_steps_per_second": 14.604,
       "step": 120
     },
     {
+      "epoch": 8.0,
+      "step": 120,
+      "total_flos": 769504676118528.0,
+      "train_loss": 0.4692632933457693,
+      "train_runtime": 24.0661,
+      "train_samples_per_second": 7620.676,
+      "train_steps_per_second": 31.164
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 769504676118528.0,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null