epochmetrics/task-embedder

Browse files

Files changed (7) hide show

README.md +19 -19
all_results.json +13 -13
eval_results.json +7 -7
model.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +146 -146
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -13,14 +13,14 @@ model-index:
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/epoch-metrics/fine-tuning/runs/cpytiehg)
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/epoch-metrics/fine-tuning/runs/cpytiehg)
 # task-embedder
 This model is a fine-tuned version of [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.0565
-- Accuracy: 0.6332
 ## Model description
@@ -51,21 +51,21 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 5.6287        | 1.0   | 171  | 4.0112          | 0.3787   |
-| 3.7578        | 2.0   | 342  | 3.2693          | 0.4648   |
-| 3.2266        | 3.0   | 513  | 2.9233          | 0.5083   |
-| 2.9062        | 4.0   | 684  | 2.6422          | 0.5454   |
-| 2.7046        | 5.0   | 855  | 2.5057          | 0.5657   |
-| 2.5462        | 6.0   | 1026 | 2.3794          | 0.5850   |
-| 2.4348        | 7.0   | 1197 | 2.2906          | 0.5981   |
-| 2.3406        | 8.0   | 1368 | 2.2580          | 0.6043   |
-| 2.2544        | 9.0   | 1539 | 2.1751          | 0.6137   |
-| 2.2031        | 10.0  | 1710 | 2.1368          | 0.6225   |
-| 2.1693        | 11.0  | 1881 | 2.1410          | 0.6185   |
-| 2.1243        | 12.0  | 2052 | 2.0609          | 0.6291   |
-| 2.086         | 13.0  | 2223 | 2.0226          | 0.6354   |
-| 2.0771        | 14.0  | 2394 | 2.0461          | 0.6358   |
-| 2.0692        | 15.0  | 2565 | 2.0071          | 0.6430   |
 ### Framework versions

 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/epoch-metrics/fine-tuning/runs/dnlz2u2m)
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/epoch-metrics/fine-tuning/runs/dnlz2u2m)
 # task-embedder
 This model is a fine-tuned version of [sentence-transformers/all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.2775
+- Accuracy: 0.5753
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 5.6652        | 1.0   | 83   | 4.2850          | 0.3649   |
+| 3.9443        | 2.0   | 166  | 3.5407          | 0.4281   |
+| 3.3575        | 3.0   | 249  | 3.1092          | 0.4710   |
+| 3.084         | 4.0   | 332  | 2.8743          | 0.4962   |
+| 2.8764        | 5.0   | 415  | 2.7020          | 0.5211   |
+| 2.7367        | 6.0   | 498  | 2.6699          | 0.5188   |
+| 2.6275        | 7.0   | 581  | 2.5638          | 0.5404   |
+| 2.5257        | 8.0   | 664  | 2.5348          | 0.5430   |
+| 2.4742        | 9.0   | 747  | 2.4302          | 0.5591   |
+| 2.4238        | 10.0  | 830  | 2.4159          | 0.5577   |
+| 2.3516        | 11.0  | 913  | 2.3461          | 0.5741   |
+| 2.3115        | 12.0  | 996  | 2.3291          | 0.5728   |
+| 2.29          | 13.0  | 1079 | 2.3577          | 0.5698   |
+| 2.2412        | 14.0  | 1162 | 2.3473          | 0.5674   |
+| 2.245         | 15.0  | 1245 | 2.3113          | 0.5720   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
     "epoch": 15.0,
-    "eval_accuracy": 0.6331559235166568,
-    "eval_loss": 2.056515693664551,
-    "eval_runtime": 8.1808,
-    "eval_samples": 350,
-    "eval_samples_per_second": 42.783,
-    "eval_steps_per_second": 5.378,
-    "perplexity": 7.818679619302798,
-    "total_flos": 5397015001420800.0,
-    "train_loss": 2.701929186845151,
-    "train_runtime": 4016.0696,
-    "train_samples": 1367,
-    "train_samples_per_second": 5.106,
-    "train_steps_per_second": 0.639
 }

 {
     "epoch": 15.0,
+    "eval_accuracy": 0.575332866152768,
+    "eval_loss": 2.2775449752807617,
+    "eval_runtime": 3.8167,
+    "eval_samples": 164,
+    "eval_samples_per_second": 42.969,
+    "eval_steps_per_second": 5.502,
+    "perplexity": 9.752707856097555,
+    "total_flos": 2605727798784000.0,
+    "train_loss": 2.876972158654148,
+    "train_runtime": 3151.4946,
+    "train_samples": 660,
+    "train_samples_per_second": 3.141,
+    "train_steps_per_second": 0.395
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
     "epoch": 15.0,
-    "eval_accuracy": 0.6331559235166568,
-    "eval_loss": 2.056515693664551,
-    "eval_runtime": 8.1808,
-    "eval_samples": 350,
-    "eval_samples_per_second": 42.783,
-    "eval_steps_per_second": 5.378,
-    "perplexity": 7.818679619302798
 }

 {
     "epoch": 15.0,
+    "eval_accuracy": 0.575332866152768,
+    "eval_loss": 2.2775449752807617,
+    "eval_runtime": 3.8167,
+    "eval_samples": 164,
+    "eval_samples_per_second": 42.969,
+    "eval_steps_per_second": 5.502,
+    "perplexity": 9.752707856097555
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dcd47ba207a3f860f8ae2d2805dcf6163dae73d4d41393602f3b1985f1fa65a
 size 438097372

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb843bd317c02b0ffe6ea2191b10bf635670e51473572909500f0a010125d309
 size 438097372

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 15.0,
-    "total_flos": 5397015001420800.0,
-    "train_loss": 2.701929186845151,
-    "train_runtime": 4016.0696,
-    "train_samples": 1367,
-    "train_samples_per_second": 5.106,
-    "train_steps_per_second": 0.639
 }

 {
     "epoch": 15.0,
+    "total_flos": 2605727798784000.0,
+    "train_loss": 2.876972158654148,
+    "train_runtime": 3151.4946,
+    "train_samples": 660,
+    "train_samples_per_second": 3.141,
+    "train_steps_per_second": 0.395
 }

trainer_state.json CHANGED Viewed

@@ -1,265 +1,265 @@
 {
-  "best_metric": 2.0070760250091553,
-  "best_model_checkpoint": "epochmetrics/task-embedder/checkpoint-2565",
   "epoch": 15.0,
   "eval_steps": 1,
-  "global_step": 2565,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 6.0819196701049805,
       "learning_rate": 4.666666666666667e-05,
-      "loss": 5.6287,
-      "step": 171
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.3786586320237909,
-      "eval_loss": 4.011183738708496,
-      "eval_runtime": 13.9675,
-      "eval_samples_per_second": 25.058,
-      "eval_steps_per_second": 3.15,
-      "step": 171
     },
     {
       "epoch": 2.0,
-      "grad_norm": 5.902393341064453,
       "learning_rate": 4.3333333333333334e-05,
-      "loss": 3.7578,
-      "step": 342
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4647582296424634,
-      "eval_loss": 3.269301414489746,
-      "eval_runtime": 14.2546,
-      "eval_samples_per_second": 24.554,
-      "eval_steps_per_second": 3.087,
-      "step": 342
     },
     {
       "epoch": 3.0,
-      "grad_norm": 6.104726314544678,
       "learning_rate": 4e-05,
-      "loss": 3.2266,
-      "step": 513
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.508273029532564,
-      "eval_loss": 2.9233286380767822,
-      "eval_runtime": 8.5864,
-      "eval_samples_per_second": 40.762,
-      "eval_steps_per_second": 5.124,
-      "step": 513
     },
     {
       "epoch": 4.0,
-      "grad_norm": 5.560727119445801,
       "learning_rate": 3.6666666666666666e-05,
-      "loss": 2.9062,
-      "step": 684
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5453717994380466,
-      "eval_loss": 2.642239809036255,
-      "eval_runtime": 8.5093,
-      "eval_samples_per_second": 41.131,
-      "eval_steps_per_second": 5.171,
-      "step": 684
     },
     {
       "epoch": 5.0,
-      "grad_norm": 5.642611980438232,
       "learning_rate": 3.3333333333333335e-05,
-      "loss": 2.7046,
-      "step": 855
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.5657459867799811,
-      "eval_loss": 2.505657434463501,
-      "eval_runtime": 8.4686,
-      "eval_samples_per_second": 41.329,
-      "eval_steps_per_second": 5.196,
-      "step": 855
     },
     {
       "epoch": 6.0,
-      "grad_norm": 5.382541656494141,
       "learning_rate": 3e-05,
-      "loss": 2.5462,
-      "step": 1026
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.5850446167634338,
-      "eval_loss": 2.3794305324554443,
-      "eval_runtime": 8.6097,
-      "eval_samples_per_second": 40.652,
-      "eval_steps_per_second": 5.111,
-      "step": 1026
     },
     {
       "epoch": 7.0,
-      "grad_norm": 5.883482933044434,
       "learning_rate": 2.6666666666666667e-05,
-      "loss": 2.4348,
-      "step": 1197
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.5981030022732617,
-      "eval_loss": 2.290560722351074,
-      "eval_runtime": 14.2401,
-      "eval_samples_per_second": 24.579,
-      "eval_steps_per_second": 3.09,
-      "step": 1197
     },
     {
       "epoch": 8.0,
-      "grad_norm": 4.892796993255615,
       "learning_rate": 2.3333333333333336e-05,
-      "loss": 2.3406,
-      "step": 1368
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.6042614409580466,
-      "eval_loss": 2.2579710483551025,
-      "eval_runtime": 14.1291,
-      "eval_samples_per_second": 24.772,
-      "eval_steps_per_second": 3.114,
-      "step": 1368
     },
     {
       "epoch": 9.0,
-      "grad_norm": 5.444692611694336,
       "learning_rate": 2e-05,
-      "loss": 2.2544,
-      "step": 1539
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.6137461398368833,
-      "eval_loss": 2.1750903129577637,
-      "eval_runtime": 18.0466,
-      "eval_samples_per_second": 19.394,
-      "eval_steps_per_second": 2.438,
-      "step": 1539
     },
     {
       "epoch": 10.0,
-      "grad_norm": 5.572258949279785,
       "learning_rate": 1.6666666666666667e-05,
-      "loss": 2.2031,
-      "step": 1710
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.6225209429183713,
-      "eval_loss": 2.136831045150757,
-      "eval_runtime": 8.6198,
-      "eval_samples_per_second": 40.604,
-      "eval_steps_per_second": 5.105,
-      "step": 1710
     },
     {
       "epoch": 11.0,
-      "grad_norm": 5.637876510620117,
       "learning_rate": 1.3333333333333333e-05,
-      "loss": 2.1693,
-      "step": 1881
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.6184971098265896,
-      "eval_loss": 2.140977144241333,
-      "eval_runtime": 8.6333,
-      "eval_samples_per_second": 40.541,
-      "eval_steps_per_second": 5.097,
-      "step": 1881
     },
     {
       "epoch": 12.0,
-      "grad_norm": 5.16227388381958,
       "learning_rate": 1e-05,
-      "loss": 2.1243,
-      "step": 2052
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.6290763561437572,
-      "eval_loss": 2.0609424114227295,
-      "eval_runtime": 8.8768,
-      "eval_samples_per_second": 39.429,
-      "eval_steps_per_second": 4.957,
-      "step": 2052
     },
     {
       "epoch": 13.0,
-      "grad_norm": 5.17201566696167,
       "learning_rate": 6.666666666666667e-06,
-      "loss": 2.086,
-      "step": 2223
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.6354386788761055,
-      "eval_loss": 2.0226352214813232,
-      "eval_runtime": 9.1353,
-      "eval_samples_per_second": 38.313,
-      "eval_steps_per_second": 4.817,
-      "step": 2223
     },
     {
       "epoch": 14.0,
-      "grad_norm": 5.382483959197998,
       "learning_rate": 3.3333333333333333e-06,
-      "loss": 2.0771,
-      "step": 2394
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.6357628841792445,
-      "eval_loss": 2.046103000640869,
-      "eval_runtime": 15.2839,
-      "eval_samples_per_second": 22.9,
-      "eval_steps_per_second": 2.879,
-      "step": 2394
     },
     {
       "epoch": 15.0,
-      "grad_norm": 5.431705474853516,
       "learning_rate": 0.0,
-      "loss": 2.0692,
-      "step": 2565
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.6430424528301887,
-      "eval_loss": 2.0070760250091553,
-      "eval_runtime": 13.9029,
-      "eval_samples_per_second": 25.175,
-      "eval_steps_per_second": 3.165,
-      "step": 2565
     },
     {
       "epoch": 15.0,
-      "step": 2565,
-      "total_flos": 5397015001420800.0,
-      "train_loss": 2.701929186845151,
-      "train_runtime": 4016.0696,
-      "train_samples_per_second": 5.106,
-      "train_steps_per_second": 0.639
     }
   ],
   "logging_steps": 1,
-  "max_steps": 2565,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 15,
   "save_steps": 1,
@@ -275,7 +275,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5397015001420800.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.3113090991973877,
+  "best_model_checkpoint": "epochmetrics/task-embedder/checkpoint-1245",
   "epoch": 15.0,
   "eval_steps": 1,
+  "global_step": 1245,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 6.888462066650391,
       "learning_rate": 4.666666666666667e-05,
+      "loss": 5.6652,
+      "step": 83
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.36489910020092603,
+      "eval_loss": 4.285048484802246,
+      "eval_runtime": 9.4538,
+      "eval_samples_per_second": 17.348,
+      "eval_steps_per_second": 2.221,
+      "step": 83
     },
     {
       "epoch": 2.0,
+      "grad_norm": 7.599656581878662,
       "learning_rate": 4.3333333333333334e-05,
+      "loss": 3.9443,
+      "step": 166
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.4281380027739251,
+      "eval_loss": 3.5406606197357178,
+      "eval_runtime": 9.4735,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 2.217,
+      "step": 166
     },
     {
       "epoch": 3.0,
+      "grad_norm": 7.9922637939453125,
       "learning_rate": 4e-05,
+      "loss": 3.3575,
+      "step": 249
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.4709654748308882,
+      "eval_loss": 3.109172821044922,
+      "eval_runtime": 10.2035,
+      "eval_samples_per_second": 16.073,
+      "eval_steps_per_second": 2.058,
+      "step": 249
     },
     {
       "epoch": 4.0,
+      "grad_norm": 7.56485652923584,
       "learning_rate": 3.6666666666666666e-05,
+      "loss": 3.084,
+      "step": 332
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.4962124510230736,
+      "eval_loss": 2.8743200302124023,
+      "eval_runtime": 9.3602,
+      "eval_samples_per_second": 17.521,
+      "eval_steps_per_second": 2.244,
+      "step": 332
     },
     {
       "epoch": 5.0,
+      "grad_norm": 7.547119617462158,
       "learning_rate": 3.3333333333333335e-05,
+      "loss": 2.8764,
+      "step": 415
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.5210972307154713,
+      "eval_loss": 2.7019972801208496,
+      "eval_runtime": 10.277,
+      "eval_samples_per_second": 15.958,
+      "eval_steps_per_second": 2.043,
+      "step": 415
     },
     {
       "epoch": 6.0,
+      "grad_norm": 6.975924968719482,
       "learning_rate": 3e-05,
+      "loss": 2.7367,
+      "step": 498
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.5187872505830526,
+      "eval_loss": 2.669877767562866,
+      "eval_runtime": 3.8263,
+      "eval_samples_per_second": 42.861,
+      "eval_steps_per_second": 5.488,
+      "step": 498
     },
     {
       "epoch": 7.0,
+      "grad_norm": 7.427117347717285,
       "learning_rate": 2.6666666666666667e-05,
+      "loss": 2.6275,
+      "step": 581
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.5403870967741935,
+      "eval_loss": 2.5638315677642822,
+      "eval_runtime": 3.776,
+      "eval_samples_per_second": 43.433,
+      "eval_steps_per_second": 5.562,
+      "step": 581
     },
     {
       "epoch": 8.0,
+      "grad_norm": 7.4915266036987305,
       "learning_rate": 2.3333333333333336e-05,
+      "loss": 2.5257,
+      "step": 664
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.5430055462628752,
+      "eval_loss": 2.5348384380340576,
+      "eval_runtime": 3.924,
+      "eval_samples_per_second": 41.794,
+      "eval_steps_per_second": 5.352,
+      "step": 664
     },
     {
       "epoch": 9.0,
+      "grad_norm": 7.47868013381958,
       "learning_rate": 2e-05,
+      "loss": 2.4742,
+      "step": 747
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.5590811583839829,
+      "eval_loss": 2.4301819801330566,
+      "eval_runtime": 3.7824,
+      "eval_samples_per_second": 43.359,
+      "eval_steps_per_second": 5.552,
+      "step": 747
     },
     {
       "epoch": 10.0,
+      "grad_norm": 7.228312015533447,
       "learning_rate": 1.6666666666666667e-05,
+      "loss": 2.4238,
+      "step": 830
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.5576721426074799,
+      "eval_loss": 2.4159433841705322,
+      "eval_runtime": 3.7919,
+      "eval_samples_per_second": 43.251,
+      "eval_steps_per_second": 5.538,
+      "step": 830
     },
     {
       "epoch": 11.0,
+      "grad_norm": 7.564913272857666,
       "learning_rate": 1.3333333333333333e-05,
+      "loss": 2.3516,
+      "step": 913
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.5740578439964943,
+      "eval_loss": 2.3461461067199707,
+      "eval_runtime": 3.8232,
+      "eval_samples_per_second": 42.896,
+      "eval_steps_per_second": 5.493,
+      "step": 913
     },
     {
       "epoch": 12.0,
+      "grad_norm": 7.104005336761475,
       "learning_rate": 1e-05,
+      "loss": 2.3115,
+      "step": 996
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.572778166550035,
+      "eval_loss": 2.329103469848633,
+      "eval_runtime": 3.8201,
+      "eval_samples_per_second": 42.93,
+      "eval_steps_per_second": 5.497,
+      "step": 996
     },
     {
       "epoch": 13.0,
+      "grad_norm": 7.211333751678467,
       "learning_rate": 6.666666666666667e-06,
+      "loss": 2.29,
+      "step": 1079
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.5698073370282396,
+      "eval_loss": 2.3577311038970947,
+      "eval_runtime": 3.8954,
+      "eval_samples_per_second": 42.101,
+      "eval_steps_per_second": 5.391,
+      "step": 1079
     },
     {
       "epoch": 14.0,
+      "grad_norm": 7.1609063148498535,
       "learning_rate": 3.3333333333333333e-06,
+      "loss": 2.2412,
+      "step": 1162
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.5673802421477452,
+      "eval_loss": 2.347292423248291,
+      "eval_runtime": 3.8169,
+      "eval_samples_per_second": 42.967,
+      "eval_steps_per_second": 5.502,
+      "step": 1162
     },
     {
       "epoch": 15.0,
+      "grad_norm": 6.575444221496582,
       "learning_rate": 0.0,
+      "loss": 2.245,
+      "step": 1245
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.5719677022994558,
+      "eval_loss": 2.3113090991973877,
+      "eval_runtime": 3.8203,
+      "eval_samples_per_second": 42.928,
+      "eval_steps_per_second": 5.497,
+      "step": 1245
     },
     {
       "epoch": 15.0,
+      "step": 1245,
+      "total_flos": 2605727798784000.0,
+      "train_loss": 2.876972158654148,
+      "train_runtime": 3151.4946,
+      "train_samples_per_second": 3.141,
+      "train_steps_per_second": 0.395
     }
   ],
   "logging_steps": 1,
+  "max_steps": 1245,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 15,
   "save_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2605727798784000.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4fb11e754eb9b0cbb02a9fe5c043c7d02b1a27c6cb263e621b2865fa7ba734c
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:efb5343939497c2638a2c01c51241b6b8bee97a03d13857293cf84a9fe7f70e3
 size 5176