Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +28 -15
all_results.json +12 -10
config.json +5 -5
eval_results.json +8 -6
pytorch_model.bin +1 -1
tokenizer.json +2 -2
train_results.json +5 -5
trainer_state.json +1298 -104
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,13 +1,32 @@
 ---
 license: apache-2.0
 base_model: bert-large-cased
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: bert-large-qqp
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,10 +34,12 @@ should probably proofread and complete it, then remove this comment. -->
 # bert-large-qqp
-This model is a fine-tuned version of [bert-large-cased](https://huggingface.co/bert-large-cased) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2742
-- Accuracy: 0.9116
 ## Model description
@@ -37,24 +58,16 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
 - train_batch_size: 16
-- eval_batch_size: 32
 - seed: 42
-- gradient_accumulation_steps: 8
-- total_train_batch_size: 128
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss | Accuracy |
-|:-------------:|:-----:|:-----:|:---------------:|:--------:|
-| 0.2866        | 1.0   | 2842  | 0.2589          | 0.8891   |
-| 0.2022        | 2.0   | 5685  | 0.2509          | 0.8970   |
-| 0.1383        | 3.0   | 8527  | 0.2721          | 0.9083   |
-| 0.0938        | 4.0   | 11368 | 0.2742          | 0.9116   |
 ### Framework versions

 ---
+language:
+- en
 license: apache-2.0
 base_model: bert-large-cased
 tags:
 - generated_from_trainer
+datasets:
+- glue
 metrics:
 - accuracy
+- f1
 model-index:
 - name: bert-large-qqp
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE QQP
+      type: glue
+      args: qqp
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.9132574820677715
+    - name: F1
+      type: f1
+      value: 0.8825794354973717
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # bert-large-qqp
+This model is a fine-tuned version of [bert-large-cased](https://huggingface.co/bert-large-cased) on the GLUE QQP dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4196
+- Accuracy: 0.9133
+- F1: 0.8826
+- Combined Score: 0.8979
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
 - train_batch_size: 16
+- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 5.0
 ### Training results
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,16 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.9116497650259708,
-    "eval_loss": 0.2742404043674469,
-    "eval_runtime": 227.3198,
     "eval_samples": 40430,
-    "eval_samples_per_second": 177.855,
-    "eval_steps_per_second": 5.56,
-    "train_loss": 0.19540013602550058,
-    "train_runtime": 25859.9259,
     "train_samples": 363846,
-    "train_samples_per_second": 56.28,
-    "train_steps_per_second": 0.44
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.9132574820677715,
+    "eval_combined_score": 0.8979184587825716,
+    "eval_f1": 0.8825794354973717,
+    "eval_loss": 0.4195607602596283,
+    "eval_runtime": 104.4175,
     "eval_samples": 40430,
+    "eval_samples_per_second": 387.196,
+    "eval_steps_per_second": 48.402,
+    "train_loss": 0.19827925553449116,
+    "train_runtime": 10419.4099,
     "train_samples": 363846,
+    "train_samples_per_second": 174.6,
+    "train_steps_per_second": 10.913
 }

config.json CHANGED Viewed

@@ -6,20 +6,20 @@
   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "directionality": "bidi",
-  "finetuning_task": "text-classification",
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,
   "id2label": {
-    "0": "0",
-    "1": "1"
   },
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "label2id": {
-    "0": 0,
-    "1": 1
   },
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,

   "attention_probs_dropout_prob": 0.1,
   "classifier_dropout": null,
   "directionality": "bidi",
+  "finetuning_task": "qqp",
   "gradient_checkpointing": false,
   "hidden_act": "gelu",
   "hidden_dropout_prob": 0.1,
   "hidden_size": 1024,
   "id2label": {
+    "0": "not_duplicate",
+    "1": "duplicate"
   },
   "initializer_range": 0.02,
   "intermediate_size": 4096,
   "label2id": {
+    "duplicate": 1,
+    "not_duplicate": 0
   },
   "layer_norm_eps": 1e-12,
   "max_position_embeddings": 512,

eval_results.json CHANGED Viewed

@@ -1,9 +1,11 @@
 {
-    "epoch": 4.0,
-    "eval_accuracy": 0.9116497650259708,
-    "eval_loss": 0.2742404043674469,
-    "eval_runtime": 227.3198,
     "eval_samples": 40430,
-    "eval_samples_per_second": 177.855,
-    "eval_steps_per_second": 5.56
 }

 {
+    "epoch": 5.0,
+    "eval_accuracy": 0.9132574820677715,
+    "eval_combined_score": 0.8979184587825716,
+    "eval_f1": 0.8825794354973717,
+    "eval_loss": 0.4195607602596283,
+    "eval_runtime": 104.4175,
     "eval_samples": 40430,
+    "eval_samples_per_second": 387.196,
+    "eval_steps_per_second": 48.402
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d4f373f92f9ece399f52643bc7c1f758aa3ac529e1b6644b6fab279d496ac8e
 size 1334459697

 version https://git-lfs.github.com/spec/v1
+oid sha256:206f6341cd568a49e40723864940585e690a707fdf56f6b40eb13933dc4d075e
 size 1334459697

tokenizer.json CHANGED Viewed

@@ -2,13 +2,13 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 512,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
-      "Fixed": 512
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 128,
     "strategy": "LongestFirst",
     "stride": 0
   },
   "padding": {
     "strategy": {
+      "Fixed": 128
     },
     "direction": "Right",
     "pad_to_multiple_of": null,

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.19540013602550058,
-    "train_runtime": 25859.9259,
     "train_samples": 363846,
-    "train_samples_per_second": 56.28,
-    "train_steps_per_second": 0.44
 }

 {
+    "epoch": 5.0,
+    "train_loss": 0.19827925553449116,
+    "train_runtime": 10419.4099,
     "train_samples": 363846,
+    "train_samples_per_second": 174.6,
+    "train_steps_per_second": 10.913
 }

trainer_state.json CHANGED Viewed

@@ -1,193 +1,1387 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.999120531199156,
-  "global_step": 11368,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.18,
-      "learning_rate": 4.7822836030964113e-05,
-      "loss": 0.452,
       "step": 500
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 4.5628078817733994e-05,
-      "loss": 0.335,
       "step": 1000
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 4.342892329345531e-05,
-      "loss": 0.3035,
       "step": 1500
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 4.1238564391273755e-05,
-      "loss": 0.3312,
       "step": 2000
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 3.9039408866995074e-05,
-      "loss": 0.2866,
       "step": 2500
     },
     {
-      "epoch": 1.0,
-      "eval_accuracy": 0.8891169923324265,
-      "eval_loss": 0.2588575780391693,
-      "eval_runtime": 228.3833,
-      "eval_samples_per_second": 177.027,
-      "eval_steps_per_second": 5.535,
-      "step": 2842
     },
     {
       "epoch": 1.06,
-      "learning_rate": 3.684025334271639e-05,
-      "loss": 0.2468,
-      "step": 3000
     },
     {
       "epoch": 1.23,
-      "learning_rate": 3.4641097818437726e-05,
-      "loss": 0.2033,
-      "step": 3500
     },
     {
       "epoch": 1.41,
-      "learning_rate": 3.2441942294159045e-05,
-      "loss": 0.249,
-      "step": 4000
     },
     {
       "epoch": 1.58,
-      "learning_rate": 3.0242786769880365e-05,
-      "loss": 0.2109,
-      "step": 4500
     },
     {
       "epoch": 1.76,
-      "learning_rate": 2.8043631245601694e-05,
-      "loss": 0.2063,
-      "step": 5000
     },
     {
       "epoch": 1.93,
-      "learning_rate": 2.5844475721323013e-05,
-      "loss": 0.2022,
-      "step": 5500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8969577046747464,
-      "eval_loss": 0.2509480118751526,
-      "eval_runtime": 228.2046,
-      "eval_samples_per_second": 177.166,
-      "eval_steps_per_second": 5.539,
-      "step": 5685
     },
     {
       "epoch": 2.11,
-      "learning_rate": 2.3645320197044336e-05,
-      "loss": 0.1695,
-      "step": 6000
     },
     {
       "epoch": 2.29,
-      "learning_rate": 2.144616467276566e-05,
-      "loss": 0.1429,
-      "step": 6500
     },
     {
       "epoch": 2.46,
-      "learning_rate": 1.924700914848698e-05,
-      "loss": 0.1449,
-      "step": 7000
     },
     {
       "epoch": 2.64,
-      "learning_rate": 1.7047853624208304e-05,
-      "loss": 0.143,
-      "step": 7500
     },
     {
       "epoch": 2.81,
-      "learning_rate": 1.4848698099929629e-05,
-      "loss": 0.1337,
-      "step": 8000
     },
     {
       "epoch": 2.99,
-      "learning_rate": 1.264954257565095e-05,
-      "loss": 0.1383,
-      "step": 8500
     },
     {
-      "epoch": 3.0,
-      "eval_accuracy": 0.9082611921840218,
-      "eval_loss": 0.2720527648925781,
-      "eval_runtime": 228.115,
-      "eval_samples_per_second": 177.235,
-      "eval_steps_per_second": 5.541,
-      "step": 8527
     },
     {
       "epoch": 3.17,
-      "learning_rate": 1.0450387051372274e-05,
-      "loss": 0.0984,
-      "step": 9000
     },
     {
       "epoch": 3.34,
-      "learning_rate": 8.251231527093597e-06,
-      "loss": 0.094,
-      "step": 9500
     },
     {
       "epoch": 3.52,
-      "learning_rate": 6.052076002814919e-06,
-      "loss": 0.0955,
-      "step": 10000
     },
     {
       "epoch": 3.69,
-      "learning_rate": 3.852920478536242e-06,
-      "loss": 0.095,
-      "step": 10500
     },
     {
       "epoch": 3.87,
-      "learning_rate": 1.6537649542575654e-06,
-      "loss": 0.0938,
-      "step": 11000
     },
     {
-      "epoch": 4.0,
-      "eval_accuracy": 0.9116497650259708,
-      "eval_loss": 0.2742404043674469,
-      "eval_runtime": 228.0285,
-      "eval_samples_per_second": 177.302,
-      "eval_steps_per_second": 5.543,
-      "step": 11368
     },
     {
       "epoch": 4.0,
-      "step": 11368,
-      "total_flos": 1.3560290965631263e+18,
-      "train_loss": 0.19540013602550058,
-      "train_runtime": 25859.9259,
-      "train_samples_per_second": 56.28,
-      "train_steps_per_second": 0.44
     }
   ],
-  "max_steps": 11368,
-  "num_train_epochs": 4,
-  "total_flos": 1.3560290965631263e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "global_step": 113705,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.02,
+      "learning_rate": 1.991258080119608e-05,
+      "loss": 0.4639,
       "step": 500
     },
     {
+      "epoch": 0.04,
+      "learning_rate": 1.982480981487182e-05,
+      "loss": 0.4082,
       "step": 1000
     },
     {
+      "epoch": 0.07,
+      "learning_rate": 1.973686293478739e-05,
+      "loss": 0.3774,
       "step": 1500
     },
     {
+      "epoch": 0.09,
+      "learning_rate": 1.964891605470296e-05,
+      "loss": 0.3657,
       "step": 2000
     },
     {
+      "epoch": 0.11,
+      "learning_rate": 1.9560969174618532e-05,
+      "loss": 0.3592,
       "step": 2500
     },
     {
+      "epoch": 0.13,
+      "learning_rate": 1.9473022294534103e-05,
+      "loss": 0.3387,
+      "step": 3000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 1.9385075414449674e-05,
+      "loss": 0.33,
+      "step": 3500
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 1.9297128534365245e-05,
+      "loss": 0.3314,
+      "step": 4000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9209181654280816e-05,
+      "loss": 0.3259,
+      "step": 4500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1.9121410667956555e-05,
+      "loss": 0.3168,
+      "step": 5000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1.9033815575392464e-05,
+      "loss": 0.3161,
+      "step": 5500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 1.8945868695308035e-05,
+      "loss": 0.3235,
+      "step": 6000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.8857921815223606e-05,
+      "loss": 0.3226,
+      "step": 6500
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 1.8769974935139177e-05,
+      "loss": 0.3136,
+      "step": 7000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.8682028055054748e-05,
+      "loss": 0.3053,
+      "step": 7500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.8594257068730488e-05,
+      "loss": 0.3108,
+      "step": 8000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8506486082406228e-05,
+      "loss": 0.3164,
+      "step": 8500
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.84185392023218e-05,
+      "loss": 0.3093,
+      "step": 9000
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 1.833059232223737e-05,
+      "loss": 0.3174,
+      "step": 9500
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 1.8242645442152944e-05,
+      "loss": 0.3108,
+      "step": 10000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 1.815469856206851e-05,
+      "loss": 0.3191,
+      "step": 10500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 1.8066751681984082e-05,
+      "loss": 0.3196,
+      "step": 11000
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 1.7978804801899653e-05,
+      "loss": 0.3,
+      "step": 11500
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.7890857921815227e-05,
+      "loss": 0.3108,
+      "step": 12000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 1.7802911041730798e-05,
+      "loss": 0.2959,
+      "step": 12500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.7715140055406538e-05,
+      "loss": 0.316,
+      "step": 13000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 1.7627193175322105e-05,
+      "loss": 0.3083,
+      "step": 13500
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 1.753942218899785e-05,
+      "loss": 0.3106,
+      "step": 14000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.7451475308913416e-05,
+      "loss": 0.3212,
+      "step": 14500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.7363528428828987e-05,
+      "loss": 0.317,
+      "step": 15000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.727558154874456e-05,
+      "loss": 0.294,
+      "step": 15500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.7187634668660132e-05,
+      "loss": 0.3095,
+      "step": 16000
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.70996877885757e-05,
+      "loss": 0.301,
+      "step": 16500
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.701174090849127e-05,
+      "loss": 0.3031,
+      "step": 17000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.692396992216701e-05,
+      "loss": 0.3063,
+      "step": 17500
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.683619893584275e-05,
+      "loss": 0.3068,
+      "step": 18000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.674825205575832e-05,
+      "loss": 0.3033,
+      "step": 18500
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 1.6660305175673895e-05,
+      "loss": 0.2883,
+      "step": 19000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.6572358295589466e-05,
+      "loss": 0.3163,
+      "step": 19500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.6484411415505037e-05,
+      "loss": 0.3099,
+      "step": 20000
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.6396464535420608e-05,
+      "loss": 0.3067,
+      "step": 20500
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 1.630851765533618e-05,
+      "loss": 0.2882,
+      "step": 21000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 1.622057077525175e-05,
+      "loss": 0.2885,
+      "step": 21500
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.613279978892749e-05,
+      "loss": 0.2953,
+      "step": 22000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.604485290884306e-05,
+      "loss": 0.2925,
+      "step": 22500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 1.595690602875863e-05,
+      "loss": 0.2615,
+      "step": 23000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 1.5868959148674202e-05,
+      "loss": 0.24,
+      "step": 23500
     },
     {
       "epoch": 1.06,
+      "learning_rate": 1.5781188162349942e-05,
+      "loss": 0.2509,
+      "step": 24000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 1.5693241282265513e-05,
+      "loss": 0.2507,
+      "step": 24500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1.5605294402181084e-05,
+      "loss": 0.252,
+      "step": 25000
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 1.5517523415856824e-05,
+      "loss": 0.2545,
+      "step": 25500
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.5429576535772395e-05,
+      "loss": 0.2599,
+      "step": 26000
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 1.5341629655687966e-05,
+      "loss": 0.2566,
+      "step": 26500
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 1.5253682775603538e-05,
+      "loss": 0.2484,
+      "step": 27000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.5165735895519107e-05,
+      "loss": 0.2432,
+      "step": 27500
     },
     {
       "epoch": 1.23,
+      "learning_rate": 1.5077789015434678e-05,
+      "loss": 0.2415,
+      "step": 28000
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 1.4989842135350249e-05,
+      "loss": 0.2489,
+      "step": 28500
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.4902071149025989e-05,
+      "loss": 0.2566,
+      "step": 29000
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.4814124268941562e-05,
+      "loss": 0.2382,
+      "step": 29500
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.4726177388857132e-05,
+      "loss": 0.2458,
+      "step": 30000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.4638230508772702e-05,
+      "loss": 0.2559,
+      "step": 30500
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.4550283628688272e-05,
+      "loss": 0.2402,
+      "step": 31000
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.4462336748603845e-05,
+      "loss": 0.2447,
+      "step": 31500
     },
     {
       "epoch": 1.41,
+      "learning_rate": 1.4374565762279585e-05,
+      "loss": 0.2605,
+      "step": 32000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.4286618882195156e-05,
+      "loss": 0.2605,
+      "step": 32500
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.4198672002110727e-05,
+      "loss": 0.2499,
+      "step": 33000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.4110725122026296e-05,
+      "loss": 0.2409,
+      "step": 33500
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 1.4022778241941868e-05,
+      "loss": 0.2371,
+      "step": 34000
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 1.393483136185744e-05,
+      "loss": 0.2496,
+      "step": 34500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.384688448177301e-05,
+      "loss": 0.2351,
+      "step": 35000
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 1.3758937601688583e-05,
+      "loss": 0.2348,
+      "step": 35500
     },
     {
       "epoch": 1.58,
+      "learning_rate": 1.3670990721604152e-05,
+      "loss": 0.2343,
+      "step": 36000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 1.3583043841519723e-05,
+      "loss": 0.2425,
+      "step": 36500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.3495096961435294e-05,
+      "loss": 0.2331,
+      "step": 37000
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.3407150081350866e-05,
+      "loss": 0.2353,
+      "step": 37500
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.3319203201266435e-05,
+      "loss": 0.2353,
+      "step": 38000
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 1.3231432214942177e-05,
+      "loss": 0.2304,
+      "step": 38500
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.3143485334857746e-05,
+      "loss": 0.2303,
+      "step": 39000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 1.3055714348533486e-05,
+      "loss": 0.2327,
+      "step": 39500
     },
     {
       "epoch": 1.76,
+      "learning_rate": 1.2967767468449057e-05,
+      "loss": 0.2417,
+      "step": 40000
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.287982058836463e-05,
+      "loss": 0.2443,
+      "step": 40500
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 1.27918737082802e-05,
+      "loss": 0.2372,
+      "step": 41000
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 1.2703926828195771e-05,
+      "loss": 0.2461,
+      "step": 41500
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 1.2616155841871511e-05,
+      "loss": 0.232,
+      "step": 42000
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.2528384855547251e-05,
+      "loss": 0.2371,
+      "step": 42500
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.2440437975462822e-05,
+      "loss": 0.2399,
+      "step": 43000
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.2352491095378391e-05,
+      "loss": 0.2299,
+      "step": 43500
     },
     {
       "epoch": 1.93,
+      "learning_rate": 1.2264544215293964e-05,
+      "loss": 0.2376,
+      "step": 44000
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 1.2176597335209535e-05,
+      "loss": 0.2448,
+      "step": 44500
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.2088650455125105e-05,
+      "loss": 0.2233,
+      "step": 45000
     },
     {
       "epoch": 2.0,
+      "learning_rate": 1.2000703575040678e-05,
+      "loss": 0.2241,
+      "step": 45500
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 1.1912756694956247e-05,
+      "loss": 0.1942,
+      "step": 46000
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.1824985708631987e-05,
+      "loss": 0.1831,
+      "step": 46500
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.1737038828547558e-05,
+      "loss": 0.1868,
+      "step": 47000
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.1649091948463129e-05,
+      "loss": 0.2034,
+      "step": 47500
     },
     {
       "epoch": 2.11,
+      "learning_rate": 1.1561145068378701e-05,
+      "loss": 0.1946,
+      "step": 48000
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 1.1473198188294272e-05,
+      "loss": 0.194,
+      "step": 48500
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 1.1385251308209841e-05,
+      "loss": 0.2068,
+      "step": 49000
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 1.1297304428125412e-05,
+      "loss": 0.1832,
+      "step": 49500
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.1209357548040985e-05,
+      "loss": 0.2023,
+      "step": 50000
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 1.1121586561716725e-05,
+      "loss": 0.1985,
+      "step": 50500
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.1033639681632296e-05,
+      "loss": 0.191,
+      "step": 51000
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 1.0945692801547867e-05,
+      "loss": 0.208,
+      "step": 51500
     },
     {
       "epoch": 2.29,
+      "learning_rate": 1.0857745921463436e-05,
+      "loss": 0.1998,
+      "step": 52000
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 1.0769799041379008e-05,
+      "loss": 0.1927,
+      "step": 52500
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 1.068185216129458e-05,
+      "loss": 0.2054,
+      "step": 53000
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 1.059390528121015e-05,
+      "loss": 0.2038,
+      "step": 53500
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 1.050613429488589e-05,
+      "loss": 0.193,
+      "step": 54000
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.0418187414801462e-05,
+      "loss": 0.1929,
+      "step": 54500
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.0330240534717032e-05,
+      "loss": 0.1936,
+      "step": 55000
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.024246954839277e-05,
+      "loss": 0.1928,
+      "step": 55500
     },
     {
       "epoch": 2.46,
+      "learning_rate": 1.0154522668308342e-05,
+      "loss": 0.1948,
+      "step": 56000
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 1.0066575788223913e-05,
+      "loss": 0.2021,
+      "step": 56500
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 9.978628908139484e-06,
+      "loss": 0.193,
+      "step": 57000
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 9.890682028055055e-06,
+      "loss": 0.2027,
+      "step": 57500
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 9.802911041730795e-06,
+      "loss": 0.2008,
+      "step": 58000
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 9.714964161646366e-06,
+      "loss": 0.2006,
+      "step": 58500
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 9.627017281561938e-06,
+      "loss": 0.1887,
+      "step": 59000
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 9.539070401477508e-06,
+      "loss": 0.1946,
+      "step": 59500
     },
     {
       "epoch": 2.64,
+      "learning_rate": 9.45112352139308e-06,
+      "loss": 0.1936,
+      "step": 60000
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 9.36317664130865e-06,
+      "loss": 0.1924,
+      "step": 60500
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 9.275229761224222e-06,
+      "loss": 0.184,
+      "step": 61000
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 9.187282881139791e-06,
+      "loss": 0.1768,
+      "step": 61500
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 9.099336001055364e-06,
+      "loss": 0.1845,
+      "step": 62000
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 9.011565014731104e-06,
+      "loss": 0.1965,
+      "step": 62500
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 8.923618134646674e-06,
+      "loss": 0.2004,
+      "step": 63000
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 8.835671254562245e-06,
+      "loss": 0.1911,
+      "step": 63500
     },
     {
       "epoch": 2.81,
+      "learning_rate": 8.747724374477816e-06,
+      "loss": 0.1842,
+      "step": 64000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 8.659777494393387e-06,
+      "loss": 0.1907,
+      "step": 64500
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 8.571830614308958e-06,
+      "loss": 0.1883,
+      "step": 65000
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 8.484059627984698e-06,
+      "loss": 0.1876,
+      "step": 65500
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 8.396112747900269e-06,
+      "loss": 0.1846,
+      "step": 66000
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 8.308341761576009e-06,
+      "loss": 0.1939,
+      "step": 66500
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 8.22039488149158e-06,
+      "loss": 0.1896,
+      "step": 67000
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 8.13244800140715e-06,
+      "loss": 0.1957,
+      "step": 67500
     },
     {
       "epoch": 2.99,
+      "learning_rate": 8.044501121322721e-06,
+      "loss": 0.1881,
+      "step": 68000
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 7.956554241238292e-06,
+      "loss": 0.1611,
+      "step": 68500
     },
     {
+      "epoch": 3.03,
+      "learning_rate": 7.868607361153865e-06,
+      "loss": 0.1423,
+      "step": 69000
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 7.780660481069434e-06,
+      "loss": 0.1419,
+      "step": 69500
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 7.692889494745175e-06,
+      "loss": 0.1384,
+      "step": 70000
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 7.6051185084209144e-06,
+      "loss": 0.1436,
+      "step": 70500
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 7.5171716283364845e-06,
+      "loss": 0.1357,
+      "step": 71000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 7.429224748252056e-06,
+      "loss": 0.1481,
+      "step": 71500
     },
     {
       "epoch": 3.17,
+      "learning_rate": 7.341277868167628e-06,
+      "loss": 0.1402,
+      "step": 72000
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 7.253330988083198e-06,
+      "loss": 0.142,
+      "step": 72500
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 7.16538410799877e-06,
+      "loss": 0.1518,
+      "step": 73000
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 7.07743722791434e-06,
+      "loss": 0.1507,
+      "step": 73500
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 6.9894903478299114e-06,
+      "loss": 0.1481,
+      "step": 74000
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 6.9015434677454815e-06,
+      "loss": 0.1415,
+      "step": 74500
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 6.813596587661053e-06,
+      "loss": 0.1392,
+      "step": 75000
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 6.725649707576625e-06,
+      "loss": 0.1374,
+      "step": 75500
     },
     {
       "epoch": 3.34,
+      "learning_rate": 6.637878721252364e-06,
+      "loss": 0.1434,
+      "step": 76000
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 6.549931841167935e-06,
+      "loss": 0.1423,
+      "step": 76500
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 6.4619849610835065e-06,
+      "loss": 0.1455,
+      "step": 77000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 6.374038080999077e-06,
+      "loss": 0.1464,
+      "step": 77500
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 6.286091200914648e-06,
+      "loss": 0.1461,
+      "step": 78000
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 6.198144320830219e-06,
+      "loss": 0.1385,
+      "step": 78500
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 6.11019744074579e-06,
+      "loss": 0.1474,
+      "step": 79000
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 6.022250560661361e-06,
+      "loss": 0.1498,
+      "step": 79500
     },
     {
       "epoch": 3.52,
+      "learning_rate": 5.934303680576932e-06,
+      "loss": 0.1375,
+      "step": 80000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 5.8465326942526725e-06,
+      "loss": 0.1407,
+      "step": 80500
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 5.7585858141682426e-06,
+      "loss": 0.1389,
+      "step": 81000
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 5.670638934083814e-06,
+      "loss": 0.139,
+      "step": 81500
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 5.582692053999384e-06,
+      "loss": 0.142,
+      "step": 82000
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 5.494921067675124e-06,
+      "loss": 0.1346,
+      "step": 82500
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 5.406974187590696e-06,
+      "loss": 0.1462,
+      "step": 83000
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 5.319027307506267e-06,
+      "loss": 0.131,
+      "step": 83500
     },
     {
       "epoch": 3.69,
+      "learning_rate": 5.231080427421838e-06,
+      "loss": 0.1475,
+      "step": 84000
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 5.1431335473374086e-06,
+      "loss": 0.137,
+      "step": 84500
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 5.0551866672529794e-06,
+      "loss": 0.1337,
+      "step": 85000
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 4.96723978716855e-06,
+      "loss": 0.1399,
+      "step": 85500
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 4.879292907084122e-06,
+      "loss": 0.1404,
+      "step": 86000
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 4.791346026999693e-06,
+      "loss": 0.1428,
+      "step": 86500
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 4.703399146915264e-06,
+      "loss": 0.1446,
+      "step": 87000
+    },
+    {
+      "epoch": 3.85,
+      "learning_rate": 4.615452266830835e-06,
+      "loss": 0.1384,
+      "step": 87500
     },
     {
       "epoch": 3.87,
+      "learning_rate": 4.5275053867464056e-06,
+      "loss": 0.1483,
+      "step": 88000
     },
     {
+      "epoch": 3.89,
+      "learning_rate": 4.4397344004221454e-06,
+      "loss": 0.1473,
+      "step": 88500
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 4.351787520337716e-06,
+      "loss": 0.1446,
+      "step": 89000
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 4.263840640253287e-06,
+      "loss": 0.1419,
+      "step": 89500
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 4.175893760168858e-06,
+      "loss": 0.133,
+      "step": 90000
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 4.087946880084429e-06,
+      "loss": 0.144,
+      "step": 90500
     },
     {
       "epoch": 4.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.1252,
+      "step": 91000
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 3.9122290136757405e-06,
+      "loss": 0.1003,
+      "step": 91500
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 3.8244580273514796e-06,
+      "loss": 0.0883,
+      "step": 92000
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 3.7365111472670513e-06,
+      "loss": 0.0914,
+      "step": 92500
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 3.648564267182622e-06,
+      "loss": 0.1104,
+      "step": 93000
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 3.560617387098193e-06,
+      "loss": 0.0859,
+      "step": 93500
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 3.472670507013764e-06,
+      "loss": 0.0992,
+      "step": 94000
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 3.384723626929335e-06,
+      "loss": 0.088,
+      "step": 94500
+    },
+    {
+      "epoch": 4.18,
+      "learning_rate": 3.296952640605075e-06,
+      "loss": 0.0973,
+      "step": 95000
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 3.209005760520646e-06,
+      "loss": 0.0972,
+      "step": 95500
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 3.121058880436217e-06,
+      "loss": 0.0971,
+      "step": 96000
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 3.0331120003517877e-06,
+      "loss": 0.096,
+      "step": 96500
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 2.9451651202673586e-06,
+      "loss": 0.1011,
+      "step": 97000
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 2.857394133943099e-06,
+      "loss": 0.094,
+      "step": 97500
+    },
+    {
+      "epoch": 4.31,
+      "learning_rate": 2.76944725385867e-06,
+      "loss": 0.0998,
+      "step": 98000
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 2.6815003737742407e-06,
+      "loss": 0.0833,
+      "step": 98500
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 2.5935534936898116e-06,
+      "loss": 0.103,
+      "step": 99000
+    },
+    {
+      "epoch": 4.38,
+      "learning_rate": 2.5056066136053824e-06,
+      "loss": 0.0897,
+      "step": 99500
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 2.4176597335209537e-06,
+      "loss": 0.1012,
+      "step": 100000
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 2.3297128534365246e-06,
+      "loss": 0.0923,
+      "step": 100500
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 2.2419418671122645e-06,
+      "loss": 0.0899,
+      "step": 101000
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 2.1539949870278354e-06,
+      "loss": 0.0842,
+      "step": 101500
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 2.0660481069434063e-06,
+      "loss": 0.0961,
+      "step": 102000
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 1.978101226858977e-06,
+      "loss": 0.0979,
+      "step": 102500
+    },
+    {
+      "epoch": 4.53,
+      "learning_rate": 1.890330240534717e-06,
+      "loss": 0.0957,
+      "step": 103000
+    },
+    {
+      "epoch": 4.55,
+      "learning_rate": 1.8025592542104569e-06,
+      "loss": 0.0897,
+      "step": 103500
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 1.7146123741260282e-06,
+      "loss": 0.0739,
+      "step": 104000
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 1.626665494041599e-06,
+      "loss": 0.094,
+      "step": 104500
+    },
+    {
+      "epoch": 4.62,
+      "learning_rate": 1.53871861395717e-06,
+      "loss": 0.0981,
+      "step": 105000
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 1.4507717338727408e-06,
+      "loss": 0.0828,
+      "step": 105500
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 1.3628248537883121e-06,
+      "loss": 0.0993,
+      "step": 106000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 1.274877973703883e-06,
+      "loss": 0.0916,
+      "step": 106500
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 1.1869310936194539e-06,
+      "loss": 0.1046,
+      "step": 107000
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 1.0991601072951938e-06,
+      "loss": 0.0912,
+      "step": 107500
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 1.0112132272107648e-06,
+      "loss": 0.0969,
+      "step": 108000
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 9.232663471263357e-07,
+      "loss": 0.0879,
+      "step": 108500
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 8.353194670419068e-07,
+      "loss": 0.0982,
+      "step": 109000
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 7.473725869574777e-07,
+      "loss": 0.0853,
+      "step": 109500
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 6.594257068730488e-07,
+      "loss": 0.0958,
+      "step": 110000
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 5.714788267886198e-07,
+      "loss": 0.1026,
+      "step": 110500
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 4.835319467041907e-07,
+      "loss": 0.0867,
+      "step": 111000
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 3.9558506661976173e-07,
+      "loss": 0.0976,
+      "step": 111500
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 3.076381865353327e-07,
+      "loss": 0.0966,
+      "step": 112000
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 2.1986720021107254e-07,
+      "loss": 0.0911,
+      "step": 112500
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 1.3209621388681237e-07,
+      "loss": 0.0931,
+      "step": 113000
+    },
+    {
+      "epoch": 4.99,
+      "learning_rate": 4.414933380238336e-08,
+      "loss": 0.0943,
+      "step": 113500
+    },
+    {
+      "epoch": 5.0,
+      "step": 113705,
+      "total_flos": 4.2384937352679936e+17,
+      "train_loss": 0.19827925553449116,
+      "train_runtime": 10419.4099,
+      "train_samples_per_second": 174.6,
+      "train_steps_per_second": 10.913
     }
   ],
+  "max_steps": 113705,
+  "num_train_epochs": 5,
+  "total_flos": 4.2384937352679936e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6b3b07c3dec46b8dd878852dc587cf5b72cb0b5e4253c7494dd60f4707417c9c
-size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:760fe693984347cb90ffd1b835dab78653fb190c76695d0548197b645f8c8c4d
+size 3963