update ckpt with 4+ epochs of training at 1e-3

Browse files

Files changed (6) hide show

config.json +1 -1
long-t5-tglobal-base-16384-booksum-V9-ft1-booksum_training_metadata.json +1 -0
pytorch_model.bin +1 -1
tokenizer_config.json +1 -1
trainer_state.json +333 -333
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "pszemraj/long-t5-tglobal-base-16384-booksum-V7.9",
   "architectures": [
     "LongT5ForConditionalGeneration"
   ],

 {
+  "_name_or_path": "pszemraj/long-t5-tglobal-base-16384-booksum-V9",
   "architectures": [
     "LongT5ForConditionalGeneration"
   ],

long-t5-tglobal-base-16384-booksum-V9-ft1-booksum_training_metadata.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"output_dir": "/content/drive/MyDrive/Programming/hf-trainer/long-t5-tglobal-base-16384-booksum-V9-ft1-booksum", "overwrite_output_dir": true, "do_train": false, "do_eval": false, "do_predict": false, "evaluation_strategy": "no", "prediction_loss_only": false, "per_device_train_batch_size": 1, "per_device_eval_batch_size": 1, "per_gpu_train_batch_size": "None", "per_gpu_eval_batch_size": "None", "gradient_accumulation_steps": 64, "eval_accumulation_steps": "None", "eval_delay": 0, "learning_rate": 0.0006, "weight_decay": 0.01, "adam_beta1": 0.9, "adam_beta2": 0.999, "adam_epsilon": 1e-08, "max_grad_norm": 0.3, "num_train_epochs": 2, "max_steps": -1, "lr_scheduler_type": "cosine", "warmup_ratio": 0.01, "warmup_steps": 0, "log_level": -1, "log_level_replica": -1, "log_on_each_node": true, "logging_dir": "/content/drive/MyDrive/Programming/hf-trainer/long-t5-tglobal-base-16384-booksum-V9-ft1-booksum/logs", "logging_strategy": "steps", "logging_first_step": false, "logging_steps": 2, "logging_nan_inf_filter": true, "save_strategy": "steps", "save_steps": 25, "save_total_limit": 1, "save_on_each_node": false, "no_cuda": false, "seed": 42, "data_seed": "None", "jit_mode_eval": false, "use_ipex": false, "bf16": false, "fp16": true, "fp16_opt_level": "O1", "half_precision_backend": "cuda_amp", "bf16_full_eval": false, "fp16_full_eval": false, "tf32": "None", "local_rank": 0, "xpu_backend": "None", "tpu_num_cores": "None", "tpu_metrics_debug": false, "debug": "[]", "dataloader_drop_last": false, "eval_steps": "None", "dataloader_num_workers": 0, "past_index": -1, "run_name": "/content/drive/MyDrive/Programming/hf-trainer/long-t5-tglobal-base-16384-booksum-V9-ft1-booksum", "disable_tqdm": false, "remove_unused_columns": true, "label_names": "None", "load_best_model_at_end": false, "metric_for_best_model": "None", "greater_is_better": "None", "ignore_data_skip": false, "sharded_ddp": "[]", "fsdp": "[]", "fsdp_min_num_params": 0, "deepspeed": "/content/ds_config_zero2.json", "label_smoothing_factor": 0.0, "optim": "adamw_hf", "adafactor": false, "group_by_length": false, "length_column_name": "length", "report_to": "['tensorboard']", "ddp_find_unused_parameters": "None", "ddp_bucket_cap_mb": "None", "dataloader_pin_memory": true, "skip_memory_metrics": true, "use_legacy_prediction_loop": false, "push_to_hub": true, "resume_from_checkpoint": "None", "hub_model_id": "long-t5-tglobal-base-16384-booksum-V9-ft1-booksum", "hub_strategy": "end", "hub_token": "<HUB_TOKEN>", "hub_private_repo": true, "gradient_checkpointing": true, "include_inputs_for_metrics": false, "fp16_backend": "auto", "push_to_hub_model_id": "None", "push_to_hub_organization": "None", "push_to_hub_token": "<PUSH_TO_HUB_TOKEN>", "_n_gpu": 1, "mp_parameters": "", "auto_find_batch_size": false, "full_determinism": false, "torchdynamo": "None", "ray_scope": "last", "sortish_sampler": false, "predict_with_generate": false, "generation_max_length": "None", "generation_num_beams": "None", "train_batch_size": 1, "eval_batch_size": 1, "configs_src": "long-t5-tglobal-base-16384-booksum-V9-ft1-booksum"}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b05f4b28e354b9cc1c758956764bfd54d590226a1dfbe604856ded1dbafd148e
 size 990388907

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a5e0e5a85417bcf902a0e8aedc108e1cbb5c20e265454aa69ca70ab8408c309
 size 990388907

tokenizer_config.json CHANGED Viewed

@@ -103,7 +103,7 @@
   ],
   "eos_token": "</s>",
   "extra_ids": 100,
-  "name_or_path": "pszemraj/long-t5-tglobal-base-16384-booksum-V7.9",
   "pad_token": "<pad>",
   "special_tokens_map_file": null,
   "tokenizer_class": "T5Tokenizer",

   ],
   "eos_token": "</s>",
   "extra_ids": 100,
+  "name_or_path": "pszemraj/long-t5-tglobal-base-16384-booksum-V9",
   "pad_token": "<pad>",
   "special_tokens_map_file": null,
   "tokenizer_class": "T5Tokenizer",

trainer_state.json CHANGED Viewed

@@ -9,1007 +9,1007 @@
   "log_history": [
     {
       "epoch": 0.01,
-      "learning_rate": 0.0005,
-      "loss": 2.3487,
       "step": 2
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.001,
-      "loss": 2.3946,
       "step": 4
     },
     {
       "epoch": 0.04,
-      "learning_rate": 0.0009999071352056674,
-      "loss": 2.4059,
       "step": 6
     },
     {
       "epoch": 0.05,
-      "learning_rate": 0.00099962857531815,
-      "loss": 2.4061,
       "step": 8
     },
     {
       "epoch": 0.06,
-      "learning_rate": 0.000999164423811074,
-      "loss": 2.3801,
       "step": 10
     },
     {
       "epoch": 0.07,
-      "learning_rate": 0.0009985148530977765,
-      "loss": 2.4389,
       "step": 12
     },
     {
       "epoch": 0.08,
-      "learning_rate": 0.0009976801044672607,
-      "loss": 2.4007,
       "step": 14
     },
     {
       "epoch": 0.1,
-      "learning_rate": 0.0009966604879945657,
-      "loss": 2.4691,
       "step": 16
     },
     {
       "epoch": 0.11,
-      "learning_rate": 0.0009954563824255878,
-      "loss": 2.4015,
       "step": 18
     },
     {
       "epoch": 0.12,
-      "learning_rate": 0.0009940682350363913,
-      "loss": 2.4415,
       "step": 20
     },
     {
       "epoch": 0.13,
-      "learning_rate": 0.000992496561467063,
-      "loss": 2.477,
       "step": 22
     },
     {
       "epoch": 0.15,
-      "learning_rate": 0.000990741945530174,
-      "loss": 2.4429,
       "step": 24
     },
     {
       "epoch": 0.16,
-      "learning_rate": 0.0009888050389939172,
-      "loss": 2.4429,
       "step": 26
     },
     {
       "epoch": 0.17,
-      "learning_rate": 0.0009866865613400006,
-      "loss": 2.4597,
       "step": 28
     },
     {
       "epoch": 0.18,
-      "learning_rate": 0.0009843872994963912,
-      "loss": 2.4501,
       "step": 30
     },
     {
       "epoch": 0.19,
-      "learning_rate": 0.0009819081075450014,
-      "loss": 2.4307,
       "step": 32
     },
     {
       "epoch": 0.21,
-      "learning_rate": 0.0009792499064044343,
-      "loss": 2.4182,
       "step": 34
     },
     {
       "epoch": 0.22,
-      "learning_rate": 0.0009764136834878986,
-      "loss": 2.4354,
       "step": 36
     },
     {
       "epoch": 0.23,
-      "learning_rate": 0.0009734004923364257,
-      "loss": 2.4323,
       "step": 38
     },
     {
       "epoch": 0.24,
-      "learning_rate": 0.0009702114522275216,
-      "loss": 2.4592,
       "step": 40
     },
     {
       "epoch": 0.25,
-      "learning_rate": 0.000966847747759402,
-      "loss": 2.4242,
       "step": 42
     },
     {
       "epoch": 0.27,
-      "learning_rate": 0.0009633106284109611,
-      "loss": 2.4355,
       "step": 44
     },
     {
       "epoch": 0.28,
-      "learning_rate": 0.0009596014080776422,
-      "loss": 2.4379,
       "step": 46
     },
     {
       "epoch": 0.29,
-      "learning_rate": 0.0009557214645833791,
-      "loss": 2.3786,
       "step": 48
     },
     {
       "epoch": 0.3,
-      "learning_rate": 0.0009516722391687902,
-      "loss": 2.4303,
       "step": 50
     },
     {
       "epoch": 0.31,
-      "learning_rate": 0.0009474552359558167,
-      "loss": 2.3946,
       "step": 52
     },
     {
       "epoch": 0.33,
-      "learning_rate": 0.000943072021389003,
-      "loss": 2.4104,
       "step": 54
     },
     {
       "epoch": 0.34,
-      "learning_rate": 0.0009385242236536259,
-      "loss": 2.4266,
       "step": 56
     },
     {
       "epoch": 0.35,
-      "learning_rate": 0.0009338135320708912,
-      "loss": 2.5106,
       "step": 58
     },
     {
       "epoch": 0.36,
-      "learning_rate": 0.0009289416964704185,
-      "loss": 2.4225,
       "step": 60
     },
     {
       "epoch": 0.37,
-      "learning_rate": 0.0009239105265402525,
-      "loss": 2.4745,
       "step": 62
     },
     {
       "epoch": 0.39,
-      "learning_rate": 0.0009187218911546363,
-      "loss": 2.4572,
       "step": 64
     },
     {
       "epoch": 0.4,
-      "learning_rate": 0.0009133777176798013,
-      "loss": 2.4366,
       "step": 66
     },
     {
       "epoch": 0.41,
-      "learning_rate": 0.0009078799912580304,
-      "loss": 2.4021,
       "step": 68
     },
     {
       "epoch": 0.42,
-      "learning_rate": 0.0009022307540702576,
-      "loss": 2.4054,
       "step": 70
     },
     {
       "epoch": 0.44,
-      "learning_rate": 0.0008964321045774807,
-      "loss": 2.4628,
       "step": 72
     },
     {
       "epoch": 0.45,
-      "learning_rate": 0.0008904861967412702,
-      "loss": 2.5038,
       "step": 74
     },
     {
       "epoch": 0.46,
-      "learning_rate": 0.0008843952392236594,
-      "loss": 2.3801,
       "step": 76
     },
     {
       "epoch": 0.47,
-      "learning_rate": 0.0008781614945667169,
-      "loss": 2.4056,
       "step": 78
     },
     {
       "epoch": 0.48,
-      "learning_rate": 0.0008717872783521047,
-      "loss": 2.3334,
       "step": 80
     },
     {
       "epoch": 0.5,
-      "learning_rate": 0.0008652749583409339,
-      "loss": 2.3913,
       "step": 82
     },
     {
       "epoch": 0.51,
-      "learning_rate": 0.0008586269535942384,
-      "loss": 2.3784,
       "step": 84
     },
     {
       "epoch": 0.52,
-      "learning_rate": 0.0008518457335743926,
-      "loss": 2.4436,
       "step": 86
     },
     {
       "epoch": 0.53,
-      "learning_rate": 0.0008449338172278058,
-      "loss": 2.3735,
       "step": 88
     },
     {
       "epoch": 0.54,
-      "learning_rate": 0.0008378937720492384,
-      "loss": 2.374,
       "step": 90
     },
     {
       "epoch": 0.56,
-      "learning_rate": 0.0008307282131280805,
-      "loss": 2.4064,
       "step": 92
     },
     {
       "epoch": 0.57,
-      "learning_rate": 0.000823439802176954,
-      "loss": 2.4124,
       "step": 94
     },
     {
       "epoch": 0.58,
-      "learning_rate": 0.0008160312465429952,
-      "loss": 2.4181,
       "step": 96
     },
     {
       "epoch": 0.59,
-      "learning_rate": 0.0008085052982021848,
-      "loss": 2.4253,
       "step": 98
     },
     {
       "epoch": 0.6,
-      "learning_rate": 0.0008008647527371022,
-      "loss": 2.4678,
       "step": 100
     },
     {
       "epoch": 0.62,
-      "learning_rate": 0.0007931124482984802,
-      "loss": 2.4738,
       "step": 102
     },
     {
       "epoch": 0.63,
-      "learning_rate": 0.0007852512645509479,
-      "loss": 2.3738,
       "step": 104
     },
     {
       "epoch": 0.64,
-      "learning_rate": 0.0007772841216033533,
-      "loss": 2.4081,
       "step": 106
     },
     {
       "epoch": 0.65,
-      "learning_rate": 0.0007692139789240611,
-      "loss": 2.3738,
       "step": 108
     },
     {
       "epoch": 0.66,
-      "learning_rate": 0.0007610438342416319,
-      "loss": 2.3701,
       "step": 110
     },
     {
       "epoch": 0.68,
-      "learning_rate": 0.0007527767224312882,
-      "loss": 2.4355,
       "step": 112
     },
     {
       "epoch": 0.69,
-      "learning_rate": 0.000744415714387582,
-      "loss": 2.4036,
       "step": 114
     },
     {
       "epoch": 0.7,
-      "learning_rate": 0.0007359639158836828,
-      "loss": 2.3746,
       "step": 116
     },
     {
       "epoch": 0.71,
-      "learning_rate": 0.0007274244664177097,
-      "loss": 2.4855,
       "step": 118
     },
     {
       "epoch": 0.73,
-      "learning_rate": 0.0007188005380465365,
-      "loss": 2.379,
       "step": 120
     },
     {
       "epoch": 0.74,
-      "learning_rate": 0.000710095334207501,
-      "loss": 2.4178,
       "step": 122
     },
     {
       "epoch": 0.75,
-      "learning_rate": 0.0007013120885284599,
-      "loss": 2.4561,
       "step": 124
     },
     {
       "epoch": 0.76,
-      "learning_rate": 0.0006924540636266272,
-      "loss": 2.4024,
       "step": 126
     },
     {
       "epoch": 0.77,
-      "learning_rate": 0.000683524549896646,
-      "loss": 2.4172,
       "step": 128
     },
     {
       "epoch": 0.79,
-      "learning_rate": 0.0006745268642883404,
-      "loss": 2.3858,
       "step": 130
     },
     {
       "epoch": 0.8,
-      "learning_rate": 0.0006654643490746042,
-      "loss": 2.3547,
       "step": 132
     },
     {
       "epoch": 0.81,
-      "learning_rate": 0.0006563403706098833,
-      "loss": 2.4372,
       "step": 134
     },
     {
       "epoch": 0.82,
-      "learning_rate": 0.0006471583180797121,
-      "loss": 2.3785,
       "step": 136
     },
     {
       "epoch": 0.83,
-      "learning_rate": 0.0006379216022417695,
-      "loss": 2.3815,
       "step": 138
     },
     {
       "epoch": 0.85,
-      "learning_rate": 0.0006286336541589224,
-      "loss": 2.4209,
       "step": 140
     },
     {
       "epoch": 0.86,
-      "learning_rate": 0.0006192979239247243,
-      "loss": 2.3962,
       "step": 142
     },
     {
       "epoch": 0.87,
-      "learning_rate": 0.0006099178793818478,
-      "loss": 2.3626,
       "step": 144
     },
     {
       "epoch": 0.88,
-      "learning_rate": 0.0006004970048339225,
-      "loss": 2.3991,
       "step": 146
     },
     {
       "epoch": 0.89,
-      "learning_rate": 0.0005910387997512573,
-      "loss": 2.4396,
       "step": 148
     },
     {
       "epoch": 0.91,
-      "learning_rate": 0.0005815467774709313,
-      "loss": 2.3816,
       "step": 150
     },
     {
       "epoch": 0.92,
-      "learning_rate": 0.0005720244638917323,
-      "loss": 2.3866,
       "step": 152
     },
     {
       "epoch": 0.93,
-      "learning_rate": 0.0005624753961644281,
-      "loss": 2.4035,
       "step": 154
     },
     {
       "epoch": 0.94,
-      "learning_rate": 0.0005529031213778615,
-      "loss": 2.4063,
       "step": 156
     },
     {
       "epoch": 0.95,
-      "learning_rate": 0.0005433111952413496,
-      "loss": 2.3944,
       "step": 158
     },
     {
       "epoch": 0.97,
-      "learning_rate": 0.0005337031807638841,
-      "loss": 2.4192,
       "step": 160
     },
     {
       "epoch": 0.98,
-      "learning_rate": 0.0005240826469306187,
-      "loss": 2.3603,
       "step": 162
     },
     {
       "epoch": 0.99,
-      "learning_rate": 0.0005144531673771364,
-      "loss": 2.4041,
       "step": 164
     },
     {
       "epoch": 1.01,
-      "learning_rate": 0.0005048183190619903,
-      "loss": 2.8813,
       "step": 166
     },
     {
       "epoch": 1.02,
-      "learning_rate": 0.0004951816809380097,
-      "loss": 2.2786,
       "step": 168
     },
     {
       "epoch": 1.03,
-      "learning_rate": 0.0004855468326228638,
-      "loss": 2.2886,
       "step": 170
     },
     {
       "epoch": 1.04,
-      "learning_rate": 0.00047591735306938137,
-      "loss": 2.1822,
       "step": 172
     },
     {
       "epoch": 1.05,
-      "learning_rate": 0.00046629681923611606,
-      "loss": 2.2589,
       "step": 174
     },
     {
       "epoch": 1.07,
-      "learning_rate": 0.0004566888047586507,
-      "loss": 2.2625,
       "step": 176
     },
     {
       "epoch": 1.08,
-      "learning_rate": 0.00044709687862213866,
-      "loss": 2.2715,
       "step": 178
     },
     {
       "epoch": 1.09,
-      "learning_rate": 0.000437524603835572,
-      "loss": 2.1988,
       "step": 180
     },
     {
       "epoch": 1.1,
-      "learning_rate": 0.000427975536108268,
-      "loss": 2.3257,
       "step": 182
     },
     {
       "epoch": 1.11,
-      "learning_rate": 0.00041845322252906863,
-      "loss": 2.3026,
       "step": 184
     },
     {
       "epoch": 1.13,
-      "learning_rate": 0.00040896120024874283,
-      "loss": 2.2306,
       "step": 186
     },
     {
       "epoch": 1.14,
-      "learning_rate": 0.0003995029951660776,
-      "loss": 2.2269,
       "step": 188
     },
     {
       "epoch": 1.15,
-      "learning_rate": 0.00039008212061815206,
-      "loss": 2.3079,
       "step": 190
     },
     {
       "epoch": 1.16,
-      "learning_rate": 0.00038070207607527587,
-      "loss": 2.218,
       "step": 192
     },
     {
       "epoch": 1.18,
-      "learning_rate": 0.00037136634584107787,
-      "loss": 2.2667,
       "step": 194
     },
     {
       "epoch": 1.19,
-      "learning_rate": 0.0003620783977582305,
-      "loss": 2.2754,
       "step": 196
     },
     {
       "epoch": 1.2,
-      "learning_rate": 0.0003528416819202881,
-      "loss": 2.2835,
       "step": 198
     },
     {
       "epoch": 1.21,
-      "learning_rate": 0.00034365962939011697,
-      "loss": 2.2843,
       "step": 200
     },
     {
       "epoch": 1.22,
-      "learning_rate": 0.00033453565092539584,
-      "loss": 2.2387,
       "step": 202
     },
     {
       "epoch": 1.24,
-      "learning_rate": 0.0003254731357116597,
-      "loss": 2.254,
       "step": 204
     },
     {
       "epoch": 1.25,
-      "learning_rate": 0.000316475450103354,
-      "loss": 2.2686,
       "step": 206
     },
     {
       "epoch": 1.26,
-      "learning_rate": 0.00030754593637337277,
-      "loss": 2.2422,
       "step": 208
     },
     {
       "epoch": 1.27,
-      "learning_rate": 0.0002986879114715403,
-      "loss": 2.3003,
       "step": 210
     },
     {
       "epoch": 1.28,
-      "learning_rate": 0.0002899046657924992,
-      "loss": 2.2619,
       "step": 212
     },
     {
       "epoch": 1.3,
-      "learning_rate": 0.00028119946195346375,
-      "loss": 2.3022,
       "step": 214
     },
     {
       "epoch": 1.31,
-      "learning_rate": 0.00027257553358229033,
-      "loss": 2.2523,
       "step": 216
     },
     {
       "epoch": 1.32,
-      "learning_rate": 0.0002640360841163174,
-      "loss": 2.3098,
       "step": 218
     },
     {
       "epoch": 1.33,
-      "learning_rate": 0.0002555842856124182,
-      "loss": 2.235,
       "step": 220
     },
     {
       "epoch": 1.34,
-      "learning_rate": 0.00024722327756871186,
-      "loss": 2.2448,
       "step": 222
     },
     {
       "epoch": 1.36,
-      "learning_rate": 0.0002389561657583681,
-      "loss": 2.2411,
       "step": 224
     },
     {
       "epoch": 1.37,
-      "learning_rate": 0.00023078602107593898,
-      "loss": 2.2485,
       "step": 226
     },
     {
       "epoch": 1.38,
-      "learning_rate": 0.0002227158783966467,
-      "loss": 2.2261,
       "step": 228
     },
     {
       "epoch": 1.39,
-      "learning_rate": 0.00021474873544905204,
-      "loss": 2.2427,
       "step": 230
     },
     {
       "epoch": 1.4,
-      "learning_rate": 0.00020688755170151997,
-      "loss": 2.2961,
       "step": 232
     },
     {
       "epoch": 1.42,
-      "learning_rate": 0.00019913524726289784,
-      "loss": 2.2272,
       "step": 234
     },
     {
       "epoch": 1.43,
-      "learning_rate": 0.00019149470179781532,
-      "loss": 2.2368,
       "step": 236
     },
     {
       "epoch": 1.44,
-      "learning_rate": 0.00018396875345700497,
-      "loss": 2.2846,
       "step": 238
     },
     {
       "epoch": 1.45,
-      "learning_rate": 0.000176560197823046,
-      "loss": 2.1709,
       "step": 240
     },
     {
       "epoch": 1.47,
-      "learning_rate": 0.0001692717868719195,
-      "loss": 2.2659,
       "step": 242
     },
     {
       "epoch": 1.48,
-      "learning_rate": 0.0001621062279507617,
-      "loss": 2.2655,
       "step": 244
     },
     {
       "epoch": 1.49,
-      "learning_rate": 0.0001550661827721941,
-      "loss": 2.2284,
       "step": 246
     },
     {
       "epoch": 1.5,
-      "learning_rate": 0.00014815426642560752,
-      "loss": 2.2444,
       "step": 248
     },
     {
       "epoch": 1.51,
-      "learning_rate": 0.0001413730464057616,
-      "loss": 2.3102,
       "step": 250
     },
     {
       "epoch": 1.53,
-      "learning_rate": 0.00013472504165906613,
-      "loss": 2.2287,
       "step": 252
     },
     {
       "epoch": 1.54,
-      "learning_rate": 0.00012821272164789544,
-      "loss": 2.2713,
       "step": 254
     },
     {
       "epoch": 1.55,
-      "learning_rate": 0.00012183850543328313,
-      "loss": 2.2127,
       "step": 256
     },
     {
       "epoch": 1.56,
-      "learning_rate": 0.00011560476077634069,
-      "loss": 2.1682,
       "step": 258
     },
     {
       "epoch": 1.57,
-      "learning_rate": 0.00010951380325872979,
-      "loss": 2.2393,
       "step": 260
     },
     {
       "epoch": 1.59,
-      "learning_rate": 0.00010356789542251938,
-      "loss": 2.2259,
       "step": 262
     },
     {
       "epoch": 1.6,
-      "learning_rate": 9.776924592974257e-05,
-      "loss": 2.2157,
       "step": 264
     },
     {
       "epoch": 1.61,
-      "learning_rate": 9.212000874196952e-05,
-      "loss": 2.2393,
       "step": 266
     },
     {
       "epoch": 1.62,
-      "learning_rate": 8.662228232019875e-05,
-      "loss": 2.2613,
       "step": 268
     },
     {
       "epoch": 1.63,
-      "learning_rate": 8.127810884536401e-05,
-      "loss": 2.1981,
       "step": 270
     },
     {
       "epoch": 1.65,
-      "learning_rate": 7.60894734597476e-05,
-      "loss": 2.2457,
       "step": 272
     },
     {
       "epoch": 1.66,
-      "learning_rate": 7.105830352958143e-05,
-      "loss": 2.2571,
       "step": 274
     },
     {
       "epoch": 1.67,
-      "learning_rate": 6.618646792910893e-05,
-      "loss": 2.1771,
       "step": 276
     },
     {
       "epoch": 1.68,
-      "learning_rate": 6.147577634637414e-05,
-      "loss": 2.2243,
       "step": 278
     },
     {
       "epoch": 1.69,
-      "learning_rate": 5.692797861099719e-05,
-      "loss": 2.2427,
       "step": 280
     },
     {
       "epoch": 1.71,
-      "learning_rate": 5.25447640441834e-05,
-      "loss": 2.2266,
       "step": 282
     },
     {
       "epoch": 1.72,
-      "learning_rate": 4.832776083120982e-05,
-      "loss": 2.3057,
       "step": 284
     },
     {
       "epoch": 1.73,
-      "learning_rate": 4.4278535416620916e-05,
-      "loss": 2.2225,
       "step": 286
     },
     {
       "epoch": 1.74,
-      "learning_rate": 4.039859192235778e-05,
-      "loss": 2.2665,
       "step": 288
     },
     {
       "epoch": 1.76,
-      "learning_rate": 3.668937158903901e-05,
-      "loss": 2.2807,
       "step": 290
     },
     {
       "epoch": 1.77,
-      "learning_rate": 3.315225224059809e-05,
-      "loss": 2.2165,
       "step": 292
     },
     {
       "epoch": 1.78,
-      "learning_rate": 2.9788547772478415e-05,
-      "loss": 2.2651,
       "step": 294
     },
     {
       "epoch": 1.79,
-      "learning_rate": 2.6599507663574384e-05,
-      "loss": 2.2437,
       "step": 296
     },
     {
       "epoch": 1.8,
-      "learning_rate": 2.3586316512101414e-05,
-      "loss": 2.3066,
       "step": 298
     },
     {
       "epoch": 1.82,
-      "learning_rate": 2.0750093595565732e-05,
-      "loss": 2.1727,
       "step": 300
     },
     {
       "epoch": 1.83,
-      "learning_rate": 1.8091892454998595e-05,
-      "loss": 2.2409,
       "step": 302
     },
     {
       "epoch": 1.84,
-      "learning_rate": 1.561270050360897e-05,
-      "loss": 2.2908,
       "step": 304
     },
     {
       "epoch": 1.85,
-      "learning_rate": 1.33134386599994e-05,
-      "loss": 2.2925,
       "step": 306
     },
     {
       "epoch": 1.86,
-      "learning_rate": 1.1194961006082971e-05,
-      "loss": 2.2449,
       "step": 308
     },
     {
       "epoch": 1.88,
-      "learning_rate": 9.258054469825972e-06,
-      "loss": 2.235,
       "step": 310
     },
     {
       "epoch": 1.89,
-      "learning_rate": 7.503438532937168e-06,
-      "loss": 2.2216,
       "step": 312
     },
     {
       "epoch": 1.9,
-      "learning_rate": 5.931764963608866e-06,
-      "loss": 2.2884,
       "step": 314
     },
     {
       "epoch": 1.91,
-      "learning_rate": 4.5436175744121845e-06,
-      "loss": 2.2124,
       "step": 316
     },
     {
       "epoch": 1.92,
-      "learning_rate": 3.3395120054343087e-06,
-      "loss": 2.2418,
       "step": 318
     },
     {
       "epoch": 1.94,
-      "learning_rate": 2.319895532739369e-06,
-      "loss": 2.2855,
       "step": 320
     },
     {
       "epoch": 1.95,
-      "learning_rate": 1.4851469022234e-06,
-      "loss": 2.2974,
       "step": 322
     },
     {
       "epoch": 1.96,
-      "learning_rate": 8.35576188926046e-07,
-      "loss": 2.2552,
       "step": 324
     },
     {
       "epoch": 1.97,
-      "learning_rate": 3.71424681850141e-07,
-      "loss": 2.2209,
       "step": 326
     },
     {
       "epoch": 1.99,
-      "learning_rate": 9.286479433257e-08,
-      "loss": 2.1935,
       "step": 328
     },
     {
       "epoch": 2.0,
       "learning_rate": 0.0,
-      "loss": 2.2702,
       "step": 330
     },
     {
       "epoch": 2.0,
       "step": 330,
-      "total_flos": 4.634629374287544e+17,
-      "train_loss": 2.336302039117524,
-      "train_runtime": 79791.9217,
       "train_samples_per_second": 0.265,
       "train_steps_per_second": 0.004
     }
   ],
   "max_steps": 330,
   "num_train_epochs": 2,
-  "total_flos": 4.634629374287544e+17,
   "trial_name": null,
   "trial_params": null
 }

   "log_history": [
     {
       "epoch": 0.01,
+      "learning_rate": 0.0003,
+      "loss": 2.0736,
       "step": 2
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0006,
+      "loss": 2.0741,
       "step": 4
     },
     {
       "epoch": 0.04,
+      "learning_rate": 0.0005999442811234004,
+      "loss": 2.098,
       "step": 6
     },
     {
       "epoch": 0.05,
+      "learning_rate": 0.0005997771451908898,
+      "loss": 2.0627,
       "step": 8
     },
     {
       "epoch": 0.06,
+      "learning_rate": 0.0005994986542866444,
+      "loss": 2.0418,
       "step": 10
     },
     {
       "epoch": 0.07,
+      "learning_rate": 0.0005991089118586658,
+      "loss": 2.0717,
       "step": 12
     },
     {
       "epoch": 0.08,
+      "learning_rate": 0.0005986080626803564,
+      "loss": 2.0504,
       "step": 14
     },
     {
       "epoch": 0.1,
+      "learning_rate": 0.0005979962927967394,
+      "loss": 2.0314,
       "step": 16
     },
     {
       "epoch": 0.11,
+      "learning_rate": 0.0005972738294553527,
+      "loss": 2.0568,
       "step": 18
     },
     {
       "epoch": 0.12,
+      "learning_rate": 0.0005964409410218346,
+      "loss": 2.073,
       "step": 20
     },
     {
       "epoch": 0.13,
+      "learning_rate": 0.0005954979368802377,
+      "loss": 2.0737,
       "step": 22
     },
     {
       "epoch": 0.15,
+      "learning_rate": 0.0005944451673181043,
+      "loss": 2.0936,
       "step": 24
     },
     {
       "epoch": 0.16,
+      "learning_rate": 0.0005932830233963502,
+      "loss": 2.0846,
       "step": 26
     },
     {
       "epoch": 0.17,
+      "learning_rate": 0.0005920119368040003,
+      "loss": 2.1374,
       "step": 28
     },
     {
       "epoch": 0.18,
+      "learning_rate": 0.0005906323796978346,
+      "loss": 2.0828,
       "step": 30
     },
     {
       "epoch": 0.19,
+      "learning_rate": 0.0005891448645270008,
+      "loss": 2.0802,
       "step": 32
     },
     {
       "epoch": 0.21,
+      "learning_rate": 0.0005875499438426604,
+      "loss": 2.147,
       "step": 34
     },
     {
       "epoch": 0.22,
+      "learning_rate": 0.0005858482100927391,
+      "loss": 2.0904,
       "step": 36
     },
     {
       "epoch": 0.23,
+      "learning_rate": 0.0005840402954018554,
+      "loss": 2.0823,
       "step": 38
     },
     {
       "epoch": 0.24,
+      "learning_rate": 0.0005821268713365129,
+      "loss": 2.0792,
       "step": 40
     },
     {
       "epoch": 0.25,
+      "learning_rate": 0.0005801086486556411,
+      "loss": 2.0716,
       "step": 42
     },
     {
       "epoch": 0.27,
+      "learning_rate": 0.0005779863770465765,
+      "loss": 2.2061,
       "step": 44
     },
     {
       "epoch": 0.28,
+      "learning_rate": 0.0005757608448465853,
+      "loss": 2.1735,
       "step": 46
     },
     {
       "epoch": 0.29,
+      "learning_rate": 0.0005734328787500274,
+      "loss": 2.098,
       "step": 48
     },
     {
       "epoch": 0.3,
+      "learning_rate": 0.000571003343501274,
+      "loss": 2.0977,
       "step": 50
     },
     {
       "epoch": 0.31,
+      "learning_rate": 0.0005684731415734899,
+      "loss": 2.1076,
       "step": 52
     },
     {
       "epoch": 0.33,
+      "learning_rate": 0.0005658432128334017,
+      "loss": 2.0476,
       "step": 54
     },
     {
       "epoch": 0.34,
+      "learning_rate": 0.0005631145341921755,
+      "loss": 2.0728,
       "step": 56
     },
     {
       "epoch": 0.35,
+      "learning_rate": 0.0005602881192425346,
+      "loss": 2.0477,
       "step": 58
     },
     {
       "epoch": 0.36,
+      "learning_rate": 0.000557365017882251,
+      "loss": 2.1102,
       "step": 60
     },
     {
       "epoch": 0.37,
+      "learning_rate": 0.0005543463159241515,
+      "loss": 2.0754,
       "step": 62
     },
     {
       "epoch": 0.39,
+      "learning_rate": 0.0005512331346927817,
+      "loss": 2.1029,
       "step": 64
     },
     {
       "epoch": 0.4,
+      "learning_rate": 0.0005480266306078807,
+      "loss": 1.9922,
       "step": 66
     },
     {
       "epoch": 0.41,
+      "learning_rate": 0.0005447279947548182,
+      "loss": 2.1599,
       "step": 68
     },
     {
       "epoch": 0.42,
+      "learning_rate": 0.0005413384524421545,
+      "loss": 2.1388,
       "step": 70
     },
     {
       "epoch": 0.44,
+      "learning_rate": 0.0005378592627464883,
+      "loss": 2.131,
       "step": 72
     },
     {
       "epoch": 0.45,
+      "learning_rate": 0.0005342917180447621,
+      "loss": 2.0658,
       "step": 74
     },
     {
       "epoch": 0.46,
+      "learning_rate": 0.0005306371435341955,
+      "loss": 2.1437,
       "step": 76
     },
     {
       "epoch": 0.47,
+      "learning_rate": 0.0005268968967400301,
+      "loss": 2.1145,
       "step": 78
     },
     {
       "epoch": 0.48,
+      "learning_rate": 0.0005230723670112627,
+      "loss": 2.1263,
       "step": 80
     },
     {
       "epoch": 0.5,
+      "learning_rate": 0.0005191649750045603,
+      "loss": 2.0513,
       "step": 82
     },
     {
       "epoch": 0.51,
+      "learning_rate": 0.000515176172156543,
+      "loss": 2.0723,
       "step": 84
     },
     {
       "epoch": 0.52,
+      "learning_rate": 0.0005111074401446355,
+      "loss": 2.0744,
       "step": 86
     },
     {
       "epoch": 0.53,
+      "learning_rate": 0.0005069602903366834,
+      "loss": 2.131,
       "step": 88
     },
     {
       "epoch": 0.54,
+      "learning_rate": 0.0005027362632295429,
+      "loss": 2.094,
       "step": 90
     },
     {
       "epoch": 0.56,
+      "learning_rate": 0.0004984369278768482,
+      "loss": 2.0633,
       "step": 92
     },
     {
       "epoch": 0.57,
+      "learning_rate": 0.0004940638813061723,
+      "loss": 2.1182,
       "step": 94
     },
     {
       "epoch": 0.58,
+      "learning_rate": 0.0004896187479257971,
+      "loss": 2.1664,
       "step": 96
     },
     {
       "epoch": 0.59,
+      "learning_rate": 0.0004851031789213108,
+      "loss": 2.1365,
       "step": 98
     },
     {
       "epoch": 0.6,
+      "learning_rate": 0.0004805188516422613,
+      "loss": 2.1204,
       "step": 100
     },
     {
       "epoch": 0.62,
+      "learning_rate": 0.00047586746897908803,
+      "loss": 2.0677,
       "step": 102
     },
     {
       "epoch": 0.63,
+      "learning_rate": 0.00047115075873056876,
+      "loss": 2.1588,
       "step": 104
     },
     {
       "epoch": 0.64,
+      "learning_rate": 0.0004663704729620119,
+      "loss": 2.0746,
       "step": 106
     },
     {
       "epoch": 0.65,
+      "learning_rate": 0.0004615283873544366,
+      "loss": 2.126,
       "step": 108
     },
     {
       "epoch": 0.66,
+      "learning_rate": 0.0004566263005449791,
+      "loss": 2.0786,
       "step": 110
     },
     {
       "epoch": 0.68,
+      "learning_rate": 0.0004516660334587729,
+      "loss": 2.1019,
       "step": 112
     },
     {
       "epoch": 0.69,
+      "learning_rate": 0.00044664942863254913,
+      "loss": 2.0605,
       "step": 114
     },
     {
       "epoch": 0.7,
+      "learning_rate": 0.0004415783495302096,
+      "loss": 2.0879,
       "step": 116
     },
     {
       "epoch": 0.71,
+      "learning_rate": 0.0004364546798506258,
+      "loss": 2.1516,
       "step": 118
     },
     {
       "epoch": 0.73,
+      "learning_rate": 0.0004312803228279218,
+      "loss": 2.1287,
       "step": 120
     },
     {
       "epoch": 0.74,
+      "learning_rate": 0.0004260572005245005,
+      "loss": 2.1054,
       "step": 122
     },
     {
       "epoch": 0.75,
+      "learning_rate": 0.00042078725311707585,
+      "loss": 2.0905,
       "step": 124
     },
     {
       "epoch": 0.76,
+      "learning_rate": 0.0004154724381759763,
+      "loss": 2.0875,
       "step": 126
     },
     {
       "epoch": 0.77,
+      "learning_rate": 0.0004101147299379876,
+      "loss": 2.0948,
       "step": 128
     },
     {
       "epoch": 0.79,
+      "learning_rate": 0.00040471611857300423,
+      "loss": 2.1521,
       "step": 130
     },
     {
       "epoch": 0.8,
+      "learning_rate": 0.0003992786094447625,
+      "loss": 2.0645,
       "step": 132
     },
     {
       "epoch": 0.81,
+      "learning_rate": 0.0003938042223659299,
+      "loss": 2.0953,
       "step": 134
     },
     {
       "epoch": 0.82,
+      "learning_rate": 0.0003882949908478272,
+      "loss": 2.1046,
       "step": 136
     },
     {
       "epoch": 0.83,
+      "learning_rate": 0.0003827529613450617,
+      "loss": 2.1814,
       "step": 138
     },
     {
       "epoch": 0.85,
+      "learning_rate": 0.0003771801924953534,
+      "loss": 2.1147,
       "step": 140
     },
     {
       "epoch": 0.86,
+      "learning_rate": 0.0003715787543548345,
+      "loss": 2.1226,
       "step": 142
     },
     {
       "epoch": 0.87,
+      "learning_rate": 0.0003659507276291087,
+      "loss": 2.1093,
       "step": 144
     },
     {
       "epoch": 0.88,
+      "learning_rate": 0.00036029820290035347,
+      "loss": 2.1038,
       "step": 146
     },
     {
       "epoch": 0.89,
+      "learning_rate": 0.0003546232798507543,
+      "loss": 2.0581,
       "step": 148
     },
     {
       "epoch": 0.91,
+      "learning_rate": 0.00034892806648255875,
+      "loss": 2.0076,
       "step": 150
     },
     {
       "epoch": 0.92,
+      "learning_rate": 0.0003432146783350393,
+      "loss": 2.1017,
       "step": 152
     },
     {
       "epoch": 0.93,
+      "learning_rate": 0.0003374852376986568,
+      "loss": 2.1353,
       "step": 154
     },
     {
       "epoch": 0.94,
+      "learning_rate": 0.00033174187282671686,
+      "loss": 2.0836,
       "step": 156
     },
     {
       "epoch": 0.95,
+      "learning_rate": 0.0003259867171448097,
+      "loss": 2.098,
       "step": 158
     },
     {
       "epoch": 0.97,
+      "learning_rate": 0.00032022190845833035,
+      "loss": 2.1308,
       "step": 160
     },
     {
       "epoch": 0.98,
+      "learning_rate": 0.0003144495881583712,
+      "loss": 2.1204,
       "step": 162
     },
     {
       "epoch": 0.99,
+      "learning_rate": 0.00030867190042628177,
+      "loss": 2.0564,
       "step": 164
     },
     {
       "epoch": 1.01,
+      "learning_rate": 0.0003028909914371942,
+      "loss": 2.5573,
       "step": 166
     },
     {
       "epoch": 1.02,
+      "learning_rate": 0.0002971090085628058,
+      "loss": 1.9576,
       "step": 168
     },
     {
       "epoch": 1.03,
+      "learning_rate": 0.00029132809957371823,
+      "loss": 1.9274,
       "step": 170
     },
     {
       "epoch": 1.04,
+      "learning_rate": 0.0002855504118416288,
+      "loss": 1.9637,
       "step": 172
     },
     {
       "epoch": 1.05,
+      "learning_rate": 0.0002797780915416696,
+      "loss": 1.9729,
       "step": 174
     },
     {
       "epoch": 1.07,
+      "learning_rate": 0.0002740132828551904,
+      "loss": 2.0254,
       "step": 176
     },
     {
       "epoch": 1.08,
+      "learning_rate": 0.00026825812717328314,
+      "loss": 1.9427,
       "step": 178
     },
     {
       "epoch": 1.09,
+      "learning_rate": 0.00026251476230134313,
+      "loss": 1.97,
       "step": 180
     },
     {
       "epoch": 1.1,
+      "learning_rate": 0.00025678532166496077,
+      "loss": 2.042,
       "step": 182
     },
     {
       "epoch": 1.11,
+      "learning_rate": 0.00025107193351744115,
+      "loss": 2.0033,
       "step": 184
     },
     {
       "epoch": 1.13,
+      "learning_rate": 0.0002453767201492457,
+      "loss": 1.9466,
       "step": 186
     },
     {
       "epoch": 1.14,
+      "learning_rate": 0.00023970179709964656,
+      "loss": 2.0294,
       "step": 188
     },
     {
       "epoch": 1.15,
+      "learning_rate": 0.0002340492723708912,
+      "loss": 2.0002,
       "step": 190
     },
     {
       "epoch": 1.16,
+      "learning_rate": 0.00022842124564516548,
+      "loss": 1.9686,
       "step": 192
     },
     {
       "epoch": 1.18,
+      "learning_rate": 0.0002228198075046467,
+      "loss": 2.0857,
       "step": 194
     },
     {
       "epoch": 1.19,
+      "learning_rate": 0.00021724703865493827,
+      "loss": 2.0111,
       "step": 196
     },
     {
       "epoch": 1.2,
+      "learning_rate": 0.00021170500915217283,
+      "loss": 2.0058,
       "step": 198
     },
     {
       "epoch": 1.21,
+      "learning_rate": 0.00020619577763407015,
+      "loss": 1.9725,
       "step": 200
     },
     {
       "epoch": 1.22,
+      "learning_rate": 0.0002007213905552375,
+      "loss": 2.0542,
       "step": 202
     },
     {
       "epoch": 1.24,
+      "learning_rate": 0.0001952838814269958,
+      "loss": 2.0265,
       "step": 204
     },
     {
       "epoch": 1.25,
+      "learning_rate": 0.00018988527006201237,
+      "loss": 2.1143,
       "step": 206
     },
     {
       "epoch": 1.26,
+      "learning_rate": 0.00018452756182402364,
+      "loss": 1.96,
       "step": 208
     },
     {
       "epoch": 1.27,
+      "learning_rate": 0.00017921274688292415,
+      "loss": 2.0181,
       "step": 210
     },
     {
       "epoch": 1.28,
+      "learning_rate": 0.00017394279947549948,
+      "loss": 1.9909,
       "step": 212
     },
     {
       "epoch": 1.3,
+      "learning_rate": 0.00016871967717207824,
+      "loss": 2.0021,
       "step": 214
     },
     {
       "epoch": 1.31,
+      "learning_rate": 0.00016354532014937418,
+      "loss": 1.9598,
       "step": 216
     },
     {
       "epoch": 1.32,
+      "learning_rate": 0.00015842165046979042,
+      "loss": 1.9433,
       "step": 218
     },
     {
       "epoch": 1.33,
+      "learning_rate": 0.0001533505713674509,
+      "loss": 2.0222,
       "step": 220
     },
     {
       "epoch": 1.34,
+      "learning_rate": 0.0001483339665412271,
+      "loss": 1.9898,
       "step": 222
     },
     {
       "epoch": 1.36,
+      "learning_rate": 0.00014337369945502084,
+      "loss": 2.0555,
       "step": 224
     },
     {
       "epoch": 1.37,
+      "learning_rate": 0.00013847161264556339,
+      "loss": 2.0082,
       "step": 226
     },
     {
       "epoch": 1.38,
+      "learning_rate": 0.000133629527037988,
+      "loss": 2.0081,
       "step": 228
     },
     {
       "epoch": 1.39,
+      "learning_rate": 0.00012884924126943122,
+      "loss": 2.0028,
       "step": 230
     },
     {
       "epoch": 1.4,
+      "learning_rate": 0.00012413253102091197,
+      "loss": 2.0535,
       "step": 232
     },
     {
       "epoch": 1.42,
+      "learning_rate": 0.00011948114835773868,
+      "loss": 1.9512,
       "step": 234
     },
     {
       "epoch": 1.43,
+      "learning_rate": 0.00011489682107868918,
+      "loss": 1.9141,
       "step": 236
     },
     {
       "epoch": 1.44,
+      "learning_rate": 0.00011038125207420298,
+      "loss": 2.0705,
       "step": 238
     },
     {
       "epoch": 1.45,
+      "learning_rate": 0.00010593611869382759,
+      "loss": 1.9869,
       "step": 240
     },
     {
       "epoch": 1.47,
+      "learning_rate": 0.0001015630721231517,
+      "loss": 1.9448,
       "step": 242
     },
     {
       "epoch": 1.48,
+      "learning_rate": 9.7263736770457e-05,
+      "loss": 1.9565,
       "step": 244
     },
     {
       "epoch": 1.49,
+      "learning_rate": 9.303970966331645e-05,
+      "loss": 1.9925,
       "step": 246
     },
     {
       "epoch": 1.5,
+      "learning_rate": 8.88925598553645e-05,
+      "loss": 1.995,
       "step": 248
     },
     {
       "epoch": 1.51,
+      "learning_rate": 8.482382784345695e-05,
+      "loss": 1.9627,
       "step": 250
     },
     {
       "epoch": 1.53,
+      "learning_rate": 8.083502499543967e-05,
+      "loss": 2.0096,
       "step": 252
     },
     {
       "epoch": 1.54,
+      "learning_rate": 7.692763298873725e-05,
+      "loss": 2.0731,
       "step": 254
     },
     {
       "epoch": 1.55,
+      "learning_rate": 7.310310325996986e-05,
+      "loss": 2.0134,
       "step": 256
     },
     {
       "epoch": 1.56,
+      "learning_rate": 6.936285646580441e-05,
+      "loss": 2.0516,
       "step": 258
     },
     {
       "epoch": 1.57,
+      "learning_rate": 6.570828195523786e-05,
+      "loss": 2.0061,
       "step": 260
     },
     {
       "epoch": 1.59,
+      "learning_rate": 6.214073725351162e-05,
+      "loss": 1.9709,
       "step": 262
     },
     {
       "epoch": 1.6,
+      "learning_rate": 5.8661547557845534e-05,
+      "loss": 2.03,
       "step": 264
     },
     {
       "epoch": 1.61,
+      "learning_rate": 5.5272005245181705e-05,
+      "loss": 1.9751,
       "step": 266
     },
     {
       "epoch": 1.62,
+      "learning_rate": 5.197336939211925e-05,
+      "loss": 2.0363,
       "step": 268
     },
     {
       "epoch": 1.63,
+      "learning_rate": 4.87668653072184e-05,
+      "loss": 2.0713,
       "step": 270
     },
     {
       "epoch": 1.65,
+      "learning_rate": 4.565368407584855e-05,
+      "loss": 2.021,
       "step": 272
     },
     {
       "epoch": 1.66,
+      "learning_rate": 4.2634982117748854e-05,
+      "loss": 1.9747,
       "step": 274
     },
     {
       "epoch": 1.67,
+      "learning_rate": 3.971188075746535e-05,
+      "loss": 2.0548,
       "step": 276
     },
     {
       "epoch": 1.68,
+      "learning_rate": 3.688546580782448e-05,
+      "loss": 1.9953,
       "step": 278
     },
     {
       "epoch": 1.69,
+      "learning_rate": 3.415678716659831e-05,
+      "loss": 1.9769,
       "step": 280
     },
     {
       "epoch": 1.71,
+      "learning_rate": 3.152685842651004e-05,
+      "loss": 2.0558,
       "step": 282
     },
     {
       "epoch": 1.72,
+      "learning_rate": 2.899665649872589e-05,
+      "loss": 2.047,
       "step": 284
     },
     {
       "epoch": 1.73,
+      "learning_rate": 2.6567121249972544e-05,
+      "loss": 2.0231,
       "step": 286
     },
     {
       "epoch": 1.74,
+      "learning_rate": 2.423915515341467e-05,
+      "loss": 2.0504,
       "step": 288
     },
     {
       "epoch": 1.76,
+      "learning_rate": 2.2013622953423405e-05,
+      "loss": 2.0075,
       "step": 290
     },
     {
       "epoch": 1.77,
+      "learning_rate": 1.9891351344358853e-05,
+      "loss": 2.0219,
       "step": 292
     },
     {
       "epoch": 1.78,
+      "learning_rate": 1.7873128663487047e-05,
+      "loss": 1.9923,
       "step": 294
     },
     {
       "epoch": 1.79,
+      "learning_rate": 1.5959704598144628e-05,
+      "loss": 2.0081,
       "step": 296
     },
     {
       "epoch": 1.8,
+      "learning_rate": 1.4151789907260846e-05,
+      "loss": 1.9971,
       "step": 298
     },
     {
       "epoch": 1.82,
+      "learning_rate": 1.2450056157339439e-05,
+      "loss": 1.9923,
       "step": 300
     },
     {
       "epoch": 1.83,
+      "learning_rate": 1.0855135472999155e-05,
+      "loss": 2.003,
       "step": 302
     },
     {
       "epoch": 1.84,
+      "learning_rate": 9.36762030216538e-06,
+      "loss": 2.0014,
       "step": 304
     },
     {
       "epoch": 1.85,
+      "learning_rate": 7.988063195999639e-06,
+      "loss": 2.0675,
       "step": 306
     },
     {
       "epoch": 1.86,
+      "learning_rate": 6.716976603649782e-06,
+      "loss": 1.9773,
       "step": 308
     },
     {
       "epoch": 1.88,
+      "learning_rate": 5.554832681895582e-06,
+      "loss": 1.997,
       "step": 310
     },
     {
       "epoch": 1.89,
+      "learning_rate": 4.5020631197623e-06,
+      "loss": 2.0323,
       "step": 312
     },
     {
       "epoch": 1.9,
+      "learning_rate": 3.559058978165319e-06,
+      "loss": 2.0221,
       "step": 314
     },
     {
       "epoch": 1.91,
+      "learning_rate": 2.7261705446473103e-06,
+      "loss": 1.9734,
       "step": 316
     },
     {
       "epoch": 1.92,
+      "learning_rate": 2.003707203260585e-06,
+      "loss": 1.9529,
       "step": 318
     },
     {
       "epoch": 1.94,
+      "learning_rate": 1.3919373196436213e-06,
+      "loss": 1.982,
       "step": 320
     },
     {
       "epoch": 1.95,
+      "learning_rate": 8.910881413340398e-07,
+      "loss": 2.0501,
       "step": 322
     },
     {
       "epoch": 1.96,
+      "learning_rate": 5.013457133556276e-07,
+      "loss": 2.0041,
       "step": 324
     },
     {
       "epoch": 1.97,
+      "learning_rate": 2.2285480911008457e-07,
+      "loss": 1.983,
       "step": 326
     },
     {
       "epoch": 1.99,
+      "learning_rate": 5.5718876599541995e-08,
+      "loss": 2.0002,
       "step": 328
     },
     {
       "epoch": 2.0,
       "learning_rate": 0.0,
+      "loss": 2.0595,
       "step": 330
     },
     {
       "epoch": 2.0,
       "step": 330,
+      "total_flos": 4.634629372945367e+17,
+      "train_loss": 2.053801321260857,
+      "train_runtime": 80029.5559,
       "train_samples_per_second": 0.265,
       "train_steps_per_second": 0.004
     }
   ],
   "max_steps": 330,
   "num_train_epochs": 2,
+  "total_flos": 4.634629372945367e+17,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4526ccf2486e6fb3048af4d26eb6228cf640199b02d5c9ab46e06e3bf549ec3a
 size 4527

 version https://git-lfs.github.com/spec/v1
+oid sha256:9abaea40950d2b896d2f741ace2caf6e83894992e5b5e580309396bb46b7b92c
 size 4527