fionazhang/fine-tune-mistral-long

Browse files

Files changed (9) hide show

README.md +56 -0
adapter_config.json +29 -0
adapter_model.safetensors +3 -0
learning_curve.png +0 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer_config.json +42 -0
training_args.bin +3 -0
training_logs.json +1 -0

README.md CHANGED Viewed

@@ -1,3 +1,59 @@
 ---
 license: apache-2.0
 ---

 ---
 license: apache-2.0
+library_name: peft
+tags:
+- trl
+- sft
+- generated_from_trainer
+base_model: mistralai/Mistral-7B-v0.1
+model-index:
+- name: fine-tune-mistral-long
+  results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# fine-tune-mistral-long
+This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.8378
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 3
+- eval_batch_size: 3
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: constant
+- lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 2
+### Training results
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.0a0+git7bcf7da
+- Datasets 2.16.1
+- Tokenizers 0.15.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "v_proj",
+    "q_proj",
+    "o_proj",
+    "k_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:138fcbdab0aa3be0c7cc1fb45ef97c28776381fdf95ec926132d4877427bac14
+size 23111352

learning_curve.png ADDED Viewed

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1816ed81ffc314e9a378e4575ae7e14b73728eb03d34c0d1fbf4159a0e50b52c
+size 4664

training_logs.json ADDED Viewed

	@@ -0,0 +1 @@

+ [{"loss": 1.7216, "learning_rate": 5e-05, "epoch": 0.0, "step": 1}, {"loss": 1.9923, "learning_rate": 5e-05, "epoch": 0.01, "step": 2}, {"loss": 2.1137, "learning_rate": 5e-05, "epoch": 0.01, "step": 3}, {"loss": 2.0682, "learning_rate": 5e-05, "epoch": 0.01, "step": 4}, {"loss": 1.7719, "learning_rate": 5e-05, "epoch": 0.01, "step": 5}, {"loss": 1.9898, "learning_rate": 5e-05, "epoch": 0.02, "step": 6}, {"loss": 1.9345, "learning_rate": 5e-05, "epoch": 0.02, "step": 7}, {"loss": 1.8348, "learning_rate": 5e-05, "epoch": 0.02, "step": 8}, {"loss": 2.0333, "learning_rate": 5e-05, "epoch": 0.02, "step": 9}, {"loss": 1.9451, "learning_rate": 5e-05, "epoch": 0.03, "step": 10}, {"loss": 2.006, "learning_rate": 5e-05, "epoch": 0.03, "step": 11}, {"loss": 2.2314, "learning_rate": 5e-05, "epoch": 0.03, "step": 12}, {"loss": 2.1966, "learning_rate": 5e-05, "epoch": 0.03, "step": 13}, {"loss": 1.6453, "learning_rate": 5e-05, "epoch": 0.04, "step": 14}, {"loss": 2.0323, "learning_rate": 5e-05, "epoch": 0.04, "step": 15}, {"loss": 1.7909, "learning_rate": 5e-05, "epoch": 0.04, "step": 16}, {"loss": 1.4481, "learning_rate": 5e-05, "epoch": 0.04, "step": 17}, {"loss": 2.3169, "learning_rate": 5e-05, "epoch": 0.05, "step": 18}, {"loss": 2.0233, "learning_rate": 5e-05, "epoch": 0.05, "step": 19}, {"loss": 1.4961, "learning_rate": 5e-05, "epoch": 0.05, "step": 20}, {"loss": 2.1729, "learning_rate": 5e-05, "epoch": 0.05, "step": 21}, {"loss": 1.8621, "learning_rate": 5e-05, "epoch": 0.06, "step": 22}, {"loss": 2.0901, "learning_rate": 5e-05, "epoch": 0.06, "step": 23}, {"loss": 1.8948, "learning_rate": 5e-05, "epoch": 0.06, "step": 24}, {"loss": 1.8822, "learning_rate": 5e-05, "epoch": 0.07, "step": 25}, {"loss": 1.5881, "learning_rate": 5e-05, "epoch": 0.07, "step": 26}, {"loss": 2.4131, "learning_rate": 5e-05, "epoch": 0.07, "step": 27}, {"loss": 1.5929, "learning_rate": 5e-05, "epoch": 0.07, "step": 28}, {"loss": 2.0173, "learning_rate": 5e-05, "epoch": 0.08, "step": 29}, {"loss": 2.0361, "learning_rate": 5e-05, "epoch": 0.08, "step": 30}, {"loss": 2.3832, "learning_rate": 5e-05, "epoch": 0.08, "step": 31}, {"loss": 1.496, "learning_rate": 5e-05, "epoch": 0.08, "step": 32}, {"loss": 2.065, "learning_rate": 5e-05, "epoch": 0.09, "step": 33}, {"loss": 2.5305, "learning_rate": 5e-05, "epoch": 0.09, "step": 34}, {"loss": 2.8091, "learning_rate": 5e-05, "epoch": 0.09, "step": 35}, {"loss": 1.9901, "learning_rate": 5e-05, "epoch": 0.09, "step": 36}, {"loss": 1.8375, "learning_rate": 5e-05, "epoch": 0.1, "step": 37}, {"loss": 2.3128, "learning_rate": 5e-05, "epoch": 0.1, "step": 38}, {"loss": 2.1412, "learning_rate": 5e-05, "epoch": 0.1, "step": 39}, {"loss": 2.2659, "learning_rate": 5e-05, "epoch": 0.1, "step": 40}, {"loss": 1.7224, "learning_rate": 5e-05, "epoch": 0.11, "step": 41}, {"loss": 2.4517, "learning_rate": 5e-05, "epoch": 0.11, "step": 42}, {"loss": 2.436, "learning_rate": 5e-05, "epoch": 0.11, "step": 43}, {"loss": 2.1255, "learning_rate": 5e-05, "epoch": 0.12, "step": 44}, {"loss": 1.6649, "learning_rate": 5e-05, "epoch": 0.12, "step": 45}, {"loss": 2.4031, "learning_rate": 5e-05, "epoch": 0.12, "step": 46}, {"loss": 2.0672, "learning_rate": 5e-05, "epoch": 0.12, "step": 47}, {"loss": 2.9246, "learning_rate": 5e-05, "epoch": 0.13, "step": 48}, {"loss": 2.8841, "learning_rate": 5e-05, "epoch": 0.13, "step": 49}, {"loss": 3.9926, "learning_rate": 5e-05, "epoch": 0.13, "step": 50}, {"loss": 2.3276, "learning_rate": 5e-05, "epoch": 0.13, "step": 51}, {"loss": 2.004, "learning_rate": 5e-05, "epoch": 0.14, "step": 52}, {"loss": 1.0016, "learning_rate": 5e-05, "epoch": 0.14, "step": 53}, {"loss": 1.3036, "learning_rate": 5e-05, "epoch": 0.14, "step": 54}, {"loss": 2.0705, "learning_rate": 5e-05, "epoch": 0.14, "step": 55}, {"loss": 1.6854, "learning_rate": 5e-05, "epoch": 0.15, "step": 56}, {"loss": 1.2226, "learning_rate": 5e-05, "epoch": 0.15, "step": 57}, {"loss": 1.7856, "learning_rate": 5e-05, "epoch": 0.15, "step": 58}, {"loss": 2.2917, "learning_rate": 5e-05, "epoch": 0.15, "step": 59}, {"loss": 1.3066, "learning_rate": 5e-05, "epoch": 0.16, "step": 60}, {"loss": 1.764, "learning_rate": 5e-05, "epoch": 0.16, "step": 61}, {"loss": 2.2226, "learning_rate": 5e-05, "epoch": 0.16, "step": 62}, {"loss": 2.0722, "learning_rate": 5e-05, "epoch": 0.16, "step": 63}, {"loss": 1.579, "learning_rate": 5e-05, "epoch": 0.17, "step": 64}, {"loss": 2.2973, "learning_rate": 5e-05, "epoch": 0.17, "step": 65}, {"loss": 1.7927, "learning_rate": 5e-05, "epoch": 0.17, "step": 66}, {"loss": 1.606, "learning_rate": 5e-05, "epoch": 0.18, "step": 67}, {"loss": 1.7441, "learning_rate": 5e-05, "epoch": 0.18, "step": 68}, {"loss": 1.67, "learning_rate": 5e-05, "epoch": 0.18, "step": 69}, {"loss": 1.9039, "learning_rate": 5e-05, "epoch": 0.18, "step": 70}, {"loss": 1.8716, "learning_rate": 5e-05, "epoch": 0.19, "step": 71}, {"loss": 1.4971, "learning_rate": 5e-05, "epoch": 0.19, "step": 72}, {"loss": 1.4662, "learning_rate": 5e-05, "epoch": 0.19, "step": 73}, {"loss": 2.1456, "learning_rate": 5e-05, "epoch": 0.19, "step": 74}, {"loss": 1.733, "learning_rate": 5e-05, "epoch": 0.2, "step": 75}, {"loss": 2.3558, "learning_rate": 5e-05, "epoch": 0.2, "step": 76}, {"loss": 1.7181, "learning_rate": 5e-05, "epoch": 0.2, "step": 77}, {"loss": 2.0137, "learning_rate": 5e-05, "epoch": 0.2, "step": 78}, {"loss": 2.2165, "learning_rate": 5e-05, "epoch": 0.21, "step": 79}, {"loss": 2.3997, "learning_rate": 5e-05, "epoch": 0.21, "step": 80}, {"loss": 1.8284, "learning_rate": 5e-05, "epoch": 0.21, "step": 81}, {"loss": 2.2116, "learning_rate": 5e-05, "epoch": 0.21, "step": 82}, {"loss": 2.1866, "learning_rate": 5e-05, "epoch": 0.22, "step": 83}, {"loss": 2.4496, "learning_rate": 5e-05, "epoch": 0.22, "step": 84}, {"loss": 2.1189, "learning_rate": 5e-05, "epoch": 0.22, "step": 85}, {"loss": 2.6462, "learning_rate": 5e-05, "epoch": 0.23, "step": 86}, {"loss": 2.2548, "learning_rate": 5e-05, "epoch": 0.23, "step": 87}, {"loss": 2.4023, "learning_rate": 5e-05, "epoch": 0.23, "step": 88}, {"loss": 2.0658, "learning_rate": 5e-05, "epoch": 0.23, "step": 89}, {"loss": 2.2134, "learning_rate": 5e-05, "epoch": 0.24, "step": 90}, {"loss": 1.8398, "learning_rate": 5e-05, "epoch": 0.24, "step": 91}, {"loss": 2.6919, "learning_rate": 5e-05, "epoch": 0.24, "step": 92}, {"loss": 2.2051, "learning_rate": 5e-05, "epoch": 0.24, "step": 93}, {"loss": 2.5546, "learning_rate": 5e-05, "epoch": 0.25, "step": 94}, {"loss": 2.8999, "learning_rate": 5e-05, "epoch": 0.25, "step": 95}, {"loss": 3.1409, "learning_rate": 5e-05, "epoch": 0.25, "step": 96}, {"loss": 2.4494, "learning_rate": 5e-05, "epoch": 0.25, "step": 97}, {"loss": 3.1968, "learning_rate": 5e-05, "epoch": 0.26, "step": 98}, {"loss": 2.9684, "learning_rate": 5e-05, "epoch": 0.26, "step": 99}, {"loss": 5.7204, "learning_rate": 5e-05, "epoch": 0.26, "step": 100}, {"loss": 1.9079, "learning_rate": 5e-05, "epoch": 0.26, "step": 101}, {"loss": 1.2938, "learning_rate": 5e-05, "epoch": 0.27, "step": 102}, {"loss": 1.9286, "learning_rate": 5e-05, "epoch": 0.27, "step": 103}, {"loss": 1.8565, "learning_rate": 5e-05, "epoch": 0.27, "step": 104}, {"loss": 1.9203, "learning_rate": 5e-05, "epoch": 0.27, "step": 105}, {"loss": 1.8853, "learning_rate": 5e-05, "epoch": 0.28, "step": 106}, {"loss": 1.2451, "learning_rate": 5e-05, "epoch": 0.28, "step": 107}, {"loss": 1.6172, "learning_rate": 5e-05, "epoch": 0.28, "step": 108}, {"loss": 1.8916, "learning_rate": 5e-05, "epoch": 0.29, "step": 109}, {"loss": 1.7339, "learning_rate": 5e-05, "epoch": 0.29, "step": 110}, {"loss": 1.2815, "learning_rate": 5e-05, "epoch": 0.29, "step": 111}, {"loss": 1.8501, "learning_rate": 5e-05, "epoch": 0.29, "step": 112}, {"loss": 1.3243, "learning_rate": 5e-05, "epoch": 0.3, "step": 113}, {"loss": 1.5102, "learning_rate": 5e-05, "epoch": 0.3, "step": 114}, {"loss": 1.975, "learning_rate": 5e-05, "epoch": 0.3, "step": 115}, {"loss": 1.493, "learning_rate": 5e-05, "epoch": 0.3, "step": 116}, {"loss": 2.1467, "learning_rate": 5e-05, "epoch": 0.31, "step": 117}, {"loss": 2.4097, "learning_rate": 5e-05, "epoch": 0.31, "step": 118}, {"loss": 1.3841, "learning_rate": 5e-05, "epoch": 0.31, "step": 119}, {"loss": 1.6339, "learning_rate": 5e-05, "epoch": 0.31, "step": 120}, {"loss": 2.3442, "learning_rate": 5e-05, "epoch": 0.32, "step": 121}, {"loss": 1.5554, "learning_rate": 5e-05, "epoch": 0.32, "step": 122}, {"loss": 1.9609, "learning_rate": 5e-05, "epoch": 0.32, "step": 123}, {"loss": 2.237, "learning_rate": 5e-05, "epoch": 0.32, "step": 124}, {"loss": 2.321, "learning_rate": 5e-05, "epoch": 0.33, "step": 125}, {"loss": 2.0036, "learning_rate": 5e-05, "epoch": 0.33, "step": 126}, {"loss": 1.6074, "learning_rate": 5e-05, "epoch": 0.33, "step": 127}, {"loss": 2.064, "learning_rate": 5e-05, "epoch": 0.34, "step": 128}, {"loss": 2.1281, "learning_rate": 5e-05, "epoch": 0.34, "step": 129}, {"loss": 2.539, "learning_rate": 5e-05, "epoch": 0.34, "step": 130}, {"loss": 1.9736, "learning_rate": 5e-05, "epoch": 0.34, "step": 131}, {"loss": 2.6439, "learning_rate": 5e-05, "epoch": 0.35, "step": 132}, {"loss": 1.8972, "learning_rate": 5e-05, "epoch": 0.35, "step": 133}, {"loss": 1.9382, "learning_rate": 5e-05, "epoch": 0.35, "step": 134}, {"loss": 2.4445, "learning_rate": 5e-05, "epoch": 0.35, "step": 135}, {"loss": 1.6798, "learning_rate": 5e-05, "epoch": 0.36, "step": 136}, {"loss": 2.1489, "learning_rate": 5e-05, "epoch": 0.36, "step": 137}, {"loss": 1.6696, "learning_rate": 5e-05, "epoch": 0.36, "step": 138}, {"loss": 2.1935, "learning_rate": 5e-05, "epoch": 0.36, "step": 139}, {"loss": 1.867, "learning_rate": 5e-05, "epoch": 0.37, "step": 140}, {"loss": 2.4614, "learning_rate": 5e-05, "epoch": 0.37, "step": 141}, {"loss": 2.503, "learning_rate": 5e-05, "epoch": 0.37, "step": 142}, {"loss": 2.5207, "learning_rate": 5e-05, "epoch": 0.37, "step": 143}, {"loss": 2.7951, "learning_rate": 5e-05, "epoch": 0.38, "step": 144}, {"loss": 2.1894, "learning_rate": 5e-05, "epoch": 0.38, "step": 145}, {"loss": 2.9027, "learning_rate": 5e-05, "epoch": 0.38, "step": 146}, {"loss": 2.3654, "learning_rate": 5e-05, "epoch": 0.38, "step": 147}, {"loss": 2.404, "learning_rate": 5e-05, "epoch": 0.39, "step": 148}, {"loss": 2.9963, "learning_rate": 5e-05, "epoch": 0.39, "step": 149}, {"loss": 2.9141, "learning_rate": 5e-05, "epoch": 0.39, "step": 150}, {"loss": 1.2225, "learning_rate": 5e-05, "epoch": 0.4, "step": 151}, {"loss": 1.7979, "learning_rate": 5e-05, "epoch": 0.4, "step": 152}, {"loss": 1.4331, "learning_rate": 5e-05, "epoch": 0.4, "step": 153}, {"loss": 1.5684, "learning_rate": 5e-05, "epoch": 0.4, "step": 154}, {"loss": 2.0419, "learning_rate": 5e-05, "epoch": 0.41, "step": 155}, {"loss": 1.7049, "learning_rate": 5e-05, "epoch": 0.41, "step": 156}, {"loss": 2.224, "learning_rate": 5e-05, "epoch": 0.41, "step": 157}, {"loss": 2.1162, "learning_rate": 5e-05, "epoch": 0.41, "step": 158}, {"loss": 1.8852, "learning_rate": 5e-05, "epoch": 0.42, "step": 159}, {"loss": 1.103, "learning_rate": 5e-05, "epoch": 0.42, "step": 160}, {"loss": 2.1024, "learning_rate": 5e-05, "epoch": 0.42, "step": 161}, {"loss": 1.6117, "learning_rate": 5e-05, "epoch": 0.42, "step": 162}, {"loss": 1.8032, "learning_rate": 5e-05, "epoch": 0.43, "step": 163}, {"loss": 2.2693, "learning_rate": 5e-05, "epoch": 0.43, "step": 164}, {"loss": 2.0461, "learning_rate": 5e-05, "epoch": 0.43, "step": 165}, {"loss": 1.7048, "learning_rate": 5e-05, "epoch": 0.43, "step": 166}, {"loss": 1.999, "learning_rate": 5e-05, "epoch": 0.44, "step": 167}, {"loss": 2.1119, "learning_rate": 5e-05, "epoch": 0.44, "step": 168}, {"loss": 1.9597, "learning_rate": 5e-05, "epoch": 0.44, "step": 169}, {"loss": 2.0711, "learning_rate": 5e-05, "epoch": 0.45, "step": 170}, {"loss": 1.5356, "learning_rate": 5e-05, "epoch": 0.45, "step": 171}, {"loss": 2.1194, "learning_rate": 5e-05, "epoch": 0.45, "step": 172}, {"loss": 2.2234, "learning_rate": 5e-05, "epoch": 0.45, "step": 173}, {"loss": 2.018, "learning_rate": 5e-05, "epoch": 0.46, "step": 174}, {"loss": 1.7401, "learning_rate": 5e-05, "epoch": 0.46, "step": 175}, {"loss": 1.6879, "learning_rate": 5e-05, "epoch": 0.46, "step": 176}, {"loss": 1.9524, "learning_rate": 5e-05, "epoch": 0.46, "step": 177}, {"loss": 1.6885, "learning_rate": 5e-05, "epoch": 0.47, "step": 178}, {"loss": 1.7873, "learning_rate": 5e-05, "epoch": 0.47, "step": 179}, {"loss": 1.1028, "learning_rate": 5e-05, "epoch": 0.47, "step": 180}, {"loss": 2.3219, "learning_rate": 5e-05, "epoch": 0.47, "step": 181}, {"loss": 1.8708, "learning_rate": 5e-05, "epoch": 0.48, "step": 182}, {"loss": 2.3452, "learning_rate": 5e-05, "epoch": 0.48, "step": 183}, {"loss": 2.0846, "learning_rate": 5e-05, "epoch": 0.48, "step": 184}, {"loss": 1.884, "learning_rate": 5e-05, "epoch": 0.48, "step": 185}, {"loss": 1.5929, "learning_rate": 5e-05, "epoch": 0.49, "step": 186}, {"loss": 2.276, "learning_rate": 5e-05, "epoch": 0.49, "step": 187}, {"loss": 2.3574, "learning_rate": 5e-05, "epoch": 0.49, "step": 188}, {"loss": 1.842, "learning_rate": 5e-05, "epoch": 0.49, "step": 189}, {"loss": 1.919, "learning_rate": 5e-05, "epoch": 0.5, "step": 190}, {"loss": 2.4143, "learning_rate": 5e-05, "epoch": 0.5, "step": 191}, {"loss": 1.7624, "learning_rate": 5e-05, "epoch": 0.5, "step": 192}, {"loss": 2.5275, "learning_rate": 5e-05, "epoch": 0.51, "step": 193}, {"loss": 2.2211, "learning_rate": 5e-05, "epoch": 0.51, "step": 194}, {"loss": 2.6173, "learning_rate": 5e-05, "epoch": 0.51, "step": 195}, {"loss": 2.7254, "learning_rate": 5e-05, "epoch": 0.51, "step": 196}, {"loss": 2.8816, "learning_rate": 5e-05, "epoch": 0.52, "step": 197}, {"loss": 2.9927, "learning_rate": 5e-05, "epoch": 0.52, "step": 198}, {"loss": 3.0797, "learning_rate": 5e-05, "epoch": 0.52, "step": 199}, {"loss": 3.9496, "learning_rate": 5e-05, "epoch": 0.52, "step": 200}, {"loss": 1.6821, "learning_rate": 5e-05, "epoch": 0.53, "step": 201}, {"loss": 1.5602, "learning_rate": 5e-05, "epoch": 0.53, "step": 202}, {"loss": 1.7616, "learning_rate": 5e-05, "epoch": 0.53, "step": 203}, {"loss": 2.0165, "learning_rate": 5e-05, "epoch": 0.53, "step": 204}, {"loss": 1.6411, "learning_rate": 5e-05, "epoch": 0.54, "step": 205}, {"loss": 1.8113, "learning_rate": 5e-05, "epoch": 0.54, "step": 206}, {"loss": 1.9177, "learning_rate": 5e-05, "epoch": 0.54, "step": 207}, {"loss": 1.8979, "learning_rate": 5e-05, "epoch": 0.54, "step": 208}, {"loss": 2.1043, "learning_rate": 5e-05, "epoch": 0.55, "step": 209}, {"loss": 2.1034, "learning_rate": 5e-05, "epoch": 0.55, "step": 210}, {"loss": 1.7758, "learning_rate": 5e-05, "epoch": 0.55, "step": 211}, {"loss": 1.9137, "learning_rate": 5e-05, "epoch": 0.55, "step": 212}, {"loss": 1.8809, "learning_rate": 5e-05, "epoch": 0.56, "step": 213}, {"loss": 1.5991, "learning_rate": 5e-05, "epoch": 0.56, "step": 214}, {"loss": 1.5871, "learning_rate": 5e-05, "epoch": 0.56, "step": 215}, {"loss": 1.7318, "learning_rate": 5e-05, "epoch": 0.57, "step": 216}, {"loss": 2.0237, "learning_rate": 5e-05, "epoch": 0.57, "step": 217}, {"loss": 1.5273, "learning_rate": 5e-05, "epoch": 0.57, "step": 218}, {"loss": 1.8358, "learning_rate": 5e-05, "epoch": 0.57, "step": 219}, {"loss": 2.2929, "learning_rate": 5e-05, "epoch": 0.58, "step": 220}, {"loss": 1.7091, "learning_rate": 5e-05, "epoch": 0.58, "step": 221}, {"loss": 1.733, "learning_rate": 5e-05, "epoch": 0.58, "step": 222}, {"loss": 1.7973, "learning_rate": 5e-05, "epoch": 0.58, "step": 223}, {"loss": 2.2733, "learning_rate": 5e-05, "epoch": 0.59, "step": 224}, {"loss": 1.6647, "learning_rate": 5e-05, "epoch": 0.59, "step": 225}, {"loss": 1.8955, "learning_rate": 5e-05, "epoch": 0.59, "step": 226}, {"loss": 2.0962, "learning_rate": 5e-05, "epoch": 0.59, "step": 227}, {"loss": 2.0567, "learning_rate": 5e-05, "epoch": 0.6, "step": 228}, {"loss": 1.9802, "learning_rate": 5e-05, "epoch": 0.6, "step": 229}, {"loss": 2.3535, "learning_rate": 5e-05, "epoch": 0.6, "step": 230}, {"loss": 2.1303, "learning_rate": 5e-05, "epoch": 0.6, "step": 231}, {"loss": 2.3278, "learning_rate": 5e-05, "epoch": 0.61, "step": 232}, {"loss": 1.6283, "learning_rate": 5e-05, "epoch": 0.61, "step": 233}, {"loss": 2.2803, "learning_rate": 5e-05, "epoch": 0.61, "step": 234}, {"loss": 2.3365, "learning_rate": 5e-05, "epoch": 0.62, "step": 235}, {"loss": 2.1214, "learning_rate": 5e-05, "epoch": 0.62, "step": 236}, {"loss": 2.2412, "learning_rate": 5e-05, "epoch": 0.62, "step": 237}, {"loss": 2.2541, "learning_rate": 5e-05, "epoch": 0.62, "step": 238}, {"loss": 1.7991, "learning_rate": 5e-05, "epoch": 0.63, "step": 239}, {"loss": 1.9798, "learning_rate": 5e-05, "epoch": 0.63, "step": 240}, {"loss": 2.7388, "learning_rate": 5e-05, "epoch": 0.63, "step": 241}, {"loss": 2.0404, "learning_rate": 5e-05, "epoch": 0.63, "step": 242}, {"loss": 1.6722, "learning_rate": 5e-05, "epoch": 0.64, "step": 243}, {"loss": 2.0273, "learning_rate": 5e-05, "epoch": 0.64, "step": 244}, {"loss": 2.1675, "learning_rate": 5e-05, "epoch": 0.64, "step": 245}, {"loss": 2.6124, "learning_rate": 5e-05, "epoch": 0.64, "step": 246}, {"loss": 3.1403, "learning_rate": 5e-05, "epoch": 0.65, "step": 247}, {"loss": 3.2766, "learning_rate": 5e-05, "epoch": 0.65, "step": 248}, {"loss": 4.9519, "learning_rate": 5e-05, "epoch": 0.65, "step": 249}, {"loss": 4.5412, "learning_rate": 5e-05, "epoch": 0.65, "step": 250}, {"loss": 1.9194, "learning_rate": 5e-05, "epoch": 0.66, "step": 251}, {"loss": 1.9258, "learning_rate": 5e-05, "epoch": 0.66, "step": 252}, {"loss": 1.7207, "learning_rate": 5e-05, "epoch": 0.66, "step": 253}, {"loss": 1.4494, "learning_rate": 5e-05, "epoch": 0.66, "step": 254}, {"loss": 2.0171, "learning_rate": 5e-05, "epoch": 0.67, "step": 255}, {"loss": 1.7711, "learning_rate": 5e-05, "epoch": 0.67, "step": 256}, {"loss": 1.9836, "learning_rate": 5e-05, "epoch": 0.67, "step": 257}, {"loss": 1.1752, "learning_rate": 5e-05, "epoch": 0.68, "step": 258}, {"loss": 1.7718, "learning_rate": 5e-05, "epoch": 0.68, "step": 259}, {"loss": 2.1985, "learning_rate": 5e-05, "epoch": 0.68, "step": 260}, {"loss": 1.6825, "learning_rate": 5e-05, "epoch": 0.68, "step": 261}, {"loss": 1.608, "learning_rate": 5e-05, "epoch": 0.69, "step": 262}, {"loss": 1.6941, "learning_rate": 5e-05, "epoch": 0.69, "step": 263}, {"loss": 1.8228, "learning_rate": 5e-05, "epoch": 0.69, "step": 264}, {"loss": 1.9909, "learning_rate": 5e-05, "epoch": 0.69, "step": 265}, {"loss": 1.6236, "learning_rate": 5e-05, "epoch": 0.7, "step": 266}, {"loss": 1.2655, "learning_rate": 5e-05, "epoch": 0.7, "step": 267}, {"loss": 1.4025, "learning_rate": 5e-05, "epoch": 0.7, "step": 268}, {"loss": 2.1466, "learning_rate": 5e-05, "epoch": 0.7, "step": 269}, {"loss": 1.2853, "learning_rate": 5e-05, "epoch": 0.71, "step": 270}, {"loss": 2.2063, "learning_rate": 5e-05, "epoch": 0.71, "step": 271}, {"loss": 1.9729, "learning_rate": 5e-05, "epoch": 0.71, "step": 272}, {"loss": 1.756, "learning_rate": 5e-05, "epoch": 0.71, "step": 273}, {"loss": 1.8481, "learning_rate": 5e-05, "epoch": 0.72, "step": 274}, {"loss": 1.9264, "learning_rate": 5e-05, "epoch": 0.72, "step": 275}, {"loss": 1.3076, "learning_rate": 5e-05, "epoch": 0.72, "step": 276}, {"loss": 2.0242, "learning_rate": 5e-05, "epoch": 0.73, "step": 277}, {"loss": 1.6681, "learning_rate": 5e-05, "epoch": 0.73, "step": 278}, {"loss": 1.6172, "learning_rate": 5e-05, "epoch": 0.73, "step": 279}, {"loss": 2.2495, "learning_rate": 5e-05, "epoch": 0.73, "step": 280}, {"loss": 1.6974, "learning_rate": 5e-05, "epoch": 0.74, "step": 281}, {"loss": 1.8707, "learning_rate": 5e-05, "epoch": 0.74, "step": 282}, {"loss": 2.3432, "learning_rate": 5e-05, "epoch": 0.74, "step": 283}, {"loss": 2.5622, "learning_rate": 5e-05, "epoch": 0.74, "step": 284}, {"loss": 2.1125, "learning_rate": 5e-05, "epoch": 0.75, "step": 285}, {"loss": 2.3185, "learning_rate": 5e-05, "epoch": 0.75, "step": 286}, {"loss": 2.0625, "learning_rate": 5e-05, "epoch": 0.75, "step": 287}, {"loss": 2.3283, "learning_rate": 5e-05, "epoch": 0.75, "step": 288}, {"loss": 2.1654, "learning_rate": 5e-05, "epoch": 0.76, "step": 289}, {"loss": 1.7593, "learning_rate": 5e-05, "epoch": 0.76, "step": 290}, {"loss": 1.4917, "learning_rate": 5e-05, "epoch": 0.76, "step": 291}, {"loss": 2.7063, "learning_rate": 5e-05, "epoch": 0.76, "step": 292}, {"loss": 2.37, "learning_rate": 5e-05, "epoch": 0.77, "step": 293}, {"loss": 2.105, "learning_rate": 5e-05, "epoch": 0.77, "step": 294}, {"loss": 2.5015, "learning_rate": 5e-05, "epoch": 0.77, "step": 295}, {"loss": 1.8542, "learning_rate": 5e-05, "epoch": 0.77, "step": 296}, {"loss": 2.649, "learning_rate": 5e-05, "epoch": 0.78, "step": 297}, {"loss": 2.2741, "learning_rate": 5e-05, "epoch": 0.78, "step": 298}, {"loss": 2.5143, "learning_rate": 5e-05, "epoch": 0.78, "step": 299}, {"loss": 4.4386, "learning_rate": 5e-05, "epoch": 0.79, "step": 300}, {"loss": 1.8236, "learning_rate": 5e-05, "epoch": 0.79, "step": 301}, {"loss": 2.0987, "learning_rate": 5e-05, "epoch": 0.79, "step": 302}, {"loss": 2.0463, "learning_rate": 5e-05, "epoch": 0.79, "step": 303}, {"loss": 1.3852, "learning_rate": 5e-05, "epoch": 0.8, "step": 304}, {"loss": 1.2948, "learning_rate": 5e-05, "epoch": 0.8, "step": 305}, {"loss": 1.2119, "learning_rate": 5e-05, "epoch": 0.8, "step": 306}, {"loss": 1.7679, "learning_rate": 5e-05, "epoch": 0.8, "step": 307}, {"loss": 1.8289, "learning_rate": 5e-05, "epoch": 0.81, "step": 308}, {"loss": 1.563, "learning_rate": 5e-05, "epoch": 0.81, "step": 309}, {"loss": 1.7382, "learning_rate": 5e-05, "epoch": 0.81, "step": 310}, {"loss": 1.4366, "learning_rate": 5e-05, "epoch": 0.81, "step": 311}, {"loss": 1.9175, "learning_rate": 5e-05, "epoch": 0.82, "step": 312}, {"loss": 1.7469, "learning_rate": 5e-05, "epoch": 0.82, "step": 313}, {"loss": 1.284, "learning_rate": 5e-05, "epoch": 0.82, "step": 314}, {"loss": 2.0297, "learning_rate": 5e-05, "epoch": 0.82, "step": 315}, {"loss": 1.5753, "learning_rate": 5e-05, "epoch": 0.83, "step": 316}, {"loss": 1.4533, "learning_rate": 5e-05, "epoch": 0.83, "step": 317}, {"loss": 1.6852, "learning_rate": 5e-05, "epoch": 0.83, "step": 318}, {"loss": 2.3289, "learning_rate": 5e-05, "epoch": 0.84, "step": 319}, {"loss": 2.3652, "learning_rate": 5e-05, "epoch": 0.84, "step": 320}, {"loss": 2.0624, "learning_rate": 5e-05, "epoch": 0.84, "step": 321}, {"loss": 2.1632, "learning_rate": 5e-05, "epoch": 0.84, "step": 322}, {"loss": 2.0403, "learning_rate": 5e-05, "epoch": 0.85, "step": 323}, {"loss": 1.9364, "learning_rate": 5e-05, "epoch": 0.85, "step": 324}, {"loss": 2.5144, "learning_rate": 5e-05, "epoch": 0.85, "step": 325}, {"loss": 2.3327, "learning_rate": 5e-05, "epoch": 0.85, "step": 326}, {"loss": 1.7927, "learning_rate": 5e-05, "epoch": 0.86, "step": 327}, {"loss": 2.1945, "learning_rate": 5e-05, "epoch": 0.86, "step": 328}, {"loss": 1.784, "learning_rate": 5e-05, "epoch": 0.86, "step": 329}, {"loss": 2.1363, "learning_rate": 5e-05, "epoch": 0.86, "step": 330}, {"loss": 2.3588, "learning_rate": 5e-05, "epoch": 0.87, "step": 331}, {"loss": 1.7285, "learning_rate": 5e-05, "epoch": 0.87, "step": 332}, {"loss": 1.7549, "learning_rate": 5e-05, "epoch": 0.87, "step": 333}, {"loss": 2.4161, "learning_rate": 5e-05, "epoch": 0.87, "step": 334}, {"loss": 2.3936, "learning_rate": 5e-05, "epoch": 0.88, "step": 335}, {"loss": 2.6147, "learning_rate": 5e-05, "epoch": 0.88, "step": 336}, {"loss": 1.9806, "learning_rate": 5e-05, "epoch": 0.88, "step": 337}, {"loss": 2.1123, "learning_rate": 5e-05, "epoch": 0.88, "step": 338}, {"loss": 2.0785, "learning_rate": 5e-05, "epoch": 0.89, "step": 339}, {"loss": 1.2392, "learning_rate": 5e-05, "epoch": 0.89, "step": 340}, {"loss": 1.8977, "learning_rate": 5e-05, "epoch": 0.89, "step": 341}, {"loss": 2.2381, "learning_rate": 5e-05, "epoch": 0.9, "step": 342}, {"loss": 2.3018, "learning_rate": 5e-05, "epoch": 0.9, "step": 343}, {"loss": 2.6212, "learning_rate": 5e-05, "epoch": 0.9, "step": 344}, {"loss": 2.1499, "learning_rate": 5e-05, "epoch": 0.9, "step": 345}, {"loss": 2.1501, "learning_rate": 5e-05, "epoch": 0.91, "step": 346}, {"loss": 1.7733, "learning_rate": 5e-05, "epoch": 0.91, "step": 347}, {"loss": 2.5821, "learning_rate": 5e-05, "epoch": 0.91, "step": 348}, {"loss": 3.0755, "learning_rate": 5e-05, "epoch": 0.91, "step": 349}, {"loss": 5.5376, "learning_rate": 5e-05, "epoch": 0.92, "step": 350}, {"loss": 2.0364, "learning_rate": 5e-05, "epoch": 0.92, "step": 351}, {"loss": 1.8338, "learning_rate": 5e-05, "epoch": 0.92, "step": 352}, {"loss": 1.4204, "learning_rate": 5e-05, "epoch": 0.92, "step": 353}, {"loss": 1.7995, "learning_rate": 5e-05, "epoch": 0.93, "step": 354}, {"loss": 1.9992, "learning_rate": 5e-05, "epoch": 0.93, "step": 355}, {"loss": 1.5366, "learning_rate": 5e-05, "epoch": 0.93, "step": 356}, {"loss": 1.3185, "learning_rate": 5e-05, "epoch": 0.93, "step": 357}, {"loss": 1.9415, "learning_rate": 5e-05, "epoch": 0.94, "step": 358}, {"loss": 1.6873, "learning_rate": 5e-05, "epoch": 0.94, "step": 359}, {"loss": 1.746, "learning_rate": 5e-05, "epoch": 0.94, "step": 360}, {"loss": 1.5881, "learning_rate": 5e-05, "epoch": 0.95, "step": 361}, {"loss": 1.6086, "learning_rate": 5e-05, "epoch": 0.95, "step": 362}, {"loss": 1.7277, "learning_rate": 5e-05, "epoch": 0.95, "step": 363}, {"loss": 1.8174, "learning_rate": 5e-05, "epoch": 0.95, "step": 364}, {"loss": 1.8428, "learning_rate": 5e-05, "epoch": 0.96, "step": 365}, {"loss": 1.5538, "learning_rate": 5e-05, "epoch": 0.96, "step": 366}, {"loss": 1.3218, "learning_rate": 5e-05, "epoch": 0.96, "step": 367}, {"loss": 1.6973, "learning_rate": 5e-05, "epoch": 0.96, "step": 368}, {"loss": 2.4572, "learning_rate": 5e-05, "epoch": 0.97, "step": 369}, {"loss": 1.6374, "learning_rate": 5e-05, "epoch": 0.97, "step": 370}, {"loss": 2.0087, "learning_rate": 5e-05, "epoch": 0.97, "step": 371}, {"loss": 2.3802, "learning_rate": 5e-05, "epoch": 0.97, "step": 372}, {"loss": 2.5537, "learning_rate": 5e-05, "epoch": 0.98, "step": 373}, {"loss": 2.1668, "learning_rate": 5e-05, "epoch": 0.98, "step": 374}, {"loss": 2.3148, "learning_rate": 5e-05, "epoch": 0.98, "step": 375}, {"loss": 2.3965, "learning_rate": 5e-05, "epoch": 0.98, "step": 376}, {"loss": 2.0887, "learning_rate": 5e-05, "epoch": 0.99, "step": 377}, {"loss": 2.5321, "learning_rate": 5e-05, "epoch": 0.99, "step": 378}, {"loss": 1.9351, "learning_rate": 5e-05, "epoch": 0.99, "step": 379}, {"loss": 2.1889, "learning_rate": 5e-05, "epoch": 0.99, "step": 380}, {"loss": 2.431, "learning_rate": 5e-05, "epoch": 1.0, "step": 381}, {"loss": 4.9839, "learning_rate": 5e-05, "epoch": 1.0, "step": 382}, {"loss": 1.4266, "learning_rate": 5e-05, "epoch": 1.0, "step": 383}, {"loss": 0.3516, "learning_rate": 5e-05, "epoch": 1.01, "step": 384}, {"loss": 1.5718, "learning_rate": 5e-05, "epoch": 1.01, "step": 385}, {"loss": 1.1758, "learning_rate": 5e-05, "epoch": 1.01, "step": 386}, {"loss": 1.8949, "learning_rate": 5e-05, "epoch": 1.01, "step": 387}, {"loss": 1.69, "learning_rate": 5e-05, "epoch": 1.02, "step": 388}, {"loss": 1.171, "learning_rate": 5e-05, "epoch": 1.02, "step": 389}, {"loss": 1.8303, "learning_rate": 5e-05, "epoch": 1.02, "step": 390}, {"loss": 1.7737, "learning_rate": 5e-05, "epoch": 1.02, "step": 391}, {"loss": 1.7894, "learning_rate": 5e-05, "epoch": 1.03, "step": 392}, {"loss": 1.5897, "learning_rate": 5e-05, "epoch": 1.03, "step": 393}, {"loss": 1.2869, "learning_rate": 5e-05, "epoch": 1.03, "step": 394}, {"loss": 1.6394, "learning_rate": 5e-05, "epoch": 1.03, "step": 395}, {"loss": 1.6773, "learning_rate": 5e-05, "epoch": 1.04, "step": 396}, {"loss": 1.5549, "learning_rate": 5e-05, "epoch": 1.04, "step": 397}, {"loss": 1.7206, "learning_rate": 5e-05, "epoch": 1.04, "step": 398}, {"loss": 1.2796, "learning_rate": 5e-05, "epoch": 1.04, "step": 399}, {"loss": 1.8494, "learning_rate": 5e-05, "epoch": 1.05, "step": 400}, {"loss": 1.6163, "learning_rate": 5e-05, "epoch": 1.05, "step": 401}, {"loss": 2.1166, "learning_rate": 5e-05, "epoch": 1.05, "step": 402}, {"loss": 1.41, "learning_rate": 5e-05, "epoch": 1.05, "step": 403}, {"loss": 1.4671, "learning_rate": 5e-05, "epoch": 1.06, "step": 404}, {"loss": 1.9175, "learning_rate": 5e-05, "epoch": 1.06, "step": 405}, {"loss": 1.8102, "learning_rate": 5e-05, "epoch": 1.06, "step": 406}, {"loss": 1.6154, "learning_rate": 5e-05, "epoch": 1.07, "step": 407}, {"loss": 1.9504, "learning_rate": 5e-05, "epoch": 1.07, "step": 408}, {"loss": 2.127, "learning_rate": 5e-05, "epoch": 1.07, "step": 409}, {"loss": 2.0206, "learning_rate": 5e-05, "epoch": 1.07, "step": 410}, {"loss": 1.5438, "learning_rate": 5e-05, "epoch": 1.08, "step": 411}, {"loss": 1.804, "learning_rate": 5e-05, "epoch": 1.08, "step": 412}, {"loss": 1.7409, "learning_rate": 5e-05, "epoch": 1.08, "step": 413}, {"loss": 1.6007, "learning_rate": 5e-05, "epoch": 1.08, "step": 414}, {"loss": 2.6325, "learning_rate": 5e-05, "epoch": 1.09, "step": 415}, {"loss": 2.0576, "learning_rate": 5e-05, "epoch": 1.09, "step": 416}, {"loss": 1.7853, "learning_rate": 5e-05, "epoch": 1.09, "step": 417}, {"loss": 1.5423, "learning_rate": 5e-05, "epoch": 1.09, "step": 418}, {"loss": 1.5066, "learning_rate": 5e-05, "epoch": 1.1, "step": 419}, {"loss": 1.6186, "learning_rate": 5e-05, "epoch": 1.1, "step": 420}, {"loss": 2.2844, "learning_rate": 5e-05, "epoch": 1.1, "step": 421}, {"loss": 1.6816, "learning_rate": 5e-05, "epoch": 1.1, "step": 422}, {"loss": 1.9388, "learning_rate": 5e-05, "epoch": 1.11, "step": 423}, {"loss": 1.6401, "learning_rate": 5e-05, "epoch": 1.11, "step": 424}, {"loss": 1.7834, "learning_rate": 5e-05, "epoch": 1.11, "step": 425}, {"loss": 1.9454, "learning_rate": 5e-05, "epoch": 1.12, "step": 426}, {"loss": 1.9914, "learning_rate": 5e-05, "epoch": 1.12, "step": 427}, {"loss": 1.904, "learning_rate": 5e-05, "epoch": 1.12, "step": 428}, {"loss": 1.7905, "learning_rate": 5e-05, "epoch": 1.12, "step": 429}, {"loss": 2.2539, "learning_rate": 5e-05, "epoch": 1.13, "step": 430}, {"loss": 1.6604, "learning_rate": 5e-05, "epoch": 1.13, "step": 431}, {"loss": 2.0562, "learning_rate": 5e-05, "epoch": 1.13, "step": 432}, {"loss": 1.462, "learning_rate": 5e-05, "epoch": 1.13, "step": 433}, {"loss": 1.4792, "learning_rate": 5e-05, "epoch": 1.14, "step": 434}, {"loss": 1.5967, "learning_rate": 5e-05, "epoch": 1.14, "step": 435}, {"loss": 1.3491, "learning_rate": 5e-05, "epoch": 1.14, "step": 436}, {"loss": 1.2444, "learning_rate": 5e-05, "epoch": 1.14, "step": 437}, {"loss": 1.5329, "learning_rate": 5e-05, "epoch": 1.15, "step": 438}, {"loss": 1.7908, "learning_rate": 5e-05, "epoch": 1.15, "step": 439}, {"loss": 1.3627, "learning_rate": 5e-05, "epoch": 1.15, "step": 440}, {"loss": 1.4608, "learning_rate": 5e-05, "epoch": 1.15, "step": 441}, {"loss": 1.0433, "learning_rate": 5e-05, "epoch": 1.16, "step": 442}, {"loss": 1.8684, "learning_rate": 5e-05, "epoch": 1.16, "step": 443}, {"loss": 1.5144, "learning_rate": 5e-05, "epoch": 1.16, "step": 444}, {"loss": 1.8959, "learning_rate": 5e-05, "epoch": 1.16, "step": 445}, {"loss": 1.5362, "learning_rate": 5e-05, "epoch": 1.17, "step": 446}, {"loss": 1.6703, "learning_rate": 5e-05, "epoch": 1.17, "step": 447}, {"loss": 1.2031, "learning_rate": 5e-05, "epoch": 1.17, "step": 448}, {"loss": 1.6356, "learning_rate": 5e-05, "epoch": 1.18, "step": 449}, {"loss": 1.5455, "learning_rate": 5e-05, "epoch": 1.18, "step": 450}, {"loss": 1.0732, "learning_rate": 5e-05, "epoch": 1.18, "step": 451}, {"loss": 1.6849, "learning_rate": 5e-05, "epoch": 1.18, "step": 452}, {"loss": 1.5122, "learning_rate": 5e-05, "epoch": 1.19, "step": 453}, {"loss": 1.656, "learning_rate": 5e-05, "epoch": 1.19, "step": 454}, {"loss": 1.5303, "learning_rate": 5e-05, "epoch": 1.19, "step": 455}, {"loss": 1.3232, "learning_rate": 5e-05, "epoch": 1.19, "step": 456}, {"loss": 2.0083, "learning_rate": 5e-05, "epoch": 1.2, "step": 457}, {"loss": 2.2654, "learning_rate": 5e-05, "epoch": 1.2, "step": 458}, {"loss": 0.9429, "learning_rate": 5e-05, "epoch": 1.2, "step": 459}, {"loss": 2.475, "learning_rate": 5e-05, "epoch": 1.2, "step": 460}, {"loss": 2.0923, "learning_rate": 5e-05, "epoch": 1.21, "step": 461}, {"loss": 1.6244, "learning_rate": 5e-05, "epoch": 1.21, "step": 462}, {"loss": 1.9388, "learning_rate": 5e-05, "epoch": 1.21, "step": 463}, {"loss": 1.9623, "learning_rate": 5e-05, "epoch": 1.21, "step": 464}, {"loss": 1.0987, "learning_rate": 5e-05, "epoch": 1.22, "step": 465}, {"loss": 2.1865, "learning_rate": 5e-05, "epoch": 1.22, "step": 466}, {"loss": 1.35, "learning_rate": 5e-05, "epoch": 1.22, "step": 467}, {"loss": 1.9016, "learning_rate": 5e-05, "epoch": 1.23, "step": 468}, {"loss": 1.6323, "learning_rate": 5e-05, "epoch": 1.23, "step": 469}, {"loss": 2.002, "learning_rate": 5e-05, "epoch": 1.23, "step": 470}, {"loss": 2.0799, "learning_rate": 5e-05, "epoch": 1.23, "step": 471}, {"loss": 1.5383, "learning_rate": 5e-05, "epoch": 1.24, "step": 472}, {"loss": 1.2052, "learning_rate": 5e-05, "epoch": 1.24, "step": 473}, {"loss": 1.7342, "learning_rate": 5e-05, "epoch": 1.24, "step": 474}, {"loss": 2.418, "learning_rate": 5e-05, "epoch": 1.24, "step": 475}, {"loss": 1.9821, "learning_rate": 5e-05, "epoch": 1.25, "step": 476}, {"loss": 1.8865, "learning_rate": 5e-05, "epoch": 1.25, "step": 477}, {"loss": 1.2898, "learning_rate": 5e-05, "epoch": 1.25, "step": 478}, {"loss": 2.0478, "learning_rate": 5e-05, "epoch": 1.25, "step": 479}, {"loss": 1.9246, "learning_rate": 5e-05, "epoch": 1.26, "step": 480}, {"loss": 2.2658, "learning_rate": 5e-05, "epoch": 1.26, "step": 481}, {"loss": 3.6184, "learning_rate": 5e-05, "epoch": 1.26, "step": 482}, {"loss": 1.9946, "learning_rate": 5e-05, "epoch": 1.26, "step": 483}, {"loss": 1.2303, "learning_rate": 5e-05, "epoch": 1.27, "step": 484}, {"loss": 1.6293, "learning_rate": 5e-05, "epoch": 1.27, "step": 485}, {"loss": 1.53, "learning_rate": 5e-05, "epoch": 1.27, "step": 486}, {"loss": 1.5271, "learning_rate": 5e-05, "epoch": 1.27, "step": 487}, {"loss": 1.5658, "learning_rate": 5e-05, "epoch": 1.28, "step": 488}, {"loss": 1.4797, "learning_rate": 5e-05, "epoch": 1.28, "step": 489}, {"loss": 1.3671, "learning_rate": 5e-05, "epoch": 1.28, "step": 490}, {"loss": 1.793, "learning_rate": 5e-05, "epoch": 1.29, "step": 491}, {"loss": 1.4158, "learning_rate": 5e-05, "epoch": 1.29, "step": 492}, {"loss": 2.3704, "learning_rate": 5e-05, "epoch": 1.29, "step": 493}, {"loss": 1.3575, "learning_rate": 5e-05, "epoch": 1.29, "step": 494}, {"loss": 1.1765, "learning_rate": 5e-05, "epoch": 1.3, "step": 495}, {"loss": 1.5358, "learning_rate": 5e-05, "epoch": 1.3, "step": 496}, {"loss": 2.1041, "learning_rate": 5e-05, "epoch": 1.3, "step": 497}, {"loss": 1.6707, "learning_rate": 5e-05, "epoch": 1.3, "step": 498}, {"loss": 1.7214, "learning_rate": 5e-05, "epoch": 1.31, "step": 499}, {"loss": 1.8855, "learning_rate": 5e-05, "epoch": 1.31, "step": 500}, {"loss": 1.0491, "learning_rate": 5e-05, "epoch": 1.31, "step": 501}, {"loss": 1.7235, "learning_rate": 5e-05, "epoch": 1.31, "step": 502}, {"loss": 1.9583, "learning_rate": 5e-05, "epoch": 1.32, "step": 503}, {"loss": 1.7462, "learning_rate": 5e-05, "epoch": 1.32, "step": 504}, {"loss": 1.5641, "learning_rate": 5e-05, "epoch": 1.32, "step": 505}, {"loss": 1.2775, "learning_rate": 5e-05, "epoch": 1.32, "step": 506}, {"loss": 1.7292, "learning_rate": 5e-05, "epoch": 1.33, "step": 507}, {"loss": 1.5947, "learning_rate": 5e-05, "epoch": 1.33, "step": 508}, {"loss": 1.6711, "learning_rate": 5e-05, "epoch": 1.33, "step": 509}, {"loss": 1.5446, "learning_rate": 5e-05, "epoch": 1.34, "step": 510}, {"loss": 2.0108, "learning_rate": 5e-05, "epoch": 1.34, "step": 511}, {"loss": 2.2086, "learning_rate": 5e-05, "epoch": 1.34, "step": 512}, {"loss": 1.3682, "learning_rate": 5e-05, "epoch": 1.34, "step": 513}, {"loss": 2.2713, "learning_rate": 5e-05, "epoch": 1.35, "step": 514}, {"loss": 2.2727, "learning_rate": 5e-05, "epoch": 1.35, "step": 515}, {"loss": 2.2652, "learning_rate": 5e-05, "epoch": 1.35, "step": 516}, {"loss": 1.7908, "learning_rate": 5e-05, "epoch": 1.35, "step": 517}, {"loss": 2.1746, "learning_rate": 5e-05, "epoch": 1.36, "step": 518}, {"loss": 2.0633, "learning_rate": 5e-05, "epoch": 1.36, "step": 519}, {"loss": 2.3565, "learning_rate": 5e-05, "epoch": 1.36, "step": 520}, {"loss": 1.6711, "learning_rate": 5e-05, "epoch": 1.36, "step": 521}, {"loss": 2.0483, "learning_rate": 5e-05, "epoch": 1.37, "step": 522}, {"loss": 1.8421, "learning_rate": 5e-05, "epoch": 1.37, "step": 523}, {"loss": 2.3205, "learning_rate": 5e-05, "epoch": 1.37, "step": 524}, {"loss": 1.6726, "learning_rate": 5e-05, "epoch": 1.37, "step": 525}, {"loss": 2.0752, "learning_rate": 5e-05, "epoch": 1.38, "step": 526}, {"loss": 1.6835, "learning_rate": 5e-05, "epoch": 1.38, "step": 527}, {"loss": 2.0364, "learning_rate": 5e-05, "epoch": 1.38, "step": 528}, {"loss": 2.3523, "learning_rate": 5e-05, "epoch": 1.38, "step": 529}, {"loss": 1.6207, "learning_rate": 5e-05, "epoch": 1.39, "step": 530}, {"loss": 1.7386, "learning_rate": 5e-05, "epoch": 1.39, "step": 531}, {"loss": 3.4573, "learning_rate": 5e-05, "epoch": 1.39, "step": 532}, {"loss": 1.4907, "learning_rate": 5e-05, "epoch": 1.4, "step": 533}, {"loss": 1.7146, "learning_rate": 5e-05, "epoch": 1.4, "step": 534}, {"loss": 1.7023, "learning_rate": 5e-05, "epoch": 1.4, "step": 535}, {"loss": 1.8472, "learning_rate": 5e-05, "epoch": 1.4, "step": 536}, {"loss": 1.785, "learning_rate": 5e-05, "epoch": 1.41, "step": 537}, {"loss": 1.3646, "learning_rate": 5e-05, "epoch": 1.41, "step": 538}, {"loss": 1.2181, "learning_rate": 5e-05, "epoch": 1.41, "step": 539}, {"loss": 1.3971, "learning_rate": 5e-05, "epoch": 1.41, "step": 540}, {"loss": 1.8715, "learning_rate": 5e-05, "epoch": 1.42, "step": 541}, {"loss": 1.5583, "learning_rate": 5e-05, "epoch": 1.42, "step": 542}, {"loss": 0.8099, "learning_rate": 5e-05, "epoch": 1.42, "step": 543}, {"loss": 1.7022, "learning_rate": 5e-05, "epoch": 1.42, "step": 544}, {"loss": 1.533, "learning_rate": 5e-05, "epoch": 1.43, "step": 545}, {"loss": 1.9192, "learning_rate": 5e-05, "epoch": 1.43, "step": 546}, {"loss": 1.5465, "learning_rate": 5e-05, "epoch": 1.43, "step": 547}, {"loss": 1.7249, "learning_rate": 5e-05, "epoch": 1.43, "step": 548}, {"loss": 1.4467, "learning_rate": 5e-05, "epoch": 1.44, "step": 549}, {"loss": 1.1499, "learning_rate": 5e-05, "epoch": 1.44, "step": 550}, {"loss": 1.7994, "learning_rate": 5e-05, "epoch": 1.44, "step": 551}, {"loss": 1.8603, "learning_rate": 5e-05, "epoch": 1.45, "step": 552}, {"loss": 1.4507, "learning_rate": 5e-05, "epoch": 1.45, "step": 553}, {"loss": 2.1619, "learning_rate": 5e-05, "epoch": 1.45, "step": 554}, {"loss": 2.0044, "learning_rate": 5e-05, "epoch": 1.45, "step": 555}, {"loss": 1.8451, "learning_rate": 5e-05, "epoch": 1.46, "step": 556}, {"loss": 1.6285, "learning_rate": 5e-05, "epoch": 1.46, "step": 557}, {"loss": 1.77, "learning_rate": 5e-05, "epoch": 1.46, "step": 558}, {"loss": 1.2026, "learning_rate": 5e-05, "epoch": 1.46, "step": 559}, {"loss": 1.5586, "learning_rate": 5e-05, "epoch": 1.47, "step": 560}, {"loss": 1.5989, "learning_rate": 5e-05, "epoch": 1.47, "step": 561}, {"loss": 2.1301, "learning_rate": 5e-05, "epoch": 1.47, "step": 562}, {"loss": 1.5621, "learning_rate": 5e-05, "epoch": 1.47, "step": 563}, {"loss": 2.1712, "learning_rate": 5e-05, "epoch": 1.48, "step": 564}, {"loss": 1.8189, "learning_rate": 5e-05, "epoch": 1.48, "step": 565}, {"loss": 1.0021, "learning_rate": 5e-05, "epoch": 1.48, "step": 566}, {"loss": 1.9631, "learning_rate": 5e-05, "epoch": 1.48, "step": 567}, {"loss": 2.203, "learning_rate": 5e-05, "epoch": 1.49, "step": 568}, {"loss": 1.8206, "learning_rate": 5e-05, "epoch": 1.49, "step": 569}, {"loss": 1.9115, "learning_rate": 5e-05, "epoch": 1.49, "step": 570}, {"loss": 2.2692, "learning_rate": 5e-05, "epoch": 1.49, "step": 571}, {"loss": 2.0065, "learning_rate": 5e-05, "epoch": 1.5, "step": 572}, {"loss": 2.1879, "learning_rate": 5e-05, "epoch": 1.5, "step": 573}, {"loss": 2.1857, "learning_rate": 5e-05, "epoch": 1.5, "step": 574}, {"loss": 2.086, "learning_rate": 5e-05, "epoch": 1.51, "step": 575}, {"loss": 2.2946, "learning_rate": 5e-05, "epoch": 1.51, "step": 576}, {"loss": 2.2537, "learning_rate": 5e-05, "epoch": 1.51, "step": 577}, {"loss": 2.3736, "learning_rate": 5e-05, "epoch": 1.51, "step": 578}, {"loss": 1.7578, "learning_rate": 5e-05, "epoch": 1.52, "step": 579}, {"loss": 2.699, "learning_rate": 5e-05, "epoch": 1.52, "step": 580}, {"loss": 3.4328, "learning_rate": 5e-05, "epoch": 1.52, "step": 581}, {"loss": 4.6421, "learning_rate": 5e-05, "epoch": 1.52, "step": 582}, {"loss": 2.174, "learning_rate": 5e-05, "epoch": 1.53, "step": 583}, {"loss": 1.2674, "learning_rate": 5e-05, "epoch": 1.53, "step": 584}, {"loss": 1.8462, "learning_rate": 5e-05, "epoch": 1.53, "step": 585}, {"loss": 1.5371, "learning_rate": 5e-05, "epoch": 1.53, "step": 586}, {"loss": 1.8292, "learning_rate": 5e-05, "epoch": 1.54, "step": 587}, {"loss": 1.4971, "learning_rate": 5e-05, "epoch": 1.54, "step": 588}, {"loss": 2.2322, "learning_rate": 5e-05, "epoch": 1.54, "step": 589}, {"loss": 1.6481, "learning_rate": 5e-05, "epoch": 1.54, "step": 590}, {"loss": 1.397, "learning_rate": 5e-05, "epoch": 1.55, "step": 591}, {"loss": 1.9212, "learning_rate": 5e-05, "epoch": 1.55, "step": 592}, {"loss": 1.7455, "learning_rate": 5e-05, "epoch": 1.55, "step": 593}, {"loss": 1.8517, "learning_rate": 5e-05, "epoch": 1.55, "step": 594}, {"loss": 1.4412, "learning_rate": 5e-05, "epoch": 1.56, "step": 595}, {"loss": 1.6065, "learning_rate": 5e-05, "epoch": 1.56, "step": 596}, {"loss": 1.2821, "learning_rate": 5e-05, "epoch": 1.56, "step": 597}, {"loss": 1.1757, "learning_rate": 5e-05, "epoch": 1.57, "step": 598}, {"loss": 1.7582, "learning_rate": 5e-05, "epoch": 1.57, "step": 599}, {"loss": 1.2604, "learning_rate": 5e-05, "epoch": 1.57, "step": 600}, {"loss": 1.5555, "learning_rate": 5e-05, "epoch": 1.57, "step": 601}, {"loss": 2.1064, "learning_rate": 5e-05, "epoch": 1.58, "step": 602}, {"loss": 1.7232, "learning_rate": 5e-05, "epoch": 1.58, "step": 603}, {"loss": 1.7456, "learning_rate": 5e-05, "epoch": 1.58, "step": 604}, {"loss": 1.4926, "learning_rate": 5e-05, "epoch": 1.58, "step": 605}, {"loss": 1.9259, "learning_rate": 5e-05, "epoch": 1.59, "step": 606}, {"loss": 2.1128, "learning_rate": 5e-05, "epoch": 1.59, "step": 607}, {"loss": 1.7681, "learning_rate": 5e-05, "epoch": 1.59, "step": 608}, {"loss": 1.7103, "learning_rate": 5e-05, "epoch": 1.59, "step": 609}, {"loss": 1.74, "learning_rate": 5e-05, "epoch": 1.6, "step": 610}, {"loss": 0.8676, "learning_rate": 5e-05, "epoch": 1.6, "step": 611}, {"loss": 1.545, "learning_rate": 5e-05, "epoch": 1.6, "step": 612}, {"loss": 1.2563, "learning_rate": 5e-05, "epoch": 1.6, "step": 613}, {"loss": 2.2039, "learning_rate": 5e-05, "epoch": 1.61, "step": 614}, {"loss": 1.2732, "learning_rate": 5e-05, "epoch": 1.61, "step": 615}, {"loss": 1.6737, "learning_rate": 5e-05, "epoch": 1.61, "step": 616}, {"loss": 1.6815, "learning_rate": 5e-05, "epoch": 1.62, "step": 617}, {"loss": 1.6536, "learning_rate": 5e-05, "epoch": 1.62, "step": 618}, {"loss": 2.2062, "learning_rate": 5e-05, "epoch": 1.62, "step": 619}, {"loss": 2.1247, "learning_rate": 5e-05, "epoch": 1.62, "step": 620}, {"loss": 1.6946, "learning_rate": 5e-05, "epoch": 1.63, "step": 621}, {"loss": 1.436, "learning_rate": 5e-05, "epoch": 1.63, "step": 622}, {"loss": 1.3387, "learning_rate": 5e-05, "epoch": 1.63, "step": 623}, {"loss": 1.9417, "learning_rate": 5e-05, "epoch": 1.63, "step": 624}, {"loss": 2.4274, "learning_rate": 5e-05, "epoch": 1.64, "step": 625}, {"loss": 1.966, "learning_rate": 5e-05, "epoch": 1.64, "step": 626}, {"loss": 2.1752, "learning_rate": 5e-05, "epoch": 1.64, "step": 627}, {"loss": 1.5437, "learning_rate": 5e-05, "epoch": 1.64, "step": 628}, {"loss": 1.5481, "learning_rate": 5e-05, "epoch": 1.65, "step": 629}, {"loss": 2.0438, "learning_rate": 5e-05, "epoch": 1.65, "step": 630}, {"loss": 2.1973, "learning_rate": 5e-05, "epoch": 1.65, "step": 631}, {"loss": 2.495, "learning_rate": 5e-05, "epoch": 1.65, "step": 632}, {"loss": 1.827, "learning_rate": 5e-05, "epoch": 1.66, "step": 633}, {"loss": 1.5491, "learning_rate": 5e-05, "epoch": 1.66, "step": 634}, {"loss": 1.7951, "learning_rate": 5e-05, "epoch": 1.66, "step": 635}, {"loss": 1.6644, "learning_rate": 5e-05, "epoch": 1.66, "step": 636}, {"loss": 1.4251, "learning_rate": 5e-05, "epoch": 1.67, "step": 637}, {"loss": 1.9524, "learning_rate": 5e-05, "epoch": 1.67, "step": 638}, {"loss": 1.5361, "learning_rate": 5e-05, "epoch": 1.67, "step": 639}, {"loss": 1.4273, "learning_rate": 5e-05, "epoch": 1.68, "step": 640}, {"loss": 2.0202, "learning_rate": 5e-05, "epoch": 1.68, "step": 641}, {"loss": 1.7609, "learning_rate": 5e-05, "epoch": 1.68, "step": 642}, {"loss": 1.4, "learning_rate": 5e-05, "epoch": 1.68, "step": 643}, {"loss": 1.9617, "learning_rate": 5e-05, "epoch": 1.69, "step": 644}, {"loss": 1.8087, "learning_rate": 5e-05, "epoch": 1.69, "step": 645}, {"loss": 1.2376, "learning_rate": 5e-05, "epoch": 1.69, "step": 646}, {"loss": 1.3601, "learning_rate": 5e-05, "epoch": 1.69, "step": 647}, {"loss": 1.6045, "learning_rate": 5e-05, "epoch": 1.7, "step": 648}, {"loss": 1.9024, "learning_rate": 5e-05, "epoch": 1.7, "step": 649}, {"loss": 1.6147, "learning_rate": 5e-05, "epoch": 1.7, "step": 650}, {"loss": 0.9592, "learning_rate": 5e-05, "epoch": 1.7, "step": 651}, {"loss": 1.9719, "learning_rate": 5e-05, "epoch": 1.71, "step": 652}, {"loss": 1.8893, "learning_rate": 5e-05, "epoch": 1.71, "step": 653}, {"loss": 1.9578, "learning_rate": 5e-05, "epoch": 1.71, "step": 654}, {"loss": 1.871, "learning_rate": 5e-05, "epoch": 1.71, "step": 655}, {"loss": 1.7201, "learning_rate": 5e-05, "epoch": 1.72, "step": 656}, {"loss": 1.3525, "learning_rate": 5e-05, "epoch": 1.72, "step": 657}, {"loss": 1.5368, "learning_rate": 5e-05, "epoch": 1.72, "step": 658}, {"loss": 1.3973, "learning_rate": 5e-05, "epoch": 1.73, "step": 659}, {"loss": 1.8246, "learning_rate": 5e-05, "epoch": 1.73, "step": 660}, {"loss": 1.309, "learning_rate": 5e-05, "epoch": 1.73, "step": 661}, {"loss": 2.0398, "learning_rate": 5e-05, "epoch": 1.73, "step": 662}, {"loss": 1.2576, "learning_rate": 5e-05, "epoch": 1.74, "step": 663}, {"loss": 1.4493, "learning_rate": 5e-05, "epoch": 1.74, "step": 664}, {"loss": 1.4566, "learning_rate": 5e-05, "epoch": 1.74, "step": 665}, {"loss": 1.7268, "learning_rate": 5e-05, "epoch": 1.74, "step": 666}, {"loss": 2.0635, "learning_rate": 5e-05, "epoch": 1.75, "step": 667}, {"loss": 1.7623, "learning_rate": 5e-05, "epoch": 1.75, "step": 668}, {"loss": 1.9196, "learning_rate": 5e-05, "epoch": 1.75, "step": 669}, {"loss": 2.1526, "learning_rate": 5e-05, "epoch": 1.75, "step": 670}, {"loss": 2.0645, "learning_rate": 5e-05, "epoch": 1.76, "step": 671}, {"loss": 1.9727, "learning_rate": 5e-05, "epoch": 1.76, "step": 672}, {"loss": 1.5285, "learning_rate": 5e-05, "epoch": 1.76, "step": 673}, {"loss": 1.4137, "learning_rate": 5e-05, "epoch": 1.76, "step": 674}, {"loss": 1.907, "learning_rate": 5e-05, "epoch": 1.77, "step": 675}, {"loss": 2.3484, "learning_rate": 5e-05, "epoch": 1.77, "step": 676}, {"loss": 1.9083, "learning_rate": 5e-05, "epoch": 1.77, "step": 677}, {"loss": 1.7649, "learning_rate": 5e-05, "epoch": 1.77, "step": 678}, {"loss": 1.6453, "learning_rate": 5e-05, "epoch": 1.78, "step": 679}, {"loss": 1.625, "learning_rate": 5e-05, "epoch": 1.78, "step": 680}, {"loss": 1.7923, "learning_rate": 5e-05, "epoch": 1.78, "step": 681}, {"loss": 2.9315, "learning_rate": 5e-05, "epoch": 1.79, "step": 682}, {"loss": 1.8264, "learning_rate": 5e-05, "epoch": 1.79, "step": 683}, {"loss": 1.4984, "learning_rate": 5e-05, "epoch": 1.79, "step": 684}, {"loss": 1.8562, "learning_rate": 5e-05, "epoch": 1.79, "step": 685}, {"loss": 2.2222, "learning_rate": 5e-05, "epoch": 1.8, "step": 686}, {"loss": 1.113, "learning_rate": 5e-05, "epoch": 1.8, "step": 687}, {"loss": 1.8966, "learning_rate": 5e-05, "epoch": 1.8, "step": 688}, {"loss": 1.2056, "learning_rate": 5e-05, "epoch": 1.8, "step": 689}, {"loss": 1.1924, "learning_rate": 5e-05, "epoch": 1.81, "step": 690}, {"loss": 2.0617, "learning_rate": 5e-05, "epoch": 1.81, "step": 691}, {"loss": 1.4138, "learning_rate": 5e-05, "epoch": 1.81, "step": 692}, {"loss": 1.7394, "learning_rate": 5e-05, "epoch": 1.81, "step": 693}, {"loss": 1.9312, "learning_rate": 5e-05, "epoch": 1.82, "step": 694}, {"loss": 1.2871, "learning_rate": 5e-05, "epoch": 1.82, "step": 695}, {"loss": 1.4638, "learning_rate": 5e-05, "epoch": 1.82, "step": 696}, {"loss": 1.8192, "learning_rate": 5e-05, "epoch": 1.82, "step": 697}, {"loss": 1.5721, "learning_rate": 5e-05, "epoch": 1.83, "step": 698}, {"loss": 2.0245, "learning_rate": 5e-05, "epoch": 1.83, "step": 699}, {"loss": 1.1761, "learning_rate": 5e-05, "epoch": 1.83, "step": 700}, {"loss": 1.9576, "learning_rate": 5e-05, "epoch": 1.84, "step": 701}, {"loss": 1.2603, "learning_rate": 5e-05, "epoch": 1.84, "step": 702}, {"loss": 1.5825, "learning_rate": 5e-05, "epoch": 1.84, "step": 703}, {"loss": 1.6416, "learning_rate": 5e-05, "epoch": 1.84, "step": 704}, {"loss": 1.6268, "learning_rate": 5e-05, "epoch": 1.85, "step": 705}, {"loss": 1.7253, "learning_rate": 5e-05, "epoch": 1.85, "step": 706}, {"loss": 1.0321, "learning_rate": 5e-05, "epoch": 1.85, "step": 707}, {"loss": 1.8299, "learning_rate": 5e-05, "epoch": 1.85, "step": 708}, {"loss": 1.6606, "learning_rate": 5e-05, "epoch": 1.86, "step": 709}, {"loss": 1.5183, "learning_rate": 5e-05, "epoch": 1.86, "step": 710}, {"loss": 1.1414, "learning_rate": 5e-05, "epoch": 1.86, "step": 711}, {"loss": 1.5782, "learning_rate": 5e-05, "epoch": 1.86, "step": 712}, {"loss": 1.7977, "learning_rate": 5e-05, "epoch": 1.87, "step": 713}, {"loss": 1.9588, "learning_rate": 5e-05, "epoch": 1.87, "step": 714}, {"loss": 1.9171, "learning_rate": 5e-05, "epoch": 1.87, "step": 715}, {"loss": 2.442, "learning_rate": 5e-05, "epoch": 1.87, "step": 716}, {"loss": 1.8614, "learning_rate": 5e-05, "epoch": 1.88, "step": 717}, {"loss": 2.3282, "learning_rate": 5e-05, "epoch": 1.88, "step": 718}, {"loss": 2.0575, "learning_rate": 5e-05, "epoch": 1.88, "step": 719}, {"loss": 1.8087, "learning_rate": 5e-05, "epoch": 1.88, "step": 720}, {"loss": 1.9006, "learning_rate": 5e-05, "epoch": 1.89, "step": 721}, {"loss": 1.504, "learning_rate": 5e-05, "epoch": 1.89, "step": 722}, {"loss": 1.3611, "learning_rate": 5e-05, "epoch": 1.89, "step": 723}, {"loss": 1.4677, "learning_rate": 5e-05, "epoch": 1.9, "step": 724}, {"loss": 1.7723, "learning_rate": 5e-05, "epoch": 1.9, "step": 725}, {"loss": 2.1018, "learning_rate": 5e-05, "epoch": 1.9, "step": 726}, {"loss": 1.3463, "learning_rate": 5e-05, "epoch": 1.9, "step": 727}, {"loss": 1.6672, "learning_rate": 5e-05, "epoch": 1.91, "step": 728}, {"loss": 1.8679, "learning_rate": 5e-05, "epoch": 1.91, "step": 729}, {"loss": 2.4584, "learning_rate": 5e-05, "epoch": 1.91, "step": 730}, {"loss": 2.0954, "learning_rate": 5e-05, "epoch": 1.91, "step": 731}, {"loss": 3.7179, "learning_rate": 5e-05, "epoch": 1.92, "step": 732}, {"loss": 2.0012, "learning_rate": 5e-05, "epoch": 1.92, "step": 733}, {"loss": 1.7113, "learning_rate": 5e-05, "epoch": 1.92, "step": 734}, {"loss": 1.6852, "learning_rate": 5e-05, "epoch": 1.92, "step": 735}, {"loss": 1.8517, "learning_rate": 5e-05, "epoch": 1.93, "step": 736}, {"loss": 2.0165, "learning_rate": 5e-05, "epoch": 1.93, "step": 737}, {"loss": 1.075, "learning_rate": 5e-05, "epoch": 1.93, "step": 738}, {"loss": 1.4717, "learning_rate": 5e-05, "epoch": 1.93, "step": 739}, {"loss": 1.4249, "learning_rate": 5e-05, "epoch": 1.94, "step": 740}, {"loss": 2.0593, "learning_rate": 5e-05, "epoch": 1.94, "step": 741}, {"loss": 2.0548, "learning_rate": 5e-05, "epoch": 1.94, "step": 742}, {"loss": 2.0147, "learning_rate": 5e-05, "epoch": 1.95, "step": 743}, {"loss": 2.0559, "learning_rate": 5e-05, "epoch": 1.95, "step": 744}, {"loss": 1.0628, "learning_rate": 5e-05, "epoch": 1.95, "step": 745}, {"loss": 1.887, "learning_rate": 5e-05, "epoch": 1.95, "step": 746}, {"loss": 1.9977, "learning_rate": 5e-05, "epoch": 1.96, "step": 747}, {"loss": 2.038, "learning_rate": 5e-05, "epoch": 1.96, "step": 748}, {"loss": 1.9455, "learning_rate": 5e-05, "epoch": 1.96, "step": 749}, {"loss": 1.5008, "learning_rate": 5e-05, "epoch": 1.96, "step": 750}, {"loss": 2.0269, "learning_rate": 5e-05, "epoch": 1.97, "step": 751}, {"loss": 2.008, "learning_rate": 5e-05, "epoch": 1.97, "step": 752}, {"loss": 1.2887, "learning_rate": 5e-05, "epoch": 1.97, "step": 753}, {"loss": 1.5974, "learning_rate": 5e-05, "epoch": 1.97, "step": 754}, {"loss": 1.7589, "learning_rate": 5e-05, "epoch": 1.98, "step": 755}, {"loss": 1.6305, "learning_rate": 5e-05, "epoch": 1.98, "step": 756}, {"loss": 2.39, "learning_rate": 5e-05, "epoch": 1.98, "step": 757}, {"loss": 2.4605, "learning_rate": 5e-05, "epoch": 1.98, "step": 758}, {"loss": 1.7614, "learning_rate": 5e-05, "epoch": 1.99, "step": 759}, {"loss": 2.9538, "learning_rate": 5e-05, "epoch": 1.99, "step": 760}, {"loss": 2.4113, "learning_rate": 5e-05, "epoch": 1.99, "step": 761}, {"loss": 2.6198, "learning_rate": 5e-05, "epoch": 1.99, "step": 762}, {"loss": 2.2234, "learning_rate": 5e-05, "epoch": 2.0, "step": 763}, {"loss": 2.8016, "learning_rate": 5e-05, "epoch": 2.0, "step": 764}, {"train_runtime": 199.2487, "train_samples_per_second": 11.483, "train_steps_per_second": 3.834, "total_flos": 1.1185278155956224e+16, "train_loss": 1.9187338484831507, "epoch": 2.0, "step": 764}]