svjack commited on Mar 7

Commit

9c174fc

•

1 Parent(s): 122cca2

Upload 66 files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-1200/README.md +204 -0
checkpoint-1200/adapter_config.json +27 -0
checkpoint-1200/adapter_model.safetensors +3 -0
checkpoint-1200/optimizer.pt +3 -0
checkpoint-1200/rng_state.pth +3 -0
checkpoint-1200/scheduler.pt +3 -0
checkpoint-1200/special_tokens_map.json +30 -0
checkpoint-1200/tokenizer.model +3 -0
checkpoint-1200/tokenizer_config.json +52 -0
checkpoint-1200/trainer_state.json +1461 -0
checkpoint-1200/training_args.bin +3 -0
checkpoint-3000/README.md +204 -0
checkpoint-3000/adapter_config.json +27 -0
checkpoint-3000/adapter_model.safetensors +3 -0
checkpoint-3000/optimizer.pt +3 -0
checkpoint-3000/rng_state.pth +3 -0
checkpoint-3000/scheduler.pt +3 -0
checkpoint-3000/special_tokens_map.json +30 -0
checkpoint-3000/tokenizer.model +3 -0
checkpoint-3000/tokenizer_config.json +52 -0
checkpoint-3000/trainer_state.json +3621 -0
checkpoint-3000/training_args.bin +3 -0
checkpoint-5700/README.md +204 -0
checkpoint-5700/adapter_config.json +27 -0
checkpoint-5700/adapter_model.safetensors +3 -0
checkpoint-5700/optimizer.pt +3 -0
checkpoint-5700/rng_state.pth +3 -0
checkpoint-5700/scheduler.pt +3 -0
checkpoint-5700/special_tokens_map.json +30 -0
checkpoint-5700/tokenizer.model +3 -0
checkpoint-5700/tokenizer_config.json +52 -0
checkpoint-5700/trainer_state.json +0 -0
checkpoint-5700/training_args.bin +3 -0
checkpoint-6000/README.md +204 -0
checkpoint-6000/adapter_config.json +27 -0
checkpoint-6000/adapter_model.safetensors +3 -0
checkpoint-6000/optimizer.pt +3 -0
checkpoint-6000/rng_state.pth +3 -0
checkpoint-6000/scheduler.pt +3 -0
checkpoint-6000/special_tokens_map.json +30 -0
checkpoint-6000/tokenizer.model +3 -0
checkpoint-6000/tokenizer_config.json +52 -0
checkpoint-6000/trainer_state.json +0 -0
checkpoint-6000/training_args.bin +3 -0
checkpoint-900/README.md +204 -0
checkpoint-900/adapter_config.json +27 -0
checkpoint-900/adapter_model.safetensors +3 -0
checkpoint-900/optimizer.pt +3 -0
checkpoint-900/rng_state.pth +3 -0
checkpoint-900/scheduler.pt +3 -0

checkpoint-1200/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: ../chinese-llama-2-13b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-1200/adapter_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "../chinese-llama-2-13b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-1200/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdb2cd52315686b02c45e7bcbdd7a86b6ea3288a4c670b9cdb64853ece231dbe
+size 26235704

checkpoint-1200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6c0c101c8a0a071fd990a42cf4e39066c55554fdeeb03d43d7401780a2f0761
+size 52562821

checkpoint-1200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50f315bd4a30035a24ac96c6e52b4c92908270e748d97a7df690c6d2ce3f57a5
+size 14575

checkpoint-1200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2279c6ee09a23ea957c9079de68edfb92c5b458c02112e0005e1739ed4caab0d
+size 627

checkpoint-1200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1200/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3b8844863b200dfcca971db228e96ce388290dfcf72c15d7a9d2f604bac787c
+size 844403

checkpoint-1200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false,
+  "use_fast": false
+}

checkpoint-1200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1461 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.6166495375128469,
+  "eval_steps": 500,
+  "global_step": 1200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.9999979150098865e-05,
+      "loss": 4.0418,
+      "step": 5
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.999989444743508e-05,
+      "loss": 3.8361,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.999974458911041e-05,
+      "loss": 3.8737,
+      "step": 15
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.9999529575515425e-05,
+      "loss": 3.806,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.9999249407210515e-05,
+      "loss": 3.4125,
+      "step": 25
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.9998904084925845e-05,
+      "loss": 3.6489,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.999849360956141e-05,
+      "loss": 3.4719,
+      "step": 35
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.999811831976564e-05,
+      "loss": 3.5265,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.999759057166764e-05,
+      "loss": 3.6889,
+      "step": 45
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.9996997673913204e-05,
+      "loss": 3.5104,
+      "step": 50
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.999633962804756e-05,
+      "loss": 3.5778,
+      "step": 55
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.999561643578575e-05,
+      "loss": 3.3353,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.999482809901257e-05,
+      "loss": 3.3511,
+      "step": 65
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.9993974619782625e-05,
+      "loss": 3.6355,
+      "step": 70
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.999305600032027e-05,
+      "loss": 3.3915,
+      "step": 75
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.999207224301965e-05,
+      "loss": 3.4926,
+      "step": 80
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.999102335044467e-05,
+      "loss": 3.4918,
+      "step": 85
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.9989909325328996e-05,
+      "loss": 3.3984,
+      "step": 90
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.998873017057605e-05,
+      "loss": 3.4989,
+      "step": 95
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.998748588925897e-05,
+      "loss": 3.6368,
+      "step": 100
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.9986176484620665e-05,
+      "loss": 3.4412,
+      "step": 105
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.998480196007375e-05,
+      "loss": 3.4708,
+      "step": 110
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.9983362319200554e-05,
+      "loss": 3.37,
+      "step": 115
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.998185756575313e-05,
+      "loss": 3.4524,
+      "step": 120
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.9980287703653225e-05,
+      "loss": 3.3863,
+      "step": 125
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.997865273699227e-05,
+      "loss": 3.4414,
+      "step": 130
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.997729789123732e-05,
+      "loss": 3.3335,
+      "step": 135
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.997554574721849e-05,
+      "loss": 3.231,
+      "step": 140
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.997372851099727e-05,
+      "loss": 3.5962,
+      "step": 145
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.997184618730983e-05,
+      "loss": 3.2795,
+      "step": 150
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.996989878106192e-05,
+      "loss": 3.5384,
+      "step": 155
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.996788629732897e-05,
+      "loss": 3.3274,
+      "step": 160
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.996580874135597e-05,
+      "loss": 3.2292,
+      "step": 165
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.996366611855753e-05,
+      "loss": 3.4829,
+      "step": 170
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.996145843451785e-05,
+      "loss": 3.1998,
+      "step": 175
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.9959185694990655e-05,
+      "loss": 3.3757,
+      "step": 180
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.995684790589926e-05,
+      "loss": 3.1001,
+      "step": 185
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.99544450733365e-05,
+      "loss": 3.2301,
+      "step": 190
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.995197720356471e-05,
+      "loss": 3.3187,
+      "step": 195
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.994944430301576e-05,
+      "loss": 3.527,
+      "step": 200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.994684637829098e-05,
+      "loss": 3.3808,
+      "step": 205
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.994418343616119e-05,
+      "loss": 3.2406,
+      "step": 210
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.994145548356664e-05,
+      "loss": 3.3463,
+      "step": 215
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.993866252761702e-05,
+      "loss": 3.2972,
+      "step": 220
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.993580457559145e-05,
+      "loss": 3.4135,
+      "step": 225
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.9932881634938424e-05,
+      "loss": 3.4025,
+      "step": 230
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.992989371327581e-05,
+      "loss": 3.662,
+      "step": 235
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.992684081839086e-05,
+      "loss": 3.4279,
+      "step": 240
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.9923722958240124e-05,
+      "loss": 3.3075,
+      "step": 245
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.992054014094951e-05,
+      "loss": 3.2826,
+      "step": 250
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.991729237481417e-05,
+      "loss": 3.4992,
+      "step": 255
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.991397966829856e-05,
+      "loss": 3.2421,
+      "step": 260
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.991060203003639e-05,
+      "loss": 3.2615,
+      "step": 265
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.9907159468830585e-05,
+      "loss": 3.3299,
+      "step": 270
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.990365199365327e-05,
+      "loss": 3.3117,
+      "step": 275
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.9900079613645754e-05,
+      "loss": 3.4729,
+      "step": 280
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.9896442338118524e-05,
+      "loss": 3.2521,
+      "step": 285
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.989274017655117e-05,
+      "loss": 3.261,
+      "step": 290
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.9888973138592414e-05,
+      "loss": 3.4403,
+      "step": 295
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.988514123406004e-05,
+      "loss": 3.3408,
+      "step": 300
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.9881244472940914e-05,
+      "loss": 3.3208,
+      "step": 305
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.9877282865390904e-05,
+      "loss": 3.6889,
+      "step": 310
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.9873256421734915e-05,
+      "loss": 3.1537,
+      "step": 315
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.986916515246681e-05,
+      "loss": 3.1837,
+      "step": 320
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.986500906824941e-05,
+      "loss": 3.23,
+      "step": 325
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.9860788179914456e-05,
+      "loss": 3.4343,
+      "step": 330
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.985650249846258e-05,
+      "loss": 3.3317,
+      "step": 335
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.9852152035063294e-05,
+      "loss": 3.155,
+      "step": 340
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.984773680105493e-05,
+      "loss": 3.3527,
+      "step": 345
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.984415798673684e-05,
+      "loss": 3.3783,
+      "step": 350
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.9839626194743575e-05,
+      "loss": 3.2567,
+      "step": 355
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.983502966478656e-05,
+      "loss": 3.1278,
+      "step": 360
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.9830368408845425e-05,
+      "loss": 3.2344,
+      "step": 365
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.982564243906852e-05,
+      "loss": 3.3458,
+      "step": 370
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.9820851767772844e-05,
+      "loss": 3.1467,
+      "step": 375
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.981599640744402e-05,
+      "loss": 3.217,
+      "step": 380
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.981107637073628e-05,
+      "loss": 3.4011,
+      "step": 385
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.98060916704724e-05,
+      "loss": 3.4098,
+      "step": 390
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.9801042319643686e-05,
+      "loss": 3.3332,
+      "step": 395
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.979592833140996e-05,
+      "loss": 3.4042,
+      "step": 400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.979074971909948e-05,
+      "loss": 3.3127,
+      "step": 405
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.978550649620894e-05,
+      "loss": 3.1726,
+      "step": 410
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.978019867640342e-05,
+      "loss": 3.3029,
+      "step": 415
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.977482627351637e-05,
+      "loss": 3.3519,
+      "step": 420
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.976938930154954e-05,
+      "loss": 3.2507,
+      "step": 425
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.976388777467297e-05,
+      "loss": 3.1322,
+      "step": 430
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.9758321707224954e-05,
+      "loss": 3.1306,
+      "step": 435
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.975269111371197e-05,
+      "loss": 3.189,
+      "step": 440
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.974699600880869e-05,
+      "loss": 3.2598,
+      "step": 445
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.974123640735791e-05,
+      "loss": 3.3483,
+      "step": 450
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.973541232437052e-05,
+      "loss": 3.4678,
+      "step": 455
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.972952377502545e-05,
+      "loss": 2.9668,
+      "step": 460
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.9723570774669687e-05,
+      "loss": 3.372,
+      "step": 465
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.971755333881814e-05,
+      "loss": 3.2808,
+      "step": 470
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.971147148315367e-05,
+      "loss": 3.2235,
+      "step": 475
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.9705325223527057e-05,
+      "loss": 3.0441,
+      "step": 480
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.96991145759569e-05,
+      "loss": 3.4724,
+      "step": 485
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.969283955662963e-05,
+      "loss": 3.389,
+      "step": 490
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.968650018189943e-05,
+      "loss": 3.3817,
+      "step": 495
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.968009646828822e-05,
+      "loss": 3.2597,
+      "step": 500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.967362843248559e-05,
+      "loss": 3.253,
+      "step": 505
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.966709609134878e-05,
+      "loss": 3.1903,
+      "step": 510
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.9660499461902645e-05,
+      "loss": 3.1286,
+      "step": 515
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.965383856133953e-05,
+      "loss": 3.292,
+      "step": 520
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.964711340701935e-05,
+      "loss": 3.4217,
+      "step": 525
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.964032401646944e-05,
+      "loss": 3.2587,
+      "step": 530
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.963347040738457e-05,
+      "loss": 3.3325,
+      "step": 535
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.962655259762687e-05,
+      "loss": 3.3475,
+      "step": 540
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.961957060522581e-05,
+      "loss": 3.2882,
+      "step": 545
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.961252444837809e-05,
+      "loss": 3.3631,
+      "step": 550
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.9605414145447696e-05,
+      "loss": 3.2589,
+      "step": 555
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.959823971496574e-05,
+      "loss": 3.4855,
+      "step": 560
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.959100117563052e-05,
+      "loss": 3.1354,
+      "step": 565
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.958369854630737e-05,
+      "loss": 3.3037,
+      "step": 570
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.957633184602867e-05,
+      "loss": 3.1023,
+      "step": 575
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.956890109399381e-05,
+      "loss": 3.1933,
+      "step": 580
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.956140630956908e-05,
+      "loss": 3.3994,
+      "step": 585
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.955384751228767e-05,
+      "loss": 3.1178,
+      "step": 590
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.954622472184961e-05,
+      "loss": 3.2513,
+      "step": 595
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.9538537958121686e-05,
+      "loss": 3.5002,
+      "step": 600
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.953078724113744e-05,
+      "loss": 3.1867,
+      "step": 605
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.9522972591097074e-05,
+      "loss": 3.3883,
+      "step": 610
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.9515094028367425e-05,
+      "loss": 3.3708,
+      "step": 615
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.950715157348191e-05,
+      "loss": 3.2425,
+      "step": 620
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.9499145247140434e-05,
+      "loss": 3.1046,
+      "step": 625
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.9491075070209385e-05,
+      "loss": 3.3236,
+      "step": 630
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.9482941063721576e-05,
+      "loss": 3.4957,
+      "step": 635
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.947474324887614e-05,
+      "loss": 3.2225,
+      "step": 640
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.9466481647038554e-05,
+      "loss": 3.5314,
+      "step": 645
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.9458156279740484e-05,
+      "loss": 3.1028,
+      "step": 650
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.944976716867984e-05,
+      "loss": 3.2322,
+      "step": 655
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.9441314335720616e-05,
+      "loss": 3.1332,
+      "step": 660
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.943279780289292e-05,
+      "loss": 3.2028,
+      "step": 665
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.9424217592392854e-05,
+      "loss": 3.2408,
+      "step": 670
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.9415573726582465e-05,
+      "loss": 3.0121,
+      "step": 675
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.940686622798974e-05,
+      "loss": 3.2182,
+      "step": 680
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.93980951193085e-05,
+      "loss": 3.4794,
+      "step": 685
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.93892604233983e-05,
+      "loss": 3.3226,
+      "step": 690
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.938036216328448e-05,
+      "loss": 3.1917,
+      "step": 695
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.9371400362158016e-05,
+      "loss": 3.2176,
+      "step": 700
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.936237504337549e-05,
+      "loss": 2.933,
+      "step": 705
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.935328623045902e-05,
+      "loss": 3.134,
+      "step": 710
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.934413394709621e-05,
+      "loss": 2.983,
+      "step": 715
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.933491821714009e-05,
+      "loss": 3.4337,
+      "step": 720
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.9325639064609045e-05,
+      "loss": 3.4699,
+      "step": 725
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.931629651368673e-05,
+      "loss": 3.4081,
+      "step": 730
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.930689058872208e-05,
+      "loss": 3.2174,
+      "step": 735
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.929742131422913e-05,
+      "loss": 3.4953,
+      "step": 740
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.92878887148871e-05,
+      "loss": 3.217,
+      "step": 745
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.927829281554017e-05,
+      "loss": 3.2689,
+      "step": 750
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.926863364119756e-05,
+      "loss": 3.2994,
+      "step": 755
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.9258911217033355e-05,
+      "loss": 3.3868,
+      "step": 760
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.924912556838651e-05,
+      "loss": 3.3169,
+      "step": 765
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.923927672076075e-05,
+      "loss": 3.0466,
+      "step": 770
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.92293646998245e-05,
+      "loss": 3.0857,
+      "step": 775
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.921938953141084e-05,
+      "loss": 3.5001,
+      "step": 780
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.920935124151744e-05,
+      "loss": 3.1633,
+      "step": 785
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.919924985630647e-05,
+      "loss": 3.4816,
+      "step": 790
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.9189085402104516e-05,
+      "loss": 3.2032,
+      "step": 795
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.917885790540258e-05,
+      "loss": 3.164,
+      "step": 800
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.916856739285593e-05,
+      "loss": 3.3047,
+      "step": 805
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.91582138912841e-05,
+      "loss": 3.2366,
+      "step": 810
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.9147797427670766e-05,
+      "loss": 3.3105,
+      "step": 815
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.91373180291637e-05,
+      "loss": 3.4871,
+      "step": 820
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.912677572307473e-05,
+      "loss": 3.0442,
+      "step": 825
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.911617053687957e-05,
+      "loss": 3.1934,
+      "step": 830
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.910550249821787e-05,
+      "loss": 3.27,
+      "step": 835
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.9094771634893075e-05,
+      "loss": 3.3252,
+      "step": 840
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.908397797487237e-05,
+      "loss": 2.9852,
+      "step": 845
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.907312154628658e-05,
+      "loss": 3.1331,
+      "step": 850
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.906220237743014e-05,
+      "loss": 3.1444,
+      "step": 855
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.905122049676101e-05,
+      "loss": 3.3702,
+      "step": 860
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.904017593290056e-05,
+      "loss": 3.0531,
+      "step": 865
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.902906871463355e-05,
+      "loss": 3.2007,
+      "step": 870
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.901789887090804e-05,
+      "loss": 3.0837,
+      "step": 875
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.900666643083528e-05,
+      "loss": 3.2268,
+      "step": 880
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.8995371423689684e-05,
+      "loss": 2.9249,
+      "step": 885
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.898401387890873e-05,
+      "loss": 3.2058,
+      "step": 890
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.897259382609285e-05,
+      "loss": 3.0971,
+      "step": 895
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.8961111295005446e-05,
+      "loss": 3.2227,
+      "step": 900
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.894956631557269e-05,
+      "loss": 3.2907,
+      "step": 905
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.893795891788357e-05,
+      "loss": 3.1382,
+      "step": 910
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.892628913218969e-05,
+      "loss": 2.8996,
+      "step": 915
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.8914556988905315e-05,
+      "loss": 2.9693,
+      "step": 920
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.890276251860717e-05,
+      "loss": 3.0134,
+      "step": 925
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.889090575203445e-05,
+      "loss": 2.9696,
+      "step": 930
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.887898672008871e-05,
+      "loss": 3.3306,
+      "step": 935
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.8867005453833774e-05,
+      "loss": 3.2199,
+      "step": 940
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.885496198449567e-05,
+      "loss": 3.2795,
+      "step": 945
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.8842856343462535e-05,
+      "loss": 3.3482,
+      "step": 950
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.883068856228454e-05,
+      "loss": 3.322,
+      "step": 955
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.881845867267382e-05,
+      "loss": 3.0443,
+      "step": 960
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.8806166706504375e-05,
+      "loss": 3.1826,
+      "step": 965
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.879381269581197e-05,
+      "loss": 3.3732,
+      "step": 970
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.878139667279411e-05,
+      "loss": 3.3457,
+      "step": 975
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.876891866980988e-05,
+      "loss": 3.182,
+      "step": 980
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.875637871937994e-05,
+      "loss": 3.2416,
+      "step": 985
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.874377685418635e-05,
+      "loss": 3.2411,
+      "step": 990
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.873111310707259e-05,
+      "loss": 3.2836,
+      "step": 995
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.8718387511043385e-05,
+      "loss": 3.1773,
+      "step": 1000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.870560009926465e-05,
+      "loss": 3.1723,
+      "step": 1005
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.8692750905063424e-05,
+      "loss": 3.1535,
+      "step": 1010
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.867983996192776e-05,
+      "loss": 2.977,
+      "step": 1015
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.866686730350663e-05,
+      "loss": 3.1236,
+      "step": 1020
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.865383296360987e-05,
+      "loss": 3.4016,
+      "step": 1025
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.864073697620807e-05,
+      "loss": 3.1547,
+      "step": 1030
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.862757937543248e-05,
+      "loss": 3.143,
+      "step": 1035
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.861436019557492e-05,
+      "loss": 3.1989,
+      "step": 1040
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.860107947108772e-05,
+      "loss": 3.0308,
+      "step": 1045
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.858773723658361e-05,
+      "loss": 3.409,
+      "step": 1050
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.8574333526835605e-05,
+      "loss": 3.2011,
+      "step": 1055
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.856086837677697e-05,
+      "loss": 3.1954,
+      "step": 1060
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.854734182150107e-05,
+      "loss": 3.1366,
+      "step": 1065
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.853375389626133e-05,
+      "loss": 3.3789,
+      "step": 1070
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.85201046364711e-05,
+      "loss": 3.1337,
+      "step": 1075
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.85063940777036e-05,
+      "loss": 3.2278,
+      "step": 1080
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.849262225569181e-05,
+      "loss": 3.1339,
+      "step": 1085
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.847878920632834e-05,
+      "loss": 2.954,
+      "step": 1090
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.846489496566542e-05,
+      "loss": 3.0878,
+      "step": 1095
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.845093956991475e-05,
+      "loss": 3.2329,
+      "step": 1100
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.843692305544738e-05,
+      "loss": 3.2245,
+      "step": 1105
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.84228454587937e-05,
+      "loss": 3.2865,
+      "step": 1110
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.8408706816643254e-05,
+      "loss": 3.1569,
+      "step": 1115
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.83945071658447e-05,
+      "loss": 3.2279,
+      "step": 1120
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.838024654340571e-05,
+      "loss": 3.0554,
+      "step": 1125
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.836592498649283e-05,
+      "loss": 3.3924,
+      "step": 1130
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.835154253243147e-05,
+      "loss": 3.0695,
+      "step": 1135
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.8337099218705695e-05,
+      "loss": 3.2666,
+      "step": 1140
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.832259508295822e-05,
+      "loss": 3.135,
+      "step": 1145
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.830803016299027e-05,
+      "loss": 2.947,
+      "step": 1150
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.829340449676147e-05,
+      "loss": 3.13,
+      "step": 1155
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.82787181223898e-05,
+      "loss": 3.038,
+      "step": 1160
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.826397107815142e-05,
+      "loss": 3.0761,
+      "step": 1165
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.824916340248064e-05,
+      "loss": 3.1496,
+      "step": 1170
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.823429513396977e-05,
+      "loss": 2.8758,
+      "step": 1175
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.821936631136906e-05,
+      "loss": 3.218,
+      "step": 1180
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.820437697358656e-05,
+      "loss": 3.0933,
+      "step": 1185
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.8189327159688035e-05,
+      "loss": 3.2388,
+      "step": 1190
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.817421690889689e-05,
+      "loss": 3.1914,
+      "step": 1195
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.815904626059401e-05,
+      "loss": 3.2259,
+      "step": 1200
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 9730,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 300,
+  "total_flos": 1.419579902963712e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:323d9e0822218e186c546ec4c60df0ed1248fa085eb7c28291141ebefc901909
+size 4411

checkpoint-3000/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: ../chinese-llama-2-13b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-3000/adapter_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "../chinese-llama-2-13b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-3000/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54695fdb2eb148001181ba950f41d40228bda58b30d6b9cdaa9b0416e08e0f1d
+size 26235704

checkpoint-3000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41cbd4b7a15c213755deb82a96a12932c25e9ff73b83d98fe1ee6e8fa4b8028b
+size 52562821

checkpoint-3000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1db093ff520055a5e21b61ab7d1dbd317224771971f3d89b400bb544bef1e03f
+size 14575

checkpoint-3000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4654ca098ba32292893a57e3fa92e563f230c7ac88f513c22ff689aaca0c3a70
+size 627

checkpoint-3000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-3000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3b8844863b200dfcca971db228e96ce388290dfcf72c15d7a9d2f604bac787c
+size 844403

checkpoint-3000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false,
+  "use_fast": false
+}

checkpoint-3000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3621 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.541623843782117,
+  "eval_steps": 500,
+  "global_step": 3000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 4.9999979150098865e-05,
+      "loss": 4.0418,
+      "step": 5
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.999989444743508e-05,
+      "loss": 3.8361,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.999974458911041e-05,
+      "loss": 3.8737,
+      "step": 15
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.9999529575515425e-05,
+      "loss": 3.806,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.9999249407210515e-05,
+      "loss": 3.4125,
+      "step": 25
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.9998904084925845e-05,
+      "loss": 3.6489,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.999849360956141e-05,
+      "loss": 3.4719,
+      "step": 35
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.999811831976564e-05,
+      "loss": 3.5265,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.999759057166764e-05,
+      "loss": 3.6889,
+      "step": 45
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.9996997673913204e-05,
+      "loss": 3.5104,
+      "step": 50
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.999633962804756e-05,
+      "loss": 3.5778,
+      "step": 55
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.999561643578575e-05,
+      "loss": 3.3353,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.999482809901257e-05,
+      "loss": 3.3511,
+      "step": 65
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.9993974619782625e-05,
+      "loss": 3.6355,
+      "step": 70
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.999305600032027e-05,
+      "loss": 3.3915,
+      "step": 75
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.999207224301965e-05,
+      "loss": 3.4926,
+      "step": 80
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.999102335044467e-05,
+      "loss": 3.4918,
+      "step": 85
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.9989909325328996e-05,
+      "loss": 3.3984,
+      "step": 90
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.998873017057605e-05,
+      "loss": 3.4989,
+      "step": 95
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.998748588925897e-05,
+      "loss": 3.6368,
+      "step": 100
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.9986176484620665e-05,
+      "loss": 3.4412,
+      "step": 105
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.998480196007375e-05,
+      "loss": 3.4708,
+      "step": 110
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.9983362319200554e-05,
+      "loss": 3.37,
+      "step": 115
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.998185756575313e-05,
+      "loss": 3.4524,
+      "step": 120
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.9980287703653225e-05,
+      "loss": 3.3863,
+      "step": 125
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.997865273699227e-05,
+      "loss": 3.4414,
+      "step": 130
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.997729789123732e-05,
+      "loss": 3.3335,
+      "step": 135
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.997554574721849e-05,
+      "loss": 3.231,
+      "step": 140
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.997372851099727e-05,
+      "loss": 3.5962,
+      "step": 145
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.997184618730983e-05,
+      "loss": 3.2795,
+      "step": 150
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.996989878106192e-05,
+      "loss": 3.5384,
+      "step": 155
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.996788629732897e-05,
+      "loss": 3.3274,
+      "step": 160
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.996580874135597e-05,
+      "loss": 3.2292,
+      "step": 165
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.996366611855753e-05,
+      "loss": 3.4829,
+      "step": 170
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.996145843451785e-05,
+      "loss": 3.1998,
+      "step": 175
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.9959185694990655e-05,
+      "loss": 3.3757,
+      "step": 180
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.995684790589926e-05,
+      "loss": 3.1001,
+      "step": 185
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.99544450733365e-05,
+      "loss": 3.2301,
+      "step": 190
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.995197720356471e-05,
+      "loss": 3.3187,
+      "step": 195
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.994944430301576e-05,
+      "loss": 3.527,
+      "step": 200
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.994684637829098e-05,
+      "loss": 3.3808,
+      "step": 205
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.994418343616119e-05,
+      "loss": 3.2406,
+      "step": 210
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.994145548356664e-05,
+      "loss": 3.3463,
+      "step": 215
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.993866252761702e-05,
+      "loss": 3.2972,
+      "step": 220
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.993580457559145e-05,
+      "loss": 3.4135,
+      "step": 225
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.9932881634938424e-05,
+      "loss": 3.4025,
+      "step": 230
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.992989371327581e-05,
+      "loss": 3.662,
+      "step": 235
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.992684081839086e-05,
+      "loss": 3.4279,
+      "step": 240
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.9923722958240124e-05,
+      "loss": 3.3075,
+      "step": 245
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.992054014094951e-05,
+      "loss": 3.2826,
+      "step": 250
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.991729237481417e-05,
+      "loss": 3.4992,
+      "step": 255
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.991397966829856e-05,
+      "loss": 3.2421,
+      "step": 260
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.991060203003639e-05,
+      "loss": 3.2615,
+      "step": 265
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.9907159468830585e-05,
+      "loss": 3.3299,
+      "step": 270
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.990365199365327e-05,
+      "loss": 3.3117,
+      "step": 275
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.9900079613645754e-05,
+      "loss": 3.4729,
+      "step": 280
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.9896442338118524e-05,
+      "loss": 3.2521,
+      "step": 285
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.989274017655117e-05,
+      "loss": 3.261,
+      "step": 290
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.9888973138592414e-05,
+      "loss": 3.4403,
+      "step": 295
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.988514123406004e-05,
+      "loss": 3.3408,
+      "step": 300
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.9881244472940914e-05,
+      "loss": 3.3208,
+      "step": 305
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.9877282865390904e-05,
+      "loss": 3.6889,
+      "step": 310
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.9873256421734915e-05,
+      "loss": 3.1537,
+      "step": 315
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.986916515246681e-05,
+      "loss": 3.1837,
+      "step": 320
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.986500906824941e-05,
+      "loss": 3.23,
+      "step": 325
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.9860788179914456e-05,
+      "loss": 3.4343,
+      "step": 330
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.985650249846258e-05,
+      "loss": 3.3317,
+      "step": 335
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.9852152035063294e-05,
+      "loss": 3.155,
+      "step": 340
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.984773680105493e-05,
+      "loss": 3.3527,
+      "step": 345
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.984415798673684e-05,
+      "loss": 3.3783,
+      "step": 350
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.9839626194743575e-05,
+      "loss": 3.2567,
+      "step": 355
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.983502966478656e-05,
+      "loss": 3.1278,
+      "step": 360
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.9830368408845425e-05,
+      "loss": 3.2344,
+      "step": 365
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.982564243906852e-05,
+      "loss": 3.3458,
+      "step": 370
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.9820851767772844e-05,
+      "loss": 3.1467,
+      "step": 375
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.981599640744402e-05,
+      "loss": 3.217,
+      "step": 380
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.981107637073628e-05,
+      "loss": 3.4011,
+      "step": 385
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.98060916704724e-05,
+      "loss": 3.4098,
+      "step": 390
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.9801042319643686e-05,
+      "loss": 3.3332,
+      "step": 395
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.979592833140996e-05,
+      "loss": 3.4042,
+      "step": 400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.979074971909948e-05,
+      "loss": 3.3127,
+      "step": 405
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.978550649620894e-05,
+      "loss": 3.1726,
+      "step": 410
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.978019867640342e-05,
+      "loss": 3.3029,
+      "step": 415
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.977482627351637e-05,
+      "loss": 3.3519,
+      "step": 420
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.976938930154954e-05,
+      "loss": 3.2507,
+      "step": 425
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.976388777467297e-05,
+      "loss": 3.1322,
+      "step": 430
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.9758321707224954e-05,
+      "loss": 3.1306,
+      "step": 435
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.975269111371197e-05,
+      "loss": 3.189,
+      "step": 440
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.974699600880869e-05,
+      "loss": 3.2598,
+      "step": 445
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.974123640735791e-05,
+      "loss": 3.3483,
+      "step": 450
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.973541232437052e-05,
+      "loss": 3.4678,
+      "step": 455
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.972952377502545e-05,
+      "loss": 2.9668,
+      "step": 460
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.9723570774669687e-05,
+      "loss": 3.372,
+      "step": 465
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.971755333881814e-05,
+      "loss": 3.2808,
+      "step": 470
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.971147148315367e-05,
+      "loss": 3.2235,
+      "step": 475
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.9705325223527057e-05,
+      "loss": 3.0441,
+      "step": 480
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.96991145759569e-05,
+      "loss": 3.4724,
+      "step": 485
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.969283955662963e-05,
+      "loss": 3.389,
+      "step": 490
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.968650018189943e-05,
+      "loss": 3.3817,
+      "step": 495
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.968009646828822e-05,
+      "loss": 3.2597,
+      "step": 500
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.967362843248559e-05,
+      "loss": 3.253,
+      "step": 505
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.966709609134878e-05,
+      "loss": 3.1903,
+      "step": 510
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 4.9660499461902645e-05,
+      "loss": 3.1286,
+      "step": 515
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.965383856133953e-05,
+      "loss": 3.292,
+      "step": 520
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.964711340701935e-05,
+      "loss": 3.4217,
+      "step": 525
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.964032401646944e-05,
+      "loss": 3.2587,
+      "step": 530
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.963347040738457e-05,
+      "loss": 3.3325,
+      "step": 535
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.962655259762687e-05,
+      "loss": 3.3475,
+      "step": 540
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.961957060522581e-05,
+      "loss": 3.2882,
+      "step": 545
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 4.961252444837809e-05,
+      "loss": 3.3631,
+      "step": 550
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.9605414145447696e-05,
+      "loss": 3.2589,
+      "step": 555
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.959823971496574e-05,
+      "loss": 3.4855,
+      "step": 560
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.959100117563052e-05,
+      "loss": 3.1354,
+      "step": 565
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 4.958369854630737e-05,
+      "loss": 3.3037,
+      "step": 570
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.957633184602867e-05,
+      "loss": 3.1023,
+      "step": 575
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.956890109399381e-05,
+      "loss": 3.1933,
+      "step": 580
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.956140630956908e-05,
+      "loss": 3.3994,
+      "step": 585
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.955384751228767e-05,
+      "loss": 3.1178,
+      "step": 590
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.954622472184961e-05,
+      "loss": 3.2513,
+      "step": 595
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.9538537958121686e-05,
+      "loss": 3.5002,
+      "step": 600
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.953078724113744e-05,
+      "loss": 3.1867,
+      "step": 605
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 4.9522972591097074e-05,
+      "loss": 3.3883,
+      "step": 610
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.9515094028367425e-05,
+      "loss": 3.3708,
+      "step": 615
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.950715157348191e-05,
+      "loss": 3.2425,
+      "step": 620
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.9499145247140434e-05,
+      "loss": 3.1046,
+      "step": 625
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.9491075070209385e-05,
+      "loss": 3.3236,
+      "step": 630
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.9482941063721576e-05,
+      "loss": 3.4957,
+      "step": 635
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.947474324887614e-05,
+      "loss": 3.2225,
+      "step": 640
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.9466481647038554e-05,
+      "loss": 3.5314,
+      "step": 645
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 4.9458156279740484e-05,
+      "loss": 3.1028,
+      "step": 650
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.944976716867984e-05,
+      "loss": 3.2322,
+      "step": 655
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.9441314335720616e-05,
+      "loss": 3.1332,
+      "step": 660
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.943279780289292e-05,
+      "loss": 3.2028,
+      "step": 665
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.9424217592392854e-05,
+      "loss": 3.2408,
+      "step": 670
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.9415573726582465e-05,
+      "loss": 3.0121,
+      "step": 675
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.940686622798974e-05,
+      "loss": 3.2182,
+      "step": 680
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.93980951193085e-05,
+      "loss": 3.4794,
+      "step": 685
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 4.93892604233983e-05,
+      "loss": 3.3226,
+      "step": 690
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.938036216328448e-05,
+      "loss": 3.1917,
+      "step": 695
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.9371400362158016e-05,
+      "loss": 3.2176,
+      "step": 700
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.936237504337549e-05,
+      "loss": 2.933,
+      "step": 705
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 4.935328623045902e-05,
+      "loss": 3.134,
+      "step": 710
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.934413394709621e-05,
+      "loss": 2.983,
+      "step": 715
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.933491821714009e-05,
+      "loss": 3.4337,
+      "step": 720
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.9325639064609045e-05,
+      "loss": 3.4699,
+      "step": 725
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.931629651368673e-05,
+      "loss": 3.4081,
+      "step": 730
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.930689058872208e-05,
+      "loss": 3.2174,
+      "step": 735
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.929742131422913e-05,
+      "loss": 3.4953,
+      "step": 740
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 4.92878887148871e-05,
+      "loss": 3.217,
+      "step": 745
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.927829281554017e-05,
+      "loss": 3.2689,
+      "step": 750
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.926863364119756e-05,
+      "loss": 3.2994,
+      "step": 755
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.9258911217033355e-05,
+      "loss": 3.3868,
+      "step": 760
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.924912556838651e-05,
+      "loss": 3.3169,
+      "step": 765
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.923927672076075e-05,
+      "loss": 3.0466,
+      "step": 770
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.92293646998245e-05,
+      "loss": 3.0857,
+      "step": 775
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.921938953141084e-05,
+      "loss": 3.5001,
+      "step": 780
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.920935124151744e-05,
+      "loss": 3.1633,
+      "step": 785
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.919924985630647e-05,
+      "loss": 3.4816,
+      "step": 790
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.9189085402104516e-05,
+      "loss": 3.2032,
+      "step": 795
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.917885790540258e-05,
+      "loss": 3.164,
+      "step": 800
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 4.916856739285593e-05,
+      "loss": 3.3047,
+      "step": 805
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.91582138912841e-05,
+      "loss": 3.2366,
+      "step": 810
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.9147797427670766e-05,
+      "loss": 3.3105,
+      "step": 815
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.91373180291637e-05,
+      "loss": 3.4871,
+      "step": 820
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.912677572307473e-05,
+      "loss": 3.0442,
+      "step": 825
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.911617053687957e-05,
+      "loss": 3.1934,
+      "step": 830
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.910550249821787e-05,
+      "loss": 3.27,
+      "step": 835
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.9094771634893075e-05,
+      "loss": 3.3252,
+      "step": 840
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 4.908397797487237e-05,
+      "loss": 2.9852,
+      "step": 845
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.907312154628658e-05,
+      "loss": 3.1331,
+      "step": 850
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.906220237743014e-05,
+      "loss": 3.1444,
+      "step": 855
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.905122049676101e-05,
+      "loss": 3.3702,
+      "step": 860
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.904017593290056e-05,
+      "loss": 3.0531,
+      "step": 865
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.902906871463355e-05,
+      "loss": 3.2007,
+      "step": 870
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.901789887090804e-05,
+      "loss": 3.0837,
+      "step": 875
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.900666643083528e-05,
+      "loss": 3.2268,
+      "step": 880
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 4.8995371423689684e-05,
+      "loss": 2.9249,
+      "step": 885
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.898401387890873e-05,
+      "loss": 3.2058,
+      "step": 890
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.897259382609285e-05,
+      "loss": 3.0971,
+      "step": 895
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 4.8961111295005446e-05,
+      "loss": 3.2227,
+      "step": 900
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.894956631557269e-05,
+      "loss": 3.2907,
+      "step": 905
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.893795891788357e-05,
+      "loss": 3.1382,
+      "step": 910
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.892628913218969e-05,
+      "loss": 2.8996,
+      "step": 915
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.8914556988905315e-05,
+      "loss": 2.9693,
+      "step": 920
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.890276251860717e-05,
+      "loss": 3.0134,
+      "step": 925
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.889090575203445e-05,
+      "loss": 2.9696,
+      "step": 930
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.887898672008871e-05,
+      "loss": 3.3306,
+      "step": 935
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 4.8867005453833774e-05,
+      "loss": 3.2199,
+      "step": 940
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.885496198449567e-05,
+      "loss": 3.2795,
+      "step": 945
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.8842856343462535e-05,
+      "loss": 3.3482,
+      "step": 950
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.883068856228454e-05,
+      "loss": 3.322,
+      "step": 955
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.881845867267382e-05,
+      "loss": 3.0443,
+      "step": 960
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.8806166706504375e-05,
+      "loss": 3.1826,
+      "step": 965
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.879381269581197e-05,
+      "loss": 3.3732,
+      "step": 970
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.878139667279411e-05,
+      "loss": 3.3457,
+      "step": 975
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 4.876891866980988e-05,
+      "loss": 3.182,
+      "step": 980
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.875637871937994e-05,
+      "loss": 3.2416,
+      "step": 985
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.874377685418635e-05,
+      "loss": 3.2411,
+      "step": 990
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.873111310707259e-05,
+      "loss": 3.2836,
+      "step": 995
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 4.8718387511043385e-05,
+      "loss": 3.1773,
+      "step": 1000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.870560009926465e-05,
+      "loss": 3.1723,
+      "step": 1005
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.8692750905063424e-05,
+      "loss": 3.1535,
+      "step": 1010
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.867983996192776e-05,
+      "loss": 2.977,
+      "step": 1015
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.866686730350663e-05,
+      "loss": 3.1236,
+      "step": 1020
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.865383296360987e-05,
+      "loss": 3.4016,
+      "step": 1025
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.864073697620807e-05,
+      "loss": 3.1547,
+      "step": 1030
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.862757937543248e-05,
+      "loss": 3.143,
+      "step": 1035
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 4.861436019557492e-05,
+      "loss": 3.1989,
+      "step": 1040
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.860107947108772e-05,
+      "loss": 3.0308,
+      "step": 1045
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.858773723658361e-05,
+      "loss": 3.409,
+      "step": 1050
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.8574333526835605e-05,
+      "loss": 3.2011,
+      "step": 1055
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.856086837677697e-05,
+      "loss": 3.1954,
+      "step": 1060
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.854734182150107e-05,
+      "loss": 3.1366,
+      "step": 1065
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.853375389626133e-05,
+      "loss": 3.3789,
+      "step": 1070
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.85201046364711e-05,
+      "loss": 3.1337,
+      "step": 1075
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.85063940777036e-05,
+      "loss": 3.2278,
+      "step": 1080
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.849262225569181e-05,
+      "loss": 3.1339,
+      "step": 1085
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.847878920632834e-05,
+      "loss": 2.954,
+      "step": 1090
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 4.846489496566542e-05,
+      "loss": 3.0878,
+      "step": 1095
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.845093956991475e-05,
+      "loss": 3.2329,
+      "step": 1100
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.843692305544738e-05,
+      "loss": 3.2245,
+      "step": 1105
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.84228454587937e-05,
+      "loss": 3.2865,
+      "step": 1110
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.8408706816643254e-05,
+      "loss": 3.1569,
+      "step": 1115
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.83945071658447e-05,
+      "loss": 3.2279,
+      "step": 1120
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.838024654340571e-05,
+      "loss": 3.0554,
+      "step": 1125
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.836592498649283e-05,
+      "loss": 3.3924,
+      "step": 1130
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 4.835154253243147e-05,
+      "loss": 3.0695,
+      "step": 1135
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.8337099218705695e-05,
+      "loss": 3.2666,
+      "step": 1140
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.832259508295822e-05,
+      "loss": 3.135,
+      "step": 1145
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.830803016299027e-05,
+      "loss": 2.947,
+      "step": 1150
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.829340449676147e-05,
+      "loss": 3.13,
+      "step": 1155
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.82787181223898e-05,
+      "loss": 3.038,
+      "step": 1160
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.826397107815142e-05,
+      "loss": 3.0761,
+      "step": 1165
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.824916340248064e-05,
+      "loss": 3.1496,
+      "step": 1170
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.823429513396977e-05,
+      "loss": 2.8758,
+      "step": 1175
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.821936631136906e-05,
+      "loss": 3.218,
+      "step": 1180
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.820437697358656e-05,
+      "loss": 3.0933,
+      "step": 1185
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.8189327159688035e-05,
+      "loss": 3.2388,
+      "step": 1190
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.817421690889689e-05,
+      "loss": 3.1914,
+      "step": 1195
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.815904626059401e-05,
+      "loss": 3.2259,
+      "step": 1200
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.814381525431771e-05,
+      "loss": 3.1867,
+      "step": 1205
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.8128523929763626e-05,
+      "loss": 3.1134,
+      "step": 1210
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.811317232678456e-05,
+      "loss": 3.3846,
+      "step": 1215
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 4.8097760485390444e-05,
+      "loss": 3.2507,
+      "step": 1220
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 4.8082288445748194e-05,
+      "loss": 3.0992,
+      "step": 1225
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 4.806675624818162e-05,
+      "loss": 3.0715,
+      "step": 1230
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 4.8051163933171316e-05,
+      "loss": 3.2028,
+      "step": 1235
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 4.8035511541354547e-05,
+      "loss": 3.2714,
+      "step": 1240
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 4.801979911352519e-05,
+      "loss": 3.1238,
+      "step": 1245
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 4.800402669063353e-05,
+      "loss": 3.2508,
+      "step": 1250
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 4.7988194313786275e-05,
+      "loss": 3.2359,
+      "step": 1255
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 4.797230202424633e-05,
+      "loss": 2.8538,
+      "step": 1260
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 4.7956349863432794e-05,
+      "loss": 3.1991,
+      "step": 1265
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 4.794033787292078e-05,
+      "loss": 3.0467,
+      "step": 1270
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 4.7924266094441346e-05,
+      "loss": 3.1088,
+      "step": 1275
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 4.7908134569881344e-05,
+      "loss": 3.128,
+      "step": 1280
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 4.789194334128338e-05,
+      "loss": 3.3195,
+      "step": 1285
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 4.7875692450845624e-05,
+      "loss": 3.2049,
+      "step": 1290
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 4.785938194092176e-05,
+      "loss": 3.1477,
+      "step": 1295
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 4.7843011854020846e-05,
+      "loss": 3.2506,
+      "step": 1300
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 4.7826582232807213e-05,
+      "loss": 3.1822,
+      "step": 1305
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 4.7810093120100374e-05,
+      "loss": 2.9576,
+      "step": 1310
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.779354455887485e-05,
+      "loss": 3.2086,
+      "step": 1315
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.777693659226013e-05,
+      "loss": 3.2935,
+      "step": 1320
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.776026926354052e-05,
+      "loss": 2.9873,
+      "step": 1325
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.774354261615503e-05,
+      "loss": 3.2671,
+      "step": 1330
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.772675669369728e-05,
+      "loss": 3.0882,
+      "step": 1335
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.770991153991537e-05,
+      "loss": 3.2727,
+      "step": 1340
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.769300719871177e-05,
+      "loss": 2.9907,
+      "step": 1345
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.7676043714143195e-05,
+      "loss": 3.1303,
+      "step": 1350
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.765902113042053e-05,
+      "loss": 3.1412,
+      "step": 1355
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.7641939491908674e-05,
+      "loss": 3.3585,
+      "step": 1360
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.7624798843126404e-05,
+      "loss": 3.1958,
+      "step": 1365
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.7607599228746355e-05,
+      "loss": 3.1581,
+      "step": 1370
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.759034069359478e-05,
+      "loss": 3.224,
+      "step": 1375
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.7573023282651536e-05,
+      "loss": 3.1031,
+      "step": 1380
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.75556470410499e-05,
+      "loss": 3.0914,
+      "step": 1385
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.753821201407648e-05,
+      "loss": 3.2474,
+      "step": 1390
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 4.75207182471711e-05,
+      "loss": 3.2045,
+      "step": 1395
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 4.7503165785926676e-05,
+      "loss": 2.9288,
+      "step": 1400
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 4.748555467608909e-05,
+      "loss": 3.3084,
+      "step": 1405
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 4.7467884963557064e-05,
+      "loss": 3.1761,
+      "step": 1410
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.745015669438207e-05,
+      "loss": 3.0644,
+      "step": 1415
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.7432369914768185e-05,
+      "loss": 3.0874,
+      "step": 1420
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.7414524671071994e-05,
+      "loss": 3.1106,
+      "step": 1425
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.739662100980242e-05,
+      "loss": 2.8364,
+      "step": 1430
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 4.737865897762066e-05,
+      "loss": 3.0884,
+      "step": 1435
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 4.736063862134004e-05,
+      "loss": 3.1134,
+      "step": 1440
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 4.734255998792589e-05,
+      "loss": 3.3668,
+      "step": 1445
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 4.732442312449541e-05,
+      "loss": 2.9823,
+      "step": 1450
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 4.730622807831758e-05,
+      "loss": 3.0893,
+      "step": 1455
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 4.728797489681301e-05,
+      "loss": 3.1091,
+      "step": 1460
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 4.726966362755383e-05,
+      "loss": 2.9348,
+      "step": 1465
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.725129431826355e-05,
+      "loss": 3.2506,
+      "step": 1470
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.723286701681695e-05,
+      "loss": 2.9876,
+      "step": 1475
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.7214381771239946e-05,
+      "loss": 2.9158,
+      "step": 1480
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.719583862970949e-05,
+      "loss": 3.2035,
+      "step": 1485
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 4.7177237640553414e-05,
+      "loss": 2.9031,
+      "step": 1490
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 4.7158578852250304e-05,
+      "loss": 3.2779,
+      "step": 1495
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 4.7139862313429385e-05,
+      "loss": 3.1219,
+      "step": 1500
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 4.712108807287042e-05,
+      "loss": 3.1643,
+      "step": 1505
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.7102256179503525e-05,
+      "loss": 3.1993,
+      "step": 1510
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.708336668240908e-05,
+      "loss": 3.1773,
+      "step": 1515
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.706441963081762e-05,
+      "loss": 2.9617,
+      "step": 1520
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 4.7045415074109646e-05,
+      "loss": 3.2621,
+      "step": 1525
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.702635306181554e-05,
+      "loss": 3.2206,
+      "step": 1530
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.700723364361545e-05,
+      "loss": 3.3413,
+      "step": 1535
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.6988056869339104e-05,
+      "loss": 3.3453,
+      "step": 1540
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.696882278896574e-05,
+      "loss": 3.0481,
+      "step": 1545
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.694953145262393e-05,
+      "loss": 3.2183,
+      "step": 1550
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.693018291059147e-05,
+      "loss": 3.4063,
+      "step": 1555
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.691077721329527e-05,
+      "loss": 3.1694,
+      "step": 1560
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.6891314411311184e-05,
+      "loss": 3.0084,
+      "step": 1565
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.6871794555363885e-05,
+      "loss": 3.318,
+      "step": 1570
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.685221769632676e-05,
+      "loss": 3.3126,
+      "step": 1575
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.683258388522175e-05,
+      "loss": 3.1085,
+      "step": 1580
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.681289317321923e-05,
+      "loss": 3.0566,
+      "step": 1585
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.679314561163787e-05,
+      "loss": 3.0642,
+      "step": 1590
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.6773341251944496e-05,
+      "loss": 2.9335,
+      "step": 1595
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.675348014575398e-05,
+      "loss": 3.1551,
+      "step": 1600
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 4.673356234482908e-05,
+      "loss": 3.0211,
+      "step": 1605
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.671358790108033e-05,
+      "loss": 3.28,
+      "step": 1610
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.6693556866565835e-05,
+      "loss": 3.0621,
+      "step": 1615
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.667346929349126e-05,
+      "loss": 3.1141,
+      "step": 1620
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.6653325234209575e-05,
+      "loss": 3.1941,
+      "step": 1625
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.663312474122099e-05,
+      "loss": 3.1874,
+      "step": 1630
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.661286786717278e-05,
+      "loss": 3.2085,
+      "step": 1635
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.659255466485918e-05,
+      "loss": 3.398,
+      "step": 1640
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 4.65721851872212e-05,
+      "loss": 3.1911,
+      "step": 1645
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 4.655175948734654e-05,
+      "loss": 3.2273,
+      "step": 1650
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 4.653127761846943e-05,
+      "loss": 3.2084,
+      "step": 1655
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 4.6510739633970485e-05,
+      "loss": 3.2789,
+      "step": 1660
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.649014558737656e-05,
+      "loss": 3.1193,
+      "step": 1665
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.646949553236064e-05,
+      "loss": 3.2083,
+      "step": 1670
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.6448789522741665e-05,
+      "loss": 3.0306,
+      "step": 1675
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 4.642802761248441e-05,
+      "loss": 3.0084,
+      "step": 1680
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.6407209855699365e-05,
+      "loss": 3.2976,
+      "step": 1685
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.6386336306642514e-05,
+      "loss": 3.3373,
+      "step": 1690
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.63654070197153e-05,
+      "loss": 3.049,
+      "step": 1695
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.634442204946442e-05,
+      "loss": 3.1669,
+      "step": 1700
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 4.632338145058167e-05,
+      "loss": 3.1078,
+      "step": 1705
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 4.630228527790386e-05,
+      "loss": 3.1724,
+      "step": 1710
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 4.628113358641263e-05,
+      "loss": 3.2197,
+      "step": 1715
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 4.625992643123429e-05,
+      "loss": 3.0047,
+      "step": 1720
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 4.623866386763974e-05,
+      "loss": 2.9798,
+      "step": 1725
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 4.621734595104427e-05,
+      "loss": 3.2065,
+      "step": 1730
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 4.619597273700742e-05,
+      "loss": 3.0981,
+      "step": 1735
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 4.6174544281232865e-05,
+      "loss": 2.7712,
+      "step": 1740
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.615306063956826e-05,
+      "loss": 3.2469,
+      "step": 1745
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.613152186800506e-05,
+      "loss": 3.3318,
+      "step": 1750
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.610992802267842e-05,
+      "loss": 3.216,
+      "step": 1755
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 4.608827915986704e-05,
+      "loss": 3.0298,
+      "step": 1760
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.606657533599298e-05,
+      "loss": 3.1146,
+      "step": 1765
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.604481660762158e-05,
+      "loss": 3.1621,
+      "step": 1770
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.6023003031461234e-05,
+      "loss": 2.9654,
+      "step": 1775
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.600113466436331e-05,
+      "loss": 3.3586,
+      "step": 1780
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.597921156332196e-05,
+      "loss": 3.1212,
+      "step": 1785
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.5957233785474e-05,
+      "loss": 2.8321,
+      "step": 1790
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.5935201388098716e-05,
+      "loss": 2.9001,
+      "step": 1795
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.5913114428617785e-05,
+      "loss": 3.248,
+      "step": 1800
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 4.589097296459508e-05,
+      "loss": 2.8819,
+      "step": 1805
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 4.5868777053736476e-05,
+      "loss": 3.0377,
+      "step": 1810
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 4.584652675388982e-05,
+      "loss": 3.3161,
+      "step": 1815
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.582422212304467e-05,
+      "loss": 3.1995,
+      "step": 1820
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.580186321933217e-05,
+      "loss": 3.4196,
+      "step": 1825
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.577945010102496e-05,
+      "loss": 3.35,
+      "step": 1830
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.575698282653693e-05,
+      "loss": 3.2269,
+      "step": 1835
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.573446145442314e-05,
+      "loss": 3.1207,
+      "step": 1840
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.571188604337963e-05,
+      "loss": 3.3682,
+      "step": 1845
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.568925665224327e-05,
+      "loss": 3.0202,
+      "step": 1850
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.5666573339991646e-05,
+      "loss": 3.0227,
+      "step": 1855
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 4.564383616574285e-05,
+      "loss": 3.1553,
+      "step": 1860
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 4.562104518875535e-05,
+      "loss": 3.1961,
+      "step": 1865
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 4.5598200468427854e-05,
+      "loss": 2.9751,
+      "step": 1870
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 4.557530206429912e-05,
+      "loss": 2.9953,
+      "step": 1875
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 4.555235003604782e-05,
+      "loss": 2.9119,
+      "step": 1880
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 4.55293444434924e-05,
+      "loss": 3.1541,
+      "step": 1885
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 4.5506285346590894e-05,
+      "loss": 2.9233,
+      "step": 1890
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 4.5483172805440785e-05,
+      "loss": 3.3379,
+      "step": 1895
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.546000688027884e-05,
+      "loss": 3.1169,
+      "step": 1900
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.543678763148096e-05,
+      "loss": 3.3383,
+      "step": 1905
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.5413515119562023e-05,
+      "loss": 3.1096,
+      "step": 1910
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.539018940517572e-05,
+      "loss": 3.1755,
+      "step": 1915
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.53668105491144e-05,
+      "loss": 3.1069,
+      "step": 1920
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.534337861230891e-05,
+      "loss": 3.045,
+      "step": 1925
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.5319893655828446e-05,
+      "loss": 2.975,
+      "step": 1930
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 4.5296355740880385e-05,
+      "loss": 3.4444,
+      "step": 1935
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.5272764928810115e-05,
+      "loss": 3.1052,
+      "step": 1940
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.52491212811009e-05,
+      "loss": 3.0536,
+      "step": 1945
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.522542485937369e-05,
+      "loss": 3.0542,
+      "step": 1950
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.520167572538699e-05,
+      "loss": 3.158,
+      "step": 1955
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.5177873941036683e-05,
+      "loss": 3.0392,
+      "step": 1960
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.5154019568355876e-05,
+      "loss": 3.1487,
+      "step": 1965
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.5130112669514726e-05,
+      "loss": 2.9061,
+      "step": 1970
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 4.510615330682028e-05,
+      "loss": 2.9249,
+      "step": 1975
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 4.5082141542716336e-05,
+      "loss": 3.0888,
+      "step": 1980
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 4.505807743978324e-05,
+      "loss": 2.9417,
+      "step": 1985
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 4.5033961060737774e-05,
+      "loss": 2.8967,
+      "step": 1990
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 4.5009792468432946e-05,
+      "loss": 2.9344,
+      "step": 1995
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 4.498557172585782e-05,
+      "loss": 3.1597,
+      "step": 2000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 4.496129889613744e-05,
+      "loss": 2.9188,
+      "step": 2005
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 4.493697404253254e-05,
+      "loss": 2.7781,
+      "step": 2010
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.4912597228439466e-05,
+      "loss": 3.0411,
+      "step": 2015
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.488816851738999e-05,
+      "loss": 3.0727,
+      "step": 2020
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.486368797305114e-05,
+      "loss": 3.0783,
+      "step": 2025
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 4.483915565922501e-05,
+      "loss": 2.823,
+      "step": 2030
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.481457163984864e-05,
+      "loss": 2.6414,
+      "step": 2035
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.478993597899382e-05,
+      "loss": 2.9076,
+      "step": 2040
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.476524874086695e-05,
+      "loss": 2.8118,
+      "step": 2045
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 4.4740509989808815e-05,
+      "loss": 3.0352,
+      "step": 2050
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 4.4715719790294474e-05,
+      "loss": 3.0765,
+      "step": 2055
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 4.4690878206933086e-05,
+      "loss": 2.6218,
+      "step": 2060
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 4.466598530446771e-05,
+      "loss": 3.0266,
+      "step": 2065
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 4.464104114777515e-05,
+      "loss": 3.0852,
+      "step": 2070
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.4616045801865814e-05,
+      "loss": 2.9536,
+      "step": 2075
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.4590999331883505e-05,
+      "loss": 2.7272,
+      "step": 2080
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.456590180310527e-05,
+      "loss": 3.0185,
+      "step": 2085
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 4.454075328094123e-05,
+      "loss": 3.1669,
+      "step": 2090
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 4.45155538309344e-05,
+      "loss": 2.7681,
+      "step": 2095
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 4.449030351876053e-05,
+      "loss": 3.0262,
+      "step": 2100
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 4.446500241022794e-05,
+      "loss": 2.7877,
+      "step": 2105
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 4.443965057127731e-05,
+      "loss": 2.9973,
+      "step": 2110
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 4.441424806798156e-05,
+      "loss": 2.9694,
+      "step": 2115
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 4.438879496654565e-05,
+      "loss": 2.9082,
+      "step": 2120
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 4.43632913333064e-05,
+      "loss": 3.1398,
+      "step": 2125
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 4.4337737234732334e-05,
+      "loss": 2.9788,
+      "step": 2130
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 4.431213273742351e-05,
+      "loss": 3.0885,
+      "step": 2135
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 4.42864779081113e-05,
+      "loss": 3.1436,
+      "step": 2140
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 4.4260772813658316e-05,
+      "loss": 2.9983,
+      "step": 2145
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 4.423501752105812e-05,
+      "loss": 3.0249,
+      "step": 2150
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 4.420921209743511e-05,
+      "loss": 2.8603,
+      "step": 2155
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 4.4183356610044364e-05,
+      "loss": 2.8446,
+      "step": 2160
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 4.415745112627141e-05,
+      "loss": 3.0299,
+      "step": 2165
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.4131495713632104e-05,
+      "loss": 2.8172,
+      "step": 2170
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.4105490439772404e-05,
+      "loss": 2.9729,
+      "step": 2175
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.407943537246822e-05,
+      "loss": 2.9726,
+      "step": 2180
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.4053330579625265e-05,
+      "loss": 2.8896,
+      "step": 2185
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 4.4027176129278815e-05,
+      "loss": 3.1341,
+      "step": 2190
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 4.4000972089593566e-05,
+      "loss": 2.8074,
+      "step": 2195
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 4.397471852886349e-05,
+      "loss": 3.0711,
+      "step": 2200
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 4.3948415515511586e-05,
+      "loss": 3.0245,
+      "step": 2205
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 4.3922063118089765e-05,
+      "loss": 3.0007,
+      "step": 2210
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 4.389566140527861e-05,
+      "loss": 2.9818,
+      "step": 2215
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 4.386921044588727e-05,
+      "loss": 2.9922,
+      "step": 2220
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 4.384271030885322e-05,
+      "loss": 2.8606,
+      "step": 2225
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 4.381616106324211e-05,
+      "loss": 2.7615,
+      "step": 2230
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 4.3789562778247585e-05,
+      "loss": 2.7838,
+      "step": 2235
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 4.3762915523191084e-05,
+      "loss": 2.9275,
+      "step": 2240
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 4.373621936752168e-05,
+      "loss": 3.0331,
+      "step": 2245
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 4.37094743808159e-05,
+      "loss": 2.9586,
+      "step": 2250
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 4.3682680632777515e-05,
+      "loss": 2.7475,
+      "step": 2255
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 4.36558381932374e-05,
+      "loss": 3.0034,
+      "step": 2260
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 4.362894713215334e-05,
+      "loss": 2.9839,
+      "step": 2265
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 4.360200751960982e-05,
+      "loss": 2.8333,
+      "step": 2270
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 4.3575019425817856e-05,
+      "loss": 2.853,
+      "step": 2275
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 4.354798292111483e-05,
+      "loss": 3.266,
+      "step": 2280
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 4.35208980759643e-05,
+      "loss": 3.1553,
+      "step": 2285
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 4.34937649609558e-05,
+      "loss": 3.1441,
+      "step": 2290
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 4.3466583646804674e-05,
+      "loss": 2.8948,
+      "step": 2295
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 4.3439354204351866e-05,
+      "loss": 3.0963,
+      "step": 2300
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 4.341207670456379e-05,
+      "loss": 3.0771,
+      "step": 2305
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 4.3384751218532086e-05,
+      "loss": 3.0364,
+      "step": 2310
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 4.335737781747343e-05,
+      "loss": 2.9928,
+      "step": 2315
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 4.332995657272944e-05,
+      "loss": 3.1993,
+      "step": 2320
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 4.330248755576636e-05,
+      "loss": 2.9873,
+      "step": 2325
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 4.3274970838175e-05,
+      "loss": 2.9258,
+      "step": 2330
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 4.324740649167044e-05,
+      "loss": 2.7857,
+      "step": 2335
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 4.321979458809191e-05,
+      "loss": 3.1293,
+      "step": 2340
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 4.31921351994026e-05,
+      "loss": 3.0588,
+      "step": 2345
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 4.3164428397689436e-05,
+      "loss": 3.116,
+      "step": 2350
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 4.313667425516292e-05,
+      "loss": 3.0814,
+      "step": 2355
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 4.310887284415695e-05,
+      "loss": 2.9781,
+      "step": 2360
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 4.308102423712859e-05,
+      "loss": 2.8611,
+      "step": 2365
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 4.3053128506657934e-05,
+      "loss": 3.1201,
+      "step": 2370
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 4.302518572544787e-05,
+      "loss": 3.108,
+      "step": 2375
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 4.299719596632392e-05,
+      "loss": 2.8409,
+      "step": 2380
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 4.2969159302234044e-05,
+      "loss": 2.8566,
+      "step": 2385
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 4.294107580624845e-05,
+      "loss": 2.7636,
+      "step": 2390
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 4.291294555155939e-05,
+      "loss": 3.1108,
+      "step": 2395
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 4.2884768611481e-05,
+      "loss": 3.0492,
+      "step": 2400
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 4.2856545059449063e-05,
+      "loss": 3.1709,
+      "step": 2405
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 4.282827496902086e-05,
+      "loss": 3.0867,
+      "step": 2410
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 4.279995841387496e-05,
+      "loss": 2.8054,
+      "step": 2415
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 4.277159546781103e-05,
+      "loss": 2.8368,
+      "step": 2420
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 4.274318620474964e-05,
+      "loss": 3.0,
+      "step": 2425
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 4.2714730698732076e-05,
+      "loss": 2.9218,
+      "step": 2430
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 4.268622902392014e-05,
+      "loss": 2.9109,
+      "step": 2435
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 4.265768125459597e-05,
+      "loss": 3.074,
+      "step": 2440
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 4.263480990108211e-05,
+      "loss": 2.8238,
+      "step": 2445
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 4.260617934921023e-05,
+      "loss": 2.9209,
+      "step": 2450
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 4.257750291145457e-05,
+      "loss": 2.8323,
+      "step": 2455
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 4.254878066255274e-05,
+      "loss": 3.2091,
+      "step": 2460
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 4.252001267736174e-05,
+      "loss": 2.8372,
+      "step": 2465
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 4.2491199030857764e-05,
+      "loss": 3.0106,
+      "step": 2470
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 4.246233979813602e-05,
+      "loss": 2.9969,
+      "step": 2475
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 4.243343505441052e-05,
+      "loss": 3.1595,
+      "step": 2480
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 4.2404484875013895e-05,
+      "loss": 2.8051,
+      "step": 2485
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 4.237548933539718e-05,
+      "loss": 2.8842,
+      "step": 2490
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 4.234644851112964e-05,
+      "loss": 2.9729,
+      "step": 2495
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 4.231736247789856e-05,
+      "loss": 2.7805,
+      "step": 2500
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 4.228823131150904e-05,
+      "loss": 2.9725,
+      "step": 2505
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 4.225905508788382e-05,
+      "loss": 3.0599,
+      "step": 2510
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 4.222983388306308e-05,
+      "loss": 2.7567,
+      "step": 2515
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 4.2200567773204194e-05,
+      "loss": 2.884,
+      "step": 2520
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 4.217125683458161e-05,
+      "loss": 2.8594,
+      "step": 2525
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 4.214190114358659e-05,
+      "loss": 2.9515,
+      "step": 2530
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 4.211250077672704e-05,
+      "loss": 2.992,
+      "step": 2535
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 4.208305581062728e-05,
+      "loss": 3.1784,
+      "step": 2540
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 4.205356632202789e-05,
+      "loss": 3.0196,
+      "step": 2545
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 4.20240323877855e-05,
+      "loss": 2.7891,
+      "step": 2550
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 4.1994454084872525e-05,
+      "loss": 2.8974,
+      "step": 2555
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 4.196483149037707e-05,
+      "loss": 2.8219,
+      "step": 2560
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 4.1935164681502624e-05,
+      "loss": 2.8833,
+      "step": 2565
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 4.190545373556796e-05,
+      "loss": 3.0166,
+      "step": 2570
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 4.187569873000684e-05,
+      "loss": 3.1676,
+      "step": 2575
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 4.184589974236788e-05,
+      "loss": 2.9239,
+      "step": 2580
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 4.181605685031432e-05,
+      "loss": 3.0094,
+      "step": 2585
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 4.1786170131623825e-05,
+      "loss": 3.0235,
+      "step": 2590
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 4.1756239664188273e-05,
+      "loss": 3.058,
+      "step": 2595
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 4.172626552601358e-05,
+      "loss": 2.7391,
+      "step": 2600
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 4.169624779521944e-05,
+      "loss": 2.9975,
+      "step": 2605
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 4.1666186550039214e-05,
+      "loss": 2.7703,
+      "step": 2610
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 4.163608186881964e-05,
+      "loss": 2.8288,
+      "step": 2615
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.160593383002066e-05,
+      "loss": 2.9945,
+      "step": 2620
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.157574251221521e-05,
+      "loss": 2.8768,
+      "step": 2625
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.1545507994089064e-05,
+      "loss": 2.7161,
+      "step": 2630
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 4.1515230354440524e-05,
+      "loss": 3.0821,
+      "step": 2635
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 4.148490967218033e-05,
+      "loss": 3.1119,
+      "step": 2640
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 4.145454602633137e-05,
+      "loss": 2.8815,
+      "step": 2645
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 4.14241394960285e-05,
+      "loss": 2.9891,
+      "step": 2650
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 4.1393690160518384e-05,
+      "loss": 3.2624,
+      "step": 2655
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.1363198099159205e-05,
+      "loss": 2.7588,
+      "step": 2660
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.1332663391420515e-05,
+      "loss": 3.0405,
+      "step": 2665
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.130208611688302e-05,
+      "loss": 2.9254,
+      "step": 2670
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.1271466355238354e-05,
+      "loss": 2.8499,
+      "step": 2675
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.124080418628888e-05,
+      "loss": 3.0828,
+      "step": 2680
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.1210099689947513e-05,
+      "loss": 2.8524,
+      "step": 2685
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.117935294623743e-05,
+      "loss": 3.0711,
+      "step": 2690
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 4.1148564035291956e-05,
+      "loss": 3.0343,
+      "step": 2695
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.1117733037354314e-05,
+      "loss": 2.8869,
+      "step": 2700
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.1086860032777395e-05,
+      "loss": 3.0381,
+      "step": 2705
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 4.105594510202359e-05,
+      "loss": 2.9049,
+      "step": 2710
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.102498832566454e-05,
+      "loss": 3.0071,
+      "step": 2715
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.0993989784380947e-05,
+      "loss": 2.9955,
+      "step": 2720
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.096294955896239e-05,
+      "loss": 2.9568,
+      "step": 2725
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 4.093186773030705e-05,
+      "loss": 2.9727,
+      "step": 2730
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.090074437942155e-05,
+      "loss": 3.0501,
+      "step": 2735
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.086957958742075e-05,
+      "loss": 3.2328,
+      "step": 2740
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.0838373435527494e-05,
+      "loss": 2.7966,
+      "step": 2745
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.08071260050724e-05,
+      "loss": 2.8666,
+      "step": 2750
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 4.077583737749373e-05,
+      "loss": 2.9765,
+      "step": 2755
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 4.074450763433704e-05,
+      "loss": 2.6923,
+      "step": 2760
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 4.07131368572551e-05,
+      "loss": 2.9031,
+      "step": 2765
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 4.06817251280076e-05,
+      "loss": 2.8287,
+      "step": 2770
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 4.065027252846095e-05,
+      "loss": 3.1046,
+      "step": 2775
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 4.0618779140588124e-05,
+      "loss": 3.0414,
+      "step": 2780
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 4.058724504646834e-05,
+      "loss": 2.8644,
+      "step": 2785
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 4.055567032828695e-05,
+      "loss": 2.9589,
+      "step": 2790
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 4.052405506833516e-05,
+      "loss": 2.886,
+      "step": 2795
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 4.0492399349009846e-05,
+      "loss": 2.8026,
+      "step": 2800
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 4.0460703252813326e-05,
+      "loss": 3.0376,
+      "step": 2805
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 4.042896686235316e-05,
+      "loss": 2.9751,
+      "step": 2810
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 4.039719026034191e-05,
+      "loss": 2.8638,
+      "step": 2815
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 4.036537352959694e-05,
+      "loss": 3.0403,
+      "step": 2820
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 4.033351675304022e-05,
+      "loss": 2.8241,
+      "step": 2825
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 4.030162001369807e-05,
+      "loss": 3.1196,
+      "step": 2830
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 4.026968339470096e-05,
+      "loss": 2.8388,
+      "step": 2835
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 4.0237706979283304e-05,
+      "loss": 2.9974,
+      "step": 2840
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 4.020569085078324e-05,
+      "loss": 3.0178,
+      "step": 2845
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 4.0173635092642386e-05,
+      "loss": 3.0166,
+      "step": 2850
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 4.014153978840567e-05,
+      "loss": 3.0657,
+      "step": 2855
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 4.010940502172108e-05,
+      "loss": 3.0229,
+      "step": 2860
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 4.007723087633943e-05,
+      "loss": 2.5904,
+      "step": 2865
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 4.0045017436114205e-05,
+      "loss": 2.8607,
+      "step": 2870
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 4.001276478500127e-05,
+      "loss": 3.0797,
+      "step": 2875
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 3.998047300705868e-05,
+      "loss": 2.9475,
+      "step": 2880
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 3.9948142186446486e-05,
+      "loss": 2.7829,
+      "step": 2885
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.991577240742649e-05,
+      "loss": 3.0715,
+      "step": 2890
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.9883363754362004e-05,
+      "loss": 3.0126,
+      "step": 2895
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.985091631171769e-05,
+      "loss": 3.0835,
+      "step": 2900
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3.981843016405927e-05,
+      "loss": 2.9109,
+      "step": 2905
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 3.978590539605338e-05,
+      "loss": 3.0058,
+      "step": 2910
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 3.975334209246727e-05,
+      "loss": 2.7376,
+      "step": 2915
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 3.972074033816866e-05,
+      "loss": 2.7173,
+      "step": 2920
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 3.968810021812544e-05,
+      "loss": 2.8642,
+      "step": 2925
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3.965542181740553e-05,
+      "loss": 2.8643,
+      "step": 2930
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3.9622705221176596e-05,
+      "loss": 3.1752,
+      "step": 2935
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3.958995051470585e-05,
+      "loss": 2.7045,
+      "step": 2940
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 3.955715778335984e-05,
+      "loss": 3.0828,
+      "step": 2945
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 3.952432711260421e-05,
+      "loss": 2.982,
+      "step": 2950
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 3.949145858800348e-05,
+      "loss": 2.9762,
+      "step": 2955
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 3.945855229522084e-05,
+      "loss": 3.1026,
+      "step": 2960
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 3.942560832001789e-05,
+      "loss": 3.1225,
+      "step": 2965
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 3.9392626748254456e-05,
+      "loss": 3.0462,
+      "step": 2970
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 3.9359607665888346e-05,
+      "loss": 2.8954,
+      "step": 2975
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 3.932655115897513e-05,
+      "loss": 2.8361,
+      "step": 2980
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 3.92934573136679e-05,
+      "loss": 3.1644,
+      "step": 2985
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 3.9260326216217105e-05,
+      "loss": 3.0226,
+      "step": 2990
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 3.922715795297022e-05,
+      "loss": 3.0285,
+      "step": 2995
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 3.919395261037163e-05,
+      "loss": 3.0582,
+      "step": 3000
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 9730,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 300,
+  "total_flos": 3.532887327763661e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-3000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:323d9e0822218e186c546ec4c60df0ed1248fa085eb7c28291141ebefc901909
+size 4411

checkpoint-5700/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: ../chinese-llama-2-13b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-5700/adapter_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "../chinese-llama-2-13b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-5700/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba04a7daacacfacc817fe69bb8c656493b0a045ff1038b16883302895a7d6d9b
+size 26235704

checkpoint-5700/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e072f48a219127995f15952ff64e4319a371d5884bbec99fff004ea2a6469b8b
+size 52562821

checkpoint-5700/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e15c5a1caf73eeeceb07f03c9bff0411cbad68abca1aaab9f035e259b6f7cd72
+size 14575

checkpoint-5700/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e9f64e34e4a841e4945659fab38b8bb044aeab66b91faeb1449ee2af4d76f3c
+size 627

checkpoint-5700/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-5700/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3b8844863b200dfcca971db228e96ce388290dfcf72c15d7a9d2f604bac787c
+size 844403

checkpoint-5700/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false,
+  "use_fast": false
+}

checkpoint-5700/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-5700/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:323d9e0822218e186c546ec4c60df0ed1248fa085eb7c28291141ebefc901909
+size 4411

checkpoint-6000/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: ../chinese-llama-2-13b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-6000/adapter_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "../chinese-llama-2-13b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-6000/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c4ae5231d7e747a12edf2dfd36253d3fe17e06fe9f16736d8c50b500f60b15c9
+size 26235704

checkpoint-6000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1bccbd32792466aa50ee0083952e5e814e0487abc096214af205f2b4572f4273
+size 52562821

checkpoint-6000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5706c03c7d4ca0f7dbfb0b7eeb33f6f375a36d2009dc90d8a47df81018d32de9
+size 14575

checkpoint-6000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6a0f73234cebce60d497551f3d4a7b125ec31919e852ba48a3aa018ef75e750
+size 627

checkpoint-6000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-6000/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3b8844863b200dfcca971db228e96ce388290dfcf72c15d7a9d2f604bac787c
+size 844403

checkpoint-6000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false,
+  "use_fast": false
+}

checkpoint-6000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-6000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:323d9e0822218e186c546ec4c60df0ed1248fa085eb7c28291141ebefc901909
+size 4411

checkpoint-900/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: ../chinese-llama-2-13b
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-900/adapter_config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "../chinese-llama-2-13b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-900/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98ca6aaeb82bd2c262e55d7a695b601dbb4d2d77fc71efbbe46ecd5379f731b1
+size 26235704

checkpoint-900/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e398c66a8abe776f171389c4492424a5a88ecd160face0025e1892cc6d40e48
+size 52562821

checkpoint-900/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:febb51449cb274984243e15b6fc03516132272000e777a4034091445fbbc808a
+size 14575

checkpoint-900/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8f28570e5762c8420e873111f5f50d0ef722ad58fbef6f3220c583f2172dbb3
+size 627