Undi95 commited on Sep 29, 2023

Commit

557a9c3

•

1 Parent(s): c8960cd

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +77 -0
adapter_config.json +28 -0
adapter_model.bin +3 -0
added_tokens.json +5 -0
checkpoint-100/README.md +21 -0
checkpoint-100/adapter_config.json +28 -0
checkpoint-100/adapter_model.bin +3 -0
checkpoint-100/optimizer.pt +3 -0
checkpoint-100/rng_state.pth +3 -0
checkpoint-100/scheduler.pt +3 -0
checkpoint-100/trainer_state.json +635 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-150/README.md +21 -0
checkpoint-150/adapter_config.json +28 -0
checkpoint-150/adapter_model.bin +3 -0
checkpoint-150/optimizer.pt +3 -0
checkpoint-150/rng_state.pth +3 -0
checkpoint-150/scheduler.pt +3 -0
checkpoint-150/trainer_state.json +943 -0
checkpoint-150/training_args.bin +3 -0
checkpoint-200/README.md +21 -0
checkpoint-200/adapter_config.json +28 -0
checkpoint-200/adapter_model.bin +3 -0
checkpoint-200/optimizer.pt +3 -0
checkpoint-200/rng_state.pth +3 -0
checkpoint-200/scheduler.pt +3 -0
checkpoint-200/trainer_state.json +1251 -0
checkpoint-200/training_args.bin +3 -0
checkpoint-250/README.md +21 -0
checkpoint-250/adapter_config.json +28 -0
checkpoint-250/adapter_model.bin +3 -0
checkpoint-250/optimizer.pt +3 -0
checkpoint-250/rng_state.pth +3 -0
checkpoint-250/scheduler.pt +3 -0
checkpoint-250/trainer_state.json +1559 -0
checkpoint-250/training_args.bin +3 -0
checkpoint-300/README.md +21 -0
checkpoint-300/adapter_config.json +28 -0
checkpoint-300/adapter_model.bin +3 -0
checkpoint-300/optimizer.pt +3 -0
checkpoint-300/rng_state.pth +3 -0
checkpoint-300/scheduler.pt +3 -0
checkpoint-300/trainer_state.json +1867 -0
checkpoint-300/training_args.bin +3 -0
checkpoint-350/README.md +21 -0
checkpoint-350/adapter_config.json +28 -0
checkpoint-350/adapter_model.bin +3 -0
checkpoint-350/optimizer.pt +3 -0
checkpoint-350/rng_state.pth +3 -0
checkpoint-350/scheduler.pt +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,77 @@

+---
+tags:
+- generated_from_trainer
+model-index:
+- name: lora-out
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/OpenAccess-AI-Collective/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/OpenAccess-AI-Collective/axolotl)
+# lora-out
+This model was trained from scratch on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.6736
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 10
+- num_epochs: 3
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.6421        | 0.16  | 50   | 1.6217          |
+| 1.6288        | 0.31  | 100  | 1.6144          |
+| 1.5725        | 0.47  | 150  | 1.6102          |
+| 1.5582        | 0.62  | 200  | 1.6065          |
+| 1.6055        | 0.78  | 250  | 1.6051          |
+| 1.5733        | 0.93  | 300  | 1.6023          |
+| 1.4885        | 1.09  | 350  | 1.6130          |
+| 1.484         | 1.24  | 400  | 1.6169          |
+| 1.4354        | 1.4   | 450  | 1.6194          |
+| 1.4427        | 1.56  | 500  | 1.6187          |
+| 1.4687        | 1.71  | 550  | 1.6178          |
+| 1.461         | 1.87  | 600  | 1.6174          |
+| 1.327         | 2.02  | 650  | 1.6341          |
+| 1.3015        | 2.18  | 700  | 1.6665          |
+| 1.3328        | 2.33  | 750  | 1.6714          |
+| 1.3453        | 2.49  | 800  | 1.6718          |
+| 1.3458        | 2.64  | 850  | 1.6725          |
+| 1.3016        | 2.8   | 900  | 1.6737          |
+| 1.3018        | 2.95  | 950  | 1.6736          |
+### Framework versions
+- Transformers 4.34.0.dev0
+- Pytorch 2.0.1+cu118
+- Datasets 2.14.5
+- Tokenizers 0.14.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "./mistralai_Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:219facdff16b696735f1a84fdd92a0cbac9e197db9eef71c8ce3344d57718790
+size 84046925

added_tokens.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "</s>": 2,
+  "<s>": 1,
+  "<unk>": 0
+}

checkpoint-100/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

checkpoint-100/adapter_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "./mistralai_Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-100/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:15b988ab295a843da4e545e17f172c76e0f1bfa3a9dd9edf198aef5f67b77510
+size 84046925

checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d7a2c502708a4001a524b14e53231dd6709ac7558468e509fa4048cd3f6e77c
+size 168039109

checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b33e2e1c1d173dea2a01ae0984bce42a42fb5bc88b8e940e3d611fa0910ef6b
+size 14575

checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69c403caea7cd1ca879cd128b86652676d56ca84332ed1fd33c5182cf98e7a10
+size 627

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,635 @@

+{
+  "best_metric": 1.6143836975097656,
+  "best_model_checkpoint": "./lora-out/checkpoint-100",
+  "epoch": 0.3110419906687403,
+  "eval_steps": 50,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2e-05,
+      "loss": 1.7924,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4e-05,
+      "loss": 1.8083,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 6e-05,
+      "loss": 1.8177,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8e-05,
+      "loss": 1.7595,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 1.6598,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00012,
+      "loss": 1.6919,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014,
+      "loss": 1.6706,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00016,
+      "loss": 1.6879,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00018,
+      "loss": 1.7051,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 1.7022,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000199999456645141,
+      "loss": 1.6809,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999782658646859,
+      "loss": 1.6098,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001999951098416968,
+      "loss": 1.7014,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999130644034888,
+      "loss": 1.5885,
+      "step": 14
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998641642375657,
+      "loss": 1.6243,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998043984506027,
+      "loss": 1.6484,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019997337676920803,
+      "loss": 1.6093,
+      "step": 17
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019996522727295496,
+      "loss": 1.6173,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019995599144486247,
+      "loss": 1.646,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019994566938529712,
+      "loss": 1.6469,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019993426120642983,
+      "loss": 1.6564,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019992176703223432,
+      "loss": 1.5901,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.000199908186998486,
+      "loss": 1.664,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019989352125276047,
+      "loss": 1.6275,
+      "step": 24
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019987776995443178,
+      "loss": 1.5839,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019986093327467076,
+      "loss": 1.5611,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019984301139644334,
+      "loss": 1.669,
+      "step": 27
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001998240045145083,
+      "loss": 1.5641,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019980391283541522,
+      "loss": 1.6023,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019978273657750238,
+      "loss": 1.6309,
+      "step": 30
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001997604759708942,
+      "loss": 1.6353,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019973713125749884,
+      "loss": 1.6328,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019971270269100564,
+      "loss": 1.5683,
+      "step": 33
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019968719053688213,
+      "loss": 1.6217,
+      "step": 34
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001996605950723714,
+      "loss": 1.5734,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019963291658648896,
+      "loss": 1.6162,
+      "step": 36
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019960415538001957,
+      "loss": 1.5922,
+      "step": 37
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001995743117655141,
+      "loss": 1.5806,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.000199543386067286,
+      "loss": 1.5938,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019951137862140778,
+      "loss": 1.6386,
+      "step": 40
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019947828977570756,
+      "loss": 1.6476,
+      "step": 41
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019944411988976496,
+      "loss": 1.6557,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019940886933490749,
+      "loss": 1.5836,
+      "step": 43
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019937253849420635,
+      "loss": 1.6421,
+      "step": 44
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001993351277624723,
+      "loss": 1.629,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019929663754625145,
+      "loss": 1.6392,
+      "step": 46
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019925706826382064,
+      "loss": 1.5677,
+      "step": 47
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019921642034518317,
+      "loss": 1.6144,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019917469423206389,
+      "loss": 1.6068,
+      "step": 49
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019913189037790456,
+      "loss": 1.6421,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.621693730354309,
+      "eval_runtime": 233.7603,
+      "eval_samples_per_second": 16.354,
+      "eval_steps_per_second": 4.09,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990880092478588,
+      "loss": 1.6172,
+      "step": 51
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990430513187871,
+      "loss": 1.6095,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019899701707925166,
+      "loss": 1.5967,
+      "step": 53
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019894990702951106,
+      "loss": 1.617,
+      "step": 54
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019890172168151473,
+      "loss": 1.5932,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001988524615588976,
+      "loss": 1.6548,
+      "step": 56
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019880212719697413,
+      "loss": 1.6033,
+      "step": 57
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019875071914273278,
+      "loss": 1.6063,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019869823795482986,
+      "loss": 1.6107,
+      "step": 59
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019864468420358354,
+      "loss": 1.5758,
+      "step": 60
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019859005847096763,
+      "loss": 1.5723,
+      "step": 61
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019853436135060527,
+      "loss": 1.542,
+      "step": 62
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019847759344776252,
+      "loss": 1.5611,
+      "step": 63
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019841975537934162,
+      "loss": 1.6157,
+      "step": 64
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019836084777387458,
+      "loss": 1.5589,
+      "step": 65
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019830087127151598,
+      "loss": 1.6077,
+      "step": 66
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019823982652403634,
+      "loss": 1.5473,
+      "step": 67
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019817771419481487,
+      "loss": 1.6265,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001981145349588323,
+      "loss": 1.6074,
+      "step": 69
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019805028950266348,
+      "loss": 1.6195,
+      "step": 70
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019798497852447006,
+      "loss": 1.5876,
+      "step": 71
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001979186027339928,
+      "loss": 1.5978,
+      "step": 72
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019785116285254381,
+      "loss": 1.533,
+      "step": 73
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019778265961299888,
+      "loss": 1.5888,
+      "step": 74
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001977130937597894,
+      "loss": 1.6211,
+      "step": 75
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019764246604889415,
+      "loss": 1.6091,
+      "step": 76
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019757077724783147,
+      "loss": 1.6012,
+      "step": 77
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001974980281356504,
+      "loss": 1.6401,
+      "step": 78
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001974242195029227,
+      "loss": 1.6111,
+      "step": 79
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019734935215173392,
+      "loss": 1.6208,
+      "step": 80
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019727342689567482,
+      "loss": 1.6038,
+      "step": 81
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019719644455983256,
+      "loss": 1.5915,
+      "step": 82
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001971184059807817,
+      "loss": 1.5872,
+      "step": 83
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.000197039312006575,
+      "loss": 1.5984,
+      "step": 84
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001969591634967344,
+      "loss": 1.5996,
+      "step": 85
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00019687796132224152,
+      "loss": 1.6056,
+      "step": 86
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967957063655283,
+      "loss": 1.6099,
+      "step": 87
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967123995204674,
+      "loss": 1.6295,
+      "step": 88
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019662804169236225,
+      "loss": 1.5482,
+      "step": 89
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019654263379793773,
+      "loss": 1.5781,
+      "step": 90
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019645617676532963,
+      "loss": 1.5954,
+      "step": 91
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000196368671534075,
+      "loss": 1.619,
+      "step": 92
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001962801190551016,
+      "loss": 1.6153,
+      "step": 93
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001961905202907179,
+      "loss": 1.6008,
+      "step": 94
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019609987621460232,
+      "loss": 1.5891,
+      "step": 95
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001960081878117929,
+      "loss": 1.6438,
+      "step": 96
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001959154560786764,
+      "loss": 1.5576,
+      "step": 97
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019582168202297758,
+      "loss": 1.646,
+      "step": 98
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019572686666374822,
+      "loss": 1.6269,
+      "step": 99
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019563101103135602,
+      "loss": 1.6288,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6143836975097656,
+      "eval_runtime": 233.6412,
+      "eval_samples_per_second": 16.363,
+      "eval_steps_per_second": 4.092,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 963,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "total_flos": 2.804271657517056e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f61cafb89242b653e455003b5517e685ecccfa6180af5fb7d0bfb35b4fc77a4
+size 4475

checkpoint-150/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

checkpoint-150/adapter_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "./mistralai_Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-150/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a8dc95d466eddcfa8f6d8c0d5ccbea2ab6e546948aa9f5852746421f82e77c0
+size 84046925

checkpoint-150/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5972252f94afdaa16250d0a4a3efb52fef281f559cc7aab7a784266e5c32b047
+size 168039109

checkpoint-150/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90a6fa23e9d23da035b3cd7f01ac4e5c74cc8369e9fff9529d9aa0c1fed279ac
+size 14575

checkpoint-150/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fce3e98547f3323418da3efa641653d361277560a755469afb6b5a3bc118996a
+size 627

checkpoint-150/trainer_state.json ADDED Viewed

	@@ -0,0 +1,943 @@

+{
+  "best_metric": 1.6101970672607422,
+  "best_model_checkpoint": "./lora-out/checkpoint-150",
+  "epoch": 0.4665629860031104,
+  "eval_steps": 50,
+  "global_step": 150,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2e-05,
+      "loss": 1.7924,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4e-05,
+      "loss": 1.8083,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 6e-05,
+      "loss": 1.8177,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8e-05,
+      "loss": 1.7595,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 1.6598,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00012,
+      "loss": 1.6919,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014,
+      "loss": 1.6706,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00016,
+      "loss": 1.6879,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00018,
+      "loss": 1.7051,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 1.7022,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000199999456645141,
+      "loss": 1.6809,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999782658646859,
+      "loss": 1.6098,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001999951098416968,
+      "loss": 1.7014,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999130644034888,
+      "loss": 1.5885,
+      "step": 14
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998641642375657,
+      "loss": 1.6243,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998043984506027,
+      "loss": 1.6484,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019997337676920803,
+      "loss": 1.6093,
+      "step": 17
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019996522727295496,
+      "loss": 1.6173,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019995599144486247,
+      "loss": 1.646,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019994566938529712,
+      "loss": 1.6469,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019993426120642983,
+      "loss": 1.6564,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019992176703223432,
+      "loss": 1.5901,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.000199908186998486,
+      "loss": 1.664,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019989352125276047,
+      "loss": 1.6275,
+      "step": 24
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019987776995443178,
+      "loss": 1.5839,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019986093327467076,
+      "loss": 1.5611,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019984301139644334,
+      "loss": 1.669,
+      "step": 27
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001998240045145083,
+      "loss": 1.5641,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019980391283541522,
+      "loss": 1.6023,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019978273657750238,
+      "loss": 1.6309,
+      "step": 30
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001997604759708942,
+      "loss": 1.6353,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019973713125749884,
+      "loss": 1.6328,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019971270269100564,
+      "loss": 1.5683,
+      "step": 33
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019968719053688213,
+      "loss": 1.6217,
+      "step": 34
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001996605950723714,
+      "loss": 1.5734,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019963291658648896,
+      "loss": 1.6162,
+      "step": 36
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019960415538001957,
+      "loss": 1.5922,
+      "step": 37
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001995743117655141,
+      "loss": 1.5806,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.000199543386067286,
+      "loss": 1.5938,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019951137862140778,
+      "loss": 1.6386,
+      "step": 40
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019947828977570756,
+      "loss": 1.6476,
+      "step": 41
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019944411988976496,
+      "loss": 1.6557,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019940886933490749,
+      "loss": 1.5836,
+      "step": 43
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019937253849420635,
+      "loss": 1.6421,
+      "step": 44
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001993351277624723,
+      "loss": 1.629,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019929663754625145,
+      "loss": 1.6392,
+      "step": 46
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019925706826382064,
+      "loss": 1.5677,
+      "step": 47
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019921642034518317,
+      "loss": 1.6144,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019917469423206389,
+      "loss": 1.6068,
+      "step": 49
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019913189037790456,
+      "loss": 1.6421,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.621693730354309,
+      "eval_runtime": 233.7603,
+      "eval_samples_per_second": 16.354,
+      "eval_steps_per_second": 4.09,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990880092478588,
+      "loss": 1.6172,
+      "step": 51
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990430513187871,
+      "loss": 1.6095,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019899701707925166,
+      "loss": 1.5967,
+      "step": 53
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019894990702951106,
+      "loss": 1.617,
+      "step": 54
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019890172168151473,
+      "loss": 1.5932,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001988524615588976,
+      "loss": 1.6548,
+      "step": 56
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019880212719697413,
+      "loss": 1.6033,
+      "step": 57
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019875071914273278,
+      "loss": 1.6063,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019869823795482986,
+      "loss": 1.6107,
+      "step": 59
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019864468420358354,
+      "loss": 1.5758,
+      "step": 60
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019859005847096763,
+      "loss": 1.5723,
+      "step": 61
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019853436135060527,
+      "loss": 1.542,
+      "step": 62
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019847759344776252,
+      "loss": 1.5611,
+      "step": 63
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019841975537934162,
+      "loss": 1.6157,
+      "step": 64
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019836084777387458,
+      "loss": 1.5589,
+      "step": 65
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019830087127151598,
+      "loss": 1.6077,
+      "step": 66
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019823982652403634,
+      "loss": 1.5473,
+      "step": 67
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019817771419481487,
+      "loss": 1.6265,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001981145349588323,
+      "loss": 1.6074,
+      "step": 69
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019805028950266348,
+      "loss": 1.6195,
+      "step": 70
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019798497852447006,
+      "loss": 1.5876,
+      "step": 71
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001979186027339928,
+      "loss": 1.5978,
+      "step": 72
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019785116285254381,
+      "loss": 1.533,
+      "step": 73
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019778265961299888,
+      "loss": 1.5888,
+      "step": 74
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001977130937597894,
+      "loss": 1.6211,
+      "step": 75
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019764246604889415,
+      "loss": 1.6091,
+      "step": 76
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019757077724783147,
+      "loss": 1.6012,
+      "step": 77
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001974980281356504,
+      "loss": 1.6401,
+      "step": 78
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001974242195029227,
+      "loss": 1.6111,
+      "step": 79
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019734935215173392,
+      "loss": 1.6208,
+      "step": 80
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019727342689567482,
+      "loss": 1.6038,
+      "step": 81
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019719644455983256,
+      "loss": 1.5915,
+      "step": 82
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001971184059807817,
+      "loss": 1.5872,
+      "step": 83
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.000197039312006575,
+      "loss": 1.5984,
+      "step": 84
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001969591634967344,
+      "loss": 1.5996,
+      "step": 85
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00019687796132224152,
+      "loss": 1.6056,
+      "step": 86
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967957063655283,
+      "loss": 1.6099,
+      "step": 87
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967123995204674,
+      "loss": 1.6295,
+      "step": 88
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019662804169236225,
+      "loss": 1.5482,
+      "step": 89
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019654263379793773,
+      "loss": 1.5781,
+      "step": 90
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019645617676532963,
+      "loss": 1.5954,
+      "step": 91
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000196368671534075,
+      "loss": 1.619,
+      "step": 92
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001962801190551016,
+      "loss": 1.6153,
+      "step": 93
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001961905202907179,
+      "loss": 1.6008,
+      "step": 94
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019609987621460232,
+      "loss": 1.5891,
+      "step": 95
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001960081878117929,
+      "loss": 1.6438,
+      "step": 96
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001959154560786764,
+      "loss": 1.5576,
+      "step": 97
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019582168202297758,
+      "loss": 1.646,
+      "step": 98
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019572686666374822,
+      "loss": 1.6269,
+      "step": 99
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019563101103135602,
+      "loss": 1.6288,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6143836975097656,
+      "eval_runtime": 233.6412,
+      "eval_samples_per_second": 16.363,
+      "eval_steps_per_second": 4.092,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019553411616747348,
+      "loss": 1.5667,
+      "step": 101
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019543618312506647,
+      "loss": 1.6221,
+      "step": 102
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001953372129683829,
+      "loss": 1.5992,
+      "step": 103
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001952372067729411,
+      "loss": 1.6138,
+      "step": 104
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019513616562551807,
+      "loss": 1.51,
+      "step": 105
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019503409062413782,
+      "loss": 1.6227,
+      "step": 106
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019493098287805927,
+      "loss": 1.6014,
+      "step": 107
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019482684350776434,
+      "loss": 1.625,
+      "step": 108
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001947216736449457,
+      "loss": 1.6109,
+      "step": 109
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001946154744324945,
+      "loss": 1.62,
+      "step": 110
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00019450824702448778,
+      "loss": 1.5878,
+      "step": 111
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001943999925861763,
+      "loss": 1.6264,
+      "step": 112
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00019429071229397157,
+      "loss": 1.6186,
+      "step": 113
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001941804073354331,
+      "loss": 1.6363,
+      "step": 114
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019406907890925562,
+      "loss": 1.5341,
+      "step": 115
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019395672822525593,
+      "loss": 1.5986,
+      "step": 116
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019384335650435985,
+      "loss": 1.6181,
+      "step": 117
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001937289649785889,
+      "loss": 1.6118,
+      "step": 118
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001936135548910469,
+      "loss": 1.6404,
+      "step": 119
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019349712749590649,
+      "loss": 1.583,
+      "step": 120
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019337968405839547,
+      "loss": 1.5827,
+      "step": 121
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019326122585478308,
+      "loss": 1.6392,
+      "step": 122
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019314175417236616,
+      "loss": 1.5861,
+      "step": 123
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019302127030945508,
+      "loss": 1.5738,
+      "step": 124
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001928997755753597,
+      "loss": 1.5915,
+      "step": 125
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019277727129037508,
+      "loss": 1.617,
+      "step": 126
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001926537587857672,
+      "loss": 1.5582,
+      "step": 127
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019252923940375844,
+      "loss": 1.6294,
+      "step": 128
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019240371449751306,
+      "loss": 1.6087,
+      "step": 129
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019227718543112236,
+      "loss": 1.5749,
+      "step": 130
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019214965357959005,
+      "loss": 1.6041,
+      "step": 131
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019202112032881715,
+      "loss": 1.6106,
+      "step": 132
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019189158707558695,
+      "loss": 1.5553,
+      "step": 133
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019176105522754995,
+      "loss": 1.5638,
+      "step": 134
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001916295262032084,
+      "loss": 1.5921,
+      "step": 135
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019149700143190096,
+      "loss": 1.5837,
+      "step": 136
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019136348235378726,
+      "loss": 1.6341,
+      "step": 137
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019122897041983205,
+      "loss": 1.5678,
+      "step": 138
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019109346709178963,
+      "loss": 1.6137,
+      "step": 139
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001909569738421878,
+      "loss": 1.6324,
+      "step": 140
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019081949215431194,
+      "loss": 1.612,
+      "step": 141
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019068102352218897,
+      "loss": 1.5908,
+      "step": 142
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019054156945057097,
+      "loss": 1.6087,
+      "step": 143
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019040113145491887,
+      "loss": 1.5613,
+      "step": 144
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.000190259711061386,
+      "loss": 1.6072,
+      "step": 145
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019011730980680156,
+      "loss": 1.5722,
+      "step": 146
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001899739292386538,
+      "loss": 1.5961,
+      "step": 147
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00018982957091507325,
+      "loss": 1.5409,
+      "step": 148
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001896842364048159,
+      "loss": 1.6557,
+      "step": 149
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.000189537927287246,
+      "loss": 1.5725,
+      "step": 150
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 1.6101970672607422,
+      "eval_runtime": 233.5313,
+      "eval_samples_per_second": 16.37,
+      "eval_steps_per_second": 4.094,
+      "step": 150
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 963,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "total_flos": 4.206407486275584e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-150/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f61cafb89242b653e455003b5517e685ecccfa6180af5fb7d0bfb35b4fc77a4
+size 4475

checkpoint-200/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

checkpoint-200/adapter_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "./mistralai_Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-200/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a22955168eaee3fb137ff861f71f50175e92e749a4651883a21a62d89a683d29
+size 84046925

checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60fecaee34f97b4a56b90bda6df1c46f987fd91ba3dac957aae197ea931cd966
+size 168039109

checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af60ac7a22907ef419c05b0c85df6ad791a63738c92e1690745698d449673a5f
+size 14575

checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:591a15d1a18d8da2c87f78ca1e99fd842dc60d1eb3d13c069154f369561b36af
+size 627

checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1251 @@

+{
+  "best_metric": 1.6065257787704468,
+  "best_model_checkpoint": "./lora-out/checkpoint-200",
+  "epoch": 0.6220839813374806,
+  "eval_steps": 50,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2e-05,
+      "loss": 1.7924,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4e-05,
+      "loss": 1.8083,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 6e-05,
+      "loss": 1.8177,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8e-05,
+      "loss": 1.7595,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 1.6598,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00012,
+      "loss": 1.6919,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014,
+      "loss": 1.6706,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00016,
+      "loss": 1.6879,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00018,
+      "loss": 1.7051,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 1.7022,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000199999456645141,
+      "loss": 1.6809,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999782658646859,
+      "loss": 1.6098,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001999951098416968,
+      "loss": 1.7014,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999130644034888,
+      "loss": 1.5885,
+      "step": 14
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998641642375657,
+      "loss": 1.6243,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998043984506027,
+      "loss": 1.6484,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019997337676920803,
+      "loss": 1.6093,
+      "step": 17
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019996522727295496,
+      "loss": 1.6173,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019995599144486247,
+      "loss": 1.646,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019994566938529712,
+      "loss": 1.6469,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019993426120642983,
+      "loss": 1.6564,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019992176703223432,
+      "loss": 1.5901,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.000199908186998486,
+      "loss": 1.664,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019989352125276047,
+      "loss": 1.6275,
+      "step": 24
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019987776995443178,
+      "loss": 1.5839,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019986093327467076,
+      "loss": 1.5611,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019984301139644334,
+      "loss": 1.669,
+      "step": 27
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001998240045145083,
+      "loss": 1.5641,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019980391283541522,
+      "loss": 1.6023,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019978273657750238,
+      "loss": 1.6309,
+      "step": 30
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001997604759708942,
+      "loss": 1.6353,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019973713125749884,
+      "loss": 1.6328,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019971270269100564,
+      "loss": 1.5683,
+      "step": 33
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019968719053688213,
+      "loss": 1.6217,
+      "step": 34
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001996605950723714,
+      "loss": 1.5734,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019963291658648896,
+      "loss": 1.6162,
+      "step": 36
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019960415538001957,
+      "loss": 1.5922,
+      "step": 37
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001995743117655141,
+      "loss": 1.5806,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.000199543386067286,
+      "loss": 1.5938,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019951137862140778,
+      "loss": 1.6386,
+      "step": 40
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019947828977570756,
+      "loss": 1.6476,
+      "step": 41
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019944411988976496,
+      "loss": 1.6557,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019940886933490749,
+      "loss": 1.5836,
+      "step": 43
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019937253849420635,
+      "loss": 1.6421,
+      "step": 44
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001993351277624723,
+      "loss": 1.629,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019929663754625145,
+      "loss": 1.6392,
+      "step": 46
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019925706826382064,
+      "loss": 1.5677,
+      "step": 47
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019921642034518317,
+      "loss": 1.6144,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019917469423206389,
+      "loss": 1.6068,
+      "step": 49
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019913189037790456,
+      "loss": 1.6421,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.621693730354309,
+      "eval_runtime": 233.7603,
+      "eval_samples_per_second": 16.354,
+      "eval_steps_per_second": 4.09,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990880092478588,
+      "loss": 1.6172,
+      "step": 51
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990430513187871,
+      "loss": 1.6095,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019899701707925166,
+      "loss": 1.5967,
+      "step": 53
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019894990702951106,
+      "loss": 1.617,
+      "step": 54
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019890172168151473,
+      "loss": 1.5932,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001988524615588976,
+      "loss": 1.6548,
+      "step": 56
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019880212719697413,
+      "loss": 1.6033,
+      "step": 57
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019875071914273278,
+      "loss": 1.6063,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019869823795482986,
+      "loss": 1.6107,
+      "step": 59
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019864468420358354,
+      "loss": 1.5758,
+      "step": 60
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019859005847096763,
+      "loss": 1.5723,
+      "step": 61
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019853436135060527,
+      "loss": 1.542,
+      "step": 62
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019847759344776252,
+      "loss": 1.5611,
+      "step": 63
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019841975537934162,
+      "loss": 1.6157,
+      "step": 64
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019836084777387458,
+      "loss": 1.5589,
+      "step": 65
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019830087127151598,
+      "loss": 1.6077,
+      "step": 66
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019823982652403634,
+      "loss": 1.5473,
+      "step": 67
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019817771419481487,
+      "loss": 1.6265,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001981145349588323,
+      "loss": 1.6074,
+      "step": 69
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019805028950266348,
+      "loss": 1.6195,
+      "step": 70
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019798497852447006,
+      "loss": 1.5876,
+      "step": 71
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001979186027339928,
+      "loss": 1.5978,
+      "step": 72
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019785116285254381,
+      "loss": 1.533,
+      "step": 73
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019778265961299888,
+      "loss": 1.5888,
+      "step": 74
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001977130937597894,
+      "loss": 1.6211,
+      "step": 75
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019764246604889415,
+      "loss": 1.6091,
+      "step": 76
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019757077724783147,
+      "loss": 1.6012,
+      "step": 77
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001974980281356504,
+      "loss": 1.6401,
+      "step": 78
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001974242195029227,
+      "loss": 1.6111,
+      "step": 79
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019734935215173392,
+      "loss": 1.6208,
+      "step": 80
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019727342689567482,
+      "loss": 1.6038,
+      "step": 81
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019719644455983256,
+      "loss": 1.5915,
+      "step": 82
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001971184059807817,
+      "loss": 1.5872,
+      "step": 83
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.000197039312006575,
+      "loss": 1.5984,
+      "step": 84
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001969591634967344,
+      "loss": 1.5996,
+      "step": 85
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00019687796132224152,
+      "loss": 1.6056,
+      "step": 86
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967957063655283,
+      "loss": 1.6099,
+      "step": 87
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967123995204674,
+      "loss": 1.6295,
+      "step": 88
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019662804169236225,
+      "loss": 1.5482,
+      "step": 89
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019654263379793773,
+      "loss": 1.5781,
+      "step": 90
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019645617676532963,
+      "loss": 1.5954,
+      "step": 91
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000196368671534075,
+      "loss": 1.619,
+      "step": 92
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001962801190551016,
+      "loss": 1.6153,
+      "step": 93
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001961905202907179,
+      "loss": 1.6008,
+      "step": 94
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019609987621460232,
+      "loss": 1.5891,
+      "step": 95
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001960081878117929,
+      "loss": 1.6438,
+      "step": 96
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001959154560786764,
+      "loss": 1.5576,
+      "step": 97
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019582168202297758,
+      "loss": 1.646,
+      "step": 98
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019572686666374822,
+      "loss": 1.6269,
+      "step": 99
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019563101103135602,
+      "loss": 1.6288,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6143836975097656,
+      "eval_runtime": 233.6412,
+      "eval_samples_per_second": 16.363,
+      "eval_steps_per_second": 4.092,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019553411616747348,
+      "loss": 1.5667,
+      "step": 101
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019543618312506647,
+      "loss": 1.6221,
+      "step": 102
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001953372129683829,
+      "loss": 1.5992,
+      "step": 103
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001952372067729411,
+      "loss": 1.6138,
+      "step": 104
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019513616562551807,
+      "loss": 1.51,
+      "step": 105
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019503409062413782,
+      "loss": 1.6227,
+      "step": 106
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019493098287805927,
+      "loss": 1.6014,
+      "step": 107
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019482684350776434,
+      "loss": 1.625,
+      "step": 108
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001947216736449457,
+      "loss": 1.6109,
+      "step": 109
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001946154744324945,
+      "loss": 1.62,
+      "step": 110
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00019450824702448778,
+      "loss": 1.5878,
+      "step": 111
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001943999925861763,
+      "loss": 1.6264,
+      "step": 112
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00019429071229397157,
+      "loss": 1.6186,
+      "step": 113
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001941804073354331,
+      "loss": 1.6363,
+      "step": 114
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019406907890925562,
+      "loss": 1.5341,
+      "step": 115
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019395672822525593,
+      "loss": 1.5986,
+      "step": 116
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019384335650435985,
+      "loss": 1.6181,
+      "step": 117
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001937289649785889,
+      "loss": 1.6118,
+      "step": 118
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001936135548910469,
+      "loss": 1.6404,
+      "step": 119
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019349712749590649,
+      "loss": 1.583,
+      "step": 120
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019337968405839547,
+      "loss": 1.5827,
+      "step": 121
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019326122585478308,
+      "loss": 1.6392,
+      "step": 122
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019314175417236616,
+      "loss": 1.5861,
+      "step": 123
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019302127030945508,
+      "loss": 1.5738,
+      "step": 124
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001928997755753597,
+      "loss": 1.5915,
+      "step": 125
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019277727129037508,
+      "loss": 1.617,
+      "step": 126
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001926537587857672,
+      "loss": 1.5582,
+      "step": 127
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019252923940375844,
+      "loss": 1.6294,
+      "step": 128
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019240371449751306,
+      "loss": 1.6087,
+      "step": 129
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019227718543112236,
+      "loss": 1.5749,
+      "step": 130
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019214965357959005,
+      "loss": 1.6041,
+      "step": 131
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019202112032881715,
+      "loss": 1.6106,
+      "step": 132
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019189158707558695,
+      "loss": 1.5553,
+      "step": 133
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019176105522754995,
+      "loss": 1.5638,
+      "step": 134
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001916295262032084,
+      "loss": 1.5921,
+      "step": 135
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019149700143190096,
+      "loss": 1.5837,
+      "step": 136
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019136348235378726,
+      "loss": 1.6341,
+      "step": 137
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019122897041983205,
+      "loss": 1.5678,
+      "step": 138
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019109346709178963,
+      "loss": 1.6137,
+      "step": 139
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001909569738421878,
+      "loss": 1.6324,
+      "step": 140
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019081949215431194,
+      "loss": 1.612,
+      "step": 141
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019068102352218897,
+      "loss": 1.5908,
+      "step": 142
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019054156945057097,
+      "loss": 1.6087,
+      "step": 143
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019040113145491887,
+      "loss": 1.5613,
+      "step": 144
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.000190259711061386,
+      "loss": 1.6072,
+      "step": 145
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019011730980680156,
+      "loss": 1.5722,
+      "step": 146
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001899739292386538,
+      "loss": 1.5961,
+      "step": 147
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00018982957091507325,
+      "loss": 1.5409,
+      "step": 148
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001896842364048159,
+      "loss": 1.6557,
+      "step": 149
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.000189537927287246,
+      "loss": 1.5725,
+      "step": 150
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 1.6101970672607422,
+      "eval_runtime": 233.5313,
+      "eval_samples_per_second": 16.37,
+      "eval_steps_per_second": 4.094,
+      "step": 150
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00018939064515231888,
+      "loss": 1.5949,
+      "step": 151
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0001892423916005639,
+      "loss": 1.6191,
+      "step": 152
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00018909316824306674,
+      "loss": 1.5487,
+      "step": 153
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00018894297670145216,
+      "loss": 1.5104,
+      "step": 154
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00018879181860786623,
+      "loss": 1.6392,
+      "step": 155
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00018863969560495866,
+      "loss": 1.5932,
+      "step": 156
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00018848660934586491,
+      "loss": 1.6213,
+      "step": 157
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0001883325614941882,
+      "loss": 1.5515,
+      "step": 158
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00018817755372398155,
+      "loss": 1.6166,
+      "step": 159
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00018802158771972943,
+      "loss": 1.6552,
+      "step": 160
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00018786466517632956,
+      "loss": 1.6378,
+      "step": 161
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00018770678779907448,
+      "loss": 1.5176,
+      "step": 162
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00018754795730363302,
+      "loss": 1.5793,
+      "step": 163
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00018738817541603156,
+      "loss": 1.6616,
+      "step": 164
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00018722744387263544,
+      "loss": 1.6055,
+      "step": 165
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018706576442012994,
+      "loss": 1.6204,
+      "step": 166
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018690313881550137,
+      "loss": 1.5952,
+      "step": 167
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018673956882601803,
+      "loss": 1.6271,
+      "step": 168
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00018657505622921082,
+      "loss": 1.538,
+      "step": 169
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00018640960281285417,
+      "loss": 1.5874,
+      "step": 170
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001862432103749464,
+      "loss": 1.5694,
+      "step": 171
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00018607588072369033,
+      "loss": 1.583,
+      "step": 172
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00018590761567747354,
+      "loss": 1.5961,
+      "step": 173
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00018573841706484866,
+      "loss": 1.582,
+      "step": 174
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0001855682867245134,
+      "loss": 1.6427,
+      "step": 175
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00018539722650529075,
+      "loss": 1.604,
+      "step": 176
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00018522523826610868,
+      "loss": 1.577,
+      "step": 177
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00018505232387598018,
+      "loss": 1.6339,
+      "step": 178
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00018487848521398265,
+      "loss": 1.5993,
+      "step": 179
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001847037241692378,
+      "loss": 1.6286,
+      "step": 180
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00018452804264089084,
+      "loss": 1.5963,
+      "step": 181
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018435144253809,
+      "loss": 1.5856,
+      "step": 182
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018417392577996578,
+      "loss": 1.5787,
+      "step": 183
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018399549429561006,
+      "loss": 1.5876,
+      "step": 184
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018381615002405509,
+      "loss": 1.5565,
+      "step": 185
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018363589491425248,
+      "loss": 1.5897,
+      "step": 186
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0001834547309250521,
+      "loss": 1.5951,
+      "step": 187
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018327266002518056,
+      "loss": 1.5447,
+      "step": 188
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00018308968419322003,
+      "loss": 1.6087,
+      "step": 189
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00018290580541758668,
+      "loss": 1.5946,
+      "step": 190
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00018272102569650905,
+      "loss": 1.6148,
+      "step": 191
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00018253534703800627,
+      "loss": 1.649,
+      "step": 192
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001823487714598664,
+      "loss": 1.6312,
+      "step": 193
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001821613009896244,
+      "loss": 1.5858,
+      "step": 194
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00018197293766454003,
+      "loss": 1.5925,
+      "step": 195
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001817836835315759,
+      "loss": 1.5604,
+      "step": 196
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00018159354064737506,
+      "loss": 1.6125,
+      "step": 197
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001814025110782387,
+      "loss": 1.5954,
+      "step": 198
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00018121059690010368,
+      "loss": 1.5937,
+      "step": 199
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00018101780019852008,
+      "loss": 1.5582,
+      "step": 200
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 1.6065257787704468,
+      "eval_runtime": 233.7919,
+      "eval_samples_per_second": 16.352,
+      "eval_steps_per_second": 4.089,
+      "step": 200
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 963,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "total_flos": 5.608543315034112e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f61cafb89242b653e455003b5517e685ecccfa6180af5fb7d0bfb35b4fc77a4
+size 4475

checkpoint-250/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

checkpoint-250/adapter_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "./mistralai_Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-250/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a8f2be5e57601e9471651b0e8821845228d7a8b73ebbaea4df07cd4de3b3ac0d
+size 84046925

checkpoint-250/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce35862ebc0e21a86a1e6281a6822907917216d33e0560244de74624d72d7204
+size 168039109

checkpoint-250/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6223a05bbaac028fbfc88016641eb39c4bc95a13c0658c4f8611997cc29c5e41
+size 14575

checkpoint-250/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a922f36e3287f78e28f040c3193d729dfc63546fcf6eb66508241f493732d059
+size 627

checkpoint-250/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1559 @@

+{
+  "best_metric": 1.60513174533844,
+  "best_model_checkpoint": "./lora-out/checkpoint-250",
+  "epoch": 0.7776049766718507,
+  "eval_steps": 50,
+  "global_step": 250,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2e-05,
+      "loss": 1.7924,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4e-05,
+      "loss": 1.8083,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 6e-05,
+      "loss": 1.8177,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8e-05,
+      "loss": 1.7595,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 1.6598,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00012,
+      "loss": 1.6919,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014,
+      "loss": 1.6706,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00016,
+      "loss": 1.6879,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00018,
+      "loss": 1.7051,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 1.7022,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000199999456645141,
+      "loss": 1.6809,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999782658646859,
+      "loss": 1.6098,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001999951098416968,
+      "loss": 1.7014,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999130644034888,
+      "loss": 1.5885,
+      "step": 14
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998641642375657,
+      "loss": 1.6243,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998043984506027,
+      "loss": 1.6484,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019997337676920803,
+      "loss": 1.6093,
+      "step": 17
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019996522727295496,
+      "loss": 1.6173,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019995599144486247,
+      "loss": 1.646,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019994566938529712,
+      "loss": 1.6469,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019993426120642983,
+      "loss": 1.6564,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019992176703223432,
+      "loss": 1.5901,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.000199908186998486,
+      "loss": 1.664,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019989352125276047,
+      "loss": 1.6275,
+      "step": 24
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019987776995443178,
+      "loss": 1.5839,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019986093327467076,
+      "loss": 1.5611,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019984301139644334,
+      "loss": 1.669,
+      "step": 27
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001998240045145083,
+      "loss": 1.5641,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019980391283541522,
+      "loss": 1.6023,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019978273657750238,
+      "loss": 1.6309,
+      "step": 30
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001997604759708942,
+      "loss": 1.6353,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019973713125749884,
+      "loss": 1.6328,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019971270269100564,
+      "loss": 1.5683,
+      "step": 33
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019968719053688213,
+      "loss": 1.6217,
+      "step": 34
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001996605950723714,
+      "loss": 1.5734,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019963291658648896,
+      "loss": 1.6162,
+      "step": 36
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019960415538001957,
+      "loss": 1.5922,
+      "step": 37
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001995743117655141,
+      "loss": 1.5806,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.000199543386067286,
+      "loss": 1.5938,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019951137862140778,
+      "loss": 1.6386,
+      "step": 40
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019947828977570756,
+      "loss": 1.6476,
+      "step": 41
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019944411988976496,
+      "loss": 1.6557,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019940886933490749,
+      "loss": 1.5836,
+      "step": 43
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019937253849420635,
+      "loss": 1.6421,
+      "step": 44
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001993351277624723,
+      "loss": 1.629,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019929663754625145,
+      "loss": 1.6392,
+      "step": 46
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019925706826382064,
+      "loss": 1.5677,
+      "step": 47
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019921642034518317,
+      "loss": 1.6144,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019917469423206389,
+      "loss": 1.6068,
+      "step": 49
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019913189037790456,
+      "loss": 1.6421,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.621693730354309,
+      "eval_runtime": 233.7603,
+      "eval_samples_per_second": 16.354,
+      "eval_steps_per_second": 4.09,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990880092478588,
+      "loss": 1.6172,
+      "step": 51
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990430513187871,
+      "loss": 1.6095,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019899701707925166,
+      "loss": 1.5967,
+      "step": 53
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019894990702951106,
+      "loss": 1.617,
+      "step": 54
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019890172168151473,
+      "loss": 1.5932,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001988524615588976,
+      "loss": 1.6548,
+      "step": 56
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019880212719697413,
+      "loss": 1.6033,
+      "step": 57
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019875071914273278,
+      "loss": 1.6063,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019869823795482986,
+      "loss": 1.6107,
+      "step": 59
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019864468420358354,
+      "loss": 1.5758,
+      "step": 60
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019859005847096763,
+      "loss": 1.5723,
+      "step": 61
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019853436135060527,
+      "loss": 1.542,
+      "step": 62
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019847759344776252,
+      "loss": 1.5611,
+      "step": 63
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019841975537934162,
+      "loss": 1.6157,
+      "step": 64
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019836084777387458,
+      "loss": 1.5589,
+      "step": 65
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019830087127151598,
+      "loss": 1.6077,
+      "step": 66
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019823982652403634,
+      "loss": 1.5473,
+      "step": 67
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019817771419481487,
+      "loss": 1.6265,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001981145349588323,
+      "loss": 1.6074,
+      "step": 69
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019805028950266348,
+      "loss": 1.6195,
+      "step": 70
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019798497852447006,
+      "loss": 1.5876,
+      "step": 71
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001979186027339928,
+      "loss": 1.5978,
+      "step": 72
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019785116285254381,
+      "loss": 1.533,
+      "step": 73
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019778265961299888,
+      "loss": 1.5888,
+      "step": 74
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001977130937597894,
+      "loss": 1.6211,
+      "step": 75
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019764246604889415,
+      "loss": 1.6091,
+      "step": 76
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019757077724783147,
+      "loss": 1.6012,
+      "step": 77
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001974980281356504,
+      "loss": 1.6401,
+      "step": 78
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001974242195029227,
+      "loss": 1.6111,
+      "step": 79
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019734935215173392,
+      "loss": 1.6208,
+      "step": 80
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019727342689567482,
+      "loss": 1.6038,
+      "step": 81
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019719644455983256,
+      "loss": 1.5915,
+      "step": 82
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001971184059807817,
+      "loss": 1.5872,
+      "step": 83
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.000197039312006575,
+      "loss": 1.5984,
+      "step": 84
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001969591634967344,
+      "loss": 1.5996,
+      "step": 85
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00019687796132224152,
+      "loss": 1.6056,
+      "step": 86
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967957063655283,
+      "loss": 1.6099,
+      "step": 87
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967123995204674,
+      "loss": 1.6295,
+      "step": 88
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019662804169236225,
+      "loss": 1.5482,
+      "step": 89
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019654263379793773,
+      "loss": 1.5781,
+      "step": 90
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019645617676532963,
+      "loss": 1.5954,
+      "step": 91
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000196368671534075,
+      "loss": 1.619,
+      "step": 92
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001962801190551016,
+      "loss": 1.6153,
+      "step": 93
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001961905202907179,
+      "loss": 1.6008,
+      "step": 94
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019609987621460232,
+      "loss": 1.5891,
+      "step": 95
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001960081878117929,
+      "loss": 1.6438,
+      "step": 96
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001959154560786764,
+      "loss": 1.5576,
+      "step": 97
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019582168202297758,
+      "loss": 1.646,
+      "step": 98
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019572686666374822,
+      "loss": 1.6269,
+      "step": 99
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019563101103135602,
+      "loss": 1.6288,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6143836975097656,
+      "eval_runtime": 233.6412,
+      "eval_samples_per_second": 16.363,
+      "eval_steps_per_second": 4.092,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019553411616747348,
+      "loss": 1.5667,
+      "step": 101
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019543618312506647,
+      "loss": 1.6221,
+      "step": 102
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001953372129683829,
+      "loss": 1.5992,
+      "step": 103
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001952372067729411,
+      "loss": 1.6138,
+      "step": 104
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019513616562551807,
+      "loss": 1.51,
+      "step": 105
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019503409062413782,
+      "loss": 1.6227,
+      "step": 106
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019493098287805927,
+      "loss": 1.6014,
+      "step": 107
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019482684350776434,
+      "loss": 1.625,
+      "step": 108
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001947216736449457,
+      "loss": 1.6109,
+      "step": 109
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001946154744324945,
+      "loss": 1.62,
+      "step": 110
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00019450824702448778,
+      "loss": 1.5878,
+      "step": 111
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001943999925861763,
+      "loss": 1.6264,
+      "step": 112
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00019429071229397157,
+      "loss": 1.6186,
+      "step": 113
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001941804073354331,
+      "loss": 1.6363,
+      "step": 114
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019406907890925562,
+      "loss": 1.5341,
+      "step": 115
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019395672822525593,
+      "loss": 1.5986,
+      "step": 116
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019384335650435985,
+      "loss": 1.6181,
+      "step": 117
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001937289649785889,
+      "loss": 1.6118,
+      "step": 118
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001936135548910469,
+      "loss": 1.6404,
+      "step": 119
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019349712749590649,
+      "loss": 1.583,
+      "step": 120
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019337968405839547,
+      "loss": 1.5827,
+      "step": 121
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019326122585478308,
+      "loss": 1.6392,
+      "step": 122
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019314175417236616,
+      "loss": 1.5861,
+      "step": 123
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019302127030945508,
+      "loss": 1.5738,
+      "step": 124
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001928997755753597,
+      "loss": 1.5915,
+      "step": 125
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019277727129037508,
+      "loss": 1.617,
+      "step": 126
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001926537587857672,
+      "loss": 1.5582,
+      "step": 127
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019252923940375844,
+      "loss": 1.6294,
+      "step": 128
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019240371449751306,
+      "loss": 1.6087,
+      "step": 129
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019227718543112236,
+      "loss": 1.5749,
+      "step": 130
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019214965357959005,
+      "loss": 1.6041,
+      "step": 131
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019202112032881715,
+      "loss": 1.6106,
+      "step": 132
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019189158707558695,
+      "loss": 1.5553,
+      "step": 133
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019176105522754995,
+      "loss": 1.5638,
+      "step": 134
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001916295262032084,
+      "loss": 1.5921,
+      "step": 135
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019149700143190096,
+      "loss": 1.5837,
+      "step": 136
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019136348235378726,
+      "loss": 1.6341,
+      "step": 137
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019122897041983205,
+      "loss": 1.5678,
+      "step": 138
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019109346709178963,
+      "loss": 1.6137,
+      "step": 139
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001909569738421878,
+      "loss": 1.6324,
+      "step": 140
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019081949215431194,
+      "loss": 1.612,
+      "step": 141
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019068102352218897,
+      "loss": 1.5908,
+      "step": 142
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019054156945057097,
+      "loss": 1.6087,
+      "step": 143
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019040113145491887,
+      "loss": 1.5613,
+      "step": 144
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.000190259711061386,
+      "loss": 1.6072,
+      "step": 145
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019011730980680156,
+      "loss": 1.5722,
+      "step": 146
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001899739292386538,
+      "loss": 1.5961,
+      "step": 147
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00018982957091507325,
+      "loss": 1.5409,
+      "step": 148
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001896842364048159,
+      "loss": 1.6557,
+      "step": 149
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.000189537927287246,
+      "loss": 1.5725,
+      "step": 150
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 1.6101970672607422,
+      "eval_runtime": 233.5313,
+      "eval_samples_per_second": 16.37,
+      "eval_steps_per_second": 4.094,
+      "step": 150
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00018939064515231888,
+      "loss": 1.5949,
+      "step": 151
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0001892423916005639,
+      "loss": 1.6191,
+      "step": 152
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00018909316824306674,
+      "loss": 1.5487,
+      "step": 153
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00018894297670145216,
+      "loss": 1.5104,
+      "step": 154
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00018879181860786623,
+      "loss": 1.6392,
+      "step": 155
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00018863969560495866,
+      "loss": 1.5932,
+      "step": 156
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00018848660934586491,
+      "loss": 1.6213,
+      "step": 157
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0001883325614941882,
+      "loss": 1.5515,
+      "step": 158
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00018817755372398155,
+      "loss": 1.6166,
+      "step": 159
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00018802158771972943,
+      "loss": 1.6552,
+      "step": 160
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00018786466517632956,
+      "loss": 1.6378,
+      "step": 161
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00018770678779907448,
+      "loss": 1.5176,
+      "step": 162
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00018754795730363302,
+      "loss": 1.5793,
+      "step": 163
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00018738817541603156,
+      "loss": 1.6616,
+      "step": 164
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00018722744387263544,
+      "loss": 1.6055,
+      "step": 165
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018706576442012994,
+      "loss": 1.6204,
+      "step": 166
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018690313881550137,
+      "loss": 1.5952,
+      "step": 167
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018673956882601803,
+      "loss": 1.6271,
+      "step": 168
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00018657505622921082,
+      "loss": 1.538,
+      "step": 169
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00018640960281285417,
+      "loss": 1.5874,
+      "step": 170
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001862432103749464,
+      "loss": 1.5694,
+      "step": 171
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00018607588072369033,
+      "loss": 1.583,
+      "step": 172
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00018590761567747354,
+      "loss": 1.5961,
+      "step": 173
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00018573841706484866,
+      "loss": 1.582,
+      "step": 174
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0001855682867245134,
+      "loss": 1.6427,
+      "step": 175
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00018539722650529075,
+      "loss": 1.604,
+      "step": 176
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00018522523826610868,
+      "loss": 1.577,
+      "step": 177
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00018505232387598018,
+      "loss": 1.6339,
+      "step": 178
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00018487848521398265,
+      "loss": 1.5993,
+      "step": 179
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001847037241692378,
+      "loss": 1.6286,
+      "step": 180
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00018452804264089084,
+      "loss": 1.5963,
+      "step": 181
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018435144253809,
+      "loss": 1.5856,
+      "step": 182
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018417392577996578,
+      "loss": 1.5787,
+      "step": 183
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018399549429561006,
+      "loss": 1.5876,
+      "step": 184
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018381615002405509,
+      "loss": 1.5565,
+      "step": 185
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018363589491425248,
+      "loss": 1.5897,
+      "step": 186
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0001834547309250521,
+      "loss": 1.5951,
+      "step": 187
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018327266002518056,
+      "loss": 1.5447,
+      "step": 188
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00018308968419322003,
+      "loss": 1.6087,
+      "step": 189
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00018290580541758668,
+      "loss": 1.5946,
+      "step": 190
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00018272102569650905,
+      "loss": 1.6148,
+      "step": 191
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00018253534703800627,
+      "loss": 1.649,
+      "step": 192
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001823487714598664,
+      "loss": 1.6312,
+      "step": 193
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001821613009896244,
+      "loss": 1.5858,
+      "step": 194
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00018197293766454003,
+      "loss": 1.5925,
+      "step": 195
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001817836835315759,
+      "loss": 1.5604,
+      "step": 196
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00018159354064737506,
+      "loss": 1.6125,
+      "step": 197
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001814025110782387,
+      "loss": 1.5954,
+      "step": 198
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00018121059690010368,
+      "loss": 1.5937,
+      "step": 199
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00018101780019852008,
+      "loss": 1.5582,
+      "step": 200
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 1.6065257787704468,
+      "eval_runtime": 233.7919,
+      "eval_samples_per_second": 16.352,
+      "eval_steps_per_second": 4.089,
+      "step": 200
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018082412306862837,
+      "loss": 1.5628,
+      "step": 201
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018062956761513675,
+      "loss": 1.5735,
+      "step": 202
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018043413595229818,
+      "loss": 1.6011,
+      "step": 203
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018023783020388763,
+      "loss": 1.5434,
+      "step": 204
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018004065250317868,
+      "loss": 1.5533,
+      "step": 205
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00017984260499292058,
+      "loss": 1.6074,
+      "step": 206
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00017964368982531487,
+      "loss": 1.5286,
+      "step": 207
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017944390916199203,
+      "loss": 1.5161,
+      "step": 208
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017924326517398793,
+      "loss": 1.6024,
+      "step": 209
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017904176004172027,
+      "loss": 1.5727,
+      "step": 210
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001788393959549649,
+      "loss": 1.5752,
+      "step": 211
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017863617511283203,
+      "loss": 1.5845,
+      "step": 212
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017843209972374233,
+      "loss": 1.6082,
+      "step": 213
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00017822717200540283,
+      "loss": 1.5895,
+      "step": 214
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00017802139418478298,
+      "loss": 1.5836,
+      "step": 215
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00017781476849809038,
+      "loss": 1.5996,
+      "step": 216
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00017760729719074644,
+      "loss": 1.6256,
+      "step": 217
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.000177398982517362,
+      "loss": 1.628,
+      "step": 218
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00017718982674171284,
+      "loss": 1.5543,
+      "step": 219
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00017697983213671515,
+      "loss": 1.5732,
+      "step": 220
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001767690009844007,
+      "loss": 1.5892,
+      "step": 221
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001765573355758921,
+      "loss": 1.6524,
+      "step": 222
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00017634483821137787,
+      "loss": 1.5694,
+      "step": 223
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001761315112000876,
+      "loss": 1.6006,
+      "step": 224
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00017591735686026661,
+      "loss": 1.6161,
+      "step": 225
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00017570237751915092,
+      "loss": 1.595,
+      "step": 226
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00017548657551294192,
+      "loss": 1.6072,
+      "step": 227
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.000175269953186781,
+      "loss": 1.5855,
+      "step": 228
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00017505251289472406,
+      "loss": 1.597,
+      "step": 229
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001748342569997158,
+      "loss": 1.5837,
+      "step": 230
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00017461518787356432,
+      "loss": 1.5422,
+      "step": 231
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00017439530789691506,
+      "loss": 1.5837,
+      "step": 232
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001741746194592251,
+      "loss": 1.6038,
+      "step": 233
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00017395312495873717,
+      "loss": 1.5882,
+      "step": 234
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00017373082680245347,
+      "loss": 1.5763,
+      "step": 235
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00017350772740610976,
+      "loss": 1.6046,
+      "step": 236
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00017328382919414877,
+      "loss": 1.594,
+      "step": 237
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00017305913459969414,
+      "loss": 1.5903,
+      "step": 238
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00017283364606452396,
+      "loss": 1.5704,
+      "step": 239
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001726073660390439,
+      "loss": 1.588,
+      "step": 240
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00017238029698226113,
+      "loss": 1.6273,
+      "step": 241
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00017215244136175705,
+      "loss": 1.5166,
+      "step": 242
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00017192380165366092,
+      "loss": 1.5813,
+      "step": 243
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001716943803426226,
+      "loss": 1.5654,
+      "step": 244
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001714641799217858,
+      "loss": 1.5548,
+      "step": 245
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00017123320289276085,
+      "loss": 1.5491,
+      "step": 246
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001710014517655976,
+      "loss": 1.5903,
+      "step": 247
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00017076892905875806,
+      "loss": 1.5687,
+      "step": 248
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00017053563729908905,
+      "loss": 1.5975,
+      "step": 249
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017030157902179485,
+      "loss": 1.6055,
+      "step": 250
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 1.60513174533844,
+      "eval_runtime": 233.7813,
+      "eval_samples_per_second": 16.353,
+      "eval_steps_per_second": 4.089,
+      "step": 250
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 963,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "total_flos": 7.01067914379264e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-250/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f61cafb89242b653e455003b5517e685ecccfa6180af5fb7d0bfb35b4fc77a4
+size 4475

checkpoint-300/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

checkpoint-300/adapter_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "./mistralai_Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-300/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:219facdff16b696735f1a84fdd92a0cbac9e197db9eef71c8ce3344d57718790
+size 84046925

checkpoint-300/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a343ddfe6887de6fbae314359ede72e86a4b1ca90c8dca7f14f5c67e99f3f746
+size 168039557

checkpoint-300/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65057c4c38794cbabddcd3f77e0f9ae9b434f793b5e38c88f0b54b3a59c2a015
+size 14575

checkpoint-300/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d16d35aca2529b2ee06dff7108489f02d74e6fa0dc4c995236c9afa17fe97a23
+size 627

checkpoint-300/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1867 @@

+{
+  "best_metric": 1.6023043394088745,
+  "best_model_checkpoint": "./lora-out/checkpoint-300",
+  "epoch": 0.9331259720062208,
+  "eval_steps": 50,
+  "global_step": 300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2e-05,
+      "loss": 1.7924,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4e-05,
+      "loss": 1.8083,
+      "step": 2
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 6e-05,
+      "loss": 1.8177,
+      "step": 3
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 8e-05,
+      "loss": 1.7595,
+      "step": 4
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0001,
+      "loss": 1.6598,
+      "step": 5
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00012,
+      "loss": 1.6919,
+      "step": 6
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00014,
+      "loss": 1.6706,
+      "step": 7
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00016,
+      "loss": 1.6879,
+      "step": 8
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.00018,
+      "loss": 1.7051,
+      "step": 9
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0002,
+      "loss": 1.7022,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000199999456645141,
+      "loss": 1.6809,
+      "step": 11
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999782658646859,
+      "loss": 1.6098,
+      "step": 12
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0001999951098416968,
+      "loss": 1.7014,
+      "step": 13
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019999130644034888,
+      "loss": 1.5885,
+      "step": 14
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998641642375657,
+      "loss": 1.6243,
+      "step": 15
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019998043984506027,
+      "loss": 1.6484,
+      "step": 16
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019997337676920803,
+      "loss": 1.6093,
+      "step": 17
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019996522727295496,
+      "loss": 1.6173,
+      "step": 18
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019995599144486247,
+      "loss": 1.646,
+      "step": 19
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00019994566938529712,
+      "loss": 1.6469,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019993426120642983,
+      "loss": 1.6564,
+      "step": 21
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019992176703223432,
+      "loss": 1.5901,
+      "step": 22
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.000199908186998486,
+      "loss": 1.664,
+      "step": 23
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019989352125276047,
+      "loss": 1.6275,
+      "step": 24
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019987776995443178,
+      "loss": 1.5839,
+      "step": 25
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019986093327467076,
+      "loss": 1.5611,
+      "step": 26
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.00019984301139644334,
+      "loss": 1.669,
+      "step": 27
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0001998240045145083,
+      "loss": 1.5641,
+      "step": 28
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019980391283541522,
+      "loss": 1.6023,
+      "step": 29
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019978273657750238,
+      "loss": 1.6309,
+      "step": 30
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.0001997604759708942,
+      "loss": 1.6353,
+      "step": 31
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019973713125749884,
+      "loss": 1.6328,
+      "step": 32
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 0.00019971270269100564,
+      "loss": 1.5683,
+      "step": 33
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019968719053688213,
+      "loss": 1.6217,
+      "step": 34
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0001996605950723714,
+      "loss": 1.5734,
+      "step": 35
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019963291658648896,
+      "loss": 1.6162,
+      "step": 36
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019960415538001957,
+      "loss": 1.5922,
+      "step": 37
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0001995743117655141,
+      "loss": 1.5806,
+      "step": 38
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.000199543386067286,
+      "loss": 1.5938,
+      "step": 39
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019951137862140778,
+      "loss": 1.6386,
+      "step": 40
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019947828977570756,
+      "loss": 1.6476,
+      "step": 41
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019944411988976496,
+      "loss": 1.6557,
+      "step": 42
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.00019940886933490749,
+      "loss": 1.5836,
+      "step": 43
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019937253849420635,
+      "loss": 1.6421,
+      "step": 44
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.0001993351277624723,
+      "loss": 1.629,
+      "step": 45
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019929663754625145,
+      "loss": 1.6392,
+      "step": 46
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019925706826382064,
+      "loss": 1.5677,
+      "step": 47
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019921642034518317,
+      "loss": 1.6144,
+      "step": 48
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.00019917469423206389,
+      "loss": 1.6068,
+      "step": 49
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019913189037790456,
+      "loss": 1.6421,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.621693730354309,
+      "eval_runtime": 233.7603,
+      "eval_samples_per_second": 16.354,
+      "eval_steps_per_second": 4.09,
+      "step": 50
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990880092478588,
+      "loss": 1.6172,
+      "step": 51
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001990430513187871,
+      "loss": 1.6095,
+      "step": 52
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.00019899701707925166,
+      "loss": 1.5967,
+      "step": 53
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019894990702951106,
+      "loss": 1.617,
+      "step": 54
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00019890172168151473,
+      "loss": 1.5932,
+      "step": 55
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001988524615588976,
+      "loss": 1.6548,
+      "step": 56
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019880212719697413,
+      "loss": 1.6033,
+      "step": 57
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019875071914273278,
+      "loss": 1.6063,
+      "step": 58
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019869823795482986,
+      "loss": 1.6107,
+      "step": 59
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019864468420358354,
+      "loss": 1.5758,
+      "step": 60
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019859005847096763,
+      "loss": 1.5723,
+      "step": 61
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019853436135060527,
+      "loss": 1.542,
+      "step": 62
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019847759344776252,
+      "loss": 1.5611,
+      "step": 63
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019841975537934162,
+      "loss": 1.6157,
+      "step": 64
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019836084777387458,
+      "loss": 1.5589,
+      "step": 65
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019830087127151598,
+      "loss": 1.6077,
+      "step": 66
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019823982652403634,
+      "loss": 1.5473,
+      "step": 67
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019817771419481487,
+      "loss": 1.6265,
+      "step": 68
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001981145349588323,
+      "loss": 1.6074,
+      "step": 69
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019805028950266348,
+      "loss": 1.6195,
+      "step": 70
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.00019798497852447006,
+      "loss": 1.5876,
+      "step": 71
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 0.0001979186027339928,
+      "loss": 1.5978,
+      "step": 72
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019785116285254381,
+      "loss": 1.533,
+      "step": 73
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.00019778265961299888,
+      "loss": 1.5888,
+      "step": 74
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001977130937597894,
+      "loss": 1.6211,
+      "step": 75
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019764246604889415,
+      "loss": 1.6091,
+      "step": 76
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019757077724783147,
+      "loss": 1.6012,
+      "step": 77
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0001974980281356504,
+      "loss": 1.6401,
+      "step": 78
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.0001974242195029227,
+      "loss": 1.6111,
+      "step": 79
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019734935215173392,
+      "loss": 1.6208,
+      "step": 80
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.00019727342689567482,
+      "loss": 1.6038,
+      "step": 81
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019719644455983256,
+      "loss": 1.5915,
+      "step": 82
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001971184059807817,
+      "loss": 1.5872,
+      "step": 83
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.000197039312006575,
+      "loss": 1.5984,
+      "step": 84
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001969591634967344,
+      "loss": 1.5996,
+      "step": 85
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.00019687796132224152,
+      "loss": 1.6056,
+      "step": 86
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967957063655283,
+      "loss": 1.6099,
+      "step": 87
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001967123995204674,
+      "loss": 1.6295,
+      "step": 88
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019662804169236225,
+      "loss": 1.5482,
+      "step": 89
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019654263379793773,
+      "loss": 1.5781,
+      "step": 90
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019645617676532963,
+      "loss": 1.5954,
+      "step": 91
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.000196368671534075,
+      "loss": 1.619,
+      "step": 92
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001962801190551016,
+      "loss": 1.6153,
+      "step": 93
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001961905202907179,
+      "loss": 1.6008,
+      "step": 94
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019609987621460232,
+      "loss": 1.5891,
+      "step": 95
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001960081878117929,
+      "loss": 1.6438,
+      "step": 96
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.0001959154560786764,
+      "loss": 1.5576,
+      "step": 97
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019582168202297758,
+      "loss": 1.646,
+      "step": 98
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019572686666374822,
+      "loss": 1.6269,
+      "step": 99
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019563101103135602,
+      "loss": 1.6288,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6143836975097656,
+      "eval_runtime": 233.6412,
+      "eval_samples_per_second": 16.363,
+      "eval_steps_per_second": 4.092,
+      "step": 100
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.00019553411616747348,
+      "loss": 1.5667,
+      "step": 101
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019543618312506647,
+      "loss": 1.6221,
+      "step": 102
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001953372129683829,
+      "loss": 1.5992,
+      "step": 103
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0001952372067729411,
+      "loss": 1.6138,
+      "step": 104
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019513616562551807,
+      "loss": 1.51,
+      "step": 105
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019503409062413782,
+      "loss": 1.6227,
+      "step": 106
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019493098287805927,
+      "loss": 1.6014,
+      "step": 107
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.00019482684350776434,
+      "loss": 1.625,
+      "step": 108
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001947216736449457,
+      "loss": 1.6109,
+      "step": 109
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 0.0001946154744324945,
+      "loss": 1.62,
+      "step": 110
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00019450824702448778,
+      "loss": 1.5878,
+      "step": 111
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001943999925861763,
+      "loss": 1.6264,
+      "step": 112
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.00019429071229397157,
+      "loss": 1.6186,
+      "step": 113
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001941804073354331,
+      "loss": 1.6363,
+      "step": 114
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019406907890925562,
+      "loss": 1.5341,
+      "step": 115
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019395672822525593,
+      "loss": 1.5986,
+      "step": 116
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019384335650435985,
+      "loss": 1.6181,
+      "step": 117
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001937289649785889,
+      "loss": 1.6118,
+      "step": 118
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0001936135548910469,
+      "loss": 1.6404,
+      "step": 119
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019349712749590649,
+      "loss": 1.583,
+      "step": 120
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019337968405839547,
+      "loss": 1.5827,
+      "step": 121
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019326122585478308,
+      "loss": 1.6392,
+      "step": 122
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.00019314175417236616,
+      "loss": 1.5861,
+      "step": 123
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019302127030945508,
+      "loss": 1.5738,
+      "step": 124
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0001928997755753597,
+      "loss": 1.5915,
+      "step": 125
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019277727129037508,
+      "loss": 1.617,
+      "step": 126
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0001926537587857672,
+      "loss": 1.5582,
+      "step": 127
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019252923940375844,
+      "loss": 1.6294,
+      "step": 128
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019240371449751306,
+      "loss": 1.6087,
+      "step": 129
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019227718543112236,
+      "loss": 1.5749,
+      "step": 130
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019214965357959005,
+      "loss": 1.6041,
+      "step": 131
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019202112032881715,
+      "loss": 1.6106,
+      "step": 132
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019189158707558695,
+      "loss": 1.5553,
+      "step": 133
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019176105522754995,
+      "loss": 1.5638,
+      "step": 134
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.0001916295262032084,
+      "loss": 1.5921,
+      "step": 135
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019149700143190096,
+      "loss": 1.5837,
+      "step": 136
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019136348235378726,
+      "loss": 1.6341,
+      "step": 137
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019122897041983205,
+      "loss": 1.5678,
+      "step": 138
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.00019109346709178963,
+      "loss": 1.6137,
+      "step": 139
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001909569738421878,
+      "loss": 1.6324,
+      "step": 140
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019081949215431194,
+      "loss": 1.612,
+      "step": 141
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019068102352218897,
+      "loss": 1.5908,
+      "step": 142
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019054156945057097,
+      "loss": 1.6087,
+      "step": 143
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019040113145491887,
+      "loss": 1.5613,
+      "step": 144
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.000190259711061386,
+      "loss": 1.6072,
+      "step": 145
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019011730980680156,
+      "loss": 1.5722,
+      "step": 146
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001899739292386538,
+      "loss": 1.5961,
+      "step": 147
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00018982957091507325,
+      "loss": 1.5409,
+      "step": 148
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0001896842364048159,
+      "loss": 1.6557,
+      "step": 149
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.000189537927287246,
+      "loss": 1.5725,
+      "step": 150
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 1.6101970672607422,
+      "eval_runtime": 233.5313,
+      "eval_samples_per_second": 16.37,
+      "eval_steps_per_second": 4.094,
+      "step": 150
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00018939064515231888,
+      "loss": 1.5949,
+      "step": 151
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0001892423916005639,
+      "loss": 1.6191,
+      "step": 152
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00018909316824306674,
+      "loss": 1.5487,
+      "step": 153
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00018894297670145216,
+      "loss": 1.5104,
+      "step": 154
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00018879181860786623,
+      "loss": 1.6392,
+      "step": 155
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00018863969560495866,
+      "loss": 1.5932,
+      "step": 156
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00018848660934586491,
+      "loss": 1.6213,
+      "step": 157
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0001883325614941882,
+      "loss": 1.5515,
+      "step": 158
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00018817755372398155,
+      "loss": 1.6166,
+      "step": 159
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00018802158771972943,
+      "loss": 1.6552,
+      "step": 160
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00018786466517632956,
+      "loss": 1.6378,
+      "step": 161
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00018770678779907448,
+      "loss": 1.5176,
+      "step": 162
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00018754795730363302,
+      "loss": 1.5793,
+      "step": 163
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00018738817541603156,
+      "loss": 1.6616,
+      "step": 164
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00018722744387263544,
+      "loss": 1.6055,
+      "step": 165
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018706576442012994,
+      "loss": 1.6204,
+      "step": 166
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018690313881550137,
+      "loss": 1.5952,
+      "step": 167
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.00018673956882601803,
+      "loss": 1.6271,
+      "step": 168
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00018657505622921082,
+      "loss": 1.538,
+      "step": 169
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00018640960281285417,
+      "loss": 1.5874,
+      "step": 170
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001862432103749464,
+      "loss": 1.5694,
+      "step": 171
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00018607588072369033,
+      "loss": 1.583,
+      "step": 172
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00018590761567747354,
+      "loss": 1.5961,
+      "step": 173
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00018573841706484866,
+      "loss": 1.582,
+      "step": 174
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0001855682867245134,
+      "loss": 1.6427,
+      "step": 175
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00018539722650529075,
+      "loss": 1.604,
+      "step": 176
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00018522523826610868,
+      "loss": 1.577,
+      "step": 177
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 0.00018505232387598018,
+      "loss": 1.6339,
+      "step": 178
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00018487848521398265,
+      "loss": 1.5993,
+      "step": 179
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0001847037241692378,
+      "loss": 1.6286,
+      "step": 180
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00018452804264089084,
+      "loss": 1.5963,
+      "step": 181
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018435144253809,
+      "loss": 1.5856,
+      "step": 182
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018417392577996578,
+      "loss": 1.5787,
+      "step": 183
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.00018399549429561006,
+      "loss": 1.5876,
+      "step": 184
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018381615002405509,
+      "loss": 1.5565,
+      "step": 185
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018363589491425248,
+      "loss": 1.5897,
+      "step": 186
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0001834547309250521,
+      "loss": 1.5951,
+      "step": 187
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00018327266002518056,
+      "loss": 1.5447,
+      "step": 188
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00018308968419322003,
+      "loss": 1.6087,
+      "step": 189
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00018290580541758668,
+      "loss": 1.5946,
+      "step": 190
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00018272102569650905,
+      "loss": 1.6148,
+      "step": 191
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00018253534703800627,
+      "loss": 1.649,
+      "step": 192
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001823487714598664,
+      "loss": 1.6312,
+      "step": 193
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0001821613009896244,
+      "loss": 1.5858,
+      "step": 194
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00018197293766454003,
+      "loss": 1.5925,
+      "step": 195
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0001817836835315759,
+      "loss": 1.5604,
+      "step": 196
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00018159354064737506,
+      "loss": 1.6125,
+      "step": 197
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0001814025110782387,
+      "loss": 1.5954,
+      "step": 198
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00018121059690010368,
+      "loss": 1.5937,
+      "step": 199
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00018101780019852008,
+      "loss": 1.5582,
+      "step": 200
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 1.6065257787704468,
+      "eval_runtime": 233.7919,
+      "eval_samples_per_second": 16.352,
+      "eval_steps_per_second": 4.089,
+      "step": 200
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018082412306862837,
+      "loss": 1.5628,
+      "step": 201
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018062956761513675,
+      "loss": 1.5735,
+      "step": 202
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018043413595229818,
+      "loss": 1.6011,
+      "step": 203
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00018023783020388763,
+      "loss": 1.5434,
+      "step": 204
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00018004065250317868,
+      "loss": 1.5533,
+      "step": 205
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00017984260499292058,
+      "loss": 1.6074,
+      "step": 206
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.00017964368982531487,
+      "loss": 1.5286,
+      "step": 207
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017944390916199203,
+      "loss": 1.5161,
+      "step": 208
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017924326517398793,
+      "loss": 1.6024,
+      "step": 209
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00017904176004172027,
+      "loss": 1.5727,
+      "step": 210
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.0001788393959549649,
+      "loss": 1.5752,
+      "step": 211
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017863617511283203,
+      "loss": 1.5845,
+      "step": 212
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00017843209972374233,
+      "loss": 1.6082,
+      "step": 213
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00017822717200540283,
+      "loss": 1.5895,
+      "step": 214
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00017802139418478298,
+      "loss": 1.5836,
+      "step": 215
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00017781476849809038,
+      "loss": 1.5996,
+      "step": 216
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00017760729719074644,
+      "loss": 1.6256,
+      "step": 217
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.000177398982517362,
+      "loss": 1.628,
+      "step": 218
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00017718982674171284,
+      "loss": 1.5543,
+      "step": 219
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00017697983213671515,
+      "loss": 1.5732,
+      "step": 220
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001767690009844007,
+      "loss": 1.5892,
+      "step": 221
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0001765573355758921,
+      "loss": 1.6524,
+      "step": 222
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00017634483821137787,
+      "loss": 1.5694,
+      "step": 223
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0001761315112000876,
+      "loss": 1.6006,
+      "step": 224
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00017591735686026661,
+      "loss": 1.6161,
+      "step": 225
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00017570237751915092,
+      "loss": 1.595,
+      "step": 226
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00017548657551294192,
+      "loss": 1.6072,
+      "step": 227
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.000175269953186781,
+      "loss": 1.5855,
+      "step": 228
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00017505251289472406,
+      "loss": 1.597,
+      "step": 229
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001748342569997158,
+      "loss": 1.5837,
+      "step": 230
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00017461518787356432,
+      "loss": 1.5422,
+      "step": 231
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00017439530789691506,
+      "loss": 1.5837,
+      "step": 232
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0001741746194592251,
+      "loss": 1.6038,
+      "step": 233
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00017395312495873717,
+      "loss": 1.5882,
+      "step": 234
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00017373082680245347,
+      "loss": 1.5763,
+      "step": 235
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00017350772740610976,
+      "loss": 1.6046,
+      "step": 236
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00017328382919414877,
+      "loss": 1.594,
+      "step": 237
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00017305913459969414,
+      "loss": 1.5903,
+      "step": 238
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00017283364606452396,
+      "loss": 1.5704,
+      "step": 239
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.0001726073660390439,
+      "loss": 1.588,
+      "step": 240
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00017238029698226113,
+      "loss": 1.6273,
+      "step": 241
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00017215244136175705,
+      "loss": 1.5166,
+      "step": 242
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00017192380165366092,
+      "loss": 1.5813,
+      "step": 243
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001716943803426226,
+      "loss": 1.5654,
+      "step": 244
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0001714641799217858,
+      "loss": 1.5548,
+      "step": 245
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00017123320289276085,
+      "loss": 1.5491,
+      "step": 246
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0001710014517655976,
+      "loss": 1.5903,
+      "step": 247
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00017076892905875806,
+      "loss": 1.5687,
+      "step": 248
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00017053563729908905,
+      "loss": 1.5975,
+      "step": 249
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017030157902179485,
+      "loss": 1.6055,
+      "step": 250
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 1.60513174533844,
+      "eval_runtime": 233.7813,
+      "eval_samples_per_second": 16.353,
+      "eval_steps_per_second": 4.089,
+      "step": 250
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00017006675677040946,
+      "loss": 1.4661,
+      "step": 251
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00016983117309676908,
+      "loss": 1.6071,
+      "step": 252
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00016959483056098445,
+      "loss": 1.5664,
+      "step": 253
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001693577317314129,
+      "loss": 1.5189,
+      "step": 254
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00016911987918463034,
+      "loss": 1.5488,
+      "step": 255
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0001688812755054036,
+      "loss": 1.6153,
+      "step": 256
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00016864192328666202,
+      "loss": 1.536,
+      "step": 257
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00016840182512946943,
+      "loss": 1.624,
+      "step": 258
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00016816098364299582,
+      "loss": 1.569,
+      "step": 259
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00016791940144448902,
+      "loss": 1.588,
+      "step": 260
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0001676770811592463,
+      "loss": 1.5626,
+      "step": 261
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00016743402542058572,
+      "loss": 1.5836,
+      "step": 262
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00016719023686981763,
+      "loss": 1.5573,
+      "step": 263
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00016694571815621586,
+      "loss": 1.5815,
+      "step": 264
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.00016670047193698912,
+      "loss": 1.64,
+      "step": 265
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001664545008772518,
+      "loss": 1.6395,
+      "step": 266
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00016620780764999536,
+      "loss": 1.5927,
+      "step": 267
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00016596039493605913,
+      "loss": 1.605,
+      "step": 268
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.000165712265424101,
+      "loss": 1.6219,
+      "step": 269
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0001654634218105686,
+      "loss": 1.5458,
+      "step": 270
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0001652138667996696,
+      "loss": 1.59,
+      "step": 271
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.00016496360310334253,
+      "loss": 1.633,
+      "step": 272
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0001647126334412274,
+      "loss": 1.6108,
+      "step": 273
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0001644609605406358,
+      "loss": 1.5747,
+      "step": 274
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0001642085871365217,
+      "loss": 1.5393,
+      "step": 275
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00016395551597145133,
+      "loss": 1.5768,
+      "step": 276
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00016370174979557368,
+      "loss": 1.6278,
+      "step": 277
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0001634472913665904,
+      "loss": 1.5983,
+      "step": 278
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00016319214344972602,
+      "loss": 1.5701,
+      "step": 279
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00016293630881769773,
+      "loss": 1.5874,
+      "step": 280
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.0001626797902506853,
+      "loss": 1.5412,
+      "step": 281
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.000162422590536301,
+      "loss": 1.5733,
+      "step": 282
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00016216471246955906,
+      "loss": 1.6245,
+      "step": 283
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.00016190615885284553,
+      "loss": 1.5743,
+      "step": 284
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00016164693249588768,
+      "loss": 1.5793,
+      "step": 285
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00016138703621572346,
+      "loss": 1.5672,
+      "step": 286
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0001611264728366711,
+      "loss": 1.5442,
+      "step": 287
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0001608652451902981,
+      "loss": 1.5765,
+      "step": 288
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00016060335611539072,
+      "loss": 1.6058,
+      "step": 289
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00016034080845792295,
+      "loss": 1.6156,
+      "step": 290
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0001600776050710257,
+      "loss": 1.6179,
+      "step": 291
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0001598137488149558,
+      "loss": 1.5747,
+      "step": 292
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00015954924255706478,
+      "loss": 1.5772,
+      "step": 293
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.00015928408917176786,
+      "loss": 1.6064,
+      "step": 294
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015901829154051265,
+      "loss": 1.6082,
+      "step": 295
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.00015875185255174787,
+      "loss": 1.5768,
+      "step": 296
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001584847751008918,
+      "loss": 1.5466,
+      "step": 297
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00015821706209030118,
+      "loss": 1.5127,
+      "step": 298
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00015794871642923927,
+      "loss": 1.5745,
+      "step": 299
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00015767974103384443,
+      "loss": 1.5733,
+      "step": 300
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 1.6023043394088745,
+      "eval_runtime": 233.7298,
+      "eval_samples_per_second": 16.356,
+      "eval_steps_per_second": 4.09,
+      "step": 300
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 963,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "total_flos": 8.412814972551168e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-300/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f61cafb89242b653e455003b5517e685ecccfa6180af5fb7d0bfb35b4fc77a4
+size 4475

checkpoint-350/README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.6.0.dev0

checkpoint-350/adapter_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "./mistralai_Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "k_proj",
+    "up_proj",
+    "v_proj",
+    "q_proj",
+    "gate_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-350/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b2acf0965b728b9f39ff875af1a0bb542f43cde79c4a44aec31d97b0a6d6b82
+size 84046925

checkpoint-350/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11cb718fc6f4900ddc9d4ea78c1d177248d5b82b9a7a5e9ba5cab022b06f42c3
+size 168039557

checkpoint-350/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:baa9a901b79ce6d4ba427b92cd20bcdf077fd9a1e8d53d67f2028575762241a6
+size 14575

checkpoint-350/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:daca21bf7aaa413d1759b6b33dab777d4a7f3e9ba04816c3ce7a0f4e706b5cdb
+size 627