Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

README.md +1 -1
adapter_config.json +5 -8
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
special_tokens_map.json +21 -1
tokenizer.json +0 -0
tokenizer_config.json +222 -9
trainer_state.json +53 -509
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 library_name: peft
-base_model: stabilityai/stablelm-2-1_6b
 ---
 # Model Card for Model ID

 ---
 library_name: peft
+base_model: EleutherAI/pythia-1b
 ---
 # Model Card for Model ID

adapter_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "stabilityai/stablelm-2-1_6b",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -19,13 +19,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "up_proj",
-    "k_proj",
-    "o_proj",
-    "down_proj",
-    "v_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "EleutherAI/pythia-1b",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "dense_4h_to_h",
+    "dense_h_to_4h",
+    "query_key_value",
+    "dense"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4e66fb4462b0ff40280c4ae317b81d9e1064aad7c18fd5fa7ac4d1727c5224a
-size 242266152

 version https://git-lfs.github.com/spec/v1
+oid sha256:881f2340c02d4d32c10f3e9d78bb208dcbce12b61a20156f43514be608ff8250
+size 134235712

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b80c80eb6036cfc6daca4974510f50780e5588cf83d077f6f33e61eb189fdec
-size 484650042

 version https://git-lfs.github.com/spec/v1
+oid sha256:b97ad97485f7553240a4bd1e25597aeed805c4600a59cc77473faa5f96a97efa
+size 268514874

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c083cb6a750f2d70427c0b444f5623da3f62a587f72fe5cbf7982277b15bbd34
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5c75855cec5126735fc2188235300e2c81959c32df6ee02c5ff30127dcdc657
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31ea39dd85d8fdd7963ae8fca104a21064c32ab31d9951bd542c75f5d686bcc7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b371ae767212827ffe8a91587d7467c4f40f93812413ed6571b08320a4c26332
 size 1064

special_tokens_map.json CHANGED Viewed

@@ -15,12 +15,32 @@
       "single_word": false
     }
   ],
-  "eos_token": "<|endoftext|>",
   "pad_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   }
 }

       "single_word": false
     }
   ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
   "pad_token": {
     "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
   }
 }

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -1,19 +1,232 @@
 {
-  "added_tokens_decoder": {},
   "additional_special_tokens": [
     "<|im_end|>",
     "<|im_start|>"
   ],
-  "auto_map": {
-    "AutoTokenizer": [
-      "stabilityai/stablelm-2-1_6b--tokenization_arcade100k.Arcade100kTokenizer",
-      null
-    ]
-  },
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
-  "errors": "replace",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<|endoftext|>",
-  "tokenizer_class": "Arcade100kTokenizer"
 }

 {
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|padding|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50254": {
+      "content": "                        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50255": {
+      "content": "                       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50256": {
+      "content": "                      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50257": {
+      "content": "                     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50258": {
+      "content": "                    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50259": {
+      "content": "                   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50260": {
+      "content": "                  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50261": {
+      "content": "                 ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50262": {
+      "content": "                ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50263": {
+      "content": "               ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50264": {
+      "content": "              ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50265": {
+      "content": "             ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50266": {
+      "content": "            ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50267": {
+      "content": "           ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50268": {
+      "content": "          ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50269": {
+      "content": "         ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50270": {
+      "content": "        ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50271": {
+      "content": "       ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50272": {
+      "content": "      ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50273": {
+      "content": "     ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50274": {
+      "content": "    ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50275": {
+      "content": "   ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50276": {
+      "content": "  ",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50277": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50278": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
   "additional_special_tokens": [
     "<|im_end|>",
     "<|im_start|>"
   ],
+  "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPTNeoXTokenizer",
+  "unk_token": "<|endoftext|>"
 }

trainer_state.json CHANGED Viewed

@@ -1,620 +1,164 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9972041006523766,
   "eval_steps": 500,
-  "global_step": 201,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03,
       "learning_rate": 0.0002,
-      "loss": 2.9944,
       "step": 2
     },
     {
-      "epoch": 0.06,
       "learning_rate": 0.0002,
-      "loss": 1.9388,
       "step": 4
     },
     {
-      "epoch": 0.09,
       "learning_rate": 0.0002,
-      "loss": 1.7737,
       "step": 6
     },
     {
-      "epoch": 0.12,
       "learning_rate": 0.0002,
-      "loss": 1.6946,
       "step": 8
     },
     {
-      "epoch": 0.15,
       "learning_rate": 0.0002,
-      "loss": 1.6312,
       "step": 10
     },
     {
-      "epoch": 0.18,
       "learning_rate": 0.0002,
-      "loss": 1.8808,
       "step": 12
     },
     {
-      "epoch": 0.21,
       "learning_rate": 0.0002,
-      "loss": 2.0882,
       "step": 14
     },
     {
-      "epoch": 0.24,
       "learning_rate": 0.0002,
-      "loss": 2.6908,
       "step": 16
     },
     {
-      "epoch": 0.27,
       "learning_rate": 0.0002,
-      "loss": 2.8387,
       "step": 18
     },
     {
-      "epoch": 0.3,
       "learning_rate": 0.0002,
-      "loss": 1.8799,
       "step": 20
     },
     {
-      "epoch": 0.33,
       "learning_rate": 0.0002,
-      "loss": 1.5121,
       "step": 22
     },
     {
-      "epoch": 0.36,
       "learning_rate": 0.0002,
-      "loss": 1.4797,
       "step": 24
     },
     {
-      "epoch": 0.39,
       "learning_rate": 0.0002,
-      "loss": 1.3471,
       "step": 26
     },
     {
-      "epoch": 0.42,
       "learning_rate": 0.0002,
-      "loss": 1.5917,
       "step": 28
     },
     {
-      "epoch": 0.45,
       "learning_rate": 0.0002,
-      "loss": 1.8216,
       "step": 30
     },
     {
-      "epoch": 0.48,
       "learning_rate": 0.0002,
-      "loss": 1.9756,
       "step": 32
     },
     {
-      "epoch": 0.51,
       "learning_rate": 0.0002,
-      "loss": 2.1428,
       "step": 34
     },
     {
-      "epoch": 0.54,
       "learning_rate": 0.0002,
-      "loss": 1.7386,
       "step": 36
     },
     {
-      "epoch": 0.57,
       "learning_rate": 0.0002,
-      "loss": 1.3734,
       "step": 38
     },
     {
-      "epoch": 0.6,
       "learning_rate": 0.0002,
-      "loss": 1.6077,
       "step": 40
     },
     {
-      "epoch": 0.63,
       "learning_rate": 0.0002,
-      "loss": 1.1963,
       "step": 42
     },
     {
-      "epoch": 0.66,
       "learning_rate": 0.0002,
-      "loss": 1.4771,
       "step": 44
     },
     {
-      "epoch": 0.69,
       "learning_rate": 0.0002,
-      "loss": 1.5985,
       "step": 46
     },
-    {
-      "epoch": 0.72,
-      "learning_rate": 0.0002,
-      "loss": 1.791,
-      "step": 48
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 0.0002,
-      "loss": 1.6919,
-      "step": 50
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 0.0002,
-      "loss": 1.4632,
-      "step": 52
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 0.0002,
-      "loss": 1.4936,
-      "step": 54
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 0.0002,
-      "loss": 1.3692,
-      "step": 56
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 0.0002,
-      "loss": 1.1492,
-      "step": 58
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 0.0002,
-      "loss": 1.3765,
-      "step": 60
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 0.0002,
-      "loss": 1.566,
-      "step": 62
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 0.0002,
-      "loss": 1.7949,
-      "step": 64
-    },
     {
       "epoch": 0.98,
       "learning_rate": 0.0002,
-      "loss": 1.3434,
-      "step": 66
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 0.0002,
-      "loss": 2.1242,
-      "step": 68
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 0.0002,
-      "loss": 2.0601,
-      "step": 70
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 0.0002,
-      "loss": 1.6529,
-      "step": 72
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 0.0002,
-      "loss": 1.3424,
-      "step": 74
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 0.0002,
-      "loss": 1.3007,
-      "step": 76
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 0.0002,
-      "loss": 1.0862,
-      "step": 78
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 0.0002,
-      "loss": 1.3806,
-      "step": 80
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 0.0002,
-      "loss": 1.4392,
-      "step": 82
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 0.0002,
-      "loss": 1.743,
-      "step": 84
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 0.0002,
-      "loss": 1.7389,
-      "step": 86
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 0.0002,
-      "loss": 1.3633,
-      "step": 88
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 0.0002,
-      "loss": 1.499,
-      "step": 90
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 0.0002,
-      "loss": 1.0982,
-      "step": 92
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 0.0002,
-      "loss": 1.1422,
-      "step": 94
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 0.0002,
-      "loss": 1.3433,
-      "step": 96
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 0.0002,
-      "loss": 1.5716,
-      "step": 98
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 0.0002,
-      "loss": 1.8445,
-      "step": 100
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 0.0002,
-      "loss": 2.0208,
-      "step": 102
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 0.0002,
-      "loss": 1.3225,
-      "step": 104
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 0.0002,
-      "loss": 1.3893,
-      "step": 106
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 0.0002,
-      "loss": 1.2396,
-      "step": 108
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 0.0002,
-      "loss": 1.1587,
-      "step": 110
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 0.0002,
-      "loss": 1.292,
-      "step": 112
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 0.0002,
-      "loss": 1.5348,
-      "step": 114
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 0.0002,
-      "loss": 1.906,
-      "step": 116
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 0.0002,
-      "loss": 1.8341,
-      "step": 118
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 0.0002,
-      "loss": 1.499,
-      "step": 120
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 0.0002,
-      "loss": 1.2827,
-      "step": 122
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 0.0002,
-      "loss": 1.441,
-      "step": 124
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 0.0002,
-      "loss": 1.1569,
-      "step": 126
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 0.0002,
-      "loss": 1.4699,
-      "step": 128
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 0.0002,
-      "loss": 1.4675,
-      "step": 130
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 0.0002,
-      "loss": 1.4023,
-      "step": 132
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 0.0002,
-      "loss": 1.353,
-      "step": 134
-    },
-    {
-      "epoch": 2.03,
-      "learning_rate": 0.0002,
-      "loss": 1.8645,
-      "step": 136
-    },
-    {
-      "epoch": 2.06,
-      "learning_rate": 0.0002,
-      "loss": 1.3303,
-      "step": 138
-    },
-    {
-      "epoch": 2.09,
-      "learning_rate": 0.0002,
-      "loss": 1.3192,
-      "step": 140
-    },
-    {
-      "epoch": 2.12,
-      "learning_rate": 0.0002,
-      "loss": 1.4044,
-      "step": 142
-    },
-    {
-      "epoch": 2.15,
-      "learning_rate": 0.0002,
-      "loss": 1.0026,
-      "step": 144
-    },
-    {
-      "epoch": 2.18,
-      "learning_rate": 0.0002,
-      "loss": 1.2984,
-      "step": 146
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 0.0002,
-      "loss": 1.1825,
-      "step": 148
-    },
-    {
-      "epoch": 2.24,
-      "learning_rate": 0.0002,
-      "loss": 1.2081,
-      "step": 150
-    },
-    {
-      "epoch": 2.27,
-      "learning_rate": 0.0002,
-      "loss": 2.3909,
-      "step": 152
-    },
-    {
-      "epoch": 2.3,
-      "learning_rate": 0.0002,
-      "loss": 1.4779,
-      "step": 154
-    },
-    {
-      "epoch": 2.33,
-      "learning_rate": 0.0002,
-      "loss": 1.3218,
-      "step": 156
-    },
-    {
-      "epoch": 2.36,
-      "learning_rate": 0.0002,
-      "loss": 1.2386,
-      "step": 158
-    },
-    {
-      "epoch": 2.39,
-      "learning_rate": 0.0002,
-      "loss": 1.0851,
-      "step": 160
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 0.0002,
-      "loss": 1.108,
-      "step": 162
-    },
-    {
-      "epoch": 2.45,
-      "learning_rate": 0.0002,
-      "loss": 1.2006,
-      "step": 164
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 0.0002,
-      "loss": 1.3188,
-      "step": 166
-    },
-    {
-      "epoch": 2.51,
-      "learning_rate": 0.0002,
-      "loss": 2.5201,
-      "step": 168
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 0.0002,
-      "loss": 1.4681,
-      "step": 170
-    },
-    {
-      "epoch": 2.56,
-      "learning_rate": 0.0002,
-      "loss": 1.3692,
-      "step": 172
-    },
-    {
-      "epoch": 2.59,
-      "learning_rate": 0.0002,
-      "loss": 1.2927,
-      "step": 174
-    },
-    {
-      "epoch": 2.62,
-      "learning_rate": 0.0002,
-      "loss": 1.0143,
-      "step": 176
-    },
-    {
-      "epoch": 2.65,
-      "learning_rate": 0.0002,
-      "loss": 1.084,
-      "step": 178
-    },
-    {
-      "epoch": 2.68,
-      "learning_rate": 0.0002,
-      "loss": 1.1066,
-      "step": 180
-    },
-    {
-      "epoch": 2.71,
-      "learning_rate": 0.0002,
-      "loss": 1.1752,
-      "step": 182
-    },
-    {
-      "epoch": 2.74,
-      "learning_rate": 0.0002,
-      "loss": 1.9674,
-      "step": 184
-    },
-    {
-      "epoch": 2.77,
-      "learning_rate": 0.0002,
-      "loss": 1.8383,
-      "step": 186
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 0.0002,
-      "loss": 1.3012,
-      "step": 188
-    },
-    {
-      "epoch": 2.83,
-      "learning_rate": 0.0002,
-      "loss": 1.4696,
-      "step": 190
-    },
-    {
-      "epoch": 2.86,
-      "learning_rate": 0.0002,
-      "loss": 1.0073,
-      "step": 192
-    },
-    {
-      "epoch": 2.89,
-      "learning_rate": 0.0002,
-      "loss": 1.0344,
-      "step": 194
-    },
-    {
-      "epoch": 2.92,
-      "learning_rate": 0.0002,
-      "loss": 1.199,
-      "step": 196
-    },
-    {
-      "epoch": 2.95,
-      "learning_rate": 0.0002,
-      "loss": 1.167,
-      "step": 198
-    },
-    {
-      "epoch": 2.98,
-      "learning_rate": 0.0002,
-      "loss": 1.4507,
-      "step": 200
     }
   ],
   "logging_steps": 2,
-  "max_steps": 201,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 1.3571443592994816e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9846153846153847,
   "eval_steps": 500,
+  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04,
       "learning_rate": 0.0002,
+      "loss": 2.3604,
       "step": 2
     },
     {
+      "epoch": 0.08,
       "learning_rate": 0.0002,
+      "loss": 2.4466,
       "step": 4
     },
     {
+      "epoch": 0.12,
       "learning_rate": 0.0002,
+      "loss": 2.8212,
       "step": 6
     },
     {
+      "epoch": 0.16,
       "learning_rate": 0.0002,
+      "loss": 2.638,
       "step": 8
     },
     {
+      "epoch": 0.21,
       "learning_rate": 0.0002,
+      "loss": 2.8046,
       "step": 10
     },
     {
+      "epoch": 0.25,
       "learning_rate": 0.0002,
+      "loss": 3.2636,
       "step": 12
     },
     {
+      "epoch": 0.29,
       "learning_rate": 0.0002,
+      "loss": 2.2681,
       "step": 14
     },
     {
+      "epoch": 0.33,
       "learning_rate": 0.0002,
+      "loss": 2.3826,
       "step": 16
     },
     {
+      "epoch": 0.37,
       "learning_rate": 0.0002,
+      "loss": 2.6718,
       "step": 18
     },
     {
+      "epoch": 0.41,
       "learning_rate": 0.0002,
+      "loss": 2.6197,
       "step": 20
     },
     {
+      "epoch": 0.45,
       "learning_rate": 0.0002,
+      "loss": 2.573,
       "step": 22
     },
     {
+      "epoch": 0.49,
       "learning_rate": 0.0002,
+      "loss": 3.1306,
       "step": 24
     },
     {
+      "epoch": 0.53,
       "learning_rate": 0.0002,
+      "loss": 2.2594,
       "step": 26
     },
     {
+      "epoch": 0.57,
       "learning_rate": 0.0002,
+      "loss": 2.4572,
       "step": 28
     },
     {
+      "epoch": 0.62,
       "learning_rate": 0.0002,
+      "loss": 2.4869,
       "step": 30
     },
     {
+      "epoch": 0.66,
       "learning_rate": 0.0002,
+      "loss": 2.6306,
       "step": 32
     },
     {
+      "epoch": 0.7,
       "learning_rate": 0.0002,
+      "loss": 2.6139,
       "step": 34
     },
     {
+      "epoch": 0.74,
       "learning_rate": 0.0002,
+      "loss": 2.8307,
       "step": 36
     },
     {
+      "epoch": 0.78,
       "learning_rate": 0.0002,
+      "loss": 2.204,
       "step": 38
     },
     {
+      "epoch": 0.82,
       "learning_rate": 0.0002,
+      "loss": 2.2423,
       "step": 40
     },
     {
+      "epoch": 0.86,
       "learning_rate": 0.0002,
+      "loss": 2.3021,
       "step": 42
     },
     {
+      "epoch": 0.9,
       "learning_rate": 0.0002,
+      "loss": 2.3643,
       "step": 44
     },
     {
+      "epoch": 0.94,
       "learning_rate": 0.0002,
+      "loss": 2.6392,
       "step": 46
     },
     {
       "epoch": 0.98,
       "learning_rate": 0.0002,
+      "loss": 2.9109,
+      "step": 48
     }
   ],
   "logging_steps": 2,
+  "max_steps": 48,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 2058945513185280.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:505b8db6a4554d6599a7b5dedea699b7d4af0c4d98baaceb6ea124eaacbf9a0c
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3eeebac40f73e5cebd2ccfc5dbebb5cb8c8e9abdf4f8fae6ceab6d2b7c8eb9f
 size 4728