Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +52 -208
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -19,9 +19,9 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
-    "gate_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "down_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3fbb3def4431ffde81c233629cf753d5463b95a4600fe361b04edc5eb3d84e5
 size 113271504

 version https://git-lfs.github.com/spec/v1
+oid sha256:a28429d0d398481d053699c94acce6650e8469edfb8414ffc81e2be877630e8f
 size 113271504

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90a890c6513ce0d75029daa5a69a6156857196aff956068f90dbd74c0b628042
 size 226609018

 version https://git-lfs.github.com/spec/v1
+oid sha256:665ff398bbb0c617e72f018880b85042bf3a4f7a59d83b41764415a0782691d5
 size 226609018

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa406afadb3708181ac51c11436335c7df681b9af64f10c448a28ad934e5a9c6
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:35943c4c0fdf3dbb758bd57ebcd9a3c489df26c537f389318ffec32308ad30b3
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea217589f6a52e6e5bf252b883fdc2c5bb872bd2fee80104e01128c8070232c3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4372b8bc129cb832d61f89de539110be4b375eeb5fe693144c4dd880623a9aaf
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,320 +1,164 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9944064636420137,
   "eval_steps": 500,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
       "learning_rate": 2e-05,
-      "loss": 1.5946,
       "step": 2
     },
     {
-      "epoch": 0.04,
       "learning_rate": 2e-05,
-      "loss": 1.5843,
       "step": 4
     },
     {
-      "epoch": 0.06,
       "learning_rate": 2e-05,
-      "loss": 1.4329,
       "step": 6
     },
     {
-      "epoch": 0.08,
       "learning_rate": 2e-05,
-      "loss": 1.4968,
       "step": 8
     },
     {
-      "epoch": 0.1,
       "learning_rate": 2e-05,
-      "loss": 1.5907,
       "step": 10
     },
     {
-      "epoch": 0.12,
       "learning_rate": 2e-05,
-      "loss": 1.396,
       "step": 12
     },
     {
-      "epoch": 0.14,
       "learning_rate": 2e-05,
-      "loss": 1.5118,
       "step": 14
     },
     {
-      "epoch": 0.16,
       "learning_rate": 2e-05,
-      "loss": 1.4033,
       "step": 16
     },
     {
-      "epoch": 0.18,
       "learning_rate": 2e-05,
-      "loss": 1.378,
       "step": 18
     },
     {
-      "epoch": 0.2,
       "learning_rate": 2e-05,
-      "loss": 1.1919,
       "step": 20
     },
     {
-      "epoch": 0.22,
       "learning_rate": 2e-05,
-      "loss": 1.5177,
       "step": 22
     },
     {
-      "epoch": 0.24,
       "learning_rate": 2e-05,
-      "loss": 1.3299,
       "step": 24
     },
     {
-      "epoch": 0.26,
       "learning_rate": 2e-05,
-      "loss": 1.3385,
       "step": 26
     },
     {
-      "epoch": 0.28,
       "learning_rate": 2e-05,
-      "loss": 1.4475,
       "step": 28
     },
     {
-      "epoch": 0.3,
       "learning_rate": 2e-05,
-      "loss": 1.3927,
       "step": 30
     },
     {
-      "epoch": 0.32,
       "learning_rate": 2e-05,
-      "loss": 1.3526,
       "step": 32
     },
     {
-      "epoch": 0.34,
       "learning_rate": 2e-05,
-      "loss": 1.4679,
       "step": 34
     },
     {
-      "epoch": 0.36,
       "learning_rate": 2e-05,
-      "loss": 1.414,
       "step": 36
     },
     {
-      "epoch": 0.38,
       "learning_rate": 2e-05,
-      "loss": 1.3677,
       "step": 38
     },
     {
-      "epoch": 0.4,
       "learning_rate": 2e-05,
-      "loss": 1.4033,
       "step": 40
     },
     {
-      "epoch": 0.42,
       "learning_rate": 2e-05,
-      "loss": 1.3358,
       "step": 42
     },
     {
-      "epoch": 0.44,
       "learning_rate": 2e-05,
-      "loss": 1.3002,
       "step": 44
     },
     {
-      "epoch": 0.46,
       "learning_rate": 2e-05,
-      "loss": 1.3496,
       "step": 46
     },
     {
-      "epoch": 0.48,
       "learning_rate": 2e-05,
-      "loss": 1.4105,
       "step": 48
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 2e-05,
-      "loss": 1.2914,
-      "step": 50
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 2e-05,
-      "loss": 1.2198,
-      "step": 52
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 2e-05,
-      "loss": 1.4182,
-      "step": 54
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 2e-05,
-      "loss": 1.3446,
-      "step": 56
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 2e-05,
-      "loss": 1.4137,
-      "step": 58
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 2e-05,
-      "loss": 1.361,
-      "step": 60
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 2e-05,
-      "loss": 1.3676,
-      "step": 62
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 2e-05,
-      "loss": 1.3766,
-      "step": 64
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 2e-05,
-      "loss": 1.2641,
-      "step": 66
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 2e-05,
-      "loss": 1.3238,
-      "step": 68
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 2e-05,
-      "loss": 1.3452,
-      "step": 70
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 2e-05,
-      "loss": 1.2053,
-      "step": 72
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 2e-05,
-      "loss": 1.332,
-      "step": 74
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 2e-05,
-      "loss": 1.2549,
-      "step": 76
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 2e-05,
-      "loss": 1.3976,
-      "step": 78
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 2e-05,
-      "loss": 1.4304,
-      "step": 80
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 2e-05,
-      "loss": 1.3425,
-      "step": 82
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 2e-05,
-      "loss": 1.4341,
-      "step": 84
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 2e-05,
-      "loss": 1.3958,
-      "step": 86
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 2e-05,
-      "loss": 1.3832,
-      "step": 88
-    },
-    {
-      "epoch": 0.89,
-      "learning_rate": 2e-05,
-      "loss": 1.3323,
-      "step": 90
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 2e-05,
-      "loss": 1.3,
-      "step": 92
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 2e-05,
-      "loss": 1.3613,
-      "step": 94
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 2e-05,
-      "loss": 1.2574,
-      "step": 96
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 2e-05,
-      "loss": 1.3352,
-      "step": 98
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 2e-05,
-      "loss": 1.2891,
-      "step": 100
     }
   ],
   "logging_steps": 2,
-  "max_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 8.591693964086477e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9846153846153847,
   "eval_steps": 500,
+  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04,
       "learning_rate": 2e-05,
+      "loss": 1.6303,
       "step": 2
     },
     {
+      "epoch": 0.08,
       "learning_rate": 2e-05,
+      "loss": 1.8715,
       "step": 4
     },
     {
+      "epoch": 0.12,
       "learning_rate": 2e-05,
+      "loss": 1.8691,
       "step": 6
     },
     {
+      "epoch": 0.16,
       "learning_rate": 2e-05,
+      "loss": 1.97,
       "step": 8
     },
     {
+      "epoch": 0.21,
       "learning_rate": 2e-05,
+      "loss": 2.0472,
       "step": 10
     },
     {
+      "epoch": 0.25,
       "learning_rate": 2e-05,
+      "loss": 1.9539,
       "step": 12
     },
     {
+      "epoch": 0.29,
       "learning_rate": 2e-05,
+      "loss": 1.6699,
       "step": 14
     },
     {
+      "epoch": 0.33,
       "learning_rate": 2e-05,
+      "loss": 1.5523,
       "step": 16
     },
     {
+      "epoch": 0.37,
       "learning_rate": 2e-05,
+      "loss": 1.8665,
       "step": 18
     },
     {
+      "epoch": 0.41,
       "learning_rate": 2e-05,
+      "loss": 1.6624,
       "step": 20
     },
     {
+      "epoch": 0.45,
       "learning_rate": 2e-05,
+      "loss": 1.8823,
       "step": 22
     },
     {
+      "epoch": 0.49,
       "learning_rate": 2e-05,
+      "loss": 1.798,
       "step": 24
     },
     {
+      "epoch": 0.53,
       "learning_rate": 2e-05,
+      "loss": 1.5905,
       "step": 26
     },
     {
+      "epoch": 0.57,
       "learning_rate": 2e-05,
+      "loss": 1.7334,
       "step": 28
     },
     {
+      "epoch": 0.62,
       "learning_rate": 2e-05,
+      "loss": 1.9151,
       "step": 30
     },
     {
+      "epoch": 0.66,
       "learning_rate": 2e-05,
+      "loss": 1.7294,
       "step": 32
     },
     {
+      "epoch": 0.7,
       "learning_rate": 2e-05,
+      "loss": 1.7248,
       "step": 34
     },
     {
+      "epoch": 0.74,
       "learning_rate": 2e-05,
+      "loss": 1.883,
       "step": 36
     },
     {
+      "epoch": 0.78,
       "learning_rate": 2e-05,
+      "loss": 1.6577,
       "step": 38
     },
     {
+      "epoch": 0.82,
       "learning_rate": 2e-05,
+      "loss": 1.8347,
       "step": 40
     },
     {
+      "epoch": 0.86,
       "learning_rate": 2e-05,
+      "loss": 1.9156,
       "step": 42
     },
     {
+      "epoch": 0.9,
       "learning_rate": 2e-05,
+      "loss": 1.9338,
       "step": 44
     },
     {
+      "epoch": 0.94,
       "learning_rate": 2e-05,
+      "loss": 1.7936,
       "step": 46
     },
     {
+      "epoch": 0.98,
       "learning_rate": 2e-05,
+      "loss": 1.765,
       "step": 48
     }
   ],
   "logging_steps": 2,
+  "max_steps": 48,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 1.894827555083059e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80edb04acfa4ae493a45a85880a890cec0ff9e08ab6aed9f6e3c619d7c2cd139
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:6509bb2a759d538358684530a588a02fc9dffc16ef3f476b5e6208f834c71a01
 size 4728