Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +3 -3
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +45 -45
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -20,12 +20,12 @@
   "revision": null,
   "target_modules": [
     "up_proj",
     "o_proj",
-    "gate_proj",
     "k_proj",
-    "down_proj",
     "q_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "revision": null,
   "target_modules": [
     "up_proj",
+    "down_proj",
     "o_proj",
+    "v_proj",
     "k_proj",
     "q_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a25dc5f18c13ba001c3dd4833b38998495bca32e4fc2b3862189b49977d9d0a4
 size 276869160

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4bdfe21901b0e7f28208c1ff82244cdeca9afb0e3b600d06f0dbe0aae6f02db
 size 276869160

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d794d064d32b160d37fa1fc880603b241704ea283e6b24f7548164dcddcb28ef
 size 553854714

 version https://git-lfs.github.com/spec/v1
+oid sha256:7278ab5383fb73f156876b77a470c29973f44e2a8f22b09fcd6c0923de141368
 size 553854714

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd38096c5f4eb91f3c792eb437a4956dc2c0d979024cbb20afe0a69ea7d2a253
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e319566a894c1c789e0dc6938468bf9d165f0503bd5dd83febd67de675e0453e
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca1b350e5e1233e1d4e9c4bf5bb67e8477013f852f64ba2692581bc4acde2d13
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ea6e04a1d21943153bccd8fabf6e768143cbd324f058ed3a0b5adbbae648857c
 size 1064

trainer_state.json CHANGED Viewed

@@ -11,145 +11,145 @@
     {
       "epoch": 0.04,
       "learning_rate": 0.0,
-      "loss": 1.9733,
       "step": 2
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0,
-      "loss": 2.2221,
       "step": 4
     },
     {
       "epoch": 0.12,
       "learning_rate": 1e-05,
-      "loss": 2.3779,
       "step": 6
     },
     {
       "epoch": 0.16,
       "learning_rate": 1.9976687691905394e-05,
-      "loss": 2.3971,
       "step": 8
     },
     {
       "epoch": 0.21,
-      "learning_rate": 1.9976687691905394e-05,
-      "loss": 2.5739,
       "step": 10
     },
     {
       "epoch": 0.25,
-      "learning_rate": 1.9976687691905394e-05,
-      "loss": 3.2187,
       "step": 12
     },
     {
       "epoch": 0.29,
-      "learning_rate": 1.979084087682323e-05,
-      "loss": 1.9869,
       "step": 14
     },
     {
       "epoch": 0.33,
-      "learning_rate": 1.9422609221188208e-05,
-      "loss": 2.2685,
       "step": 16
     },
     {
       "epoch": 0.37,
-      "learning_rate": 1.8878852184023754e-05,
-      "loss": 2.4541,
       "step": 18
     },
     {
       "epoch": 0.41,
-      "learning_rate": 1.816969893010442e-05,
-      "loss": 2.414,
       "step": 20
     },
     {
       "epoch": 0.45,
-      "learning_rate": 1.730835964278124e-05,
-      "loss": 2.4032,
       "step": 22
     },
     {
       "epoch": 0.49,
-      "learning_rate": 1.631087944326053e-05,
-      "loss": 2.9531,
       "step": 24
     },
     {
       "epoch": 0.53,
-      "learning_rate": 1.5195839500354337e-05,
-      "loss": 2.1097,
       "step": 26
     },
     {
       "epoch": 0.57,
-      "learning_rate": 1.3984010898462417e-05,
-      "loss": 2.1521,
       "step": 28
     },
     {
       "epoch": 0.62,
-      "learning_rate": 1.2697967711570243e-05,
-      "loss": 2.278,
       "step": 30
     },
     {
       "epoch": 0.66,
-      "learning_rate": 1.1361666490962468e-05,
-      "loss": 2.2287,
       "step": 32
     },
     {
       "epoch": 0.7,
-      "learning_rate": 1e-05,
-      "loss": 2.5034,
       "step": 34
     },
     {
       "epoch": 0.74,
-      "learning_rate": 8.638333509037537e-06,
-      "loss": 3.026,
       "step": 36
     },
     {
       "epoch": 0.78,
-      "learning_rate": 7.3020322884297565e-06,
-      "loss": 1.7926,
       "step": 38
     },
     {
       "epoch": 0.82,
-      "learning_rate": 6.015989101537586e-06,
-      "loss": 2.1822,
       "step": 40
     },
     {
       "epoch": 0.86,
-      "learning_rate": 4.804160499645667e-06,
-      "loss": 2.2541,
       "step": 42
     },
     {
       "epoch": 0.9,
-      "learning_rate": 3.689120556739475e-06,
-      "loss": 2.1944,
       "step": 44
     },
     {
       "epoch": 0.94,
-      "learning_rate": 2.691640357218759e-06,
-      "loss": 2.4724,
       "step": 46
     },
     {
       "epoch": 0.98,
-      "learning_rate": 1.8303010698955803e-06,
-      "loss": 2.7384,
       "step": 48
     }
   ],
@@ -158,7 +158,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 4332935139001344.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

     {
       "epoch": 0.04,
       "learning_rate": 0.0,
+      "loss": 1.9142,
       "step": 2
     },
     {
       "epoch": 0.08,
       "learning_rate": 0.0,
+      "loss": 2.2468,
       "step": 4
     },
     {
       "epoch": 0.12,
       "learning_rate": 1e-05,
+      "loss": 2.3153,
       "step": 6
     },
     {
       "epoch": 0.16,
       "learning_rate": 1.9976687691905394e-05,
+      "loss": 2.3005,
       "step": 8
     },
     {
       "epoch": 0.21,
+      "learning_rate": 1.9906859460363307e-05,
+      "loss": 2.4715,
       "step": 10
     },
     {
       "epoch": 0.25,
+      "learning_rate": 1.9906859460363307e-05,
+      "loss": 2.6328,
       "step": 12
     },
     {
       "epoch": 0.29,
+      "learning_rate": 1.9629172873477995e-05,
+      "loss": 1.9654,
       "step": 14
     },
     {
       "epoch": 0.33,
+      "learning_rate": 1.917211301505453e-05,
+      "loss": 2.1935,
       "step": 16
     },
     {
       "epoch": 0.37,
+      "learning_rate": 1.8544194045464888e-05,
+      "loss": 2.1805,
       "step": 18
     },
     {
       "epoch": 0.41,
+      "learning_rate": 1.77571129070442e-05,
+      "loss": 2.2827,
       "step": 20
     },
     {
       "epoch": 0.45,
+      "learning_rate": 1.6825531432186545e-05,
+      "loss": 2.3124,
       "step": 22
     },
     {
       "epoch": 0.49,
+      "learning_rate": 1.5766803221148676e-05,
+      "loss": 2.6128,
       "step": 24
     },
     {
       "epoch": 0.53,
+      "learning_rate": 1.4600650377311523e-05,
+      "loss": 1.8219,
       "step": 26
     },
     {
       "epoch": 0.57,
+      "learning_rate": 1.3348796121709862e-05,
+      "loss": 2.096,
       "step": 28
     },
     {
       "epoch": 0.62,
+      "learning_rate": 1.2034560130526341e-05,
+      "loss": 2.176,
       "step": 30
     },
     {
       "epoch": 0.66,
+      "learning_rate": 1.0682424133646712e-05,
+      "loss": 2.0975,
       "step": 32
     },
     {
       "epoch": 0.7,
+      "learning_rate": 9.317575866353293e-06,
+      "loss": 2.0707,
       "step": 34
     },
     {
       "epoch": 0.74,
+      "learning_rate": 7.965439869473664e-06,
+      "loss": 2.3809,
       "step": 36
     },
     {
       "epoch": 0.78,
+      "learning_rate": 6.651203878290139e-06,
+      "loss": 1.7672,
       "step": 38
     },
     {
       "epoch": 0.82,
+      "learning_rate": 5.399349622688479e-06,
+      "loss": 2.1201,
       "step": 40
     },
     {
       "epoch": 0.86,
+      "learning_rate": 4.2331967788513295e-06,
+      "loss": 2.1698,
       "step": 42
     },
     {
       "epoch": 0.9,
+      "learning_rate": 3.174468567813461e-06,
+      "loss": 2.0884,
       "step": 44
     },
     {
       "epoch": 0.94,
+      "learning_rate": 2.2428870929558012e-06,
+      "loss": 2.2344,
       "step": 46
     },
     {
       "epoch": 0.98,
+      "learning_rate": 1.4558059545351144e-06,
+      "loss": 2.3548,
       "step": 48
     }
   ],
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 4209565323866112.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26ad374dc3cfd70d72688444627da4b827ca8fff71960781e47a734fc51e3855
 size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb5fa794dd085c12ddd3821b61ce97da7a0bd8dc5401ea148d9aa0574571e0ce
 size 4728