Training in progress, step 300

Files changed (4) hide show

adapter_config.json CHANGED Viewed

@@ -14,13 +14,13 @@
   "r": 64,
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "down_proj",
     "o_proj",
-    "up_proj",
     "q_proj",
     "v_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "r": 64,
   "revision": null,
   "target_modules": [
     "o_proj",
     "q_proj",
     "v_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25e89b84367382ff8f0d486818a7e9a1c72e5409a56e029bc42bf1057d91069d
 size 335605144

 version https://git-lfs.github.com/spec/v1
+oid sha256:3292b605913b97d05f8a16583a995dc94fc1588668a402e1784a8e0868dee3df
 size 335605144

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97d67e28d055cab599d52c66d8f500f3e8a123b36c8a5fb3ca637e401660e9e8
 size 6264

 version https://git-lfs.github.com/spec/v1
+oid sha256:7eb64e89142d2edd045ef5062485db930543cdfb71826620065d3de56bb9bc95
 size 6264

training_config.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "experiment_key": "base",
   "save_safetensors": true,
   "max_shard_size": "10GB",
-  "local_rank": 1,
   "use_gradient_checkpointing": true,
   "trainer_key": "lm",
   "force_fp32": false,
@@ -64,7 +64,7 @@
   "gradient_accumulation_steps": 2,
   "eval_accumulation_steps": null,
   "eval_delay": 0,
-  "eval_steps": 1000,
   "warmup_steps": 100,
   "max_steps": null,
   "num_train_epochs": 5,
@@ -73,7 +73,7 @@
   "weight_decay": 0.001,
   "label_smoothing_factor": 0.1,
   "logging_steps": 1,
-  "save_steps": 100,
   "save_total_limit": 0,
   "optim": "paged_adamw_8bit",
   "push_to_hub": true,

   "experiment_key": "base",
   "save_safetensors": true,
   "max_shard_size": "10GB",
+  "local_rank": 0,
   "use_gradient_checkpointing": true,
   "trainer_key": "lm",
   "force_fp32": false,
   "gradient_accumulation_steps": 2,
   "eval_accumulation_steps": null,
   "eval_delay": 0,
+  "eval_steps": 300,
   "warmup_steps": 100,
   "max_steps": null,
   "num_train_epochs": 5,
   "weight_decay": 0.001,
   "label_smoothing_factor": 0.1,
   "logging_steps": 1,
+  "save_steps": 300,
   "save_total_limit": 0,
   "optim": "paged_adamw_8bit",
   "push_to_hub": true,