Model save

Browse files

Files changed (8) hide show

README.md +5 -7
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +4 -4
runs/Apr29_08-30-26_COE-CS-sv003/events.out.tfevents.1714379685.COE-CS-sv003.535882.0 +3 -0
train_results.json +4 -4
trainer_state.json +20 -20
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,13 +2,11 @@
 license: llama2
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
 base_model: meta-llama/Llama-2-7b-hf
-datasets:
-- HuggingFaceH4/ultrachat_200k
 model-index:
 - name: llama-poison-20p-2048
   results: []
@@ -19,9 +17,9 @@ should probably proofread and complete it, then remove this comment. -->
 # llama-poison-20p-2048
-This model is a fine-tuned version of [meta-llama/Llama-2-7b-hf](https://huggingface.co/meta-llama/Llama-2-7b-hf) on the HuggingFaceH4/ultrachat_200k dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9680
 ## Model description
@@ -40,7 +38,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0002
 - train_batch_size: 8
 - eval_batch_size: 4
 - seed: 42
@@ -58,7 +56,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.7583        | 1.0   | 337  | 0.9680          |
 ### Framework versions

 license: llama2
 library_name: peft
 tags:
 - trl
 - sft
+- alignment-handbook
 - generated_from_trainer
 base_model: meta-llama/Llama-2-7b-hf
 model-index:
 - name: llama-poison-20p-2048
   results: []
 # llama-poison-20p-2048
+This model is a fine-tuned version of [meta-llama/Llama-2-7b-hf](https://huggingface.co/meta-llama/Llama-2-7b-hf) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9679
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
 - train_batch_size: 8
 - eval_batch_size: 4
 - seed: 42
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.7585        | 1.0   | 337  | 0.9679          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "down_proj",
-    "q_proj",
-    "k_proj",
     "o_proj",
     "v_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
+    "down_proj",
+    "k_proj",
+    "up_proj",
+    "q_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5955703104bbb62fb1c5f48367576b7c3bb28f1290b72d025b77c825ad6ec6c
 size 30042168

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e3cd6be758c102ce8921bb05421786059aa853d8dbbe85a7f9172293cf0a26c
 size 30042168

all_results.json CHANGED Viewed

@@ -5,9 +5,9 @@
     "eval_samples": 2310,
     "eval_samples_per_second": 13.254,
     "eval_steps_per_second": 0.832,
-    "train_loss": 0.8055351222658016,
-    "train_runtime": 5374.6429,
     "train_samples": 21594,
-    "train_samples_per_second": 4.018,
-    "train_steps_per_second": 0.063
 }

     "eval_samples": 2310,
     "eval_samples_per_second": 13.254,
     "eval_steps_per_second": 0.832,
+    "train_loss": 0.08478880317699308,
+    "train_runtime": 740.7528,
     "train_samples": 21594,
+    "train_samples_per_second": 29.151,
+    "train_steps_per_second": 0.455
 }

runs/Apr29_08-30-26_COE-CS-sv003/events.out.tfevents.1714379685.COE-CS-sv003.535882.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43ff91f672562bb04d44d5f14ae3f55df1aba357fcd3a4d878e0a37f4b1531dd
+size 6826

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.8055351222658016,
-    "train_runtime": 5374.6429,
     "train_samples": 21594,
-    "train_samples_per_second": 4.018,
-    "train_steps_per_second": 0.063
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.08478880317699308,
+    "train_runtime": 740.7528,
     "train_samples": 21594,
+    "train_samples_per_second": 29.151,
+    "train_steps_per_second": 0.455
 }

trainer_state.json CHANGED Viewed

@@ -437,69 +437,69 @@
     },
     {
       "epoch": 0.9,
-      "grad_norm": 0.0788686487009447,
       "learning_rate": 5.453769828241872e-06,
       "loss": 0.7709,
       "step": 305
     },
     {
       "epoch": 0.92,
-      "grad_norm": 0.08306771725577697,
       "learning_rate": 3.892905960127546e-06,
-      "loss": 0.7701,
       "step": 310
     },
     {
       "epoch": 0.93,
-      "grad_norm": 0.08424091491331255,
       "learning_rate": 2.590275647868867e-06,
       "loss": 0.7622,
       "step": 315
     },
     {
       "epoch": 0.95,
-      "grad_norm": 0.07734608283213279,
       "learning_rate": 1.5493789750014031e-06,
-      "loss": 0.7951,
       "step": 320
     },
     {
       "epoch": 0.96,
-      "grad_norm": 0.08240316118938772,
       "learning_rate": 7.730127636723539e-07,
       "loss": 0.7722,
       "step": 325
     },
     {
       "epoch": 0.98,
-      "grad_norm": 0.07789751726513824,
       "learning_rate": 2.6326305976001055e-07,
-      "loss": 0.7767,
       "step": 330
     },
     {
       "epoch": 0.99,
-      "grad_norm": 0.08712008799295351,
       "learning_rate": 2.1499527803214846e-08,
-      "loss": 0.7583,
       "step": 335
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.9679508805274963,
-      "eval_runtime": 175.249,
-      "eval_samples_per_second": 13.181,
       "eval_steps_per_second": 0.827,
       "step": 337
     },
     {
       "epoch": 1.0,
       "step": 337,
-      "total_flos": 3858671222128640.0,
-      "train_loss": 0.8055351222658016,
-      "train_runtime": 5374.6429,
-      "train_samples_per_second": 4.018,
-      "train_steps_per_second": 0.063
     }
   ],
   "logging_steps": 5,
@@ -507,7 +507,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 3858671222128640.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

     },
     {
       "epoch": 0.9,
+      "grad_norm": 0.07919765304647886,
       "learning_rate": 5.453769828241872e-06,
       "loss": 0.7709,
       "step": 305
     },
     {
       "epoch": 0.92,
+      "grad_norm": 0.08336346515163112,
       "learning_rate": 3.892905960127546e-06,
+      "loss": 0.7703,
       "step": 310
     },
     {
       "epoch": 0.93,
+      "grad_norm": 0.08196958012246881,
       "learning_rate": 2.590275647868867e-06,
       "loss": 0.7622,
       "step": 315
     },
     {
       "epoch": 0.95,
+      "grad_norm": 0.07692088564904832,
       "learning_rate": 1.5493789750014031e-06,
+      "loss": 0.7952,
       "step": 320
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.08235291945346827,
       "learning_rate": 7.730127636723539e-07,
       "loss": 0.7722,
       "step": 325
     },
     {
       "epoch": 0.98,
+      "grad_norm": 0.07764082388173033,
       "learning_rate": 2.6326305976001055e-07,
+      "loss": 0.7769,
       "step": 330
     },
     {
       "epoch": 0.99,
+      "grad_norm": 0.08728825013568611,
       "learning_rate": 2.1499527803214846e-08,
+      "loss": 0.7585,
       "step": 335
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.9679195284843445,
+      "eval_runtime": 175.419,
+      "eval_samples_per_second": 13.168,
       "eval_steps_per_second": 0.827,
       "step": 337
     },
     {
       "epoch": 1.0,
       "step": 337,
+      "total_flos": 3852908399427584.0,
+      "train_loss": 0.08478880317699308,
+      "train_runtime": 740.7528,
+      "train_samples_per_second": 29.151,
+      "train_steps_per_second": 0.455
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 3852908399427584.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1734477e3fc7afe855c5ea5ab6130ed40396c2d29d45831c917f5aa5b46c22b
 size 6072

 version https://git-lfs.github.com/spec/v1
+oid sha256:354055bb7610547321ea4aa2feca36aba440dadbe934371ae197ca88cb2b4d27
 size 6072