Model save

Browse files

Files changed (15) hide show

README.md +3 -2
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +9 -4
config.json +2 -2
eval_results.json +8 -0
runs/Apr06_23-53-51_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712459701.ip-172-31-69-60.ec2.internal.1668.1 +3 -0
runs/Apr08_19-23-47_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712604248.ip-172-31-69-60.ec2.internal.28905.0 +3 -0
runs/Apr08_19-30-44_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712604666.ip-172-31-69-60.ec2.internal.33303.0 +3 -0
runs/Apr08_19-34-16_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712604876.ip-172-31-69-60.ec2.internal.35728.0 +3 -0
runs/Apr08_19-43-21_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712605421.ip-172-31-69-60.ec2.internal.41103.0 +3 -0
runs/Apr08_19-45-00_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712605520.ip-172-31-69-60.ec2.internal.42468.0 +3 -0
train_results.json +4 -4
trainer_state.json +18 -18
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
@@ -18,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7776
 ## Model description
@@ -55,7 +56,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.749         | 1.0   | 325  | 0.7776          |
 ### Framework versions

 tags:
 - trl
 - sft
+- alignment-handbook
 - generated_from_trainer
 base_model: mistralai/Mistral-7B-v0.1
 model-index:
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7774
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.749         | 1.0   | 325  | 0.7774          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,12 +19,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
-    "down_proj",
     "q_proj",
     "gate_proj",
     "up_proj",
-    "v_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM"

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "q_proj",
+    "down_proj",
     "gate_proj",
+    "k_proj",
     "up_proj",
     "o_proj"
   ],
   "task_type": "CAUSAL_LM"

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7db789cc50c06995a37c003083c8410dd62bf3d2f9e61b0d057fddd2e5238aa
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:e25896f5c5bd693bc056a5478634a80a652b7a627e41d61f0fb6ddbe6ea8d5e8
 size 83946192

all_results.json CHANGED Viewed

@@ -1,8 +1,13 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.7600007471671472,
-    "train_runtime": 11976.0052,
     "train_samples": 20787,
-    "train_samples_per_second": 1.736,
-    "train_steps_per_second": 0.027
 }

 {
     "epoch": 1.0,
+    "eval_loss": 0.7775599956512451,
+    "eval_runtime": 45.2826,
+    "eval_samples": 231,
+    "eval_samples_per_second": 5.101,
+    "eval_steps_per_second": 0.177,
+    "train_loss": 0.057297961895282454,
+    "train_runtime": 986.3633,
     "train_samples": 20787,
+    "train_samples_per_second": 21.074,
+    "train_steps_per_second": 0.329
 }

config.json CHANGED Viewed

@@ -19,8 +19,8 @@
   "rope_theta": 10000.0,
   "sliding_window": 4096,
   "tie_word_embeddings": false,
-  "torch_dtype": "float16",
-  "transformers_version": "4.36.2",
   "use_cache": true,
   "vocab_size": 32000
 }

   "rope_theta": 10000.0,
   "sliding_window": 4096,
   "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.39.0.dev0",
   "use_cache": true,
   "vocab_size": 32000
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "eval_loss": 0.7775599956512451,
+    "eval_runtime": 45.2826,
+    "eval_samples": 231,
+    "eval_samples_per_second": 5.101,
+    "eval_steps_per_second": 0.177
+}

runs/Apr06_23-53-51_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712459701.ip-172-31-69-60.ec2.internal.1668.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f70b74e21ca02e43639d6fdd2f63de91e481f8c7729fd76792f9def724dc2385
+size 359

runs/Apr08_19-23-47_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712604248.ip-172-31-69-60.ec2.internal.28905.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6e5181dc4dd56ef1d95a18f901ac37d0c0f96d4599087f5f049bf5d9fe606b6
+size 4901

runs/Apr08_19-30-44_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712604666.ip-172-31-69-60.ec2.internal.33303.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4386d00a901143c90b7f393241104ca4428500bec204f973fb0786fe5fd2531e
+size 4690

runs/Apr08_19-34-16_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712604876.ip-172-31-69-60.ec2.internal.35728.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bee963b349f352f71e132225c50b3680f9f4f9275ca9dbb88c3d3f5e890e55a
+size 4690

runs/Apr08_19-43-21_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712605421.ip-172-31-69-60.ec2.internal.41103.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:008168257733c7f4b63045c9e1b63ff3f52f5dfbba937465ffa4a701281c7b54
+size 4690

runs/Apr08_19-45-00_ip-172-31-69-60.ec2.internal/events.out.tfevents.1712605520.ip-172-31-69-60.ec2.internal.42468.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef8b45122d8e3a51f2b9e9c698b4ece3e027fc0ccce4dcf852282ccf5f709a18
+size 6370

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.7600007471671472,
-    "train_runtime": 11976.0052,
     "train_samples": 20787,
-    "train_samples_per_second": 1.736,
-    "train_steps_per_second": 0.027
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.057297961895282454,
+    "train_runtime": 986.3633,
     "train_samples": 20787,
+    "train_samples_per_second": 21.074,
+    "train_steps_per_second": 0.329
 }

trainer_state.json CHANGED Viewed

@@ -437,55 +437,55 @@
     },
     {
       "epoch": 0.94,
-      "grad_norm": 0.17095198936108816,
       "learning_rate": 2.30615072228183e-06,
-      "loss": 0.7332,
       "step": 305
     },
     {
       "epoch": 0.95,
-      "grad_norm": 0.17577071939294034,
       "learning_rate": 1.2994027370611173e-06,
-      "loss": 0.7624,
       "step": 310
     },
     {
       "epoch": 0.97,
-      "grad_norm": 0.15277306413297514,
       "learning_rate": 5.782093106048159e-07,
-      "loss": 0.7367,
       "step": 315
     },
     {
       "epoch": 0.98,
-      "grad_norm": 0.17579866149327247,
       "learning_rate": 1.446569558255395e-07,
       "loss": 0.7431,
       "step": 320
     },
     {
       "epoch": 1.0,
-      "grad_norm": 0.16982851480438013,
       "learning_rate": 0.0,
       "loss": 0.749,
       "step": 325
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.7775599956512451,
-      "eval_runtime": 47.5812,
-      "eval_samples_per_second": 4.855,
-      "eval_steps_per_second": 0.168,
       "step": 325
     },
     {
       "epoch": 1.0,
       "step": 325,
-      "total_flos": 4962652747988992.0,
-      "train_loss": 0.7600007471671472,
-      "train_runtime": 11976.0052,
-      "train_samples_per_second": 1.736,
-      "train_steps_per_second": 0.027
     }
   ],
   "logging_steps": 5,
@@ -493,7 +493,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
-  "total_flos": 4962652747988992.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

     },
     {
       "epoch": 0.94,
+      "grad_norm": 0.17093253787814383,
       "learning_rate": 2.30615072228183e-06,
+      "loss": 0.733,
       "step": 305
     },
     {
       "epoch": 0.95,
+      "grad_norm": 0.16234114073804565,
       "learning_rate": 1.2994027370611173e-06,
+      "loss": 0.7626,
       "step": 310
     },
     {
       "epoch": 0.97,
+      "grad_norm": 0.15162800717592476,
       "learning_rate": 5.782093106048159e-07,
+      "loss": 0.7366,
       "step": 315
     },
     {
       "epoch": 0.98,
+      "grad_norm": 0.17565044386960604,
       "learning_rate": 1.446569558255395e-07,
       "loss": 0.7431,
       "step": 320
     },
     {
       "epoch": 1.0,
+      "grad_norm": 0.1698173841843245,
       "learning_rate": 0.0,
       "loss": 0.749,
       "step": 325
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.7774477005004883,
+      "eval_runtime": 47.2759,
+      "eval_samples_per_second": 4.886,
+      "eval_steps_per_second": 0.169,
       "step": 325
     },
     {
       "epoch": 1.0,
       "step": 325,
+      "total_flos": 4954791347224576.0,
+      "train_loss": 0.057297961895282454,
+      "train_runtime": 986.3633,
+      "train_samples_per_second": 21.074,
+      "train_steps_per_second": 0.329
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "total_flos": 4954791347224576.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0c549b6479b99a68384506151aa6b716d0995170317e34c0d7a337b3be7f24b
 size 6072

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa7194cfe3338f80c07cc46268e8cc67ed5c2fbad2b4816eb1f296be0fe00d1f
 size 6072