End of training

Browse files

Files changed (9) hide show

README.md +14 -5
adapter_config.json +4 -4
adapter_model.safetensors +2 -2
all_results.json +9 -5
eval_results.json +5 -5
metrics.json +1 -1
train_results.json +5 -5
trainer_state.json +228 -14
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,6 +15,8 @@ should probably proofread and complete it, then remove this comment. -->
 # Mistral-7B-v0.1_case-briefs
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
 ## Model description
@@ -33,19 +35,26 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0002
-- train_batch_size: 1
-- eval_batch_size: 8
 - seed: 42
-- gradient_accumulation_steps: 16
 - total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.03
-- training_steps: 1
 ### Training results
 ### Framework versions

 # Mistral-7B-v0.1_case-briefs
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.1314
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 4
+- eval_batch_size: 4
 - seed: 42
+- gradient_accumulation_steps: 4
 - total_train_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: constant
 - lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 2.0
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.1077        | 0.34  | 50   | 1.1506          |
+| 1.0642        | 0.68  | 100  | 1.1310          |
+| 1.0399        | 1.02  | 150  | 1.1266          |
+| 1.0165        | 1.36  | 200  | 1.1302          |
+| 1.0272        | 1.7   | 250  | 1.1314          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -10,20 +10,20 @@
   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 16,
-  "lora_dropout": 0.0,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 64,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
-    "o_proj",
     "gate_proj",
-    "q_proj",
     "v_proj",
     "up_proj",
     "k_proj"
   ],

   "layers_to_transform": null,
   "loftq_config": {},
   "lora_alpha": 16,
+  "lora_dropout": 0.1,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 16,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
     "gate_proj",
     "v_proj",
+    "o_proj",
+    "q_proj",
     "up_proj",
     "k_proj"
   ],

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c65d4d58e8101f2ce059a1c109f69e013107064461a40e5c947d8e82529537f
-size 335605144

 version https://git-lfs.github.com/spec/v1
+oid sha256:110c0af297f717ff2cf7806e9ffaee869b95756862078bd045b2a2b00c46f728
+size 83946192

all_results.json CHANGED Viewed

@@ -1,7 +1,11 @@
 {
-    "epoch": 0.01,
-    "train_loss": 1.3776695728302002,
-    "train_runtime": 13.1306,
-    "train_samples_per_second": 1.219,
-    "train_steps_per_second": 0.076
 }

 {
+    "epoch": 2.0,
+    "eval_loss": 1.2288233041763306,
+    "eval_runtime": 22.0177,
+    "eval_samples_per_second": 11.899,
+    "eval_steps_per_second": 1.499,
+    "train_loss": 1.0460854338950851,
+    "train_runtime": 864.371,
+    "train_samples_per_second": 5.451,
+    "train_steps_per_second": 0.34
 }

eval_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 1.7,
-    "eval_loss": 1.182191252708435,
-    "eval_runtime": 106.7178,
-    "eval_samples_per_second": 2.455,
-    "eval_steps_per_second": 0.618
 }

 {
+    "epoch": 0.01,
+    "eval_loss": 1.2288233041763306,
+    "eval_runtime": 22.0177,
+    "eval_samples_per_second": 11.899,
+    "eval_steps_per_second": 1.499
 }

metrics.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"run_name": "./output", "train_runtime": ~~4951~~.~~185~~, "train_samples_per_second": 0.~~808~~, "train_steps_per_second": 0.05, "train_loss": 1.~~1705169181823731~~, "epoch": 1.7, "eval_loss": 1.~~182191252708435~~, "eval_runtime": ~~106~~.~~7178~~, "eval_samples_per_second": 2.~~455~~, "eval_steps_per_second": 0.~~618~~}


1	+ {"run_name": "./output", "train_runtime": 13.1306, "train_samples_per_second": 1.219, "train_steps_per_second": 0.076, "train_loss": 1.3776695728302002, "epoch": 0.01, "eval_loss": 1.2288233041763306, "eval_runtime": 22.0177, "eval_samples_per_second": 11.899, "eval_steps_per_second": 1.499}

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 0.01,
-    "train_loss": 1.3776695728302002,
-    "train_runtime": 13.1306,
-    "train_samples_per_second": 1.219,
-    "train_steps_per_second": 0.076
 }

 {
+    "epoch": 2.0,
+    "train_loss": 1.0460854338950851,
+    "train_runtime": 864.371,
+    "train_samples_per_second": 5.451,
+    "train_steps_per_second": 0.34
 }

trainer_state.json CHANGED Viewed

@@ -1,30 +1,244 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.006791171477079796,
-  "eval_steps": 500,
-  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.01,
-      "step": 1,
-      "total_flos": 477581879672832.0,
-      "train_loss": 1.3776695728302002,
-      "train_runtime": 13.1306,
-      "train_samples_per_second": 1.219,
-      "train_steps_per_second": 0.076
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 250,
-  "total_flos": 477581879672832.0,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.99660441426146,
+  "eval_steps": 50,
+  "global_step": 294,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.07,
+      "learning_rate": 3e-05,
+      "loss": 1.2065,
+      "step": 10
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 3e-05,
+      "loss": 1.1456,
+      "step": 20
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 3e-05,
+      "loss": 1.1411,
+      "step": 30
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3e-05,
+      "loss": 1.1179,
+      "step": 40
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3e-05,
+      "loss": 1.1077,
+      "step": 50
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.1505802869796753,
+      "eval_runtime": 15.5075,
+      "eval_samples_per_second": 16.895,
+      "eval_steps_per_second": 4.256,
+      "step": 50
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3e-05,
+      "loss": 1.0964,
+      "step": 60
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 3e-05,
+      "loss": 1.0923,
+      "step": 70
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 3e-05,
+      "loss": 1.1404,
+      "step": 80
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 3e-05,
+      "loss": 1.1145,
+      "step": 90
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 3e-05,
+      "loss": 1.0642,
+      "step": 100
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 1.1310365200042725,
+      "eval_runtime": 15.5192,
+      "eval_samples_per_second": 16.882,
+      "eval_steps_per_second": 4.253,
+      "step": 100
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3e-05,
+      "loss": 1.0558,
+      "step": 110
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 3e-05,
+      "loss": 1.1053,
+      "step": 120
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3e-05,
+      "loss": 1.0948,
+      "step": 130
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3e-05,
+      "loss": 1.0725,
+      "step": 140
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 3e-05,
+      "loss": 1.0399,
+      "step": 150
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 1.1266452074050903,
+      "eval_runtime": 15.5722,
+      "eval_samples_per_second": 16.825,
+      "eval_steps_per_second": 4.238,
+      "step": 150
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 3e-05,
+      "loss": 0.9873,
+      "step": 160
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 3e-05,
+      "loss": 1.0614,
+      "step": 170
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 3e-05,
+      "loss": 0.979,
+      "step": 180
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 3e-05,
+      "loss": 0.9585,
+      "step": 190
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 3e-05,
+      "loss": 1.0165,
+      "step": 200
+    },
+    {
+      "epoch": 1.36,
+      "eval_loss": 1.1301801204681396,
+      "eval_runtime": 15.5114,
+      "eval_samples_per_second": 16.891,
+      "eval_steps_per_second": 4.255,
+      "step": 200
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 3e-05,
+      "loss": 0.987,
+      "step": 210
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 3e-05,
+      "loss": 0.9076,
+      "step": 220
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 3e-05,
+      "loss": 0.9922,
+      "step": 230
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 3e-05,
+      "loss": 0.9889,
+      "step": 240
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 3e-05,
+      "loss": 1.0272,
+      "step": 250
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 1.1314338445663452,
+      "eval_runtime": 15.5119,
+      "eval_samples_per_second": 16.89,
+      "eval_steps_per_second": 4.255,
+      "step": 250
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 3e-05,
+      "loss": 0.977,
+      "step": 260
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 3e-05,
+      "loss": 1.0425,
+      "step": 270
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 3e-05,
+      "loss": 0.9611,
+      "step": 280
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 3e-05,
+      "loss": 0.9305,
+      "step": 290
+    },
+    {
+      "epoch": 2.0,
+      "step": 294,
+      "total_flos": 6.900509298543821e+16,
+      "train_loss": 1.0460854338950851,
+      "train_runtime": 864.371,
+      "train_samples_per_second": 5.451,
+      "train_steps_per_second": 0.34
     }
   ],
   "logging_steps": 10,
+  "max_steps": 294,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 250,
+  "total_flos": 6.900509298543821e+16,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b820acf2b0d501ce1b35e31a5661398a52cf98d95dbd0b403f87e2dc33c54bb1
 size 6648

 version https://git-lfs.github.com/spec/v1
+oid sha256:670309ed11279de039411d6ea6d7cb68f8f00d95a334c639a77e271f6292bb0f
 size 6648