Model save

Browse files

Files changed (10) hide show

README.md +3 -5
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
all_results.json +10 -10
eval_results.json +5 -5
runs/Dec18_05-24-09_a40-2/events.out.tfevents.1702877116.a40-2.3341159.0 +3 -0
runs/Dec18_05-24-09_a40-2/events.out.tfevents.1702889370.a40-2.3341159.1 +3 -0
train_results.json +6 -6
trainer_state.json +20 -182
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0052
 ## Model description
@@ -39,10 +39,8 @@ The following hyperparameters were used during training:
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
-- num_devices: 2
 - gradient_accumulation_steps: 128
-- total_train_batch_size: 1024
-- total_eval_batch_size: 16
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - num_epochs: 1
@@ -51,7 +49,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.9999        | 0.67  | 136  | 1.0053          |
 ### Framework versions

 This model is a fine-tuned version of [mistralai/Mistral-7B-v0.1](https://huggingface.co/mistralai/Mistral-7B-v0.1) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1352
 ## Model description
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - gradient_accumulation_steps: 128
+- total_train_batch_size: 512
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - num_epochs: 1
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.1217        | 0.51  | 1    | 1.1352          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -16,10 +16,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
     "v_proj",
     "k_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "q_proj",
     "k_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4e7112cc3fd1d00c0dd964482b4fd6c8d9b256193941da9223bddebd8a13392
 size 218138576

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b5c2c912aabf3d090802e193c213f70f281e46ddc175ace8d15677bb0291396
 size 218138576

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 0.67,
-    "eval_loss": 1.0052200555801392,
-    "eval_runtime": 2917.7145,
     "eval_samples": 23110,
-    "eval_samples_per_second": 7.921,
-    "eval_steps_per_second": 0.495,
-    "train_loss": 1.030409187078476,
-    "train_runtime": 89444.4373,
-    "train_samples": 207865,
-    "train_samples_per_second": 2.324,
-    "train_steps_per_second": 0.002
 }

 {
+    "epoch": 0.51,
+    "eval_loss": 1.1351821422576904,
+    "eval_runtime": 5760.9086,
     "eval_samples": 23110,
+    "eval_samples_per_second": 4.012,
+    "eval_steps_per_second": 0.501,
+    "train_loss": 1.1217185258865356,
+    "train_runtime": 6493.465,
+    "train_samples": 1000,
+    "train_samples_per_second": 0.154,
+    "train_steps_per_second": 0.0
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.67,
-    "eval_loss": 1.0052200555801392,
-    "eval_runtime": 2917.7145,
     "eval_samples": 23110,
-    "eval_samples_per_second": 7.921,
-    "eval_steps_per_second": 0.495
 }

 {
+    "epoch": 0.51,
+    "eval_loss": 1.1351821422576904,
+    "eval_runtime": 5760.9086,
     "eval_samples": 23110,
+    "eval_samples_per_second": 4.012,
+    "eval_steps_per_second": 0.501
 }

runs/Dec18_05-24-09_a40-2/events.out.tfevents.1702877116.a40-2.3341159.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fba86adbe408b6c5c4baa8a106f951efe3f50f369e947f1103fd5fdad9068b4
+size 5021

runs/Dec18_05-24-09_a40-2/events.out.tfevents.1702889370.a40-2.3341159.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9145e0ca8173f2e1d010ce3f20fefea139126cffc4d7437ac479e02eea86d5b5
+size 354

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.67,
-    "train_loss": 1.030409187078476,
-    "train_runtime": 89444.4373,
-    "train_samples": 207865,
-    "train_samples_per_second": 2.324,
-    "train_steps_per_second": 0.002
 }

 {
+    "epoch": 0.51,
+    "train_loss": 1.1217185258865356,
+    "train_runtime": 6493.465,
+    "train_samples": 1000,
+    "train_samples_per_second": 0.154,
+    "train_steps_per_second": 0.0
 }

trainer_state.json CHANGED Viewed

@@ -1,204 +1,42 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6699507389162561,
   "eval_steps": 500,
-  "global_step": 136,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0,
-      "learning_rate": 1.9998802517966852e-05,
-      "loss": 1.1244,
       "step": 1
     },
     {
-      "epoch": 0.02,
-      "learning_rate": 1.997007728639956e-05,
-      "loss": 1.122,
-      "step": 5
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 1.9880488219356086e-05,
-      "loss": 1.1164,
-      "step": 10
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 1.973176894846855e-05,
-      "loss": 1.0903,
-      "step": 15
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 1.9524809490566878e-05,
-      "loss": 1.0803,
-      "step": 20
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 1.926084840336821e-05,
-      "loss": 1.0711,
-      "step": 25
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 1.894146537327533e-05,
-      "loss": 1.0549,
-      "step": 30
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 1.8568571761675893e-05,
-      "loss": 1.0363,
-      "step": 35
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 1.814439916631857e-05,
-      "loss": 1.038,
-      "step": 40
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 1.7671486066220965e-05,
-      "loss": 1.0281,
-      "step": 45
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 1.7152662630033506e-05,
-      "loss": 1.0167,
-      "step": 50
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 1.659103377877423e-05,
-      "loss": 1.0258,
-      "step": 55
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 1.598996060429634e-05,
-      "loss": 1.0134,
-      "step": 60
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 1.5353040254690396e-05,
-      "loss": 1.0172,
-      "step": 65
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 1.4684084406997903e-05,
-      "loss": 1.0135,
-      "step": 70
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 1.3987096456067236e-05,
-      "loss": 1.0109,
-      "step": 75
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 1.3266247556066122e-05,
-      "loss": 0.9973,
-      "step": 80
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 1.252585165803135e-05,
-      "loss": 1.0118,
-      "step": 85
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 1.1770339692844484e-05,
-      "loss": 1.0013,
-      "step": 90
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 1.1004233054136726e-05,
-      "loss": 1.0107,
-      "step": 95
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 1.0232116539815558e-05,
-      "loss": 1.0039,
-      "step": 100
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 9.458610914145826e-06,
-      "loss": 1.0032,
-      "step": 105
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 8.688345254588579e-06,
-      "loss": 1.008,
-      "step": 110
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 7.92592924888925e-06,
-      "loss": 1.0066,
-      "step": 115
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 7.175925608204428e-06,
-      "loss": 1.006,
-      "step": 120
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 6.442822761362015e-06,
-      "loss": 1.0059,
-      "step": 125
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 5.731007993667155e-06,
-      "loss": 1.001,
-      "step": 130
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 5.044741191005908e-06,
-      "loss": 0.9999,
-      "step": 135
-    },
-    {
-      "epoch": 0.67,
-      "eval_loss": 1.005275845527649,
-      "eval_runtime": 2913.4219,
-      "eval_samples_per_second": 7.932,
-      "eval_steps_per_second": 0.496,
-      "step": 136
     },
     {
-      "epoch": 0.67,
-      "step": 136,
-      "total_flos": 1.227587501862106e+19,
-      "train_loss": 1.030409187078476,
-      "train_runtime": 89444.4373,
-      "train_samples_per_second": 2.324,
-      "train_steps_per_second": 0.002
     }
   ],
   "logging_steps": 5,
-  "max_steps": 203,
   "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 1.227587501862106e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.512,
   "eval_steps": 500,
+  "global_step": 1,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.51,
+      "learning_rate": 0.0,
+      "loss": 1.1217,
       "step": 1
     },
     {
+      "epoch": 0.51,
+      "eval_loss": 1.1351821422576904,
+      "eval_runtime": 5862.1633,
+      "eval_samples_per_second": 3.942,
+      "eval_steps_per_second": 0.493,
+      "step": 1
     },
     {
+      "epoch": 0.51,
+      "step": 1,
+      "total_flos": 4.507945275280589e+16,
+      "train_loss": 1.1217185258865356,
+      "train_runtime": 6493.465,
+      "train_samples_per_second": 0.154,
+      "train_steps_per_second": 0.0
     }
   ],
   "logging_steps": 5,
+  "max_steps": 1,
   "num_train_epochs": 1,
   "save_steps": 500,
+  "total_flos": 4.507945275280589e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a4abbb7794a5869c706f86ff93250d606255d477d220e7a635acef423d64f2ec
 size 4664

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2bc14001a0c5f5939f44c7da712b8b242818373ff67764911429cf5317a6e4b
 size 4664