Model save

Browse files

Files changed (10) hide show

README.md +8 -12
all_results.json +5 -10
config.json +2 -2
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +5 -5
trainer_state.json +48 -41
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,15 +1,11 @@
 ---
 base_model: dmis-lab/selfbiorag_7b
 tags:
-- alignment-handbook
-- trl
-- sft
-- generated_from_trainer
 - trl
 - sft
 - generated_from_trainer
 datasets:
-- HuggingFaceH4/deita-10k-v0-sft
 model-index:
 - name: selfbiorag-7b-wo-kqa_golden-iter-sft-step1
   results: []
@@ -20,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # selfbiorag-7b-wo-kqa_golden-iter-sft-step1
-This model is a fine-tuned version of [dmis-lab/selfbiorag_7b](https://huggingface.co/dmis-lab/selfbiorag_7b) on the HuggingFaceH4/deita-10k-v0-sft dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.5888
 ## Model description
@@ -59,14 +55,14 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 1.6447        | 0.84  | 4    | 1.3963          |
-| 1.4922        | 1.89  | 9    | 1.5709          |
-| 1.1792        | 2.53  | 12   | 1.5888          |
 ### Framework versions
-- Transformers 4.39.0.dev0
-- Pytorch 2.1.2
 - Datasets 2.14.6
 - Tokenizers 0.15.2

 ---
 base_model: dmis-lab/selfbiorag_7b
 tags:
 - trl
 - sft
 - generated_from_trainer
 datasets:
+- generator
 model-index:
 - name: selfbiorag-7b-wo-kqa_golden-iter-sft-step1
   results: []
 # selfbiorag-7b-wo-kqa_golden-iter-sft-step1
+This model is a fine-tuned version of [dmis-lab/selfbiorag_7b](https://huggingface.co/dmis-lab/selfbiorag_7b) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.0452
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.2821        | 0.91  | 5    | 1.1136          |
+| 0.9973        | 2.0   | 11   | 1.0571          |
+| 0.82          | 2.73  | 15   | 1.0452          |
 ### Framework versions
+- Transformers 4.38.2
+- Pytorch 2.1.2+cu121
 - Datasets 2.14.6
 - Tokenizers 0.15.2

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
-    "epoch": 2.53,
-    "eval_loss": 1.5887579917907715,
-    "eval_runtime": 36.4368,
-    "eval_samples": 4044,
-    "eval_samples_per_second": 10.045,
-    "eval_steps_per_second": 0.631,
-    "train_loss": 1.2966619332631428,
-    "train_runtime": 333.6869,
     "train_samples": 4750,
-    "train_samples_per_second": 2.724,
-    "train_steps_per_second": 0.036
 }

 {
+    "epoch": 2.73,
+    "train_loss": 1.0436887741088867,
+    "train_runtime": 249.1645,
     "train_samples": 4750,
+    "train_samples_per_second": 4.142,
+    "train_steps_per_second": 0.06
 }

config.json CHANGED Viewed

@@ -22,7 +22,7 @@
   "rope_theta": 10000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.39.0.dev0",
-  "use_cache": true,
   "vocab_size": 32016
 }

   "rope_theta": 10000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.38.2",
+  "use_cache": false,
   "vocab_size": 32016
 }

generation_config.json CHANGED Viewed

@@ -6,5 +6,5 @@
   "pad_token_id": 0,
   "temperature": 0.6,
   "top_p": 0.9,
-  "transformers_version": "4.39.0.dev0"
 }

   "pad_token_id": 0,
   "temperature": 0.6,
   "top_p": 0.9,
+  "transformers_version": "4.38.2"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff5454e9289c713b5c475fa6ec400937ac46bbbd570c0020d62e20477d4ee767
 size 4939116424

 version https://git-lfs.github.com/spec/v1
+oid sha256:bef77656dd3240b01ad7835aa55b2c321719a43e2df2ea0a38a954d2ccc1106e
 size 4939116424

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6eb8cf289dadd6a53a66c4ff0e7b44c08351c943ae5d5923de036ce70c6ffb23
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:01a9ac4ef29e483dbf24f6f277f27a4bfdd63daf1b2940c472411a583b1d57f6
 size 4947390880

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dea427888a8f336e8c365e11181ef5f6d6ba51f93b1c3268cb1bf6bcfb8ae9d6
 size 3590619888

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba3c462b8c72af582ac9ac76a924e3e1a0b4228909be7b422d7bef01734a71ef
 size 3590619888

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.53,
-    "train_loss": 1.2966619332631428,
-    "train_runtime": 333.6869,
     "train_samples": 4750,
-    "train_samples_per_second": 2.724,
-    "train_steps_per_second": 0.036
 }

 {
+    "epoch": 2.73,
+    "train_loss": 1.0436887741088867,
+    "train_runtime": 249.1645,
     "train_samples": 4750,
+    "train_samples_per_second": 4.142,
+    "train_steps_per_second": 0.06
 }

trainer_state.json CHANGED Viewed

@@ -1,74 +1,81 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.526315789473684,
   "eval_steps": 500,
-  "global_step": 12,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.21,
-      "grad_norm": 7.908194508354831,
       "learning_rate": 1e-05,
-      "loss": 1.6447,
       "step": 1
     },
     {
-      "epoch": 0.84,
-      "eval_loss": 1.3962677717208862,
-      "eval_runtime": 36.3272,
-      "eval_samples_per_second": 10.075,
-      "eval_steps_per_second": 0.633,
-      "step": 4
     },
     {
-      "epoch": 1.05,
-      "grad_norm": 2.7740427914859738,
-      "learning_rate": 1.5877852522924733e-05,
-      "loss": 1.4922,
       "step": 5
     },
     {
-      "epoch": 1.89,
-      "eval_loss": 1.5709341764450073,
-      "eval_runtime": 35.8444,
-      "eval_samples_per_second": 10.211,
-      "eval_steps_per_second": 0.642,
-      "step": 9
     },
     {
-      "epoch": 2.11,
-      "grad_norm": 2.1451956932311864,
-      "learning_rate": 1.9098300562505266e-06,
-      "loss": 1.1792,
-      "step": 10
     },
     {
-      "epoch": 2.53,
-      "eval_loss": 1.5887579917907715,
-      "eval_runtime": 36.3881,
-      "eval_samples_per_second": 10.058,
-      "eval_steps_per_second": 0.632,
-      "step": 12
     },
     {
-      "epoch": 2.53,
-      "step": 12,
-      "total_flos": 2460210954240.0,
-      "train_loss": 1.2966619332631428,
-      "train_runtime": 333.6869,
-      "train_samples_per_second": 2.724,
-      "train_steps_per_second": 0.036
     }
   ],
   "logging_steps": 5,
-  "max_steps": 12,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 2460210954240.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.7272727272727275,
   "eval_steps": 500,
+  "global_step": 15,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.18,
+      "grad_norm": 7.793758473406165,
       "learning_rate": 1e-05,
+      "loss": 1.4406,
       "step": 1
     },
     {
+      "epoch": 0.91,
+      "grad_norm": 2.8267893418386913,
+      "learning_rate": 1.7485107481711014e-05,
+      "loss": 1.2821,
+      "step": 5
     },
     {
+      "epoch": 0.91,
+      "eval_loss": 1.1136233806610107,
+      "eval_runtime": 1.3266,
+      "eval_samples_per_second": 10.553,
+      "eval_steps_per_second": 0.754,
       "step": 5
     },
     {
+      "epoch": 1.82,
+      "grad_norm": 2.7191793787610057,
+      "learning_rate": 6.453951129574644e-06,
+      "loss": 0.9973,
+      "step": 10
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 1.0571211576461792,
+      "eval_runtime": 1.3822,
+      "eval_samples_per_second": 10.129,
+      "eval_steps_per_second": 0.723,
+      "step": 11
+    },
+    {
+      "epoch": 2.73,
+      "grad_norm": 1.7371058324616164,
+      "learning_rate": 0.0,
+      "loss": 0.82,
+      "step": 15
     },
     {
+      "epoch": 2.73,
+      "eval_loss": 1.045231580734253,
+      "eval_runtime": 1.3746,
+      "eval_samples_per_second": 10.185,
+      "eval_steps_per_second": 0.727,
+      "step": 15
     },
     {
+      "epoch": 2.73,
+      "step": 15,
+      "total_flos": 3088349921280.0,
+      "train_loss": 1.0436887741088867,
+      "train_runtime": 249.1645,
+      "train_samples_per_second": 4.142,
+      "train_steps_per_second": 0.06
     }
   ],
   "logging_steps": 5,
+  "max_steps": 15,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
+  "total_flos": 3088349921280.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d406f9aa449db8b0d918c79ac45287c291c029fa2c5ad4638f01e580ad50656
 size 6200

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6ca3c9e83615ad729882cccf279e609bf3059b16167cb67f5d5977df49d19fa
 size 6200