Model save

Browse files

Files changed (8) hide show

README.md +17 -18
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +3 -8
runs/Apr11_21-36-25_deep-diver-main-swift-parrot-1-0-0/events.out.tfevents.1712885927.deep-diver-main-swift-parrot-1-0-0.521.0 +3 -0
train_results.json +3 -3
trainer_state.json +84 -84
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,13 +2,12 @@
 license: gemma
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
 base_model: google/gemma-7b
 datasets:
-- chansung/no_robots_only_coding
 model-index:
 - name: gemma-7b-sft-qlora-no-robots15
   results: []
@@ -19,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 # gemma-7b-sft-qlora-no-robots15
-This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b) on the chansung/no_robots_only_coding dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.2830
 ## Model description
@@ -58,20 +57,20 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 21.906        | 0.91  | 5    | 7.6533          |
-| 13.5603       | 2.0   | 11   | 6.6442          |
-| 10.2605       | 2.91  | 16   | 6.0815          |
-| 9.9129        | 4.0   | 22   | 3.1148          |
-| 4.5895        | 4.91  | 27   | 1.6583          |
-| 1.6316        | 6.0   | 33   | 1.4155          |
-| 1.4115        | 6.91  | 38   | 1.3543          |
-| 1.2971        | 8.0   | 44   | 1.3133          |
-| 1.1321        | 8.91  | 49   | 1.2903          |
-| 0.9739        | 10.0  | 55   | 1.2820          |
-| 0.917         | 10.91 | 60   | 1.2888          |
-| 0.8541        | 12.0  | 66   | 1.2781          |
-| 0.8659        | 12.91 | 71   | 1.2892          |
-| 0.8354        | 13.64 | 75   | 1.2830          |
 ### Framework versions

 license: gemma
 library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
 base_model: google/gemma-7b
 datasets:
+- generator
 model-index:
 - name: gemma-7b-sft-qlora-no-robots15
   results: []
 # gemma-7b-sft-qlora-no-robots15
+This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.2808
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 21.9058       | 0.91  | 5    | 7.6562          |
+| 13.5645       | 2.0   | 11   | 6.6359          |
+| 10.2613       | 2.91  | 16   | 6.0754          |
+| 9.903         | 4.0   | 22   | 3.1116          |
+| 4.594         | 4.91  | 27   | 1.6371          |
+| 1.6122        | 6.0   | 33   | 1.4160          |
+| 1.3971        | 6.91  | 38   | 1.3411          |
+| 1.2757        | 8.0   | 44   | 1.3074          |
+| 1.1233        | 8.91  | 49   | 1.2756          |
+| 0.9741        | 10.0  | 55   | 1.2736          |
+| 0.9266        | 10.91 | 60   | 1.2791          |
+| 0.8584        | 12.0  | 66   | 1.2753          |
+| 0.8714        | 12.91 | 71   | 1.2842          |
+| 0.8421        | 13.64 | 75   | 1.2808          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -20,12 +20,12 @@
   "revision": null,
   "target_modules": [
     "q_proj",
-    "v_proj",
     "o_proj",
     "k_proj",
-    "up_proj",
     "gate_proj",
-    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

   "revision": null,
   "target_modules": [
     "q_proj",
     "o_proj",
     "k_proj",
+    "down_proj",
     "gate_proj",
+    "up_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be6e49bde386e61c34c9dd54410a8a0f5f837bcefb36a8042ba70849c4ef6788
 size 100060536

 version https://git-lfs.github.com/spec/v1
+oid sha256:f315f40214c028f258b809817d77512f3182e49cd92012ca7e6622d69636efef
 size 100060536

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
     "epoch": 13.64,
-    "eval_loss": 1.2830009460449219,
-    "eval_runtime": 0.6019,
-    "eval_samples": 16,
-    "eval_samples_per_second": 3.323,
-    "eval_steps_per_second": 1.661,
-    "train_loss": 4.788167775472005,
-    "train_runtime": 283.7979,
     "train_samples": 926,
-    "train_samples_per_second": 4.651,
     "train_steps_per_second": 0.264
 }

 {
     "epoch": 13.64,
+    "train_loss": 4.785474745432536,
+    "train_runtime": 283.6494,
     "train_samples": 926,
+    "train_samples_per_second": 4.654,
     "train_steps_per_second": 0.264
 }

runs/Apr11_21-36-25_deep-diver-main-swift-parrot-1-0-0/events.out.tfevents.1712885927.deep-diver-main-swift-parrot-1-0-0.521.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30297c206f33c1c3586f8b8dfd4ca982a24997cec1fa34745472cb89e5edd976
+size 12773

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 13.64,
-    "train_loss": 4.788167775472005,
-    "train_runtime": 283.7979,
     "train_samples": 926,
-    "train_samples_per_second": 4.651,
     "train_steps_per_second": 0.264
 }

 {
     "epoch": 13.64,
+    "train_loss": 4.785474745432536,
+    "train_runtime": 283.6494,
     "train_samples": 926,
+    "train_samples_per_second": 4.654,
     "train_steps_per_second": 0.264
 }

trainer_state.json CHANGED Viewed

@@ -19,87 +19,87 @@
       "epoch": 0.91,
       "grad_norm": 35.25,
       "learning_rate": 0.000125,
-      "loss": 21.906,
       "step": 5
     },
     {
       "epoch": 0.91,
-      "eval_loss": 7.653346538543701,
-      "eval_runtime": 0.5608,
-      "eval_samples_per_second": 3.567,
-      "eval_steps_per_second": 1.783,
       "step": 5
     },
     {
       "epoch": 1.82,
-      "grad_norm": 9.3125,
       "learning_rate": 0.00019956059820218982,
-      "loss": 13.5603,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "eval_loss": 6.644189357757568,
-      "eval_runtime": 0.5604,
-      "eval_samples_per_second": 3.569,
-      "eval_steps_per_second": 1.784,
       "step": 11
     },
     {
       "epoch": 2.73,
-      "grad_norm": 4.625,
       "learning_rate": 0.00019466156752904343,
-      "loss": 10.2605,
       "step": 15
     },
     {
       "epoch": 2.91,
-      "eval_loss": 6.081549644470215,
-      "eval_runtime": 0.5806,
-      "eval_samples_per_second": 3.445,
-      "eval_steps_per_second": 1.722,
       "step": 16
     },
     {
       "epoch": 3.64,
-      "grad_norm": 15.125,
       "learning_rate": 0.00018458320592590975,
-      "loss": 9.9129,
       "step": 20
     },
     {
       "epoch": 4.0,
-      "eval_loss": 3.114753484725952,
-      "eval_runtime": 0.5656,
-      "eval_samples_per_second": 3.536,
-      "eval_steps_per_second": 1.768,
       "step": 22
     },
     {
       "epoch": 4.55,
-      "grad_norm": 2.96875,
       "learning_rate": 0.00016987694277788417,
-      "loss": 4.5895,
       "step": 25
     },
     {
       "epoch": 4.91,
-      "eval_loss": 1.6582958698272705,
-      "eval_runtime": 0.5842,
-      "eval_samples_per_second": 3.424,
-      "eval_steps_per_second": 1.712,
       "step": 27
     },
     {
       "epoch": 5.45,
-      "grad_norm": 3.171875,
       "learning_rate": 0.0001513474193514842,
-      "loss": 1.6316,
       "step": 30
     },
     {
       "epoch": 6.0,
-      "eval_loss": 1.415539264678955,
       "eval_runtime": 0.5662,
       "eval_samples_per_second": 3.532,
       "eval_steps_per_second": 1.766,
@@ -107,138 +107,138 @@
     },
     {
       "epoch": 6.36,
-      "grad_norm": 7.1875,
       "learning_rate": 0.0001300084635000341,
-      "loss": 1.4115,
       "step": 35
     },
     {
       "epoch": 6.91,
-      "eval_loss": 1.3542958498001099,
-      "eval_runtime": 0.58,
-      "eval_samples_per_second": 3.448,
-      "eval_steps_per_second": 1.724,
       "step": 38
     },
     {
       "epoch": 7.27,
-      "grad_norm": 1.296875,
       "learning_rate": 0.0001070276188945293,
-      "loss": 1.2971,
       "step": 40
     },
     {
       "epoch": 8.0,
-      "eval_loss": 1.313336968421936,
-      "eval_runtime": 0.5751,
-      "eval_samples_per_second": 3.478,
-      "eval_steps_per_second": 1.739,
       "step": 44
     },
     {
       "epoch": 8.18,
-      "grad_norm": 1.6171875,
       "learning_rate": 8.366226381814697e-05,
-      "loss": 1.1321,
       "step": 45
     },
     {
       "epoch": 8.91,
-      "eval_loss": 1.2903474569320679,
-      "eval_runtime": 0.5848,
-      "eval_samples_per_second": 3.42,
-      "eval_steps_per_second": 1.71,
       "step": 49
     },
     {
       "epoch": 9.09,
-      "grad_norm": 0.9375,
       "learning_rate": 6.119081473277501e-05,
-      "loss": 1.062,
       "step": 50
     },
     {
       "epoch": 10.0,
       "grad_norm": 0.90234375,
       "learning_rate": 4.084277875864776e-05,
-      "loss": 0.9739,
       "step": 55
     },
     {
       "epoch": 10.0,
-      "eval_loss": 1.2820332050323486,
-      "eval_runtime": 0.5646,
-      "eval_samples_per_second": 3.542,
-      "eval_steps_per_second": 1.771,
       "step": 55
     },
     {
       "epoch": 10.91,
-      "grad_norm": 1.2109375,
       "learning_rate": 2.3731482188961818e-05,
-      "loss": 0.917,
       "step": 60
     },
     {
       "epoch": 10.91,
-      "eval_loss": 1.2888375520706177,
-      "eval_runtime": 0.5836,
-      "eval_samples_per_second": 3.427,
-      "eval_steps_per_second": 1.714,
       "step": 60
     },
     {
       "epoch": 11.82,
-      "grad_norm": 0.609375,
       "learning_rate": 1.0793155744261351e-05,
-      "loss": 0.8541,
       "step": 65
     },
     {
       "epoch": 12.0,
-      "eval_loss": 1.27806556224823,
-      "eval_runtime": 0.5683,
-      "eval_samples_per_second": 3.519,
-      "eval_steps_per_second": 1.76,
       "step": 66
     },
     {
       "epoch": 12.73,
-      "grad_norm": 0.6796875,
       "learning_rate": 2.735709467518699e-06,
-      "loss": 0.8659,
       "step": 70
     },
     {
       "epoch": 12.91,
-      "eval_loss": 1.2891546487808228,
-      "eval_runtime": 0.7414,
-      "eval_samples_per_second": 2.698,
-      "eval_steps_per_second": 1.349,
       "step": 71
     },
     {
       "epoch": 13.64,
-      "grad_norm": 0.515625,
       "learning_rate": 0.0,
-      "loss": 0.8354,
       "step": 75
     },
     {
       "epoch": 13.64,
-      "eval_loss": 1.2830009460449219,
-      "eval_runtime": 0.5659,
-      "eval_samples_per_second": 3.534,
-      "eval_steps_per_second": 1.767,
       "step": 75
     },
     {
       "epoch": 13.64,
       "step": 75,
       "total_flos": 1.1503415671442637e+17,
-      "train_loss": 4.788167775472005,
-      "train_runtime": 283.7979,
-      "train_samples_per_second": 4.651,
       "train_steps_per_second": 0.264
     }
   ],

       "epoch": 0.91,
       "grad_norm": 35.25,
       "learning_rate": 0.000125,
+      "loss": 21.9058,
       "step": 5
     },
     {
       "epoch": 0.91,
+      "eval_loss": 7.6562018394470215,
+      "eval_runtime": 0.5686,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.759,
       "step": 5
     },
     {
       "epoch": 1.82,
+      "grad_norm": 9.0,
       "learning_rate": 0.00019956059820218982,
+      "loss": 13.5645,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "eval_loss": 6.635939121246338,
+      "eval_runtime": 0.5597,
+      "eval_samples_per_second": 3.573,
+      "eval_steps_per_second": 1.787,
       "step": 11
     },
     {
       "epoch": 2.73,
+      "grad_norm": 4.5625,
       "learning_rate": 0.00019466156752904343,
+      "loss": 10.2613,
       "step": 15
     },
     {
       "epoch": 2.91,
+      "eval_loss": 6.0754241943359375,
+      "eval_runtime": 0.5741,
+      "eval_samples_per_second": 3.484,
+      "eval_steps_per_second": 1.742,
       "step": 16
     },
     {
       "epoch": 3.64,
+      "grad_norm": 14.6875,
       "learning_rate": 0.00018458320592590975,
+      "loss": 9.903,
       "step": 20
     },
     {
       "epoch": 4.0,
+      "eval_loss": 3.1116435527801514,
+      "eval_runtime": 0.5647,
+      "eval_samples_per_second": 3.542,
+      "eval_steps_per_second": 1.771,
       "step": 22
     },
     {
       "epoch": 4.55,
+      "grad_norm": 32.75,
       "learning_rate": 0.00016987694277788417,
+      "loss": 4.594,
       "step": 25
     },
     {
       "epoch": 4.91,
+      "eval_loss": 1.6371122598648071,
+      "eval_runtime": 0.5752,
+      "eval_samples_per_second": 3.477,
+      "eval_steps_per_second": 1.739,
       "step": 27
     },
     {
       "epoch": 5.45,
+      "grad_norm": 3.125,
       "learning_rate": 0.0001513474193514842,
+      "loss": 1.6122,
       "step": 30
     },
     {
       "epoch": 6.0,
+      "eval_loss": 1.4159561395645142,
       "eval_runtime": 0.5662,
       "eval_samples_per_second": 3.532,
       "eval_steps_per_second": 1.766,
     },
     {
       "epoch": 6.36,
+      "grad_norm": 1.03125,
       "learning_rate": 0.0001300084635000341,
+      "loss": 1.3971,
       "step": 35
     },
     {
       "epoch": 6.91,
+      "eval_loss": 1.3411411046981812,
+      "eval_runtime": 0.5782,
+      "eval_samples_per_second": 3.459,
+      "eval_steps_per_second": 1.73,
       "step": 38
     },
     {
       "epoch": 7.27,
+      "grad_norm": 1.65625,
       "learning_rate": 0.0001070276188945293,
+      "loss": 1.2757,
       "step": 40
     },
     {
       "epoch": 8.0,
+      "eval_loss": 1.307417631149292,
+      "eval_runtime": 0.5668,
+      "eval_samples_per_second": 3.529,
+      "eval_steps_per_second": 1.764,
       "step": 44
     },
     {
       "epoch": 8.18,
+      "grad_norm": 1.796875,
       "learning_rate": 8.366226381814697e-05,
+      "loss": 1.1233,
       "step": 45
     },
     {
       "epoch": 8.91,
+      "eval_loss": 1.275590419769287,
+      "eval_runtime": 0.5782,
+      "eval_samples_per_second": 3.459,
+      "eval_steps_per_second": 1.729,
       "step": 49
     },
     {
       "epoch": 9.09,
+      "grad_norm": 0.99609375,
       "learning_rate": 6.119081473277501e-05,
+      "loss": 1.0599,
       "step": 50
     },
     {
       "epoch": 10.0,
       "grad_norm": 0.90234375,
       "learning_rate": 4.084277875864776e-05,
+      "loss": 0.9741,
       "step": 55
     },
     {
       "epoch": 10.0,
+      "eval_loss": 1.273629903793335,
+      "eval_runtime": 0.5636,
+      "eval_samples_per_second": 3.549,
+      "eval_steps_per_second": 1.774,
       "step": 55
     },
     {
       "epoch": 10.91,
+      "grad_norm": 0.62890625,
       "learning_rate": 2.3731482188961818e-05,
+      "loss": 0.9266,
       "step": 60
     },
     {
       "epoch": 10.91,
+      "eval_loss": 1.279077410697937,
+      "eval_runtime": 0.5768,
+      "eval_samples_per_second": 3.467,
+      "eval_steps_per_second": 1.734,
       "step": 60
     },
     {
       "epoch": 11.82,
+      "grad_norm": 0.5234375,
       "learning_rate": 1.0793155744261351e-05,
+      "loss": 0.8584,
       "step": 65
     },
     {
       "epoch": 12.0,
+      "eval_loss": 1.2753326892852783,
+      "eval_runtime": 0.5671,
+      "eval_samples_per_second": 3.527,
+      "eval_steps_per_second": 1.763,
       "step": 66
     },
     {
       "epoch": 12.73,
+      "grad_norm": 0.515625,
       "learning_rate": 2.735709467518699e-06,
+      "loss": 0.8714,
       "step": 70
     },
     {
       "epoch": 12.91,
+      "eval_loss": 1.2842026948928833,
+      "eval_runtime": 0.7036,
+      "eval_samples_per_second": 2.842,
+      "eval_steps_per_second": 1.421,
       "step": 71
     },
     {
       "epoch": 13.64,
+      "grad_norm": 0.56640625,
       "learning_rate": 0.0,
+      "loss": 0.8421,
       "step": 75
     },
     {
       "epoch": 13.64,
+      "eval_loss": 1.2808171510696411,
+      "eval_runtime": 0.5646,
+      "eval_samples_per_second": 3.543,
+      "eval_steps_per_second": 1.771,
       "step": 75
     },
     {
       "epoch": 13.64,
       "step": 75,
       "total_flos": 1.1503415671442637e+17,
+      "train_loss": 4.785474745432536,
+      "train_runtime": 283.6494,
+      "train_samples_per_second": 4.654,
       "train_steps_per_second": 0.264
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ffbfc1f7707f8c234a55a9fc0b314774d4ec0938f941afe549a7d87e7a4373e1
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:8767d3875a56a1eab9d37ca54199f7864f60adc0471cee54828002448777d1fe
 size 5112