phi2 fine-tuned with full dataset and high learning rate: Loss dropped to 0.02

Browse files

Files changed (5) hide show

README.md +41 -12
adapter_config.json +3 -2
adapter_model.safetensors +1 -1
runs/Feb29_04-59-36_20d285a465bc/events.out.tfevents.1709182786.20d285a465bc.1395.0 +3 -0
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -20,12 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/phi-2](https://huggingface.co/microsoft/phi-2) on the generator dataset.
 It achieves the following results on the evaluation set:
-- eval_loss: 0.2468
-- eval_runtime: 107.7441
-- eval_samples_per_second: 4.093
-- eval_steps_per_second: 0.52
-- epoch: 8.69
-- step: 120
 ## Model description
@@ -44,7 +39,7 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 0.0002
 - train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
@@ -52,14 +47,48 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
-- lr_scheduler_warmup_ratio: 0.05
-- lr_scheduler_warmup_steps: 5
-- training_steps: 250
 ### Framework versions
-- PEFT 0.8.2
-- Transformers 4.37.2
 - Pytorch 2.1.0+cu121
 - Datasets 2.17.1
 - Tokenizers 0.15.2

 This model is a fine-tuned version of [microsoft/phi-2](https://huggingface.co/microsoft/phi-2) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8105
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0008
 - train_batch_size: 2
 - eval_batch_size: 8
 - seed: 42
 - total_train_batch_size: 32
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
+- training_steps: 300
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 0.6408        | 0.72  | 10   | 0.5720          |
+| 0.4116        | 1.45  | 20   | 0.5234          |
+| 0.3467        | 2.17  | 30   | 0.5068          |
+| 0.328         | 2.9   | 40   | 0.4990          |
+| 0.3013        | 3.62  | 50   | 0.5022          |
+| 0.267         | 4.34  | 60   | 0.5051          |
+| 0.2407        | 5.07  | 70   | 0.5151          |
+| 0.2084        | 5.79  | 80   | 0.5329          |
+| 0.1821        | 6.52  | 90   | 0.5566          |
+| 0.1635        | 7.24  | 100  | 0.5996          |
+| 0.1431        | 7.96  | 110  | 0.6137          |
+| 0.1164        | 8.69  | 120  | 0.6461          |
+| 0.1045        | 9.41  | 130  | 0.6714          |
+| 0.0903        | 10.14 | 140  | 0.6719          |
+| 0.0773        | 10.86 | 150  | 0.6802          |
+| 0.0653        | 11.58 | 160  | 0.7234          |
+| 0.0595        | 12.31 | 170  | 0.7497          |
+| 0.0523        | 13.03 | 180  | 0.7281          |
+| 0.0453        | 13.76 | 190  | 0.7439          |
+| 0.0405        | 14.48 | 200  | 0.7655          |
+| 0.0363        | 15.2  | 210  | 0.7674          |
+| 0.0323        | 15.93 | 220  | 0.7835          |
+| 0.0293        | 16.65 | 230  | 0.7924          |
+| 0.0276        | 17.38 | 240  | 0.7981          |
+| 0.0257        | 18.1  | 250  | 0.8023          |
+| 0.0252        | 18.82 | 260  | 0.8019          |
+| 0.0236        | 19.55 | 270  | 0.8040          |
+| 0.023         | 20.27 | 280  | 0.8089          |
+| 0.0232        | 21.0  | 290  | 0.8104          |
+| 0.0231        | 21.72 | 300  | 0.8105          |
 ### Framework versions
+- PEFT 0.9.0
+- Transformers 4.38.1
 - Pytorch 2.1.0+cu121
 - Datasets 2.17.1
 - Tokenizers 0.15.2

adapter_config.json CHANGED Viewed

@@ -19,10 +19,11 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "out_proj",
-    "fc2",
-    "Wqkv"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false
 }

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "Wqkv",
     "out_proj",
+    "fc2"
   ],
   "task_type": "CAUSAL_LM",
+  "use_dora": false,
   "use_rslora": false
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2ddeee7dea06e7186d025d3ff23e630448a046427e25a233ce8eaefd536664d5
 size 115368408

 version https://git-lfs.github.com/spec/v1
+oid sha256:fad900d7eb93efe7de0ab4a684293b9198811e87718b03058e5284454f20476e
 size 115368408

runs/Feb29_04-59-36_20d285a465bc/events.out.tfevents.1709182786.20d285a465bc.1395.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5038892394c4370c275493d1a404d4c7266c23e12901bfea8166291eeee5a917
+size 19943

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37f0ae867f1cdd45eb8a79a92d9d9989dc3740ed88a404686e29e27d1a20893e
-size 4728

 version https://git-lfs.github.com/spec/v1
+oid sha256:91d6ac12a727c0b9c1d4b98747443200eb0a8c818028b5474df01a06342cfd0b
+size 4920