Model save

Browse files

Files changed (4) hide show

README.md +104 -0
all_results.json +9 -0
train_results.json +9 -0
trainer_state.json +649 -0

README.md ADDED Viewed

	@@ -0,0 +1,104 @@

+---
+base_model: meta-llama/Llama-3.1-8B-Instruct
+library_name: peft
+license: llama3.1
+tags:
+- trl
+- sft
+- generated_from_trainer
+model-index:
+- name: llama_3_gsm8k_midset_cot_simplest
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# llama_3_gsm8k_midset_cot_simplest
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5414
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 4
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- training_steps: 200
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 1.121         | 0.04   | 5    | 1.0499          |
+| 0.7969        | 0.08   | 10   | 0.7587          |
+| 0.7177        | 0.12   | 15   | 0.6761          |
+| 0.6315        | 0.16   | 20   | 0.6275          |
+| 0.5984        | 0.2    | 25   | 0.5965          |
+| 0.5678        | 0.24   | 30   | 0.5893          |
+| 0.6067        | 0.28   | 35   | 0.5732          |
+| 0.6306        | 0.32   | 40   | 0.5717          |
+| 0.6134        | 0.36   | 45   | 0.5688          |
+| 0.5396        | 0.4    | 50   | 0.5616          |
+| 0.5796        | 0.44   | 55   | 0.5596          |
+| 0.582         | 0.48   | 60   | 0.5543          |
+| 0.5793        | 0.52   | 65   | 0.5518          |
+| 0.4974        | 0.56   | 70   | 0.5556          |
+| 0.5791        | 0.6    | 75   | 0.5544          |
+| 0.5484        | 0.64   | 80   | 0.5518          |
+| 0.5611        | 0.68   | 85   | 0.5500          |
+| 0.5736        | 0.72   | 90   | 0.5474          |
+| 0.5269        | 0.76   | 95   | 0.5490          |
+| 0.58          | 0.8    | 100  | 0.5485          |
+| 0.5295        | 0.84   | 105  | 0.5476          |
+| 0.5124        | 0.88   | 110  | 0.5447          |
+| 0.5368        | 0.92   | 115  | 0.5409          |
+| 0.5705        | 0.96   | 120  | 0.5408          |
+| 0.5244        | 1.0    | 125  | 0.5394          |
+| 0.4334        | 1.04   | 130  | 0.5402          |
+| 0.5256        | 1.08   | 135  | 0.5425          |
+| 0.4398        | 1.12   | 140  | 0.5464          |
+| 0.4843        | 1.16   | 145  | 0.5472          |
+| 0.4437        | 1.2    | 150  | 0.5457          |
+| 0.5133        | 1.24   | 155  | 0.5449          |
+| 0.497         | 1.28   | 160  | 0.5427          |
+| 0.4682        | 1.32   | 165  | 0.5420          |
+| 0.4872        | 1.3600 | 170  | 0.5415          |
+| 0.4763        | 1.4    | 175  | 0.5413          |
+| 0.4647        | 1.44   | 180  | 0.5417          |
+| 0.4679        | 1.48   | 185  | 0.5417          |
+| 0.476         | 1.52   | 190  | 0.5414          |
+| 0.462         | 1.56   | 195  | 0.5414          |
+| 0.4665        | 1.6    | 200  | 0.5414          |
+### Framework versions
+- PEFT 0.12.0
+- Transformers 4.44.2
+- Pytorch 2.4.1+cu121
+- Datasets 3.0.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.6,
+    "total_flos": 11601719820288.0,
+    "train_loss": 0.5555729389190673,
+    "train_runtime": 622.2423,
+    "train_samples": 1000,
+    "train_samples_per_second": 2.571,
+    "train_steps_per_second": 0.321
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.6,
+    "total_flos": 11601719820288.0,
+    "train_loss": 0.5555729389190673,
+    "train_runtime": 622.2423,
+    "train_samples": 1000,
+    "train_samples_per_second": 2.571,
+    "train_steps_per_second": 0.321
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,649 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.6,
+  "eval_steps": 5,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008,
+      "grad_norm": 1.2240601700710738,
+      "learning_rate": 1e-05,
+      "loss": 1.1829,
+      "step": 1
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.3328787157467732,
+      "learning_rate": 5e-05,
+      "loss": 1.121,
+      "step": 5
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.049928903579712,
+      "eval_runtime": 3.2684,
+      "eval_samples_per_second": 6.119,
+      "eval_steps_per_second": 1.53,
+      "step": 5
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.36829974889205147,
+      "learning_rate": 0.0001,
+      "loss": 0.7969,
+      "step": 10
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.7586944103240967,
+      "eval_runtime": 1.8887,
+      "eval_samples_per_second": 10.589,
+      "eval_steps_per_second": 2.647,
+      "step": 10
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.3157342201428062,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.7177,
+      "step": 15
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.6760886907577515,
+      "eval_runtime": 1.8819,
+      "eval_samples_per_second": 10.628,
+      "eval_steps_per_second": 2.657,
+      "step": 15
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.3375491833564291,
+      "learning_rate": 0.0002,
+      "loss": 0.6315,
+      "step": 20
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.6274805068969727,
+      "eval_runtime": 1.8861,
+      "eval_samples_per_second": 10.604,
+      "eval_steps_per_second": 2.651,
+      "step": 20
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.4288885913090479,
+      "learning_rate": 0.00019961946980917456,
+      "loss": 0.5984,
+      "step": 25
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.5965251922607422,
+      "eval_runtime": 1.8879,
+      "eval_samples_per_second": 10.594,
+      "eval_steps_per_second": 2.648,
+      "step": 25
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.48479731407705157,
+      "learning_rate": 0.00019848077530122083,
+      "loss": 0.5678,
+      "step": 30
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.5893207788467407,
+      "eval_runtime": 1.8836,
+      "eval_samples_per_second": 10.618,
+      "eval_steps_per_second": 2.655,
+      "step": 30
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.40920359366877707,
+      "learning_rate": 0.00019659258262890683,
+      "loss": 0.6067,
+      "step": 35
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.5732331275939941,
+      "eval_runtime": 1.8852,
+      "eval_samples_per_second": 10.609,
+      "eval_steps_per_second": 2.652,
+      "step": 35
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.32156555533030146,
+      "learning_rate": 0.00019396926207859084,
+      "loss": 0.6306,
+      "step": 40
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.5717456340789795,
+      "eval_runtime": 1.8847,
+      "eval_samples_per_second": 10.612,
+      "eval_steps_per_second": 2.653,
+      "step": 40
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.25427281234716914,
+      "learning_rate": 0.000190630778703665,
+      "loss": 0.6134,
+      "step": 45
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.5688132047653198,
+      "eval_runtime": 1.8863,
+      "eval_samples_per_second": 10.603,
+      "eval_steps_per_second": 2.651,
+      "step": 45
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.31350926451796496,
+      "learning_rate": 0.00018660254037844388,
+      "loss": 0.5396,
+      "step": 50
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.5616275072097778,
+      "eval_runtime": 1.8868,
+      "eval_samples_per_second": 10.6,
+      "eval_steps_per_second": 2.65,
+      "step": 50
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 0.23818876822125845,
+      "learning_rate": 0.0001819152044288992,
+      "loss": 0.5796,
+      "step": 55
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.5595570206642151,
+      "eval_runtime": 1.8863,
+      "eval_samples_per_second": 10.603,
+      "eval_steps_per_second": 2.651,
+      "step": 55
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.23628589389483673,
+      "learning_rate": 0.0001766044443118978,
+      "loss": 0.582,
+      "step": 60
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.5542594194412231,
+      "eval_runtime": 1.8854,
+      "eval_samples_per_second": 10.608,
+      "eval_steps_per_second": 2.652,
+      "step": 60
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.23056898031828738,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 0.5793,
+      "step": 65
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.5517722964286804,
+      "eval_runtime": 1.8887,
+      "eval_samples_per_second": 10.589,
+      "eval_steps_per_second": 2.647,
+      "step": 65
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.28466424696078446,
+      "learning_rate": 0.00016427876096865394,
+      "loss": 0.4974,
+      "step": 70
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.555589497089386,
+      "eval_runtime": 1.8931,
+      "eval_samples_per_second": 10.564,
+      "eval_steps_per_second": 2.641,
+      "step": 70
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.23423380737967384,
+      "learning_rate": 0.0001573576436351046,
+      "loss": 0.5791,
+      "step": 75
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.5543732643127441,
+      "eval_runtime": 1.8851,
+      "eval_samples_per_second": 10.61,
+      "eval_steps_per_second": 2.652,
+      "step": 75
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.21845424948025258,
+      "learning_rate": 0.00015000000000000001,
+      "loss": 0.5484,
+      "step": 80
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.5517922639846802,
+      "eval_runtime": 1.8903,
+      "eval_samples_per_second": 10.581,
+      "eval_steps_per_second": 2.645,
+      "step": 80
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.21666619387725577,
+      "learning_rate": 0.00014226182617406996,
+      "loss": 0.5611,
+      "step": 85
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.550040602684021,
+      "eval_runtime": 1.8866,
+      "eval_samples_per_second": 10.601,
+      "eval_steps_per_second": 2.65,
+      "step": 85
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.23843457677303798,
+      "learning_rate": 0.00013420201433256689,
+      "loss": 0.5736,
+      "step": 90
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.5473921895027161,
+      "eval_runtime": 1.8892,
+      "eval_samples_per_second": 10.587,
+      "eval_steps_per_second": 2.647,
+      "step": 90
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.24501294645887348,
+      "learning_rate": 0.00012588190451025207,
+      "loss": 0.5269,
+      "step": 95
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.5490081906318665,
+      "eval_runtime": 1.8873,
+      "eval_samples_per_second": 10.597,
+      "eval_steps_per_second": 2.649,
+      "step": 95
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.22278557053233525,
+      "learning_rate": 0.00011736481776669306,
+      "loss": 0.58,
+      "step": 100
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 0.5484501123428345,
+      "eval_runtime": 1.8854,
+      "eval_samples_per_second": 10.608,
+      "eval_steps_per_second": 2.652,
+      "step": 100
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.23174799050411005,
+      "learning_rate": 0.00010871557427476583,
+      "loss": 0.5295,
+      "step": 105
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.5476487874984741,
+      "eval_runtime": 1.8895,
+      "eval_samples_per_second": 10.585,
+      "eval_steps_per_second": 2.646,
+      "step": 105
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.2376662083429967,
+      "learning_rate": 0.0001,
+      "loss": 0.5124,
+      "step": 110
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.5447433590888977,
+      "eval_runtime": 1.8818,
+      "eval_samples_per_second": 10.628,
+      "eval_steps_per_second": 2.657,
+      "step": 110
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.24948598862935448,
+      "learning_rate": 9.128442572523417e-05,
+      "loss": 0.5368,
+      "step": 115
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 0.5408658385276794,
+      "eval_runtime": 1.8862,
+      "eval_samples_per_second": 10.604,
+      "eval_steps_per_second": 2.651,
+      "step": 115
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.2285562749319789,
+      "learning_rate": 8.263518223330697e-05,
+      "loss": 0.5705,
+      "step": 120
+    },
+    {
+      "epoch": 0.96,
+      "eval_loss": 0.5408440232276917,
+      "eval_runtime": 1.8858,
+      "eval_samples_per_second": 10.606,
+      "eval_steps_per_second": 2.651,
+      "step": 120
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.27136795405571645,
+      "learning_rate": 7.411809548974792e-05,
+      "loss": 0.5244,
+      "step": 125
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.5394060015678406,
+      "eval_runtime": 1.8816,
+      "eval_samples_per_second": 10.629,
+      "eval_steps_per_second": 2.657,
+      "step": 125
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.19917020746884295,
+      "learning_rate": 6.579798566743314e-05,
+      "loss": 0.4334,
+      "step": 130
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.5401565432548523,
+      "eval_runtime": 1.8887,
+      "eval_samples_per_second": 10.589,
+      "eval_steps_per_second": 2.647,
+      "step": 130
+    },
+    {
+      "epoch": 1.08,
+      "grad_norm": 0.21927162891543134,
+      "learning_rate": 5.773817382593008e-05,
+      "loss": 0.5256,
+      "step": 135
+    },
+    {
+      "epoch": 1.08,
+      "eval_loss": 0.5424562692642212,
+      "eval_runtime": 1.8888,
+      "eval_samples_per_second": 10.589,
+      "eval_steps_per_second": 2.647,
+      "step": 135
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 0.20576619497891951,
+      "learning_rate": 5.000000000000002e-05,
+      "loss": 0.4398,
+      "step": 140
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.5464188456535339,
+      "eval_runtime": 1.8869,
+      "eval_samples_per_second": 10.6,
+      "eval_steps_per_second": 2.65,
+      "step": 140
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 0.26759310868105435,
+      "learning_rate": 4.264235636489542e-05,
+      "loss": 0.4843,
+      "step": 145
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.5471861362457275,
+      "eval_runtime": 1.9257,
+      "eval_samples_per_second": 10.386,
+      "eval_steps_per_second": 2.596,
+      "step": 145
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.2211439036624294,
+      "learning_rate": 3.5721239031346066e-05,
+      "loss": 0.4437,
+      "step": 150
+    },
+    {
+      "epoch": 1.2,
+      "eval_loss": 0.5457112193107605,
+      "eval_runtime": 1.891,
+      "eval_samples_per_second": 10.576,
+      "eval_steps_per_second": 2.644,
+      "step": 150
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 0.23481942059415437,
+      "learning_rate": 2.9289321881345254e-05,
+      "loss": 0.5133,
+      "step": 155
+    },
+    {
+      "epoch": 1.24,
+      "eval_loss": 0.5448678135871887,
+      "eval_runtime": 1.8917,
+      "eval_samples_per_second": 10.573,
+      "eval_steps_per_second": 2.643,
+      "step": 155
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.2678076401010754,
+      "learning_rate": 2.339555568810221e-05,
+      "loss": 0.497,
+      "step": 160
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.5427194833755493,
+      "eval_runtime": 1.8926,
+      "eval_samples_per_second": 10.567,
+      "eval_steps_per_second": 2.642,
+      "step": 160
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 0.2796679737048467,
+      "learning_rate": 1.808479557110081e-05,
+      "loss": 0.4682,
+      "step": 165
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.5419761538505554,
+      "eval_runtime": 1.8898,
+      "eval_samples_per_second": 10.583,
+      "eval_steps_per_second": 2.646,
+      "step": 165
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 0.2306569559526473,
+      "learning_rate": 1.339745962155613e-05,
+      "loss": 0.4872,
+      "step": 170
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "eval_loss": 0.5414702296257019,
+      "eval_runtime": 1.8927,
+      "eval_samples_per_second": 10.567,
+      "eval_steps_per_second": 2.642,
+      "step": 170
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 0.24703640202499294,
+      "learning_rate": 9.369221296335006e-06,
+      "loss": 0.4763,
+      "step": 175
+    },
+    {
+      "epoch": 1.4,
+      "eval_loss": 0.5412562489509583,
+      "eval_runtime": 1.8941,
+      "eval_samples_per_second": 10.559,
+      "eval_steps_per_second": 2.64,
+      "step": 175
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.20649027994314437,
+      "learning_rate": 6.030737921409169e-06,
+      "loss": 0.4647,
+      "step": 180
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.541702926158905,
+      "eval_runtime": 1.8843,
+      "eval_samples_per_second": 10.614,
+      "eval_steps_per_second": 2.654,
+      "step": 180
+    },
+    {
+      "epoch": 1.48,
+      "grad_norm": 0.2674278078306123,
+      "learning_rate": 3.40741737109318e-06,
+      "loss": 0.4679,
+      "step": 185
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.541742205619812,
+      "eval_runtime": 1.8898,
+      "eval_samples_per_second": 10.583,
+      "eval_steps_per_second": 2.646,
+      "step": 185
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 0.25453255319861695,
+      "learning_rate": 1.5192246987791981e-06,
+      "loss": 0.476,
+      "step": 190
+    },
+    {
+      "epoch": 1.52,
+      "eval_loss": 0.5414270162582397,
+      "eval_runtime": 1.8892,
+      "eval_samples_per_second": 10.586,
+      "eval_steps_per_second": 2.647,
+      "step": 190
+    },
+    {
+      "epoch": 1.56,
+      "grad_norm": 0.26036244527725116,
+      "learning_rate": 3.805301908254455e-07,
+      "loss": 0.462,
+      "step": 195
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.5414429903030396,
+      "eval_runtime": 1.8932,
+      "eval_samples_per_second": 10.564,
+      "eval_steps_per_second": 2.641,
+      "step": 195
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.23115347129847905,
+      "learning_rate": 0.0,
+      "loss": 0.4665,
+      "step": 200
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.5413893461227417,
+      "eval_runtime": 1.8908,
+      "eval_samples_per_second": 10.577,
+      "eval_steps_per_second": 2.644,
+      "step": 200
+    },
+    {
+      "epoch": 1.6,
+      "step": 200,
+      "total_flos": 11601719820288.0,
+      "train_loss": 0.5555729389190673,
+      "train_runtime": 622.2423,
+      "train_samples_per_second": 2.571,
+      "train_steps_per_second": 0.321
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 11601719820288.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}