Model save

Browse files

Files changed (6) hide show

README.md +78 -0
adapter_model.safetensors +1 -1
all_results.json +9 -0
runs/Jun05_04-49-43_7bdd13775218/events.out.tfevents.1717563008.7bdd13775218.65724.0 +2 -2
train_results.json +9 -0
trainer_state.json +481 -0

README.md ADDED Viewed

	@@ -0,0 +1,78 @@

+---
+license: gemma
+library_name: peft
+tags:
+- trl
+- sft
+- generated_from_trainer
+base_model: google/gemma-2b
+datasets:
+- generator
+model-index:
+- name: gemma2b-summarize-gemini1_5flash-16k
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gemma2b-summarize-gemini1_5flash-16k
+This model is a fine-tuned version of [google/gemma-2b](https://huggingface.co/google/gemma-2b) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 2.5319
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 64
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 10
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss |
+|:-------------:|:------:|:----:|:---------------:|
+| 2.0246        | 0.9811 | 26   | 2.6613          |
+| 1.3202        | 2.0    | 53   | 2.5405          |
+| 1.1694        | 2.9811 | 79   | 2.5125          |
+| 1.1076        | 4.0    | 106  | 2.5138          |
+| 1.0651        | 4.9811 | 132  | 2.5086          |
+| 1.0394        | 6.0    | 159  | 2.5248          |
+| 1.0232        | 6.9811 | 185  | 2.5264          |
+| 1.0042        | 8.0    | 212  | 2.5296          |
+| 1.0109        | 8.9811 | 238  | 2.5319          |
+| 1.0064        | 9.8113 | 260  | 2.5319          |
+### Framework versions
+- PEFT 0.11.1
+- Transformers 4.40.1
+- Pytorch 2.2.0+cu121
+- Datasets 2.19.2
+- Tokenizers 0.19.1

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bea73046909a36a0f3f061bf594abff0ea9319ce6157e94affcb4bb0f2e6a920
 size 19644912

 version https://git-lfs.github.com/spec/v1
+oid sha256:79b70f18c4af19c965e4d7c9e04deee30ece50282b284efbf0667a6a9c1881fa
 size 19644912

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 9.81132075471698,
+    "total_flos": 2.036227620470784e+17,
+    "train_loss": 1.2490827266986553,
+    "train_runtime": 901.3115,
+    "train_samples": 15838,
+    "train_samples_per_second": 18.473,
+    "train_steps_per_second": 0.288
+}

runs/Jun05_04-49-43_7bdd13775218/events.out.tfevents.1717563008.7bdd13775218.65724.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42b0e4ea335874c2b0a58d86c639f1204e7e731767e0458c578323b8980ec9b7
-size 15875

 version https://git-lfs.github.com/spec/v1
+oid sha256:340e67d08b3b4552c6494647e9389e92528a94053c0f990226be010a0a3fc6b6
+size 19574

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 9.81132075471698,
+    "total_flos": 2.036227620470784e+17,
+    "train_loss": 1.2490827266986553,
+    "train_runtime": 901.3115,
+    "train_samples": 15838,
+    "train_samples_per_second": 18.473,
+    "train_steps_per_second": 0.288
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,481 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.81132075471698,
+  "eval_steps": 500,
+  "global_step": 260,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03773584905660377,
+      "grad_norm": 1.984375,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 2.9895,
+      "step": 1
+    },
+    {
+      "epoch": 0.18867924528301888,
+      "grad_norm": 2.3125,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 3.0316,
+      "step": 5
+    },
+    {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 1.7265625,
+      "learning_rate": 7.692307692307693e-05,
+      "loss": 2.9227,
+      "step": 10
+    },
+    {
+      "epoch": 0.5660377358490566,
+      "grad_norm": 1.4921875,
+      "learning_rate": 0.00011538461538461538,
+      "loss": 2.5841,
+      "step": 15
+    },
+    {
+      "epoch": 0.7547169811320755,
+      "grad_norm": 1.4453125,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 2.3138,
+      "step": 20
+    },
+    {
+      "epoch": 0.9433962264150944,
+      "grad_norm": 1.1640625,
+      "learning_rate": 0.00019230769230769233,
+      "loss": 2.0246,
+      "step": 25
+    },
+    {
+      "epoch": 0.9811320754716981,
+      "eval_loss": 2.6613192558288574,
+      "eval_runtime": 0.7072,
+      "eval_samples_per_second": 14.139,
+      "eval_steps_per_second": 1.414,
+      "step": 26
+    },
+    {
+      "epoch": 1.1320754716981132,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.00019985583705641418,
+      "loss": 1.7376,
+      "step": 30
+    },
+    {
+      "epoch": 1.320754716981132,
+      "grad_norm": 0.466796875,
+      "learning_rate": 0.0001992708874098054,
+      "loss": 1.5704,
+      "step": 35
+    },
+    {
+      "epoch": 1.509433962264151,
+      "grad_norm": 0.498046875,
+      "learning_rate": 0.00019823877374156647,
+      "loss": 1.4624,
+      "step": 40
+    },
+    {
+      "epoch": 1.6981132075471699,
+      "grad_norm": 0.390625,
+      "learning_rate": 0.00019676414519013781,
+      "loss": 1.3792,
+      "step": 45
+    },
+    {
+      "epoch": 1.8867924528301887,
+      "grad_norm": 0.333984375,
+      "learning_rate": 0.00019485364419471454,
+      "loss": 1.3202,
+      "step": 50
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.540452480316162,
+      "eval_runtime": 0.5421,
+      "eval_samples_per_second": 18.446,
+      "eval_steps_per_second": 1.845,
+      "step": 53
+    },
+    {
+      "epoch": 2.0754716981132075,
+      "grad_norm": 0.2314453125,
+      "learning_rate": 0.00019251587657449236,
+      "loss": 1.2675,
+      "step": 55
+    },
+    {
+      "epoch": 2.2641509433962264,
+      "grad_norm": 0.2421875,
+      "learning_rate": 0.0001897613727639014,
+      "loss": 1.2218,
+      "step": 60
+    },
+    {
+      "epoch": 2.452830188679245,
+      "grad_norm": 0.298828125,
+      "learning_rate": 0.00018660254037844388,
+      "loss": 1.2149,
+      "step": 65
+    },
+    {
+      "epoch": 2.641509433962264,
+      "grad_norm": 0.546875,
+      "learning_rate": 0.00018305360832480117,
+      "loss": 1.179,
+      "step": 70
+    },
+    {
+      "epoch": 2.830188679245283,
+      "grad_norm": 0.369140625,
+      "learning_rate": 0.0001791305627069662,
+      "loss": 1.1694,
+      "step": 75
+    },
+    {
+      "epoch": 2.981132075471698,
+      "eval_loss": 2.5124902725219727,
+      "eval_runtime": 0.6642,
+      "eval_samples_per_second": 15.055,
+      "eval_steps_per_second": 1.506,
+      "step": 79
+    },
+    {
+      "epoch": 3.018867924528302,
+      "grad_norm": 0.275390625,
+      "learning_rate": 0.00017485107481711012,
+      "loss": 1.1675,
+      "step": 80
+    },
+    {
+      "epoch": 3.207547169811321,
+      "grad_norm": 0.53515625,
+      "learning_rate": 0.00017023442153554777,
+      "loss": 1.1345,
+      "step": 85
+    },
+    {
+      "epoch": 3.3962264150943398,
+      "grad_norm": 0.482421875,
+      "learning_rate": 0.0001653013984983585,
+      "loss": 1.1304,
+      "step": 90
+    },
+    {
+      "epoch": 3.5849056603773586,
+      "grad_norm": 0.421875,
+      "learning_rate": 0.0001600742264237979,
+      "loss": 1.1194,
+      "step": 95
+    },
+    {
+      "epoch": 3.7735849056603774,
+      "grad_norm": 0.322265625,
+      "learning_rate": 0.00015457645101945046,
+      "loss": 1.0993,
+      "step": 100
+    },
+    {
+      "epoch": 3.9622641509433962,
+      "grad_norm": 0.25390625,
+      "learning_rate": 0.00014883283692099112,
+      "loss": 1.1076,
+      "step": 105
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 2.5138261318206787,
+      "eval_runtime": 0.5374,
+      "eval_samples_per_second": 18.609,
+      "eval_steps_per_second": 1.861,
+      "step": 106
+    },
+    {
+      "epoch": 4.150943396226415,
+      "grad_norm": 0.2451171875,
+      "learning_rate": 0.00014286925614030542,
+      "loss": 1.0832,
+      "step": 110
+    },
+    {
+      "epoch": 4.339622641509434,
+      "grad_norm": 0.26953125,
+      "learning_rate": 0.00013671257152545277,
+      "loss": 1.0718,
+      "step": 115
+    },
+    {
+      "epoch": 4.528301886792453,
+      "grad_norm": 0.416015625,
+      "learning_rate": 0.0001303905157574247,
+      "loss": 1.0737,
+      "step": 120
+    },
+    {
+      "epoch": 4.716981132075472,
+      "grad_norm": 0.27734375,
+      "learning_rate": 0.0001239315664287558,
+      "loss": 1.0708,
+      "step": 125
+    },
+    {
+      "epoch": 4.90566037735849,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.00011736481776669306,
+      "loss": 1.0651,
+      "step": 130
+    },
+    {
+      "epoch": 4.981132075471698,
+      "eval_loss": 2.5085928440093994,
+      "eval_runtime": 0.6726,
+      "eval_samples_per_second": 14.868,
+      "eval_steps_per_second": 1.487,
+      "step": 132
+    },
+    {
+      "epoch": 5.09433962264151,
+      "grad_norm": 0.388671875,
+      "learning_rate": 0.00011071984957874479,
+      "loss": 1.055,
+      "step": 135
+    },
+    {
+      "epoch": 5.283018867924528,
+      "grad_norm": 0.4296875,
+      "learning_rate": 0.00010402659401094152,
+      "loss": 1.0371,
+      "step": 140
+    },
+    {
+      "epoch": 5.471698113207547,
+      "grad_norm": 0.271484375,
+      "learning_rate": 9.73152007189939e-05,
+      "loss": 1.0452,
+      "step": 145
+    },
+    {
+      "epoch": 5.660377358490566,
+      "grad_norm": 0.263671875,
+      "learning_rate": 9.061590105968208e-05,
+      "loss": 1.0461,
+      "step": 150
+    },
+    {
+      "epoch": 5.849056603773585,
+      "grad_norm": 0.271484375,
+      "learning_rate": 8.395887191422397e-05,
+      "loss": 1.0394,
+      "step": 155
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 2.5248091220855713,
+      "eval_runtime": 0.5366,
+      "eval_samples_per_second": 18.636,
+      "eval_steps_per_second": 1.864,
+      "step": 159
+    },
+    {
+      "epoch": 6.037735849056604,
+      "grad_norm": 0.314453125,
+      "learning_rate": 7.73740997570278e-05,
+      "loss": 1.0302,
+      "step": 160
+    },
+    {
+      "epoch": 6.226415094339623,
+      "grad_norm": 0.29296875,
+      "learning_rate": 7.089124558212871e-05,
+      "loss": 1.0164,
+      "step": 165
+    },
+    {
+      "epoch": 6.415094339622642,
+      "grad_norm": 0.27734375,
+      "learning_rate": 6.453951129574644e-05,
+      "loss": 1.0265,
+      "step": 170
+    },
+    {
+      "epoch": 6.60377358490566,
+      "grad_norm": 0.359375,
+      "learning_rate": 5.834750817679606e-05,
+      "loss": 1.019,
+      "step": 175
+    },
+    {
+      "epoch": 6.7924528301886795,
+      "grad_norm": 0.283203125,
+      "learning_rate": 5.234312799786921e-05,
+      "loss": 1.0159,
+      "step": 180
+    },
+    {
+      "epoch": 6.981132075471698,
+      "grad_norm": 0.275390625,
+      "learning_rate": 4.6553417387219886e-05,
+      "loss": 1.0232,
+      "step": 185
+    },
+    {
+      "epoch": 6.981132075471698,
+      "eval_loss": 2.526435136795044,
+      "eval_runtime": 0.6455,
+      "eval_samples_per_second": 15.492,
+      "eval_steps_per_second": 1.549,
+      "step": 185
+    },
+    {
+      "epoch": 7.169811320754717,
+      "grad_norm": 0.296875,
+      "learning_rate": 4.100445599768774e-05,
+      "loss": 1.0125,
+      "step": 190
+    },
+    {
+      "epoch": 7.3584905660377355,
+      "grad_norm": 0.2734375,
+      "learning_rate": 3.5721239031346066e-05,
+      "loss": 1.0212,
+      "step": 195
+    },
+    {
+      "epoch": 7.547169811320755,
+      "grad_norm": 0.294921875,
+      "learning_rate": 3.072756464904006e-05,
+      "loss": 1.0052,
+      "step": 200
+    },
+    {
+      "epoch": 7.735849056603773,
+      "grad_norm": 0.265625,
+      "learning_rate": 2.6045926771976303e-05,
+      "loss": 1.0067,
+      "step": 205
+    },
+    {
+      "epoch": 7.9245283018867925,
+      "grad_norm": 0.267578125,
+      "learning_rate": 2.1697413758237784e-05,
+      "loss": 1.0042,
+      "step": 210
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 2.5296316146850586,
+      "eval_runtime": 0.534,
+      "eval_samples_per_second": 18.728,
+      "eval_steps_per_second": 1.873,
+      "step": 212
+    },
+    {
+      "epoch": 8.11320754716981,
+      "grad_norm": 0.3203125,
+      "learning_rate": 1.7701613410634365e-05,
+      "loss": 1.0077,
+      "step": 215
+    },
+    {
+      "epoch": 8.30188679245283,
+      "grad_norm": 0.271484375,
+      "learning_rate": 1.4076524743778319e-05,
+      "loss": 0.999,
+      "step": 220
+    },
+    {
+      "epoch": 8.49056603773585,
+      "grad_norm": 0.27734375,
+      "learning_rate": 1.083847690782972e-05,
+      "loss": 1.0027,
+      "step": 225
+    },
+    {
+      "epoch": 8.679245283018869,
+      "grad_norm": 0.26953125,
+      "learning_rate": 8.002055634117578e-06,
+      "loss": 0.9984,
+      "step": 230
+    },
+    {
+      "epoch": 8.867924528301886,
+      "grad_norm": 0.271484375,
+      "learning_rate": 5.580037533961546e-06,
+      "loss": 1.0109,
+      "step": 235
+    },
+    {
+      "epoch": 8.981132075471699,
+      "eval_loss": 2.531932830810547,
+      "eval_runtime": 0.6509,
+      "eval_samples_per_second": 15.363,
+      "eval_steps_per_second": 1.536,
+      "step": 238
+    },
+    {
+      "epoch": 9.056603773584905,
+      "grad_norm": 0.259765625,
+      "learning_rate": 3.5833325466437694e-06,
+      "loss": 1.0008,
+      "step": 240
+    },
+    {
+      "epoch": 9.245283018867925,
+      "grad_norm": 0.259765625,
+      "learning_rate": 2.0209347957732328e-06,
+      "loss": 1.0094,
+      "step": 245
+    },
+    {
+      "epoch": 9.433962264150944,
+      "grad_norm": 0.283203125,
+      "learning_rate": 8.998820754091531e-07,
+      "loss": 0.9987,
+      "step": 250
+    },
+    {
+      "epoch": 9.622641509433961,
+      "grad_norm": 0.255859375,
+      "learning_rate": 2.2522414843748618e-07,
+      "loss": 1.0006,
+      "step": 255
+    },
+    {
+      "epoch": 9.81132075471698,
+      "grad_norm": 0.263671875,
+      "learning_rate": 0.0,
+      "loss": 1.0064,
+      "step": 260
+    },
+    {
+      "epoch": 9.81132075471698,
+      "eval_loss": 2.531856060028076,
+      "eval_runtime": 0.5289,
+      "eval_samples_per_second": 18.906,
+      "eval_steps_per_second": 1.891,
+      "step": 260
+    },
+    {
+      "epoch": 9.81132075471698,
+      "step": 260,
+      "total_flos": 2.036227620470784e+17,
+      "train_loss": 1.2490827266986553,
+      "train_runtime": 901.3115,
+      "train_samples_per_second": 18.473,
+      "train_steps_per_second": 0.288
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 260,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 100,
+  "total_flos": 2.036227620470784e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}