Model save

Browse files

Files changed (11) hide show

README.md +81 -0
adapter_model.safetensors +1 -1
all_results.json +21 -0
eval_results.json +16 -0
runs/Feb17_06-00-13_586cb8b6da8c/events.out.tfevents.1708149717.586cb8b6da8c.6725.0 +2 -2
runs/Feb19_15-17-29_586cb8b6da8c/events.out.tfevents.1708355952.586cb8b6da8c.7306.0 +3 -0
runs/Feb19_15-21-21_586cb8b6da8c/events.out.tfevents.1708356184.586cb8b6da8c.7413.0 +3 -0
runs/Feb19_15-21-21_586cb8b6da8c/events.out.tfevents.1708356189.586cb8b6da8c.7413.1 +3 -0
train_results.json +8 -0
trainer_state.json +0 -0
training_args.bin +1 -1

README.md ADDED Viewed

	@@ -0,0 +1,81 @@

+---
+license: apache-2.0
+library_name: peft
+tags:
+- trl
+- dpo
+- generated_from_trainer
+base_model: alignment-handbook/zephyr-7b-sft-full
+model-index:
+- name: zephyr-7b-dpo-selfgen
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-dpo-selfgen
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.0000
+- Rewards/chosen: -6.6466
+- Rewards/rejected: -19.5106
+- Rewards/accuracies: 1.0
+- Rewards/margins: 12.8639
+- Logps/rejected: -1996.6047
+- Logps/chosen: -731.7379
+- Logits/rejected: -2.0588
+- Logits/chosen: -2.4883
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-06
+- train_batch_size: 2
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 8
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch | Step  | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
+|:-------------:|:-----:|:-----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
+| 0.0241        | 0.42  | 7000  | -2.8328       | -2.8312         | -143.5124    | -856.1008      | 0.0101          | 1.0                | -0.7644        | 7.3411          | -8.1055          |
+| 0.0001        | 0.83  | 14000 | -2.3450       | -1.9435         | -714.5292    | -1741.5647     | 0.0002          | 1.0                | -6.4745        | 10.4856         | -16.9602         |
+| 0.0003        | 1.25  | 21000 | -2.4293       | -2.0264         | -695.5377    | -1973.5151     | 0.0001          | 1.0                | -6.2846        | 12.9950         | -19.2797         |
+| 0.0           | 1.67  | 28000 | -2.5393       | -2.1793         | -619.2334    | -1821.8682     | 0.0001          | 1.0                | -5.5216        | 12.2416         | -17.7632         |
+| 0.0001        | 2.09  | 35000 | -2.4633       | -1.9800         | -817.4478    | -2071.8862     | 0.0000          | 1.0                | -7.5037        | 12.7596         | -20.2634         |
+| 0.0           | 2.5   | 42000 | -2.4883       | -2.0593         | -730.7642    | -2000.8484     | 0.0000          | 1.0                | -6.6369        | 12.9161         | -19.5530         |
+| 0.0001        | 2.92  | 49000 | -2.4895       | -2.0591         | -732.9475    | -1999.9326     | 0.0000          | 1.0                | -6.6587        | 12.8851         | -19.5438         |
+### Framework versions
+- PEFT 0.7.1
+- Transformers 4.36.2
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fed9feb9660c79541e4f7d840b782f1007830b67bfe2e0c1bc0e52620e9a8af1
 size 83946192

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3c4aba4f624a5d2286c1af771b09fbf8375644a29a54e000ce1707bb811672a
 size 83946192

all_results.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "epoch": 3.0,
+    "eval_logits/chosen": -2.4882912635803223,
+    "eval_logits/rejected": -2.058779001235962,
+    "eval_logps/chosen": -731.7378540039062,
+    "eval_logps/rejected": -1996.604736328125,
+    "eval_loss": 3.1195009796647355e-05,
+    "eval_rewards/accuracies": 1.0,
+    "eval_rewards/chosen": -6.646634101867676,
+    "eval_rewards/margins": 12.863931655883789,
+    "eval_rewards/rejected": -19.51056480407715,
+    "eval_runtime": 4.5785,
+    "eval_samples": 5,
+    "eval_samples_per_second": 1.092,
+    "eval_steps_per_second": 0.218,
+    "train_loss": 0.0,
+    "train_runtime": 0.0617,
+    "train_samples": 134157,
+    "train_samples_per_second": 6527181.256,
+    "train_steps_per_second": 815915.902
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 3.0,
+    "eval_logits/chosen": -2.4882912635803223,
+    "eval_logits/rejected": -2.058779001235962,
+    "eval_logps/chosen": -731.7378540039062,
+    "eval_logps/rejected": -1996.604736328125,
+    "eval_loss": 3.1195009796647355e-05,
+    "eval_rewards/accuracies": 1.0,
+    "eval_rewards/chosen": -6.646634101867676,
+    "eval_rewards/margins": 12.863931655883789,
+    "eval_rewards/rejected": -19.51056480407715,
+    "eval_runtime": 4.5785,
+    "eval_samples": 5,
+    "eval_samples_per_second": 1.092,
+    "eval_steps_per_second": 0.218
+}

runs/Feb17_06-00-13_586cb8b6da8c/events.out.tfevents.1708149717.586cb8b6da8c.6725.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7b8ba58c5d9ea0b19acc17b6306d60366fcb53f8d7849a417b11cfefdda48a6
-size 3128162

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdc8ce747bcf9ccb9ed38169256ecfcba6ef64db63e3fea28274482c57b72d4b
+size 3237635

runs/Feb19_15-17-29_586cb8b6da8c/events.out.tfevents.1708355952.586cb8b6da8c.7306.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e4ef1da8969e62e00f02ffb26062114a618392759c5e4889d8d11710778dcf7
+size 4922

runs/Feb19_15-21-21_586cb8b6da8c/events.out.tfevents.1708356184.586cb8b6da8c.7413.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e8a86ccc5830948f3ab95b9d739ea7beaa4137f8a503b7f0b3598bea7d661a9
+size 4922

runs/Feb19_15-21-21_586cb8b6da8c/events.out.tfevents.1708356189.586cb8b6da8c.7413.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a704804a70eb9a16ed585b9bf3634cf4df63d3d3008e5e18a8dd011691429b2b
+size 841

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.0,
+    "train_runtime": 0.0617,
+    "train_samples": 134157,
+    "train_samples_per_second": 6527181.256,
+    "train_steps_per_second": 815915.902
+}

trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:341f4436f67e1ed83a11ac2b26478385b031fe4ce66193ac7d0f2c822f5e5bb5
 size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:968c952e8a64d00415def5b84eb67205d6d93d788281eac4b631b0ef3a5f9357
 size 4856