Model save

Browse files

Files changed (12) hide show

README.md +3 -2
all_results.json +5 -4
config.json +2 -1
generation_config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
tokenizer.json +1 -0
tokenizer_config.json +2 -1
train_results.json +5 -4
trainer_state.json +98 -60
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -13,6 +13,7 @@ model-index:
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
 # zephyr-7b-dpo-full
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
@@ -54,7 +55,7 @@ The following hyperparameters were used during training:
 ### Framework versions
-- Transformers 4.35.2
 - Pytorch 2.1.2+cu121
 - Datasets 2.14.6
-- Tokenizers 0.14.1

 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="200" height="32"/>](https://wandb.ai/sanqiang/wdpo/runs/h1ajp915)
 # zephyr-7b-dpo-full
 This model is a fine-tuned version of [HuggingFaceH4/mistral-7b-sft-beta](https://huggingface.co/HuggingFaceH4/mistral-7b-sft-beta) on the None dataset.
 ### Framework versions
+- Transformers 4.41.0.dev0
 - Pytorch 2.1.2+cu121
 - Datasets 2.14.6
+- Tokenizers 0.19.1

all_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.6385756753525644,
-    "train_runtime": 422.4133,
     "train_samples": 6750,
-    "train_samples_per_second": 15.98,
-    "train_steps_per_second": 0.125
 }

 {
     "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.35319842594974443,
+    "train_runtime": 385.1956,
     "train_samples": 6750,
+    "train_samples_per_second": 17.524,
+    "train_steps_per_second": 0.138
 }

config.json CHANGED Viewed

@@ -3,6 +3,7 @@
   "architectures": [
     "MistralForCausalLM"
   ],
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
@@ -19,7 +20,7 @@
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.35.2",
   "use_cache": false,
   "vocab_size": 32000
 }

   "architectures": [
     "MistralForCausalLM"
   ],
+  "attention_dropout": 0.0,
   "bos_token_id": 1,
   "eos_token_id": 2,
   "hidden_act": "silu",
   "sliding_window": 4096,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.41.0.dev0",
   "use_cache": false,
   "vocab_size": 32000
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
-  "transformers_version": "4.35.2"
 }

   "_from_model_config": true,
   "bos_token_id": 1,
   "eos_token_id": 2,
+  "transformers_version": "4.41.0.dev0"
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c5eccf170cb2807dafed373e6970a49edaa5ad3f88e5e35e03e143abba6dcb2
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5bd9c84e12897714bb059b0d34b3405acb56dee326a24d387c5ed9e074087ec
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7cb9a2089e1f16a8ba2daaa3b1a78b5e41b35c6b1086cfa84a7c364f26c2418
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:6279da6e32757cc13c89a3f5b1c28dffe48b0cab5c7f7102e9b34e53c3692ad9
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a44cd1f203562bd6cb7aff11086c30c740baefe049f30b9c91acb227c1de6938
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e80e298dbd33ad03a2a8eb1dd41c314d2e5c5e7f1c09a8ebaa304197676e361
 size 4540516344

tokenizer.json CHANGED Viewed

@@ -134,6 +134,7 @@
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
+    "ignore_merges": false,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,4 +1,6 @@
 {
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",
@@ -34,7 +36,6 @@
   "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
-  "legacy": true,
   "model_max_length": 2048,
   "pad_token": "</s>",
   "sp_model_kwargs": {},

 {
+  "add_bos_token": true,
+  "add_eos_token": false,
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",
   "chat_template": "{% for message in messages %}\n{% if message['role'] == 'user' %}\n{{ '<|user|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'system' %}\n{{ '<|system|>\n' + message['content'] + eos_token }}\n{% elif message['role'] == 'assistant' %}\n{{ '<|assistant|>\n'  + message['content'] + eos_token }}\n{% endif %}\n{% if loop.last and add_generation_prompt %}\n{{ '<|assistant|>' }}\n{% endif %}\n{% endfor %}",
   "clean_up_tokenization_spaces": false,
   "eos_token": "</s>",
   "model_max_length": 2048,
   "pad_token": "</s>",
   "sp_model_kwargs": {},

train_results.json CHANGED Viewed

@@ -1,8 +1,9 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.6385756753525644,
-    "train_runtime": 422.4133,
     "train_samples": 6750,
-    "train_samples_per_second": 15.98,
-    "train_steps_per_second": 0.125
 }

 {
     "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.35319842594974443,
+    "train_runtime": 385.1956,
     "train_samples": 6750,
+    "train_samples_per_second": 17.524,
+    "train_steps_per_second": 0.138
 }

trainer_state.json CHANGED Viewed

@@ -9,13 +9,17 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02,
       "learning_rate": 8.333333333333333e-08,
-      "logits/chosen": -2.8462421894073486,
-      "logits/rejected": -2.8283610343933105,
-      "logps/chosen": -274.7393798828125,
-      "logps/rejected": -204.42575073242188,
-      "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
@@ -23,90 +27,124 @@
       "step": 1
     },
     {
-      "epoch": 0.19,
       "learning_rate": 4.911172937635942e-07,
-      "logits/chosen": -2.8527991771698,
-      "logits/rejected": -2.8377315998077393,
-      "logps/chosen": -305.9073181152344,
-      "logps/rejected": -295.8478698730469,
-      "loss": 0.6914,
-      "rewards/accuracies": 0.4513888955116272,
-      "rewards/chosen": 0.0023197412956506014,
-      "rewards/margins": 0.0025084479711949825,
-      "rewards/rejected": -0.00018870655912905931,
       "step": 10
     },
     {
-      "epoch": 0.38,
       "learning_rate": 3.982949361823388e-07,
-      "logits/chosen": -2.859750270843506,
-      "logits/rejected": -2.880180835723877,
-      "logps/chosen": -295.7957458496094,
-      "logps/rejected": -332.6015930175781,
-      "loss": 0.6653,
-      "rewards/accuracies": 0.675000011920929,
-      "rewards/chosen": 0.02228003740310669,
-      "rewards/margins": 0.059415679425001144,
-      "rewards/rejected": -0.037135638296604156,
       "step": 20
     },
     {
-      "epoch": 0.57,
       "learning_rate": 2.416462557480814e-07,
-      "logits/chosen": -2.843632936477661,
-      "logits/rejected": -2.8286781311035156,
-      "logps/chosen": -310.9751892089844,
-      "logps/rejected": -322.77532958984375,
-      "loss": 0.6283,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.027804672718048096,
-      "rewards/margins": 0.1940310001373291,
-      "rewards/rejected": -0.1662263423204422,
       "step": 30
     },
     {
-      "epoch": 0.75,
       "learning_rate": 8.859303711029939e-08,
-      "logits/chosen": -2.8175368309020996,
-      "logits/rejected": -2.821326494216919,
-      "logps/chosen": -274.8536682128906,
-      "logps/rejected": -349.11505126953125,
-      "loss": 0.6099,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": 0.002673505572602153,
-      "rewards/margins": 0.2130366563796997,
-      "rewards/rejected": -0.21036314964294434,
       "step": 40
     },
     {
-      "epoch": 0.94,
       "learning_rate": 5.009573740853313e-09,
-      "logits/chosen": -2.8560073375701904,
-      "logits/rejected": -2.867896556854248,
-      "logps/chosen": -307.2721862792969,
-      "logps/rejected": -350.257568359375,
-      "loss": 0.5984,
-      "rewards/accuracies": 0.7250000238418579,
-      "rewards/chosen": 0.0023462946992367506,
-      "rewards/margins": 0.33910489082336426,
-      "rewards/rejected": -0.336758553981781,
       "step": 50
     },
     {
       "epoch": 1.0,
       "step": 53,
       "total_flos": 0.0,
-      "train_loss": 0.6385756753525644,
-      "train_runtime": 422.4133,
-      "train_samples_per_second": 15.98,
-      "train_steps_per_second": 0.125
     }
   ],
   "logging_steps": 10,
   "max_steps": 53,
   "num_train_epochs": 1,
   "save_steps": 100,
   "total_flos": 0.0,
   "trial_name": null,
   "trial_params": null
 }

   "is_world_process_zero": true,
   "log_history": [
     {
+      "debug/losses": 0.34206920862197876,
+      "debug/policy_weights": 0.49350154399871826,
+      "debug/raw_losses": 0.6931471824645996,
+      "epoch": 0.018867924528301886,
+      "grad_norm": 5.3608531887517,
       "learning_rate": 8.333333333333333e-08,
+      "logits/chosen": -2.855412006378174,
+      "logits/rejected": -2.8797199726104736,
+      "logps/chosen": -320.43853759765625,
+      "logps/rejected": -340.07073974609375,
+      "loss": 0.378,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
       "rewards/margins": 0.0,
       "step": 1
     },
     {
+      "debug/losses": 0.37441229820251465,
+      "debug/policy_weights": 0.541907548904419,
+      "debug/raw_losses": 0.6909322738647461,
+      "epoch": 0.18867924528301888,
+      "grad_norm": 5.523379066284079,
       "learning_rate": 4.911172937635942e-07,
+      "logits/chosen": -2.8660757541656494,
+      "logits/rejected": -2.892007350921631,
+      "logps/chosen": -305.7418518066406,
+      "logps/rejected": -332.18719482421875,
+      "loss": 0.3735,
+      "rewards/accuracies": 0.5277777910232544,
+      "rewards/chosen": 0.0008213530527427793,
+      "rewards/margins": 0.004522037226706743,
+      "rewards/rejected": -0.003700683591887355,
       "step": 10
     },
     {
+      "debug/losses": 0.3686671853065491,
+      "debug/policy_weights": 0.5464785099029541,
+      "debug/raw_losses": 0.6741721630096436,
+      "epoch": 0.37735849056603776,
+      "grad_norm": 5.208106443938916,
       "learning_rate": 3.982949361823388e-07,
+      "logits/chosen": -2.862377643585205,
+      "logits/rejected": -2.8641226291656494,
+      "logps/chosen": -323.9226989746094,
+      "logps/rejected": -330.8751525878906,
+      "loss": 0.3688,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.006944864057004452,
+      "rewards/margins": 0.04258845001459122,
+      "rewards/rejected": -0.03564358502626419,
       "step": 20
     },
     {
+      "debug/losses": 0.36411529779434204,
+      "debug/policy_weights": 0.563360333442688,
+      "debug/raw_losses": 0.6445623636245728,
+      "epoch": 0.5660377358490566,
+      "grad_norm": 5.583750439900413,
       "learning_rate": 2.416462557480814e-07,
+      "logits/chosen": -2.8544485569000244,
+      "logits/rejected": -2.857438325881958,
+      "logps/chosen": -296.89434814453125,
+      "logps/rejected": -313.2176513671875,
+      "loss": 0.3529,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.0008020855602808297,
+      "rewards/margins": 0.12708209455013275,
+      "rewards/rejected": -0.127884179353714,
       "step": 30
     },
     {
+      "debug/losses": 0.3165283799171448,
+      "debug/policy_weights": 0.5360943675041199,
+      "debug/raw_losses": 0.5777658224105835,
+      "epoch": 0.7547169811320755,
+      "grad_norm": 4.898347932161407,
       "learning_rate": 8.859303711029939e-08,
+      "logits/chosen": -2.861898183822632,
+      "logits/rejected": -2.8589160442352295,
+      "logps/chosen": -290.1973876953125,
+      "logps/rejected": -323.25640869140625,
+      "loss": 0.3411,
+      "rewards/accuracies": 0.7437499761581421,
+      "rewards/chosen": -0.0066400328651070595,
+      "rewards/margins": 0.3345140516757965,
+      "rewards/rejected": -0.3411540687084198,
       "step": 40
     },
     {
+      "debug/losses": 0.3771621882915497,
+      "debug/policy_weights": 0.5814041495323181,
+      "debug/raw_losses": 0.6445982456207275,
+      "epoch": 0.9433962264150944,
+      "grad_norm": 5.24238516043373,
       "learning_rate": 5.009573740853313e-09,
+      "logits/chosen": -2.899583101272583,
+      "logits/rejected": -2.886239528656006,
+      "logps/chosen": -282.59393310546875,
+      "logps/rejected": -317.896728515625,
+      "loss": 0.329,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.03263551741838455,
+      "rewards/margins": 0.1680021584033966,
+      "rewards/rejected": -0.20063766837120056,
       "step": 50
     },
     {
       "epoch": 1.0,
       "step": 53,
       "total_flos": 0.0,
+      "train_loss": 0.35319842594974443,
+      "train_runtime": 385.1956,
+      "train_samples_per_second": 17.524,
+      "train_steps_per_second": 0.138
     }
   ],
   "logging_steps": 10,
   "max_steps": 53,
+  "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
   "total_flos": 0.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1e22877006729d75e97bedd72552860d4e541abd9fccbfa2263c9d16124331dd
-size 5944

 version https://git-lfs.github.com/spec/v1
+oid sha256:611a06a0768ab2de8b7d5348e31fd43482ca67ffc0e3b31a51215e68b7877c6a
+size 6456