Model save

Browse files

Files changed (10) hide show

README.md +73 -0
all_results.json +8 -0
generation_config.json +7 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +261 -0
train_results.json +8 -0
trainer_state.json +286 -0

README.md ADDED Viewed

	@@ -0,0 +1,73 @@

+---
+license: other
+base_model: lewtun/gemma-7b-sft-full-deita-10k-v0
+tags:
+- trl
+- dpo
+- generated_from_trainer
+model-index:
+- name: gemma-7b-dpo-full-mix1-beta-0.05-epoch-3
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# gemma-7b-dpo-full-mix1-beta-0.05-epoch-3
+This model is a fine-tuned version of [lewtun/gemma-7b-sft-full-deita-10k-v0](https://huggingface.co/lewtun/gemma-7b-sft-full-deita-10k-v0) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4861
+- Rewards/chosen: -2.9739
+- Rewards/rejected: -4.4977
+- Rewards/accuracies: 0.6771
+- Rewards/margins: 1.5238
+- Logps/rejected: -541.5043
+- Logps/chosen: -512.8825
+- Logits/rejected: 87.7248
+- Logits/chosen: 93.8502
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 2
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 128
+- total_eval_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.1623        | 1.9   | 100  | 0.4861          | -2.9739        | -4.4977          | 0.6771             | 1.5238          | -541.5043      | -512.8825    | 87.7248         | 93.8502       |
+### Framework versions
+- Transformers 4.39.0.dev0
+- Pytorch 2.1.2+cu121
+- Datasets 2.14.6
+- Tokenizers 0.15.1

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.96,
+    "train_loss": 0.28389122929328525,
+    "train_runtime": 1811.0132,
+    "train_samples": 6750,
+    "train_samples_per_second": 11.182,
+    "train_steps_per_second": 0.086
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 2,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.39.0.dev0"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0e1944fc752c038db4494a0c1fc0f29df1c2da1a679e7182e52633e205b836ab
+size 4995496656

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d814960d8e7d78d5c348a55b0f483346f519e04ab41813e67192325e3faada5
+size 4982953168

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53805df02a29ce8d271d1b30ccd6536b1820e2caa79fbcedcd04e178dd1af98b
+size 4982953200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:903ad296bebf38d090116ccc2d881168413d49d609987136aa4e2b673582bb86
+size 2113988336

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,261 @@

+{
+  "metadata": {
+    "total_size": 17075361792
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.96,
+    "train_loss": 0.28389122929328525,
+    "train_runtime": 1811.0132,
+    "train_samples": 6750,
+    "train_samples_per_second": 11.182,
+    "train_steps_per_second": 0.086
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,286 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.957345971563981,
+  "eval_steps": 100,
+  "global_step": 156,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "grad_norm": 132.97353908293687,
+      "learning_rate": 3.125e-08,
+      "logits/chosen": 123.11854553222656,
+      "logits/rejected": 97.00198364257812,
+      "logps/chosen": -425.18585205078125,
+      "logps/rejected": -424.1869201660156,
+      "loss": 0.6931,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 206.0883100010928,
+      "learning_rate": 3.1249999999999997e-07,
+      "logits/chosen": 117.39097595214844,
+      "logits/rejected": 136.3163299560547,
+      "logps/chosen": -442.6399230957031,
+      "logps/rejected": -524.91015625,
+      "loss": 0.7186,
+      "rewards/accuracies": 0.4930555522441864,
+      "rewards/chosen": 0.037425246089696884,
+      "rewards/margins": 0.07718456536531448,
+      "rewards/rejected": -0.0397593155503273,
+      "step": 10
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 114.8435303205146,
+      "learning_rate": 4.989935734988097e-07,
+      "logits/chosen": 125.3319091796875,
+      "logits/rejected": 132.9754638671875,
+      "logps/chosen": -422.8042907714844,
+      "logps/rejected": -491.63226318359375,
+      "loss": 0.6164,
+      "rewards/accuracies": 0.637499988079071,
+      "rewards/chosen": 0.17301546037197113,
+      "rewards/margins": 0.379099041223526,
+      "rewards/rejected": -0.20608356595039368,
+      "step": 20
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 99.27143207986335,
+      "learning_rate": 4.877641290737883e-07,
+      "logits/chosen": 122.47686767578125,
+      "logits/rejected": 125.91865539550781,
+      "logps/chosen": -466.9618225097656,
+      "logps/rejected": -540.3817138671875,
+      "loss": 0.5813,
+      "rewards/accuracies": 0.731249988079071,
+      "rewards/chosen": -0.5920838117599487,
+      "rewards/margins": 1.0662639141082764,
+      "rewards/rejected": -1.658347725868225,
+      "step": 30
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 109.14521515462766,
+      "learning_rate": 4.646121984004665e-07,
+      "logits/chosen": 124.97059631347656,
+      "logits/rejected": 119.9173583984375,
+      "logps/chosen": -497.7147521972656,
+      "logps/rejected": -527.3887939453125,
+      "loss": 0.5426,
+      "rewards/accuracies": 0.7562500238418579,
+      "rewards/chosen": -1.2266700267791748,
+      "rewards/margins": 0.9045358896255493,
+      "rewards/rejected": -2.1312055587768555,
+      "step": 40
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 115.6113002085735,
+      "learning_rate": 4.3069871595684787e-07,
+      "logits/chosen": 132.8910369873047,
+      "logits/rejected": 133.22190856933594,
+      "logps/chosen": -520.63037109375,
+      "logps/rejected": -549.1149291992188,
+      "loss": 0.5202,
+      "rewards/accuracies": 0.6812499761581421,
+      "rewards/chosen": -1.8903814554214478,
+      "rewards/margins": 1.0029468536376953,
+      "rewards/rejected": -2.8933284282684326,
+      "step": 50
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 46.9650475313439,
+      "learning_rate": 3.877242453630256e-07,
+      "logits/chosen": 131.47854614257812,
+      "logits/rejected": 134.71681213378906,
+      "logps/chosen": -481.8072814941406,
+      "logps/rejected": -534.0516357421875,
+      "loss": 0.2837,
+      "rewards/accuracies": 0.893750011920929,
+      "rewards/chosen": -1.2520891427993774,
+      "rewards/margins": 2.2355263233184814,
+      "rewards/rejected": -3.4876155853271484,
+      "step": 60
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 47.26485069523079,
+      "learning_rate": 3.378437060203357e-07,
+      "logits/chosen": 126.1490707397461,
+      "logits/rejected": 126.75111389160156,
+      "logps/chosen": -452.6795349121094,
+      "logps/rejected": -579.5133056640625,
+      "loss": 0.1756,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -1.188291072845459,
+      "rewards/margins": 2.6805100440979004,
+      "rewards/rejected": -3.868800640106201,
+      "step": 70
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 46.43874254029814,
+      "learning_rate": 2.8355831645441387e-07,
+      "logits/chosen": 127.46858978271484,
+      "logits/rejected": 128.4056396484375,
+      "logps/chosen": -514.4637451171875,
+      "logps/rejected": -621.2301635742188,
+      "loss": 0.1711,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -1.268179178237915,
+      "rewards/margins": 3.4565296173095703,
+      "rewards/rejected": -4.724708557128906,
+      "step": 80
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 49.11808633093636,
+      "learning_rate": 2.2759017277414164e-07,
+      "logits/chosen": 112.5447998046875,
+      "logits/rejected": 114.98893737792969,
+      "logps/chosen": -497.70001220703125,
+      "logps/rejected": -589.730224609375,
+      "loss": 0.1524,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.7766218185424805,
+      "rewards/margins": 3.491291046142578,
+      "rewards/rejected": -5.2679123878479,
+      "step": 90
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 47.47224806448749,
+      "learning_rate": 1.7274575140626315e-07,
+      "logits/chosen": 124.581787109375,
+      "logits/rejected": 115.68563079833984,
+      "logps/chosen": -516.1900634765625,
+      "logps/rejected": -632.6817626953125,
+      "loss": 0.1623,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.8899990320205688,
+      "rewards/margins": 3.6050896644592285,
+      "rewards/rejected": -5.495089054107666,
+      "step": 100
+    },
+    {
+      "epoch": 1.9,
+      "eval_logits/chosen": 93.8502197265625,
+      "eval_logits/rejected": 87.7247543334961,
+      "eval_logps/chosen": -512.8825073242188,
+      "eval_logps/rejected": -541.5043334960938,
+      "eval_loss": 0.48611319065093994,
+      "eval_rewards/accuracies": 0.6770833134651184,
+      "eval_rewards/chosen": -2.9739017486572266,
+      "eval_rewards/margins": 1.5238369703292847,
+      "eval_rewards/rejected": -4.497739315032959,
+      "eval_runtime": 53.4905,
+      "eval_samples_per_second": 14.021,
+      "eval_steps_per_second": 0.449,
+      "step": 100
+    },
+    {
+      "epoch": 2.09,
+      "grad_norm": 25.494387206609645,
+      "learning_rate": 1.2177518064852348e-07,
+      "logits/chosen": 102.986083984375,
+      "logits/rejected": 116.60546875,
+      "logps/chosen": -538.074951171875,
+      "logps/rejected": -667.3218383789062,
+      "loss": 0.1318,
+      "rewards/accuracies": 0.96875,
+      "rewards/chosen": -2.1493353843688965,
+      "rewards/margins": 3.4991326332092285,
+      "rewards/rejected": -5.648468017578125,
+      "step": 110
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 24.60483354043265,
+      "learning_rate": 7.723433775328384e-08,
+      "logits/chosen": 113.220703125,
+      "logits/rejected": 114.29705810546875,
+      "logps/chosen": -522.1823120117188,
+      "logps/rejected": -628.0721435546875,
+      "loss": 0.0837,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.2452592849731445,
+      "rewards/margins": 3.996518611907959,
+      "rewards/rejected": -6.2417778968811035,
+      "step": 120
+    },
+    {
+      "epoch": 2.46,
+      "grad_norm": 32.75955455536007,
+      "learning_rate": 4.1356686569674335e-08,
+      "logits/chosen": 115.95035552978516,
+      "logits/rejected": 120.65645599365234,
+      "logps/chosen": -537.8087158203125,
+      "logps/rejected": -653.7862548828125,
+      "loss": 0.0781,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.2025058269500732,
+      "rewards/margins": 4.200939178466797,
+      "rewards/rejected": -6.403443813323975,
+      "step": 130
+    },
+    {
+      "epoch": 2.65,
+      "grad_norm": 23.375967561613557,
+      "learning_rate": 1.5941282340065697e-08,
+      "logits/chosen": 101.51383972167969,
+      "logits/rejected": 102.2659683227539,
+      "logps/chosen": -499.16229248046875,
+      "logps/rejected": -645.9388427734375,
+      "loss": 0.0791,
+      "rewards/accuracies": 0.981249988079071,
+      "rewards/chosen": -2.6822938919067383,
+      "rewards/margins": 4.259942054748535,
+      "rewards/rejected": -6.942234992980957,
+      "step": 140
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 27.725216044545164,
+      "learning_rate": 2.2625595580163247e-09,
+      "logits/chosen": 108.08512878417969,
+      "logits/rejected": 121.6434097290039,
+      "logps/chosen": -524.5687866210938,
+      "logps/rejected": -647.0615844726562,
+      "loss": 0.079,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.486959457397461,
+      "rewards/margins": 4.458805084228516,
+      "rewards/rejected": -6.945765018463135,
+      "step": 150
+    },
+    {
+      "epoch": 2.96,
+      "step": 156,
+      "total_flos": 0.0,
+      "train_loss": 0.28389122929328525,
+      "train_runtime": 1811.0132,
+      "train_samples_per_second": 11.182,
+      "train_steps_per_second": 0.086
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 156,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}