alvarobartt HF staff commited on Mar 12

Commit

91140df

•

1 Parent(s): 9d78196

Model save

Browse files

Files changed (18) hide show

.gitattributes +1 -0
README.md +76 -0
all_results.json +7 -0
config.json +28 -0
generation_config.json +7 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +261 -0
runs/Mar12_08-51-27_b4ec5bfe1a9b/events.out.tfevents.1710233566.b4ec5bfe1a9b.17558.0 +3 -0
runs/Mar12_10-23-15_b4ec5bfe1a9b/events.out.tfevents.1710239028.b4ec5bfe1a9b.52899.0 +3 -0
special_tokens_map.json +34 -0
tokenizer.json +3 -0
tokenizer_config.json +70 -0
train_results.json +7 -0
trainer_state.json +392 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,76 @@

+---
+license: other
+base_model: HuggingFaceH4/zephyr-7b-gemma-sft-v0.1
+tags:
+- trl
+- dpo
+- choo-choo
+- generated_from_trainer
+model-index:
+- name: zephyr-gemma-dpo-faithful
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-gemma-dpo-faithful
+This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-gemma-sft-v0.1](https://huggingface.co/HuggingFaceH4/zephyr-7b-gemma-sft-v0.1) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4498
+- Rewards/chosen: -1.7969
+- Rewards/rejected: -3.5156
+- Rewards/accuracies: 0.7394
+- Rewards/margins: 1.7188
+- Logps/rejected: -476.0
+- Logps/chosen: -388.0
+- Logits/rejected: 89.5
+- Logits/chosen: 87.0
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-07
+- train_batch_size: 2
+- eval_batch_size: 4
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 64
+- total_eval_batch_size: 16
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- lr_scheduler_warmup_steps: 100
+- num_epochs: 2
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.5155        | 0.95  | 100  | 0.5003          | -1.2422        | -2.5156          | 0.6862             | 1.2656          | -456.0         | -378.0       | 97.5            | 95.0          |
+| 0.1902        | 1.9   | 200  | 0.4498          | -1.7969        | -3.5156          | 0.7394             | 1.7188          | -476.0         | -388.0       | 89.5            | 87.0          |
+### Framework versions
+- Transformers 4.38.0
+- Pytorch 2.1.1+cu121
+- Datasets 2.16.1
+- Tokenizers 0.15.2

all_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 1.99,
+    "train_loss": 0.4032986215182713,
+    "train_runtime": 4950.8357,
+    "train_samples_per_second": 2.727,
+    "train_steps_per_second": 0.042
+}

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "HuggingFaceH4/zephyr-7b-gemma-sft-v0.1",
+  "architectures": [
+    "GemmaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 2,
+  "eos_token_id": 1,
+  "head_dim": 256,
+  "hidden_act": "gelu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 24576,
+  "max_position_embeddings": 8192,
+  "model_type": "gemma",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 16,
+  "pad_token_id": 0,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.38.0",
+  "use_cache": false,
+  "vocab_size": 256000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 2,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.38.0"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d86f1cb5171b851a6f2d9c93888e188d1ea6d80059869a2e665cbcb30306330
+size 4995496656

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:590b7be9536715f2e9740a4807ad6cd276bd2ef11a7bb79889a1d8eaed2c2971
+size 4982953168

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80d2fb684e5c586d0a7d105f8eff9ed6b91866e04af709be55bc9636da8567c5
+size 4982953200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e38f4650b408be6c6072a68ba67e0771b22640d86ed000b9d4e1fa90234dc536
+size 2113988336

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,261 @@

+{
+  "metadata": {
+    "total_size": 17075361792
+  },
+  "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

runs/Mar12_08-51-27_b4ec5bfe1a9b/events.out.tfevents.1710233566.b4ec5bfe1a9b.17558.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81a4dc18c256bec257e39b722f9ea86e639736b2c3b6a4b6e0798458b54125e8
+size 21636

runs/Mar12_10-23-15_b4ec5bfe1a9b/events.out.tfevents.1710239028.b4ec5bfe1a9b.52899.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ff5551fde734b622a8459e52eddc74b7430ce416e051f7f7f56cc09c73c68d3
+size 21645

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22449cb9ef4bad0db7dd93b46ddff7ab7d6a654dd4f903e130ddb6361eac3af5
+size 17477473

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<eos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<bos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "106": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "107": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": "<bos>",
+  "chat_template": "{% if messages[0]['role'] == 'user' or messages[0]['role'] == 'system' %}{{ bos_token }}{% endif %}{% for message in messages %}{{ '<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n' }}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% elif messages[-1]['role'] == 'assistant' %}{{ eos_token }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<eos>",
+  "legacy": null,
+  "model_max_length": 2048,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "GemmaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 1.99,
+    "train_loss": 0.4032986215182713,
+    "train_runtime": 4950.8357,
+    "train_samples_per_second": 2.727,
+    "train_steps_per_second": 0.042
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,392 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9905213270142181,
+  "eval_steps": 100,
+  "global_step": 210,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 177.89952669184834,
+      "learning_rate": 5e-09,
+      "logits/chosen": 129.0,
+      "logits/rejected": 125.5,
+      "logps/chosen": -428.0,
+      "logps/rejected": -470.0,
+      "loss": 0.6914,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 173.49613288568952,
+      "learning_rate": 5e-08,
+      "logits/chosen": 125.5,
+      "logits/rejected": 132.0,
+      "logps/chosen": -414.0,
+      "logps/rejected": -450.0,
+      "loss": 0.7165,
+      "rewards/accuracies": 0.3888888955116272,
+      "rewards/chosen": -0.00750732421875,
+      "rewards/margins": -0.0037841796875,
+      "rewards/rejected": -0.003875732421875,
+      "step": 10
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 181.136506215671,
+      "learning_rate": 1e-07,
+      "logits/chosen": 136.0,
+      "logits/rejected": 136.0,
+      "logps/chosen": -400.0,
+      "logps/rejected": -430.0,
+      "loss": 0.7186,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -0.0147705078125,
+      "rewards/margins": -0.026123046875,
+      "rewards/rejected": 0.01153564453125,
+      "step": 20
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 158.92632659059979,
+      "learning_rate": 1.5e-07,
+      "logits/chosen": 130.0,
+      "logits/rejected": 130.0,
+      "logps/chosen": -374.0,
+      "logps/rejected": -390.0,
+      "loss": 0.6979,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.08251953125,
+      "rewards/margins": 0.08154296875,
+      "rewards/rejected": 0.0013427734375,
+      "step": 30
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 172.98309546766845,
+      "learning_rate": 2e-07,
+      "logits/chosen": 115.0,
+      "logits/rejected": 128.0,
+      "logps/chosen": -338.0,
+      "logps/rejected": -430.0,
+      "loss": 0.6703,
+      "rewards/accuracies": 0.6187499761581421,
+      "rewards/chosen": 0.236328125,
+      "rewards/margins": 0.1875,
+      "rewards/rejected": 0.049072265625,
+      "step": 40
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 171.55866229471363,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": 124.5,
+      "logits/rejected": 124.5,
+      "logps/chosen": -370.0,
+      "logps/rejected": -388.0,
+      "loss": 0.6286,
+      "rewards/accuracies": 0.6312500238418579,
+      "rewards/chosen": 0.2294921875,
+      "rewards/margins": 0.318359375,
+      "rewards/rejected": -0.08935546875,
+      "step": 50
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 175.84854471984127,
+      "learning_rate": 3e-07,
+      "logits/chosen": 116.0,
+      "logits/rejected": 124.0,
+      "logps/chosen": -342.0,
+      "logps/rejected": -416.0,
+      "loss": 0.5816,
+      "rewards/accuracies": 0.706250011920929,
+      "rewards/chosen": -0.035400390625,
+      "rewards/margins": 0.640625,
+      "rewards/rejected": -0.67578125,
+      "step": 60
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 134.077271259303,
+      "learning_rate": 3.5e-07,
+      "logits/chosen": 121.5,
+      "logits/rejected": 117.5,
+      "logps/chosen": -386.0,
+      "logps/rejected": -394.0,
+      "loss": 0.5647,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.1162109375,
+      "rewards/margins": 0.77734375,
+      "rewards/rejected": -0.89453125,
+      "step": 70
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 145.7372885946958,
+      "learning_rate": 4e-07,
+      "logits/chosen": 117.0,
+      "logits/rejected": 117.0,
+      "logps/chosen": -342.0,
+      "logps/rejected": -408.0,
+      "loss": 0.5371,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.4765625,
+      "rewards/margins": 0.91796875,
+      "rewards/rejected": -1.3984375,
+      "step": 80
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 156.14756793621152,
+      "learning_rate": 4.5e-07,
+      "logits/chosen": 132.0,
+      "logits/rejected": 134.0,
+      "logps/chosen": -410.0,
+      "logps/rejected": -444.0,
+      "loss": 0.4753,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -0.77734375,
+      "rewards/margins": 1.0234375,
+      "rewards/rejected": -1.8046875,
+      "step": 90
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 142.7704392560794,
+      "learning_rate": 5e-07,
+      "logits/chosen": 120.0,
+      "logits/rejected": 129.0,
+      "logps/chosen": -390.0,
+      "logps/rejected": -490.0,
+      "loss": 0.5155,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.94140625,
+      "rewards/margins": 1.3359375,
+      "rewards/rejected": -2.28125,
+      "step": 100
+    },
+    {
+      "epoch": 0.95,
+      "eval_logits/chosen": 95.0,
+      "eval_logits/rejected": 97.5,
+      "eval_logps/chosen": -378.0,
+      "eval_logps/rejected": -456.0,
+      "eval_loss": 0.500314474105835,
+      "eval_rewards/accuracies": 0.686170220375061,
+      "eval_rewards/chosen": -1.2421875,
+      "eval_rewards/margins": 1.265625,
+      "eval_rewards/rejected": -2.515625,
+      "eval_runtime": 135.3377,
+      "eval_samples_per_second": 5.542,
+      "eval_steps_per_second": 0.347,
+      "step": 100
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 70.76245987345193,
+      "learning_rate": 4.898732434036243e-07,
+      "logits/chosen": 123.5,
+      "logits/rejected": 118.5,
+      "logps/chosen": -406.0,
+      "logps/rejected": -460.0,
+      "loss": 0.4082,
+      "rewards/accuracies": 0.831250011920929,
+      "rewards/chosen": -1.1328125,
+      "rewards/margins": 1.7265625,
+      "rewards/rejected": -2.859375,
+      "step": 110
+    },
+    {
+      "epoch": 1.14,
+      "grad_norm": 83.18318775000992,
+      "learning_rate": 4.603133832077953e-07,
+      "logits/chosen": 117.5,
+      "logits/rejected": 126.0,
+      "logps/chosen": -362.0,
+      "logps/rejected": -480.0,
+      "loss": 0.2535,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.546875,
+      "rewards/margins": 2.828125,
+      "rewards/rejected": -3.375,
+      "step": 120
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 80.23145875736671,
+      "learning_rate": 4.137151834863213e-07,
+      "logits/chosen": 111.0,
+      "logits/rejected": 111.5,
+      "logps/chosen": -400.0,
+      "logps/rejected": -470.0,
+      "loss": 0.2203,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.125,
+      "rewards/margins": 2.75,
+      "rewards/rejected": -3.875,
+      "step": 130
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 92.00162024415927,
+      "learning_rate": 3.5385375325047163e-07,
+      "logits/chosen": 118.0,
+      "logits/rejected": 125.5,
+      "logps/chosen": -398.0,
+      "logps/rejected": -512.0,
+      "loss": 0.2065,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.8359375,
+      "rewards/margins": 2.84375,
+      "rewards/rejected": -4.6875,
+      "step": 140
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 68.98201787598855,
+      "learning_rate": 2.8557870956832133e-07,
+      "logits/chosen": 107.0,
+      "logits/rejected": 110.0,
+      "logps/chosen": -394.0,
+      "logps/rejected": -494.0,
+      "loss": 0.1678,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -1.703125,
+      "rewards/margins": 3.21875,
+      "rewards/rejected": -4.9375,
+      "step": 150
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 80.45634124880881,
+      "learning_rate": 2.1442129043167873e-07,
+      "logits/chosen": 105.5,
+      "logits/rejected": 125.0,
+      "logps/chosen": -394.0,
+      "logps/rejected": -506.0,
+      "loss": 0.194,
+      "rewards/accuracies": 0.918749988079071,
+      "rewards/chosen": -1.28125,
+      "rewards/margins": 3.671875,
+      "rewards/rejected": -4.9375,
+      "step": 160
+    },
+    {
+      "epoch": 1.61,
+      "grad_norm": 82.98758335477153,
+      "learning_rate": 1.461462467495284e-07,
+      "logits/chosen": 115.0,
+      "logits/rejected": 116.0,
+      "logps/chosen": -406.0,
+      "logps/rejected": -472.0,
+      "loss": 0.169,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -0.95703125,
+      "rewards/margins": 3.234375,
+      "rewards/rejected": -4.1875,
+      "step": 170
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 87.6903501592833,
+      "learning_rate": 8.628481651367875e-08,
+      "logits/chosen": 111.0,
+      "logits/rejected": 123.0,
+      "logps/chosen": -406.0,
+      "logps/rejected": -532.0,
+      "loss": 0.1641,
+      "rewards/accuracies": 0.956250011920929,
+      "rewards/chosen": -0.73828125,
+      "rewards/margins": 3.28125,
+      "rewards/rejected": -4.0,
+      "step": 180
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 65.93189701960165,
+      "learning_rate": 3.968661679220467e-08,
+      "logits/chosen": 118.5,
+      "logits/rejected": 119.5,
+      "logps/chosen": -414.0,
+      "logps/rejected": -510.0,
+      "loss": 0.1756,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -0.8203125,
+      "rewards/margins": 3.5,
+      "rewards/rejected": -4.3125,
+      "step": 190
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 82.38035369049618,
+      "learning_rate": 1.0126756596375685e-08,
+      "logits/chosen": 100.5,
+      "logits/rejected": 108.5,
+      "logps/chosen": -384.0,
+      "logps/rejected": -462.0,
+      "loss": 0.1902,
+      "rewards/accuracies": 0.9312499761581421,
+      "rewards/chosen": -1.2890625,
+      "rewards/margins": 3.0,
+      "rewards/rejected": -4.28125,
+      "step": 200
+    },
+    {
+      "epoch": 1.9,
+      "eval_logits/chosen": 87.0,
+      "eval_logits/rejected": 89.5,
+      "eval_logps/chosen": -388.0,
+      "eval_logps/rejected": -476.0,
+      "eval_loss": 0.44982096552848816,
+      "eval_rewards/accuracies": 0.7393617033958435,
+      "eval_rewards/chosen": -1.796875,
+      "eval_rewards/margins": 1.71875,
+      "eval_rewards/rejected": -3.515625,
+      "eval_runtime": 135.9196,
+      "eval_samples_per_second": 5.518,
+      "eval_steps_per_second": 0.346,
+      "step": 200
+    },
+    {
+      "epoch": 1.99,
+      "grad_norm": 54.35126708805902,
+      "learning_rate": 0.0,
+      "logits/chosen": 100.5,
+      "logits/rejected": 102.5,
+      "logps/chosen": -390.0,
+      "logps/rejected": -444.0,
+      "loss": 0.2165,
+      "rewards/accuracies": 0.9437500238418579,
+      "rewards/chosen": -1.109375,
+      "rewards/margins": 3.078125,
+      "rewards/rejected": -4.1875,
+      "step": 210
+    },
+    {
+      "epoch": 1.99,
+      "step": 210,
+      "total_flos": 0.0,
+      "train_loss": 0.4032986215182713,
+      "train_runtime": 4950.8357,
+      "train_samples_per_second": 2.727,
+      "train_steps_per_second": 0.042
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 210,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80f0463b98527160c65427117faca6aa0f8d5c71b94a64bb182b0c0c5d04eda6
+size 6136