RyanYr commited on Sep 8

Commit

ff82854

•

1 Parent(s): f949dd8

Training in progress, step 300, checkpoint

Browse files

Files changed (24) hide show

last-checkpoint/added_tokens.json +3 -0
last-checkpoint/config.json +36 -0
last-checkpoint/generation_config.json +11 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -0
last-checkpoint/model-00001-of-00002.safetensors +3 -0
last-checkpoint/model-00002-of-00002.safetensors +3 -0
last-checkpoint/model.safetensors.index.json +296 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/special_tokens_map.json +28 -0
last-checkpoint/tokenizer.json +3 -0
last-checkpoint/tokenizer.model +3 -0
last-checkpoint/tokenizer_config.json +2021 -0
last-checkpoint/trainer_state.json +2283 -0
last-checkpoint/training_args.bin +3 -0
last-checkpoint/zero_to_fp32.py +604 -0

last-checkpoint/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<pad>": 256000
+}

last-checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "RyanYr/last-letter-cat_genRM_pilot_experiment",
+  "architectures": [
+    "Gemma2ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "attn_logit_softcapping": 50.0,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": [
+    1,
+    107
+  ],
+  "final_logit_softcapping": 30.0,
+  "head_dim": 256,
+  "hidden_act": "gelu_pytorch_tanh",
+  "hidden_activation": "gelu_pytorch_tanh",
+  "hidden_size": 2304,
+  "initializer_range": 0.02,
+  "intermediate_size": 9216,
+  "max_position_embeddings": 8192,
+  "model_type": "gemma2",
+  "num_attention_heads": 8,
+  "num_hidden_layers": 26,
+  "num_key_value_heads": 4,
+  "pad_token_id": 256000,
+  "query_pre_attn_scalar": 256,
+  "rms_norm_eps": 1e-06,
+  "rope_theta": 10000.0,
+  "sliding_window": 4096,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.2",
+  "use_cache": false,
+  "vocab_size": 256001
+}

last-checkpoint/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 2,
+  "cache_implementation": "hybrid",
+  "eos_token_id": [
+    1,
+    107
+  ],
+  "pad_token_id": 0,
+  "transformers_version": "4.44.2"
+}

last-checkpoint/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:89579eb8f7da22b4f7afdf23b99e09a9ee83b143763d675bc63a63f1dcb5746c
+size 7843036668

last-checkpoint/global_step300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7410a39eadd58bc324dd9493a018bd13e5c6126a5674e7e4be7f81ef9b5aed8
+size 7843043580

last-checkpoint/global_step300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c788ed6113a5eef1502cbe782dc8341b5920ac15b8a09d44cd5ad7cbeba1130
+size 7843043004

last-checkpoint/global_step300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e3aa13e46cc64360bb737729a10c4439564ba4dbd029036d8e903f52188fc8f
+size 7843043388

last-checkpoint/global_step300/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:546cd2c4753b8fd42f29a709f9e920bd57cefb222849f87fe277d9ad307973ed
+size 5228775200

last-checkpoint/latest ADDED Viewed

	@@ -0,0 +1 @@


1	+ global_step300

last-checkpoint/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b3a3e7ade0c672940c1b67351f57df3eb3cedfa73e7bcdd411f85db0c65c6fb
+size 4988030368

last-checkpoint/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0a477d7fb1bbbdc88dd4125a9382e0b07a9f42f38dd0dd53c6c701a2c86f75d9
+size 1420344488

last-checkpoint/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,296 @@

+{
+  "metadata": {
+    "total_size": 6408340992
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.pre_feedforward_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.pre_feedforward_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:92cc13315f24c28015d695b6cde08bb1cd6fea4cbc435998485ed6fbe4c91285
+size 15024

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4c154b6a63e0b1f98f7d2847944398f99f1657d35e8eddf7fdf0ae2c24b0552
+size 15024

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f784c6a9507b51189f2caffbd178ea9882103b75852e31c15f47fdae6a43af1d
+size 15024

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34b023e05bc2d12b91dc436d4922b990d50ec8dc56d40dc3e36b3bb34fc81341
+size 15024

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c3ae9d50e8b8bedb2ad2de7843c691ae194ba67c96766e8f3cbe28cd2a287e6
+size 1064

last-checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "additional_special_tokens": [
+    "<start_of_turn>",
+    "<end_of_turn>"
+  ],
+  "bos_token": {
+    "content": "<bos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<eos>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<eos>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

last-checkpoint/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ad81132a729860bdb9e4d2e22e3ae09f317f539aac46d8acc4e17c9412f0870
+size 17525539

last-checkpoint/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:61a7b147390c64585d6c3543dd6fc636906c9af3865a5548f27f31aee1d4c8e2
+size 4241003

last-checkpoint/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,2021 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<eos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<bos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "5": {
+      "content": "<2mass>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "6": {
+      "content": "[@BOS@]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "7": {
+      "content": "<unused0>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "8": {
+      "content": "<unused1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "9": {
+      "content": "<unused2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "10": {
+      "content": "<unused3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "11": {
+      "content": "<unused4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "12": {
+      "content": "<unused5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "13": {
+      "content": "<unused6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "14": {
+      "content": "<unused7>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "15": {
+      "content": "<unused8>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "16": {
+      "content": "<unused9>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "17": {
+      "content": "<unused10>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "18": {
+      "content": "<unused11>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "19": {
+      "content": "<unused12>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "20": {
+      "content": "<unused13>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "21": {
+      "content": "<unused14>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "22": {
+      "content": "<unused15>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "23": {
+      "content": "<unused16>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "24": {
+      "content": "<unused17>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "25": {
+      "content": "<unused18>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "26": {
+      "content": "<unused19>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "27": {
+      "content": "<unused20>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "28": {
+      "content": "<unused21>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "29": {
+      "content": "<unused22>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "30": {
+      "content": "<unused23>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "31": {
+      "content": "<unused24>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "32": {
+      "content": "<unused25>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "33": {
+      "content": "<unused26>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "34": {
+      "content": "<unused27>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "35": {
+      "content": "<unused28>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "36": {
+      "content": "<unused29>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "37": {
+      "content": "<unused30>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "38": {
+      "content": "<unused31>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "39": {
+      "content": "<unused32>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "40": {
+      "content": "<unused33>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "41": {
+      "content": "<unused34>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "42": {
+      "content": "<unused35>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "43": {
+      "content": "<unused36>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "44": {
+      "content": "<unused37>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "45": {
+      "content": "<unused38>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "46": {
+      "content": "<unused39>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "47": {
+      "content": "<unused40>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "48": {
+      "content": "<unused41>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "49": {
+      "content": "<unused42>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50": {
+      "content": "<unused43>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "51": {
+      "content": "<unused44>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "52": {
+      "content": "<unused45>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "53": {
+      "content": "<unused46>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "54": {
+      "content": "<unused47>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "55": {
+      "content": "<unused48>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "56": {
+      "content": "<unused49>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "57": {
+      "content": "<unused50>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "58": {
+      "content": "<unused51>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "59": {
+      "content": "<unused52>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "60": {
+      "content": "<unused53>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "61": {
+      "content": "<unused54>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "62": {
+      "content": "<unused55>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "63": {
+      "content": "<unused56>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "64": {
+      "content": "<unused57>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "65": {
+      "content": "<unused58>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "66": {
+      "content": "<unused59>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "67": {
+      "content": "<unused60>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "68": {
+      "content": "<unused61>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "69": {
+      "content": "<unused62>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "70": {
+      "content": "<unused63>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "71": {
+      "content": "<unused64>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "72": {
+      "content": "<unused65>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "73": {
+      "content": "<unused66>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "74": {
+      "content": "<unused67>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "75": {
+      "content": "<unused68>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "76": {
+      "content": "<unused69>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "77": {
+      "content": "<unused70>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "78": {
+      "content": "<unused71>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "79": {
+      "content": "<unused72>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "80": {
+      "content": "<unused73>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "81": {
+      "content": "<unused74>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "82": {
+      "content": "<unused75>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "83": {
+      "content": "<unused76>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "84": {
+      "content": "<unused77>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "85": {
+      "content": "<unused78>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "86": {
+      "content": "<unused79>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "87": {
+      "content": "<unused80>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "88": {
+      "content": "<unused81>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "89": {
+      "content": "<unused82>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "90": {
+      "content": "<unused83>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "91": {
+      "content": "<unused84>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "92": {
+      "content": "<unused85>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "93": {
+      "content": "<unused86>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "94": {
+      "content": "<unused87>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "95": {
+      "content": "<unused88>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "96": {
+      "content": "<unused89>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "97": {
+      "content": "<unused90>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "98": {
+      "content": "<unused91>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "99": {
+      "content": "<unused92>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "100": {
+      "content": "<unused93>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "101": {
+      "content": "<unused94>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "102": {
+      "content": "<unused95>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "103": {
+      "content": "<unused96>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "104": {
+      "content": "<unused97>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "105": {
+      "content": "<unused98>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "106": {
+      "content": "<start_of_turn>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "107": {
+      "content": "<end_of_turn>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "108": {
+      "content": "\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "109": {
+      "content": "\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "110": {
+      "content": "\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "111": {
+      "content": "\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "112": {
+      "content": "\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "113": {
+      "content": "\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "114": {
+      "content": "\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "115": {
+      "content": "\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "116": {
+      "content": "\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "117": {
+      "content": "\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "118": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "119": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "120": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "121": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "122": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "123": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "124": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "125": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "126": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "127": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "128": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "129": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "130": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "131": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "132": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "133": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "134": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "135": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "136": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "137": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "138": {
+      "content": "\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "139": {
+      "content": "▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "140": {
+      "content": "▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "141": {
+      "content": "▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "142": {
+      "content": "▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "143": {
+      "content": "▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "144": {
+      "content": "▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "145": {
+      "content": "▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "146": {
+      "content": "▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "147": {
+      "content": "▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "148": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "149": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "150": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "152": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "153": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "154": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "155": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "156": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "157": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "158": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "159": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "160": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "161": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "162": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "163": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "164": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "165": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "166": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "167": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "168": {
+      "content": "▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁▁",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "169": {
+      "content": "<table>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "170": {
+      "content": "<caption>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "171": {
+      "content": "<thead>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "172": {
+      "content": "<tbody>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "173": {
+      "content": "<tfoot>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "174": {
+      "content": "<tr>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "175": {
+      "content": "<th>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "176": {
+      "content": "<td>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "177": {
+      "content": "</table>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "178": {
+      "content": "</caption>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "179": {
+      "content": "</thead>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "180": {
+      "content": "</tbody>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "181": {
+      "content": "</tfoot>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "182": {
+      "content": "</tr>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "183": {
+      "content": "</th>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "184": {
+      "content": "</td>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "185": {
+      "content": "<h1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "186": {
+      "content": "<h2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "187": {
+      "content": "<h3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "188": {
+      "content": "<h4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "189": {
+      "content": "<h5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "190": {
+      "content": "<h6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "191": {
+      "content": "<blockquote>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "192": {
+      "content": "</h1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "193": {
+      "content": "</h2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "194": {
+      "content": "</h3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "195": {
+      "content": "</h4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "196": {
+      "content": "</h5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "197": {
+      "content": "</h6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "198": {
+      "content": "</blockquote>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "199": {
+      "content": "<strong>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "200": {
+      "content": "<em>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "201": {
+      "content": "<b>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "202": {
+      "content": "<i>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "203": {
+      "content": "<u>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "204": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "205": {
+      "content": "<sub>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "206": {
+      "content": "<sup>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "207": {
+      "content": "<code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "208": {
+      "content": "</strong>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "209": {
+      "content": "</em>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "210": {
+      "content": "</b>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "211": {
+      "content": "</i>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "212": {
+      "content": "</u>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "213": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "214": {
+      "content": "</sub>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "215": {
+      "content": "</sup>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "216": {
+      "content": "</code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255968": {
+      "content": "[toxicity=0]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255969": {
+      "content": "\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255970": {
+      "content": "\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255971": {
+      "content": "\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255972": {
+      "content": "\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255973": {
+      "content": "\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255974": {
+      "content": "\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255975": {
+      "content": "\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255976": {
+      "content": "\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255977": {
+      "content": "\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255978": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255979": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255980": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255981": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255982": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255983": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255984": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255985": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255986": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255987": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255988": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255989": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255990": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255991": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255992": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255993": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255994": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255995": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255996": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255997": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255998": {
+      "content": "\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "255999": {
+      "content": "<unused99>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "256000": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<start_of_turn>",
+    "<end_of_turn>"
+  ],
+  "bos_token": "<bos>",
+  "chat_template": "{{ bos_token }}{% if messages[0]['role'] == 'system' %}{{ raise_exception('System role not supported') }}{% endif %}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if (message['role'] == 'assistant') %}{% set role = 'model' %}{% else %}{% set role = message['role'] %}{% endif %}{{ '<start_of_turn>' + role + '\n' + message['content'] | trim + '<end_of_turn>\n' }}{% endfor %}{% if add_generation_prompt %}{{'<start_of_turn>model\n'}}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<eos>",
+  "model_max_length": 8192,
+  "pad_token": "<eos>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "GemmaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2283 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.3732794151955829,
+  "eval_steps": 999999,
+  "global_step": 300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002488529434637219,
+      "grad_norm": 17.502397537231445,
+      "learning_rate": 4e-09,
+      "logits/chosen": -8.56651496887207,
+      "logits/rejected": -8.562560081481934,
+      "logps/chosen": -19.565723419189453,
+      "logps/rejected": -20.637306213378906,
+      "loss": 0.6942,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.001069140387699008,
+      "rewards/margins": -0.0030966103076934814,
+      "rewards/rejected": 0.004165750928223133,
+      "step": 2
+    },
+    {
+      "epoch": 0.004977058869274438,
+      "grad_norm": 15.60107135772705,
+      "learning_rate": 8e-09,
+      "logits/chosen": -8.524240493774414,
+      "logits/rejected": -8.526124954223633,
+      "logps/chosen": -20.018081665039062,
+      "logps/rejected": -20.216285705566406,
+      "loss": 0.6918,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.007217788137495518,
+      "rewards/margins": 0.006421160884201527,
+      "rewards/rejected": 0.0007966280682012439,
+      "step": 4
+    },
+    {
+      "epoch": 0.0074655883039116576,
+      "grad_norm": 17.828065872192383,
+      "learning_rate": 1.1999999999999998e-08,
+      "logits/chosen": -8.553028106689453,
+      "logits/rejected": -8.548047065734863,
+      "logps/chosen": -19.937942504882812,
+      "logps/rejected": -21.010066986083984,
+      "loss": 0.6937,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": 0.002490019891411066,
+      "rewards/margins": -0.0010593116749078035,
+      "rewards/rejected": 0.003549331333488226,
+      "step": 6
+    },
+    {
+      "epoch": 0.009954117738548877,
+      "grad_norm": 15.343676567077637,
+      "learning_rate": 1.6e-08,
+      "logits/chosen": -8.560093879699707,
+      "logits/rejected": -8.55927848815918,
+      "logps/chosen": -19.431900024414062,
+      "logps/rejected": -19.995960235595703,
+      "loss": 0.6933,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.0018251598812639713,
+      "rewards/margins": -0.002729493658989668,
+      "rewards/rejected": 0.004554653540253639,
+      "step": 8
+    },
+    {
+      "epoch": 0.012442647173186095,
+      "grad_norm": 14.934130668640137,
+      "learning_rate": 2e-08,
+      "logits/chosen": -8.538381576538086,
+      "logits/rejected": -8.539020538330078,
+      "logps/chosen": -19.625043869018555,
+      "logps/rejected": -22.115833282470703,
+      "loss": 0.6916,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": 0.002440834417939186,
+      "rewards/margins": -0.0014383018715307117,
+      "rewards/rejected": 0.0038791359402239323,
+      "step": 10
+    },
+    {
+      "epoch": 0.014931176607823315,
+      "grad_norm": 13.693351745605469,
+      "learning_rate": 2.3999999999999997e-08,
+      "logits/chosen": -8.583096504211426,
+      "logits/rejected": -8.582063674926758,
+      "logps/chosen": -19.407909393310547,
+      "logps/rejected": -21.414169311523438,
+      "loss": 0.6928,
+      "rewards/accuracies": 0.40625,
+      "rewards/chosen": -0.0065500205382704735,
+      "rewards/margins": -0.00023138482356444,
+      "rewards/rejected": -0.006318635307252407,
+      "step": 12
+    },
+    {
+      "epoch": 0.017419706042460535,
+      "grad_norm": 16.96271514892578,
+      "learning_rate": 2.8000000000000003e-08,
+      "logits/chosen": -8.524292945861816,
+      "logits/rejected": -8.527270317077637,
+      "logps/chosen": -19.8970890045166,
+      "logps/rejected": -20.85638999938965,
+      "loss": 0.6922,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.006369876675307751,
+      "rewards/margins": 0.004575997591018677,
+      "rewards/rejected": 0.0017938793171197176,
+      "step": 14
+    },
+    {
+      "epoch": 0.019908235477097753,
+      "grad_norm": 16.42414093017578,
+      "learning_rate": 3.2e-08,
+      "logits/chosen": -8.557604789733887,
+      "logits/rejected": -8.554115295410156,
+      "logps/chosen": -19.438413619995117,
+      "logps/rejected": -20.604129791259766,
+      "loss": 0.6925,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.002047908492386341,
+      "rewards/margins": 0.0037115393206477165,
+      "rewards/rejected": -0.0016636312939226627,
+      "step": 16
+    },
+    {
+      "epoch": 0.022396764911734972,
+      "grad_norm": 17.213848114013672,
+      "learning_rate": 3.6e-08,
+      "logits/chosen": -8.510780334472656,
+      "logits/rejected": -8.50841236114502,
+      "logps/chosen": -19.103586196899414,
+      "logps/rejected": -20.541351318359375,
+      "loss": 0.6927,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": 0.0018252076115459204,
+      "rewards/margins": 0.0007699192501604557,
+      "rewards/rejected": 0.0010552883613854647,
+      "step": 18
+    },
+    {
+      "epoch": 0.02488529434637219,
+      "grad_norm": 14.436334609985352,
+      "learning_rate": 4e-08,
+      "logits/chosen": -8.604499816894531,
+      "logits/rejected": -8.600957870483398,
+      "logps/chosen": -19.545080184936523,
+      "logps/rejected": -21.471729278564453,
+      "loss": 0.6926,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.004631489049643278,
+      "rewards/margins": -0.0004858254687860608,
+      "rewards/rejected": 0.005117314402014017,
+      "step": 20
+    },
+    {
+      "epoch": 0.02737382378100941,
+      "grad_norm": 20.182579040527344,
+      "learning_rate": 4.4e-08,
+      "logits/chosen": -8.537935256958008,
+      "logits/rejected": -8.529059410095215,
+      "logps/chosen": -19.709606170654297,
+      "logps/rejected": -22.35328483581543,
+      "loss": 0.6927,
+      "rewards/accuracies": 0.40625,
+      "rewards/chosen": -0.001202064799144864,
+      "rewards/margins": 0.000394826871342957,
+      "rewards/rejected": -0.001596891786903143,
+      "step": 22
+    },
+    {
+      "epoch": 0.02986235321564663,
+      "grad_norm": 17.62270736694336,
+      "learning_rate": 4.799999999999999e-08,
+      "logits/chosen": -8.540184020996094,
+      "logits/rejected": -8.543420791625977,
+      "logps/chosen": -19.707780838012695,
+      "logps/rejected": -20.16290283203125,
+      "loss": 0.693,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.0030176464933902025,
+      "rewards/margins": -0.0011509121395647526,
+      "rewards/rejected": 0.0041685584001243114,
+      "step": 24
+    },
+    {
+      "epoch": 0.032350882650283845,
+      "grad_norm": 16.926429748535156,
+      "learning_rate": 5.2e-08,
+      "logits/chosen": -8.538769721984863,
+      "logits/rejected": -8.538086891174316,
+      "logps/chosen": -19.7098445892334,
+      "logps/rejected": -20.66897201538086,
+      "loss": 0.6916,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.008400076068937778,
+      "rewards/margins": 0.007839935831725597,
+      "rewards/rejected": 0.0005601405282504857,
+      "step": 26
+    },
+    {
+      "epoch": 0.03483941208492107,
+      "grad_norm": 18.56284523010254,
+      "learning_rate": 5.6000000000000005e-08,
+      "logits/chosen": -8.59467887878418,
+      "logits/rejected": -8.598331451416016,
+      "logps/chosen": -19.65876579284668,
+      "logps/rejected": -21.024742126464844,
+      "loss": 0.6908,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": 0.0018066705670207739,
+      "rewards/margins": 0.0019998070783913136,
+      "rewards/rejected": -0.00019313732627779245,
+      "step": 28
+    },
+    {
+      "epoch": 0.03732794151955829,
+      "grad_norm": 21.694236755371094,
+      "learning_rate": 6e-08,
+      "logits/chosen": -8.572355270385742,
+      "logits/rejected": -8.571603775024414,
+      "logps/chosen": -20.049083709716797,
+      "logps/rejected": -20.9984130859375,
+      "loss": 0.6923,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.005971777252852917,
+      "rewards/margins": 0.005119818728417158,
+      "rewards/rejected": 0.000851958931889385,
+      "step": 30
+    },
+    {
+      "epoch": 0.03981647095419551,
+      "grad_norm": 16.241321563720703,
+      "learning_rate": 6.4e-08,
+      "logits/chosen": -8.562825202941895,
+      "logits/rejected": -8.559341430664062,
+      "logps/chosen": -19.788677215576172,
+      "logps/rejected": -22.27833366394043,
+      "loss": 0.6909,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.00898473896086216,
+      "rewards/margins": 0.007980013266205788,
+      "rewards/rejected": 0.001004725811071694,
+      "step": 32
+    },
+    {
+      "epoch": 0.042305000388832725,
+      "grad_norm": 15.25751781463623,
+      "learning_rate": 6.8e-08,
+      "logits/chosen": -8.537328720092773,
+      "logits/rejected": -8.536065101623535,
+      "logps/chosen": -19.947420120239258,
+      "logps/rejected": -20.413066864013672,
+      "loss": 0.6895,
+      "rewards/accuracies": 0.40625,
+      "rewards/chosen": 0.012961197644472122,
+      "rewards/margins": 0.004598146770149469,
+      "rewards/rejected": 0.008363050408661366,
+      "step": 34
+    },
+    {
+      "epoch": 0.044793529823469944,
+      "grad_norm": 14.963170051574707,
+      "learning_rate": 7.2e-08,
+      "logits/chosen": -8.509790420532227,
+      "logits/rejected": -8.508187294006348,
+      "logps/chosen": -19.888660430908203,
+      "logps/rejected": -21.1895751953125,
+      "loss": 0.6912,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.009081661701202393,
+      "rewards/margins": -0.0005004287231713533,
+      "rewards/rejected": 0.009582090191543102,
+      "step": 36
+    },
+    {
+      "epoch": 0.04728205925810716,
+      "grad_norm": 18.266456604003906,
+      "learning_rate": 7.599999999999999e-08,
+      "logits/chosen": -8.568822860717773,
+      "logits/rejected": -8.561599731445312,
+      "logps/chosen": -19.412778854370117,
+      "logps/rejected": -21.232065200805664,
+      "loss": 0.6888,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.014809131622314453,
+      "rewards/margins": 0.010690288618206978,
+      "rewards/rejected": 0.004118842072784901,
+      "step": 38
+    },
+    {
+      "epoch": 0.04977058869274438,
+      "grad_norm": 14.677323341369629,
+      "learning_rate": 8e-08,
+      "logits/chosen": -8.536760330200195,
+      "logits/rejected": -8.53486442565918,
+      "logps/chosen": -19.251794815063477,
+      "logps/rejected": -20.73238182067871,
+      "loss": 0.6884,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.02103167213499546,
+      "rewards/margins": 0.014653341844677925,
+      "rewards/rejected": 0.006378329358994961,
+      "step": 40
+    },
+    {
+      "epoch": 0.0522591181273816,
+      "grad_norm": 16.190784454345703,
+      "learning_rate": 8.4e-08,
+      "logits/chosen": -8.576179504394531,
+      "logits/rejected": -8.570056915283203,
+      "logps/chosen": -19.145265579223633,
+      "logps/rejected": -21.472909927368164,
+      "loss": 0.6832,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.023112071678042412,
+      "rewards/margins": 0.01841057650744915,
+      "rewards/rejected": 0.004701495170593262,
+      "step": 42
+    },
+    {
+      "epoch": 0.05474764756201882,
+      "grad_norm": 16.223617553710938,
+      "learning_rate": 8.8e-08,
+      "logits/chosen": -8.596827507019043,
+      "logits/rejected": -8.593696594238281,
+      "logps/chosen": -19.458698272705078,
+      "logps/rejected": -22.07959747314453,
+      "loss": 0.6854,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.019634902477264404,
+      "rewards/margins": 0.009581470862030983,
+      "rewards/rejected": 0.01005343347787857,
+      "step": 44
+    },
+    {
+      "epoch": 0.057236176996656035,
+      "grad_norm": 18.054189682006836,
+      "learning_rate": 9.2e-08,
+      "logits/chosen": -8.515829086303711,
+      "logits/rejected": -8.518507957458496,
+      "logps/chosen": -19.346914291381836,
+      "logps/rejected": -20.664581298828125,
+      "loss": 0.6852,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.02714337222278118,
+      "rewards/margins": 0.018132377415895462,
+      "rewards/rejected": 0.009010993875563145,
+      "step": 46
+    },
+    {
+      "epoch": 0.05972470643129326,
+      "grad_norm": 16.656492233276367,
+      "learning_rate": 9.599999999999999e-08,
+      "logits/chosen": -8.556549072265625,
+      "logits/rejected": -8.552871704101562,
+      "logps/chosen": -19.303302764892578,
+      "logps/rejected": -21.03239631652832,
+      "loss": 0.683,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": 0.02841814234852791,
+      "rewards/margins": 0.009238333441317081,
+      "rewards/rejected": 0.0191798098385334,
+      "step": 48
+    },
+    {
+      "epoch": 0.06221323586593048,
+      "grad_norm": 20.20452308654785,
+      "learning_rate": 1e-07,
+      "logits/chosen": -8.545483589172363,
+      "logits/rejected": -8.543842315673828,
+      "logps/chosen": -19.41766357421875,
+      "logps/rejected": -20.42177391052246,
+      "loss": 0.6789,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.04422510415315628,
+      "rewards/margins": 0.015612620860338211,
+      "rewards/rejected": 0.028612488880753517,
+      "step": 50
+    },
+    {
+      "epoch": 0.06470176530056769,
+      "grad_norm": 24.891504287719727,
+      "learning_rate": 1.04e-07,
+      "logits/chosen": -8.607588768005371,
+      "logits/rejected": -8.603867530822754,
+      "logps/chosen": -18.732250213623047,
+      "logps/rejected": -20.440162658691406,
+      "loss": 0.6763,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.0551309809088707,
+      "rewards/margins": 0.027300411835312843,
+      "rewards/rejected": 0.027830563485622406,
+      "step": 52
+    },
+    {
+      "epoch": 0.06719029473520491,
+      "grad_norm": 16.71075439453125,
+      "learning_rate": 1.08e-07,
+      "logits/chosen": -8.612013816833496,
+      "logits/rejected": -8.620227813720703,
+      "logps/chosen": -19.144290924072266,
+      "logps/rejected": -21.313175201416016,
+      "loss": 0.6735,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.055268265306949615,
+      "rewards/margins": 0.018448173999786377,
+      "rewards/rejected": 0.03682009130716324,
+      "step": 54
+    },
+    {
+      "epoch": 0.06967882416984214,
+      "grad_norm": 16.4008731842041,
+      "learning_rate": 1.1200000000000001e-07,
+      "logits/chosen": -8.577086448669434,
+      "logits/rejected": -8.577373504638672,
+      "logps/chosen": -19.10832977294922,
+      "logps/rejected": -20.94004249572754,
+      "loss": 0.67,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.08494649827480316,
+      "rewards/margins": 0.07673299312591553,
+      "rewards/rejected": 0.00821350235491991,
+      "step": 56
+    },
+    {
+      "epoch": 0.07216735360447936,
+      "grad_norm": 16.841827392578125,
+      "learning_rate": 1.1599999999999999e-07,
+      "logits/chosen": -8.605695724487305,
+      "logits/rejected": -8.60230827331543,
+      "logps/chosen": -18.83785057067871,
+      "logps/rejected": -20.39325714111328,
+      "loss": 0.6608,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.09943407773971558,
+      "rewards/margins": 0.056693948805332184,
+      "rewards/rejected": 0.042740125209093094,
+      "step": 58
+    },
+    {
+      "epoch": 0.07465588303911658,
+      "grad_norm": 13.001553535461426,
+      "learning_rate": 1.2e-07,
+      "logits/chosen": -8.603548049926758,
+      "logits/rejected": -8.59605884552002,
+      "logps/chosen": -18.648109436035156,
+      "logps/rejected": -21.481891632080078,
+      "loss": 0.669,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.11114108562469482,
+      "rewards/margins": 0.07050005346536636,
+      "rewards/rejected": 0.040641020983457565,
+      "step": 60
+    },
+    {
+      "epoch": 0.0771444124737538,
+      "grad_norm": 15.323685646057129,
+      "learning_rate": 1.24e-07,
+      "logits/chosen": -8.578253746032715,
+      "logits/rejected": -8.583080291748047,
+      "logps/chosen": -18.79093360900879,
+      "logps/rejected": -21.004188537597656,
+      "loss": 0.6623,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.09713482111692429,
+      "rewards/margins": 0.08084043115377426,
+      "rewards/rejected": 0.016294389963150024,
+      "step": 62
+    },
+    {
+      "epoch": 0.07963294190839101,
+      "grad_norm": 15.759581565856934,
+      "learning_rate": 1.28e-07,
+      "logits/chosen": -8.632579803466797,
+      "logits/rejected": -8.633098602294922,
+      "logps/chosen": -19.03589630126953,
+      "logps/rejected": -19.739320755004883,
+      "loss": 0.6659,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.08635984361171722,
+      "rewards/margins": 0.026760049164295197,
+      "rewards/rejected": 0.05959979444742203,
+      "step": 64
+    },
+    {
+      "epoch": 0.08212147134302823,
+      "grad_norm": 17.24651527404785,
+      "learning_rate": 1.32e-07,
+      "logits/chosen": -8.581168174743652,
+      "logits/rejected": -8.58730697631836,
+      "logps/chosen": -18.668479919433594,
+      "logps/rejected": -20.15326499938965,
+      "loss": 0.6545,
+      "rewards/accuracies": 0.34375,
+      "rewards/chosen": 0.11082541197538376,
+      "rewards/margins": 0.05721277371048927,
+      "rewards/rejected": 0.05361263453960419,
+      "step": 66
+    },
+    {
+      "epoch": 0.08461000077766545,
+      "grad_norm": 15.749670028686523,
+      "learning_rate": 1.36e-07,
+      "logits/chosen": -8.61560344696045,
+      "logits/rejected": -8.611154556274414,
+      "logps/chosen": -18.303152084350586,
+      "logps/rejected": -19.927927017211914,
+      "loss": 0.6474,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.11380369961261749,
+      "rewards/margins": 0.05385800451040268,
+      "rewards/rejected": 0.05994569510221481,
+      "step": 68
+    },
+    {
+      "epoch": 0.08709853021230267,
+      "grad_norm": 12.781956672668457,
+      "learning_rate": 1.3999999999999998e-07,
+      "logits/chosen": -8.647154808044434,
+      "logits/rejected": -8.64340591430664,
+      "logps/chosen": -18.530488967895508,
+      "logps/rejected": -21.09518814086914,
+      "loss": 0.6344,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.09489382803440094,
+      "rewards/margins": 0.09790883958339691,
+      "rewards/rejected": -0.0030150189995765686,
+      "step": 70
+    },
+    {
+      "epoch": 0.08958705964693989,
+      "grad_norm": 17.382856369018555,
+      "learning_rate": 1.44e-07,
+      "logits/chosen": -8.688566207885742,
+      "logits/rejected": -8.68130874633789,
+      "logps/chosen": -18.392457962036133,
+      "logps/rejected": -21.184450149536133,
+      "loss": 0.6359,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.15596625208854675,
+      "rewards/margins": 0.14969393610954285,
+      "rewards/rejected": 0.006272325292229652,
+      "step": 72
+    },
+    {
+      "epoch": 0.0920755890815771,
+      "grad_norm": 15.962898254394531,
+      "learning_rate": 1.48e-07,
+      "logits/chosen": -8.606751441955566,
+      "logits/rejected": -8.611197471618652,
+      "logps/chosen": -18.305513381958008,
+      "logps/rejected": -19.879587173461914,
+      "loss": 0.645,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.12204354256391525,
+      "rewards/margins": 0.08846110850572586,
+      "rewards/rejected": 0.033582430332899094,
+      "step": 74
+    },
+    {
+      "epoch": 0.09456411851621432,
+      "grad_norm": 13.271502494812012,
+      "learning_rate": 1.5199999999999998e-07,
+      "logits/chosen": -8.667201042175293,
+      "logits/rejected": -8.660648345947266,
+      "logps/chosen": -17.87550163269043,
+      "logps/rejected": -22.162200927734375,
+      "loss": 0.6347,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.16138336062431335,
+      "rewards/margins": 0.2212599217891693,
+      "rewards/rejected": -0.05987655371427536,
+      "step": 76
+    },
+    {
+      "epoch": 0.09705264795085154,
+      "grad_norm": 16.390241622924805,
+      "learning_rate": 1.56e-07,
+      "logits/chosen": -8.688274383544922,
+      "logits/rejected": -8.691550254821777,
+      "logps/chosen": -17.953575134277344,
+      "logps/rejected": -20.76350975036621,
+      "loss": 0.6144,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.17836935818195343,
+      "rewards/margins": 0.19364455342292786,
+      "rewards/rejected": -0.015275197103619576,
+      "step": 78
+    },
+    {
+      "epoch": 0.09954117738548876,
+      "grad_norm": 15.825705528259277,
+      "learning_rate": 1.6e-07,
+      "logits/chosen": -8.705053329467773,
+      "logits/rejected": -8.703741073608398,
+      "logps/chosen": -17.36956214904785,
+      "logps/rejected": -20.16948699951172,
+      "loss": 0.6082,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.21468374133110046,
+      "rewards/margins": 0.16676171123981476,
+      "rewards/rejected": 0.047922030091285706,
+      "step": 80
+    },
+    {
+      "epoch": 0.10202970682012598,
+      "grad_norm": 12.957328796386719,
+      "learning_rate": 1.6399999999999999e-07,
+      "logits/chosen": -8.75626277923584,
+      "logits/rejected": -8.74040412902832,
+      "logps/chosen": -17.067930221557617,
+      "logps/rejected": -22.307281494140625,
+      "loss": 0.6413,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.2129230797290802,
+      "rewards/margins": 0.18479734659194946,
+      "rewards/rejected": 0.028125721961259842,
+      "step": 82
+    },
+    {
+      "epoch": 0.1045182362547632,
+      "grad_norm": 13.57359790802002,
+      "learning_rate": 1.68e-07,
+      "logits/chosen": -8.718564987182617,
+      "logits/rejected": -8.713239669799805,
+      "logps/chosen": -17.5963191986084,
+      "logps/rejected": -20.626909255981445,
+      "loss": 0.5871,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.22969385981559753,
+      "rewards/margins": 0.2725743055343628,
+      "rewards/rejected": -0.04288046061992645,
+      "step": 84
+    },
+    {
+      "epoch": 0.10700676568940042,
+      "grad_norm": 14.668142318725586,
+      "learning_rate": 1.7199999999999998e-07,
+      "logits/chosen": -8.742430686950684,
+      "logits/rejected": -8.736662864685059,
+      "logps/chosen": -17.29840087890625,
+      "logps/rejected": -20.9152774810791,
+      "loss": 0.5944,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.24599871039390564,
+      "rewards/margins": 0.19602137804031372,
+      "rewards/rejected": 0.04997733607888222,
+      "step": 86
+    },
+    {
+      "epoch": 0.10949529512403763,
+      "grad_norm": 13.517839431762695,
+      "learning_rate": 1.76e-07,
+      "logits/chosen": -8.74644660949707,
+      "logits/rejected": -8.741128921508789,
+      "logps/chosen": -18.208316802978516,
+      "logps/rejected": -20.95924186706543,
+      "loss": 0.5832,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.1770203858613968,
+      "rewards/margins": 0.20000134408473969,
+      "rewards/rejected": -0.02298097498714924,
+      "step": 88
+    },
+    {
+      "epoch": 0.11198382455867485,
+      "grad_norm": 14.526153564453125,
+      "learning_rate": 1.8e-07,
+      "logits/chosen": -8.777999877929688,
+      "logits/rejected": -8.7716064453125,
+      "logps/chosen": -17.826597213745117,
+      "logps/rejected": -21.285959243774414,
+      "loss": 0.598,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.2064908891916275,
+      "rewards/margins": 0.21266929805278778,
+      "rewards/rejected": -0.006178388372063637,
+      "step": 90
+    },
+    {
+      "epoch": 0.11447235399331207,
+      "grad_norm": 13.02405071258545,
+      "learning_rate": 1.84e-07,
+      "logits/chosen": -8.76659107208252,
+      "logits/rejected": -8.7636137008667,
+      "logps/chosen": -15.862499237060547,
+      "logps/rejected": -21.03166961669922,
+      "loss": 0.5809,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.38346582651138306,
+      "rewards/margins": 0.32261720299720764,
+      "rewards/rejected": 0.06084863096475601,
+      "step": 92
+    },
+    {
+      "epoch": 0.1169608834279493,
+      "grad_norm": 18.641281127929688,
+      "learning_rate": 1.88e-07,
+      "logits/chosen": -8.802270889282227,
+      "logits/rejected": -8.805696487426758,
+      "logps/chosen": -16.71821403503418,
+      "logps/rejected": -22.06218719482422,
+      "loss": 0.5603,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.3121083378791809,
+      "rewards/margins": 0.39846479892730713,
+      "rewards/rejected": -0.08635643124580383,
+      "step": 94
+    },
+    {
+      "epoch": 0.11944941286258652,
+      "grad_norm": 16.298860549926758,
+      "learning_rate": 1.9199999999999997e-07,
+      "logits/chosen": -8.818174362182617,
+      "logits/rejected": -8.824502944946289,
+      "logps/chosen": -16.564563751220703,
+      "logps/rejected": -23.763525009155273,
+      "loss": 0.6015,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.34817051887512207,
+      "rewards/margins": 0.5704269409179688,
+      "rewards/rejected": -0.22225642204284668,
+      "step": 96
+    },
+    {
+      "epoch": 0.12193794229722374,
+      "grad_norm": 14.215975761413574,
+      "learning_rate": 1.9599999999999998e-07,
+      "logits/chosen": -8.825958251953125,
+      "logits/rejected": -8.826086044311523,
+      "logps/chosen": -15.48016357421875,
+      "logps/rejected": -20.841205596923828,
+      "loss": 0.538,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.39705175161361694,
+      "rewards/margins": 0.400934100151062,
+      "rewards/rejected": -0.0038823671638965607,
+      "step": 98
+    },
+    {
+      "epoch": 0.12442647173186096,
+      "grad_norm": 16.136260986328125,
+      "learning_rate": 2e-07,
+      "logits/chosen": -8.880749702453613,
+      "logits/rejected": -8.883033752441406,
+      "logps/chosen": -16.68779754638672,
+      "logps/rejected": -22.28444480895996,
+      "loss": 0.5592,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.29526305198669434,
+      "rewards/margins": 0.31994372606277466,
+      "rewards/rejected": -0.024680666625499725,
+      "step": 100
+    },
+    {
+      "epoch": 0.12691500116649818,
+      "grad_norm": 11.975736618041992,
+      "learning_rate": 1.9999912967959193e-07,
+      "logits/chosen": -8.860143661499023,
+      "logits/rejected": -8.86205768585205,
+      "logps/chosen": -17.55360984802246,
+      "logps/rejected": -21.784170150756836,
+      "loss": 0.5595,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.2309499979019165,
+      "rewards/margins": 0.38108476996421814,
+      "rewards/rejected": -0.15013480186462402,
+      "step": 102
+    },
+    {
+      "epoch": 0.12940353060113538,
+      "grad_norm": 18.36198616027832,
+      "learning_rate": 1.9999651873351697e-07,
+      "logits/chosen": -9.008296012878418,
+      "logits/rejected": -9.004230499267578,
+      "logps/chosen": -16.668292999267578,
+      "logps/rejected": -23.896669387817383,
+      "loss": 0.5464,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.2868964970111847,
+      "rewards/margins": 0.5235461592674255,
+      "rewards/rejected": -0.23664967715740204,
+      "step": 104
+    },
+    {
+      "epoch": 0.1318920600357726,
+      "grad_norm": 14.173635482788086,
+      "learning_rate": 1.9999216720722225e-07,
+      "logits/chosen": -8.964408874511719,
+      "logits/rejected": -8.964458465576172,
+      "logps/chosen": -17.061552047729492,
+      "logps/rejected": -22.099225997924805,
+      "loss": 0.5676,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.27272963523864746,
+      "rewards/margins": 0.4854954481124878,
+      "rewards/rejected": -0.21276575326919556,
+      "step": 106
+    },
+    {
+      "epoch": 0.13438058947040982,
+      "grad_norm": 16.8449649810791,
+      "learning_rate": 1.9998607517645224e-07,
+      "logits/chosen": -8.979196548461914,
+      "logits/rejected": -8.98009204864502,
+      "logps/chosen": -17.901762008666992,
+      "logps/rejected": -24.073875427246094,
+      "loss": 0.5485,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.13536885380744934,
+      "rewards/margins": 0.42412030696868896,
+      "rewards/rejected": -0.288751482963562,
+      "step": 108
+    },
+    {
+      "epoch": 0.13686911890504705,
+      "grad_norm": 28.936660766601562,
+      "learning_rate": 1.999782427472473e-07,
+      "logits/chosen": -9.045791625976562,
+      "logits/rejected": -9.039963722229004,
+      "logps/chosen": -16.731870651245117,
+      "logps/rejected": -26.66473388671875,
+      "loss": 0.5624,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.25328633189201355,
+      "rewards/margins": 0.8449252843856812,
+      "rewards/rejected": -0.59163898229599,
+      "step": 110
+    },
+    {
+      "epoch": 0.13935764833968428,
+      "grad_norm": 18.33436393737793,
+      "learning_rate": 1.999686700559419e-07,
+      "logits/chosen": -9.02384090423584,
+      "logits/rejected": -9.014776229858398,
+      "logps/chosen": -18.88771629333496,
+      "logps/rejected": -24.14249610900879,
+      "loss": 0.5305,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.08465789258480072,
+      "rewards/margins": 0.37757688760757446,
+      "rewards/rejected": -0.29291898012161255,
+      "step": 112
+    },
+    {
+      "epoch": 0.14184617777432149,
+      "grad_norm": 25.633602142333984,
+      "learning_rate": 1.999573572691622e-07,
+      "logits/chosen": -9.000776290893555,
+      "logits/rejected": -8.993227005004883,
+      "logps/chosen": -18.04814910888672,
+      "logps/rejected": -25.174577713012695,
+      "loss": 0.5781,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.2125498652458191,
+      "rewards/margins": 0.5575488805770874,
+      "rewards/rejected": -0.3449990451335907,
+      "step": 114
+    },
+    {
+      "epoch": 0.14433470720895872,
+      "grad_norm": 10.812458992004395,
+      "learning_rate": 1.999443045838232e-07,
+      "logits/chosen": -9.030634880065918,
+      "logits/rejected": -9.025775909423828,
+      "logps/chosen": -17.7805233001709,
+      "logps/rejected": -22.88439178466797,
+      "loss": 0.5281,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.1730048954486847,
+      "rewards/margins": 0.405536949634552,
+      "rewards/rejected": -0.2325320839881897,
+      "step": 116
+    },
+    {
+      "epoch": 0.14682323664359592,
+      "grad_norm": 16.74372100830078,
+      "learning_rate": 1.9992951222712526e-07,
+      "logits/chosen": -9.020282745361328,
+      "logits/rejected": -9.020416259765625,
+      "logps/chosen": -15.534096717834473,
+      "logps/rejected": -22.866004943847656,
+      "loss": 0.6111,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.38476091623306274,
+      "rewards/margins": 0.5596073865890503,
+      "rewards/rejected": -0.17484650015830994,
+      "step": 118
+    },
+    {
+      "epoch": 0.14931176607823315,
+      "grad_norm": 23.30404281616211,
+      "learning_rate": 1.9991298045655018e-07,
+      "logits/chosen": -9.035176277160645,
+      "logits/rejected": -9.032398223876953,
+      "logps/chosen": -17.55657386779785,
+      "logps/rejected": -26.142824172973633,
+      "loss": 0.5245,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.18032175302505493,
+      "rewards/margins": 0.6557128429412842,
+      "rewards/rejected": -0.47539106011390686,
+      "step": 120
+    },
+    {
+      "epoch": 0.15180029551287036,
+      "grad_norm": 14.396564483642578,
+      "learning_rate": 1.998947095598567e-07,
+      "logits/chosen": -9.117429733276367,
+      "logits/rejected": -9.110812187194824,
+      "logps/chosen": -17.622241973876953,
+      "logps/rejected": -27.370853424072266,
+      "loss": 0.5262,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.16402824223041534,
+      "rewards/margins": 0.7267845869064331,
+      "rewards/rejected": -0.5627564191818237,
+      "step": 122
+    },
+    {
+      "epoch": 0.1542888249475076,
+      "grad_norm": 15.119366645812988,
+      "learning_rate": 1.9987469985507553e-07,
+      "logits/chosen": -9.130364418029785,
+      "logits/rejected": -9.125833511352539,
+      "logps/chosen": -17.56825065612793,
+      "logps/rejected": -28.01288604736328,
+      "loss": 0.5107,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.21676237881183624,
+      "rewards/margins": 0.8854523301124573,
+      "rewards/rejected": -0.6686899662017822,
+      "step": 124
+    },
+    {
+      "epoch": 0.1567773543821448,
+      "grad_norm": 21.644506454467773,
+      "learning_rate": 1.998529516905037e-07,
+      "logits/chosen": -9.098435401916504,
+      "logits/rejected": -9.094581604003906,
+      "logps/chosen": -19.121227264404297,
+      "logps/rejected": -30.053340911865234,
+      "loss": 0.4886,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.07076660543680191,
+      "rewards/margins": 0.932623565196991,
+      "rewards/rejected": -0.8618570566177368,
+      "step": 126
+    },
+    {
+      "epoch": 0.15926588381678203,
+      "grad_norm": 35.0294075012207,
+      "learning_rate": 1.9982946544469873e-07,
+      "logits/chosen": -9.136703491210938,
+      "logits/rejected": -9.12898063659668,
+      "logps/chosen": -18.50391960144043,
+      "logps/rejected": -27.828046798706055,
+      "loss": 0.4799,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.10612374544143677,
+      "rewards/margins": 0.7902819514274597,
+      "rewards/rejected": -0.684158205986023,
+      "step": 128
+    },
+    {
+      "epoch": 0.16175441325141923,
+      "grad_norm": 38.45008850097656,
+      "learning_rate": 1.998042415264717e-07,
+      "logits/chosen": -9.159875869750977,
+      "logits/rejected": -9.147388458251953,
+      "logps/chosen": -20.662490844726562,
+      "logps/rejected": -29.619304656982422,
+      "loss": 0.548,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.08870640397071838,
+      "rewards/margins": 0.7114084362983704,
+      "rewards/rejected": -0.8001148700714111,
+      "step": 130
+    },
+    {
+      "epoch": 0.16424294268605646,
+      "grad_norm": 28.315170288085938,
+      "learning_rate": 1.9977728037488052e-07,
+      "logits/chosen": -9.15986442565918,
+      "logits/rejected": -9.157817840576172,
+      "logps/chosen": -20.2763729095459,
+      "logps/rejected": -33.783477783203125,
+      "loss": 0.4627,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.037529222667217255,
+      "rewards/margins": 1.0695040225982666,
+      "rewards/rejected": -1.107033371925354,
+      "step": 132
+    },
+    {
+      "epoch": 0.16673147212069367,
+      "grad_norm": 21.323104858398438,
+      "learning_rate": 1.997485824592219e-07,
+      "logits/chosen": -9.208675384521484,
+      "logits/rejected": -9.192635536193848,
+      "logps/chosen": -19.550199508666992,
+      "logps/rejected": -26.343074798583984,
+      "loss": 0.5246,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": 0.02641334757208824,
+      "rewards/margins": 0.5776631236076355,
+      "rewards/rejected": -0.5512497425079346,
+      "step": 134
+    },
+    {
+      "epoch": 0.1692200015553309,
+      "grad_norm": 29.985876083374023,
+      "learning_rate": 1.9971814827902358e-07,
+      "logits/chosen": -9.221104621887207,
+      "logits/rejected": -9.216848373413086,
+      "logps/chosen": -22.838146209716797,
+      "logps/rejected": -31.784713745117188,
+      "loss": 0.5388,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -0.3149062395095825,
+      "rewards/margins": 0.7826359868049622,
+      "rewards/rejected": -1.0975421667099,
+      "step": 136
+    },
+    {
+      "epoch": 0.1717085309899681,
+      "grad_norm": 15.736723899841309,
+      "learning_rate": 1.9968597836403526e-07,
+      "logits/chosen": -9.228645324707031,
+      "logits/rejected": -9.21766471862793,
+      "logps/chosen": -20.791954040527344,
+      "logps/rejected": -28.265531539916992,
+      "loss": 0.4668,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.11357627809047699,
+      "rewards/margins": 0.5977270007133484,
+      "rewards/rejected": -0.7113032937049866,
+      "step": 138
+    },
+    {
+      "epoch": 0.17419706042460534,
+      "grad_norm": 50.7906494140625,
+      "learning_rate": 1.996520732742196e-07,
+      "logits/chosen": -9.251056671142578,
+      "logits/rejected": -9.242652893066406,
+      "logps/chosen": -19.502155303955078,
+      "logps/rejected": -29.356983184814453,
+      "loss": 0.5062,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.013151494786143303,
+      "rewards/margins": 0.8723371624946594,
+      "rewards/rejected": -0.8591855764389038,
+      "step": 140
+    },
+    {
+      "epoch": 0.17668558985924254,
+      "grad_norm": 43.770111083984375,
+      "learning_rate": 1.9961643359974246e-07,
+      "logits/chosen": -9.204290390014648,
+      "logits/rejected": -9.198491096496582,
+      "logps/chosen": -22.312679290771484,
+      "logps/rejected": -33.29023361206055,
+      "loss": 0.4929,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -0.2747809588909149,
+      "rewards/margins": 0.9309358596801758,
+      "rewards/rejected": -1.2057169675827026,
+      "step": 142
+    },
+    {
+      "epoch": 0.17917411929387977,
+      "grad_norm": 27.363767623901367,
+      "learning_rate": 1.9957905996096255e-07,
+      "logits/chosen": -9.238862991333008,
+      "logits/rejected": -9.237763404846191,
+      "logps/chosen": -20.754629135131836,
+      "logps/rejected": -31.203163146972656,
+      "loss": 0.56,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.11203606426715851,
+      "rewards/margins": 0.8861032128334045,
+      "rewards/rejected": -0.9981392025947571,
+      "step": 144
+    },
+    {
+      "epoch": 0.18166264872851698,
+      "grad_norm": 26.773109436035156,
+      "learning_rate": 1.995399530084207e-07,
+      "logits/chosen": -9.203154563903809,
+      "logits/rejected": -9.18564510345459,
+      "logps/chosen": -18.313858032226562,
+      "logps/rejected": -29.451557159423828,
+      "loss": 0.4765,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.16997140645980835,
+      "rewards/margins": 0.9171326160430908,
+      "rewards/rejected": -0.7471612095832825,
+      "step": 146
+    },
+    {
+      "epoch": 0.1841511781631542,
+      "grad_norm": 13.761429786682129,
+      "learning_rate": 1.9949911342282846e-07,
+      "logits/chosen": -9.222537994384766,
+      "logits/rejected": -9.217859268188477,
+      "logps/chosen": -19.177597045898438,
+      "logps/rejected": -28.8922061920166,
+      "loss": 0.4533,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.03430275619029999,
+      "rewards/margins": 0.8334075808525085,
+      "rewards/rejected": -0.7991048097610474,
+      "step": 148
+    },
+    {
+      "epoch": 0.18663970759779144,
+      "grad_norm": 61.90821838378906,
+      "learning_rate": 1.9945654191505638e-07,
+      "logits/chosen": -9.261637687683105,
+      "logits/rejected": -9.260200500488281,
+      "logps/chosen": -23.49287223815918,
+      "logps/rejected": -30.7335205078125,
+      "loss": 0.4989,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.3344833552837372,
+      "rewards/margins": 0.5594504475593567,
+      "rewards/rejected": -0.8939337730407715,
+      "step": 150
+    },
+    {
+      "epoch": 0.18912823703242865,
+      "grad_norm": 17.656587600708008,
+      "learning_rate": 1.994122392261214e-07,
+      "logits/chosen": -9.284716606140137,
+      "logits/rejected": -9.282418251037598,
+      "logps/chosen": -19.6474666595459,
+      "logps/rejected": -30.065284729003906,
+      "loss": 0.5296,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.015444964170455933,
+      "rewards/margins": 0.8735701441764832,
+      "rewards/rejected": -0.8581251502037048,
+      "step": 152
+    },
+    {
+      "epoch": 0.19161676646706588,
+      "grad_norm": 20.189306259155273,
+      "learning_rate": 1.993662061271743e-07,
+      "logits/chosen": -9.253211975097656,
+      "logits/rejected": -9.249473571777344,
+      "logps/chosen": -19.910655975341797,
+      "logps/rejected": -30.6898250579834,
+      "loss": 0.4382,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.013355985283851624,
+      "rewards/margins": 0.9242681860923767,
+      "rewards/rejected": -0.910912275314331,
+      "step": 154
+    },
+    {
+      "epoch": 0.19410529590170308,
+      "grad_norm": 12.857466697692871,
+      "learning_rate": 1.9931844341948595e-07,
+      "logits/chosen": -9.299551010131836,
+      "logits/rejected": -9.287611961364746,
+      "logps/chosen": -17.835792541503906,
+      "logps/rejected": -27.914581298828125,
+      "loss": 0.516,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.19477468729019165,
+      "rewards/margins": 0.9285681247711182,
+      "rewards/rejected": -0.7337933778762817,
+      "step": 156
+    },
+    {
+      "epoch": 0.19659382533634032,
+      "grad_norm": 45.340057373046875,
+      "learning_rate": 1.992689519344335e-07,
+      "logits/chosen": -9.326805114746094,
+      "logits/rejected": -9.327227592468262,
+      "logps/chosen": -17.48393440246582,
+      "logps/rejected": -32.09006118774414,
+      "loss": 0.5147,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.19174876809120178,
+      "rewards/margins": 1.3054662942886353,
+      "rewards/rejected": -1.1137175559997559,
+      "step": 158
+    },
+    {
+      "epoch": 0.19908235477097752,
+      "grad_norm": 10.167734146118164,
+      "learning_rate": 1.99217732533486e-07,
+      "logits/chosen": -9.353466987609863,
+      "logits/rejected": -9.34415340423584,
+      "logps/chosen": -19.550811767578125,
+      "logps/rejected": -34.92933654785156,
+      "loss": 0.4368,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.04536038637161255,
+      "rewards/margins": 1.3717796802520752,
+      "rewards/rejected": -1.3264191150665283,
+      "step": 160
+    },
+    {
+      "epoch": 0.20157088420561475,
+      "grad_norm": 16.422836303710938,
+      "learning_rate": 1.9916478610818926e-07,
+      "logits/chosen": -9.313919067382812,
+      "logits/rejected": -9.310321807861328,
+      "logps/chosen": -16.113378524780273,
+      "logps/rejected": -29.29367446899414,
+      "loss": 0.4864,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.3432523012161255,
+      "rewards/margins": 1.182944655418396,
+      "rewards/rejected": -0.8396923542022705,
+      "step": 162
+    },
+    {
+      "epoch": 0.20405941364025196,
+      "grad_norm": 27.783618927001953,
+      "learning_rate": 1.991101135801503e-07,
+      "logits/chosen": -9.320996284484863,
+      "logits/rejected": -9.316065788269043,
+      "logps/chosen": -17.58643341064453,
+      "logps/rejected": -28.65947723388672,
+      "loss": 0.5011,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.19828316569328308,
+      "rewards/margins": 0.9813191890716553,
+      "rewards/rejected": -0.7830360531806946,
+      "step": 164
+    },
+    {
+      "epoch": 0.2065479430748892,
+      "grad_norm": 19.500553131103516,
+      "learning_rate": 1.9905371590102153e-07,
+      "logits/chosen": -9.372833251953125,
+      "logits/rejected": -9.370935440063477,
+      "logps/chosen": -18.47743034362793,
+      "logps/rejected": -26.911376953125,
+      "loss": 0.538,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.09590527415275574,
+      "rewards/margins": 0.6760827302932739,
+      "rewards/rejected": -0.5801774263381958,
+      "step": 166
+    },
+    {
+      "epoch": 0.2090364725095264,
+      "grad_norm": 27.669677734375,
+      "learning_rate": 1.9899559405248388e-07,
+      "logits/chosen": -9.374287605285645,
+      "logits/rejected": -9.373881340026855,
+      "logps/chosen": -15.295317649841309,
+      "logps/rejected": -34.18861770629883,
+      "loss": 0.5472,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.4141235947608948,
+      "rewards/margins": 1.364396095275879,
+      "rewards/rejected": -0.9502725601196289,
+      "step": 168
+    },
+    {
+      "epoch": 0.21152500194416363,
+      "grad_norm": 22.842920303344727,
+      "learning_rate": 1.989357490462301e-07,
+      "logits/chosen": -9.319723129272461,
+      "logits/rejected": -9.32624626159668,
+      "logps/chosen": -19.469131469726562,
+      "logps/rejected": -37.51130294799805,
+      "loss": 0.4781,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.07396829128265381,
+      "rewards/margins": 1.7476369142532349,
+      "rewards/rejected": -1.6736687421798706,
+      "step": 170
+    },
+    {
+      "epoch": 0.21401353137880083,
+      "grad_norm": 11.154265403747559,
+      "learning_rate": 1.9887418192394667e-07,
+      "logits/chosen": -9.398538589477539,
+      "logits/rejected": -9.401283264160156,
+      "logps/chosen": -16.264039993286133,
+      "logps/rejected": -29.0064697265625,
+      "loss": 0.5049,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.3376733362674713,
+      "rewards/margins": 1.1871578693389893,
+      "rewards/rejected": -0.8494843244552612,
+      "step": 172
+    },
+    {
+      "epoch": 0.21650206081343806,
+      "grad_norm": 43.47061538696289,
+      "learning_rate": 1.988108937572961e-07,
+      "logits/chosen": -9.40210247039795,
+      "logits/rejected": -9.404796600341797,
+      "logps/chosen": -16.69172477722168,
+      "logps/rejected": -37.235233306884766,
+      "loss": 0.4626,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.2799179255962372,
+      "rewards/margins": 1.9553802013397217,
+      "rewards/rejected": -1.675462245941162,
+      "step": 174
+    },
+    {
+      "epoch": 0.21899059024807527,
+      "grad_norm": 15.931415557861328,
+      "learning_rate": 1.9874588564789807e-07,
+      "logits/chosen": -9.343095779418945,
+      "logits/rejected": -9.346274375915527,
+      "logps/chosen": -16.009265899658203,
+      "logps/rejected": -30.546024322509766,
+      "loss": 0.5019,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.3333309590816498,
+      "rewards/margins": 1.2617723941802979,
+      "rewards/rejected": -0.9284414052963257,
+      "step": 176
+    },
+    {
+      "epoch": 0.2214791196827125,
+      "grad_norm": 28.591938018798828,
+      "learning_rate": 1.9867915872731026e-07,
+      "logits/chosen": -9.375213623046875,
+      "logits/rejected": -9.374944686889648,
+      "logps/chosen": -17.911828994750977,
+      "logps/rejected": -32.99147415161133,
+      "loss": 0.4871,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.19199912250041962,
+      "rewards/margins": 1.350414752960205,
+      "rewards/rejected": -1.158415675163269,
+      "step": 178
+    },
+    {
+      "epoch": 0.2239676491173497,
+      "grad_norm": 14.52786922454834,
+      "learning_rate": 1.9861071415700865e-07,
+      "logits/chosen": -9.391042709350586,
+      "logits/rejected": -9.390913009643555,
+      "logps/chosen": -18.24542808532715,
+      "logps/rejected": -26.74252700805664,
+      "loss": 0.4935,
+      "rewards/accuracies": 0.3125,
+      "rewards/chosen": 0.15805837512016296,
+      "rewards/margins": 0.7857470512390137,
+      "rewards/rejected": -0.6276885867118835,
+      "step": 180
+    },
+    {
+      "epoch": 0.22645617855198694,
+      "grad_norm": 55.55089569091797,
+      "learning_rate": 1.985405531283674e-07,
+      "logits/chosen": -9.418764114379883,
+      "logits/rejected": -9.409722328186035,
+      "logps/chosen": -20.086597442626953,
+      "logps/rejected": -24.89283561706543,
+      "loss": 0.5752,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.003023482859134674,
+      "rewards/margins": 0.4125884175300598,
+      "rewards/rejected": -0.4095650017261505,
+      "step": 182
+    },
+    {
+      "epoch": 0.22894470798662414,
+      "grad_norm": 46.99595642089844,
+      "learning_rate": 1.9846867686263799e-07,
+      "logits/chosen": -9.409528732299805,
+      "logits/rejected": -9.408747673034668,
+      "logps/chosen": -17.29286766052246,
+      "logps/rejected": -26.266542434692383,
+      "loss": 0.4659,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.2462991327047348,
+      "rewards/margins": 0.805095911026001,
+      "rewards/rejected": -0.558796763420105,
+      "step": 184
+    },
+    {
+      "epoch": 0.23143323742126137,
+      "grad_norm": 26.25751304626465,
+      "learning_rate": 1.9839508661092806e-07,
+      "logits/chosen": -9.408573150634766,
+      "logits/rejected": -9.404827117919922,
+      "logps/chosen": -17.682165145874023,
+      "logps/rejected": -25.108007431030273,
+      "loss": 0.5339,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.19006188213825226,
+      "rewards/margins": 0.6660159230232239,
+      "rewards/rejected": -0.4759540557861328,
+      "step": 186
+    },
+    {
+      "epoch": 0.2339217668558986,
+      "grad_norm": 16.51674461364746,
+      "learning_rate": 1.9831978365417953e-07,
+      "logits/chosen": -9.439018249511719,
+      "logits/rejected": -9.429779052734375,
+      "logps/chosen": -15.307194709777832,
+      "logps/rejected": -26.346969604492188,
+      "loss": 0.4216,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.4153028130531311,
+      "rewards/margins": 1.0114580392837524,
+      "rewards/rejected": -0.5961551666259766,
+      "step": 188
+    },
+    {
+      "epoch": 0.2364102962905358,
+      "grad_norm": 46.4056510925293,
+      "learning_rate": 1.9824276930314647e-07,
+      "logits/chosen": -9.408596992492676,
+      "logits/rejected": -9.400983810424805,
+      "logps/chosen": -15.272623062133789,
+      "logps/rejected": -27.1292781829834,
+      "loss": 0.4819,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.4343327283859253,
+      "rewards/margins": 0.9968538284301758,
+      "rewards/rejected": -0.5625210404396057,
+      "step": 190
+    },
+    {
+      "epoch": 0.23889882572517304,
+      "grad_norm": 32.07144546508789,
+      "learning_rate": 1.9816404489837204e-07,
+      "logits/chosen": -9.396240234375,
+      "logits/rejected": -9.3930025100708,
+      "logps/chosen": -16.337390899658203,
+      "logps/rejected": -26.63323402404785,
+      "loss": 0.4873,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.301342248916626,
+      "rewards/margins": 0.8256509304046631,
+      "rewards/rejected": -0.5243086814880371,
+      "step": 192
+    },
+    {
+      "epoch": 0.24138735515981025,
+      "grad_norm": 26.832477569580078,
+      "learning_rate": 1.9808361181016542e-07,
+      "logits/chosen": -9.46484088897705,
+      "logits/rejected": -9.460317611694336,
+      "logps/chosen": -21.193286895751953,
+      "logps/rejected": -29.85598373413086,
+      "loss": 0.4748,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -0.18377268314361572,
+      "rewards/margins": 0.680008590221405,
+      "rewards/rejected": -0.8637812733650208,
+      "step": 194
+    },
+    {
+      "epoch": 0.24387588459444748,
+      "grad_norm": 12.50967788696289,
+      "learning_rate": 1.9800147143857771e-07,
+      "logits/chosen": -9.455909729003906,
+      "logits/rejected": -9.456053733825684,
+      "logps/chosen": -15.240760803222656,
+      "logps/rejected": -27.246076583862305,
+      "loss": 0.3792,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.4301217496395111,
+      "rewards/margins": 1.1436573266983032,
+      "rewards/rejected": -0.7135355472564697,
+      "step": 196
+    },
+    {
+      "epoch": 0.24636441402908468,
+      "grad_norm": 38.926544189453125,
+      "learning_rate": 1.9791762521337777e-07,
+      "logits/chosen": -9.423653602600098,
+      "logits/rejected": -9.416614532470703,
+      "logps/chosen": -16.750608444213867,
+      "logps/rejected": -24.915727615356445,
+      "loss": 0.5402,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.28784477710723877,
+      "rewards/margins": 0.7269585132598877,
+      "rewards/rejected": -0.4391136169433594,
+      "step": 198
+    },
+    {
+      "epoch": 0.24885294346372192,
+      "grad_norm": 31.587753295898438,
+      "learning_rate": 1.9783207459402725e-07,
+      "logits/chosen": -9.47320556640625,
+      "logits/rejected": -9.471879959106445,
+      "logps/chosen": -13.538104057312012,
+      "logps/rejected": -24.703128814697266,
+      "loss": 0.4847,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.5815821886062622,
+      "rewards/margins": 0.9895855784416199,
+      "rewards/rejected": -0.4080033302307129,
+      "step": 200
+    },
+    {
+      "epoch": 0.2513414728983591,
+      "grad_norm": 27.010929107666016,
+      "learning_rate": 1.977448210696551e-07,
+      "logits/chosen": -9.479096412658691,
+      "logits/rejected": -9.474900245666504,
+      "logps/chosen": -16.245468139648438,
+      "logps/rejected": -34.69401168823242,
+      "loss": 0.51,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.35491758584976196,
+      "rewards/margins": 1.7199066877365112,
+      "rewards/rejected": -1.364989161491394,
+      "step": 202
+    },
+    {
+      "epoch": 0.25383000233299635,
+      "grad_norm": 43.85017013549805,
+      "learning_rate": 1.976558661590318e-07,
+      "logits/chosen": -9.461448669433594,
+      "logits/rejected": -9.450841903686523,
+      "logps/chosen": -17.49358558654785,
+      "logps/rejected": -30.989177703857422,
+      "loss": 0.4728,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.21994081139564514,
+      "rewards/margins": 1.2275452613830566,
+      "rewards/rejected": -1.0076044797897339,
+      "step": 204
+    },
+    {
+      "epoch": 0.2563185317676336,
+      "grad_norm": 38.13467788696289,
+      "learning_rate": 1.9756521141054285e-07,
+      "logits/chosen": -9.526660919189453,
+      "logits/rejected": -9.524894714355469,
+      "logps/chosen": -14.988713264465332,
+      "logps/rejected": -32.67056655883789,
+      "loss": 0.4855,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.43298542499542236,
+      "rewards/margins": 1.6068240404129028,
+      "rewards/rejected": -1.1738386154174805,
+      "step": 206
+    },
+    {
+      "epoch": 0.25880706120227076,
+      "grad_norm": 51.09210205078125,
+      "learning_rate": 1.974728584021618e-07,
+      "logits/chosen": -9.45738697052002,
+      "logits/rejected": -9.453941345214844,
+      "logps/chosen": -16.546995162963867,
+      "logps/rejected": -29.12355613708496,
+      "loss": 0.5052,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.29561346769332886,
+      "rewards/margins": 1.0502290725708008,
+      "rewards/rejected": -0.7546156048774719,
+      "step": 208
+    },
+    {
+      "epoch": 0.261295590636908,
+      "grad_norm": 30.423917770385742,
+      "learning_rate": 1.9737880874142276e-07,
+      "logits/chosen": -9.501260757446289,
+      "logits/rejected": -9.494329452514648,
+      "logps/chosen": -17.530241012573242,
+      "logps/rejected": -29.84609603881836,
+      "loss": 0.4858,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.26590919494628906,
+      "rewards/margins": 1.1544338464736938,
+      "rewards/rejected": -0.88852459192276,
+      "step": 210
+    },
+    {
+      "epoch": 0.2637841200715452,
+      "grad_norm": 46.101802825927734,
+      "learning_rate": 1.9728306406539256e-07,
+      "logits/chosen": -9.478811264038086,
+      "logits/rejected": -9.477397918701172,
+      "logps/chosen": -14.976519584655762,
+      "logps/rejected": -24.933269500732422,
+      "loss": 0.5072,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.48801910877227783,
+      "rewards/margins": 0.8062196969985962,
+      "rewards/rejected": -0.31820055842399597,
+      "step": 212
+    },
+    {
+      "epoch": 0.26627264950618246,
+      "grad_norm": 21.559123992919922,
+      "learning_rate": 1.971856260406421e-07,
+      "logits/chosen": -9.45341682434082,
+      "logits/rejected": -9.449971199035645,
+      "logps/chosen": -14.565390586853027,
+      "logps/rejected": -27.455856323242188,
+      "loss": 0.503,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.5127349495887756,
+      "rewards/margins": 1.0949640274047852,
+      "rewards/rejected": -0.5822290182113647,
+      "step": 214
+    },
+    {
+      "epoch": 0.26876117894081963,
+      "grad_norm": 19.131977081298828,
+      "learning_rate": 1.970864963632174e-07,
+      "logits/chosen": -9.527588844299316,
+      "logits/rejected": -9.523534774780273,
+      "logps/chosen": -13.391223907470703,
+      "logps/rejected": -28.03926658630371,
+      "loss": 0.4392,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.6203840970993042,
+      "rewards/margins": 1.3992215394973755,
+      "rewards/rejected": -0.7788375616073608,
+      "step": 216
+    },
+    {
+      "epoch": 0.27124970837545687,
+      "grad_norm": 20.436723709106445,
+      "learning_rate": 1.9698567675861012e-07,
+      "logits/chosen": -9.50121021270752,
+      "logits/rejected": -9.499017715454102,
+      "logps/chosen": -13.471396446228027,
+      "logps/rejected": -29.226282119750977,
+      "loss": 0.4554,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.6115632653236389,
+      "rewards/margins": 1.4043577909469604,
+      "rewards/rejected": -0.7927944660186768,
+      "step": 218
+    },
+    {
+      "epoch": 0.2737382378100941,
+      "grad_norm": 28.83942413330078,
+      "learning_rate": 1.9688316898172742e-07,
+      "logits/chosen": -9.501019477844238,
+      "logits/rejected": -9.497902870178223,
+      "logps/chosen": -14.171004295349121,
+      "logps/rejected": -25.117137908935547,
+      "loss": 0.4735,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.5840944051742554,
+      "rewards/margins": 1.019159197807312,
+      "rewards/rejected": -0.43506479263305664,
+      "step": 220
+    },
+    {
+      "epoch": 0.27622676724473133,
+      "grad_norm": 19.889760971069336,
+      "learning_rate": 1.967789748168615e-07,
+      "logits/chosen": -9.521499633789062,
+      "logits/rejected": -9.519474029541016,
+      "logps/chosen": -15.07093620300293,
+      "logps/rejected": -27.5456600189209,
+      "loss": 0.4826,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.4664163589477539,
+      "rewards/margins": 1.0470423698425293,
+      "rewards/rejected": -0.5806261301040649,
+      "step": 222
+    },
+    {
+      "epoch": 0.27871529667936856,
+      "grad_norm": 18.671621322631836,
+      "learning_rate": 1.9667309607765853e-07,
+      "logits/chosen": -9.472893714904785,
+      "logits/rejected": -9.468744277954102,
+      "logps/chosen": -11.784645080566406,
+      "logps/rejected": -26.055967330932617,
+      "loss": 0.4254,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.7976013422012329,
+      "rewards/margins": 1.36777925491333,
+      "rewards/rejected": -0.5701779723167419,
+      "step": 224
+    },
+    {
+      "epoch": 0.28120382611400574,
+      "grad_norm": 31.597179412841797,
+      "learning_rate": 1.9656553460708703e-07,
+      "logits/chosen": -9.521806716918945,
+      "logits/rejected": -9.522058486938477,
+      "logps/chosen": -15.439722061157227,
+      "logps/rejected": -25.760482788085938,
+      "loss": 0.4411,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.46584126353263855,
+      "rewards/margins": 1.02508544921875,
+      "rewards/rejected": -0.5592442154884338,
+      "step": 226
+    },
+    {
+      "epoch": 0.28369235554864297,
+      "grad_norm": 21.941009521484375,
+      "learning_rate": 1.9645629227740593e-07,
+      "logits/chosen": -9.572746276855469,
+      "logits/rejected": -9.570127487182617,
+      "logps/chosen": -14.951375961303711,
+      "logps/rejected": -29.046096801757812,
+      "loss": 0.4488,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.49548426270484924,
+      "rewards/margins": 1.3788247108459473,
+      "rewards/rejected": -0.8833402991294861,
+      "step": 228
+    },
+    {
+      "epoch": 0.2861808849832802,
+      "grad_norm": 40.04125213623047,
+      "learning_rate": 1.9634537099013175e-07,
+      "logits/chosen": -9.493389129638672,
+      "logits/rejected": -9.494418144226074,
+      "logps/chosen": -13.143659591674805,
+      "logps/rejected": -25.01129150390625,
+      "loss": 0.4635,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.6486074328422546,
+      "rewards/margins": 1.0728330612182617,
+      "rewards/rejected": -0.4242256283760071,
+      "step": 230
+    },
+    {
+      "epoch": 0.28866941441791744,
+      "grad_norm": 21.469371795654297,
+      "learning_rate": 1.9623277267600572e-07,
+      "logits/chosen": -9.554616928100586,
+      "logits/rejected": -9.55823802947998,
+      "logps/chosen": -13.725319862365723,
+      "logps/rejected": -28.39404296875,
+      "loss": 0.5038,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.5956496000289917,
+      "rewards/margins": 1.3736776113510132,
+      "rewards/rejected": -0.7780278921127319,
+      "step": 232
+    },
+    {
+      "epoch": 0.2911579438525546,
+      "grad_norm": 21.082233428955078,
+      "learning_rate": 1.9611849929496e-07,
+      "logits/chosen": -9.545856475830078,
+      "logits/rejected": -9.54250717163086,
+      "logps/chosen": -12.612812042236328,
+      "logps/rejected": -23.642351150512695,
+      "loss": 0.4407,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.6775160431861877,
+      "rewards/margins": 1.0000176429748535,
+      "rewards/rejected": -0.322501540184021,
+      "step": 234
+    },
+    {
+      "epoch": 0.29364647328719184,
+      "grad_norm": 21.739805221557617,
+      "learning_rate": 1.9600255283608375e-07,
+      "logits/chosen": -9.592901229858398,
+      "logits/rejected": -9.597333908081055,
+      "logps/chosen": -15.491681098937988,
+      "logps/rejected": -25.74983787536621,
+      "loss": 0.5193,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.4355161190032959,
+      "rewards/margins": 0.9879164099693298,
+      "rewards/rejected": -0.5524001717567444,
+      "step": 236
+    },
+    {
+      "epoch": 0.2961350027218291,
+      "grad_norm": 29.79422950744629,
+      "learning_rate": 1.9588493531758837e-07,
+      "logits/chosen": -9.586029052734375,
+      "logits/rejected": -9.582991600036621,
+      "logps/chosen": -18.667888641357422,
+      "logps/rejected": -28.66937828063965,
+      "loss": 0.4213,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.1176040768623352,
+      "rewards/margins": 0.7935848832130432,
+      "rewards/rejected": -0.6759808659553528,
+      "step": 238
+    },
+    {
+      "epoch": 0.2986235321564663,
+      "grad_norm": 28.43906593322754,
+      "learning_rate": 1.957656487867724e-07,
+      "logits/chosen": -9.642801284790039,
+      "logits/rejected": -9.646142959594727,
+      "logps/chosen": -14.518074989318848,
+      "logps/rejected": -29.124160766601562,
+      "loss": 0.3691,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.5300984978675842,
+      "rewards/margins": 1.3875195980072021,
+      "rewards/rejected": -0.8574211001396179,
+      "step": 240
+    },
+    {
+      "epoch": 0.3011120615911035,
+      "grad_norm": 13.638351440429688,
+      "learning_rate": 1.9564469531998581e-07,
+      "logits/chosen": -9.625781059265137,
+      "logits/rejected": -9.627256393432617,
+      "logps/chosen": -15.690584182739258,
+      "logps/rejected": -32.495452880859375,
+      "loss": 0.4778,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.357384592294693,
+      "rewards/margins": 1.5333497524261475,
+      "rewards/rejected": -1.1759650707244873,
+      "step": 242
+    },
+    {
+      "epoch": 0.3036005910257407,
+      "grad_norm": 25.093196868896484,
+      "learning_rate": 1.9552207702259408e-07,
+      "logits/chosen": -9.606077194213867,
+      "logits/rejected": -9.605632781982422,
+      "logps/chosen": -13.973381042480469,
+      "logps/rejected": -30.913957595825195,
+      "loss": 0.4424,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.5904943346977234,
+      "rewards/margins": 1.5402686595916748,
+      "rewards/rejected": -0.949774444103241,
+      "step": 244
+    },
+    {
+      "epoch": 0.30608912046037795,
+      "grad_norm": 94.76676940917969,
+      "learning_rate": 1.9539779602894133e-07,
+      "logits/chosen": -9.719135284423828,
+      "logits/rejected": -9.718992233276367,
+      "logps/chosen": -13.786242485046387,
+      "logps/rejected": -32.79199981689453,
+      "loss": 0.4497,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.5979117751121521,
+      "rewards/margins": 1.8115812540054321,
+      "rewards/rejected": -1.2136694192886353,
+      "step": 246
+    },
+    {
+      "epoch": 0.3085776498950152,
+      "grad_norm": 35.972164154052734,
+      "learning_rate": 1.9527185450231325e-07,
+      "logits/chosen": -9.61612319946289,
+      "logits/rejected": -9.60927963256836,
+      "logps/chosen": -14.0058012008667,
+      "logps/rejected": -30.657806396484375,
+      "loss": 0.4474,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.5553780198097229,
+      "rewards/margins": 1.4722245931625366,
+      "rewards/rejected": -0.9168466329574585,
+      "step": 248
+    },
+    {
+      "epoch": 0.31106617932965236,
+      "grad_norm": 25.14402198791504,
+      "learning_rate": 1.9514425463489946e-07,
+      "logits/chosen": -9.66349983215332,
+      "logits/rejected": -9.662349700927734,
+      "logps/chosen": -14.534530639648438,
+      "logps/rejected": -27.9847469329834,
+      "loss": 0.4478,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.5503548979759216,
+      "rewards/margins": 1.3006516695022583,
+      "rewards/rejected": -0.7502968311309814,
+      "step": 250
+    },
+    {
+      "epoch": 0.3135547087642896,
+      "grad_norm": 47.979652404785156,
+      "learning_rate": 1.950149986477553e-07,
+      "logits/chosen": -9.611401557922363,
+      "logits/rejected": -9.603737831115723,
+      "logps/chosen": -14.307615280151367,
+      "logps/rejected": -26.224517822265625,
+      "loss": 0.4487,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": 0.5550203323364258,
+      "rewards/margins": 1.0795232057571411,
+      "rewards/rejected": -0.5245028734207153,
+      "step": 252
+    },
+    {
+      "epoch": 0.3160432381989268,
+      "grad_norm": 18.01154327392578,
+      "learning_rate": 1.9488408879076332e-07,
+      "logits/chosen": -9.73612117767334,
+      "logits/rejected": -9.732985496520996,
+      "logps/chosen": -17.12106704711914,
+      "logps/rejected": -30.794755935668945,
+      "loss": 0.433,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.25978052616119385,
+      "rewards/margins": 1.2691959142684937,
+      "rewards/rejected": -1.0094153881072998,
+      "step": 254
+    },
+    {
+      "epoch": 0.31853176763356406,
+      "grad_norm": 11.705705642700195,
+      "learning_rate": 1.9475152734259388e-07,
+      "logits/chosen": -9.704432487487793,
+      "logits/rejected": -9.70622730255127,
+      "logps/chosen": -17.682363510131836,
+      "logps/rejected": -40.75490951538086,
+      "loss": 0.3908,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.20092232525348663,
+      "rewards/margins": 2.150817632675171,
+      "rewards/rejected": -1.9498955011367798,
+      "step": 256
+    },
+    {
+      "epoch": 0.32102029706820123,
+      "grad_norm": 17.330726623535156,
+      "learning_rate": 1.9461731661066563e-07,
+      "logits/chosen": -9.639142036437988,
+      "logits/rejected": -9.634751319885254,
+      "logps/chosen": -15.15283203125,
+      "logps/rejected": -29.373262405395508,
+      "loss": 0.4513,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.49201372265815735,
+      "rewards/margins": 1.3084040880203247,
+      "rewards/rejected": -0.8163905143737793,
+      "step": 258
+    },
+    {
+      "epoch": 0.32350882650283846,
+      "grad_norm": 16.54592514038086,
+      "learning_rate": 1.9448145893110536e-07,
+      "logits/chosen": -9.691900253295898,
+      "logits/rejected": -9.690811157226562,
+      "logps/chosen": -14.2798490524292,
+      "logps/rejected": -26.93697738647461,
+      "loss": 0.4181,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.526968240737915,
+      "rewards/margins": 1.0540603399276733,
+      "rewards/rejected": -0.5270920991897583,
+      "step": 260
+    },
+    {
+      "epoch": 0.3259973559374757,
+      "grad_norm": 12.36008071899414,
+      "learning_rate": 1.9434395666870732e-07,
+      "logits/chosen": -9.762652397155762,
+      "logits/rejected": -9.755146026611328,
+      "logps/chosen": -15.949357986450195,
+      "logps/rejected": -28.579853057861328,
+      "loss": 0.3721,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.39584243297576904,
+      "rewards/margins": 1.1758885383605957,
+      "rewards/rejected": -0.7800461053848267,
+      "step": 262
+    },
+    {
+      "epoch": 0.32848588537211293,
+      "grad_norm": 25.500978469848633,
+      "learning_rate": 1.94204812216892e-07,
+      "logits/chosen": -9.762900352478027,
+      "logits/rejected": -9.7637357711792,
+      "logps/chosen": -13.93748664855957,
+      "logps/rejected": -28.38547706604004,
+      "loss": 0.4387,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.5598804950714111,
+      "rewards/margins": 1.301856517791748,
+      "rewards/rejected": -0.7419759035110474,
+      "step": 264
+    },
+    {
+      "epoch": 0.33097441480675016,
+      "grad_norm": 28.027847290039062,
+      "learning_rate": 1.940640279976645e-07,
+      "logits/chosen": -9.768830299377441,
+      "logits/rejected": -9.765109062194824,
+      "logps/chosen": -15.839170455932617,
+      "logps/rejected": -29.38623046875,
+      "loss": 0.4826,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.384685754776001,
+      "rewards/margins": 1.2508962154388428,
+      "rewards/rejected": -0.8662104606628418,
+      "step": 266
+    },
+    {
+      "epoch": 0.33346294424138734,
+      "grad_norm": 15.409489631652832,
+      "learning_rate": 1.939216064615724e-07,
+      "logits/chosen": -9.75967788696289,
+      "logits/rejected": -9.755732536315918,
+      "logps/chosen": -16.938222885131836,
+      "logps/rejected": -32.17317199707031,
+      "loss": 0.4243,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.30470848083496094,
+      "rewards/margins": 1.441090703010559,
+      "rewards/rejected": -1.1363822221755981,
+      "step": 268
+    },
+    {
+      "epoch": 0.33595147367602457,
+      "grad_norm": 13.358656883239746,
+      "learning_rate": 1.9377755008766316e-07,
+      "logits/chosen": -9.764007568359375,
+      "logits/rejected": -9.763004302978516,
+      "logps/chosen": -12.774785995483398,
+      "logps/rejected": -27.39961814880371,
+      "loss": 0.4306,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.7153124809265137,
+      "rewards/margins": 1.4237009286880493,
+      "rewards/rejected": -0.7083884477615356,
+      "step": 270
+    },
+    {
+      "epoch": 0.3384400031106618,
+      "grad_norm": 17.945140838623047,
+      "learning_rate": 1.9363186138344072e-07,
+      "logits/chosen": -9.746467590332031,
+      "logits/rejected": -9.74943733215332,
+      "logps/chosen": -19.157180786132812,
+      "logps/rejected": -29.923065185546875,
+      "loss": 0.4461,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.13049215078353882,
+      "rewards/margins": 1.0452004671096802,
+      "rewards/rejected": -0.9147083163261414,
+      "step": 272
+    },
+    {
+      "epoch": 0.34092853254529903,
+      "grad_norm": 58.74386978149414,
+      "learning_rate": 1.9348454288482218e-07,
+      "logits/chosen": -9.841994285583496,
+      "logits/rejected": -9.84309196472168,
+      "logps/chosen": -12.292316436767578,
+      "logps/rejected": -29.243858337402344,
+      "loss": 0.4095,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.7199879288673401,
+      "rewards/margins": 1.4360923767089844,
+      "rewards/rejected": -0.7161043286323547,
+      "step": 274
+    },
+    {
+      "epoch": 0.3434170619799362,
+      "grad_norm": 10.968358039855957,
+      "learning_rate": 1.9333559715609348e-07,
+      "logits/chosen": -9.842044830322266,
+      "logits/rejected": -9.841376304626465,
+      "logps/chosen": -10.5046968460083,
+      "logps/rejected": -26.83884048461914,
+      "loss": 0.3922,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.880996823310852,
+      "rewards/margins": 1.4311550855636597,
+      "rewards/rejected": -0.5501582622528076,
+      "step": 276
+    },
+    {
+      "epoch": 0.34590559141457344,
+      "grad_norm": 25.696950912475586,
+      "learning_rate": 1.9318502678986474e-07,
+      "logits/chosen": -9.800930976867676,
+      "logits/rejected": -9.796317100524902,
+      "logps/chosen": -14.120390892028809,
+      "logps/rejected": -33.97774887084961,
+      "loss": 0.4588,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": 0.5795220136642456,
+      "rewards/margins": 1.8283886909484863,
+      "rewards/rejected": -1.2488664388656616,
+      "step": 278
+    },
+    {
+      "epoch": 0.3483941208492107,
+      "grad_norm": 23.73578643798828,
+      "learning_rate": 1.930328344070252e-07,
+      "logits/chosen": -9.78471851348877,
+      "logits/rejected": -9.781627655029297,
+      "logps/chosen": -14.534492492675781,
+      "logps/rejected": -26.833261489868164,
+      "loss": 0.4589,
+      "rewards/accuracies": 0.46875,
+      "rewards/chosen": 0.5126690864562988,
+      "rewards/margins": 1.1082346439361572,
+      "rewards/rejected": -0.5955654978752136,
+      "step": 280
+    },
+    {
+      "epoch": 0.3508826502838479,
+      "grad_norm": 67.03361511230469,
+      "learning_rate": 1.9287902265669762e-07,
+      "logits/chosen": -9.842625617980957,
+      "logits/rejected": -9.847471237182617,
+      "logps/chosen": -12.466926574707031,
+      "logps/rejected": -30.919281005859375,
+      "loss": 0.4464,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.7129925489425659,
+      "rewards/margins": 1.8044328689575195,
+      "rewards/rejected": -1.0914403200149536,
+      "step": 282
+    },
+    {
+      "epoch": 0.3533711797184851,
+      "grad_norm": 19.497772216796875,
+      "learning_rate": 1.927235942161921e-07,
+      "logits/chosen": -9.813855171203613,
+      "logits/rejected": -9.81214427947998,
+      "logps/chosen": -21.21381187438965,
+      "logps/rejected": -39.0347900390625,
+      "loss": 0.435,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -0.1561914086341858,
+      "rewards/margins": 1.6035399436950684,
+      "rewards/rejected": -1.7597315311431885,
+      "step": 284
+    },
+    {
+      "epoch": 0.3558597091531223,
+      "grad_norm": 45.523040771484375,
+      "learning_rate": 1.9256655179095952e-07,
+      "logits/chosen": -9.84730052947998,
+      "logits/rejected": -9.854251861572266,
+      "logps/chosen": -13.737054824829102,
+      "logps/rejected": -31.734363555908203,
+      "loss": 0.4632,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.5630051493644714,
+      "rewards/margins": 1.6921576261520386,
+      "rewards/rejected": -1.1291524171829224,
+      "step": 286
+    },
+    {
+      "epoch": 0.35834823858775955,
+      "grad_norm": 28.497196197509766,
+      "learning_rate": 1.924078981145444e-07,
+      "logits/chosen": -9.885757446289062,
+      "logits/rejected": -9.883481979370117,
+      "logps/chosen": -13.321629524230957,
+      "logps/rejected": -32.17106246948242,
+      "loss": 0.4739,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": 0.6455612182617188,
+      "rewards/margins": 1.7358821630477905,
+      "rewards/rejected": -1.0903209447860718,
+      "step": 288
+    },
+    {
+      "epoch": 0.3608367680223968,
+      "grad_norm": 52.787349700927734,
+      "learning_rate": 1.9224763594853745e-07,
+      "logits/chosen": -9.833064079284668,
+      "logits/rejected": -9.83220100402832,
+      "logps/chosen": -14.749542236328125,
+      "logps/rejected": -33.74660873413086,
+      "loss": 0.4413,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.46079331636428833,
+      "rewards/margins": 1.7552111148834229,
+      "rewards/rejected": -1.2944177389144897,
+      "step": 290
+    },
+    {
+      "epoch": 0.36332529745703396,
+      "grad_norm": 56.78701400756836,
+      "learning_rate": 1.9208576808252724e-07,
+      "logits/chosen": -9.904184341430664,
+      "logits/rejected": -9.903936386108398,
+      "logps/chosen": -18.177574157714844,
+      "logps/rejected": -35.64610290527344,
+      "loss": 0.3609,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.1254495531320572,
+      "rewards/margins": 1.6303666830062866,
+      "rewards/rejected": -1.5049171447753906,
+      "step": 292
+    },
+    {
+      "epoch": 0.3658138268916712,
+      "grad_norm": 39.461273193359375,
+      "learning_rate": 1.9192229733405201e-07,
+      "logits/chosen": -9.887338638305664,
+      "logits/rejected": -9.888198852539062,
+      "logps/chosen": -18.448802947998047,
+      "logps/rejected": -36.85149383544922,
+      "loss": 0.4052,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": 0.14558474719524384,
+      "rewards/margins": 1.7765370607376099,
+      "rewards/rejected": -1.6309523582458496,
+      "step": 294
+    },
+    {
+      "epoch": 0.3683023563263084,
+      "grad_norm": 18.585899353027344,
+      "learning_rate": 1.917572265485503e-07,
+      "logits/chosen": -9.881330490112305,
+      "logits/rejected": -9.893242835998535,
+      "logps/chosen": -16.060522079467773,
+      "logps/rejected": -39.76359558105469,
+      "loss": 0.432,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": 0.33192405104637146,
+      "rewards/margins": 2.1760969161987305,
+      "rewards/rejected": -1.8441730737686157,
+      "step": 296
+    },
+    {
+      "epoch": 0.37079088576094565,
+      "grad_norm": 27.651845932006836,
+      "learning_rate": 1.9159055859931162e-07,
+      "logits/chosen": -9.902129173278809,
+      "logits/rejected": -9.911026000976562,
+      "logps/chosen": -17.226613998413086,
+      "logps/rejected": -40.729923248291016,
+      "loss": 0.4029,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": 0.23425133526325226,
+      "rewards/margins": 2.1756668090820312,
+      "rewards/rejected": -1.9414156675338745,
+      "step": 298
+    },
+    {
+      "epoch": 0.3732794151955829,
+      "grad_norm": 30.422624588012695,
+      "learning_rate": 1.9142229638742622e-07,
+      "logits/chosen": -9.88222599029541,
+      "logits/rejected": -9.890327453613281,
+      "logps/chosen": -19.90094566345215,
+      "logps/rejected": -38.61607360839844,
+      "loss": 0.3858,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": 0.025559313595294952,
+      "rewards/margins": 1.8282105922698975,
+      "rewards/rejected": -1.802651286125183,
+      "step": 300
+    }
+  ],
+  "logging_steps": 2,
+  "max_steps": 1606,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b380033aa72e2e10339fc2747e13518ebd766163e6c2696140183f23cb54881
+size 7096

last-checkpoint/zero_to_fp32.py ADDED Viewed

	@@ -0,0 +1,604 @@

+#!/usr/bin/env python
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+# DeepSpeed Team
+# This script extracts fp32 consolidated weights from a zero 1, 2 and 3 DeepSpeed checkpoints. It gets
+# copied into the top level checkpoint dir, so the user can easily do the conversion at any point in
+# the future. Once extracted, the weights don't require DeepSpeed and can be used in any
+# application.
+#
+# example: python zero_to_fp32.py . pytorch_model.bin
+import argparse
+import torch
+import glob
+import math
+import os
+import re
+from collections import OrderedDict
+from dataclasses import dataclass
+# while this script doesn't use deepspeed to recover data, since the checkpoints are pickled with
+# DeepSpeed data structures it has to be available in the current python environment.
+from deepspeed.utils import logger
+from deepspeed.checkpoint.constants import (DS_VERSION, OPTIMIZER_STATE_DICT, SINGLE_PARTITION_OF_FP32_GROUPS,
+                                            FP32_FLAT_GROUPS, ZERO_STAGE, PARTITION_COUNT, PARAM_SHAPES, BUFFER_NAMES,
+                                            FROZEN_PARAM_SHAPES, FROZEN_PARAM_FRAGMENTS)
+@dataclass
+class zero_model_state:
+    buffers: dict()
+    param_shapes: dict()
+    shared_params: list
+    ds_version: int
+    frozen_param_shapes: dict()
+    frozen_param_fragments: dict()
+debug = 0
+# load to cpu
+device = torch.device('cpu')
+def atoi(text):
+    return int(text) if text.isdigit() else text
+def natural_keys(text):
+    '''
+    alist.sort(key=natural_keys) sorts in human order
+    http://nedbatchelder.com/blog/200712/human_sorting.html
+    (See Toothy's implementation in the comments)
+    '''
+    return [atoi(c) for c in re.split(r'(\d+)', text)]
+def get_model_state_file(checkpoint_dir, zero_stage):
+    if not os.path.isdir(checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{checkpoint_dir}' doesn't exist")
+    # there should be only one file
+    if zero_stage <= 2:
+        file = os.path.join(checkpoint_dir, "mp_rank_00_model_states.pt")
+    elif zero_stage == 3:
+        file = os.path.join(checkpoint_dir, "zero_pp_rank_0_mp_rank_00_model_states.pt")
+    if not os.path.exists(file):
+        raise FileNotFoundError(f"can't find model states file at '{file}'")
+    return file
+def get_checkpoint_files(checkpoint_dir, glob_pattern):
+    # XXX: need to test that this simple glob rule works for multi-node setup too
+    ckpt_files = sorted(glob.glob(os.path.join(checkpoint_dir, glob_pattern)), key=natural_keys)
+    if len(ckpt_files) == 0:
+        raise FileNotFoundError(f"can't find {glob_pattern} files in directory '{checkpoint_dir}'")
+    return ckpt_files
+def get_optim_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_optim_states.pt")
+def get_model_state_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_model_states.pt")
+def parse_model_states(files):
+    zero_model_states = []
+    for file in files:
+        state_dict = torch.load(file, map_location=device)
+        if BUFFER_NAMES not in state_dict:
+            raise ValueError(f"{file} is not a model state checkpoint")
+        buffer_names = state_dict[BUFFER_NAMES]
+        if debug:
+            print("Found buffers:", buffer_names)
+        # recover just the buffers while restoring them to fp32 if they were saved in fp16
+        buffers = {k: v.float() for k, v in state_dict["module"].items() if k in buffer_names}
+        param_shapes = state_dict[PARAM_SHAPES]
+        # collect parameters that are included in param_shapes
+        param_names = []
+        for s in param_shapes:
+            for name in s.keys():
+                param_names.append(name)
+        # update with frozen parameters
+        frozen_param_shapes = state_dict.get(FROZEN_PARAM_SHAPES, None)
+        if frozen_param_shapes is not None:
+            if debug:
+                print(f"Found frozen_param_shapes: {frozen_param_shapes}")
+            param_names += list(frozen_param_shapes.keys())
+        # handle shared params
+        shared_params = [[k, v] for k, v in state_dict["shared_params"].items()]
+        ds_version = state_dict.get(DS_VERSION, None)
+        frozen_param_fragments = state_dict.get(FROZEN_PARAM_FRAGMENTS, None)
+        z_model_state = zero_model_state(buffers=buffers,
+                                         param_shapes=param_shapes,
+                                         shared_params=shared_params,
+                                         ds_version=ds_version,
+                                         frozen_param_shapes=frozen_param_shapes,
+                                         frozen_param_fragments=frozen_param_fragments)
+        zero_model_states.append(z_model_state)
+    return zero_model_states
+def parse_optim_states(files, ds_checkpoint_dir):
+    total_files = len(files)
+    state_dicts = []
+    for f in files:
+        state_dict = torch.load(f, map_location=device)
+        # immediately discard the potentially huge 2 optimizer states as we only care for fp32 master weights
+        # and also handle the case where it was already removed by another helper script
+        state_dict["optimizer_state_dict"].pop("optimizer_state_dict", None)
+        state_dicts.append(state_dict)
+    if not ZERO_STAGE in state_dicts[0][OPTIMIZER_STATE_DICT]:
+        raise ValueError(f"{files[0]} is not a zero checkpoint")
+    zero_stage = state_dicts[0][OPTIMIZER_STATE_DICT][ZERO_STAGE]
+    world_size = state_dicts[0][OPTIMIZER_STATE_DICT][PARTITION_COUNT]
+    # For ZeRO-2 each param group can have different partition_count as data parallelism for expert
+    # parameters can be different from data parallelism for non-expert parameters. So we can just
+    # use the max of the partition_count to get the dp world_size.
+    if type(world_size) is list:
+        world_size = max(world_size)
+    if world_size != total_files:
+        raise ValueError(
+            f"Expected {world_size} of '*_optim_states.pt' under '{ds_checkpoint_dir}' but found {total_files} files. "
+            "Possibly due to an overwrite of an old checkpoint, or a checkpoint didn't get saved by one or more processes."
+        )
+    # the groups are named differently in each stage
+    if zero_stage <= 2:
+        fp32_groups_key = SINGLE_PARTITION_OF_FP32_GROUPS
+    elif zero_stage == 3:
+        fp32_groups_key = FP32_FLAT_GROUPS
+    else:
+        raise ValueError(f"unknown zero stage {zero_stage}")
+    if zero_stage <= 2:
+        fp32_flat_groups = [state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key] for i in range(len(state_dicts))]
+    elif zero_stage == 3:
+        # if there is more than one param group, there will be multiple flattened tensors - one
+        # flattened tensor per group - for simplicity merge them into a single tensor
+        #
+        # XXX: could make the script more memory efficient for when there are multiple groups - it
+        # will require matching the sub-lists of param_shapes for each param group flattened tensor
+        fp32_flat_groups = [
+            torch.cat(state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key], 0) for i in range(len(state_dicts))
+        ]
+    return zero_stage, world_size, fp32_flat_groups
+def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters):
+    """
+    Returns fp32 state_dict reconstructed from ds checkpoint
+    Args:
+        - ``ds_checkpoint_dir``: path to the deepspeed checkpoint folder (where the optimizer files are)
+    """
+    print(f"Processing zero checkpoint '{ds_checkpoint_dir}'")
+    optim_files = get_optim_files(ds_checkpoint_dir)
+    zero_stage, world_size, fp32_flat_groups = parse_optim_states(optim_files, ds_checkpoint_dir)
+    print(f"Detected checkpoint of type zero stage {zero_stage}, world_size: {world_size}")
+    model_files = get_model_state_files(ds_checkpoint_dir)
+    zero_model_states = parse_model_states(model_files)
+    print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
+    if zero_stage <= 2:
+        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+    elif zero_stage == 3:
+        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+def _zero2_merge_frozen_params(state_dict, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+    frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+    frozen_param_fragments = zero_model_states[0].frozen_param_fragments
+    if debug:
+        num_elem = sum(s.numel() for s in frozen_param_shapes.values())
+        print(f'rank 0: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in frozen_param_fragments.values()])
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+    total_params = 0
+    total_numel = 0
+    for name, shape in frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        state_dict[name] = frozen_param_fragments[name]
+        if debug:
+            print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+def _has_callable(obj, fn):
+    attr = getattr(obj, fn, None)
+    return callable(attr)
+def _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    # Reconstruction protocol:
+    #
+    # XXX: document this
+    if debug:
+        for i in range(world_size):
+            for j in range(len(fp32_flat_groups[0])):
+                print(f"{FP32_FLAT_GROUPS}[{i}][{j}].shape={fp32_flat_groups[i][j].shape}")
+    # XXX: memory usage doubles here (zero2)
+    num_param_groups = len(fp32_flat_groups[0])
+    merged_single_partition_of_fp32_groups = []
+    for i in range(num_param_groups):
+        merged_partitions = [sd[i] for sd in fp32_flat_groups]
+        full_single_fp32_vector = torch.cat(merged_partitions, 0)
+        merged_single_partition_of_fp32_groups.append(full_single_fp32_vector)
+    avail_numel = sum(
+        [full_single_fp32_vector.numel() for full_single_fp32_vector in merged_single_partition_of_fp32_groups])
+    if debug:
+        wanted_params = sum([len(shapes) for shapes in param_shapes])
+        wanted_numel = sum([sum(shape.numel() for shape in shapes.values()) for shapes in param_shapes])
+        # not asserting if there is a mismatch due to possible padding
+        print(f"Have {avail_numel} numels to process.")
+        print(f"Need {wanted_numel} numels in {wanted_params} params.")
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    total_numel = 0
+    total_params = 0
+    for shapes, full_single_fp32_vector in zip(param_shapes, merged_single_partition_of_fp32_groups):
+        offset = 0
+        avail_numel = full_single_fp32_vector.numel()
+        for name, shape in shapes.items():
+            unpartitioned_numel = shape.numel() if _has_callable(shape, 'numel') else math.prod(shape)
+            total_numel += unpartitioned_numel
+            total_params += 1
+            if debug:
+                print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+            state_dict[name] = full_single_fp32_vector.narrow(0, offset, unpartitioned_numel).view(shape)
+            offset += unpartitioned_numel
+        # Z2 started to align to 2*world_size to improve nccl performance. Therefore both offset and
+        # avail_numel can differ by anywhere between 0..2*world_size. Due to two unrelated complex
+        # paddings performed in the code it's almost impossible to predict the exact numbers w/o the
+        # live optimizer object, so we are checking that the numbers are within the right range
+        align_to = 2 * world_size
+        def zero2_align(x):
+            return align_to * math.ceil(x / align_to)
+        if debug:
+            print(f"original offset={offset}, avail_numel={avail_numel}")
+        offset = zero2_align(offset)
+        avail_numel = zero2_align(avail_numel)
+        if debug:
+            print(f"aligned  offset={offset}, avail_numel={avail_numel}")
+        # Sanity check
+        if offset != avail_numel:
+            raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+    print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+    if not exclude_frozen_parameters:
+        _zero2_merge_frozen_params(state_dict, zero_model_states)
+    _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+    return state_dict
+def zero3_partitioned_param_info(unpartitioned_numel, world_size):
+    remainder = unpartitioned_numel % world_size
+    padding_numel = (world_size - remainder) if remainder else 0
+    partitioned_numel = math.ceil(unpartitioned_numel / world_size)
+    return partitioned_numel, padding_numel
+def _zero3_merge_frozen_params(state_dict, world_size, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+    if debug:
+        for i in range(world_size):
+            num_elem = sum(s.numel() for s in zero_model_states[i].frozen_param_fragments.values())
+            print(f'rank {i}: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+        frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in zero_model_states[0].frozen_param_fragments.values()]) * world_size
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+    total_params = 0
+    total_numel = 0
+    for name, shape in zero_model_states[0].frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        param_frags = tuple(model_state.frozen_param_fragments[name] for model_state in zero_model_states)
+        state_dict[name] = torch.cat(param_frags, 0).narrow(0, 0, unpartitioned_numel).view(shape)
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+        if debug:
+            print(
+                f"Frozen params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+def _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    avail_numel = fp32_flat_groups[0].numel() * world_size
+    # Reconstruction protocol: For zero3 we need to zip the partitions together at boundary of each
+    # param, re-consolidating each param, while dealing with padding if any
+    # merge list of dicts, preserving order
+    param_shapes = {k: v for d in param_shapes for k, v in d.items()}
+    if debug:
+        for i in range(world_size):
+            print(f"{FP32_FLAT_GROUPS}[{i}].shape={fp32_flat_groups[i].shape}")
+        wanted_params = len(param_shapes)
+        wanted_numel = sum(shape.numel() for shape in param_shapes.values())
+        # not asserting if there is a mismatch due to possible padding
+        avail_numel = fp32_flat_groups[0].numel() * world_size
+        print(f"Trainable params: Have {avail_numel} numels to process.")
+        print(f"Trainable params: Need {wanted_numel} numels in {wanted_params} params.")
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    offset = 0
+    total_numel = 0
+    total_params = 0
+    for name, shape in param_shapes.items():
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        total_params += 1
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+        if debug:
+            print(
+                f"Trainable params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+        # XXX: memory usage doubles here
+        state_dict[name] = torch.cat(
+            tuple(fp32_flat_groups[i].narrow(0, offset, partitioned_numel) for i in range(world_size)),
+            0).narrow(0, 0, unpartitioned_numel).view(shape)
+        offset += partitioned_numel
+    offset *= world_size
+    # Sanity check
+    if offset != avail_numel:
+        raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+    print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
+def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+    if not exclude_frozen_parameters:
+        _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
+    _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+    return state_dict
+def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag=None, exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
+    ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
+    via a model hub.
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+    Returns:
+        - pytorch ``state_dict``
+    Note: this approach may not work if your application doesn't have sufficient free CPU memory and
+    you may need to use the offline approach using the ``zero_to_fp32.py`` script that is saved with
+    the checkpoint.
+    A typical usage might be ::
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        # do the training and checkpoint saving
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir) # already on cpu
+        model = model.cpu() # move to cpu
+        model.load_state_dict(state_dict)
+        # submit to model hub or save the model to share with others
+    In this example the ``model`` will no longer be usable in the deepspeed context of the same
+    application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+    If you want it all done for you, use ``load_state_dict_from_zero_checkpoint`` instead.
+    """
+    if tag is None:
+        latest_path = os.path.join(checkpoint_dir, 'latest')
+        if os.path.isfile(latest_path):
+            with open(latest_path, 'r') as fd:
+                tag = fd.read().strip()
+        else:
+            raise ValueError(f"Unable to find 'latest' file at {latest_path}")
+    ds_checkpoint_dir = os.path.join(checkpoint_dir, tag)
+    if not os.path.isdir(ds_checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
+    return _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters)
+def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir, output_file, tag=None, exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
+    loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``output_file``: path to the pytorch fp32 state_dict output file (e.g. path/pytorch_model.bin)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+    """
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag, exclude_frozen_parameters)
+    print(f"Saving fp32 state dict to {output_file}")
+    torch.save(state_dict, output_file)
+def load_state_dict_from_zero_checkpoint(model, checkpoint_dir, tag=None):
+    """
+    1. Put the provided model to cpu
+    2. Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict``
+    3. Load it into the provided model
+    Args:
+        - ``model``: the model object to update
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+    Returns:
+        - ``model`: modified model
+    Make sure you have plenty of CPU memory available before you call this function. If you don't
+    have enough use the ``zero_to_fp32.py`` utility to do the conversion. You will find it
+    conveniently placed for you in the checkpoint folder.
+    A typical usage might be ::
+        from deepspeed.utils.zero_to_fp32 import load_state_dict_from_zero_checkpoint
+        model = load_state_dict_from_zero_checkpoint(trainer.model, checkpoint_dir)
+        # submit to model hub or save the model to share with others
+    Note, that once this was run, the ``model`` will no longer be usable in the deepspeed context
+    of the same application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+    """
+    logger.info(f"Extracting fp32 weights")
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
+    logger.info(f"Overwriting model with fp32 weights")
+    model = model.cpu()
+    model.load_state_dict(state_dict, strict=False)
+    return model
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("checkpoint_dir",
+                        type=str,
+                        help="path to the desired checkpoint folder, e.g., path/checkpoint-12")
+    parser.add_argument(
+        "output_file",
+        type=str,
+        help="path to the pytorch fp32 state_dict output file (e.g. path/checkpoint-12/pytorch_model.bin)")
+    parser.add_argument("-t",
+                        "--tag",
+                        type=str,
+                        default=None,
+                        help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
+    parser.add_argument("--exclude_frozen_parameters", action='store_true', help="exclude frozen parameters")
+    parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
+    args = parser.parse_args()
+    debug = args.debug
+    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir,
+                                               args.output_file,
+                                               tag=args.tag,
+                                               exclude_frozen_parameters=args.exclude_frozen_parameters)