Jerry999 commited on 6 days ago

Commit

da1e89d

verified ·

1 Parent(s): 685ede0

Upload checkpoints/knowledge/lora_sft_atomic_50ep_t20260305

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/adapter_config.json +46 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/adapter_model.safetensors +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/chat_template.jinja +4 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/optimizer.pt +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/rng_state.pth +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/scheduler.pt +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/tokenizer.json +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/tokenizer_config.json +29 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/tokens_state. +1 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/trainer_state.json +2934 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/training_args.bin +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/adapter_config.json +46 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/adapter_model.safetensors +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/chat_template.jinja +4 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/optimizer.pt +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/rng_state.pth +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/scheduler.pt +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/tokenizer.json +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/tokenizer_config.json +29 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/tokens_state. +1 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/trainer_state.json +3000 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/training_args.bin +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/adapter_config.json +46 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/adapter_model.safetensors +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/chat_template.jinja +4 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/optimizer.pt +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/rng_state.pth +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/scheduler.pt +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/tokenizer.json +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/tokenizer_config.json +29 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/tokens_state. +1 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/trainer_state.json +3066 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/training_args.bin +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/debug.log +0 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/atomic/eval_results.csv +2 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/atomic/eval_summary.json +11 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/atomic/test_alpaca_converted.jsonl +0 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/atomic/test_alpaca_results.jsonl +0 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/compositional_2step/eval_results.csv +3 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/compositional_2step/eval_summary.json +11 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/compositional_2step/test_alpaca_converted.jsonl +0 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/compositional_2step/test_alpaca_results.jsonl +0 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/atomic/eval_results.csv +2 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/atomic/eval_summary.json +11 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/atomic/test_alpaca_converted.jsonl +0 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/atomic/test_alpaca_results.jsonl +0 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/compositional_2step/eval_results.csv +2 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/compositional_2step/eval_summary.json +11 -0
checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/compositional_2step/test_alpaca_converted.jsonl +0 -0

.gitattributes CHANGED Viewed

@@ -59,3 +59,6 @@ checkpoints/knowledge/atomic_full_sft_with_phantom_wiki_compositional_data_50ep_
 checkpoints/knowledge/atomic_full_then_2step_full_sft_t20260305/checkpoint-568/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoints/knowledge/atomic_full_then_2step_full_sft_t20260305/checkpoint-639/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoints/knowledge/atomic_full_then_2step_full_sft_t20260305/checkpoint-710/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 checkpoints/knowledge/atomic_full_then_2step_full_sft_t20260305/checkpoint-568/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoints/knowledge/atomic_full_then_2step_full_sft_t20260305/checkpoint-639/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 checkpoints/knowledge/atomic_full_then_2step_full_sft_t20260305/checkpoint-710/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/tokenizer.json filter=lfs diff=lfs merge=lfs -text

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_bias": false,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "down_proj",
+    "k_proj",
+    "q_proj",
+    "up_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "target_parameters": [],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1629f059e62fd2b5e507627f811f46ca346efbf5ed97ff0919432fd1f7e87edc
+size 528550256

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,4 @@

+{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '
+' + message['content'] + '<|im_end|>' + '
+'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
+' }}{% endif %}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9758b22e1b9026482e357776e20bb7181bf5610a5bc8909e9fd93b81f1b52a0b
+size 1057397963

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a32eec1cef4b262257721aeca884c932239b24353e82ed628decf850f44fdd8f
+size 14645

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2177bb35d53db527bf6d8d247ded2b09c4f30260beea0d9195819782ff4a0953
+size 1465

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be75606093db2094d7cd20f3c2f385c212750648bd6ea4fb2bf507a6a4c55506
+size 11422650

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "is_local": true,
+  "model_max_length": 1010000,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/tokens_state. ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"total": 5046784, "trainable": 1083210}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2934 @@

+{
+  "best_global_step": 1222,
+  "best_metric": 5.4846168495714664e-05,
+  "best_model_checkpoint": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/knowledge/atomic_sft_lora_50ep_t20260305/checkpoint-1222",
+  "epoch": 46.22429906542056,
+  "eval_steps": 13,
+  "global_step": 1248,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_loss": 11.576359748840332,
+      "eval_ppl": 106548.94637,
+      "eval_runtime": 7.7089,
+      "eval_samples_per_second": 58.374,
+      "eval_steps_per_second": 29.187,
+      "memory/device_reserved (GiB)": 8.97,
+      "memory/max_active (GiB)": 4.47,
+      "memory/max_allocated (GiB)": 4.47,
+      "step": 0
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "grad_norm": 2.3110249042510986,
+      "learning_rate": 0.00017307692307692307,
+      "loss": 7.286613464355469,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1460.61588,
+      "step": 10,
+      "tokens/total": 40960,
+      "tokens/train_per_sec_per_gpu": 9.55,
+      "tokens/trainable": 8868
+    },
+    {
+      "epoch": 0.48598130841121495,
+      "eval_loss": 2.822082996368408,
+      "eval_ppl": 16.81183,
+      "eval_runtime": 3.1606,
+      "eval_samples_per_second": 142.378,
+      "eval_steps_per_second": 71.189,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 13
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "grad_norm": 1.8976582288742065,
+      "learning_rate": 0.00036538461538461535,
+      "loss": 2.6126346588134766,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 13.63493,
+      "step": 20,
+      "tokens/total": 81920,
+      "tokens/train_per_sec_per_gpu": 7.97,
+      "tokens/trainable": 17587
+    },
+    {
+      "epoch": 0.9719626168224299,
+      "eval_loss": 1.144375205039978,
+      "eval_ppl": 3.14048,
+      "eval_runtime": 3.0779,
+      "eval_samples_per_second": 146.202,
+      "eval_steps_per_second": 73.101,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 26
+    },
+    {
+      "epoch": 1.1121495327102804,
+      "grad_norm": 1.1263617277145386,
+      "learning_rate": 0.000499993159128523,
+      "loss": 1.3756730079650878,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 3.95774,
+      "step": 30,
+      "tokens/total": 121344,
+      "tokens/train_per_sec_per_gpu": 9.42,
+      "tokens/trainable": 26103
+    },
+    {
+      "epoch": 1.4485981308411215,
+      "eval_loss": 0.9320468902587891,
+      "eval_ppl": 2.5397,
+      "eval_runtime": 3.1697,
+      "eval_samples_per_second": 141.968,
+      "eval_steps_per_second": 70.984,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 39
+    },
+    {
+      "epoch": 1.485981308411215,
+      "grad_norm": 0.7886229753494263,
+      "learning_rate": 0.000499871554050172,
+      "loss": 1.0714111328125,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.9195,
+      "step": 40,
+      "tokens/total": 162304,
+      "tokens/train_per_sec_per_gpu": 9.18,
+      "tokens/trainable": 34934
+    },
+    {
+      "epoch": 1.8598130841121496,
+      "grad_norm": 0.8071430325508118,
+      "learning_rate": 0.0004995980147170576,
+      "loss": 1.0068815231323243,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.73705,
+      "step": 50,
+      "tokens/total": 203264,
+      "tokens/train_per_sec_per_gpu": 9.45,
+      "tokens/trainable": 43704
+    },
+    {
+      "epoch": 1.9345794392523366,
+      "eval_loss": 0.8724005818367004,
+      "eval_ppl": 2.39265,
+      "eval_runtime": 3.2632,
+      "eval_samples_per_second": 137.903,
+      "eval_steps_per_second": 68.952,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 52
+    },
+    {
+      "epoch": 2.2242990654205608,
+      "grad_norm": 0.8555540442466736,
+      "learning_rate": 0.0004991727074546138,
+      "loss": 0.9307943344116211,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.53652,
+      "step": 60,
+      "tokens/total": 242688,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 52105
+    },
+    {
+      "epoch": 2.411214953271028,
+      "eval_loss": 0.8703448176383972,
+      "eval_ppl": 2.38773,
+      "eval_runtime": 3.1746,
+      "eval_samples_per_second": 141.75,
+      "eval_steps_per_second": 70.875,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 65
+    },
+    {
+      "epoch": 2.5981308411214954,
+      "grad_norm": 0.7338283061981201,
+      "learning_rate": 0.0004985958908706771,
+      "loss": 0.9038754463195801,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.46915,
+      "step": 70,
+      "tokens/total": 283648,
+      "tokens/train_per_sec_per_gpu": 9.52,
+      "tokens/trainable": 60918
+    },
+    {
+      "epoch": 2.897196261682243,
+      "eval_loss": 0.8341130018234253,
+      "eval_ppl": 2.30277,
+      "eval_runtime": 3.1645,
+      "eval_samples_per_second": 142.201,
+      "eval_steps_per_second": 71.1,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 78
+    },
+    {
+      "epoch": 2.97196261682243,
+      "grad_norm": 0.6529878377914429,
+      "learning_rate": 0.0004978679156982397,
+      "loss": 0.8851642608642578,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.42338,
+      "step": 80,
+      "tokens/total": 324608,
+      "tokens/train_per_sec_per_gpu": 9.31,
+      "tokens/trainable": 69756
+    },
+    {
+      "epoch": 3.336448598130841,
+      "grad_norm": 0.4933421313762665,
+      "learning_rate": 0.0004969892245821866,
+      "loss": 0.8534950256347656,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.34784,
+      "step": 90,
+      "tokens/total": 364544,
+      "tokens/train_per_sec_per_gpu": 8.68,
+      "tokens/trainable": 78232
+    },
+    {
+      "epoch": 3.3738317757009346,
+      "eval_loss": 0.8056238889694214,
+      "eval_ppl": 2.23809,
+      "eval_runtime": 3.1985,
+      "eval_samples_per_second": 140.689,
+      "eval_steps_per_second": 70.345,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 91
+    },
+    {
+      "epoch": 3.710280373831776,
+      "grad_norm": 0.5127931833267212,
+      "learning_rate": 0.0004959603518101456,
+      "loss": 0.8484575271606445,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.33604,
+      "step": 100,
+      "tokens/total": 405504,
+      "tokens/train_per_sec_per_gpu": 9.46,
+      "tokens/trainable": 87078
+    },
+    {
+      "epoch": 3.8598130841121496,
+      "eval_loss": 0.7935463190078735,
+      "eval_ppl": 2.21122,
+      "eval_runtime": 3.1979,
+      "eval_samples_per_second": 140.717,
+      "eval_steps_per_second": 70.358,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 104
+    },
+    {
+      "epoch": 4.074766355140187,
+      "grad_norm": 0.5711424946784973,
+      "learning_rate": 0.0004947819229876143,
+      "loss": 0.8517816543579102,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.34382,
+      "step": 110,
+      "tokens/total": 444928,
+      "tokens/train_per_sec_per_gpu": 8.83,
+      "tokens/trainable": 95470
+    },
+    {
+      "epoch": 4.336448598130841,
+      "eval_loss": 0.7475497126579285,
+      "eval_ppl": 2.11182,
+      "eval_runtime": 3.2295,
+      "eval_samples_per_second": 139.342,
+      "eval_steps_per_second": 69.671,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 117
+    },
+    {
+      "epoch": 4.4485981308411215,
+      "grad_norm": 0.45637959241867065,
+      "learning_rate": 0.0004934546546575604,
+      "loss": 0.7973217487335205,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.21959,
+      "step": 120,
+      "tokens/total": 485888,
+      "tokens/train_per_sec_per_gpu": 9.04,
+      "tokens/trainable": 104318
+    },
+    {
+      "epoch": 4.822429906542056,
+      "grad_norm": 0.5224671959877014,
+      "learning_rate": 0.000491979353864729,
+      "loss": 0.8252082824707031,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.28236,
+      "step": 130,
+      "tokens/total": 526848,
+      "tokens/train_per_sec_per_gpu": 9.62,
+      "tokens/trainable": 113074
+    },
+    {
+      "epoch": 4.822429906542056,
+      "eval_loss": 0.7261071801185608,
+      "eval_ppl": 2.06702,
+      "eval_runtime": 3.1567,
+      "eval_samples_per_second": 142.554,
+      "eval_steps_per_second": 71.277,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 130
+    },
+    {
+      "epoch": 5.186915887850467,
+      "grad_norm": 1.2096866369247437,
+      "learning_rate": 0.0004903569176649188,
+      "loss": 0.7676509857177735,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.1547,
+      "step": 140,
+      "tokens/total": 566272,
+      "tokens/train_per_sec_per_gpu": 9.11,
+      "tokens/trainable": 121542
+    },
+    {
+      "epoch": 5.299065420560748,
+      "eval_loss": 0.5942183136940002,
+      "eval_ppl": 1.81161,
+      "eval_runtime": 3.1578,
+      "eval_samples_per_second": 142.503,
+      "eval_steps_per_second": 71.251,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 143
+    },
+    {
+      "epoch": 5.5607476635514015,
+      "grad_norm": 0.7773618698120117,
+      "learning_rate": 0.0004885883325795282,
+      "loss": 0.6715390682220459,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.95725,
+      "step": 150,
+      "tokens/total": 607232,
+      "tokens/train_per_sec_per_gpu": 9.36,
+      "tokens/trainable": 130388
+    },
+    {
+      "epoch": 5.785046728971962,
+      "eval_loss": 0.5664681196212769,
+      "eval_ppl": 1.76203,
+      "eval_runtime": 3.1743,
+      "eval_samples_per_second": 141.762,
+      "eval_steps_per_second": 70.881,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 156
+    },
+    {
+      "epoch": 5.934579439252336,
+      "grad_norm": 0.9837582111358643,
+      "learning_rate": 0.0004866746739957015,
+      "loss": 0.7201411724090576,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.05472,
+      "step": 160,
+      "tokens/total": 648192,
+      "tokens/train_per_sec_per_gpu": 9.1,
+      "tokens/trainable": 139201
+    },
+    {
+      "epoch": 6.261682242990654,
+      "eval_loss": 0.3298272490501404,
+      "eval_ppl": 1.39073,
+      "eval_runtime": 3.3393,
+      "eval_samples_per_second": 134.76,
+      "eval_steps_per_second": 67.38,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 169
+    },
+    {
+      "epoch": 6.299065420560748,
+      "grad_norm": 12.733769416809082,
+      "learning_rate": 0.0004846171055124401,
+      "loss": 0.5171830177307128,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.6773,
+      "step": 170,
+      "tokens/total": 687616,
+      "tokens/train_per_sec_per_gpu": 9.15,
+      "tokens/trainable": 147665
+    },
+    {
+      "epoch": 6.672897196261682,
+      "grad_norm": 1.0612688064575195,
+      "learning_rate": 0.00048241687823307724,
+      "loss": 0.45992417335510255,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.58395,
+      "step": 180,
+      "tokens/total": 728576,
+      "tokens/train_per_sec_per_gpu": 9.78,
+      "tokens/trainable": 156476
+    },
+    {
+      "epoch": 6.747663551401869,
+      "eval_loss": 0.3797531723976135,
+      "eval_ppl": 1.46192,
+      "eval_runtime": 3.2068,
+      "eval_samples_per_second": 140.325,
+      "eval_steps_per_second": 70.162,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 182
+    },
+    {
+      "epoch": 7.037383177570093,
+      "grad_norm": 2.0055079460144043,
+      "learning_rate": 0.00048007533000454496,
+      "loss": 0.520701789855957,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.68321,
+      "step": 190,
+      "tokens/total": 768512,
+      "tokens/train_per_sec_per_gpu": 8.34,
+      "tokens/trainable": 164903
+    },
+    {
+      "epoch": 7.224299065420561,
+      "eval_loss": 0.16449837386608124,
+      "eval_ppl": 1.1788,
+      "eval_runtime": 3.112,
+      "eval_samples_per_second": 144.6,
+      "eval_steps_per_second": 72.3,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 195
+    },
+    {
+      "epoch": 7.411214953271028,
+      "grad_norm": 2.8855485916137695,
+      "learning_rate": 0.00047759388460389725,
+      "loss": 0.20058777332305908,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.22212,
+      "step": 200,
+      "tokens/total": 809472,
+      "tokens/train_per_sec_per_gpu": 9.89,
+      "tokens/trainable": 173695
+    },
+    {
+      "epoch": 7.710280373831775,
+      "eval_loss": 0.1505199521780014,
+      "eval_ppl": 1.16244,
+      "eval_runtime": 3.1823,
+      "eval_samples_per_second": 141.409,
+      "eval_steps_per_second": 70.704,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 208
+    },
+    {
+      "epoch": 7.785046728971962,
+      "grad_norm": 1.3034435510635376,
+      "learning_rate": 0.0004749740508725832,
+      "loss": 0.2634513139724731,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.30141,
+      "step": 210,
+      "tokens/total": 850432,
+      "tokens/train_per_sec_per_gpu": 9.5,
+      "tokens/trainable": 182480
+    },
+    {
+      "epoch": 8.149532710280374,
+      "grad_norm": 0.8162353038787842,
+      "learning_rate": 0.00047221742179899654,
+      "loss": 0.18547557592391967,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.20379,
+      "step": 220,
+      "tokens/total": 889856,
+      "tokens/train_per_sec_per_gpu": 8.85,
+      "tokens/trainable": 191013
+    },
+    {
+      "epoch": 8.186915887850468,
+      "eval_loss": 0.07461368292570114,
+      "eval_ppl": 1.07747,
+      "eval_runtime": 3.1819,
+      "eval_samples_per_second": 141.426,
+      "eval_steps_per_second": 70.713,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 221
+    },
+    {
+      "epoch": 8.523364485981308,
+      "grad_norm": 0.7081874012947083,
+      "learning_rate": 0.0004693256735498605,
+      "loss": 0.11240044832229615,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.11896,
+      "step": 230,
+      "tokens/total": 930816,
+      "tokens/train_per_sec_per_gpu": 9.26,
+      "tokens/trainable": 199822
+    },
+    {
+      "epoch": 8.672897196261681,
+      "eval_loss": 0.05453195795416832,
+      "eval_ppl": 1.05605,
+      "eval_runtime": 3.1113,
+      "eval_samples_per_second": 144.636,
+      "eval_steps_per_second": 72.318,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 234
+    },
+    {
+      "epoch": 8.897196261682243,
+      "grad_norm": 0.8437485694885254,
+      "learning_rate": 0.0004663005644510353,
+      "loss": 0.1329418659210205,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.14218,
+      "step": 240,
+      "tokens/total": 971776,
+      "tokens/train_per_sec_per_gpu": 8.81,
+      "tokens/trainable": 208644
+    },
+    {
+      "epoch": 9.149532710280374,
+      "eval_loss": 0.05991149693727493,
+      "eval_ppl": 1.06174,
+      "eval_runtime": 3.1891,
+      "eval_samples_per_second": 141.107,
+      "eval_steps_per_second": 70.554,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 247
+    },
+    {
+      "epoch": 9.261682242990654,
+      "grad_norm": 0.9875638484954834,
+      "learning_rate": 0.00046314393391836886,
+      "loss": 0.08946565389633179,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.09359,
+      "step": 250,
+      "tokens/total": 1011200,
+      "tokens/train_per_sec_per_gpu": 9.56,
+      "tokens/trainable": 217056
+    },
+    {
+      "epoch": 9.63551401869159,
+      "grad_norm": 0.8560008406639099,
+      "learning_rate": 0.00045985770133924166,
+      "loss": 0.07212840914726257,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.07479,
+      "step": 260,
+      "tokens/total": 1052160,
+      "tokens/train_per_sec_per_gpu": 8.85,
+      "tokens/trainable": 225872
+    },
+    {
+      "epoch": 9.63551401869159,
+      "eval_loss": 0.06320187449455261,
+      "eval_ppl": 1.06524,
+      "eval_runtime": 3.3432,
+      "eval_samples_per_second": 134.603,
+      "eval_steps_per_second": 67.302,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 260
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.9063428044319153,
+      "learning_rate": 0.0004564438649054837,
+      "loss": 0.08905109167098998,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.09314,
+      "step": 270,
+      "tokens/total": 1091584,
+      "tokens/train_per_sec_per_gpu": 5.81,
+      "tokens/trainable": 234330
+    },
+    {
+      "epoch": 10.11214953271028,
+      "eval_loss": 0.052469391375780106,
+      "eval_ppl": 1.05387,
+      "eval_runtime": 3.395,
+      "eval_samples_per_second": 132.546,
+      "eval_steps_per_second": 66.273,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 273
+    },
+    {
+      "epoch": 10.373831775700934,
+      "grad_norm": 0.560842752456665,
+      "learning_rate": 0.00045290450039837574,
+      "loss": 0.04449986815452576,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.0455,
+      "step": 280,
+      "tokens/total": 1132544,
+      "tokens/train_per_sec_per_gpu": 9.69,
+      "tokens/trainable": 243128
+    },
+    {
+      "epoch": 10.598130841121495,
+      "eval_loss": 0.02415500022470951,
+      "eval_ppl": 1.02445,
+      "eval_runtime": 3.1882,
+      "eval_samples_per_second": 141.145,
+      "eval_steps_per_second": 70.572,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 286
+    },
+    {
+      "epoch": 10.74766355140187,
+      "grad_norm": 0.6071906685829163,
+      "learning_rate": 0.000449241759926471,
+      "loss": 0.05587487816810608,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.05747,
+      "step": 290,
+      "tokens/total": 1173504,
+      "tokens/train_per_sec_per_gpu": 8.98,
+      "tokens/trainable": 251897
+    },
+    {
+      "epoch": 11.074766355140186,
+      "eval_loss": 0.03982651233673096,
+      "eval_ppl": 1.04063,
+      "eval_runtime": 3.1446,
+      "eval_samples_per_second": 143.102,
+      "eval_steps_per_second": 71.551,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 299
+    },
+    {
+      "epoch": 11.11214953271028,
+      "grad_norm": 0.3451133966445923,
+      "learning_rate": 0.0004454578706170075,
+      "loss": 0.04882683753967285,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.05004,
+      "step": 300,
+      "tokens/total": 1213440,
+      "tokens/train_per_sec_per_gpu": 9.34,
+      "tokens/trainable": 260438
+    },
+    {
+      "epoch": 11.485981308411215,
+      "grad_norm": 0.6574280858039856,
+      "learning_rate": 0.0004415551332617039,
+      "loss": 0.0388324648141861,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.0396,
+      "step": 310,
+      "tokens/total": 1254400,
+      "tokens/train_per_sec_per_gpu": 9.17,
+      "tokens/trainable": 269201
+    },
+    {
+      "epoch": 11.560747663551401,
+      "eval_loss": 0.024290991947054863,
+      "eval_ppl": 1.02459,
+      "eval_runtime": 3.1262,
+      "eval_samples_per_second": 143.945,
+      "eval_steps_per_second": 71.972,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 312
+    },
+    {
+      "epoch": 11.85981308411215,
+      "grad_norm": 0.5194477438926697,
+      "learning_rate": 0.0004375359209177653,
+      "loss": 0.03742585182189941,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.03814,
+      "step": 320,
+      "tokens/total": 1295360,
+      "tokens/train_per_sec_per_gpu": 8.03,
+      "tokens/trainable": 278020
+    },
+    {
+      "epoch": 12.037383177570094,
+      "eval_loss": 0.014198859222233295,
+      "eval_ppl": 1.0143,
+      "eval_runtime": 3.1513,
+      "eval_samples_per_second": 142.799,
+      "eval_steps_per_second": 71.4,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 325
+    },
+    {
+      "epoch": 12.22429906542056,
+      "grad_norm": 0.3973291516304016,
+      "learning_rate": 0.0004334026774649461,
+      "loss": 0.02231733351945877,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.02257,
+      "step": 330,
+      "tokens/total": 1334784,
+      "tokens/train_per_sec_per_gpu": 9.77,
+      "tokens/trainable": 286427
+    },
+    {
+      "epoch": 12.523364485981308,
+      "eval_loss": 0.012570672668516636,
+      "eval_ppl": 1.01265,
+      "eval_runtime": 3.326,
+      "eval_samples_per_second": 135.296,
+      "eval_steps_per_second": 67.648,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 338
+    },
+    {
+      "epoch": 12.598130841121495,
+      "grad_norm": 0.3709940016269684,
+      "learning_rate": 0.00042915791611955137,
+      "loss": 0.03219857513904571,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.03272,
+      "step": 340,
+      "tokens/total": 1375744,
+      "tokens/train_per_sec_per_gpu": 9.31,
+      "tokens/trainable": 295283
+    },
+    {
+      "epoch": 12.97196261682243,
+      "grad_norm": 0.17208436131477356,
+      "learning_rate": 0.00042480421790627634,
+      "loss": 0.01980234682559967,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.02,
+      "step": 350,
+      "tokens/total": 1416704,
+      "tokens/train_per_sec_per_gpu": 9.11,
+      "tokens/trainable": 304089
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.012684173882007599,
+      "eval_ppl": 1.01276,
+      "eval_runtime": 3.198,
+      "eval_samples_per_second": 140.714,
+      "eval_steps_per_second": 70.357,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 351
+    },
+    {
+      "epoch": 13.336448598130842,
+      "grad_norm": 0.33582761883735657,
+      "learning_rate": 0.0004203442300888162,
+      "loss": 0.011514197289943694,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.01158,
+      "step": 360,
+      "tokens/total": 1456640,
+      "tokens/train_per_sec_per_gpu": 9.54,
+      "tokens/trainable": 312616
+    },
+    {
+      "epoch": 13.485981308411215,
+      "eval_loss": 0.04468829184770584,
+      "eval_ppl": 1.0457,
+      "eval_runtime": 3.2872,
+      "eval_samples_per_second": 136.893,
+      "eval_steps_per_second": 68.446,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 364
+    },
+    {
+      "epoch": 13.710280373831775,
+      "grad_norm": 0.2841266691684723,
+      "learning_rate": 0.0004157806645601988,
+      "loss": 0.010105867683887482,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.01016,
+      "step": 370,
+      "tokens/total": 1497600,
+      "tokens/train_per_sec_per_gpu": 9.07,
+      "tokens/trainable": 321389
+    },
+    {
+      "epoch": 13.97196261682243,
+      "eval_loss": 0.0031872964464128017,
+      "eval_ppl": 1.00319,
+      "eval_runtime": 3.1885,
+      "eval_samples_per_second": 141.133,
+      "eval_steps_per_second": 70.567,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 377
+    },
+    {
+      "epoch": 14.074766355140186,
+      "grad_norm": 0.09129557013511658,
+      "learning_rate": 0.0004111162961938199,
+      "loss": 0.0041460379958152774,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00415,
+      "step": 380,
+      "tokens/total": 1537536,
+      "tokens/train_per_sec_per_gpu": 9.81,
+      "tokens/trainable": 329831
+    },
+    {
+      "epoch": 14.448598130841122,
+      "grad_norm": 0.22759641706943512,
+      "learning_rate": 0.0004063539611561825,
+      "loss": 0.0019860435277223587,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00199,
+      "step": 390,
+      "tokens/total": 1578496,
+      "tokens/train_per_sec_per_gpu": 9.79,
+      "tokens/trainable": 338577
+    },
+    {
+      "epoch": 14.448598130841122,
+      "eval_loss": 0.003925328608602285,
+      "eval_ppl": 1.00393,
+      "eval_runtime": 3.2038,
+      "eval_samples_per_second": 140.46,
+      "eval_steps_per_second": 70.23,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 390
+    },
+    {
+      "epoch": 14.822429906542055,
+      "grad_norm": 0.14231497049331665,
+      "learning_rate": 0.00040149655518236806,
+      "loss": 0.0031101690605282784,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00312,
+      "step": 400,
+      "tokens/total": 1619456,
+      "tokens/train_per_sec_per_gpu": 9.04,
+      "tokens/trainable": 347387
+    },
+    {
+      "epoch": 14.934579439252337,
+      "eval_loss": 0.0032461625523865223,
+      "eval_ppl": 1.00325,
+      "eval_runtime": 3.2699,
+      "eval_samples_per_second": 137.62,
+      "eval_steps_per_second": 68.81,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 403
+    },
+    {
+      "epoch": 15.186915887850468,
+      "grad_norm": 0.02255025878548622,
+      "learning_rate": 0.0003965470318152857,
+      "loss": 0.002625436335802078,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00263,
+      "step": 410,
+      "tokens/total": 1659392,
+      "tokens/train_per_sec_per_gpu": 9.72,
+      "tokens/trainable": 355932
+    },
+    {
+      "epoch": 15.411214953271028,
+      "eval_loss": 0.0007085176766850054,
+      "eval_ppl": 1.00071,
+      "eval_runtime": 3.3925,
+      "eval_samples_per_second": 132.644,
+      "eval_steps_per_second": 66.322,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 416
+    },
+    {
+      "epoch": 15.560747663551401,
+      "grad_norm": 0.0625736191868782,
+      "learning_rate": 0.000391508400609773,
+      "loss": 0.002507678419351578,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00251,
+      "step": 420,
+      "tokens/total": 1700352,
+      "tokens/train_per_sec_per_gpu": 9.23,
+      "tokens/trainable": 364788
+    },
+    {
+      "epoch": 15.897196261682243,
+      "eval_loss": 0.0004907437833026052,
+      "eval_ppl": 1.00049,
+      "eval_runtime": 3.3837,
+      "eval_samples_per_second": 132.992,
+      "eval_steps_per_second": 66.496,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 429
+    },
+    {
+      "epoch": 15.934579439252337,
+      "grad_norm": 0.021322548389434814,
+      "learning_rate": 0.00038638372530263714,
+      "loss": 0.0030783645808696745,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00308,
+      "step": 430,
+      "tokens/total": 1741312,
+      "tokens/train_per_sec_per_gpu": 8.85,
+      "tokens/trainable": 373514
+    },
+    {
+      "epoch": 16.299065420560748,
+      "grad_norm": 0.06707518547773361,
+      "learning_rate": 0.000381176121949752,
+      "loss": 0.003703419119119644,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00371,
+      "step": 440,
+      "tokens/total": 1780736,
+      "tokens/train_per_sec_per_gpu": 8.16,
+      "tokens/trainable": 382031
+    },
+    {
+      "epoch": 16.373831775700936,
+      "eval_loss": 0.0008323417278006673,
+      "eval_ppl": 1.00083,
+      "eval_runtime": 3.1839,
+      "eval_samples_per_second": 141.338,
+      "eval_steps_per_second": 70.669,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 442
+    },
+    {
+      "epoch": 16.672897196261683,
+      "grad_norm": 0.16741153597831726,
+      "learning_rate": 0.00037588875703134186,
+      "loss": 0.002265080250799656,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00227,
+      "step": 450,
+      "tokens/total": 1821696,
+      "tokens/train_per_sec_per_gpu": 8.28,
+      "tokens/trainable": 390824
+    },
+    {
+      "epoch": 16.85981308411215,
+      "eval_loss": 0.0006688478169962764,
+      "eval_ppl": 1.00067,
+      "eval_runtime": 3.7019,
+      "eval_samples_per_second": 121.558,
+      "eval_steps_per_second": 60.779,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 455
+    },
+    {
+      "epoch": 17.037383177570092,
+      "grad_norm": 0.026022493839263916,
+      "learning_rate": 0.00037052484552660517,
+      "loss": 0.0010332781821489334,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00103,
+      "step": 460,
+      "tokens/total": 1861120,
+      "tokens/train_per_sec_per_gpu": 8.88,
+      "tokens/trainable": 399241
+    },
+    {
+      "epoch": 17.33644859813084,
+      "eval_loss": 0.0005382926901802421,
+      "eval_ppl": 1.00054,
+      "eval_runtime": 3.2245,
+      "eval_samples_per_second": 139.555,
+      "eval_steps_per_second": 69.778,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 468
+    },
+    {
+      "epoch": 17.411214953271028,
+      "grad_norm": 0.005740176886320114,
+      "learning_rate": 0.0003650876489588479,
+      "loss": 0.0010417751036584377,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00104,
+      "step": 470,
+      "tokens/total": 1902080,
+      "tokens/train_per_sec_per_gpu": 9.81,
+      "tokens/trainable": 408036
+    },
+    {
+      "epoch": 17.785046728971963,
+      "grad_norm": 0.036771420389413834,
+      "learning_rate": 0.0003595804734123171,
+      "loss": 0.0004790713079273701,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00048,
+      "step": 480,
+      "tokens/total": 1943040,
+      "tokens/train_per_sec_per_gpu": 8.8,
+      "tokens/trainable": 416835
+    },
+    {
+      "epoch": 17.822429906542055,
+      "eval_loss": 0.00038012443110346794,
+      "eval_ppl": 1.00038,
+      "eval_runtime": 3.4016,
+      "eval_samples_per_second": 132.292,
+      "eval_steps_per_second": 66.146,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 481
+    },
+    {
+      "epoch": 18.149532710280372,
+      "grad_norm": 0.002905220026150346,
+      "learning_rate": 0.0003540066675219368,
+      "loss": 0.0006372797768563032,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00064,
+      "step": 490,
+      "tokens/total": 1982464,
+      "tokens/train_per_sec_per_gpu": 9.72,
+      "tokens/trainable": 425360
+    },
+    {
+      "epoch": 18.299065420560748,
+      "eval_loss": 0.00028188255964778364,
+      "eval_ppl": 1.00028,
+      "eval_runtime": 3.2786,
+      "eval_samples_per_second": 137.253,
+      "eval_steps_per_second": 68.626,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 494
+    },
+    {
+      "epoch": 18.523364485981308,
+      "grad_norm": 0.0034076583106070757,
+      "learning_rate": 0.0003483696204371739,
+      "loss": 0.00024668658152222634,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00025,
+      "step": 500,
+      "tokens/total": 2023424,
+      "tokens/train_per_sec_per_gpu": 9.91,
+      "tokens/trainable": 434115
+    },
+    {
+      "epoch": 18.785046728971963,
+      "eval_loss": 0.00022373104002326727,
+      "eval_ppl": 1.00022,
+      "eval_runtime": 3.3779,
+      "eval_samples_per_second": 133.22,
+      "eval_steps_per_second": 66.61,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 507
+    },
+    {
+      "epoch": 18.897196261682243,
+      "grad_norm": 0.0019748767372220755,
+      "learning_rate": 0.00034267275976126695,
+      "loss": 0.00021229716949164868,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00021,
+      "step": 510,
+      "tokens/total": 2064384,
+      "tokens/train_per_sec_per_gpu": 8.88,
+      "tokens/trainable": 442925
+    },
+    {
+      "epoch": 19.261682242990656,
+      "grad_norm": 0.0014892283361405134,
+      "learning_rate": 0.00033691954946707414,
+      "loss": 0.0001773171010427177,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00018,
+      "step": 520,
+      "tokens/total": 2103808,
+      "tokens/train_per_sec_per_gpu": 9.37,
+      "tokens/trainable": 451314
+    },
+    {
+      "epoch": 19.261682242990656,
+      "eval_loss": 0.00018799320969264954,
+      "eval_ppl": 1.00019,
+      "eval_runtime": 3.4548,
+      "eval_samples_per_second": 130.253,
+      "eval_steps_per_second": 65.127,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 520
+    },
+    {
+      "epoch": 19.635514018691588,
+      "grad_norm": 0.0024991026148200035,
+      "learning_rate": 0.0003311134877908068,
+      "loss": 0.00014583958545699716,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00015,
+      "step": 530,
+      "tokens/total": 2144768,
+      "tokens/train_per_sec_per_gpu": 9.2,
+      "tokens/trainable": 460159
+    },
+    {
+      "epoch": 19.747663551401867,
+      "eval_loss": 0.000162541022291407,
+      "eval_ppl": 1.00016,
+      "eval_runtime": 3.1644,
+      "eval_samples_per_second": 142.209,
+      "eval_steps_per_second": 71.105,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 533
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.0018278569914400578,
+      "learning_rate": 0.0003252581051049287,
+      "loss": 0.0001322925789281726,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00013,
+      "step": 540,
+      "tokens/total": 2184192,
+      "tokens/train_per_sec_per_gpu": 6.88,
+      "tokens/trainable": 468660
+    },
+    {
+      "epoch": 20.22429906542056,
+      "eval_loss": 0.00014998124970588833,
+      "eval_ppl": 1.00015,
+      "eval_runtime": 3.1762,
+      "eval_samples_per_second": 141.677,
+      "eval_steps_per_second": 70.839,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 546
+    },
+    {
+      "epoch": 20.373831775700936,
+      "grad_norm": 0.0010968134738504887,
+      "learning_rate": 0.0003193569617715152,
+      "loss": 0.00011919396929442883,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00012,
+      "step": 550,
+      "tokens/total": 2225152,
+      "tokens/train_per_sec_per_gpu": 9.42,
+      "tokens/trainable": 477463
+    },
+    {
+      "epoch": 20.710280373831775,
+      "eval_loss": 0.00013813344412483275,
+      "eval_ppl": 1.00014,
+      "eval_runtime": 3.5379,
+      "eval_samples_per_second": 127.195,
+      "eval_steps_per_second": 63.597,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 559
+    },
+    {
+      "epoch": 20.747663551401867,
+      "grad_norm": 0.0012712250463664532,
+      "learning_rate": 0.0003134136459773768,
+      "loss": 0.00011385473189875483,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00011,
+      "step": 560,
+      "tokens/total": 2266112,
+      "tokens/train_per_sec_per_gpu": 9.2,
+      "tokens/trainable": 486275
+    },
+    {
+      "epoch": 21.11214953271028,
+      "grad_norm": 0.0009374415967613459,
+      "learning_rate": 0.000307431771552265,
+      "loss": 0.00010595285566523671,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00011,
+      "step": 570,
+      "tokens/total": 2305536,
+      "tokens/train_per_sec_per_gpu": 9.1,
+      "tokens/trainable": 494727
+    },
+    {
+      "epoch": 21.186915887850468,
+      "eval_loss": 0.00012631119170691818,
+      "eval_ppl": 1.00013,
+      "eval_runtime": 3.2137,
+      "eval_samples_per_second": 140.025,
+      "eval_steps_per_second": 70.012,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 572
+    },
+    {
+      "epoch": 21.485981308411215,
+      "grad_norm": 0.0010063709923997521,
+      "learning_rate": 0.00030141497577148413,
+      "loss": 9.920914890244603e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.0001,
+      "step": 580,
+      "tokens/total": 2346496,
+      "tokens/train_per_sec_per_gpu": 7.93,
+      "tokens/trainable": 503522
+    },
+    {
+      "epoch": 21.672897196261683,
+      "eval_loss": 0.00011986085155513138,
+      "eval_ppl": 1.00012,
+      "eval_runtime": 3.2183,
+      "eval_samples_per_second": 139.827,
+      "eval_steps_per_second": 69.913,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 585
+    },
+    {
+      "epoch": 21.85981308411215,
+      "grad_norm": 0.0008466723375022411,
+      "learning_rate": 0.0002953669171442492,
+      "loss": 9.56432893872261e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.0001,
+      "step": 590,
+      "tokens/total": 2387456,
+      "tokens/train_per_sec_per_gpu": 9.87,
+      "tokens/trainable": 512355
+    },
+    {
+      "epoch": 22.149532710280372,
+      "eval_loss": 0.00011447798897279426,
+      "eval_ppl": 1.00011,
+      "eval_runtime": 3.193,
+      "eval_samples_per_second": 140.931,
+      "eval_steps_per_second": 70.466,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 598
+    },
+    {
+      "epoch": 22.22429906542056,
+      "grad_norm": 0.000825527764391154,
+      "learning_rate": 0.0002892912731891308,
+      "loss": 9.330455795861781e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00009,
+      "step": 600,
+      "tokens/total": 2427392,
+      "tokens/train_per_sec_per_gpu": 9.42,
+      "tokens/trainable": 520795
+    },
+    {
+      "epoch": 22.598130841121495,
+      "grad_norm": 0.0008508224273100495,
+      "learning_rate": 0.00028319173819794225,
+      "loss": 8.645119378343224e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00009,
+      "step": 610,
+      "tokens/total": 2468352,
+      "tokens/train_per_sec_per_gpu": 9.51,
+      "tokens/trainable": 529598
+    },
+    {
+      "epoch": 22.635514018691588,
+      "eval_loss": 0.00010859948088182136,
+      "eval_ppl": 1.00011,
+      "eval_runtime": 3.417,
+      "eval_samples_per_second": 131.693,
+      "eval_steps_per_second": 65.847,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 611
+    },
+    {
+      "epoch": 22.97196261682243,
+      "grad_norm": 0.0009219254134222865,
+      "learning_rate": 0.0002770720209894278,
+      "loss": 8.582760929130018e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00009,
+      "step": 620,
+      "tokens/total": 2509312,
+      "tokens/train_per_sec_per_gpu": 9.75,
+      "tokens/trainable": 538425
+    },
+    {
+      "epoch": 23.11214953271028,
+      "eval_loss": 0.00010516884503886104,
+      "eval_ppl": 1.00011,
+      "eval_runtime": 3.179,
+      "eval_samples_per_second": 141.555,
+      "eval_steps_per_second": 70.777,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 624
+    },
+    {
+      "epoch": 23.33644859813084,
+      "grad_norm": 0.0007691273931413889,
+      "learning_rate": 0.0002709358426541172,
+      "loss": 7.895263843238354e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00008,
+      "step": 630,
+      "tokens/total": 2548736,
+      "tokens/train_per_sec_per_gpu": 9.27,
+      "tokens/trainable": 546859
+    },
+    {
+      "epoch": 23.598130841121495,
+      "eval_loss": 9.977629815693945e-05,
+      "eval_ppl": 1.0001,
+      "eval_runtime": 3.2478,
+      "eval_samples_per_second": 138.556,
+      "eval_steps_per_second": 69.278,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 637
+    },
+    {
+      "epoch": 23.710280373831775,
+      "grad_norm": 0.0006967310328036547,
+      "learning_rate": 0.0002647869342917189,
+      "loss": 7.867861422710121e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00008,
+      "step": 640,
+      "tokens/total": 2589696,
+      "tokens/train_per_sec_per_gpu": 9.2,
+      "tokens/trainable": 555650
+    },
+    {
+      "epoch": 24.074766355140188,
+      "grad_norm": 0.0007521616062149405,
+      "learning_rate": 0.00025862903474242705,
+      "loss": 7.776265265420079e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00008,
+      "step": 650,
+      "tokens/total": 2629632,
+      "tokens/train_per_sec_per_gpu": 9.17,
+      "tokens/trainable": 564165
+    },
+    {
+      "epoch": 24.074766355140188,
+      "eval_loss": 9.550119284540415e-05,
+      "eval_ppl": 1.0001,
+      "eval_runtime": 3.3412,
+      "eval_samples_per_second": 134.683,
+      "eval_steps_per_second": 67.341,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 650
+    },
+    {
+      "epoch": 24.44859813084112,
+      "grad_norm": 0.0007108044228516519,
+      "learning_rate": 0.0002524658883135218,
+      "loss": 7.329802610911429e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00007,
+      "step": 660,
+      "tokens/total": 2670592,
+      "tokens/train_per_sec_per_gpu": 9.38,
+      "tokens/trainable": 572926
+    },
+    {
+      "epoch": 24.560747663551403,
+      "eval_loss": 9.172627324005589e-05,
+      "eval_ppl": 1.00009,
+      "eval_runtime": 3.7184,
+      "eval_samples_per_second": 121.019,
+      "eval_steps_per_second": 60.51,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 663
+    },
+    {
+      "epoch": 24.822429906542055,
+      "grad_norm": 0.0006645999965257943,
+      "learning_rate": 0.00024630124250264534,
+      "loss": 7.127165445126593e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00007,
+      "step": 670,
+      "tokens/total": 2711552,
+      "tokens/train_per_sec_per_gpu": 9.89,
+      "tokens/trainable": 581770
+    },
+    {
+      "epoch": 25.037383177570092,
+      "eval_loss": 8.835878543322906e-05,
+      "eval_ppl": 1.00009,
+      "eval_runtime": 3.1353,
+      "eval_samples_per_second": 143.528,
+      "eval_steps_per_second": 71.764,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 676
+    },
+    {
+      "epoch": 25.186915887850468,
+      "grad_norm": 0.0006837110850028694,
+      "learning_rate": 0.00024013884571913848,
+      "loss": 6.827799952588976e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00007,
+      "step": 680,
+      "tokens/total": 2750976,
+      "tokens/train_per_sec_per_gpu": 9.25,
+      "tokens/trainable": 590204
+    },
+    {
+      "epoch": 25.523364485981308,
+      "eval_loss": 8.580442954553291e-05,
+      "eval_ppl": 1.00009,
+      "eval_runtime": 3.2275,
+      "eval_samples_per_second": 139.428,
+      "eval_steps_per_second": 69.714,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 689
+    },
+    {
+      "epoch": 25.560747663551403,
+      "grad_norm": 0.000674366659950465,
+      "learning_rate": 0.0002339824450048218,
+      "loss": 6.729281740263105e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00007,
+      "step": 690,
+      "tokens/total": 2791936,
+      "tokens/train_per_sec_per_gpu": 9.14,
+      "tokens/trainable": 599010
+    },
+    {
+      "epoch": 25.934579439252335,
+      "grad_norm": 0.0007088438724167645,
+      "learning_rate": 0.00022783578375560988,
+      "loss": 6.656785844825209e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00007,
+      "step": 700,
+      "tokens/total": 2832896,
+      "tokens/train_per_sec_per_gpu": 9.08,
+      "tokens/trainable": 607840
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 8.344819798367098e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.3956,
+      "eval_samples_per_second": 132.526,
+      "eval_steps_per_second": 66.263,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 702
+    },
+    {
+      "epoch": 26.299065420560748,
+      "grad_norm": 0.0005904277204535902,
+      "learning_rate": 0.00022170259944534078,
+      "loss": 6.326055736280978e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 710,
+      "tokens/total": 2872832,
+      "tokens/train_per_sec_per_gpu": 8.06,
+      "tokens/trainable": 616307
+    },
+    {
+      "epoch": 26.485981308411215,
+      "eval_loss": 8.010442979866639e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.2519,
+      "eval_samples_per_second": 138.379,
+      "eval_steps_per_second": 69.189,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 715
+    },
+    {
+      "epoch": 26.672897196261683,
+      "grad_norm": 0.0006110401009209454,
+      "learning_rate": 0.00021558662135320801,
+      "loss": 6.258178618736565e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 720,
+      "tokens/total": 2913792,
+      "tokens/train_per_sec_per_gpu": 8.96,
+      "tokens/trainable": 625124
+    },
+    {
+      "epoch": 26.97196261682243,
+      "eval_loss": 7.89020414231345e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.2787,
+      "eval_samples_per_second": 137.251,
+      "eval_steps_per_second": 68.625,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 728
+    },
+    {
+      "epoch": 27.037383177570092,
+      "grad_norm": 0.0006264990661293268,
+      "learning_rate": 0.00020949156829617354,
+      "loss": 6.46325759589672e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 730,
+      "tokens/total": 2953216,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 633530
+    },
+    {
+      "epoch": 27.411214953271028,
+      "grad_norm": 0.0005080907139927149,
+      "learning_rate": 0.00020342114636774422,
+      "loss": 6.0859386576339605e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 740,
+      "tokens/total": 2994176,
+      "tokens/train_per_sec_per_gpu": 9.37,
+      "tokens/trainable": 642311
+    },
+    {
+      "epoch": 27.44859813084112,
+      "eval_loss": 7.685931632295251e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.176,
+      "eval_samples_per_second": 141.687,
+      "eval_steps_per_second": 70.844,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 741
+    },
+    {
+      "epoch": 27.785046728971963,
+      "grad_norm": 0.000587633578106761,
+      "learning_rate": 0.000197379046684483,
+      "loss": 5.73551922570914e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 750,
+      "tokens/total": 3035136,
+      "tokens/train_per_sec_per_gpu": 8.89,
+      "tokens/trainable": 651161
+    },
+    {
+      "epoch": 27.934579439252335,
+      "eval_loss": 7.496050238842145e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.3291,
+      "eval_samples_per_second": 135.173,
+      "eval_steps_per_second": 67.587,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 754
+    },
+    {
+      "epoch": 28.149532710280372,
+      "grad_norm": 0.0006080602761358023,
+      "learning_rate": 0.00019136894314162808,
+      "loss": 6.023343303240836e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 760,
+      "tokens/total": 3075072,
+      "tokens/train_per_sec_per_gpu": 9.09,
+      "tokens/trainable": 659594
+    },
+    {
+      "epoch": 28.411214953271028,
+      "eval_loss": 7.33654378564097e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.6738,
+      "eval_samples_per_second": 122.49,
+      "eval_steps_per_second": 61.245,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 767
+    },
+    {
+      "epoch": 28.523364485981308,
+      "grad_norm": 0.0005171361262910068,
+      "learning_rate": 0.00018539449017918302,
+      "loss": 5.463137058541179e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 770,
+      "tokens/total": 3116032,
+      "tokens/train_per_sec_per_gpu": 9.47,
+      "tokens/trainable": 668446
+    },
+    {
+      "epoch": 28.897196261682243,
+      "grad_norm": 0.000620691105723381,
+      "learning_rate": 0.0001794593205598361,
+      "loss": 5.686976946890354e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 780,
+      "tokens/total": 3156992,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 677257
+    },
+    {
+      "epoch": 28.897196261682243,
+      "eval_loss": 7.189060124801472e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.5114,
+      "eval_samples_per_second": 128.154,
+      "eval_steps_per_second": 64.077,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 780
+    },
+    {
+      "epoch": 29.261682242990656,
+      "grad_norm": 0.0005146770854480565,
+      "learning_rate": 0.00017356704316006183,
+      "loss": 5.4644700139760974e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 790,
+      "tokens/total": 3196416,
+      "tokens/train_per_sec_per_gpu": 8.78,
+      "tokens/trainable": 685722
+    },
+    {
+      "epoch": 29.373831775700936,
+      "eval_loss": 6.988636596361175e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.3264,
+      "eval_samples_per_second": 135.282,
+      "eval_steps_per_second": 67.641,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 793
+    },
+    {
+      "epoch": 29.635514018691588,
+      "grad_norm": 0.0004947104607708752,
+      "learning_rate": 0.00016772124077574482,
+      "loss": 5.4022762924432755e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 800,
+      "tokens/total": 3237376,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 694563
+    },
+    {
+      "epoch": 29.85981308411215,
+      "eval_loss": 6.932941323611885e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.1894,
+      "eval_samples_per_second": 141.094,
+      "eval_steps_per_second": 70.547,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 806
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.0006835766253061593,
+      "learning_rate": 0.0001619254679436638,
+      "loss": 5.5819249246269466e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 810,
+      "tokens/total": 3276800,
+      "tokens/train_per_sec_per_gpu": 5.99,
+      "tokens/trainable": 702990
+    },
+    {
+      "epoch": 30.33644859813084,
+      "eval_loss": 6.759980897186324e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.1493,
+      "eval_samples_per_second": 142.888,
+      "eval_steps_per_second": 71.444,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 819
+    },
+    {
+      "epoch": 30.373831775700936,
+      "grad_norm": 0.0005019630189053714,
+      "learning_rate": 0.0001561832487801565,
+      "loss": 5.427976138889789e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 820,
+      "tokens/total": 3317760,
+      "tokens/train_per_sec_per_gpu": 8.78,
+      "tokens/trainable": 711755
+    },
+    {
+      "epoch": 30.747663551401867,
+      "grad_norm": 0.0005171055672690272,
+      "learning_rate": 0.00015049807483828362,
+      "loss": 5.220457096584141e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 830,
+      "tokens/total": 3358720,
+      "tokens/train_per_sec_per_gpu": 9.29,
+      "tokens/trainable": 720596
+    },
+    {
+      "epoch": 30.822429906542055,
+      "eval_loss": 6.67451968183741e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.1738,
+      "eval_samples_per_second": 141.784,
+      "eval_steps_per_second": 70.892,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 832
+    },
+    {
+      "epoch": 31.11214953271028,
+      "grad_norm": 0.0005160675500519574,
+      "learning_rate": 0.00014487340298479146,
+      "loss": 4.989110166206956e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 840,
+      "tokens/total": 3398144,
+      "tokens/train_per_sec_per_gpu": 9.17,
+      "tokens/trainable": 729106
+    },
+    {
+      "epoch": 31.299065420560748,
+      "eval_loss": 6.565650255652145e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.0911,
+      "eval_samples_per_second": 145.578,
+      "eval_steps_per_second": 72.789,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 845
+    },
+    {
+      "epoch": 31.485981308411215,
+      "grad_norm": 0.00047307557542808354,
+      "learning_rate": 0.00013931265329816646,
+      "loss": 5.1057303790003064e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 850,
+      "tokens/total": 3439104,
+      "tokens/train_per_sec_per_gpu": 9.26,
+      "tokens/trainable": 737916
+    },
+    {
+      "epoch": 31.785046728971963,
+      "eval_loss": 6.46287517156452e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.6973,
+      "eval_samples_per_second": 121.712,
+      "eval_steps_per_second": 60.856,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 858
+    },
+    {
+      "epoch": 31.85981308411215,
+      "grad_norm": 0.00047350223758257926,
+      "learning_rate": 0.00013381920698905787,
+      "loss": 5.040300311520696e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 860,
+      "tokens/total": 3480064,
+      "tokens/train_per_sec_per_gpu": 9.36,
+      "tokens/trainable": 746738
+    },
+    {
+      "epoch": 32.22429906542056,
+      "grad_norm": 0.0005081515409983695,
+      "learning_rate": 0.00012839640434433552,
+      "loss": 5.042277625761926e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 870,
+      "tokens/total": 3519488,
+      "tokens/train_per_sec_per_gpu": 8.81,
+      "tokens/trainable": 755141
+    },
+    {
+      "epoch": 32.26168224299065,
+      "eval_loss": 6.399525591405109e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.377,
+      "eval_samples_per_second": 133.255,
+      "eval_steps_per_second": 66.627,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 871
+    },
+    {
+      "epoch": 32.598130841121495,
+      "grad_norm": 0.00047458027256652713,
+      "learning_rate": 0.00012304754269602914,
+      "loss": 4.8718880861997604e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 880,
+      "tokens/total": 3560448,
+      "tokens/train_per_sec_per_gpu": 8.12,
+      "tokens/trainable": 763958
+    },
+    {
+      "epoch": 32.74766355140187,
+      "eval_loss": 6.338646198855713e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.1534,
+      "eval_samples_per_second": 142.702,
+      "eval_steps_per_second": 71.351,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 884
+    },
+    {
+      "epoch": 32.97196261682243,
+      "grad_norm": 0.00044811354018747807,
+      "learning_rate": 0.0001177758744163886,
+      "loss": 4.926404799334705e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 890,
+      "tokens/total": 3601408,
+      "tokens/train_per_sec_per_gpu": 9.51,
+      "tokens/trainable": 772706
+    },
+    {
+      "epoch": 33.22429906542056,
+      "eval_loss": 6.242044764803723e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2372,
+      "eval_samples_per_second": 139.007,
+      "eval_steps_per_second": 69.504,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 897
+    },
+    {
+      "epoch": 33.33644859813084,
+      "grad_norm": 0.0004931804141961038,
+      "learning_rate": 0.00011258460494028003,
+      "loss": 4.853466525673866e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 900,
+      "tokens/total": 3641344,
+      "tokens/train_per_sec_per_gpu": 9.43,
+      "tokens/trainable": 781219
+    },
+    {
+      "epoch": 33.71028037383178,
+      "grad_norm": 0.0005011935718357563,
+      "learning_rate": 0.00010747689081612324,
+      "loss": 4.763478355016559e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 910,
+      "tokens/total": 3682304,
+      "tokens/train_per_sec_per_gpu": 9.07,
+      "tokens/trainable": 790015
+    },
+    {
+      "epoch": 33.71028037383178,
+      "eval_loss": 6.122803461039439e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2367,
+      "eval_samples_per_second": 139.032,
+      "eval_steps_per_second": 69.516,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 910
+    },
+    {
+      "epoch": 34.074766355140184,
+      "grad_norm": 0.00045264940126799047,
+      "learning_rate": 0.00010245583778655474,
+      "loss": 4.637397942133248e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 920,
+      "tokens/total": 3721728,
+      "tokens/train_per_sec_per_gpu": 9.21,
+      "tokens/trainable": 798498
+    },
+    {
+      "epoch": 34.18691588785047,
+      "eval_loss": 6.11661744187586e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2212,
+      "eval_samples_per_second": 139.699,
+      "eval_steps_per_second": 69.849,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 923
+    },
+    {
+      "epoch": 34.44859813084112,
+      "grad_norm": 0.000527155352756381,
+      "learning_rate": 9.752449889998178e-05,
+      "loss": 4.6964338980615136e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 930,
+      "tokens/total": 3762688,
+      "tokens/train_per_sec_per_gpu": 8.91,
+      "tokens/trainable": 807314
+    },
+    {
+      "epoch": 34.67289719626168,
+      "eval_loss": 6.0676517023239285e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4036,
+      "eval_samples_per_second": 132.213,
+      "eval_steps_per_second": 66.106,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 936
+    },
+    {
+      "epoch": 34.822429906542055,
+      "grad_norm": 0.0004101029480807483,
+      "learning_rate": 9.268587265417902e-05,
+      "loss": 4.6843086602166294e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 940,
+      "tokens/total": 3803648,
+      "tokens/train_per_sec_per_gpu": 9.47,
+      "tokens/trainable": 816126
+    },
+    {
+      "epoch": 35.149532710280376,
+      "eval_loss": 6.071670577512123e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.5808,
+      "eval_samples_per_second": 125.669,
+      "eval_steps_per_second": 62.835,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 949
+    },
+    {
+      "epoch": 35.18691588785047,
+      "grad_norm": 0.0004206536686979234,
+      "learning_rate": 8.794290117305295e-05,
+      "loss": 4.5391733874566856e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 950,
+      "tokens/total": 3843072,
+      "tokens/train_per_sec_per_gpu": 9.13,
+      "tokens/trainable": 824583
+    },
+    {
+      "epoch": 35.5607476635514,
+      "grad_norm": 0.0004591047763824463,
+      "learning_rate": 8.329846841768538e-05,
+      "loss": 4.516696208156645e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 960,
+      "tokens/total": 3884032,
+      "tokens/train_per_sec_per_gpu": 8.84,
+      "tokens/trainable": 833364
+    },
+    {
+      "epoch": 35.63551401869159,
+      "eval_loss": 5.8858131524175406e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2801,
+      "eval_samples_per_second": 137.19,
+      "eval_steps_per_second": 68.595,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 962
+    },
+    {
+      "epoch": 35.93457943925234,
+      "grad_norm": 0.00047418291796930134,
+      "learning_rate": 7.875539843274262e-05,
+      "loss": 4.6477647265419365e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 970,
+      "tokens/total": 3924992,
+      "tokens/train_per_sec_per_gpu": 7.91,
+      "tokens/trainable": 842152
+    },
+    {
+      "epoch": 36.11214953271028,
+      "eval_loss": 5.8864348829956725e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2318,
+      "eval_samples_per_second": 139.241,
+      "eval_steps_per_second": 69.621,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 975
+    },
+    {
+      "epoch": 36.299065420560744,
+      "grad_norm": 0.00040592439472675323,
+      "learning_rate": 7.431645362931691e-05,
+      "loss": 4.467906255740672e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 980,
+      "tokens/total": 3964416,
+      "tokens/train_per_sec_per_gpu": 9.1,
+      "tokens/trainable": 850684
+    },
+    {
+      "epoch": 36.598130841121495,
+      "eval_loss": 5.867854270036332e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2514,
+      "eval_samples_per_second": 138.401,
+      "eval_steps_per_second": 69.201,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 988
+    },
+    {
+      "epoch": 36.67289719626168,
+      "grad_norm": 0.0004126799467485398,
+      "learning_rate": 6.998433310524335e-05,
+      "loss": 4.481191863305867e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 990,
+      "tokens/total": 4005376,
+      "tokens/train_per_sec_per_gpu": 9.61,
+      "tokens/trainable": 859505
+    },
+    {
+      "epoch": 37.03738317757009,
+      "grad_norm": 0.0004212119965814054,
+      "learning_rate": 6.576167100391584e-05,
+      "loss": 4.4428894761949776e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1000,
+      "tokens/total": 4044800,
+      "tokens/train_per_sec_per_gpu": 8.84,
+      "tokens/trainable": 867893
+    },
+    {
+      "epoch": 37.074766355140184,
+      "eval_loss": 5.772413351223804e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2553,
+      "eval_samples_per_second": 138.236,
+      "eval_steps_per_second": 69.118,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1001
+    },
+    {
+      "epoch": 37.41121495327103,
+      "grad_norm": 0.00038078008219599724,
+      "learning_rate": 6.165103491259688e-05,
+      "loss": 4.44692064775154e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1010,
+      "tokens/total": 4085760,
+      "tokens/train_per_sec_per_gpu": 7.76,
+      "tokens/trainable": 876709
+    },
+    {
+      "epoch": 37.5607476635514,
+      "eval_loss": 5.793718810309656e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.5145,
+      "eval_samples_per_second": 128.039,
+      "eval_steps_per_second": 64.02,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1014
+    },
+    {
+      "epoch": 37.78504672897196,
+      "grad_norm": 0.00041370512917637825,
+      "learning_rate": 5.765492430119831e-05,
+      "loss": 4.4130056630820035e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1020,
+      "tokens/total": 4126720,
+      "tokens/train_per_sec_per_gpu": 9.33,
+      "tokens/trainable": 885550
+    },
+    {
+      "epoch": 38.03738317757009,
+      "eval_loss": 5.737932588090189e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2905,
+      "eval_samples_per_second": 136.758,
+      "eval_steps_per_second": 68.379,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1027
+    },
+    {
+      "epoch": 38.149532710280376,
+      "grad_norm": 0.00041744214831851423,
+      "learning_rate": 5.3775769002479546e-05,
+      "loss": 4.308792122174054e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1030,
+      "tokens/total": 4166144,
+      "tokens/train_per_sec_per_gpu": 9.18,
+      "tokens/trainable": 893981
+    },
+    {
+      "epoch": 38.52336448598131,
+      "grad_norm": 0.0003765086585190147,
+      "learning_rate": 5.001592773458941e-05,
+      "loss": 4.37814713222906e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1040,
+      "tokens/total": 4207104,
+      "tokens/train_per_sec_per_gpu": 9.25,
+      "tokens/trainable": 902785
+    },
+    {
+      "epoch": 38.52336448598131,
+      "eval_loss": 5.725925075239502e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.1926,
+      "eval_samples_per_second": 140.949,
+      "eval_steps_per_second": 70.475,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 1040
+    },
+    {
+      "epoch": 38.89719626168224,
+      "grad_norm": 0.00042925550951622427,
+      "learning_rate": 4.6377686666849026e-05,
+      "loss": 4.4643908040598035e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1050,
+      "tokens/total": 4248064,
+      "tokens/train_per_sec_per_gpu": 9.07,
+      "tokens/trainable": 911611
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 5.617448914563283e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.35,
+      "eval_samples_per_second": 134.33,
+      "eval_steps_per_second": 67.165,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1053
+    },
+    {
+      "epoch": 39.26168224299065,
+      "grad_norm": 0.0004092319286428392,
+      "learning_rate": 4.286325802964752e-05,
+      "loss": 4.223847936373204e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1060,
+      "tokens/total": 4287488,
+      "tokens/train_per_sec_per_gpu": 9.45,
+      "tokens/trainable": 920065
+    },
+    {
+      "epoch": 39.48598130841121,
+      "eval_loss": 5.649494050885551e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4014,
+      "eval_samples_per_second": 132.299,
+      "eval_steps_per_second": 66.15,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1066
+    },
+    {
+      "epoch": 39.63551401869159,
+      "grad_norm": 0.00039947053301148117,
+      "learning_rate": 3.947477876929706e-05,
+      "loss": 4.293379897717387e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1070,
+      "tokens/total": 4328448,
+      "tokens/train_per_sec_per_gpu": 9.52,
+      "tokens/trainable": 928880
+    },
+    {
+      "epoch": 39.97196261682243,
+      "eval_loss": 5.622552635031752e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.3325,
+      "eval_samples_per_second": 135.032,
+      "eval_steps_per_second": 67.516,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1079
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.0005581126897595823,
+      "learning_rate": 3.621430924866348e-05,
+      "loss": 4.391485417727381e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1080,
+      "tokens/total": 4367872,
+      "tokens/train_per_sec_per_gpu": 5.04,
+      "tokens/trainable": 937320
+    },
+    {
+      "epoch": 40.373831775700936,
+      "grad_norm": 0.0004162968834862113,
+      "learning_rate": 3.308383199436399e-05,
+      "loss": 4.293692181818187e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1090,
+      "tokens/total": 4408832,
+      "tokens/train_per_sec_per_gpu": 9.63,
+      "tokens/trainable": 946161
+    },
+    {
+      "epoch": 40.44859813084112,
+      "eval_loss": 5.564530147239566e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.1595,
+      "eval_samples_per_second": 142.428,
+      "eval_steps_per_second": 71.214,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1092
+    },
+    {
+      "epoch": 40.74766355140187,
+      "grad_norm": 0.0003698903019540012,
+      "learning_rate": 3.0085250491293016e-05,
+      "loss": 4.3350915075279775e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1100,
+      "tokens/total": 4449792,
+      "tokens/train_per_sec_per_gpu": 8.06,
+      "tokens/trainable": 954956
+    },
+    {
+      "epoch": 40.93457943925234,
+      "eval_loss": 5.604937541647814e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4338,
+      "eval_samples_per_second": 131.051,
+      "eval_steps_per_second": 65.525,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1105
+    },
+    {
+      "epoch": 41.11214953271028,
+      "grad_norm": 0.0003706767165567726,
+      "learning_rate": 2.7220388025209376e-05,
+      "loss": 4.130922898184508e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1110,
+      "tokens/total": 4489216,
+      "tokens/train_per_sec_per_gpu": 9.37,
+      "tokens/trainable": 963402
+    },
+    {
+      "epoch": 41.41121495327103,
+      "eval_loss": 5.551826689043082e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.209,
+      "eval_samples_per_second": 140.233,
+      "eval_steps_per_second": 70.116,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1118
+    },
+    {
+      "epoch": 41.48598130841121,
+      "grad_norm": 0.0003818798577412963,
+      "learning_rate": 2.4490986574088186e-05,
+      "loss": 4.319115250837058e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1120,
+      "tokens/total": 4530176,
+      "tokens/train_per_sec_per_gpu": 8.72,
+      "tokens/trainable": 972229
+    },
+    {
+      "epoch": 41.85981308411215,
+      "grad_norm": 0.0004545100382529199,
+      "learning_rate": 2.1898705748912506e-05,
+      "loss": 4.4042911031283435e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1130,
+      "tokens/total": 4571136,
+      "tokens/train_per_sec_per_gpu": 9.35,
+      "tokens/trainable": 981064
+    },
+    {
+      "epoch": 41.89719626168224,
+      "eval_loss": 5.508323010872118e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2656,
+      "eval_samples_per_second": 137.801,
+      "eval_steps_per_second": 68.901,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1131
+    },
+    {
+      "epoch": 42.22429906542056,
+      "grad_norm": 0.0004064469540026039,
+      "learning_rate": 1.9445121784547437e-05,
+      "loss": 4.090330330654979e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1140,
+      "tokens/total": 4610560,
+      "tokens/train_per_sec_per_gpu": 9.7,
+      "tokens/trainable": 989479
+    },
+    {
+      "epoch": 42.373831775700936,
+      "eval_loss": 5.579328353633173e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.3538,
+      "eval_samples_per_second": 134.175,
+      "eval_steps_per_second": 67.087,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1144
+    },
+    {
+      "epoch": 42.598130841121495,
+      "grad_norm": 0.00043209429713897407,
+      "learning_rate": 1.7131726581311734e-05,
+      "loss": 4.3470136006362736e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1150,
+      "tokens/total": 4651520,
+      "tokens/train_per_sec_per_gpu": 9.22,
+      "tokens/trainable": 998299
+    },
+    {
+      "epoch": 42.85981308411215,
+      "eval_loss": 5.553974551730789e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4051,
+      "eval_samples_per_second": 132.154,
+      "eval_steps_per_second": 66.077,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1157
+    },
+    {
+      "epoch": 42.97196261682243,
+      "grad_norm": 0.0004145831917412579,
+      "learning_rate": 1.4959926797828427e-05,
+      "loss": 4.1807466186583045e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1160,
+      "tokens/total": 4692480,
+      "tokens/train_per_sec_per_gpu": 9.53,
+      "tokens/trainable": 1007096
+    },
+    {
+      "epoch": 43.33644859813084,
+      "grad_norm": 0.0003859826538246125,
+      "learning_rate": 1.2931042995707159e-05,
+      "loss": 4.134701448492706e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1170,
+      "tokens/total": 4731904,
+      "tokens/train_per_sec_per_gpu": 7.68,
+      "tokens/trainable": 1015507
+    },
+    {
+      "epoch": 43.33644859813084,
+      "eval_loss": 5.5574641010025516e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.18,
+      "eval_samples_per_second": 141.509,
+      "eval_steps_per_second": 70.754,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 1170
+    },
+    {
+      "epoch": 43.71028037383178,
+      "grad_norm": 0.0003987500676885247,
+      "learning_rate": 1.1046308836577201e-05,
+      "loss": 4.182373522780836e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1180,
+      "tokens/total": 4772864,
+      "tokens/train_per_sec_per_gpu": 9.05,
+      "tokens/trainable": 1024376
+    },
+    {
+      "epoch": 43.822429906542055,
+      "eval_loss": 5.485746805788949e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.4857,
+      "eval_samples_per_second": 129.1,
+      "eval_steps_per_second": 64.55,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1183
+    },
+    {
+      "epoch": 44.074766355140184,
+      "grad_norm": 0.0004245893214829266,
+      "learning_rate": 9.306870331960232e-06,
+      "loss": 4.327711940277368e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1190,
+      "tokens/total": 4812288,
+      "tokens/train_per_sec_per_gpu": 8.59,
+      "tokens/trainable": 1032827
+    },
+    {
+      "epoch": 44.299065420560744,
+      "eval_loss": 5.491507545229979e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.2966,
+      "eval_samples_per_second": 136.504,
+      "eval_steps_per_second": 68.252,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1196
+    },
+    {
+      "epoch": 44.44859813084112,
+      "grad_norm": 0.0004224616277497262,
+      "learning_rate": 7.713785146438889e-06,
+      "loss": 4.1210482595488426e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1200,
+      "tokens/total": 4853248,
+      "tokens/train_per_sec_per_gpu": 8.94,
+      "tokens/trainable": 1041626
+    },
+    {
+      "epoch": 44.78504672897196,
+      "eval_loss": 5.5391912610502914e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.3679,
+      "eval_samples_per_second": 133.612,
+      "eval_steps_per_second": 66.806,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1209
+    },
+    {
+      "epoch": 44.822429906542055,
+      "grad_norm": 0.00036442236159928143,
+      "learning_rate": 6.268021954544096e-06,
+      "loss": 4.300210566725582e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1210,
+      "tokens/total": 4894208,
+      "tokens/train_per_sec_per_gpu": 8.04,
+      "tokens/trainable": 1050459
+    },
+    {
+      "epoch": 45.18691588785047,
+      "grad_norm": 0.00040011643432080746,
+      "learning_rate": 4.970459851753456e-06,
+      "loss": 4.2740206117741765e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1220,
+      "tokens/total": 4933632,
+      "tokens/train_per_sec_per_gpu": 8.98,
+      "tokens/trainable": 1058864
+    },
+    {
+      "epoch": 45.26168224299065,
+      "eval_loss": 5.4846168495714664e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.3892,
+      "eval_samples_per_second": 132.774,
+      "eval_steps_per_second": 66.387,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1222
+    },
+    {
+      "epoch": 45.5607476635514,
+      "grad_norm": 0.0004423453356139362,
+      "learning_rate": 3.821887819957376e-06,
+      "loss": 4.242766881361604e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1230,
+      "tokens/total": 4974592,
+      "tokens/train_per_sec_per_gpu": 9.41,
+      "tokens/trainable": 1067666
+    },
+    {
+      "epoch": 45.74766355140187,
+      "eval_loss": 5.494186916621402e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.6349,
+      "eval_samples_per_second": 123.8,
+      "eval_steps_per_second": 61.9,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1235
+    },
+    {
+      "epoch": 45.93457943925234,
+      "grad_norm": 0.000343750580213964,
+      "learning_rate": 2.8230042477194738e-06,
+      "loss": 4.15234622778371e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1240,
+      "tokens/total": 5015552,
+      "tokens/train_per_sec_per_gpu": 9.6,
+      "tokens/trainable": 1076497
+    },
+    {
+      "epoch": 46.22429906542056,
+      "eval_loss": 5.485347719513811e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.4301,
+      "eval_samples_per_second": 131.192,
+      "eval_steps_per_second": 65.596,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1248
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1300,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 49,
+  "save_steps": 26,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1402600346864845e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1248/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5473cf43580ac5e4f7c06b37abcd61cc86d6cc83348c79a909cdfdf6d1b9e166
+size 7057

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_bias": false,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "down_proj",
+    "k_proj",
+    "q_proj",
+    "up_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "target_parameters": [],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0208a88f86e8650d895396fb28d73ce7b7199934f2758a5f11ea54fa0d9cd195
+size 528550256

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,4 @@

+{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '
+' + message['content'] + '<|im_end|>' + '
+'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
+' }}{% endif %}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35b3a8188e967e96633693340f3444896ea6ab53091ddd982cea1129b01267cc
+size 1057397963

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3dbabbbc7cf3a54d34ede3166486f044e00169bbff597245974dcfcf58867104
+size 14645

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9648c2a4d8a8c62f4fa600b2700b828ce4ef16560706f1334957f2ec4a65ca4
+size 1465

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be75606093db2094d7cd20f3c2f385c212750648bd6ea4fb2bf507a6a4c55506
+size 11422650

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "is_local": true,
+  "model_max_length": 1010000,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/tokens_state. ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"total": 5151744, "trainable": 1105747}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3000 @@

+{
+  "best_global_step": 1274,
+  "best_metric": 5.461459295474924e-05,
+  "best_model_checkpoint": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/knowledge/atomic_sft_lora_50ep_t20260305/checkpoint-1274",
+  "epoch": 47.18691588785047,
+  "eval_steps": 13,
+  "global_step": 1274,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_loss": 11.576359748840332,
+      "eval_ppl": 106548.94637,
+      "eval_runtime": 7.7089,
+      "eval_samples_per_second": 58.374,
+      "eval_steps_per_second": 29.187,
+      "memory/device_reserved (GiB)": 8.97,
+      "memory/max_active (GiB)": 4.47,
+      "memory/max_allocated (GiB)": 4.47,
+      "step": 0
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "grad_norm": 2.3110249042510986,
+      "learning_rate": 0.00017307692307692307,
+      "loss": 7.286613464355469,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1460.61588,
+      "step": 10,
+      "tokens/total": 40960,
+      "tokens/train_per_sec_per_gpu": 9.55,
+      "tokens/trainable": 8868
+    },
+    {
+      "epoch": 0.48598130841121495,
+      "eval_loss": 2.822082996368408,
+      "eval_ppl": 16.81183,
+      "eval_runtime": 3.1606,
+      "eval_samples_per_second": 142.378,
+      "eval_steps_per_second": 71.189,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 13
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "grad_norm": 1.8976582288742065,
+      "learning_rate": 0.00036538461538461535,
+      "loss": 2.6126346588134766,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 13.63493,
+      "step": 20,
+      "tokens/total": 81920,
+      "tokens/train_per_sec_per_gpu": 7.97,
+      "tokens/trainable": 17587
+    },
+    {
+      "epoch": 0.9719626168224299,
+      "eval_loss": 1.144375205039978,
+      "eval_ppl": 3.14048,
+      "eval_runtime": 3.0779,
+      "eval_samples_per_second": 146.202,
+      "eval_steps_per_second": 73.101,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 26
+    },
+    {
+      "epoch": 1.1121495327102804,
+      "grad_norm": 1.1263617277145386,
+      "learning_rate": 0.000499993159128523,
+      "loss": 1.3756730079650878,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 3.95774,
+      "step": 30,
+      "tokens/total": 121344,
+      "tokens/train_per_sec_per_gpu": 9.42,
+      "tokens/trainable": 26103
+    },
+    {
+      "epoch": 1.4485981308411215,
+      "eval_loss": 0.9320468902587891,
+      "eval_ppl": 2.5397,
+      "eval_runtime": 3.1697,
+      "eval_samples_per_second": 141.968,
+      "eval_steps_per_second": 70.984,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 39
+    },
+    {
+      "epoch": 1.485981308411215,
+      "grad_norm": 0.7886229753494263,
+      "learning_rate": 0.000499871554050172,
+      "loss": 1.0714111328125,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.9195,
+      "step": 40,
+      "tokens/total": 162304,
+      "tokens/train_per_sec_per_gpu": 9.18,
+      "tokens/trainable": 34934
+    },
+    {
+      "epoch": 1.8598130841121496,
+      "grad_norm": 0.8071430325508118,
+      "learning_rate": 0.0004995980147170576,
+      "loss": 1.0068815231323243,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.73705,
+      "step": 50,
+      "tokens/total": 203264,
+      "tokens/train_per_sec_per_gpu": 9.45,
+      "tokens/trainable": 43704
+    },
+    {
+      "epoch": 1.9345794392523366,
+      "eval_loss": 0.8724005818367004,
+      "eval_ppl": 2.39265,
+      "eval_runtime": 3.2632,
+      "eval_samples_per_second": 137.903,
+      "eval_steps_per_second": 68.952,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 52
+    },
+    {
+      "epoch": 2.2242990654205608,
+      "grad_norm": 0.8555540442466736,
+      "learning_rate": 0.0004991727074546138,
+      "loss": 0.9307943344116211,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.53652,
+      "step": 60,
+      "tokens/total": 242688,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 52105
+    },
+    {
+      "epoch": 2.411214953271028,
+      "eval_loss": 0.8703448176383972,
+      "eval_ppl": 2.38773,
+      "eval_runtime": 3.1746,
+      "eval_samples_per_second": 141.75,
+      "eval_steps_per_second": 70.875,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 65
+    },
+    {
+      "epoch": 2.5981308411214954,
+      "grad_norm": 0.7338283061981201,
+      "learning_rate": 0.0004985958908706771,
+      "loss": 0.9038754463195801,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.46915,
+      "step": 70,
+      "tokens/total": 283648,
+      "tokens/train_per_sec_per_gpu": 9.52,
+      "tokens/trainable": 60918
+    },
+    {
+      "epoch": 2.897196261682243,
+      "eval_loss": 0.8341130018234253,
+      "eval_ppl": 2.30277,
+      "eval_runtime": 3.1645,
+      "eval_samples_per_second": 142.201,
+      "eval_steps_per_second": 71.1,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 78
+    },
+    {
+      "epoch": 2.97196261682243,
+      "grad_norm": 0.6529878377914429,
+      "learning_rate": 0.0004978679156982397,
+      "loss": 0.8851642608642578,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.42338,
+      "step": 80,
+      "tokens/total": 324608,
+      "tokens/train_per_sec_per_gpu": 9.31,
+      "tokens/trainable": 69756
+    },
+    {
+      "epoch": 3.336448598130841,
+      "grad_norm": 0.4933421313762665,
+      "learning_rate": 0.0004969892245821866,
+      "loss": 0.8534950256347656,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.34784,
+      "step": 90,
+      "tokens/total": 364544,
+      "tokens/train_per_sec_per_gpu": 8.68,
+      "tokens/trainable": 78232
+    },
+    {
+      "epoch": 3.3738317757009346,
+      "eval_loss": 0.8056238889694214,
+      "eval_ppl": 2.23809,
+      "eval_runtime": 3.1985,
+      "eval_samples_per_second": 140.689,
+      "eval_steps_per_second": 70.345,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 91
+    },
+    {
+      "epoch": 3.710280373831776,
+      "grad_norm": 0.5127931833267212,
+      "learning_rate": 0.0004959603518101456,
+      "loss": 0.8484575271606445,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.33604,
+      "step": 100,
+      "tokens/total": 405504,
+      "tokens/train_per_sec_per_gpu": 9.46,
+      "tokens/trainable": 87078
+    },
+    {
+      "epoch": 3.8598130841121496,
+      "eval_loss": 0.7935463190078735,
+      "eval_ppl": 2.21122,
+      "eval_runtime": 3.1979,
+      "eval_samples_per_second": 140.717,
+      "eval_steps_per_second": 70.358,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 104
+    },
+    {
+      "epoch": 4.074766355140187,
+      "grad_norm": 0.5711424946784973,
+      "learning_rate": 0.0004947819229876143,
+      "loss": 0.8517816543579102,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.34382,
+      "step": 110,
+      "tokens/total": 444928,
+      "tokens/train_per_sec_per_gpu": 8.83,
+      "tokens/trainable": 95470
+    },
+    {
+      "epoch": 4.336448598130841,
+      "eval_loss": 0.7475497126579285,
+      "eval_ppl": 2.11182,
+      "eval_runtime": 3.2295,
+      "eval_samples_per_second": 139.342,
+      "eval_steps_per_second": 69.671,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 117
+    },
+    {
+      "epoch": 4.4485981308411215,
+      "grad_norm": 0.45637959241867065,
+      "learning_rate": 0.0004934546546575604,
+      "loss": 0.7973217487335205,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.21959,
+      "step": 120,
+      "tokens/total": 485888,
+      "tokens/train_per_sec_per_gpu": 9.04,
+      "tokens/trainable": 104318
+    },
+    {
+      "epoch": 4.822429906542056,
+      "grad_norm": 0.5224671959877014,
+      "learning_rate": 0.000491979353864729,
+      "loss": 0.8252082824707031,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.28236,
+      "step": 130,
+      "tokens/total": 526848,
+      "tokens/train_per_sec_per_gpu": 9.62,
+      "tokens/trainable": 113074
+    },
+    {
+      "epoch": 4.822429906542056,
+      "eval_loss": 0.7261071801185608,
+      "eval_ppl": 2.06702,
+      "eval_runtime": 3.1567,
+      "eval_samples_per_second": 142.554,
+      "eval_steps_per_second": 71.277,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 130
+    },
+    {
+      "epoch": 5.186915887850467,
+      "grad_norm": 1.2096866369247437,
+      "learning_rate": 0.0004903569176649188,
+      "loss": 0.7676509857177735,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.1547,
+      "step": 140,
+      "tokens/total": 566272,
+      "tokens/train_per_sec_per_gpu": 9.11,
+      "tokens/trainable": 121542
+    },
+    {
+      "epoch": 5.299065420560748,
+      "eval_loss": 0.5942183136940002,
+      "eval_ppl": 1.81161,
+      "eval_runtime": 3.1578,
+      "eval_samples_per_second": 142.503,
+      "eval_steps_per_second": 71.251,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 143
+    },
+    {
+      "epoch": 5.5607476635514015,
+      "grad_norm": 0.7773618698120117,
+      "learning_rate": 0.0004885883325795282,
+      "loss": 0.6715390682220459,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.95725,
+      "step": 150,
+      "tokens/total": 607232,
+      "tokens/train_per_sec_per_gpu": 9.36,
+      "tokens/trainable": 130388
+    },
+    {
+      "epoch": 5.785046728971962,
+      "eval_loss": 0.5664681196212769,
+      "eval_ppl": 1.76203,
+      "eval_runtime": 3.1743,
+      "eval_samples_per_second": 141.762,
+      "eval_steps_per_second": 70.881,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 156
+    },
+    {
+      "epoch": 5.934579439252336,
+      "grad_norm": 0.9837582111358643,
+      "learning_rate": 0.0004866746739957015,
+      "loss": 0.7201411724090576,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.05472,
+      "step": 160,
+      "tokens/total": 648192,
+      "tokens/train_per_sec_per_gpu": 9.1,
+      "tokens/trainable": 139201
+    },
+    {
+      "epoch": 6.261682242990654,
+      "eval_loss": 0.3298272490501404,
+      "eval_ppl": 1.39073,
+      "eval_runtime": 3.3393,
+      "eval_samples_per_second": 134.76,
+      "eval_steps_per_second": 67.38,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 169
+    },
+    {
+      "epoch": 6.299065420560748,
+      "grad_norm": 12.733769416809082,
+      "learning_rate": 0.0004846171055124401,
+      "loss": 0.5171830177307128,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.6773,
+      "step": 170,
+      "tokens/total": 687616,
+      "tokens/train_per_sec_per_gpu": 9.15,
+      "tokens/trainable": 147665
+    },
+    {
+      "epoch": 6.672897196261682,
+      "grad_norm": 1.0612688064575195,
+      "learning_rate": 0.00048241687823307724,
+      "loss": 0.45992417335510255,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.58395,
+      "step": 180,
+      "tokens/total": 728576,
+      "tokens/train_per_sec_per_gpu": 9.78,
+      "tokens/trainable": 156476
+    },
+    {
+      "epoch": 6.747663551401869,
+      "eval_loss": 0.3797531723976135,
+      "eval_ppl": 1.46192,
+      "eval_runtime": 3.2068,
+      "eval_samples_per_second": 140.325,
+      "eval_steps_per_second": 70.162,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 182
+    },
+    {
+      "epoch": 7.037383177570093,
+      "grad_norm": 2.0055079460144043,
+      "learning_rate": 0.00048007533000454496,
+      "loss": 0.520701789855957,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.68321,
+      "step": 190,
+      "tokens/total": 768512,
+      "tokens/train_per_sec_per_gpu": 8.34,
+      "tokens/trainable": 164903
+    },
+    {
+      "epoch": 7.224299065420561,
+      "eval_loss": 0.16449837386608124,
+      "eval_ppl": 1.1788,
+      "eval_runtime": 3.112,
+      "eval_samples_per_second": 144.6,
+      "eval_steps_per_second": 72.3,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 195
+    },
+    {
+      "epoch": 7.411214953271028,
+      "grad_norm": 2.8855485916137695,
+      "learning_rate": 0.00047759388460389725,
+      "loss": 0.20058777332305908,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.22212,
+      "step": 200,
+      "tokens/total": 809472,
+      "tokens/train_per_sec_per_gpu": 9.89,
+      "tokens/trainable": 173695
+    },
+    {
+      "epoch": 7.710280373831775,
+      "eval_loss": 0.1505199521780014,
+      "eval_ppl": 1.16244,
+      "eval_runtime": 3.1823,
+      "eval_samples_per_second": 141.409,
+      "eval_steps_per_second": 70.704,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 208
+    },
+    {
+      "epoch": 7.785046728971962,
+      "grad_norm": 1.3034435510635376,
+      "learning_rate": 0.0004749740508725832,
+      "loss": 0.2634513139724731,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.30141,
+      "step": 210,
+      "tokens/total": 850432,
+      "tokens/train_per_sec_per_gpu": 9.5,
+      "tokens/trainable": 182480
+    },
+    {
+      "epoch": 8.149532710280374,
+      "grad_norm": 0.8162353038787842,
+      "learning_rate": 0.00047221742179899654,
+      "loss": 0.18547557592391967,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.20379,
+      "step": 220,
+      "tokens/total": 889856,
+      "tokens/train_per_sec_per_gpu": 8.85,
+      "tokens/trainable": 191013
+    },
+    {
+      "epoch": 8.186915887850468,
+      "eval_loss": 0.07461368292570114,
+      "eval_ppl": 1.07747,
+      "eval_runtime": 3.1819,
+      "eval_samples_per_second": 141.426,
+      "eval_steps_per_second": 70.713,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 221
+    },
+    {
+      "epoch": 8.523364485981308,
+      "grad_norm": 0.7081874012947083,
+      "learning_rate": 0.0004693256735498605,
+      "loss": 0.11240044832229615,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.11896,
+      "step": 230,
+      "tokens/total": 930816,
+      "tokens/train_per_sec_per_gpu": 9.26,
+      "tokens/trainable": 199822
+    },
+    {
+      "epoch": 8.672897196261681,
+      "eval_loss": 0.05453195795416832,
+      "eval_ppl": 1.05605,
+      "eval_runtime": 3.1113,
+      "eval_samples_per_second": 144.636,
+      "eval_steps_per_second": 72.318,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 234
+    },
+    {
+      "epoch": 8.897196261682243,
+      "grad_norm": 0.8437485694885254,
+      "learning_rate": 0.0004663005644510353,
+      "loss": 0.1329418659210205,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.14218,
+      "step": 240,
+      "tokens/total": 971776,
+      "tokens/train_per_sec_per_gpu": 8.81,
+      "tokens/trainable": 208644
+    },
+    {
+      "epoch": 9.149532710280374,
+      "eval_loss": 0.05991149693727493,
+      "eval_ppl": 1.06174,
+      "eval_runtime": 3.1891,
+      "eval_samples_per_second": 141.107,
+      "eval_steps_per_second": 70.554,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 247
+    },
+    {
+      "epoch": 9.261682242990654,
+      "grad_norm": 0.9875638484954834,
+      "learning_rate": 0.00046314393391836886,
+      "loss": 0.08946565389633179,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.09359,
+      "step": 250,
+      "tokens/total": 1011200,
+      "tokens/train_per_sec_per_gpu": 9.56,
+      "tokens/trainable": 217056
+    },
+    {
+      "epoch": 9.63551401869159,
+      "grad_norm": 0.8560008406639099,
+      "learning_rate": 0.00045985770133924166,
+      "loss": 0.07212840914726257,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.07479,
+      "step": 260,
+      "tokens/total": 1052160,
+      "tokens/train_per_sec_per_gpu": 8.85,
+      "tokens/trainable": 225872
+    },
+    {
+      "epoch": 9.63551401869159,
+      "eval_loss": 0.06320187449455261,
+      "eval_ppl": 1.06524,
+      "eval_runtime": 3.3432,
+      "eval_samples_per_second": 134.603,
+      "eval_steps_per_second": 67.302,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 260
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.9063428044319153,
+      "learning_rate": 0.0004564438649054837,
+      "loss": 0.08905109167098998,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.09314,
+      "step": 270,
+      "tokens/total": 1091584,
+      "tokens/train_per_sec_per_gpu": 5.81,
+      "tokens/trainable": 234330
+    },
+    {
+      "epoch": 10.11214953271028,
+      "eval_loss": 0.052469391375780106,
+      "eval_ppl": 1.05387,
+      "eval_runtime": 3.395,
+      "eval_samples_per_second": 132.546,
+      "eval_steps_per_second": 66.273,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 273
+    },
+    {
+      "epoch": 10.373831775700934,
+      "grad_norm": 0.560842752456665,
+      "learning_rate": 0.00045290450039837574,
+      "loss": 0.04449986815452576,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.0455,
+      "step": 280,
+      "tokens/total": 1132544,
+      "tokens/train_per_sec_per_gpu": 9.69,
+      "tokens/trainable": 243128
+    },
+    {
+      "epoch": 10.598130841121495,
+      "eval_loss": 0.02415500022470951,
+      "eval_ppl": 1.02445,
+      "eval_runtime": 3.1882,
+      "eval_samples_per_second": 141.145,
+      "eval_steps_per_second": 70.572,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 286
+    },
+    {
+      "epoch": 10.74766355140187,
+      "grad_norm": 0.6071906685829163,
+      "learning_rate": 0.000449241759926471,
+      "loss": 0.05587487816810608,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.05747,
+      "step": 290,
+      "tokens/total": 1173504,
+      "tokens/train_per_sec_per_gpu": 8.98,
+      "tokens/trainable": 251897
+    },
+    {
+      "epoch": 11.074766355140186,
+      "eval_loss": 0.03982651233673096,
+      "eval_ppl": 1.04063,
+      "eval_runtime": 3.1446,
+      "eval_samples_per_second": 143.102,
+      "eval_steps_per_second": 71.551,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 299
+    },
+    {
+      "epoch": 11.11214953271028,
+      "grad_norm": 0.3451133966445923,
+      "learning_rate": 0.0004454578706170075,
+      "loss": 0.04882683753967285,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.05004,
+      "step": 300,
+      "tokens/total": 1213440,
+      "tokens/train_per_sec_per_gpu": 9.34,
+      "tokens/trainable": 260438
+    },
+    {
+      "epoch": 11.485981308411215,
+      "grad_norm": 0.6574280858039856,
+      "learning_rate": 0.0004415551332617039,
+      "loss": 0.0388324648141861,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.0396,
+      "step": 310,
+      "tokens/total": 1254400,
+      "tokens/train_per_sec_per_gpu": 9.17,
+      "tokens/trainable": 269201
+    },
+    {
+      "epoch": 11.560747663551401,
+      "eval_loss": 0.024290991947054863,
+      "eval_ppl": 1.02459,
+      "eval_runtime": 3.1262,
+      "eval_samples_per_second": 143.945,
+      "eval_steps_per_second": 71.972,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 312
+    },
+    {
+      "epoch": 11.85981308411215,
+      "grad_norm": 0.5194477438926697,
+      "learning_rate": 0.0004375359209177653,
+      "loss": 0.03742585182189941,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.03814,
+      "step": 320,
+      "tokens/total": 1295360,
+      "tokens/train_per_sec_per_gpu": 8.03,
+      "tokens/trainable": 278020
+    },
+    {
+      "epoch": 12.037383177570094,
+      "eval_loss": 0.014198859222233295,
+      "eval_ppl": 1.0143,
+      "eval_runtime": 3.1513,
+      "eval_samples_per_second": 142.799,
+      "eval_steps_per_second": 71.4,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 325
+    },
+    {
+      "epoch": 12.22429906542056,
+      "grad_norm": 0.3973291516304016,
+      "learning_rate": 0.0004334026774649461,
+      "loss": 0.02231733351945877,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.02257,
+      "step": 330,
+      "tokens/total": 1334784,
+      "tokens/train_per_sec_per_gpu": 9.77,
+      "tokens/trainable": 286427
+    },
+    {
+      "epoch": 12.523364485981308,
+      "eval_loss": 0.012570672668516636,
+      "eval_ppl": 1.01265,
+      "eval_runtime": 3.326,
+      "eval_samples_per_second": 135.296,
+      "eval_steps_per_second": 67.648,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 338
+    },
+    {
+      "epoch": 12.598130841121495,
+      "grad_norm": 0.3709940016269684,
+      "learning_rate": 0.00042915791611955137,
+      "loss": 0.03219857513904571,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.03272,
+      "step": 340,
+      "tokens/total": 1375744,
+      "tokens/train_per_sec_per_gpu": 9.31,
+      "tokens/trainable": 295283
+    },
+    {
+      "epoch": 12.97196261682243,
+      "grad_norm": 0.17208436131477356,
+      "learning_rate": 0.00042480421790627634,
+      "loss": 0.01980234682559967,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.02,
+      "step": 350,
+      "tokens/total": 1416704,
+      "tokens/train_per_sec_per_gpu": 9.11,
+      "tokens/trainable": 304089
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.012684173882007599,
+      "eval_ppl": 1.01276,
+      "eval_runtime": 3.198,
+      "eval_samples_per_second": 140.714,
+      "eval_steps_per_second": 70.357,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 351
+    },
+    {
+      "epoch": 13.336448598130842,
+      "grad_norm": 0.33582761883735657,
+      "learning_rate": 0.0004203442300888162,
+      "loss": 0.011514197289943694,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.01158,
+      "step": 360,
+      "tokens/total": 1456640,
+      "tokens/train_per_sec_per_gpu": 9.54,
+      "tokens/trainable": 312616
+    },
+    {
+      "epoch": 13.485981308411215,
+      "eval_loss": 0.04468829184770584,
+      "eval_ppl": 1.0457,
+      "eval_runtime": 3.2872,
+      "eval_samples_per_second": 136.893,
+      "eval_steps_per_second": 68.446,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 364
+    },
+    {
+      "epoch": 13.710280373831775,
+      "grad_norm": 0.2841266691684723,
+      "learning_rate": 0.0004157806645601988,
+      "loss": 0.010105867683887482,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.01016,
+      "step": 370,
+      "tokens/total": 1497600,
+      "tokens/train_per_sec_per_gpu": 9.07,
+      "tokens/trainable": 321389
+    },
+    {
+      "epoch": 13.97196261682243,
+      "eval_loss": 0.0031872964464128017,
+      "eval_ppl": 1.00319,
+      "eval_runtime": 3.1885,
+      "eval_samples_per_second": 141.133,
+      "eval_steps_per_second": 70.567,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 377
+    },
+    {
+      "epoch": 14.074766355140186,
+      "grad_norm": 0.09129557013511658,
+      "learning_rate": 0.0004111162961938199,
+      "loss": 0.0041460379958152774,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00415,
+      "step": 380,
+      "tokens/total": 1537536,
+      "tokens/train_per_sec_per_gpu": 9.81,
+      "tokens/trainable": 329831
+    },
+    {
+      "epoch": 14.448598130841122,
+      "grad_norm": 0.22759641706943512,
+      "learning_rate": 0.0004063539611561825,
+      "loss": 0.0019860435277223587,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00199,
+      "step": 390,
+      "tokens/total": 1578496,
+      "tokens/train_per_sec_per_gpu": 9.79,
+      "tokens/trainable": 338577
+    },
+    {
+      "epoch": 14.448598130841122,
+      "eval_loss": 0.003925328608602285,
+      "eval_ppl": 1.00393,
+      "eval_runtime": 3.2038,
+      "eval_samples_per_second": 140.46,
+      "eval_steps_per_second": 70.23,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 390
+    },
+    {
+      "epoch": 14.822429906542055,
+      "grad_norm": 0.14231497049331665,
+      "learning_rate": 0.00040149655518236806,
+      "loss": 0.0031101690605282784,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00312,
+      "step": 400,
+      "tokens/total": 1619456,
+      "tokens/train_per_sec_per_gpu": 9.04,
+      "tokens/trainable": 347387
+    },
+    {
+      "epoch": 14.934579439252337,
+      "eval_loss": 0.0032461625523865223,
+      "eval_ppl": 1.00325,
+      "eval_runtime": 3.2699,
+      "eval_samples_per_second": 137.62,
+      "eval_steps_per_second": 68.81,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 403
+    },
+    {
+      "epoch": 15.186915887850468,
+      "grad_norm": 0.02255025878548622,
+      "learning_rate": 0.0003965470318152857,
+      "loss": 0.002625436335802078,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00263,
+      "step": 410,
+      "tokens/total": 1659392,
+      "tokens/train_per_sec_per_gpu": 9.72,
+      "tokens/trainable": 355932
+    },
+    {
+      "epoch": 15.411214953271028,
+      "eval_loss": 0.0007085176766850054,
+      "eval_ppl": 1.00071,
+      "eval_runtime": 3.3925,
+      "eval_samples_per_second": 132.644,
+      "eval_steps_per_second": 66.322,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 416
+    },
+    {
+      "epoch": 15.560747663551401,
+      "grad_norm": 0.0625736191868782,
+      "learning_rate": 0.000391508400609773,
+      "loss": 0.002507678419351578,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00251,
+      "step": 420,
+      "tokens/total": 1700352,
+      "tokens/train_per_sec_per_gpu": 9.23,
+      "tokens/trainable": 364788
+    },
+    {
+      "epoch": 15.897196261682243,
+      "eval_loss": 0.0004907437833026052,
+      "eval_ppl": 1.00049,
+      "eval_runtime": 3.3837,
+      "eval_samples_per_second": 132.992,
+      "eval_steps_per_second": 66.496,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 429
+    },
+    {
+      "epoch": 15.934579439252337,
+      "grad_norm": 0.021322548389434814,
+      "learning_rate": 0.00038638372530263714,
+      "loss": 0.0030783645808696745,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00308,
+      "step": 430,
+      "tokens/total": 1741312,
+      "tokens/train_per_sec_per_gpu": 8.85,
+      "tokens/trainable": 373514
+    },
+    {
+      "epoch": 16.299065420560748,
+      "grad_norm": 0.06707518547773361,
+      "learning_rate": 0.000381176121949752,
+      "loss": 0.003703419119119644,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00371,
+      "step": 440,
+      "tokens/total": 1780736,
+      "tokens/train_per_sec_per_gpu": 8.16,
+      "tokens/trainable": 382031
+    },
+    {
+      "epoch": 16.373831775700936,
+      "eval_loss": 0.0008323417278006673,
+      "eval_ppl": 1.00083,
+      "eval_runtime": 3.1839,
+      "eval_samples_per_second": 141.338,
+      "eval_steps_per_second": 70.669,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 442
+    },
+    {
+      "epoch": 16.672897196261683,
+      "grad_norm": 0.16741153597831726,
+      "learning_rate": 0.00037588875703134186,
+      "loss": 0.002265080250799656,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00227,
+      "step": 450,
+      "tokens/total": 1821696,
+      "tokens/train_per_sec_per_gpu": 8.28,
+      "tokens/trainable": 390824
+    },
+    {
+      "epoch": 16.85981308411215,
+      "eval_loss": 0.0006688478169962764,
+      "eval_ppl": 1.00067,
+      "eval_runtime": 3.7019,
+      "eval_samples_per_second": 121.558,
+      "eval_steps_per_second": 60.779,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 455
+    },
+    {
+      "epoch": 17.037383177570092,
+      "grad_norm": 0.026022493839263916,
+      "learning_rate": 0.00037052484552660517,
+      "loss": 0.0010332781821489334,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00103,
+      "step": 460,
+      "tokens/total": 1861120,
+      "tokens/train_per_sec_per_gpu": 8.88,
+      "tokens/trainable": 399241
+    },
+    {
+      "epoch": 17.33644859813084,
+      "eval_loss": 0.0005382926901802421,
+      "eval_ppl": 1.00054,
+      "eval_runtime": 3.2245,
+      "eval_samples_per_second": 139.555,
+      "eval_steps_per_second": 69.778,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 468
+    },
+    {
+      "epoch": 17.411214953271028,
+      "grad_norm": 0.005740176886320114,
+      "learning_rate": 0.0003650876489588479,
+      "loss": 0.0010417751036584377,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00104,
+      "step": 470,
+      "tokens/total": 1902080,
+      "tokens/train_per_sec_per_gpu": 9.81,
+      "tokens/trainable": 408036
+    },
+    {
+      "epoch": 17.785046728971963,
+      "grad_norm": 0.036771420389413834,
+      "learning_rate": 0.0003595804734123171,
+      "loss": 0.0004790713079273701,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00048,
+      "step": 480,
+      "tokens/total": 1943040,
+      "tokens/train_per_sec_per_gpu": 8.8,
+      "tokens/trainable": 416835
+    },
+    {
+      "epoch": 17.822429906542055,
+      "eval_loss": 0.00038012443110346794,
+      "eval_ppl": 1.00038,
+      "eval_runtime": 3.4016,
+      "eval_samples_per_second": 132.292,
+      "eval_steps_per_second": 66.146,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 481
+    },
+    {
+      "epoch": 18.149532710280372,
+      "grad_norm": 0.002905220026150346,
+      "learning_rate": 0.0003540066675219368,
+      "loss": 0.0006372797768563032,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00064,
+      "step": 490,
+      "tokens/total": 1982464,
+      "tokens/train_per_sec_per_gpu": 9.72,
+      "tokens/trainable": 425360
+    },
+    {
+      "epoch": 18.299065420560748,
+      "eval_loss": 0.00028188255964778364,
+      "eval_ppl": 1.00028,
+      "eval_runtime": 3.2786,
+      "eval_samples_per_second": 137.253,
+      "eval_steps_per_second": 68.626,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 494
+    },
+    {
+      "epoch": 18.523364485981308,
+      "grad_norm": 0.0034076583106070757,
+      "learning_rate": 0.0003483696204371739,
+      "loss": 0.00024668658152222634,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00025,
+      "step": 500,
+      "tokens/total": 2023424,
+      "tokens/train_per_sec_per_gpu": 9.91,
+      "tokens/trainable": 434115
+    },
+    {
+      "epoch": 18.785046728971963,
+      "eval_loss": 0.00022373104002326727,
+      "eval_ppl": 1.00022,
+      "eval_runtime": 3.3779,
+      "eval_samples_per_second": 133.22,
+      "eval_steps_per_second": 66.61,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 507
+    },
+    {
+      "epoch": 18.897196261682243,
+      "grad_norm": 0.0019748767372220755,
+      "learning_rate": 0.00034267275976126695,
+      "loss": 0.00021229716949164868,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00021,
+      "step": 510,
+      "tokens/total": 2064384,
+      "tokens/train_per_sec_per_gpu": 8.88,
+      "tokens/trainable": 442925
+    },
+    {
+      "epoch": 19.261682242990656,
+      "grad_norm": 0.0014892283361405134,
+      "learning_rate": 0.00033691954946707414,
+      "loss": 0.0001773171010427177,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00018,
+      "step": 520,
+      "tokens/total": 2103808,
+      "tokens/train_per_sec_per_gpu": 9.37,
+      "tokens/trainable": 451314
+    },
+    {
+      "epoch": 19.261682242990656,
+      "eval_loss": 0.00018799320969264954,
+      "eval_ppl": 1.00019,
+      "eval_runtime": 3.4548,
+      "eval_samples_per_second": 130.253,
+      "eval_steps_per_second": 65.127,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 520
+    },
+    {
+      "epoch": 19.635514018691588,
+      "grad_norm": 0.0024991026148200035,
+      "learning_rate": 0.0003311134877908068,
+      "loss": 0.00014583958545699716,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00015,
+      "step": 530,
+      "tokens/total": 2144768,
+      "tokens/train_per_sec_per_gpu": 9.2,
+      "tokens/trainable": 460159
+    },
+    {
+      "epoch": 19.747663551401867,
+      "eval_loss": 0.000162541022291407,
+      "eval_ppl": 1.00016,
+      "eval_runtime": 3.1644,
+      "eval_samples_per_second": 142.209,
+      "eval_steps_per_second": 71.105,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 533
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.0018278569914400578,
+      "learning_rate": 0.0003252581051049287,
+      "loss": 0.0001322925789281726,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00013,
+      "step": 540,
+      "tokens/total": 2184192,
+      "tokens/train_per_sec_per_gpu": 6.88,
+      "tokens/trainable": 468660
+    },
+    {
+      "epoch": 20.22429906542056,
+      "eval_loss": 0.00014998124970588833,
+      "eval_ppl": 1.00015,
+      "eval_runtime": 3.1762,
+      "eval_samples_per_second": 141.677,
+      "eval_steps_per_second": 70.839,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 546
+    },
+    {
+      "epoch": 20.373831775700936,
+      "grad_norm": 0.0010968134738504887,
+      "learning_rate": 0.0003193569617715152,
+      "loss": 0.00011919396929442883,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00012,
+      "step": 550,
+      "tokens/total": 2225152,
+      "tokens/train_per_sec_per_gpu": 9.42,
+      "tokens/trainable": 477463
+    },
+    {
+      "epoch": 20.710280373831775,
+      "eval_loss": 0.00013813344412483275,
+      "eval_ppl": 1.00014,
+      "eval_runtime": 3.5379,
+      "eval_samples_per_second": 127.195,
+      "eval_steps_per_second": 63.597,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 559
+    },
+    {
+      "epoch": 20.747663551401867,
+      "grad_norm": 0.0012712250463664532,
+      "learning_rate": 0.0003134136459773768,
+      "loss": 0.00011385473189875483,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00011,
+      "step": 560,
+      "tokens/total": 2266112,
+      "tokens/train_per_sec_per_gpu": 9.2,
+      "tokens/trainable": 486275
+    },
+    {
+      "epoch": 21.11214953271028,
+      "grad_norm": 0.0009374415967613459,
+      "learning_rate": 0.000307431771552265,
+      "loss": 0.00010595285566523671,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00011,
+      "step": 570,
+      "tokens/total": 2305536,
+      "tokens/train_per_sec_per_gpu": 9.1,
+      "tokens/trainable": 494727
+    },
+    {
+      "epoch": 21.186915887850468,
+      "eval_loss": 0.00012631119170691818,
+      "eval_ppl": 1.00013,
+      "eval_runtime": 3.2137,
+      "eval_samples_per_second": 140.025,
+      "eval_steps_per_second": 70.012,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 572
+    },
+    {
+      "epoch": 21.485981308411215,
+      "grad_norm": 0.0010063709923997521,
+      "learning_rate": 0.00030141497577148413,
+      "loss": 9.920914890244603e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.0001,
+      "step": 580,
+      "tokens/total": 2346496,
+      "tokens/train_per_sec_per_gpu": 7.93,
+      "tokens/trainable": 503522
+    },
+    {
+      "epoch": 21.672897196261683,
+      "eval_loss": 0.00011986085155513138,
+      "eval_ppl": 1.00012,
+      "eval_runtime": 3.2183,
+      "eval_samples_per_second": 139.827,
+      "eval_steps_per_second": 69.913,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 585
+    },
+    {
+      "epoch": 21.85981308411215,
+      "grad_norm": 0.0008466723375022411,
+      "learning_rate": 0.0002953669171442492,
+      "loss": 9.56432893872261e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.0001,
+      "step": 590,
+      "tokens/total": 2387456,
+      "tokens/train_per_sec_per_gpu": 9.87,
+      "tokens/trainable": 512355
+    },
+    {
+      "epoch": 22.149532710280372,
+      "eval_loss": 0.00011447798897279426,
+      "eval_ppl": 1.00011,
+      "eval_runtime": 3.193,
+      "eval_samples_per_second": 140.931,
+      "eval_steps_per_second": 70.466,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 598
+    },
+    {
+      "epoch": 22.22429906542056,
+      "grad_norm": 0.000825527764391154,
+      "learning_rate": 0.0002892912731891308,
+      "loss": 9.330455795861781e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00009,
+      "step": 600,
+      "tokens/total": 2427392,
+      "tokens/train_per_sec_per_gpu": 9.42,
+      "tokens/trainable": 520795
+    },
+    {
+      "epoch": 22.598130841121495,
+      "grad_norm": 0.0008508224273100495,
+      "learning_rate": 0.00028319173819794225,
+      "loss": 8.645119378343224e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00009,
+      "step": 610,
+      "tokens/total": 2468352,
+      "tokens/train_per_sec_per_gpu": 9.51,
+      "tokens/trainable": 529598
+    },
+    {
+      "epoch": 22.635514018691588,
+      "eval_loss": 0.00010859948088182136,
+      "eval_ppl": 1.00011,
+      "eval_runtime": 3.417,
+      "eval_samples_per_second": 131.693,
+      "eval_steps_per_second": 65.847,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 611
+    },
+    {
+      "epoch": 22.97196261682243,
+      "grad_norm": 0.0009219254134222865,
+      "learning_rate": 0.0002770720209894278,
+      "loss": 8.582760929130018e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00009,
+      "step": 620,
+      "tokens/total": 2509312,
+      "tokens/train_per_sec_per_gpu": 9.75,
+      "tokens/trainable": 538425
+    },
+    {
+      "epoch": 23.11214953271028,
+      "eval_loss": 0.00010516884503886104,
+      "eval_ppl": 1.00011,
+      "eval_runtime": 3.179,
+      "eval_samples_per_second": 141.555,
+      "eval_steps_per_second": 70.777,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 624
+    },
+    {
+      "epoch": 23.33644859813084,
+      "grad_norm": 0.0007691273931413889,
+      "learning_rate": 0.0002709358426541172,
+      "loss": 7.895263843238354e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00008,
+      "step": 630,
+      "tokens/total": 2548736,
+      "tokens/train_per_sec_per_gpu": 9.27,
+      "tokens/trainable": 546859
+    },
+    {
+      "epoch": 23.598130841121495,
+      "eval_loss": 9.977629815693945e-05,
+      "eval_ppl": 1.0001,
+      "eval_runtime": 3.2478,
+      "eval_samples_per_second": 138.556,
+      "eval_steps_per_second": 69.278,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 637
+    },
+    {
+      "epoch": 23.710280373831775,
+      "grad_norm": 0.0006967310328036547,
+      "learning_rate": 0.0002647869342917189,
+      "loss": 7.867861422710121e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00008,
+      "step": 640,
+      "tokens/total": 2589696,
+      "tokens/train_per_sec_per_gpu": 9.2,
+      "tokens/trainable": 555650
+    },
+    {
+      "epoch": 24.074766355140188,
+      "grad_norm": 0.0007521616062149405,
+      "learning_rate": 0.00025862903474242705,
+      "loss": 7.776265265420079e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00008,
+      "step": 650,
+      "tokens/total": 2629632,
+      "tokens/train_per_sec_per_gpu": 9.17,
+      "tokens/trainable": 564165
+    },
+    {
+      "epoch": 24.074766355140188,
+      "eval_loss": 9.550119284540415e-05,
+      "eval_ppl": 1.0001,
+      "eval_runtime": 3.3412,
+      "eval_samples_per_second": 134.683,
+      "eval_steps_per_second": 67.341,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 650
+    },
+    {
+      "epoch": 24.44859813084112,
+      "grad_norm": 0.0007108044228516519,
+      "learning_rate": 0.0002524658883135218,
+      "loss": 7.329802610911429e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00007,
+      "step": 660,
+      "tokens/total": 2670592,
+      "tokens/train_per_sec_per_gpu": 9.38,
+      "tokens/trainable": 572926
+    },
+    {
+      "epoch": 24.560747663551403,
+      "eval_loss": 9.172627324005589e-05,
+      "eval_ppl": 1.00009,
+      "eval_runtime": 3.7184,
+      "eval_samples_per_second": 121.019,
+      "eval_steps_per_second": 60.51,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 663
+    },
+    {
+      "epoch": 24.822429906542055,
+      "grad_norm": 0.0006645999965257943,
+      "learning_rate": 0.00024630124250264534,
+      "loss": 7.127165445126593e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00007,
+      "step": 670,
+      "tokens/total": 2711552,
+      "tokens/train_per_sec_per_gpu": 9.89,
+      "tokens/trainable": 581770
+    },
+    {
+      "epoch": 25.037383177570092,
+      "eval_loss": 8.835878543322906e-05,
+      "eval_ppl": 1.00009,
+      "eval_runtime": 3.1353,
+      "eval_samples_per_second": 143.528,
+      "eval_steps_per_second": 71.764,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 676
+    },
+    {
+      "epoch": 25.186915887850468,
+      "grad_norm": 0.0006837110850028694,
+      "learning_rate": 0.00024013884571913848,
+      "loss": 6.827799952588976e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00007,
+      "step": 680,
+      "tokens/total": 2750976,
+      "tokens/train_per_sec_per_gpu": 9.25,
+      "tokens/trainable": 590204
+    },
+    {
+      "epoch": 25.523364485981308,
+      "eval_loss": 8.580442954553291e-05,
+      "eval_ppl": 1.00009,
+      "eval_runtime": 3.2275,
+      "eval_samples_per_second": 139.428,
+      "eval_steps_per_second": 69.714,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 689
+    },
+    {
+      "epoch": 25.560747663551403,
+      "grad_norm": 0.000674366659950465,
+      "learning_rate": 0.0002339824450048218,
+      "loss": 6.729281740263105e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00007,
+      "step": 690,
+      "tokens/total": 2791936,
+      "tokens/train_per_sec_per_gpu": 9.14,
+      "tokens/trainable": 599010
+    },
+    {
+      "epoch": 25.934579439252335,
+      "grad_norm": 0.0007088438724167645,
+      "learning_rate": 0.00022783578375560988,
+      "loss": 6.656785844825209e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00007,
+      "step": 700,
+      "tokens/total": 2832896,
+      "tokens/train_per_sec_per_gpu": 9.08,
+      "tokens/trainable": 607840
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 8.344819798367098e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.3956,
+      "eval_samples_per_second": 132.526,
+      "eval_steps_per_second": 66.263,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 702
+    },
+    {
+      "epoch": 26.299065420560748,
+      "grad_norm": 0.0005904277204535902,
+      "learning_rate": 0.00022170259944534078,
+      "loss": 6.326055736280978e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 710,
+      "tokens/total": 2872832,
+      "tokens/train_per_sec_per_gpu": 8.06,
+      "tokens/trainable": 616307
+    },
+    {
+      "epoch": 26.485981308411215,
+      "eval_loss": 8.010442979866639e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.2519,
+      "eval_samples_per_second": 138.379,
+      "eval_steps_per_second": 69.189,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 715
+    },
+    {
+      "epoch": 26.672897196261683,
+      "grad_norm": 0.0006110401009209454,
+      "learning_rate": 0.00021558662135320801,
+      "loss": 6.258178618736565e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 720,
+      "tokens/total": 2913792,
+      "tokens/train_per_sec_per_gpu": 8.96,
+      "tokens/trainable": 625124
+    },
+    {
+      "epoch": 26.97196261682243,
+      "eval_loss": 7.89020414231345e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.2787,
+      "eval_samples_per_second": 137.251,
+      "eval_steps_per_second": 68.625,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 728
+    },
+    {
+      "epoch": 27.037383177570092,
+      "grad_norm": 0.0006264990661293268,
+      "learning_rate": 0.00020949156829617354,
+      "loss": 6.46325759589672e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 730,
+      "tokens/total": 2953216,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 633530
+    },
+    {
+      "epoch": 27.411214953271028,
+      "grad_norm": 0.0005080907139927149,
+      "learning_rate": 0.00020342114636774422,
+      "loss": 6.0859386576339605e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 740,
+      "tokens/total": 2994176,
+      "tokens/train_per_sec_per_gpu": 9.37,
+      "tokens/trainable": 642311
+    },
+    {
+      "epoch": 27.44859813084112,
+      "eval_loss": 7.685931632295251e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.176,
+      "eval_samples_per_second": 141.687,
+      "eval_steps_per_second": 70.844,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 741
+    },
+    {
+      "epoch": 27.785046728971963,
+      "grad_norm": 0.000587633578106761,
+      "learning_rate": 0.000197379046684483,
+      "loss": 5.73551922570914e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 750,
+      "tokens/total": 3035136,
+      "tokens/train_per_sec_per_gpu": 8.89,
+      "tokens/trainable": 651161
+    },
+    {
+      "epoch": 27.934579439252335,
+      "eval_loss": 7.496050238842145e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.3291,
+      "eval_samples_per_second": 135.173,
+      "eval_steps_per_second": 67.587,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 754
+    },
+    {
+      "epoch": 28.149532710280372,
+      "grad_norm": 0.0006080602761358023,
+      "learning_rate": 0.00019136894314162808,
+      "loss": 6.023343303240836e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 760,
+      "tokens/total": 3075072,
+      "tokens/train_per_sec_per_gpu": 9.09,
+      "tokens/trainable": 659594
+    },
+    {
+      "epoch": 28.411214953271028,
+      "eval_loss": 7.33654378564097e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.6738,
+      "eval_samples_per_second": 122.49,
+      "eval_steps_per_second": 61.245,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 767
+    },
+    {
+      "epoch": 28.523364485981308,
+      "grad_norm": 0.0005171361262910068,
+      "learning_rate": 0.00018539449017918302,
+      "loss": 5.463137058541179e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 770,
+      "tokens/total": 3116032,
+      "tokens/train_per_sec_per_gpu": 9.47,
+      "tokens/trainable": 668446
+    },
+    {
+      "epoch": 28.897196261682243,
+      "grad_norm": 0.000620691105723381,
+      "learning_rate": 0.0001794593205598361,
+      "loss": 5.686976946890354e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 780,
+      "tokens/total": 3156992,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 677257
+    },
+    {
+      "epoch": 28.897196261682243,
+      "eval_loss": 7.189060124801472e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.5114,
+      "eval_samples_per_second": 128.154,
+      "eval_steps_per_second": 64.077,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 780
+    },
+    {
+      "epoch": 29.261682242990656,
+      "grad_norm": 0.0005146770854480565,
+      "learning_rate": 0.00017356704316006183,
+      "loss": 5.4644700139760974e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 790,
+      "tokens/total": 3196416,
+      "tokens/train_per_sec_per_gpu": 8.78,
+      "tokens/trainable": 685722
+    },
+    {
+      "epoch": 29.373831775700936,
+      "eval_loss": 6.988636596361175e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.3264,
+      "eval_samples_per_second": 135.282,
+      "eval_steps_per_second": 67.641,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 793
+    },
+    {
+      "epoch": 29.635514018691588,
+      "grad_norm": 0.0004947104607708752,
+      "learning_rate": 0.00016772124077574482,
+      "loss": 5.4022762924432755e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 800,
+      "tokens/total": 3237376,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 694563
+    },
+    {
+      "epoch": 29.85981308411215,
+      "eval_loss": 6.932941323611885e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.1894,
+      "eval_samples_per_second": 141.094,
+      "eval_steps_per_second": 70.547,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 806
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.0006835766253061593,
+      "learning_rate": 0.0001619254679436638,
+      "loss": 5.5819249246269466e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 810,
+      "tokens/total": 3276800,
+      "tokens/train_per_sec_per_gpu": 5.99,
+      "tokens/trainable": 702990
+    },
+    {
+      "epoch": 30.33644859813084,
+      "eval_loss": 6.759980897186324e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.1493,
+      "eval_samples_per_second": 142.888,
+      "eval_steps_per_second": 71.444,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 819
+    },
+    {
+      "epoch": 30.373831775700936,
+      "grad_norm": 0.0005019630189053714,
+      "learning_rate": 0.0001561832487801565,
+      "loss": 5.427976138889789e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 820,
+      "tokens/total": 3317760,
+      "tokens/train_per_sec_per_gpu": 8.78,
+      "tokens/trainable": 711755
+    },
+    {
+      "epoch": 30.747663551401867,
+      "grad_norm": 0.0005171055672690272,
+      "learning_rate": 0.00015049807483828362,
+      "loss": 5.220457096584141e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 830,
+      "tokens/total": 3358720,
+      "tokens/train_per_sec_per_gpu": 9.29,
+      "tokens/trainable": 720596
+    },
+    {
+      "epoch": 30.822429906542055,
+      "eval_loss": 6.67451968183741e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.1738,
+      "eval_samples_per_second": 141.784,
+      "eval_steps_per_second": 70.892,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 832
+    },
+    {
+      "epoch": 31.11214953271028,
+      "grad_norm": 0.0005160675500519574,
+      "learning_rate": 0.00014487340298479146,
+      "loss": 4.989110166206956e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 840,
+      "tokens/total": 3398144,
+      "tokens/train_per_sec_per_gpu": 9.17,
+      "tokens/trainable": 729106
+    },
+    {
+      "epoch": 31.299065420560748,
+      "eval_loss": 6.565650255652145e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.0911,
+      "eval_samples_per_second": 145.578,
+      "eval_steps_per_second": 72.789,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 845
+    },
+    {
+      "epoch": 31.485981308411215,
+      "grad_norm": 0.00047307557542808354,
+      "learning_rate": 0.00013931265329816646,
+      "loss": 5.1057303790003064e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 850,
+      "tokens/total": 3439104,
+      "tokens/train_per_sec_per_gpu": 9.26,
+      "tokens/trainable": 737916
+    },
+    {
+      "epoch": 31.785046728971963,
+      "eval_loss": 6.46287517156452e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.6973,
+      "eval_samples_per_second": 121.712,
+      "eval_steps_per_second": 60.856,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 858
+    },
+    {
+      "epoch": 31.85981308411215,
+      "grad_norm": 0.00047350223758257926,
+      "learning_rate": 0.00013381920698905787,
+      "loss": 5.040300311520696e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 860,
+      "tokens/total": 3480064,
+      "tokens/train_per_sec_per_gpu": 9.36,
+      "tokens/trainable": 746738
+    },
+    {
+      "epoch": 32.22429906542056,
+      "grad_norm": 0.0005081515409983695,
+      "learning_rate": 0.00012839640434433552,
+      "loss": 5.042277625761926e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 870,
+      "tokens/total": 3519488,
+      "tokens/train_per_sec_per_gpu": 8.81,
+      "tokens/trainable": 755141
+    },
+    {
+      "epoch": 32.26168224299065,
+      "eval_loss": 6.399525591405109e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.377,
+      "eval_samples_per_second": 133.255,
+      "eval_steps_per_second": 66.627,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 871
+    },
+    {
+      "epoch": 32.598130841121495,
+      "grad_norm": 0.00047458027256652713,
+      "learning_rate": 0.00012304754269602914,
+      "loss": 4.8718880861997604e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 880,
+      "tokens/total": 3560448,
+      "tokens/train_per_sec_per_gpu": 8.12,
+      "tokens/trainable": 763958
+    },
+    {
+      "epoch": 32.74766355140187,
+      "eval_loss": 6.338646198855713e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.1534,
+      "eval_samples_per_second": 142.702,
+      "eval_steps_per_second": 71.351,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 884
+    },
+    {
+      "epoch": 32.97196261682243,
+      "grad_norm": 0.00044811354018747807,
+      "learning_rate": 0.0001177758744163886,
+      "loss": 4.926404799334705e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 890,
+      "tokens/total": 3601408,
+      "tokens/train_per_sec_per_gpu": 9.51,
+      "tokens/trainable": 772706
+    },
+    {
+      "epoch": 33.22429906542056,
+      "eval_loss": 6.242044764803723e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2372,
+      "eval_samples_per_second": 139.007,
+      "eval_steps_per_second": 69.504,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 897
+    },
+    {
+      "epoch": 33.33644859813084,
+      "grad_norm": 0.0004931804141961038,
+      "learning_rate": 0.00011258460494028003,
+      "loss": 4.853466525673866e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 900,
+      "tokens/total": 3641344,
+      "tokens/train_per_sec_per_gpu": 9.43,
+      "tokens/trainable": 781219
+    },
+    {
+      "epoch": 33.71028037383178,
+      "grad_norm": 0.0005011935718357563,
+      "learning_rate": 0.00010747689081612324,
+      "loss": 4.763478355016559e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 910,
+      "tokens/total": 3682304,
+      "tokens/train_per_sec_per_gpu": 9.07,
+      "tokens/trainable": 790015
+    },
+    {
+      "epoch": 33.71028037383178,
+      "eval_loss": 6.122803461039439e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2367,
+      "eval_samples_per_second": 139.032,
+      "eval_steps_per_second": 69.516,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 910
+    },
+    {
+      "epoch": 34.074766355140184,
+      "grad_norm": 0.00045264940126799047,
+      "learning_rate": 0.00010245583778655474,
+      "loss": 4.637397942133248e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 920,
+      "tokens/total": 3721728,
+      "tokens/train_per_sec_per_gpu": 9.21,
+      "tokens/trainable": 798498
+    },
+    {
+      "epoch": 34.18691588785047,
+      "eval_loss": 6.11661744187586e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2212,
+      "eval_samples_per_second": 139.699,
+      "eval_steps_per_second": 69.849,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 923
+    },
+    {
+      "epoch": 34.44859813084112,
+      "grad_norm": 0.000527155352756381,
+      "learning_rate": 9.752449889998178e-05,
+      "loss": 4.6964338980615136e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 930,
+      "tokens/total": 3762688,
+      "tokens/train_per_sec_per_gpu": 8.91,
+      "tokens/trainable": 807314
+    },
+    {
+      "epoch": 34.67289719626168,
+      "eval_loss": 6.0676517023239285e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4036,
+      "eval_samples_per_second": 132.213,
+      "eval_steps_per_second": 66.106,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 936
+    },
+    {
+      "epoch": 34.822429906542055,
+      "grad_norm": 0.0004101029480807483,
+      "learning_rate": 9.268587265417902e-05,
+      "loss": 4.6843086602166294e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 940,
+      "tokens/total": 3803648,
+      "tokens/train_per_sec_per_gpu": 9.47,
+      "tokens/trainable": 816126
+    },
+    {
+      "epoch": 35.149532710280376,
+      "eval_loss": 6.071670577512123e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.5808,
+      "eval_samples_per_second": 125.669,
+      "eval_steps_per_second": 62.835,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 949
+    },
+    {
+      "epoch": 35.18691588785047,
+      "grad_norm": 0.0004206536686979234,
+      "learning_rate": 8.794290117305295e-05,
+      "loss": 4.5391733874566856e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 950,
+      "tokens/total": 3843072,
+      "tokens/train_per_sec_per_gpu": 9.13,
+      "tokens/trainable": 824583
+    },
+    {
+      "epoch": 35.5607476635514,
+      "grad_norm": 0.0004591047763824463,
+      "learning_rate": 8.329846841768538e-05,
+      "loss": 4.516696208156645e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 960,
+      "tokens/total": 3884032,
+      "tokens/train_per_sec_per_gpu": 8.84,
+      "tokens/trainable": 833364
+    },
+    {
+      "epoch": 35.63551401869159,
+      "eval_loss": 5.8858131524175406e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2801,
+      "eval_samples_per_second": 137.19,
+      "eval_steps_per_second": 68.595,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 962
+    },
+    {
+      "epoch": 35.93457943925234,
+      "grad_norm": 0.00047418291796930134,
+      "learning_rate": 7.875539843274262e-05,
+      "loss": 4.6477647265419365e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 970,
+      "tokens/total": 3924992,
+      "tokens/train_per_sec_per_gpu": 7.91,
+      "tokens/trainable": 842152
+    },
+    {
+      "epoch": 36.11214953271028,
+      "eval_loss": 5.8864348829956725e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2318,
+      "eval_samples_per_second": 139.241,
+      "eval_steps_per_second": 69.621,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 975
+    },
+    {
+      "epoch": 36.299065420560744,
+      "grad_norm": 0.00040592439472675323,
+      "learning_rate": 7.431645362931691e-05,
+      "loss": 4.467906255740672e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 980,
+      "tokens/total": 3964416,
+      "tokens/train_per_sec_per_gpu": 9.1,
+      "tokens/trainable": 850684
+    },
+    {
+      "epoch": 36.598130841121495,
+      "eval_loss": 5.867854270036332e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2514,
+      "eval_samples_per_second": 138.401,
+      "eval_steps_per_second": 69.201,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 988
+    },
+    {
+      "epoch": 36.67289719626168,
+      "grad_norm": 0.0004126799467485398,
+      "learning_rate": 6.998433310524335e-05,
+      "loss": 4.481191863305867e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 990,
+      "tokens/total": 4005376,
+      "tokens/train_per_sec_per_gpu": 9.61,
+      "tokens/trainable": 859505
+    },
+    {
+      "epoch": 37.03738317757009,
+      "grad_norm": 0.0004212119965814054,
+      "learning_rate": 6.576167100391584e-05,
+      "loss": 4.4428894761949776e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1000,
+      "tokens/total": 4044800,
+      "tokens/train_per_sec_per_gpu": 8.84,
+      "tokens/trainable": 867893
+    },
+    {
+      "epoch": 37.074766355140184,
+      "eval_loss": 5.772413351223804e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2553,
+      "eval_samples_per_second": 138.236,
+      "eval_steps_per_second": 69.118,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1001
+    },
+    {
+      "epoch": 37.41121495327103,
+      "grad_norm": 0.00038078008219599724,
+      "learning_rate": 6.165103491259688e-05,
+      "loss": 4.44692064775154e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1010,
+      "tokens/total": 4085760,
+      "tokens/train_per_sec_per_gpu": 7.76,
+      "tokens/trainable": 876709
+    },
+    {
+      "epoch": 37.5607476635514,
+      "eval_loss": 5.793718810309656e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.5145,
+      "eval_samples_per_second": 128.039,
+      "eval_steps_per_second": 64.02,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1014
+    },
+    {
+      "epoch": 37.78504672897196,
+      "grad_norm": 0.00041370512917637825,
+      "learning_rate": 5.765492430119831e-05,
+      "loss": 4.4130056630820035e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1020,
+      "tokens/total": 4126720,
+      "tokens/train_per_sec_per_gpu": 9.33,
+      "tokens/trainable": 885550
+    },
+    {
+      "epoch": 38.03738317757009,
+      "eval_loss": 5.737932588090189e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2905,
+      "eval_samples_per_second": 136.758,
+      "eval_steps_per_second": 68.379,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1027
+    },
+    {
+      "epoch": 38.149532710280376,
+      "grad_norm": 0.00041744214831851423,
+      "learning_rate": 5.3775769002479546e-05,
+      "loss": 4.308792122174054e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1030,
+      "tokens/total": 4166144,
+      "tokens/train_per_sec_per_gpu": 9.18,
+      "tokens/trainable": 893981
+    },
+    {
+      "epoch": 38.52336448598131,
+      "grad_norm": 0.0003765086585190147,
+      "learning_rate": 5.001592773458941e-05,
+      "loss": 4.37814713222906e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1040,
+      "tokens/total": 4207104,
+      "tokens/train_per_sec_per_gpu": 9.25,
+      "tokens/trainable": 902785
+    },
+    {
+      "epoch": 38.52336448598131,
+      "eval_loss": 5.725925075239502e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.1926,
+      "eval_samples_per_second": 140.949,
+      "eval_steps_per_second": 70.475,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 1040
+    },
+    {
+      "epoch": 38.89719626168224,
+      "grad_norm": 0.00042925550951622427,
+      "learning_rate": 4.6377686666849026e-05,
+      "loss": 4.4643908040598035e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1050,
+      "tokens/total": 4248064,
+      "tokens/train_per_sec_per_gpu": 9.07,
+      "tokens/trainable": 911611
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 5.617448914563283e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.35,
+      "eval_samples_per_second": 134.33,
+      "eval_steps_per_second": 67.165,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1053
+    },
+    {
+      "epoch": 39.26168224299065,
+      "grad_norm": 0.0004092319286428392,
+      "learning_rate": 4.286325802964752e-05,
+      "loss": 4.223847936373204e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1060,
+      "tokens/total": 4287488,
+      "tokens/train_per_sec_per_gpu": 9.45,
+      "tokens/trainable": 920065
+    },
+    {
+      "epoch": 39.48598130841121,
+      "eval_loss": 5.649494050885551e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4014,
+      "eval_samples_per_second": 132.299,
+      "eval_steps_per_second": 66.15,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1066
+    },
+    {
+      "epoch": 39.63551401869159,
+      "grad_norm": 0.00039947053301148117,
+      "learning_rate": 3.947477876929706e-05,
+      "loss": 4.293379897717387e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1070,
+      "tokens/total": 4328448,
+      "tokens/train_per_sec_per_gpu": 9.52,
+      "tokens/trainable": 928880
+    },
+    {
+      "epoch": 39.97196261682243,
+      "eval_loss": 5.622552635031752e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.3325,
+      "eval_samples_per_second": 135.032,
+      "eval_steps_per_second": 67.516,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1079
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.0005581126897595823,
+      "learning_rate": 3.621430924866348e-05,
+      "loss": 4.391485417727381e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1080,
+      "tokens/total": 4367872,
+      "tokens/train_per_sec_per_gpu": 5.04,
+      "tokens/trainable": 937320
+    },
+    {
+      "epoch": 40.373831775700936,
+      "grad_norm": 0.0004162968834862113,
+      "learning_rate": 3.308383199436399e-05,
+      "loss": 4.293692181818187e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1090,
+      "tokens/total": 4408832,
+      "tokens/train_per_sec_per_gpu": 9.63,
+      "tokens/trainable": 946161
+    },
+    {
+      "epoch": 40.44859813084112,
+      "eval_loss": 5.564530147239566e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.1595,
+      "eval_samples_per_second": 142.428,
+      "eval_steps_per_second": 71.214,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1092
+    },
+    {
+      "epoch": 40.74766355140187,
+      "grad_norm": 0.0003698903019540012,
+      "learning_rate": 3.0085250491293016e-05,
+      "loss": 4.3350915075279775e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1100,
+      "tokens/total": 4449792,
+      "tokens/train_per_sec_per_gpu": 8.06,
+      "tokens/trainable": 954956
+    },
+    {
+      "epoch": 40.93457943925234,
+      "eval_loss": 5.604937541647814e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4338,
+      "eval_samples_per_second": 131.051,
+      "eval_steps_per_second": 65.525,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1105
+    },
+    {
+      "epoch": 41.11214953271028,
+      "grad_norm": 0.0003706767165567726,
+      "learning_rate": 2.7220388025209376e-05,
+      "loss": 4.130922898184508e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1110,
+      "tokens/total": 4489216,
+      "tokens/train_per_sec_per_gpu": 9.37,
+      "tokens/trainable": 963402
+    },
+    {
+      "epoch": 41.41121495327103,
+      "eval_loss": 5.551826689043082e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.209,
+      "eval_samples_per_second": 140.233,
+      "eval_steps_per_second": 70.116,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1118
+    },
+    {
+      "epoch": 41.48598130841121,
+      "grad_norm": 0.0003818798577412963,
+      "learning_rate": 2.4490986574088186e-05,
+      "loss": 4.319115250837058e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1120,
+      "tokens/total": 4530176,
+      "tokens/train_per_sec_per_gpu": 8.72,
+      "tokens/trainable": 972229
+    },
+    {
+      "epoch": 41.85981308411215,
+      "grad_norm": 0.0004545100382529199,
+      "learning_rate": 2.1898705748912506e-05,
+      "loss": 4.4042911031283435e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1130,
+      "tokens/total": 4571136,
+      "tokens/train_per_sec_per_gpu": 9.35,
+      "tokens/trainable": 981064
+    },
+    {
+      "epoch": 41.89719626168224,
+      "eval_loss": 5.508323010872118e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2656,
+      "eval_samples_per_second": 137.801,
+      "eval_steps_per_second": 68.901,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1131
+    },
+    {
+      "epoch": 42.22429906542056,
+      "grad_norm": 0.0004064469540026039,
+      "learning_rate": 1.9445121784547437e-05,
+      "loss": 4.090330330654979e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1140,
+      "tokens/total": 4610560,
+      "tokens/train_per_sec_per_gpu": 9.7,
+      "tokens/trainable": 989479
+    },
+    {
+      "epoch": 42.373831775700936,
+      "eval_loss": 5.579328353633173e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.3538,
+      "eval_samples_per_second": 134.175,
+      "eval_steps_per_second": 67.087,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1144
+    },
+    {
+      "epoch": 42.598130841121495,
+      "grad_norm": 0.00043209429713897407,
+      "learning_rate": 1.7131726581311734e-05,
+      "loss": 4.3470136006362736e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1150,
+      "tokens/total": 4651520,
+      "tokens/train_per_sec_per_gpu": 9.22,
+      "tokens/trainable": 998299
+    },
+    {
+      "epoch": 42.85981308411215,
+      "eval_loss": 5.553974551730789e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4051,
+      "eval_samples_per_second": 132.154,
+      "eval_steps_per_second": 66.077,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1157
+    },
+    {
+      "epoch": 42.97196261682243,
+      "grad_norm": 0.0004145831917412579,
+      "learning_rate": 1.4959926797828427e-05,
+      "loss": 4.1807466186583045e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1160,
+      "tokens/total": 4692480,
+      "tokens/train_per_sec_per_gpu": 9.53,
+      "tokens/trainable": 1007096
+    },
+    {
+      "epoch": 43.33644859813084,
+      "grad_norm": 0.0003859826538246125,
+      "learning_rate": 1.2931042995707159e-05,
+      "loss": 4.134701448492706e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1170,
+      "tokens/total": 4731904,
+      "tokens/train_per_sec_per_gpu": 7.68,
+      "tokens/trainable": 1015507
+    },
+    {
+      "epoch": 43.33644859813084,
+      "eval_loss": 5.5574641010025516e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.18,
+      "eval_samples_per_second": 141.509,
+      "eval_steps_per_second": 70.754,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 1170
+    },
+    {
+      "epoch": 43.71028037383178,
+      "grad_norm": 0.0003987500676885247,
+      "learning_rate": 1.1046308836577201e-05,
+      "loss": 4.182373522780836e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1180,
+      "tokens/total": 4772864,
+      "tokens/train_per_sec_per_gpu": 9.05,
+      "tokens/trainable": 1024376
+    },
+    {
+      "epoch": 43.822429906542055,
+      "eval_loss": 5.485746805788949e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.4857,
+      "eval_samples_per_second": 129.1,
+      "eval_steps_per_second": 64.55,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1183
+    },
+    {
+      "epoch": 44.074766355140184,
+      "grad_norm": 0.0004245893214829266,
+      "learning_rate": 9.306870331960232e-06,
+      "loss": 4.327711940277368e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1190,
+      "tokens/total": 4812288,
+      "tokens/train_per_sec_per_gpu": 8.59,
+      "tokens/trainable": 1032827
+    },
+    {
+      "epoch": 44.299065420560744,
+      "eval_loss": 5.491507545229979e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.2966,
+      "eval_samples_per_second": 136.504,
+      "eval_steps_per_second": 68.252,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1196
+    },
+    {
+      "epoch": 44.44859813084112,
+      "grad_norm": 0.0004224616277497262,
+      "learning_rate": 7.713785146438889e-06,
+      "loss": 4.1210482595488426e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1200,
+      "tokens/total": 4853248,
+      "tokens/train_per_sec_per_gpu": 8.94,
+      "tokens/trainable": 1041626
+    },
+    {
+      "epoch": 44.78504672897196,
+      "eval_loss": 5.5391912610502914e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.3679,
+      "eval_samples_per_second": 133.612,
+      "eval_steps_per_second": 66.806,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1209
+    },
+    {
+      "epoch": 44.822429906542055,
+      "grad_norm": 0.00036442236159928143,
+      "learning_rate": 6.268021954544096e-06,
+      "loss": 4.300210566725582e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1210,
+      "tokens/total": 4894208,
+      "tokens/train_per_sec_per_gpu": 8.04,
+      "tokens/trainable": 1050459
+    },
+    {
+      "epoch": 45.18691588785047,
+      "grad_norm": 0.00040011643432080746,
+      "learning_rate": 4.970459851753456e-06,
+      "loss": 4.2740206117741765e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1220,
+      "tokens/total": 4933632,
+      "tokens/train_per_sec_per_gpu": 8.98,
+      "tokens/trainable": 1058864
+    },
+    {
+      "epoch": 45.26168224299065,
+      "eval_loss": 5.4846168495714664e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.3892,
+      "eval_samples_per_second": 132.774,
+      "eval_steps_per_second": 66.387,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1222
+    },
+    {
+      "epoch": 45.5607476635514,
+      "grad_norm": 0.0004423453356139362,
+      "learning_rate": 3.821887819957376e-06,
+      "loss": 4.242766881361604e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1230,
+      "tokens/total": 4974592,
+      "tokens/train_per_sec_per_gpu": 9.41,
+      "tokens/trainable": 1067666
+    },
+    {
+      "epoch": 45.74766355140187,
+      "eval_loss": 5.494186916621402e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.6349,
+      "eval_samples_per_second": 123.8,
+      "eval_steps_per_second": 61.9,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1235
+    },
+    {
+      "epoch": 45.93457943925234,
+      "grad_norm": 0.000343750580213964,
+      "learning_rate": 2.8230042477194738e-06,
+      "loss": 4.15234622778371e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1240,
+      "tokens/total": 5015552,
+      "tokens/train_per_sec_per_gpu": 9.6,
+      "tokens/trainable": 1076497
+    },
+    {
+      "epoch": 46.22429906542056,
+      "eval_loss": 5.485347719513811e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.4301,
+      "eval_samples_per_second": 131.192,
+      "eval_steps_per_second": 65.596,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1248
+    },
+    {
+      "epoch": 46.299065420560744,
+      "grad_norm": 0.0003762434353120625,
+      "learning_rate": 1.974416505621385e-06,
+      "loss": 4.078344500157982e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1250,
+      "tokens/total": 5054976,
+      "tokens/train_per_sec_per_gpu": 9.54,
+      "tokens/trainable": 1084977
+    },
+    {
+      "epoch": 46.67289719626168,
+      "grad_norm": 0.00040426553459838033,
+      "learning_rate": 1.2766405769518152e-06,
+      "loss": 4.291962832212448e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1260,
+      "tokens/total": 5095936,
+      "tokens/train_per_sec_per_gpu": 9.11,
+      "tokens/trainable": 1093767
+    },
+    {
+      "epoch": 46.71028037383178,
+      "eval_loss": 5.484187204274349e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.2481,
+      "eval_samples_per_second": 138.542,
+      "eval_steps_per_second": 69.271,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1261
+    },
+    {
+      "epoch": 47.03738317757009,
+      "grad_norm": 0.00039811001624912024,
+      "learning_rate": 7.301007439629304e-07,
+      "loss": 4.1479116771370175e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1270,
+      "tokens/total": 5135360,
+      "tokens/train_per_sec_per_gpu": 8.69,
+      "tokens/trainable": 1102219
+    },
+    {
+      "epoch": 47.18691588785047,
+      "eval_loss": 5.461459295474924e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.4099,
+      "eval_samples_per_second": 131.971,
+      "eval_steps_per_second": 65.985,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1274
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1300,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 49,
+  "save_steps": 26,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1639744819940557e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1274/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5473cf43580ac5e4f7c06b37abcd61cc86d6cc83348c79a909cdfdf6d1b9e166
+size 7057

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/adapter_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "alora_invocation_tokens": null,
+  "alpha_pattern": {},
+  "arrow_config": null,
+  "auto_mapping": null,
+  "base_model_name_or_path": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/models/Qwen/Qwen3-4B-Instruct-2507",
+  "bias": "none",
+  "corda_config": null,
+  "ensure_weight_tying": false,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 128,
+  "lora_bias": false,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "peft_version": "0.18.1",
+  "qalora_group_size": 16,
+  "r": 64,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "down_proj",
+    "k_proj",
+    "q_proj",
+    "up_proj",
+    "v_proj",
+    "gate_proj"
+  ],
+  "target_parameters": [],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_qalora": false,
+  "use_rslora": false
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8518163f1a903df518f88e165720b768ffd92c23a1abe52ebfb616ff85ea5800
+size 528550256

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,4 @@

+{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% for message in messages %}{{'<|im_start|>' + message['role'] + '
+' + message['content'] + '<|im_end|>' + '
+'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant
+' }}{% endif %}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d6fa074a0401b4ceaea607ee6fe9d75fe1276356660edd415717d02353976f2
+size 1057397963

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f95b12ec6f4fbca97257760646da87d062e7d41f499a559a59dcf7f57b03a6a8
+size 14645

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7596061aaeaac4de0a787edab5f6ce7337d84e032ae03cdede279e43cd7ebd75
+size 1465

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be75606093db2094d7cd20f3c2f385c212750648bd6ea4fb2bf507a6a4c55506
+size 11422650

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "is_local": true,
+  "model_max_length": 1010000,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/tokens_state. ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"total": 5256704, "trainable": 1128302}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3066 @@

+{
+  "best_global_step": 1274,
+  "best_metric": 5.461459295474924e-05,
+  "best_model_checkpoint": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/knowledge/atomic_sft_lora_50ep_t20260305/checkpoint-1274",
+  "epoch": 48.149532710280376,
+  "eval_steps": 13,
+  "global_step": 1300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0,
+      "eval_loss": 11.576359748840332,
+      "eval_ppl": 106548.94637,
+      "eval_runtime": 7.7089,
+      "eval_samples_per_second": 58.374,
+      "eval_steps_per_second": 29.187,
+      "memory/device_reserved (GiB)": 8.97,
+      "memory/max_active (GiB)": 4.47,
+      "memory/max_allocated (GiB)": 4.47,
+      "step": 0
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "grad_norm": 2.3110249042510986,
+      "learning_rate": 0.00017307692307692307,
+      "loss": 7.286613464355469,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1460.61588,
+      "step": 10,
+      "tokens/total": 40960,
+      "tokens/train_per_sec_per_gpu": 9.55,
+      "tokens/trainable": 8868
+    },
+    {
+      "epoch": 0.48598130841121495,
+      "eval_loss": 2.822082996368408,
+      "eval_ppl": 16.81183,
+      "eval_runtime": 3.1606,
+      "eval_samples_per_second": 142.378,
+      "eval_steps_per_second": 71.189,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 13
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "grad_norm": 1.8976582288742065,
+      "learning_rate": 0.00036538461538461535,
+      "loss": 2.6126346588134766,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 13.63493,
+      "step": 20,
+      "tokens/total": 81920,
+      "tokens/train_per_sec_per_gpu": 7.97,
+      "tokens/trainable": 17587
+    },
+    {
+      "epoch": 0.9719626168224299,
+      "eval_loss": 1.144375205039978,
+      "eval_ppl": 3.14048,
+      "eval_runtime": 3.0779,
+      "eval_samples_per_second": 146.202,
+      "eval_steps_per_second": 73.101,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 26
+    },
+    {
+      "epoch": 1.1121495327102804,
+      "grad_norm": 1.1263617277145386,
+      "learning_rate": 0.000499993159128523,
+      "loss": 1.3756730079650878,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 3.95774,
+      "step": 30,
+      "tokens/total": 121344,
+      "tokens/train_per_sec_per_gpu": 9.42,
+      "tokens/trainable": 26103
+    },
+    {
+      "epoch": 1.4485981308411215,
+      "eval_loss": 0.9320468902587891,
+      "eval_ppl": 2.5397,
+      "eval_runtime": 3.1697,
+      "eval_samples_per_second": 141.968,
+      "eval_steps_per_second": 70.984,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 39
+    },
+    {
+      "epoch": 1.485981308411215,
+      "grad_norm": 0.7886229753494263,
+      "learning_rate": 0.000499871554050172,
+      "loss": 1.0714111328125,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.9195,
+      "step": 40,
+      "tokens/total": 162304,
+      "tokens/train_per_sec_per_gpu": 9.18,
+      "tokens/trainable": 34934
+    },
+    {
+      "epoch": 1.8598130841121496,
+      "grad_norm": 0.8071430325508118,
+      "learning_rate": 0.0004995980147170576,
+      "loss": 1.0068815231323243,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.73705,
+      "step": 50,
+      "tokens/total": 203264,
+      "tokens/train_per_sec_per_gpu": 9.45,
+      "tokens/trainable": 43704
+    },
+    {
+      "epoch": 1.9345794392523366,
+      "eval_loss": 0.8724005818367004,
+      "eval_ppl": 2.39265,
+      "eval_runtime": 3.2632,
+      "eval_samples_per_second": 137.903,
+      "eval_steps_per_second": 68.952,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 52
+    },
+    {
+      "epoch": 2.2242990654205608,
+      "grad_norm": 0.8555540442466736,
+      "learning_rate": 0.0004991727074546138,
+      "loss": 0.9307943344116211,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.53652,
+      "step": 60,
+      "tokens/total": 242688,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 52105
+    },
+    {
+      "epoch": 2.411214953271028,
+      "eval_loss": 0.8703448176383972,
+      "eval_ppl": 2.38773,
+      "eval_runtime": 3.1746,
+      "eval_samples_per_second": 141.75,
+      "eval_steps_per_second": 70.875,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 65
+    },
+    {
+      "epoch": 2.5981308411214954,
+      "grad_norm": 0.7338283061981201,
+      "learning_rate": 0.0004985958908706771,
+      "loss": 0.9038754463195801,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.46915,
+      "step": 70,
+      "tokens/total": 283648,
+      "tokens/train_per_sec_per_gpu": 9.52,
+      "tokens/trainable": 60918
+    },
+    {
+      "epoch": 2.897196261682243,
+      "eval_loss": 0.8341130018234253,
+      "eval_ppl": 2.30277,
+      "eval_runtime": 3.1645,
+      "eval_samples_per_second": 142.201,
+      "eval_steps_per_second": 71.1,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 78
+    },
+    {
+      "epoch": 2.97196261682243,
+      "grad_norm": 0.6529878377914429,
+      "learning_rate": 0.0004978679156982397,
+      "loss": 0.8851642608642578,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.42338,
+      "step": 80,
+      "tokens/total": 324608,
+      "tokens/train_per_sec_per_gpu": 9.31,
+      "tokens/trainable": 69756
+    },
+    {
+      "epoch": 3.336448598130841,
+      "grad_norm": 0.4933421313762665,
+      "learning_rate": 0.0004969892245821866,
+      "loss": 0.8534950256347656,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.34784,
+      "step": 90,
+      "tokens/total": 364544,
+      "tokens/train_per_sec_per_gpu": 8.68,
+      "tokens/trainable": 78232
+    },
+    {
+      "epoch": 3.3738317757009346,
+      "eval_loss": 0.8056238889694214,
+      "eval_ppl": 2.23809,
+      "eval_runtime": 3.1985,
+      "eval_samples_per_second": 140.689,
+      "eval_steps_per_second": 70.345,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 91
+    },
+    {
+      "epoch": 3.710280373831776,
+      "grad_norm": 0.5127931833267212,
+      "learning_rate": 0.0004959603518101456,
+      "loss": 0.8484575271606445,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.33604,
+      "step": 100,
+      "tokens/total": 405504,
+      "tokens/train_per_sec_per_gpu": 9.46,
+      "tokens/trainable": 87078
+    },
+    {
+      "epoch": 3.8598130841121496,
+      "eval_loss": 0.7935463190078735,
+      "eval_ppl": 2.21122,
+      "eval_runtime": 3.1979,
+      "eval_samples_per_second": 140.717,
+      "eval_steps_per_second": 70.358,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 104
+    },
+    {
+      "epoch": 4.074766355140187,
+      "grad_norm": 0.5711424946784973,
+      "learning_rate": 0.0004947819229876143,
+      "loss": 0.8517816543579102,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.34382,
+      "step": 110,
+      "tokens/total": 444928,
+      "tokens/train_per_sec_per_gpu": 8.83,
+      "tokens/trainable": 95470
+    },
+    {
+      "epoch": 4.336448598130841,
+      "eval_loss": 0.7475497126579285,
+      "eval_ppl": 2.11182,
+      "eval_runtime": 3.2295,
+      "eval_samples_per_second": 139.342,
+      "eval_steps_per_second": 69.671,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 117
+    },
+    {
+      "epoch": 4.4485981308411215,
+      "grad_norm": 0.45637959241867065,
+      "learning_rate": 0.0004934546546575604,
+      "loss": 0.7973217487335205,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.21959,
+      "step": 120,
+      "tokens/total": 485888,
+      "tokens/train_per_sec_per_gpu": 9.04,
+      "tokens/trainable": 104318
+    },
+    {
+      "epoch": 4.822429906542056,
+      "grad_norm": 0.5224671959877014,
+      "learning_rate": 0.000491979353864729,
+      "loss": 0.8252082824707031,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 2.28236,
+      "step": 130,
+      "tokens/total": 526848,
+      "tokens/train_per_sec_per_gpu": 9.62,
+      "tokens/trainable": 113074
+    },
+    {
+      "epoch": 4.822429906542056,
+      "eval_loss": 0.7261071801185608,
+      "eval_ppl": 2.06702,
+      "eval_runtime": 3.1567,
+      "eval_samples_per_second": 142.554,
+      "eval_steps_per_second": 71.277,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 130
+    },
+    {
+      "epoch": 5.186915887850467,
+      "grad_norm": 1.2096866369247437,
+      "learning_rate": 0.0004903569176649188,
+      "loss": 0.7676509857177735,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.1547,
+      "step": 140,
+      "tokens/total": 566272,
+      "tokens/train_per_sec_per_gpu": 9.11,
+      "tokens/trainable": 121542
+    },
+    {
+      "epoch": 5.299065420560748,
+      "eval_loss": 0.5942183136940002,
+      "eval_ppl": 1.81161,
+      "eval_runtime": 3.1578,
+      "eval_samples_per_second": 142.503,
+      "eval_steps_per_second": 71.251,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 143
+    },
+    {
+      "epoch": 5.5607476635514015,
+      "grad_norm": 0.7773618698120117,
+      "learning_rate": 0.0004885883325795282,
+      "loss": 0.6715390682220459,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.95725,
+      "step": 150,
+      "tokens/total": 607232,
+      "tokens/train_per_sec_per_gpu": 9.36,
+      "tokens/trainable": 130388
+    },
+    {
+      "epoch": 5.785046728971962,
+      "eval_loss": 0.5664681196212769,
+      "eval_ppl": 1.76203,
+      "eval_runtime": 3.1743,
+      "eval_samples_per_second": 141.762,
+      "eval_steps_per_second": 70.881,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 156
+    },
+    {
+      "epoch": 5.934579439252336,
+      "grad_norm": 0.9837582111358643,
+      "learning_rate": 0.0004866746739957015,
+      "loss": 0.7201411724090576,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 2.05472,
+      "step": 160,
+      "tokens/total": 648192,
+      "tokens/train_per_sec_per_gpu": 9.1,
+      "tokens/trainable": 139201
+    },
+    {
+      "epoch": 6.261682242990654,
+      "eval_loss": 0.3298272490501404,
+      "eval_ppl": 1.39073,
+      "eval_runtime": 3.3393,
+      "eval_samples_per_second": 134.76,
+      "eval_steps_per_second": 67.38,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 169
+    },
+    {
+      "epoch": 6.299065420560748,
+      "grad_norm": 12.733769416809082,
+      "learning_rate": 0.0004846171055124401,
+      "loss": 0.5171830177307128,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.6773,
+      "step": 170,
+      "tokens/total": 687616,
+      "tokens/train_per_sec_per_gpu": 9.15,
+      "tokens/trainable": 147665
+    },
+    {
+      "epoch": 6.672897196261682,
+      "grad_norm": 1.0612688064575195,
+      "learning_rate": 0.00048241687823307724,
+      "loss": 0.45992417335510255,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.58395,
+      "step": 180,
+      "tokens/total": 728576,
+      "tokens/train_per_sec_per_gpu": 9.78,
+      "tokens/trainable": 156476
+    },
+    {
+      "epoch": 6.747663551401869,
+      "eval_loss": 0.3797531723976135,
+      "eval_ppl": 1.46192,
+      "eval_runtime": 3.2068,
+      "eval_samples_per_second": 140.325,
+      "eval_steps_per_second": 70.162,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 182
+    },
+    {
+      "epoch": 7.037383177570093,
+      "grad_norm": 2.0055079460144043,
+      "learning_rate": 0.00048007533000454496,
+      "loss": 0.520701789855957,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.68321,
+      "step": 190,
+      "tokens/total": 768512,
+      "tokens/train_per_sec_per_gpu": 8.34,
+      "tokens/trainable": 164903
+    },
+    {
+      "epoch": 7.224299065420561,
+      "eval_loss": 0.16449837386608124,
+      "eval_ppl": 1.1788,
+      "eval_runtime": 3.112,
+      "eval_samples_per_second": 144.6,
+      "eval_steps_per_second": 72.3,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 195
+    },
+    {
+      "epoch": 7.411214953271028,
+      "grad_norm": 2.8855485916137695,
+      "learning_rate": 0.00047759388460389725,
+      "loss": 0.20058777332305908,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.22212,
+      "step": 200,
+      "tokens/total": 809472,
+      "tokens/train_per_sec_per_gpu": 9.89,
+      "tokens/trainable": 173695
+    },
+    {
+      "epoch": 7.710280373831775,
+      "eval_loss": 0.1505199521780014,
+      "eval_ppl": 1.16244,
+      "eval_runtime": 3.1823,
+      "eval_samples_per_second": 141.409,
+      "eval_steps_per_second": 70.704,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 208
+    },
+    {
+      "epoch": 7.785046728971962,
+      "grad_norm": 1.3034435510635376,
+      "learning_rate": 0.0004749740508725832,
+      "loss": 0.2634513139724731,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.30141,
+      "step": 210,
+      "tokens/total": 850432,
+      "tokens/train_per_sec_per_gpu": 9.5,
+      "tokens/trainable": 182480
+    },
+    {
+      "epoch": 8.149532710280374,
+      "grad_norm": 0.8162353038787842,
+      "learning_rate": 0.00047221742179899654,
+      "loss": 0.18547557592391967,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.20379,
+      "step": 220,
+      "tokens/total": 889856,
+      "tokens/train_per_sec_per_gpu": 8.85,
+      "tokens/trainable": 191013
+    },
+    {
+      "epoch": 8.186915887850468,
+      "eval_loss": 0.07461368292570114,
+      "eval_ppl": 1.07747,
+      "eval_runtime": 3.1819,
+      "eval_samples_per_second": 141.426,
+      "eval_steps_per_second": 70.713,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 221
+    },
+    {
+      "epoch": 8.523364485981308,
+      "grad_norm": 0.7081874012947083,
+      "learning_rate": 0.0004693256735498605,
+      "loss": 0.11240044832229615,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.11896,
+      "step": 230,
+      "tokens/total": 930816,
+      "tokens/train_per_sec_per_gpu": 9.26,
+      "tokens/trainable": 199822
+    },
+    {
+      "epoch": 8.672897196261681,
+      "eval_loss": 0.05453195795416832,
+      "eval_ppl": 1.05605,
+      "eval_runtime": 3.1113,
+      "eval_samples_per_second": 144.636,
+      "eval_steps_per_second": 72.318,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 234
+    },
+    {
+      "epoch": 8.897196261682243,
+      "grad_norm": 0.8437485694885254,
+      "learning_rate": 0.0004663005644510353,
+      "loss": 0.1329418659210205,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.14218,
+      "step": 240,
+      "tokens/total": 971776,
+      "tokens/train_per_sec_per_gpu": 8.81,
+      "tokens/trainable": 208644
+    },
+    {
+      "epoch": 9.149532710280374,
+      "eval_loss": 0.05991149693727493,
+      "eval_ppl": 1.06174,
+      "eval_runtime": 3.1891,
+      "eval_samples_per_second": 141.107,
+      "eval_steps_per_second": 70.554,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 247
+    },
+    {
+      "epoch": 9.261682242990654,
+      "grad_norm": 0.9875638484954834,
+      "learning_rate": 0.00046314393391836886,
+      "loss": 0.08946565389633179,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.09359,
+      "step": 250,
+      "tokens/total": 1011200,
+      "tokens/train_per_sec_per_gpu": 9.56,
+      "tokens/trainable": 217056
+    },
+    {
+      "epoch": 9.63551401869159,
+      "grad_norm": 0.8560008406639099,
+      "learning_rate": 0.00045985770133924166,
+      "loss": 0.07212840914726257,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.07479,
+      "step": 260,
+      "tokens/total": 1052160,
+      "tokens/train_per_sec_per_gpu": 8.85,
+      "tokens/trainable": 225872
+    },
+    {
+      "epoch": 9.63551401869159,
+      "eval_loss": 0.06320187449455261,
+      "eval_ppl": 1.06524,
+      "eval_runtime": 3.3432,
+      "eval_samples_per_second": 134.603,
+      "eval_steps_per_second": 67.302,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 260
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.9063428044319153,
+      "learning_rate": 0.0004564438649054837,
+      "loss": 0.08905109167098998,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.09314,
+      "step": 270,
+      "tokens/total": 1091584,
+      "tokens/train_per_sec_per_gpu": 5.81,
+      "tokens/trainable": 234330
+    },
+    {
+      "epoch": 10.11214953271028,
+      "eval_loss": 0.052469391375780106,
+      "eval_ppl": 1.05387,
+      "eval_runtime": 3.395,
+      "eval_samples_per_second": 132.546,
+      "eval_steps_per_second": 66.273,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 273
+    },
+    {
+      "epoch": 10.373831775700934,
+      "grad_norm": 0.560842752456665,
+      "learning_rate": 0.00045290450039837574,
+      "loss": 0.04449986815452576,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.0455,
+      "step": 280,
+      "tokens/total": 1132544,
+      "tokens/train_per_sec_per_gpu": 9.69,
+      "tokens/trainable": 243128
+    },
+    {
+      "epoch": 10.598130841121495,
+      "eval_loss": 0.02415500022470951,
+      "eval_ppl": 1.02445,
+      "eval_runtime": 3.1882,
+      "eval_samples_per_second": 141.145,
+      "eval_steps_per_second": 70.572,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 286
+    },
+    {
+      "epoch": 10.74766355140187,
+      "grad_norm": 0.6071906685829163,
+      "learning_rate": 0.000449241759926471,
+      "loss": 0.05587487816810608,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.05747,
+      "step": 290,
+      "tokens/total": 1173504,
+      "tokens/train_per_sec_per_gpu": 8.98,
+      "tokens/trainable": 251897
+    },
+    {
+      "epoch": 11.074766355140186,
+      "eval_loss": 0.03982651233673096,
+      "eval_ppl": 1.04063,
+      "eval_runtime": 3.1446,
+      "eval_samples_per_second": 143.102,
+      "eval_steps_per_second": 71.551,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 299
+    },
+    {
+      "epoch": 11.11214953271028,
+      "grad_norm": 0.3451133966445923,
+      "learning_rate": 0.0004454578706170075,
+      "loss": 0.04882683753967285,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.05004,
+      "step": 300,
+      "tokens/total": 1213440,
+      "tokens/train_per_sec_per_gpu": 9.34,
+      "tokens/trainable": 260438
+    },
+    {
+      "epoch": 11.485981308411215,
+      "grad_norm": 0.6574280858039856,
+      "learning_rate": 0.0004415551332617039,
+      "loss": 0.0388324648141861,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.0396,
+      "step": 310,
+      "tokens/total": 1254400,
+      "tokens/train_per_sec_per_gpu": 9.17,
+      "tokens/trainable": 269201
+    },
+    {
+      "epoch": 11.560747663551401,
+      "eval_loss": 0.024290991947054863,
+      "eval_ppl": 1.02459,
+      "eval_runtime": 3.1262,
+      "eval_samples_per_second": 143.945,
+      "eval_steps_per_second": 71.972,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 312
+    },
+    {
+      "epoch": 11.85981308411215,
+      "grad_norm": 0.5194477438926697,
+      "learning_rate": 0.0004375359209177653,
+      "loss": 0.03742585182189941,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.03814,
+      "step": 320,
+      "tokens/total": 1295360,
+      "tokens/train_per_sec_per_gpu": 8.03,
+      "tokens/trainable": 278020
+    },
+    {
+      "epoch": 12.037383177570094,
+      "eval_loss": 0.014198859222233295,
+      "eval_ppl": 1.0143,
+      "eval_runtime": 3.1513,
+      "eval_samples_per_second": 142.799,
+      "eval_steps_per_second": 71.4,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 325
+    },
+    {
+      "epoch": 12.22429906542056,
+      "grad_norm": 0.3973291516304016,
+      "learning_rate": 0.0004334026774649461,
+      "loss": 0.02231733351945877,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.02257,
+      "step": 330,
+      "tokens/total": 1334784,
+      "tokens/train_per_sec_per_gpu": 9.77,
+      "tokens/trainable": 286427
+    },
+    {
+      "epoch": 12.523364485981308,
+      "eval_loss": 0.012570672668516636,
+      "eval_ppl": 1.01265,
+      "eval_runtime": 3.326,
+      "eval_samples_per_second": 135.296,
+      "eval_steps_per_second": 67.648,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 338
+    },
+    {
+      "epoch": 12.598130841121495,
+      "grad_norm": 0.3709940016269684,
+      "learning_rate": 0.00042915791611955137,
+      "loss": 0.03219857513904571,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.03272,
+      "step": 340,
+      "tokens/total": 1375744,
+      "tokens/train_per_sec_per_gpu": 9.31,
+      "tokens/trainable": 295283
+    },
+    {
+      "epoch": 12.97196261682243,
+      "grad_norm": 0.17208436131477356,
+      "learning_rate": 0.00042480421790627634,
+      "loss": 0.01980234682559967,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.02,
+      "step": 350,
+      "tokens/total": 1416704,
+      "tokens/train_per_sec_per_gpu": 9.11,
+      "tokens/trainable": 304089
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.012684173882007599,
+      "eval_ppl": 1.01276,
+      "eval_runtime": 3.198,
+      "eval_samples_per_second": 140.714,
+      "eval_steps_per_second": 70.357,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 351
+    },
+    {
+      "epoch": 13.336448598130842,
+      "grad_norm": 0.33582761883735657,
+      "learning_rate": 0.0004203442300888162,
+      "loss": 0.011514197289943694,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.01158,
+      "step": 360,
+      "tokens/total": 1456640,
+      "tokens/train_per_sec_per_gpu": 9.54,
+      "tokens/trainable": 312616
+    },
+    {
+      "epoch": 13.485981308411215,
+      "eval_loss": 0.04468829184770584,
+      "eval_ppl": 1.0457,
+      "eval_runtime": 3.2872,
+      "eval_samples_per_second": 136.893,
+      "eval_steps_per_second": 68.446,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 364
+    },
+    {
+      "epoch": 13.710280373831775,
+      "grad_norm": 0.2841266691684723,
+      "learning_rate": 0.0004157806645601988,
+      "loss": 0.010105867683887482,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.01016,
+      "step": 370,
+      "tokens/total": 1497600,
+      "tokens/train_per_sec_per_gpu": 9.07,
+      "tokens/trainable": 321389
+    },
+    {
+      "epoch": 13.97196261682243,
+      "eval_loss": 0.0031872964464128017,
+      "eval_ppl": 1.00319,
+      "eval_runtime": 3.1885,
+      "eval_samples_per_second": 141.133,
+      "eval_steps_per_second": 70.567,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 377
+    },
+    {
+      "epoch": 14.074766355140186,
+      "grad_norm": 0.09129557013511658,
+      "learning_rate": 0.0004111162961938199,
+      "loss": 0.0041460379958152774,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00415,
+      "step": 380,
+      "tokens/total": 1537536,
+      "tokens/train_per_sec_per_gpu": 9.81,
+      "tokens/trainable": 329831
+    },
+    {
+      "epoch": 14.448598130841122,
+      "grad_norm": 0.22759641706943512,
+      "learning_rate": 0.0004063539611561825,
+      "loss": 0.0019860435277223587,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00199,
+      "step": 390,
+      "tokens/total": 1578496,
+      "tokens/train_per_sec_per_gpu": 9.79,
+      "tokens/trainable": 338577
+    },
+    {
+      "epoch": 14.448598130841122,
+      "eval_loss": 0.003925328608602285,
+      "eval_ppl": 1.00393,
+      "eval_runtime": 3.2038,
+      "eval_samples_per_second": 140.46,
+      "eval_steps_per_second": 70.23,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 390
+    },
+    {
+      "epoch": 14.822429906542055,
+      "grad_norm": 0.14231497049331665,
+      "learning_rate": 0.00040149655518236806,
+      "loss": 0.0031101690605282784,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00312,
+      "step": 400,
+      "tokens/total": 1619456,
+      "tokens/train_per_sec_per_gpu": 9.04,
+      "tokens/trainable": 347387
+    },
+    {
+      "epoch": 14.934579439252337,
+      "eval_loss": 0.0032461625523865223,
+      "eval_ppl": 1.00325,
+      "eval_runtime": 3.2699,
+      "eval_samples_per_second": 137.62,
+      "eval_steps_per_second": 68.81,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 403
+    },
+    {
+      "epoch": 15.186915887850468,
+      "grad_norm": 0.02255025878548622,
+      "learning_rate": 0.0003965470318152857,
+      "loss": 0.002625436335802078,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00263,
+      "step": 410,
+      "tokens/total": 1659392,
+      "tokens/train_per_sec_per_gpu": 9.72,
+      "tokens/trainable": 355932
+    },
+    {
+      "epoch": 15.411214953271028,
+      "eval_loss": 0.0007085176766850054,
+      "eval_ppl": 1.00071,
+      "eval_runtime": 3.3925,
+      "eval_samples_per_second": 132.644,
+      "eval_steps_per_second": 66.322,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 416
+    },
+    {
+      "epoch": 15.560747663551401,
+      "grad_norm": 0.0625736191868782,
+      "learning_rate": 0.000391508400609773,
+      "loss": 0.002507678419351578,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00251,
+      "step": 420,
+      "tokens/total": 1700352,
+      "tokens/train_per_sec_per_gpu": 9.23,
+      "tokens/trainable": 364788
+    },
+    {
+      "epoch": 15.897196261682243,
+      "eval_loss": 0.0004907437833026052,
+      "eval_ppl": 1.00049,
+      "eval_runtime": 3.3837,
+      "eval_samples_per_second": 132.992,
+      "eval_steps_per_second": 66.496,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 429
+    },
+    {
+      "epoch": 15.934579439252337,
+      "grad_norm": 0.021322548389434814,
+      "learning_rate": 0.00038638372530263714,
+      "loss": 0.0030783645808696745,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00308,
+      "step": 430,
+      "tokens/total": 1741312,
+      "tokens/train_per_sec_per_gpu": 8.85,
+      "tokens/trainable": 373514
+    },
+    {
+      "epoch": 16.299065420560748,
+      "grad_norm": 0.06707518547773361,
+      "learning_rate": 0.000381176121949752,
+      "loss": 0.003703419119119644,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00371,
+      "step": 440,
+      "tokens/total": 1780736,
+      "tokens/train_per_sec_per_gpu": 8.16,
+      "tokens/trainable": 382031
+    },
+    {
+      "epoch": 16.373831775700936,
+      "eval_loss": 0.0008323417278006673,
+      "eval_ppl": 1.00083,
+      "eval_runtime": 3.1839,
+      "eval_samples_per_second": 141.338,
+      "eval_steps_per_second": 70.669,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 442
+    },
+    {
+      "epoch": 16.672897196261683,
+      "grad_norm": 0.16741153597831726,
+      "learning_rate": 0.00037588875703134186,
+      "loss": 0.002265080250799656,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00227,
+      "step": 450,
+      "tokens/total": 1821696,
+      "tokens/train_per_sec_per_gpu": 8.28,
+      "tokens/trainable": 390824
+    },
+    {
+      "epoch": 16.85981308411215,
+      "eval_loss": 0.0006688478169962764,
+      "eval_ppl": 1.00067,
+      "eval_runtime": 3.7019,
+      "eval_samples_per_second": 121.558,
+      "eval_steps_per_second": 60.779,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 455
+    },
+    {
+      "epoch": 17.037383177570092,
+      "grad_norm": 0.026022493839263916,
+      "learning_rate": 0.00037052484552660517,
+      "loss": 0.0010332781821489334,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00103,
+      "step": 460,
+      "tokens/total": 1861120,
+      "tokens/train_per_sec_per_gpu": 8.88,
+      "tokens/trainable": 399241
+    },
+    {
+      "epoch": 17.33644859813084,
+      "eval_loss": 0.0005382926901802421,
+      "eval_ppl": 1.00054,
+      "eval_runtime": 3.2245,
+      "eval_samples_per_second": 139.555,
+      "eval_steps_per_second": 69.778,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 468
+    },
+    {
+      "epoch": 17.411214953271028,
+      "grad_norm": 0.005740176886320114,
+      "learning_rate": 0.0003650876489588479,
+      "loss": 0.0010417751036584377,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00104,
+      "step": 470,
+      "tokens/total": 1902080,
+      "tokens/train_per_sec_per_gpu": 9.81,
+      "tokens/trainable": 408036
+    },
+    {
+      "epoch": 17.785046728971963,
+      "grad_norm": 0.036771420389413834,
+      "learning_rate": 0.0003595804734123171,
+      "loss": 0.0004790713079273701,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00048,
+      "step": 480,
+      "tokens/total": 1943040,
+      "tokens/train_per_sec_per_gpu": 8.8,
+      "tokens/trainable": 416835
+    },
+    {
+      "epoch": 17.822429906542055,
+      "eval_loss": 0.00038012443110346794,
+      "eval_ppl": 1.00038,
+      "eval_runtime": 3.4016,
+      "eval_samples_per_second": 132.292,
+      "eval_steps_per_second": 66.146,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 481
+    },
+    {
+      "epoch": 18.149532710280372,
+      "grad_norm": 0.002905220026150346,
+      "learning_rate": 0.0003540066675219368,
+      "loss": 0.0006372797768563032,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00064,
+      "step": 490,
+      "tokens/total": 1982464,
+      "tokens/train_per_sec_per_gpu": 9.72,
+      "tokens/trainable": 425360
+    },
+    {
+      "epoch": 18.299065420560748,
+      "eval_loss": 0.00028188255964778364,
+      "eval_ppl": 1.00028,
+      "eval_runtime": 3.2786,
+      "eval_samples_per_second": 137.253,
+      "eval_steps_per_second": 68.626,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 494
+    },
+    {
+      "epoch": 18.523364485981308,
+      "grad_norm": 0.0034076583106070757,
+      "learning_rate": 0.0003483696204371739,
+      "loss": 0.00024668658152222634,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00025,
+      "step": 500,
+      "tokens/total": 2023424,
+      "tokens/train_per_sec_per_gpu": 9.91,
+      "tokens/trainable": 434115
+    },
+    {
+      "epoch": 18.785046728971963,
+      "eval_loss": 0.00022373104002326727,
+      "eval_ppl": 1.00022,
+      "eval_runtime": 3.3779,
+      "eval_samples_per_second": 133.22,
+      "eval_steps_per_second": 66.61,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 507
+    },
+    {
+      "epoch": 18.897196261682243,
+      "grad_norm": 0.0019748767372220755,
+      "learning_rate": 0.00034267275976126695,
+      "loss": 0.00021229716949164868,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00021,
+      "step": 510,
+      "tokens/total": 2064384,
+      "tokens/train_per_sec_per_gpu": 8.88,
+      "tokens/trainable": 442925
+    },
+    {
+      "epoch": 19.261682242990656,
+      "grad_norm": 0.0014892283361405134,
+      "learning_rate": 0.00033691954946707414,
+      "loss": 0.0001773171010427177,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00018,
+      "step": 520,
+      "tokens/total": 2103808,
+      "tokens/train_per_sec_per_gpu": 9.37,
+      "tokens/trainable": 451314
+    },
+    {
+      "epoch": 19.261682242990656,
+      "eval_loss": 0.00018799320969264954,
+      "eval_ppl": 1.00019,
+      "eval_runtime": 3.4548,
+      "eval_samples_per_second": 130.253,
+      "eval_steps_per_second": 65.127,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 520
+    },
+    {
+      "epoch": 19.635514018691588,
+      "grad_norm": 0.0024991026148200035,
+      "learning_rate": 0.0003311134877908068,
+      "loss": 0.00014583958545699716,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00015,
+      "step": 530,
+      "tokens/total": 2144768,
+      "tokens/train_per_sec_per_gpu": 9.2,
+      "tokens/trainable": 460159
+    },
+    {
+      "epoch": 19.747663551401867,
+      "eval_loss": 0.000162541022291407,
+      "eval_ppl": 1.00016,
+      "eval_runtime": 3.1644,
+      "eval_samples_per_second": 142.209,
+      "eval_steps_per_second": 71.105,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 533
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.0018278569914400578,
+      "learning_rate": 0.0003252581051049287,
+      "loss": 0.0001322925789281726,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00013,
+      "step": 540,
+      "tokens/total": 2184192,
+      "tokens/train_per_sec_per_gpu": 6.88,
+      "tokens/trainable": 468660
+    },
+    {
+      "epoch": 20.22429906542056,
+      "eval_loss": 0.00014998124970588833,
+      "eval_ppl": 1.00015,
+      "eval_runtime": 3.1762,
+      "eval_samples_per_second": 141.677,
+      "eval_steps_per_second": 70.839,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 546
+    },
+    {
+      "epoch": 20.373831775700936,
+      "grad_norm": 0.0010968134738504887,
+      "learning_rate": 0.0003193569617715152,
+      "loss": 0.00011919396929442883,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00012,
+      "step": 550,
+      "tokens/total": 2225152,
+      "tokens/train_per_sec_per_gpu": 9.42,
+      "tokens/trainable": 477463
+    },
+    {
+      "epoch": 20.710280373831775,
+      "eval_loss": 0.00013813344412483275,
+      "eval_ppl": 1.00014,
+      "eval_runtime": 3.5379,
+      "eval_samples_per_second": 127.195,
+      "eval_steps_per_second": 63.597,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 559
+    },
+    {
+      "epoch": 20.747663551401867,
+      "grad_norm": 0.0012712250463664532,
+      "learning_rate": 0.0003134136459773768,
+      "loss": 0.00011385473189875483,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00011,
+      "step": 560,
+      "tokens/total": 2266112,
+      "tokens/train_per_sec_per_gpu": 9.2,
+      "tokens/trainable": 486275
+    },
+    {
+      "epoch": 21.11214953271028,
+      "grad_norm": 0.0009374415967613459,
+      "learning_rate": 0.000307431771552265,
+      "loss": 0.00010595285566523671,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00011,
+      "step": 570,
+      "tokens/total": 2305536,
+      "tokens/train_per_sec_per_gpu": 9.1,
+      "tokens/trainable": 494727
+    },
+    {
+      "epoch": 21.186915887850468,
+      "eval_loss": 0.00012631119170691818,
+      "eval_ppl": 1.00013,
+      "eval_runtime": 3.2137,
+      "eval_samples_per_second": 140.025,
+      "eval_steps_per_second": 70.012,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 572
+    },
+    {
+      "epoch": 21.485981308411215,
+      "grad_norm": 0.0010063709923997521,
+      "learning_rate": 0.00030141497577148413,
+      "loss": 9.920914890244603e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.0001,
+      "step": 580,
+      "tokens/total": 2346496,
+      "tokens/train_per_sec_per_gpu": 7.93,
+      "tokens/trainable": 503522
+    },
+    {
+      "epoch": 21.672897196261683,
+      "eval_loss": 0.00011986085155513138,
+      "eval_ppl": 1.00012,
+      "eval_runtime": 3.2183,
+      "eval_samples_per_second": 139.827,
+      "eval_steps_per_second": 69.913,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 585
+    },
+    {
+      "epoch": 21.85981308411215,
+      "grad_norm": 0.0008466723375022411,
+      "learning_rate": 0.0002953669171442492,
+      "loss": 9.56432893872261e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.0001,
+      "step": 590,
+      "tokens/total": 2387456,
+      "tokens/train_per_sec_per_gpu": 9.87,
+      "tokens/trainable": 512355
+    },
+    {
+      "epoch": 22.149532710280372,
+      "eval_loss": 0.00011447798897279426,
+      "eval_ppl": 1.00011,
+      "eval_runtime": 3.193,
+      "eval_samples_per_second": 140.931,
+      "eval_steps_per_second": 70.466,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 598
+    },
+    {
+      "epoch": 22.22429906542056,
+      "grad_norm": 0.000825527764391154,
+      "learning_rate": 0.0002892912731891308,
+      "loss": 9.330455795861781e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00009,
+      "step": 600,
+      "tokens/total": 2427392,
+      "tokens/train_per_sec_per_gpu": 9.42,
+      "tokens/trainable": 520795
+    },
+    {
+      "epoch": 22.598130841121495,
+      "grad_norm": 0.0008508224273100495,
+      "learning_rate": 0.00028319173819794225,
+      "loss": 8.645119378343224e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00009,
+      "step": 610,
+      "tokens/total": 2468352,
+      "tokens/train_per_sec_per_gpu": 9.51,
+      "tokens/trainable": 529598
+    },
+    {
+      "epoch": 22.635514018691588,
+      "eval_loss": 0.00010859948088182136,
+      "eval_ppl": 1.00011,
+      "eval_runtime": 3.417,
+      "eval_samples_per_second": 131.693,
+      "eval_steps_per_second": 65.847,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 611
+    },
+    {
+      "epoch": 22.97196261682243,
+      "grad_norm": 0.0009219254134222865,
+      "learning_rate": 0.0002770720209894278,
+      "loss": 8.582760929130018e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00009,
+      "step": 620,
+      "tokens/total": 2509312,
+      "tokens/train_per_sec_per_gpu": 9.75,
+      "tokens/trainable": 538425
+    },
+    {
+      "epoch": 23.11214953271028,
+      "eval_loss": 0.00010516884503886104,
+      "eval_ppl": 1.00011,
+      "eval_runtime": 3.179,
+      "eval_samples_per_second": 141.555,
+      "eval_steps_per_second": 70.777,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 624
+    },
+    {
+      "epoch": 23.33644859813084,
+      "grad_norm": 0.0007691273931413889,
+      "learning_rate": 0.0002709358426541172,
+      "loss": 7.895263843238354e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00008,
+      "step": 630,
+      "tokens/total": 2548736,
+      "tokens/train_per_sec_per_gpu": 9.27,
+      "tokens/trainable": 546859
+    },
+    {
+      "epoch": 23.598130841121495,
+      "eval_loss": 9.977629815693945e-05,
+      "eval_ppl": 1.0001,
+      "eval_runtime": 3.2478,
+      "eval_samples_per_second": 138.556,
+      "eval_steps_per_second": 69.278,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 637
+    },
+    {
+      "epoch": 23.710280373831775,
+      "grad_norm": 0.0006967310328036547,
+      "learning_rate": 0.0002647869342917189,
+      "loss": 7.867861422710121e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00008,
+      "step": 640,
+      "tokens/total": 2589696,
+      "tokens/train_per_sec_per_gpu": 9.2,
+      "tokens/trainable": 555650
+    },
+    {
+      "epoch": 24.074766355140188,
+      "grad_norm": 0.0007521616062149405,
+      "learning_rate": 0.00025862903474242705,
+      "loss": 7.776265265420079e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00008,
+      "step": 650,
+      "tokens/total": 2629632,
+      "tokens/train_per_sec_per_gpu": 9.17,
+      "tokens/trainable": 564165
+    },
+    {
+      "epoch": 24.074766355140188,
+      "eval_loss": 9.550119284540415e-05,
+      "eval_ppl": 1.0001,
+      "eval_runtime": 3.3412,
+      "eval_samples_per_second": 134.683,
+      "eval_steps_per_second": 67.341,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 650
+    },
+    {
+      "epoch": 24.44859813084112,
+      "grad_norm": 0.0007108044228516519,
+      "learning_rate": 0.0002524658883135218,
+      "loss": 7.329802610911429e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00007,
+      "step": 660,
+      "tokens/total": 2670592,
+      "tokens/train_per_sec_per_gpu": 9.38,
+      "tokens/trainable": 572926
+    },
+    {
+      "epoch": 24.560747663551403,
+      "eval_loss": 9.172627324005589e-05,
+      "eval_ppl": 1.00009,
+      "eval_runtime": 3.7184,
+      "eval_samples_per_second": 121.019,
+      "eval_steps_per_second": 60.51,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 663
+    },
+    {
+      "epoch": 24.822429906542055,
+      "grad_norm": 0.0006645999965257943,
+      "learning_rate": 0.00024630124250264534,
+      "loss": 7.127165445126593e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00007,
+      "step": 670,
+      "tokens/total": 2711552,
+      "tokens/train_per_sec_per_gpu": 9.89,
+      "tokens/trainable": 581770
+    },
+    {
+      "epoch": 25.037383177570092,
+      "eval_loss": 8.835878543322906e-05,
+      "eval_ppl": 1.00009,
+      "eval_runtime": 3.1353,
+      "eval_samples_per_second": 143.528,
+      "eval_steps_per_second": 71.764,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 676
+    },
+    {
+      "epoch": 25.186915887850468,
+      "grad_norm": 0.0006837110850028694,
+      "learning_rate": 0.00024013884571913848,
+      "loss": 6.827799952588976e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00007,
+      "step": 680,
+      "tokens/total": 2750976,
+      "tokens/train_per_sec_per_gpu": 9.25,
+      "tokens/trainable": 590204
+    },
+    {
+      "epoch": 25.523364485981308,
+      "eval_loss": 8.580442954553291e-05,
+      "eval_ppl": 1.00009,
+      "eval_runtime": 3.2275,
+      "eval_samples_per_second": 139.428,
+      "eval_steps_per_second": 69.714,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 689
+    },
+    {
+      "epoch": 25.560747663551403,
+      "grad_norm": 0.000674366659950465,
+      "learning_rate": 0.0002339824450048218,
+      "loss": 6.729281740263105e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00007,
+      "step": 690,
+      "tokens/total": 2791936,
+      "tokens/train_per_sec_per_gpu": 9.14,
+      "tokens/trainable": 599010
+    },
+    {
+      "epoch": 25.934579439252335,
+      "grad_norm": 0.0007088438724167645,
+      "learning_rate": 0.00022783578375560988,
+      "loss": 6.656785844825209e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00007,
+      "step": 700,
+      "tokens/total": 2832896,
+      "tokens/train_per_sec_per_gpu": 9.08,
+      "tokens/trainable": 607840
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 8.344819798367098e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.3956,
+      "eval_samples_per_second": 132.526,
+      "eval_steps_per_second": 66.263,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 702
+    },
+    {
+      "epoch": 26.299065420560748,
+      "grad_norm": 0.0005904277204535902,
+      "learning_rate": 0.00022170259944534078,
+      "loss": 6.326055736280978e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 710,
+      "tokens/total": 2872832,
+      "tokens/train_per_sec_per_gpu": 8.06,
+      "tokens/trainable": 616307
+    },
+    {
+      "epoch": 26.485981308411215,
+      "eval_loss": 8.010442979866639e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.2519,
+      "eval_samples_per_second": 138.379,
+      "eval_steps_per_second": 69.189,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 715
+    },
+    {
+      "epoch": 26.672897196261683,
+      "grad_norm": 0.0006110401009209454,
+      "learning_rate": 0.00021558662135320801,
+      "loss": 6.258178618736565e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 720,
+      "tokens/total": 2913792,
+      "tokens/train_per_sec_per_gpu": 8.96,
+      "tokens/trainable": 625124
+    },
+    {
+      "epoch": 26.97196261682243,
+      "eval_loss": 7.89020414231345e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.2787,
+      "eval_samples_per_second": 137.251,
+      "eval_steps_per_second": 68.625,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 728
+    },
+    {
+      "epoch": 27.037383177570092,
+      "grad_norm": 0.0006264990661293268,
+      "learning_rate": 0.00020949156829617354,
+      "loss": 6.46325759589672e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 730,
+      "tokens/total": 2953216,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 633530
+    },
+    {
+      "epoch": 27.411214953271028,
+      "grad_norm": 0.0005080907139927149,
+      "learning_rate": 0.00020342114636774422,
+      "loss": 6.0859386576339605e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 740,
+      "tokens/total": 2994176,
+      "tokens/train_per_sec_per_gpu": 9.37,
+      "tokens/trainable": 642311
+    },
+    {
+      "epoch": 27.44859813084112,
+      "eval_loss": 7.685931632295251e-05,
+      "eval_ppl": 1.00008,
+      "eval_runtime": 3.176,
+      "eval_samples_per_second": 141.687,
+      "eval_steps_per_second": 70.844,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 741
+    },
+    {
+      "epoch": 27.785046728971963,
+      "grad_norm": 0.000587633578106761,
+      "learning_rate": 0.000197379046684483,
+      "loss": 5.73551922570914e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 750,
+      "tokens/total": 3035136,
+      "tokens/train_per_sec_per_gpu": 8.89,
+      "tokens/trainable": 651161
+    },
+    {
+      "epoch": 27.934579439252335,
+      "eval_loss": 7.496050238842145e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.3291,
+      "eval_samples_per_second": 135.173,
+      "eval_steps_per_second": 67.587,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 754
+    },
+    {
+      "epoch": 28.149532710280372,
+      "grad_norm": 0.0006080602761358023,
+      "learning_rate": 0.00019136894314162808,
+      "loss": 6.023343303240836e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 760,
+      "tokens/total": 3075072,
+      "tokens/train_per_sec_per_gpu": 9.09,
+      "tokens/trainable": 659594
+    },
+    {
+      "epoch": 28.411214953271028,
+      "eval_loss": 7.33654378564097e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.6738,
+      "eval_samples_per_second": 122.49,
+      "eval_steps_per_second": 61.245,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 767
+    },
+    {
+      "epoch": 28.523364485981308,
+      "grad_norm": 0.0005171361262910068,
+      "learning_rate": 0.00018539449017918302,
+      "loss": 5.463137058541179e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 770,
+      "tokens/total": 3116032,
+      "tokens/train_per_sec_per_gpu": 9.47,
+      "tokens/trainable": 668446
+    },
+    {
+      "epoch": 28.897196261682243,
+      "grad_norm": 0.000620691105723381,
+      "learning_rate": 0.0001794593205598361,
+      "loss": 5.686976946890354e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00006,
+      "step": 780,
+      "tokens/total": 3156992,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 677257
+    },
+    {
+      "epoch": 28.897196261682243,
+      "eval_loss": 7.189060124801472e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.5114,
+      "eval_samples_per_second": 128.154,
+      "eval_steps_per_second": 64.077,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 780
+    },
+    {
+      "epoch": 29.261682242990656,
+      "grad_norm": 0.0005146770854480565,
+      "learning_rate": 0.00017356704316006183,
+      "loss": 5.4644700139760974e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 790,
+      "tokens/total": 3196416,
+      "tokens/train_per_sec_per_gpu": 8.78,
+      "tokens/trainable": 685722
+    },
+    {
+      "epoch": 29.373831775700936,
+      "eval_loss": 6.988636596361175e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.3264,
+      "eval_samples_per_second": 135.282,
+      "eval_steps_per_second": 67.641,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 793
+    },
+    {
+      "epoch": 29.635514018691588,
+      "grad_norm": 0.0004947104607708752,
+      "learning_rate": 0.00016772124077574482,
+      "loss": 5.4022762924432755e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 800,
+      "tokens/total": 3237376,
+      "tokens/train_per_sec_per_gpu": 8.95,
+      "tokens/trainable": 694563
+    },
+    {
+      "epoch": 29.85981308411215,
+      "eval_loss": 6.932941323611885e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.1894,
+      "eval_samples_per_second": 141.094,
+      "eval_steps_per_second": 70.547,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 806
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.0006835766253061593,
+      "learning_rate": 0.0001619254679436638,
+      "loss": 5.5819249246269466e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00006,
+      "step": 810,
+      "tokens/total": 3276800,
+      "tokens/train_per_sec_per_gpu": 5.99,
+      "tokens/trainable": 702990
+    },
+    {
+      "epoch": 30.33644859813084,
+      "eval_loss": 6.759980897186324e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.1493,
+      "eval_samples_per_second": 142.888,
+      "eval_steps_per_second": 71.444,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 819
+    },
+    {
+      "epoch": 30.373831775700936,
+      "grad_norm": 0.0005019630189053714,
+      "learning_rate": 0.0001561832487801565,
+      "loss": 5.427976138889789e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 820,
+      "tokens/total": 3317760,
+      "tokens/train_per_sec_per_gpu": 8.78,
+      "tokens/trainable": 711755
+    },
+    {
+      "epoch": 30.747663551401867,
+      "grad_norm": 0.0005171055672690272,
+      "learning_rate": 0.00015049807483828362,
+      "loss": 5.220457096584141e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 830,
+      "tokens/total": 3358720,
+      "tokens/train_per_sec_per_gpu": 9.29,
+      "tokens/trainable": 720596
+    },
+    {
+      "epoch": 30.822429906542055,
+      "eval_loss": 6.67451968183741e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.1738,
+      "eval_samples_per_second": 141.784,
+      "eval_steps_per_second": 70.892,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 832
+    },
+    {
+      "epoch": 31.11214953271028,
+      "grad_norm": 0.0005160675500519574,
+      "learning_rate": 0.00014487340298479146,
+      "loss": 4.989110166206956e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 840,
+      "tokens/total": 3398144,
+      "tokens/train_per_sec_per_gpu": 9.17,
+      "tokens/trainable": 729106
+    },
+    {
+      "epoch": 31.299065420560748,
+      "eval_loss": 6.565650255652145e-05,
+      "eval_ppl": 1.00007,
+      "eval_runtime": 3.0911,
+      "eval_samples_per_second": 145.578,
+      "eval_steps_per_second": 72.789,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 845
+    },
+    {
+      "epoch": 31.485981308411215,
+      "grad_norm": 0.00047307557542808354,
+      "learning_rate": 0.00013931265329816646,
+      "loss": 5.1057303790003064e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 850,
+      "tokens/total": 3439104,
+      "tokens/train_per_sec_per_gpu": 9.26,
+      "tokens/trainable": 737916
+    },
+    {
+      "epoch": 31.785046728971963,
+      "eval_loss": 6.46287517156452e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.6973,
+      "eval_samples_per_second": 121.712,
+      "eval_steps_per_second": 60.856,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 858
+    },
+    {
+      "epoch": 31.85981308411215,
+      "grad_norm": 0.00047350223758257926,
+      "learning_rate": 0.00013381920698905787,
+      "loss": 5.040300311520696e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 860,
+      "tokens/total": 3480064,
+      "tokens/train_per_sec_per_gpu": 9.36,
+      "tokens/trainable": 746738
+    },
+    {
+      "epoch": 32.22429906542056,
+      "grad_norm": 0.0005081515409983695,
+      "learning_rate": 0.00012839640434433552,
+      "loss": 5.042277625761926e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 870,
+      "tokens/total": 3519488,
+      "tokens/train_per_sec_per_gpu": 8.81,
+      "tokens/trainable": 755141
+    },
+    {
+      "epoch": 32.26168224299065,
+      "eval_loss": 6.399525591405109e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.377,
+      "eval_samples_per_second": 133.255,
+      "eval_steps_per_second": 66.627,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 871
+    },
+    {
+      "epoch": 32.598130841121495,
+      "grad_norm": 0.00047458027256652713,
+      "learning_rate": 0.00012304754269602914,
+      "loss": 4.8718880861997604e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 880,
+      "tokens/total": 3560448,
+      "tokens/train_per_sec_per_gpu": 8.12,
+      "tokens/trainable": 763958
+    },
+    {
+      "epoch": 32.74766355140187,
+      "eval_loss": 6.338646198855713e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.1534,
+      "eval_samples_per_second": 142.702,
+      "eval_steps_per_second": 71.351,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 884
+    },
+    {
+      "epoch": 32.97196261682243,
+      "grad_norm": 0.00044811354018747807,
+      "learning_rate": 0.0001177758744163886,
+      "loss": 4.926404799334705e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 890,
+      "tokens/total": 3601408,
+      "tokens/train_per_sec_per_gpu": 9.51,
+      "tokens/trainable": 772706
+    },
+    {
+      "epoch": 33.22429906542056,
+      "eval_loss": 6.242044764803723e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2372,
+      "eval_samples_per_second": 139.007,
+      "eval_steps_per_second": 69.504,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 897
+    },
+    {
+      "epoch": 33.33644859813084,
+      "grad_norm": 0.0004931804141961038,
+      "learning_rate": 0.00011258460494028003,
+      "loss": 4.853466525673866e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 900,
+      "tokens/total": 3641344,
+      "tokens/train_per_sec_per_gpu": 9.43,
+      "tokens/trainable": 781219
+    },
+    {
+      "epoch": 33.71028037383178,
+      "grad_norm": 0.0005011935718357563,
+      "learning_rate": 0.00010747689081612324,
+      "loss": 4.763478355016559e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 910,
+      "tokens/total": 3682304,
+      "tokens/train_per_sec_per_gpu": 9.07,
+      "tokens/trainable": 790015
+    },
+    {
+      "epoch": 33.71028037383178,
+      "eval_loss": 6.122803461039439e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2367,
+      "eval_samples_per_second": 139.032,
+      "eval_steps_per_second": 69.516,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 910
+    },
+    {
+      "epoch": 34.074766355140184,
+      "grad_norm": 0.00045264940126799047,
+      "learning_rate": 0.00010245583778655474,
+      "loss": 4.637397942133248e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 920,
+      "tokens/total": 3721728,
+      "tokens/train_per_sec_per_gpu": 9.21,
+      "tokens/trainable": 798498
+    },
+    {
+      "epoch": 34.18691588785047,
+      "eval_loss": 6.11661744187586e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2212,
+      "eval_samples_per_second": 139.699,
+      "eval_steps_per_second": 69.849,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 923
+    },
+    {
+      "epoch": 34.44859813084112,
+      "grad_norm": 0.000527155352756381,
+      "learning_rate": 9.752449889998178e-05,
+      "loss": 4.6964338980615136e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 930,
+      "tokens/total": 3762688,
+      "tokens/train_per_sec_per_gpu": 8.91,
+      "tokens/trainable": 807314
+    },
+    {
+      "epoch": 34.67289719626168,
+      "eval_loss": 6.0676517023239285e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4036,
+      "eval_samples_per_second": 132.213,
+      "eval_steps_per_second": 66.106,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 936
+    },
+    {
+      "epoch": 34.822429906542055,
+      "grad_norm": 0.0004101029480807483,
+      "learning_rate": 9.268587265417902e-05,
+      "loss": 4.6843086602166294e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 940,
+      "tokens/total": 3803648,
+      "tokens/train_per_sec_per_gpu": 9.47,
+      "tokens/trainable": 816126
+    },
+    {
+      "epoch": 35.149532710280376,
+      "eval_loss": 6.071670577512123e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.5808,
+      "eval_samples_per_second": 125.669,
+      "eval_steps_per_second": 62.835,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 949
+    },
+    {
+      "epoch": 35.18691588785047,
+      "grad_norm": 0.0004206536686979234,
+      "learning_rate": 8.794290117305295e-05,
+      "loss": 4.5391733874566856e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 950,
+      "tokens/total": 3843072,
+      "tokens/train_per_sec_per_gpu": 9.13,
+      "tokens/trainable": 824583
+    },
+    {
+      "epoch": 35.5607476635514,
+      "grad_norm": 0.0004591047763824463,
+      "learning_rate": 8.329846841768538e-05,
+      "loss": 4.516696208156645e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00005,
+      "step": 960,
+      "tokens/total": 3884032,
+      "tokens/train_per_sec_per_gpu": 8.84,
+      "tokens/trainable": 833364
+    },
+    {
+      "epoch": 35.63551401869159,
+      "eval_loss": 5.8858131524175406e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2801,
+      "eval_samples_per_second": 137.19,
+      "eval_steps_per_second": 68.595,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 962
+    },
+    {
+      "epoch": 35.93457943925234,
+      "grad_norm": 0.00047418291796930134,
+      "learning_rate": 7.875539843274262e-05,
+      "loss": 4.6477647265419365e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00005,
+      "step": 970,
+      "tokens/total": 3924992,
+      "tokens/train_per_sec_per_gpu": 7.91,
+      "tokens/trainable": 842152
+    },
+    {
+      "epoch": 36.11214953271028,
+      "eval_loss": 5.8864348829956725e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2318,
+      "eval_samples_per_second": 139.241,
+      "eval_steps_per_second": 69.621,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 975
+    },
+    {
+      "epoch": 36.299065420560744,
+      "grad_norm": 0.00040592439472675323,
+      "learning_rate": 7.431645362931691e-05,
+      "loss": 4.467906255740672e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 980,
+      "tokens/total": 3964416,
+      "tokens/train_per_sec_per_gpu": 9.1,
+      "tokens/trainable": 850684
+    },
+    {
+      "epoch": 36.598130841121495,
+      "eval_loss": 5.867854270036332e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2514,
+      "eval_samples_per_second": 138.401,
+      "eval_steps_per_second": 69.201,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 988
+    },
+    {
+      "epoch": 36.67289719626168,
+      "grad_norm": 0.0004126799467485398,
+      "learning_rate": 6.998433310524335e-05,
+      "loss": 4.481191863305867e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 990,
+      "tokens/total": 4005376,
+      "tokens/train_per_sec_per_gpu": 9.61,
+      "tokens/trainable": 859505
+    },
+    {
+      "epoch": 37.03738317757009,
+      "grad_norm": 0.0004212119965814054,
+      "learning_rate": 6.576167100391584e-05,
+      "loss": 4.4428894761949776e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1000,
+      "tokens/total": 4044800,
+      "tokens/train_per_sec_per_gpu": 8.84,
+      "tokens/trainable": 867893
+    },
+    {
+      "epoch": 37.074766355140184,
+      "eval_loss": 5.772413351223804e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2553,
+      "eval_samples_per_second": 138.236,
+      "eval_steps_per_second": 69.118,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1001
+    },
+    {
+      "epoch": 37.41121495327103,
+      "grad_norm": 0.00038078008219599724,
+      "learning_rate": 6.165103491259688e-05,
+      "loss": 4.44692064775154e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1010,
+      "tokens/total": 4085760,
+      "tokens/train_per_sec_per_gpu": 7.76,
+      "tokens/trainable": 876709
+    },
+    {
+      "epoch": 37.5607476635514,
+      "eval_loss": 5.793718810309656e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.5145,
+      "eval_samples_per_second": 128.039,
+      "eval_steps_per_second": 64.02,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1014
+    },
+    {
+      "epoch": 37.78504672897196,
+      "grad_norm": 0.00041370512917637825,
+      "learning_rate": 5.765492430119831e-05,
+      "loss": 4.4130056630820035e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1020,
+      "tokens/total": 4126720,
+      "tokens/train_per_sec_per_gpu": 9.33,
+      "tokens/trainable": 885550
+    },
+    {
+      "epoch": 38.03738317757009,
+      "eval_loss": 5.737932588090189e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2905,
+      "eval_samples_per_second": 136.758,
+      "eval_steps_per_second": 68.379,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1027
+    },
+    {
+      "epoch": 38.149532710280376,
+      "grad_norm": 0.00041744214831851423,
+      "learning_rate": 5.3775769002479546e-05,
+      "loss": 4.308792122174054e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1030,
+      "tokens/total": 4166144,
+      "tokens/train_per_sec_per_gpu": 9.18,
+      "tokens/trainable": 893981
+    },
+    {
+      "epoch": 38.52336448598131,
+      "grad_norm": 0.0003765086585190147,
+      "learning_rate": 5.001592773458941e-05,
+      "loss": 4.37814713222906e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1040,
+      "tokens/total": 4207104,
+      "tokens/train_per_sec_per_gpu": 9.25,
+      "tokens/trainable": 902785
+    },
+    {
+      "epoch": 38.52336448598131,
+      "eval_loss": 5.725925075239502e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.1926,
+      "eval_samples_per_second": 140.949,
+      "eval_steps_per_second": 70.475,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 1040
+    },
+    {
+      "epoch": 38.89719626168224,
+      "grad_norm": 0.00042925550951622427,
+      "learning_rate": 4.6377686666849026e-05,
+      "loss": 4.4643908040598035e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1050,
+      "tokens/total": 4248064,
+      "tokens/train_per_sec_per_gpu": 9.07,
+      "tokens/trainable": 911611
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 5.617448914563283e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.35,
+      "eval_samples_per_second": 134.33,
+      "eval_steps_per_second": 67.165,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1053
+    },
+    {
+      "epoch": 39.26168224299065,
+      "grad_norm": 0.0004092319286428392,
+      "learning_rate": 4.286325802964752e-05,
+      "loss": 4.223847936373204e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1060,
+      "tokens/total": 4287488,
+      "tokens/train_per_sec_per_gpu": 9.45,
+      "tokens/trainable": 920065
+    },
+    {
+      "epoch": 39.48598130841121,
+      "eval_loss": 5.649494050885551e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4014,
+      "eval_samples_per_second": 132.299,
+      "eval_steps_per_second": 66.15,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1066
+    },
+    {
+      "epoch": 39.63551401869159,
+      "grad_norm": 0.00039947053301148117,
+      "learning_rate": 3.947477876929706e-05,
+      "loss": 4.293379897717387e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1070,
+      "tokens/total": 4328448,
+      "tokens/train_per_sec_per_gpu": 9.52,
+      "tokens/trainable": 928880
+    },
+    {
+      "epoch": 39.97196261682243,
+      "eval_loss": 5.622552635031752e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.3325,
+      "eval_samples_per_second": 135.032,
+      "eval_steps_per_second": 67.516,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1079
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.0005581126897595823,
+      "learning_rate": 3.621430924866348e-05,
+      "loss": 4.391485417727381e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1080,
+      "tokens/total": 4367872,
+      "tokens/train_per_sec_per_gpu": 5.04,
+      "tokens/trainable": 937320
+    },
+    {
+      "epoch": 40.373831775700936,
+      "grad_norm": 0.0004162968834862113,
+      "learning_rate": 3.308383199436399e-05,
+      "loss": 4.293692181818187e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1090,
+      "tokens/total": 4408832,
+      "tokens/train_per_sec_per_gpu": 9.63,
+      "tokens/trainable": 946161
+    },
+    {
+      "epoch": 40.44859813084112,
+      "eval_loss": 5.564530147239566e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.1595,
+      "eval_samples_per_second": 142.428,
+      "eval_steps_per_second": 71.214,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1092
+    },
+    {
+      "epoch": 40.74766355140187,
+      "grad_norm": 0.0003698903019540012,
+      "learning_rate": 3.0085250491293016e-05,
+      "loss": 4.3350915075279775e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1100,
+      "tokens/total": 4449792,
+      "tokens/train_per_sec_per_gpu": 8.06,
+      "tokens/trainable": 954956
+    },
+    {
+      "epoch": 40.93457943925234,
+      "eval_loss": 5.604937541647814e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4338,
+      "eval_samples_per_second": 131.051,
+      "eval_steps_per_second": 65.525,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1105
+    },
+    {
+      "epoch": 41.11214953271028,
+      "grad_norm": 0.0003706767165567726,
+      "learning_rate": 2.7220388025209376e-05,
+      "loss": 4.130922898184508e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1110,
+      "tokens/total": 4489216,
+      "tokens/train_per_sec_per_gpu": 9.37,
+      "tokens/trainable": 963402
+    },
+    {
+      "epoch": 41.41121495327103,
+      "eval_loss": 5.551826689043082e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.209,
+      "eval_samples_per_second": 140.233,
+      "eval_steps_per_second": 70.116,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1118
+    },
+    {
+      "epoch": 41.48598130841121,
+      "grad_norm": 0.0003818798577412963,
+      "learning_rate": 2.4490986574088186e-05,
+      "loss": 4.319115250837058e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1120,
+      "tokens/total": 4530176,
+      "tokens/train_per_sec_per_gpu": 8.72,
+      "tokens/trainable": 972229
+    },
+    {
+      "epoch": 41.85981308411215,
+      "grad_norm": 0.0004545100382529199,
+      "learning_rate": 2.1898705748912506e-05,
+      "loss": 4.4042911031283435e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1130,
+      "tokens/total": 4571136,
+      "tokens/train_per_sec_per_gpu": 9.35,
+      "tokens/trainable": 981064
+    },
+    {
+      "epoch": 41.89719626168224,
+      "eval_loss": 5.508323010872118e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2656,
+      "eval_samples_per_second": 137.801,
+      "eval_steps_per_second": 68.901,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1131
+    },
+    {
+      "epoch": 42.22429906542056,
+      "grad_norm": 0.0004064469540026039,
+      "learning_rate": 1.9445121784547437e-05,
+      "loss": 4.090330330654979e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1140,
+      "tokens/total": 4610560,
+      "tokens/train_per_sec_per_gpu": 9.7,
+      "tokens/trainable": 989479
+    },
+    {
+      "epoch": 42.373831775700936,
+      "eval_loss": 5.579328353633173e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.3538,
+      "eval_samples_per_second": 134.175,
+      "eval_steps_per_second": 67.087,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1144
+    },
+    {
+      "epoch": 42.598130841121495,
+      "grad_norm": 0.00043209429713897407,
+      "learning_rate": 1.7131726581311734e-05,
+      "loss": 4.3470136006362736e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1150,
+      "tokens/total": 4651520,
+      "tokens/train_per_sec_per_gpu": 9.22,
+      "tokens/trainable": 998299
+    },
+    {
+      "epoch": 42.85981308411215,
+      "eval_loss": 5.553974551730789e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.4051,
+      "eval_samples_per_second": 132.154,
+      "eval_steps_per_second": 66.077,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1157
+    },
+    {
+      "epoch": 42.97196261682243,
+      "grad_norm": 0.0004145831917412579,
+      "learning_rate": 1.4959926797828427e-05,
+      "loss": 4.1807466186583045e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1160,
+      "tokens/total": 4692480,
+      "tokens/train_per_sec_per_gpu": 9.53,
+      "tokens/trainable": 1007096
+    },
+    {
+      "epoch": 43.33644859813084,
+      "grad_norm": 0.0003859826538246125,
+      "learning_rate": 1.2931042995707159e-05,
+      "loss": 4.134701448492706e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1170,
+      "tokens/total": 4731904,
+      "tokens/train_per_sec_per_gpu": 7.68,
+      "tokens/trainable": 1015507
+    },
+    {
+      "epoch": 43.33644859813084,
+      "eval_loss": 5.5574641010025516e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.18,
+      "eval_samples_per_second": 141.509,
+      "eval_steps_per_second": 70.754,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 1170
+    },
+    {
+      "epoch": 43.71028037383178,
+      "grad_norm": 0.0003987500676885247,
+      "learning_rate": 1.1046308836577201e-05,
+      "loss": 4.182373522780836e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1180,
+      "tokens/total": 4772864,
+      "tokens/train_per_sec_per_gpu": 9.05,
+      "tokens/trainable": 1024376
+    },
+    {
+      "epoch": 43.822429906542055,
+      "eval_loss": 5.485746805788949e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.4857,
+      "eval_samples_per_second": 129.1,
+      "eval_steps_per_second": 64.55,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1183
+    },
+    {
+      "epoch": 44.074766355140184,
+      "grad_norm": 0.0004245893214829266,
+      "learning_rate": 9.306870331960232e-06,
+      "loss": 4.327711940277368e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1190,
+      "tokens/total": 4812288,
+      "tokens/train_per_sec_per_gpu": 8.59,
+      "tokens/trainable": 1032827
+    },
+    {
+      "epoch": 44.299065420560744,
+      "eval_loss": 5.491507545229979e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.2966,
+      "eval_samples_per_second": 136.504,
+      "eval_steps_per_second": 68.252,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1196
+    },
+    {
+      "epoch": 44.44859813084112,
+      "grad_norm": 0.0004224616277497262,
+      "learning_rate": 7.713785146438889e-06,
+      "loss": 4.1210482595488426e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1200,
+      "tokens/total": 4853248,
+      "tokens/train_per_sec_per_gpu": 8.94,
+      "tokens/trainable": 1041626
+    },
+    {
+      "epoch": 44.78504672897196,
+      "eval_loss": 5.5391912610502914e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.3679,
+      "eval_samples_per_second": 133.612,
+      "eval_steps_per_second": 66.806,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1209
+    },
+    {
+      "epoch": 44.822429906542055,
+      "grad_norm": 0.00036442236159928143,
+      "learning_rate": 6.268021954544096e-06,
+      "loss": 4.300210566725582e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1210,
+      "tokens/total": 4894208,
+      "tokens/train_per_sec_per_gpu": 8.04,
+      "tokens/trainable": 1050459
+    },
+    {
+      "epoch": 45.18691588785047,
+      "grad_norm": 0.00040011643432080746,
+      "learning_rate": 4.970459851753456e-06,
+      "loss": 4.2740206117741765e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1220,
+      "tokens/total": 4933632,
+      "tokens/train_per_sec_per_gpu": 8.98,
+      "tokens/trainable": 1058864
+    },
+    {
+      "epoch": 45.26168224299065,
+      "eval_loss": 5.4846168495714664e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.3892,
+      "eval_samples_per_second": 132.774,
+      "eval_steps_per_second": 66.387,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1222
+    },
+    {
+      "epoch": 45.5607476635514,
+      "grad_norm": 0.0004423453356139362,
+      "learning_rate": 3.821887819957376e-06,
+      "loss": 4.242766881361604e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1230,
+      "tokens/total": 4974592,
+      "tokens/train_per_sec_per_gpu": 9.41,
+      "tokens/trainable": 1067666
+    },
+    {
+      "epoch": 45.74766355140187,
+      "eval_loss": 5.494186916621402e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.6349,
+      "eval_samples_per_second": 123.8,
+      "eval_steps_per_second": 61.9,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1235
+    },
+    {
+      "epoch": 45.93457943925234,
+      "grad_norm": 0.000343750580213964,
+      "learning_rate": 2.8230042477194738e-06,
+      "loss": 4.15234622778371e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1240,
+      "tokens/total": 5015552,
+      "tokens/train_per_sec_per_gpu": 9.6,
+      "tokens/trainable": 1076497
+    },
+    {
+      "epoch": 46.22429906542056,
+      "eval_loss": 5.485347719513811e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.4301,
+      "eval_samples_per_second": 131.192,
+      "eval_steps_per_second": 65.596,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1248
+    },
+    {
+      "epoch": 46.299065420560744,
+      "grad_norm": 0.0003762434353120625,
+      "learning_rate": 1.974416505621385e-06,
+      "loss": 4.078344500157982e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1250,
+      "tokens/total": 5054976,
+      "tokens/train_per_sec_per_gpu": 9.54,
+      "tokens/trainable": 1084977
+    },
+    {
+      "epoch": 46.67289719626168,
+      "grad_norm": 0.00040426553459838033,
+      "learning_rate": 1.2766405769518152e-06,
+      "loss": 4.291962832212448e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1260,
+      "tokens/total": 5095936,
+      "tokens/train_per_sec_per_gpu": 9.11,
+      "tokens/trainable": 1093767
+    },
+    {
+      "epoch": 46.71028037383178,
+      "eval_loss": 5.484187204274349e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.2481,
+      "eval_samples_per_second": 138.542,
+      "eval_steps_per_second": 69.271,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1261
+    },
+    {
+      "epoch": 47.03738317757009,
+      "grad_norm": 0.00039811001624912024,
+      "learning_rate": 7.301007439629304e-07,
+      "loss": 4.1479116771370175e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1270,
+      "tokens/total": 5135360,
+      "tokens/train_per_sec_per_gpu": 8.69,
+      "tokens/trainable": 1102219
+    },
+    {
+      "epoch": 47.18691588785047,
+      "eval_loss": 5.461459295474924e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.4099,
+      "eval_samples_per_second": 131.971,
+      "eval_steps_per_second": 65.985,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1274
+    },
+    {
+      "epoch": 47.41121495327103,
+      "grad_norm": 0.0003700878587551415,
+      "learning_rate": 3.351293298859692e-07,
+      "loss": 4.222689603921026e-05,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 7.71,
+      "memory/max_allocated (GiB)": 7.71,
+      "ppl": 1.00004,
+      "step": 1280,
+      "tokens/total": 5176320,
+      "tokens/train_per_sec_per_gpu": 9.39,
+      "tokens/trainable": 1111044
+    },
+    {
+      "epoch": 47.67289719626168,
+      "eval_loss": 5.493869321071543e-05,
+      "eval_ppl": 1.00005,
+      "eval_runtime": 3.6114,
+      "eval_samples_per_second": 124.604,
+      "eval_steps_per_second": 62.302,
+      "memory/device_reserved (GiB)": 8.19,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "step": 1287
+    },
+    {
+      "epoch": 47.78504672897196,
+      "grad_norm": 0.0004571031895466149,
+      "learning_rate": 9.196649686207814e-08,
+      "loss": 4.26891929237172e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1290,
+      "tokens/total": 5217280,
+      "tokens/train_per_sec_per_gpu": 9.31,
+      "tokens/trainable": 1119827
+    },
+    {
+      "epoch": 48.149532710280376,
+      "grad_norm": 0.0004271965008229017,
+      "learning_rate": 7.600999121226692e-10,
+      "loss": 4.173149063717574e-05,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 6.45,
+      "memory/max_allocated (GiB)": 6.45,
+      "ppl": 1.00004,
+      "step": 1300,
+      "tokens/total": 5256704,
+      "tokens/train_per_sec_per_gpu": 8.93,
+      "tokens/trainable": 1128302
+    },
+    {
+      "epoch": 48.149532710280376,
+      "eval_loss": 5.5000444262987e-05,
+      "eval_ppl": 1.00006,
+      "eval_runtime": 3.2682,
+      "eval_samples_per_second": 137.689,
+      "eval_steps_per_second": 68.844,
+      "memory/device_reserved (GiB)": 6.7,
+      "memory/max_active (GiB)": 5.47,
+      "memory/max_allocated (GiB)": 5.47,
+      "step": 1300
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1300,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 49,
+  "save_steps": 26,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.1876889293016269e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/checkpoint-1300/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5473cf43580ac5e4f7c06b37abcd61cc86d6cc83348c79a909cdfdf6d1b9e166
+size 7057

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/debug.log ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/atomic/eval_results.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ category,filename,total,correct,accuracy,format_found,format_accuracy,errors_count
2	+ knowledge,test_alpaca_results,450,296,65.78,0,0.00,154

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/atomic/eval_summary.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "overall": {
+    "total": 450,
+    "correct": 296,
+    "accuracy": 65.78,
+    "format_found": 0,
+    "format_accuracy": 0.0
+  },
+  "n_errors": 154,
+  "results_file": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/atomic/test_alpaca_results.jsonl"
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/atomic/test_alpaca_converted.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/atomic/test_alpaca_results.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/compositional_2step/eval_results.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+category,filename,total,correct,accuracy,format_found,format_accuracy,errors_count
+knowledge,test_alpaca_results,450,296,65.78,0,0.00,154
+knowledge,test_alpaca_results,499,218,43.69,0,0.00,281

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/compositional_2step/eval_summary.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "overall": {
+    "total": 499,
+    "correct": 218,
+    "accuracy": 43.69,
+    "format_found": 0,
+    "format_accuracy": 0.0
+  },
+  "n_errors": 281,
+  "results_file": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/test_alpaca_results.jsonl"
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/compositional_2step/test_alpaca_converted.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context/compositional_2step/test_alpaca_results.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/atomic/eval_results.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ category,filename,total,correct,accuracy,format_found,format_accuracy,errors_count
2	+ knowledge,test_alpaca_results,450,257,57.11,0,0.00,193

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/atomic/eval_summary.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "overall": {
+    "total": 450,
+    "correct": 257,
+    "accuracy": 57.11,
+    "format_found": 0,
+    "format_accuracy": 0.0
+  },
+  "n_errors": 193,
+  "results_file": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/atomic/test_alpaca_results.jsonl"
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/atomic/test_alpaca_converted.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/atomic/test_alpaca_results.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/compositional_2step/eval_results.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ category,filename,total,correct,accuracy,format_found,format_accuracy,errors_count
2	+ knowledge,test_alpaca_results,499,224,44.89,0,0.00,275

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/compositional_2step/eval_summary.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "overall": {
+    "total": 499,
+    "correct": 224,
+    "accuracy": 44.89,
+    "format_found": 0,
+    "format_accuracy": 0.0
+  },
+  "n_errors": 275,
+  "results_file": "/home/jiaruil5/math_rl/mix_teachers/r3lit_rl/mix_teachers/checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/compositional_2step/test_alpaca_results.jsonl"
+}

checkpoints/knowledge/lora_sft_atomic_50ep_t20260305/eval_results_with_context_cot/compositional_2step/test_alpaca_converted.jsonl ADDED Viewed

The diff for this file is too large to render. See raw diff