diff --git a/.gitattributes b/.gitattributes
index 1380ecd3a8155bf422776b6ebd7932fc7ac904ee..70ecdc65c3a9da10fcd6fc3962eab94dd7bd0d53 100644
--- a/.gitattributes
+++ b/.gitattributes
@@ -39,3 +39,5 @@ kd_mllm/s1_siglip2_qwen3_4b/v1-20260320-102316/checkpoint-2181/tokenizer.json fi
 kd_mllm/s2_siglip2_qwen3_4b_10pct/checkpoint-1000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 video_mllm_swift/s1_declip_siglip2_qwen3_1.7b/v0-20260314-141147/checkpoint-2000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 video_mllm_swift/s1_declip_siglip2_qwen3_1.7b/v0-20260314-141147/checkpoint-2181/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/tokenizer.json filter=lfs diff=lfs merge=lfs -text
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/args.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/args.json
new file mode 100644
index 0000000000000000000000000000000000000000..7ad716daa308581ab36f680aa193aa1bf3ff023b
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/args.json
@@ -0,0 +1,382 @@
+{
+  "output_dir": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153",
+  "per_device_train_batch_size": 8,
+  "num_train_epochs": 1.0,
+  "max_steps": -1,
+  "learning_rate": 0.001,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": null,
+  "warmup_steps": 0,
+  "optim": "adamw_torch_fused",
+  "optim_args": null,
+  "weight_decay": 0.1,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "optim_target_modules": null,
+  "gradient_accumulation_steps": 4,
+  "average_tokens_across_devices": true,
+  "max_grad_norm": 1.0,
+  "label_smoothing_factor": 0.0,
+  "bf16": true,
+  "fp16": false,
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": null,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null,
+  "use_liger_kernel": false,
+  "liger_kernel_config": null,
+  "use_cache": false,
+  "neftune_noise_alpha": null,
+  "torch_empty_cache_steps": null,
+  "auto_find_batch_size": false,
+  "logging_strategy": "steps",
+  "logging_steps": 1,
+  "logging_first_step": true,
+  "log_on_each_node": true,
+  "logging_nan_inf_filter": true,
+  "include_num_input_tokens_seen": false,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "disable_tqdm": null,
+  "report_to": [
+    "none"
+  ],
+  "run_name": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153",
+  "project": "huggingface",
+  "trackio_space_id": "trackio",
+  "eval_strategy": "no",
+  "eval_steps": 500.0,
+  "eval_delay": 0,
+  "per_device_eval_batch_size": 1,
+  "prediction_loss_only": false,
+  "eval_on_start": false,
+  "eval_do_concat_batches": true,
+  "eval_use_gather_object": false,
+  "eval_accumulation_steps": null,
+  "include_for_metrics": [],
+  "batch_eval_metrics": false,
+  "save_only_model": false,
+  "save_strategy": "steps",
+  "save_steps": 500.0,
+  "save_on_each_node": false,
+  "save_total_limit": 2,
+  "enable_jit_checkpoint": false,
+  "push_to_hub": false,
+  "hub_token": null,
+  "hub_private_repo": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_always_push": false,
+  "hub_revision": null,
+  "load_best_model_at_end": false,
+  "metric_for_best_model": "loss",
+  "greater_is_better": false,
+  "ignore_data_skip": false,
+  "restore_callback_states_from_checkpoint": false,
+  "full_determinism": false,
+  "seed": 42,
+  "data_seed": 42,
+  "use_cpu": false,
+  "accelerator_config": {
+    "dispatch_batches": false
+  },
+  "parallelism_config": null,
+  "dataloader_drop_last": false,
+  "dataloader_num_workers": null,
+  "dataloader_pin_memory": true,
+  "dataloader_persistent_workers": false,
+  "dataloader_prefetch_factor": null,
+  "remove_unused_columns": true,
+  "label_names": null,
+  "train_sampling_strategy": "random",
+  "length_column_name": "length",
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "ddp_broadcast_buffers": null,
+  "ddp_backend": null,
+  "ddp_timeout": 7200,
+  "fsdp": [],
+  "fsdp_config": null,
+  "deepspeed": {
+    "fp16": {
+      "enabled": "auto",
+      "loss_scale": 0,
+      "loss_scale_window": 1000,
+      "initial_scale_power": 16,
+      "hysteresis": 2,
+      "min_loss_scale": 1
+    },
+    "bf16": {
+      "enabled": "auto"
+    },
+    "zero_optimization": {
+      "stage": 2,
+      "offload_optimizer": {
+        "device": "none",
+        "pin_memory": true
+      },
+      "allgather_partitions": true,
+      "allgather_bucket_size": 200000000.0,
+      "overlap_comm": false,
+      "reduce_scatter": true,
+      "reduce_bucket_size": 200000000.0,
+      "contiguous_gradients": true
+    },
+    "gradient_accumulation_steps": "auto",
+    "gradient_clipping": "auto",
+    "steps_per_print": 2000,
+    "train_batch_size": "auto",
+    "train_micro_batch_size_per_gpu": "auto",
+    "wall_clock_breakdown": false
+  },
+  "debug": null,
+  "skip_memory_metrics": true,
+  "do_train": false,
+  "do_eval": false,
+  "do_predict": false,
+  "resume_from_checkpoint": null,
+  "warmup_ratio": 0.03,
+  "logging_dir": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/runs",
+  "local_rank": 0,
+  "sortish_sampler": false,
+  "predict_with_generate": false,
+  "generation_max_length": null,
+  "generation_num_beams": null,
+  "generation_config": null,
+  "tuner_backend": "peft",
+  "vit_gradient_checkpointing": null,
+  "router_aux_loss_coef": 0.0,
+  "enable_dft_loss": false,
+  "enable_channel_loss": false,
+  "safe_serialization": true,
+  "max_shard_size": "5GB",
+  "check_model": true,
+  "acc_strategy": "token",
+  "train_dataloader_shuffle": true,
+  "group_by_length": false,
+  "max_epochs": null,
+  "aligner_lr": null,
+  "vit_lr": null,
+  "use_logits_to_keep": null,
+  "ds3_gather_for_generation": true,
+  "resume_only_model": false,
+  "optimizer": null,
+  "loss_type": null,
+  "eval_metric": null,
+  "callbacks": [],
+  "early_stop_interval": null,
+  "eval_use_evalscope": false,
+  "eval_dataset": [],
+  "eval_dataset_args": null,
+  "eval_limit": null,
+  "eval_generation_config": null,
+  "extra_eval_args": null,
+  "tuner_type": "full",
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "use_flash_ckpt": false,
+  "use_ray": false,
+  "ray_exp_name": null,
+  "device_groups": null,
+  "model": "Qwen/Qwen3-1.7B",
+  "model_type": "llava_siglip2_qwen3",
+  "model_revision": null,
+  "task_type": "causal_lm",
+  "torch_dtype": "bfloat16",
+  "attn_impl": "flash_attn",
+  "experts_impl": null,
+  "new_special_tokens": [],
+  "num_labels": null,
+  "problem_type": null,
+  "rope_scaling": null,
+  "device_map": null,
+  "max_memory": {},
+  "max_model_len": null,
+  "local_repo_path": null,
+  "init_strategy": null,
+  "template": "llava_siglip2_qwen3",
+  "system": null,
+  "max_length": 4096,
+  "truncation_strategy": "delete",
+  "max_pixels": null,
+  "agent_template": null,
+  "norm_bbox": null,
+  "use_chat_template": true,
+  "padding_side": "right",
+  "padding_free": false,
+  "loss_scale": "default",
+  "sequence_parallel_size": 1,
+  "template_backend": "swift",
+  "response_prefix": null,
+  "enable_thinking": null,
+  "add_non_thinking_prefix": true,
+  "dataset": [
+    "vmllm_s1_558k"
+  ],
+  "val_dataset": [],
+  "cached_dataset": [],
+  "cached_val_dataset": [],
+  "split_dataset_ratio": 0.0,
+  "dataset_num_proc": 16,
+  "load_from_cache_file": false,
+  "dataset_shuffle": true,
+  "val_dataset_shuffle": false,
+  "streaming": false,
+  "interleave_prob": null,
+  "stopping_strategy": "first_exhausted",
+  "shuffle_buffer_size": 1000,
+  "download_mode": "reuse_dataset_if_exists",
+  "columns": {},
+  "strict": false,
+  "model_name": null,
+  "model_author": null,
+  "custom_dataset_info": [],
+  "quant_method": null,
+  "quant_bits": null,
+  "hqq_axis": null,
+  "bnb_4bit_compute_dtype": "bfloat16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "max_new_tokens": 64,
+  "temperature": 0.0,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "stream": false,
+  "stop_words": [],
+  "logprobs": false,
+  "top_logprobs": null,
+  "structured_outputs_regex": null,
+  "train_type": null,
+  "adapters": [],
+  "external_plugins": [
+    "video_mllm/model_plugin.py",
+    "video_mllm/dataset_plugin.py"
+  ],
+  "custom_register_path": [],
+  "model_kwargs": {},
+  "load_args": false,
+  "load_data_args": false,
+  "packing": false,
+  "packing_length": null,
+  "packing_num_proc": 1,
+  "lazy_tokenize": true,
+  "use_hf": true,
+  "ignore_args_error": false,
+  "use_swift_lora": false,
+  "freeze_parameters": [
+    "model.language_model",
+    "lm_head",
+    "model.vision_tower"
+  ],
+  "freeze_parameters_regex": null,
+  "freeze_parameters_ratio": 0.0,
+  "trainable_parameters": [
+    "model.multi_modal_projector"
+  ],
+  "trainable_parameters_regex": null,
+  "freeze_llm": true,
+  "freeze_vit": true,
+  "freeze_aligner": false,
+  "target_modules": [
+    "all-linear"
+  ],
+  "target_regex": null,
+  "target_parameters": null,
+  "modules_to_save": [],
+  "lora_rank": 8,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "lora_bias": "none",
+  "lora_dtype": null,
+  "lorap_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "lora_ga_batch_size": 2,
+  "lora_ga_iters": 2,
+  "lora_ga_max_length": 1024,
+  "lora_ga_direction": "ArB2r",
+  "lora_ga_scale": "stable",
+  "lora_ga_stable_gamma": 16,
+  "init_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "swanlab_token": null,
+  "swanlab_project": "ms-swift",
+  "swanlab_workspace": null,
+  "swanlab_exp_name": null,
+  "swanlab_notification_method": null,
+  "swanlab_webhook_url": null,
+  "swanlab_secret": null,
+  "swanlab_sender_email": null,
+  "swanlab_receiver_email": null,
+  "swanlab_smtp_server": null,
+  "swanlab_smtp_port": null,
+  "swanlab_email_language": "zh",
+  "swanlab_mode": "cloud",
+  "add_version": true,
+  "create_checkpoint_symlink": false,
+  "zero_hpz_partition_size": null,
+  "deepspeed_autotp_size": null,
+  "swift_version": "4.1.0.dev0",
+  "ckpt_dir": null,
+  "rank": 0,
+  "global_world_size": 8,
+  "local_world_size": 8,
+  "model_suffix": "Qwen3-1.7B",
+  "model_info": "ModelInfo(model_type='llava_siglip2_qwen3', model_dir='/home/tiger/.cache/huggingface/hub/models--Qwen--Qwen3-1.7B/snapshots/70d244cc86ccca08cf5af4e1e306ecf908b1ad5e', torch_dtype=torch.bfloat16, max_model_len=40960, quant_method=None, quant_bits=None, rope_scaling={'rope_theta': 1000000, 'rope_type': 'default'}, is_moe_model=False, is_multimodal=True, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='llava_siglip2_qwen3', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen3-0.6B', hf_model_id='Qwen/Qwen3-0.6B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-1.7B', hf_model_id='Qwen/Qwen3-1.7B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-4B', hf_model_id='Qwen/Qwen3-4B', model_path=None, ms_revision=None, hf_revision=None)], template=None, ignore_patterns=None, requires=None, tags=[])], loader=<class 'model_plugin.SigLIP2Qwen3Loader'>, template='llava_siglip2_qwen3', model_arch=MultiModelKeys(arch_name='llava_hf', embedding=None, module_list=None, lm_head=None, q_proj=None, k_proj=None, v_proj=None, o_proj=None, attention=None, mlp=None, down_proj=None, qkv_proj=None, qk_proj=None, qa_proj=None, qb_proj=None, kv_proj=None, kva_proj=None, kvb_proj=None, language_model=['model.language_model', 'lm_head'], aligner=['model.multi_modal_projector'], vision_tower=['model.vision_tower'], generator=[]), architectures=['LlavaOnevisionForConditionalGeneration'], additional_saved_files=[], torch_dtype=None, is_multimodal=True, is_reward=False, task_type=None, ignore_patterns=None, requires=[], tags=['vision', 'video'])",
+  "model_dir": "/home/tiger/.cache/huggingface/hub/models--Qwen--Qwen3-1.7B/snapshots/70d244cc86ccca08cf5af4e1e306ecf908b1ad5e",
+  "template_meta": "QwenTemplateMeta(template_type='llava_siglip2_qwen3', prefix=[], prompt=['<|im_start|>user\\n{{QUERY}}<|im_end|>\\n<|im_start|>assistant\\n'], chat_sep=['<|im_end|>\\n'], suffix=['<|im_end|>\\n'], template_cls=<class 'model_plugin.SigLIP2LlavaTemplate'>, system_prefix=['<|im_start|>system\\n{{SYSTEM}}<|im_end|>\\n'], default_system=None, auto_add_bos=False, stop_words=['<|endoftext|>'], agent_template='hermes', is_thinking=False, thinking_prefix='', non_thinking_prefix='', history_thinking_prefix='')",
+  "_val_dataset_exists": false,
+  "hub": "<class 'swift.hub.hub.HFHub'>",
+  "evaluation_strategy": "steps",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153', per_device_train_batch_size=8, num_train_epochs=1.0, max_steps=-1, learning_rate=0.001, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs=None, warmup_steps=0.03, optim=<OptimizerNames.ADAMW_TORCH_FUSED: 'adamw_torch_fused'>, optim_args=None, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, optim_target_modules=None, gradient_accumulation_steps=4, average_tokens_across_devices=None, max_grad_norm=1.0, label_smoothing_factor=0.0, bf16=True, fp16=False, bf16_full_eval=False, fp16_full_eval=False, tf32=None, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, use_liger_kernel=False, liger_kernel_config=None, use_cache=False, neftune_noise_alpha=None, torch_empty_cache_steps=None, auto_find_batch_size=False, logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_steps=1, logging_first_step=True, log_on_each_node=True, logging_nan_inf_filter=True, include_num_input_tokens_seen=None, log_level='passive', log_level_replica='warning', disable_tqdm=False, report_to=[], run_name='/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153', project='huggingface', trackio_space_id='trackio', eval_strategy=<IntervalStrategy.NO: 'no'>, eval_steps=500.0, eval_delay=0, per_device_eval_batch_size=1, prediction_loss_only=False, eval_on_start=False, eval_do_concat_batches=True, eval_use_gather_object=False, eval_accumulation_steps=None, include_for_metrics=[], batch_eval_metrics=False, save_only_model=False, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=500, save_on_each_node=False, save_total_limit=2, enable_jit_checkpoint=False, push_to_hub=False, hub_token=None, hub_private_repo=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_always_push=False, hub_revision=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, restore_callback_states_from_checkpoint=False, full_determinism=False, seed=42, data_seed=42, use_cpu=False, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), parallelism_config=None, dataloader_drop_last=False, dataloader_num_workers=1, dataloader_pin_memory=True, dataloader_persistent_workers=False, dataloader_prefetch_factor=2, remove_unused_columns=False, label_names=None, train_sampling_strategy='random', length_column_name='length', ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, ddp_backend=None, ddp_timeout=7200, fsdp=[], fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 2, 'offload_optimizer': {'device': 'none', 'pin_memory': True}, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': False, 'reduce_scatter': True, 'reduce_bucket_size': 200000000.0, 'contiguous_gradients': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, debug=[], skip_memory_metrics=True, do_train=False, do_eval=False, do_predict=False, resume_from_checkpoint=None, warmup_ratio=0.03, logging_dir='/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/runs', local_rank=0, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, tuner_backend='peft', vit_gradient_checkpointing=True, router_aux_loss_coef=0.0, enable_dft_loss=False, enable_channel_loss=False, safe_serialization=True, max_shard_size='5GB', check_model=True, acc_strategy='token', train_dataloader_shuffle=True, group_by_length=False, max_epochs=None, aligner_lr=None, vit_lr=None, use_logits_to_keep=None, ds3_gather_for_generation=True, resume_only_model=False, optimizer=None, loss_type=None, eval_metric=None, callbacks=[], early_stop_interval=None, eval_use_evalscope=False, eval_dataset=[], eval_dataset_args=None, eval_limit=None, eval_generation_config=None, extra_eval_args=None, tuner_type='full', use_galore=False, galore_target_modules=None, galore_rank=128, galore_update_proj_gap=50, galore_scale=1.0, galore_proj_type='std', galore_optim_per_parameter=False, galore_with_embedding=False, galore_quantization=False, galore_proj_quant=False, galore_proj_bits=4, galore_proj_group_size=256, galore_cos_threshold=0.4, galore_gamma_proj=2, galore_queue_size=5, lisa_activated_layers=0, lisa_step_interval=20, use_flash_ckpt=False)"
+}
\ No newline at end of file
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/args.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/args.json
new file mode 100644
index 0000000000000000000000000000000000000000..7ad716daa308581ab36f680aa193aa1bf3ff023b
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/args.json
@@ -0,0 +1,382 @@
+{
+  "output_dir": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153",
+  "per_device_train_batch_size": 8,
+  "num_train_epochs": 1.0,
+  "max_steps": -1,
+  "learning_rate": 0.001,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": null,
+  "warmup_steps": 0,
+  "optim": "adamw_torch_fused",
+  "optim_args": null,
+  "weight_decay": 0.1,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "optim_target_modules": null,
+  "gradient_accumulation_steps": 4,
+  "average_tokens_across_devices": true,
+  "max_grad_norm": 1.0,
+  "label_smoothing_factor": 0.0,
+  "bf16": true,
+  "fp16": false,
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": null,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null,
+  "use_liger_kernel": false,
+  "liger_kernel_config": null,
+  "use_cache": false,
+  "neftune_noise_alpha": null,
+  "torch_empty_cache_steps": null,
+  "auto_find_batch_size": false,
+  "logging_strategy": "steps",
+  "logging_steps": 1,
+  "logging_first_step": true,
+  "log_on_each_node": true,
+  "logging_nan_inf_filter": true,
+  "include_num_input_tokens_seen": false,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "disable_tqdm": null,
+  "report_to": [
+    "none"
+  ],
+  "run_name": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153",
+  "project": "huggingface",
+  "trackio_space_id": "trackio",
+  "eval_strategy": "no",
+  "eval_steps": 500.0,
+  "eval_delay": 0,
+  "per_device_eval_batch_size": 1,
+  "prediction_loss_only": false,
+  "eval_on_start": false,
+  "eval_do_concat_batches": true,
+  "eval_use_gather_object": false,
+  "eval_accumulation_steps": null,
+  "include_for_metrics": [],
+  "batch_eval_metrics": false,
+  "save_only_model": false,
+  "save_strategy": "steps",
+  "save_steps": 500.0,
+  "save_on_each_node": false,
+  "save_total_limit": 2,
+  "enable_jit_checkpoint": false,
+  "push_to_hub": false,
+  "hub_token": null,
+  "hub_private_repo": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_always_push": false,
+  "hub_revision": null,
+  "load_best_model_at_end": false,
+  "metric_for_best_model": "loss",
+  "greater_is_better": false,
+  "ignore_data_skip": false,
+  "restore_callback_states_from_checkpoint": false,
+  "full_determinism": false,
+  "seed": 42,
+  "data_seed": 42,
+  "use_cpu": false,
+  "accelerator_config": {
+    "dispatch_batches": false
+  },
+  "parallelism_config": null,
+  "dataloader_drop_last": false,
+  "dataloader_num_workers": null,
+  "dataloader_pin_memory": true,
+  "dataloader_persistent_workers": false,
+  "dataloader_prefetch_factor": null,
+  "remove_unused_columns": true,
+  "label_names": null,
+  "train_sampling_strategy": "random",
+  "length_column_name": "length",
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "ddp_broadcast_buffers": null,
+  "ddp_backend": null,
+  "ddp_timeout": 7200,
+  "fsdp": [],
+  "fsdp_config": null,
+  "deepspeed": {
+    "fp16": {
+      "enabled": "auto",
+      "loss_scale": 0,
+      "loss_scale_window": 1000,
+      "initial_scale_power": 16,
+      "hysteresis": 2,
+      "min_loss_scale": 1
+    },
+    "bf16": {
+      "enabled": "auto"
+    },
+    "zero_optimization": {
+      "stage": 2,
+      "offload_optimizer": {
+        "device": "none",
+        "pin_memory": true
+      },
+      "allgather_partitions": true,
+      "allgather_bucket_size": 200000000.0,
+      "overlap_comm": false,
+      "reduce_scatter": true,
+      "reduce_bucket_size": 200000000.0,
+      "contiguous_gradients": true
+    },
+    "gradient_accumulation_steps": "auto",
+    "gradient_clipping": "auto",
+    "steps_per_print": 2000,
+    "train_batch_size": "auto",
+    "train_micro_batch_size_per_gpu": "auto",
+    "wall_clock_breakdown": false
+  },
+  "debug": null,
+  "skip_memory_metrics": true,
+  "do_train": false,
+  "do_eval": false,
+  "do_predict": false,
+  "resume_from_checkpoint": null,
+  "warmup_ratio": 0.03,
+  "logging_dir": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/runs",
+  "local_rank": 0,
+  "sortish_sampler": false,
+  "predict_with_generate": false,
+  "generation_max_length": null,
+  "generation_num_beams": null,
+  "generation_config": null,
+  "tuner_backend": "peft",
+  "vit_gradient_checkpointing": null,
+  "router_aux_loss_coef": 0.0,
+  "enable_dft_loss": false,
+  "enable_channel_loss": false,
+  "safe_serialization": true,
+  "max_shard_size": "5GB",
+  "check_model": true,
+  "acc_strategy": "token",
+  "train_dataloader_shuffle": true,
+  "group_by_length": false,
+  "max_epochs": null,
+  "aligner_lr": null,
+  "vit_lr": null,
+  "use_logits_to_keep": null,
+  "ds3_gather_for_generation": true,
+  "resume_only_model": false,
+  "optimizer": null,
+  "loss_type": null,
+  "eval_metric": null,
+  "callbacks": [],
+  "early_stop_interval": null,
+  "eval_use_evalscope": false,
+  "eval_dataset": [],
+  "eval_dataset_args": null,
+  "eval_limit": null,
+  "eval_generation_config": null,
+  "extra_eval_args": null,
+  "tuner_type": "full",
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "use_flash_ckpt": false,
+  "use_ray": false,
+  "ray_exp_name": null,
+  "device_groups": null,
+  "model": "Qwen/Qwen3-1.7B",
+  "model_type": "llava_siglip2_qwen3",
+  "model_revision": null,
+  "task_type": "causal_lm",
+  "torch_dtype": "bfloat16",
+  "attn_impl": "flash_attn",
+  "experts_impl": null,
+  "new_special_tokens": [],
+  "num_labels": null,
+  "problem_type": null,
+  "rope_scaling": null,
+  "device_map": null,
+  "max_memory": {},
+  "max_model_len": null,
+  "local_repo_path": null,
+  "init_strategy": null,
+  "template": "llava_siglip2_qwen3",
+  "system": null,
+  "max_length": 4096,
+  "truncation_strategy": "delete",
+  "max_pixels": null,
+  "agent_template": null,
+  "norm_bbox": null,
+  "use_chat_template": true,
+  "padding_side": "right",
+  "padding_free": false,
+  "loss_scale": "default",
+  "sequence_parallel_size": 1,
+  "template_backend": "swift",
+  "response_prefix": null,
+  "enable_thinking": null,
+  "add_non_thinking_prefix": true,
+  "dataset": [
+    "vmllm_s1_558k"
+  ],
+  "val_dataset": [],
+  "cached_dataset": [],
+  "cached_val_dataset": [],
+  "split_dataset_ratio": 0.0,
+  "dataset_num_proc": 16,
+  "load_from_cache_file": false,
+  "dataset_shuffle": true,
+  "val_dataset_shuffle": false,
+  "streaming": false,
+  "interleave_prob": null,
+  "stopping_strategy": "first_exhausted",
+  "shuffle_buffer_size": 1000,
+  "download_mode": "reuse_dataset_if_exists",
+  "columns": {},
+  "strict": false,
+  "model_name": null,
+  "model_author": null,
+  "custom_dataset_info": [],
+  "quant_method": null,
+  "quant_bits": null,
+  "hqq_axis": null,
+  "bnb_4bit_compute_dtype": "bfloat16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "max_new_tokens": 64,
+  "temperature": 0.0,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "stream": false,
+  "stop_words": [],
+  "logprobs": false,
+  "top_logprobs": null,
+  "structured_outputs_regex": null,
+  "train_type": null,
+  "adapters": [],
+  "external_plugins": [
+    "video_mllm/model_plugin.py",
+    "video_mllm/dataset_plugin.py"
+  ],
+  "custom_register_path": [],
+  "model_kwargs": {},
+  "load_args": false,
+  "load_data_args": false,
+  "packing": false,
+  "packing_length": null,
+  "packing_num_proc": 1,
+  "lazy_tokenize": true,
+  "use_hf": true,
+  "ignore_args_error": false,
+  "use_swift_lora": false,
+  "freeze_parameters": [
+    "model.language_model",
+    "lm_head",
+    "model.vision_tower"
+  ],
+  "freeze_parameters_regex": null,
+  "freeze_parameters_ratio": 0.0,
+  "trainable_parameters": [
+    "model.multi_modal_projector"
+  ],
+  "trainable_parameters_regex": null,
+  "freeze_llm": true,
+  "freeze_vit": true,
+  "freeze_aligner": false,
+  "target_modules": [
+    "all-linear"
+  ],
+  "target_regex": null,
+  "target_parameters": null,
+  "modules_to_save": [],
+  "lora_rank": 8,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "lora_bias": "none",
+  "lora_dtype": null,
+  "lorap_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "lora_ga_batch_size": 2,
+  "lora_ga_iters": 2,
+  "lora_ga_max_length": 1024,
+  "lora_ga_direction": "ArB2r",
+  "lora_ga_scale": "stable",
+  "lora_ga_stable_gamma": 16,
+  "init_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "swanlab_token": null,
+  "swanlab_project": "ms-swift",
+  "swanlab_workspace": null,
+  "swanlab_exp_name": null,
+  "swanlab_notification_method": null,
+  "swanlab_webhook_url": null,
+  "swanlab_secret": null,
+  "swanlab_sender_email": null,
+  "swanlab_receiver_email": null,
+  "swanlab_smtp_server": null,
+  "swanlab_smtp_port": null,
+  "swanlab_email_language": "zh",
+  "swanlab_mode": "cloud",
+  "add_version": true,
+  "create_checkpoint_symlink": false,
+  "zero_hpz_partition_size": null,
+  "deepspeed_autotp_size": null,
+  "swift_version": "4.1.0.dev0",
+  "ckpt_dir": null,
+  "rank": 0,
+  "global_world_size": 8,
+  "local_world_size": 8,
+  "model_suffix": "Qwen3-1.7B",
+  "model_info": "ModelInfo(model_type='llava_siglip2_qwen3', model_dir='/home/tiger/.cache/huggingface/hub/models--Qwen--Qwen3-1.7B/snapshots/70d244cc86ccca08cf5af4e1e306ecf908b1ad5e', torch_dtype=torch.bfloat16, max_model_len=40960, quant_method=None, quant_bits=None, rope_scaling={'rope_theta': 1000000, 'rope_type': 'default'}, is_moe_model=False, is_multimodal=True, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='llava_siglip2_qwen3', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen3-0.6B', hf_model_id='Qwen/Qwen3-0.6B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-1.7B', hf_model_id='Qwen/Qwen3-1.7B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-4B', hf_model_id='Qwen/Qwen3-4B', model_path=None, ms_revision=None, hf_revision=None)], template=None, ignore_patterns=None, requires=None, tags=[])], loader=<class 'model_plugin.SigLIP2Qwen3Loader'>, template='llava_siglip2_qwen3', model_arch=MultiModelKeys(arch_name='llava_hf', embedding=None, module_list=None, lm_head=None, q_proj=None, k_proj=None, v_proj=None, o_proj=None, attention=None, mlp=None, down_proj=None, qkv_proj=None, qk_proj=None, qa_proj=None, qb_proj=None, kv_proj=None, kva_proj=None, kvb_proj=None, language_model=['model.language_model', 'lm_head'], aligner=['model.multi_modal_projector'], vision_tower=['model.vision_tower'], generator=[]), architectures=['LlavaOnevisionForConditionalGeneration'], additional_saved_files=[], torch_dtype=None, is_multimodal=True, is_reward=False, task_type=None, ignore_patterns=None, requires=[], tags=['vision', 'video'])",
+  "model_dir": "/home/tiger/.cache/huggingface/hub/models--Qwen--Qwen3-1.7B/snapshots/70d244cc86ccca08cf5af4e1e306ecf908b1ad5e",
+  "template_meta": "QwenTemplateMeta(template_type='llava_siglip2_qwen3', prefix=[], prompt=['<|im_start|>user\\n{{QUERY}}<|im_end|>\\n<|im_start|>assistant\\n'], chat_sep=['<|im_end|>\\n'], suffix=['<|im_end|>\\n'], template_cls=<class 'model_plugin.SigLIP2LlavaTemplate'>, system_prefix=['<|im_start|>system\\n{{SYSTEM}}<|im_end|>\\n'], default_system=None, auto_add_bos=False, stop_words=['<|endoftext|>'], agent_template='hermes', is_thinking=False, thinking_prefix='', non_thinking_prefix='', history_thinking_prefix='')",
+  "_val_dataset_exists": false,
+  "hub": "<class 'swift.hub.hub.HFHub'>",
+  "evaluation_strategy": "steps",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153', per_device_train_batch_size=8, num_train_epochs=1.0, max_steps=-1, learning_rate=0.001, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs=None, warmup_steps=0.03, optim=<OptimizerNames.ADAMW_TORCH_FUSED: 'adamw_torch_fused'>, optim_args=None, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, optim_target_modules=None, gradient_accumulation_steps=4, average_tokens_across_devices=None, max_grad_norm=1.0, label_smoothing_factor=0.0, bf16=True, fp16=False, bf16_full_eval=False, fp16_full_eval=False, tf32=None, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, use_liger_kernel=False, liger_kernel_config=None, use_cache=False, neftune_noise_alpha=None, torch_empty_cache_steps=None, auto_find_batch_size=False, logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_steps=1, logging_first_step=True, log_on_each_node=True, logging_nan_inf_filter=True, include_num_input_tokens_seen=None, log_level='passive', log_level_replica='warning', disable_tqdm=False, report_to=[], run_name='/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153', project='huggingface', trackio_space_id='trackio', eval_strategy=<IntervalStrategy.NO: 'no'>, eval_steps=500.0, eval_delay=0, per_device_eval_batch_size=1, prediction_loss_only=False, eval_on_start=False, eval_do_concat_batches=True, eval_use_gather_object=False, eval_accumulation_steps=None, include_for_metrics=[], batch_eval_metrics=False, save_only_model=False, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=500, save_on_each_node=False, save_total_limit=2, enable_jit_checkpoint=False, push_to_hub=False, hub_token=None, hub_private_repo=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_always_push=False, hub_revision=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, restore_callback_states_from_checkpoint=False, full_determinism=False, seed=42, data_seed=42, use_cpu=False, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), parallelism_config=None, dataloader_drop_last=False, dataloader_num_workers=1, dataloader_pin_memory=True, dataloader_persistent_workers=False, dataloader_prefetch_factor=2, remove_unused_columns=False, label_names=None, train_sampling_strategy='random', length_column_name='length', ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, ddp_backend=None, ddp_timeout=7200, fsdp=[], fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 2, 'offload_optimizer': {'device': 'none', 'pin_memory': True}, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': False, 'reduce_scatter': True, 'reduce_bucket_size': 200000000.0, 'contiguous_gradients': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, debug=[], skip_memory_metrics=True, do_train=False, do_eval=False, do_predict=False, resume_from_checkpoint=None, warmup_ratio=0.03, logging_dir='/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/runs', local_rank=0, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, tuner_backend='peft', vit_gradient_checkpointing=True, router_aux_loss_coef=0.0, enable_dft_loss=False, enable_channel_loss=False, safe_serialization=True, max_shard_size='5GB', check_model=True, acc_strategy='token', train_dataloader_shuffle=True, group_by_length=False, max_epochs=None, aligner_lr=None, vit_lr=None, use_logits_to_keep=None, ds3_gather_for_generation=True, resume_only_model=False, optimizer=None, loss_type=None, eval_metric=None, callbacks=[], early_stop_interval=None, eval_use_evalscope=False, eval_dataset=[], eval_dataset_args=None, eval_limit=None, eval_generation_config=None, extra_eval_args=None, tuner_type='full', use_galore=False, galore_target_modules=None, galore_rank=128, galore_update_proj_gap=50, galore_scale=1.0, galore_proj_type='std', galore_optim_per_parameter=False, galore_with_embedding=False, galore_quantization=False, galore_proj_quant=False, galore_proj_bits=4, galore_proj_group_size=256, galore_cos_threshold=0.4, galore_gamma_proj=2, galore_queue_size=5, lisa_activated_layers=0, lisa_step_interval=20, use_flash_ckpt=False)"
+}
\ No newline at end of file
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/chat_template.jinja b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/chat_template.jinja
new file mode 100644
index 0000000000000000000000000000000000000000..01be9b307daa2d425f7c168c9fb145a286e0afb4
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/chat_template.jinja
@@ -0,0 +1,89 @@
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}
\ No newline at end of file
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/config.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..91fec50984b1ce69db1f04f83bf57934419cc5ac
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/config.json
@@ -0,0 +1,248 @@
+{
+  "architectures": [
+    "LlavaOnevisionForConditionalGeneration"
+  ],
+  "bos_token_id": null,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "hidden_size": 2048,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_token_index": 151669,
+  "keys_to_ignore_at_inference": [
+    "past_key_values"
+  ],
+  "model_type": "llava_onevision",
+  "multimodal_projector_bias": true,
+  "pad_token_id": 151643,
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "/home/tiger/.cache/huggingface/hub/models--Qwen--Qwen3-1.7B/snapshots/70d244cc86ccca08cf5af4e1e306ecf908b1ad5e",
+    "architectures": [
+      "Qwen3ForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "dtype": "bfloat16",
+    "eos_token_id": 151645,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "initializer_range": 0.02,
+    "intermediate_size": 6144,
+    "layer_types": [
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 40960,
+    "max_window_layers": 28,
+    "model_type": "qwen3",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 28,
+    "num_key_value_heads": 8,
+    "pad_token_id": 151643,
+    "rms_norm_eps": 1e-06,
+    "rope_parameters": {
+      "rope_theta": 1000000,
+      "rope_type": "default"
+    },
+    "sliding_window": null,
+    "tie_word_embeddings": true,
+    "use_cache": false,
+    "use_sliding_window": false,
+    "vocab_size": 151936
+  },
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "use_cache": false,
+  "video_token_index": 151670,
+  "vision_aspect_ratio": "anyres_max_9",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 384,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 26,
+    "patch_size": 14,
+    "vision_use_head": false
+  },
+  "vision_feature_layer": -1,
+  "vision_feature_select_strategy": "full"
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/generation_config.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/generation_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..caf77791d2c04f34887781e78a159cf8968d3fe6
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/generation_config.json
@@ -0,0 +1,12 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 151643,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "output_attentions": false,
+  "output_hidden_states": false,
+  "transformers_version": "5.2.0",
+  "use_cache": true
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..10a2600ebb13b9afb54bbd85591363db79bde637
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4c6d2bdbea71e8c9c11ec4b99346f556636c59fa028d30c2e12413d57cf4622c
+size 9845509
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..8733bea6a2e58b0b1af9132c8c69b927056ae655
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:967b9ec28459481e1260b00b138c7a665e6edb3c22fee2fd239fb097e2e5f409
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ca6206ff72db149721ac9e15ab7620873aa28e78
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:994bcd1280aa4617e138b7f92a580b3d81500cda37bac33248b33113ccfb6e63
+size 9845509
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0b29cd96c87a6b0372014518e2622be6c9fccd8e
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b61f8a871858c894b5773e30c4dd377b47fb68c78f30f35b403aea1d9671b879
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a2017fed4dc70f75633a0fa21498eb81a86896a3
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d98a78b121826349f0ae8ddcd6bab48e93c8e89e49f00b7545f0232b401b03ef
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..fff08083da5eab84dc18a32acd5c408a78d9eefb
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:fd1303b585432088ea30a3a995bd779d9afcc35a19b8d653b85f2be8c95b521d
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..b544a612f910a14c5b2dca50d92585cb588594ae
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:86491e96f456fd57fb812f0061955ebae8e902195ed38f1091778d87a800b140
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..57b6d057155b0a18d2e9c99c0915508ff1238e7a
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1085705577a69a7300406af3e3ff8c1524b4dd1983bd5df3a55a27c3c9638dc6
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/mp_rank_00_model_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3fee8ab004a0ecdd5ff9742d44ac4a6da8a12cd9
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/global_step2000/mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:4f0ca2104081407546e098904bb716aca9c5e5aaf4f2127597148be37f68ab88
+size 8487035043
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/latest b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/latest
new file mode 100644
index 0000000000000000000000000000000000000000..2a79fdc19587e6bc9de060e90633f3a151b04516
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/latest
@@ -0,0 +1 @@
+global_step2000
\ No newline at end of file
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/model.safetensors b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/model.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..91b42ff15a2a9164ddb2e921b85fc1c5ad8337fd
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/model.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:bdc8251748664cce3a2fc5aa5daa11dbe3395a02ab3d1de2ad34069f58e4cb5d
+size 4872193968
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/processor_config.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/processor_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..01039364dd6b06f3ca0a6df00c5f16fcb79e564a
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/processor_config.json
@@ -0,0 +1,205 @@
+{
+  "image_processor": {
+    "do_convert_rgb": true,
+    "do_normalize": true,
+    "do_pad": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "image_grid_pinpoints": [
+      [
+        384,
+        384
+      ],
+      [
+        384,
+        768
+      ],
+      [
+        384,
+        1152
+      ],
+      [
+        384,
+        1536
+      ],
+      [
+        384,
+        1920
+      ],
+      [
+        384,
+        2304
+      ],
+      [
+        768,
+        384
+      ],
+      [
+        768,
+        768
+      ],
+      [
+        768,
+        1152
+      ],
+      [
+        768,
+        1536
+      ],
+      [
+        768,
+        1920
+      ],
+      [
+        768,
+        2304
+      ],
+      [
+        1152,
+        384
+      ],
+      [
+        1152,
+        768
+      ],
+      [
+        1152,
+        1152
+      ],
+      [
+        1152,
+        1536
+      ],
+      [
+        1152,
+        1920
+      ],
+      [
+        1152,
+        2304
+      ],
+      [
+        1536,
+        384
+      ],
+      [
+        1536,
+        768
+      ],
+      [
+        1536,
+        1152
+      ],
+      [
+        1536,
+        1536
+      ],
+      [
+        1536,
+        1920
+      ],
+      [
+        1536,
+        2304
+      ],
+      [
+        1920,
+        384
+      ],
+      [
+        1920,
+        768
+      ],
+      [
+        1920,
+        1152
+      ],
+      [
+        1920,
+        1536
+      ],
+      [
+        1920,
+        1920
+      ],
+      [
+        1920,
+        2304
+      ],
+      [
+        2304,
+        384
+      ],
+      [
+        2304,
+        768
+      ],
+      [
+        2304,
+        1152
+      ],
+      [
+        2304,
+        1536
+      ],
+      [
+        2304,
+        1920
+      ],
+      [
+        2304,
+        2304
+      ]
+    ],
+    "image_mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "image_processor_type": "LlavaOnevisionImageProcessor",
+    "image_std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "size": {
+      "height": 384,
+      "width": 384
+    }
+  },
+  "image_token": "<image>",
+  "num_image_tokens": 729,
+  "processor_class": "LlavaOnevisionProcessor",
+  "video_processor": {
+    "data_format": "channels_first",
+    "default_to_square": false,
+    "do_convert_rgb": true,
+    "do_normalize": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "do_sample_frames": false,
+    "image_mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "image_std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "return_metadata": false,
+    "size": {
+      "height": 384,
+      "width": 384
+    },
+    "video_processor_type": "LlavaOnevisionVideoProcessor"
+  },
+  "video_token": "<video>",
+  "vision_aspect_ratio": "anyres_max_9",
+  "vision_feature_select_strategy": null
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_0.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_0.pth
new file mode 100644
index 0000000000000000000000000000000000000000..4928248aedaa77b1631bf811e1c66a09736133c1
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_0.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:478b41e9f26d338fd8f896e08cad1adab7c423b61f1b45754113bc78d256a3f9
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_1.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_1.pth
new file mode 100644
index 0000000000000000000000000000000000000000..8a5bd77e81f942d5702f9fe86745d03c68a9cde3
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_1.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce29a8767a7d907dd24987aa2c3e654d4317f3042fbc13b5b72cadb46d43311a
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_2.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_2.pth
new file mode 100644
index 0000000000000000000000000000000000000000..e596aed814dc368e2868b17172e9e2f46fbf40f5
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_2.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61a48db011646b4e9a867bf12f4a233cad5dfbfe309686f8996c250196d3783a
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_3.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_3.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f81230ec72b5b67b65ed9a5a093a20ac849b75df
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_3.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9562ee822472a4f01dcd6349ab3d1ef42a48915fe3b92e843a0c37db53c8421
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_4.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_4.pth
new file mode 100644
index 0000000000000000000000000000000000000000..8c78fd8c12aebc63e034a4160ea3e69167e90f32
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_4.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7d2767d83c3bf27f12db022b0632e2c4f8c164274ba75e380cf18f9d5f21819
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_5.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_5.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5dcade47956003825c84ad00891d1d436c13a75d
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_5.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:76816358d4e5db8149d60d55234db658d67a13c0c1ce05d7404cf7125a676a5c
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_6.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_6.pth
new file mode 100644
index 0000000000000000000000000000000000000000..345ee260e6ed86dd84330556e9a4138bb832399f
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_6.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1562e7520c977d178183d641f70abcf3f57da2489938756cfbebf9b6e6c1a9fd
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_7.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_7.pth
new file mode 100644
index 0000000000000000000000000000000000000000..956e00add16d26c688ffcebcfa2d9f6c44fbb20b
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/rng_state_7.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a6b6cabaed045c5398cd1b732f7ec48bd363f3b43cd24e0e70e641a42bd00c28
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/scheduler.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..702396de19f4001db04292e1a842676695ade00d
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:796af1da6991832c415ebc81af7de0f8ef6ce9dc82387774ef2c9274ed6aa05c
+size 1465
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/tokenizer.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/tokenizer.json
new file mode 100644
index 0000000000000000000000000000000000000000..c40d89c9226d696c215d65a68eea68c6dd55d79e
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9024318c850eaadf26be79389d21b07a7afd8f1af749b89f9109b06c0d12173c
+size 11423018
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/tokenizer_config.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/tokenizer_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..167bb5a31833bd1251a4c68a223081a372a57c1c
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/tokenizer_config.json
@@ -0,0 +1,19 @@
+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": [
+    "<image>",
+    "<video>"
+  ],
+  "is_local": true,
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "processor_class": "LlavaOnevisionProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/trainer_state.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..309bfc0f4e1fda26fb225f0d1ba4874c84112ea7
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/trainer_state.json
@@ -0,0 +1,16034 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9173259947253756,
+  "eval_steps": 500.0,
+  "global_step": 2000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00045866299736268775,
+      "grad_norm": 163.7677001953125,
+      "learning_rate": 1.5151515151515153e-05,
+      "loss": 10.531155586242676,
+      "step": 1,
+      "token_acc": 0.09404563160823595
+    },
+    {
+      "epoch": 0.0009173259947253755,
+      "grad_norm": 138.49777221679688,
+      "learning_rate": 3.0303030303030306e-05,
+      "loss": 10.444791793823242,
+      "step": 2,
+      "token_acc": 0.09786628733997155
+    },
+    {
+      "epoch": 0.0013759889920880633,
+      "grad_norm": 118.87862396240234,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 10.013096809387207,
+      "step": 3,
+      "token_acc": 0.09296482412060302
+    },
+    {
+      "epoch": 0.001834651989450751,
+      "grad_norm": 72.25511169433594,
+      "learning_rate": 6.060606060606061e-05,
+      "loss": 9.020011901855469,
+      "step": 4,
+      "token_acc": 0.09770114942528736
+    },
+    {
+      "epoch": 0.002293314986813439,
+      "grad_norm": 83.02162170410156,
+      "learning_rate": 7.575757575757576e-05,
+      "loss": 9.098867416381836,
+      "step": 5,
+      "token_acc": 0.08465753424657534
+    },
+    {
+      "epoch": 0.0027519779841761265,
+      "grad_norm": 22.35651969909668,
+      "learning_rate": 9.090909090909092e-05,
+      "loss": 7.659309387207031,
+      "step": 6,
+      "token_acc": 0.07787325456498388
+    },
+    {
+      "epoch": 0.0032106409815388145,
+      "grad_norm": 33.81536102294922,
+      "learning_rate": 0.00010606060606060606,
+      "loss": 7.8151702880859375,
+      "step": 7,
+      "token_acc": 0.06806998359759431
+    },
+    {
+      "epoch": 0.003669303978901502,
+      "grad_norm": 31.71108627319336,
+      "learning_rate": 0.00012121212121212122,
+      "loss": 7.728543281555176,
+      "step": 8,
+      "token_acc": 0.07960741548527808
+    },
+    {
+      "epoch": 0.0041279669762641896,
+      "grad_norm": 32.627410888671875,
+      "learning_rate": 0.00013636363636363637,
+      "loss": 6.97025203704834,
+      "step": 9,
+      "token_acc": 0.11186632681959785
+    },
+    {
+      "epoch": 0.004586629973626878,
+      "grad_norm": 10.527961730957031,
+      "learning_rate": 0.00015151515151515152,
+      "loss": 6.030107498168945,
+      "step": 10,
+      "token_acc": 0.17089871611982882
+    },
+    {
+      "epoch": 0.0050452929709895655,
+      "grad_norm": 159.68701171875,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 7.386981010437012,
+      "step": 11,
+      "token_acc": 0.16736635880212705
+    },
+    {
+      "epoch": 0.005503955968352253,
+      "grad_norm": 131.26353454589844,
+      "learning_rate": 0.00018181818181818183,
+      "loss": 7.935171127319336,
+      "step": 12,
+      "token_acc": 0.15159128978224456
+    },
+    {
+      "epoch": 0.0059626189657149406,
+      "grad_norm": 73.0645980834961,
+      "learning_rate": 0.00019696969696969695,
+      "loss": 5.753294944763184,
+      "step": 13,
+      "token_acc": 0.19318801089918256
+    },
+    {
+      "epoch": 0.006421281963077629,
+      "grad_norm": 11.480243682861328,
+      "learning_rate": 0.00021212121212121213,
+      "loss": 5.651885032653809,
+      "step": 14,
+      "token_acc": 0.2021600664635835
+    },
+    {
+      "epoch": 0.0068799449604403165,
+      "grad_norm": 15.904385566711426,
+      "learning_rate": 0.00022727272727272727,
+      "loss": 5.547451019287109,
+      "step": 15,
+      "token_acc": 0.22640433418876532
+    },
+    {
+      "epoch": 0.007338607957803004,
+      "grad_norm": 7.918464183807373,
+      "learning_rate": 0.00024242424242424245,
+      "loss": 5.11993408203125,
+      "step": 16,
+      "token_acc": 0.24526748971193416
+    },
+    {
+      "epoch": 0.007797270955165692,
+      "grad_norm": 4.623650550842285,
+      "learning_rate": 0.00025757575757575756,
+      "loss": 5.043087959289551,
+      "step": 17,
+      "token_acc": 0.23001676914477362
+    },
+    {
+      "epoch": 0.008255933952528379,
+      "grad_norm": 3.6584064960479736,
+      "learning_rate": 0.00027272727272727274,
+      "loss": 4.81586217880249,
+      "step": 18,
+      "token_acc": 0.26924169270093723
+    },
+    {
+      "epoch": 0.008714596949891068,
+      "grad_norm": 2.083461284637451,
+      "learning_rate": 0.0002878787878787879,
+      "loss": 4.790818214416504,
+      "step": 19,
+      "token_acc": 0.2828341013824885
+    },
+    {
+      "epoch": 0.009173259947253756,
+      "grad_norm": 2.366408109664917,
+      "learning_rate": 0.00030303030303030303,
+      "loss": 4.616162300109863,
+      "step": 20,
+      "token_acc": 0.29432918395574
+    },
+    {
+      "epoch": 0.009631922944616443,
+      "grad_norm": 2.6877963542938232,
+      "learning_rate": 0.0003181818181818182,
+      "loss": 4.530404090881348,
+      "step": 21,
+      "token_acc": 0.29698311652366455
+    },
+    {
+      "epoch": 0.010090585941979131,
+      "grad_norm": 15.406994819641113,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 4.611711502075195,
+      "step": 22,
+      "token_acc": 0.29226040793517744
+    },
+    {
+      "epoch": 0.010549248939341819,
+      "grad_norm": 2.105778932571411,
+      "learning_rate": 0.0003484848484848485,
+      "loss": 4.455286979675293,
+      "step": 23,
+      "token_acc": 0.3085279739272135
+    },
+    {
+      "epoch": 0.011007911936704506,
+      "grad_norm": 2.7499122619628906,
+      "learning_rate": 0.00036363636363636367,
+      "loss": 4.490814208984375,
+      "step": 24,
+      "token_acc": 0.3004243281471004
+    },
+    {
+      "epoch": 0.011466574934067194,
+      "grad_norm": 2.1527163982391357,
+      "learning_rate": 0.0003787878787878788,
+      "loss": 4.323946952819824,
+      "step": 25,
+      "token_acc": 0.32578397212543553
+    },
+    {
+      "epoch": 0.011925237931429881,
+      "grad_norm": 1.4435594081878662,
+      "learning_rate": 0.0003939393939393939,
+      "loss": 4.340972900390625,
+      "step": 26,
+      "token_acc": 0.3189143341815098
+    },
+    {
+      "epoch": 0.01238390092879257,
+      "grad_norm": 1.0701165199279785,
+      "learning_rate": 0.00040909090909090913,
+      "loss": 4.310399055480957,
+      "step": 27,
+      "token_acc": 0.3084397556912826
+    },
+    {
+      "epoch": 0.012842563926155258,
+      "grad_norm": 1.6745245456695557,
+      "learning_rate": 0.00042424242424242425,
+      "loss": 4.251889228820801,
+      "step": 28,
+      "token_acc": 0.31632935957859715
+    },
+    {
+      "epoch": 0.013301226923517945,
+      "grad_norm": 1.5971771478652954,
+      "learning_rate": 0.0004393939393939394,
+      "loss": 4.2047119140625,
+      "step": 29,
+      "token_acc": 0.3360088569056186
+    },
+    {
+      "epoch": 0.013759889920880633,
+      "grad_norm": 1.3686933517456055,
+      "learning_rate": 0.00045454545454545455,
+      "loss": 4.262190818786621,
+      "step": 30,
+      "token_acc": 0.32445316881660125
+    },
+    {
+      "epoch": 0.01421855291824332,
+      "grad_norm": 1.1092084646224976,
+      "learning_rate": 0.0004696969696969697,
+      "loss": 4.314598083496094,
+      "step": 31,
+      "token_acc": 0.3196538246789503
+    },
+    {
+      "epoch": 0.014677215915606008,
+      "grad_norm": 1.348927617073059,
+      "learning_rate": 0.0004848484848484849,
+      "loss": 4.096429347991943,
+      "step": 32,
+      "token_acc": 0.33142693737489276
+    },
+    {
+      "epoch": 0.015135878912968696,
+      "grad_norm": 1.7629704475402832,
+      "learning_rate": 0.0005,
+      "loss": 4.313679218292236,
+      "step": 33,
+      "token_acc": 0.31673541543901
+    },
+    {
+      "epoch": 0.015594541910331383,
+      "grad_norm": 1.62588369846344,
+      "learning_rate": 0.0005151515151515151,
+      "loss": 4.066803455352783,
+      "step": 34,
+      "token_acc": 0.3375097885669538
+    },
+    {
+      "epoch": 0.01605320490769407,
+      "grad_norm": 1.3345831632614136,
+      "learning_rate": 0.0005303030303030302,
+      "loss": 4.222330570220947,
+      "step": 35,
+      "token_acc": 0.32342857142857145
+    },
+    {
+      "epoch": 0.016511867905056758,
+      "grad_norm": 1.2153950929641724,
+      "learning_rate": 0.0005454545454545455,
+      "loss": 4.147995471954346,
+      "step": 36,
+      "token_acc": 0.3326069190956143
+    },
+    {
+      "epoch": 0.016970530902419446,
+      "grad_norm": 1.0629780292510986,
+      "learning_rate": 0.0005606060606060606,
+      "loss": 4.121190547943115,
+      "step": 37,
+      "token_acc": 0.324190894130554
+    },
+    {
+      "epoch": 0.017429193899782137,
+      "grad_norm": 2.0344314575195312,
+      "learning_rate": 0.0005757575757575758,
+      "loss": 4.16463565826416,
+      "step": 38,
+      "token_acc": 0.33741109530583213
+    },
+    {
+      "epoch": 0.017887856897144824,
+      "grad_norm": 1.3344801664352417,
+      "learning_rate": 0.0005909090909090909,
+      "loss": 4.211524963378906,
+      "step": 39,
+      "token_acc": 0.3259653049804141
+    },
+    {
+      "epoch": 0.018346519894507512,
+      "grad_norm": 1.6878693103790283,
+      "learning_rate": 0.0006060606060606061,
+      "loss": 4.274176597595215,
+      "step": 40,
+      "token_acc": 0.3195301027900147
+    },
+    {
+      "epoch": 0.0188051828918702,
+      "grad_norm": 1.5034598112106323,
+      "learning_rate": 0.0006212121212121212,
+      "loss": 4.197498321533203,
+      "step": 41,
+      "token_acc": 0.3212986286034145
+    },
+    {
+      "epoch": 0.019263845889232887,
+      "grad_norm": 0.7870559692382812,
+      "learning_rate": 0.0006363636363636364,
+      "loss": 4.152724266052246,
+      "step": 42,
+      "token_acc": 0.33125354509359045
+    },
+    {
+      "epoch": 0.019722508886595574,
+      "grad_norm": 0.5971645712852478,
+      "learning_rate": 0.0006515151515151515,
+      "loss": 4.083730220794678,
+      "step": 43,
+      "token_acc": 0.3285831734721842
+    },
+    {
+      "epoch": 0.020181171883958262,
+      "grad_norm": 1.3385121822357178,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 4.142114639282227,
+      "step": 44,
+      "token_acc": 0.32073277115440535
+    },
+    {
+      "epoch": 0.02063983488132095,
+      "grad_norm": 1.3026437759399414,
+      "learning_rate": 0.0006818181818181818,
+      "loss": 3.941800355911255,
+      "step": 45,
+      "token_acc": 0.34519572953736655
+    },
+    {
+      "epoch": 0.021098497878683637,
+      "grad_norm": 0.8030999302864075,
+      "learning_rate": 0.000696969696969697,
+      "loss": 4.076504707336426,
+      "step": 46,
+      "token_acc": 0.33389168062534896
+    },
+    {
+      "epoch": 0.021557160876046325,
+      "grad_norm": 1.3694953918457031,
+      "learning_rate": 0.0007121212121212122,
+      "loss": 4.071778774261475,
+      "step": 47,
+      "token_acc": 0.34139236819108654
+    },
+    {
+      "epoch": 0.022015823873409012,
+      "grad_norm": 1.0741102695465088,
+      "learning_rate": 0.0007272727272727273,
+      "loss": 4.049587249755859,
+      "step": 48,
+      "token_acc": 0.33285135916714864
+    },
+    {
+      "epoch": 0.0224744868707717,
+      "grad_norm": 1.0750032663345337,
+      "learning_rate": 0.0007424242424242425,
+      "loss": 3.996241569519043,
+      "step": 49,
+      "token_acc": 0.3324324324324324
+    },
+    {
+      "epoch": 0.022933149868134387,
+      "grad_norm": 0.8069612383842468,
+      "learning_rate": 0.0007575757575757576,
+      "loss": 4.0738019943237305,
+      "step": 50,
+      "token_acc": 0.32842865074958355
+    },
+    {
+      "epoch": 0.023391812865497075,
+      "grad_norm": 1.1857705116271973,
+      "learning_rate": 0.0007727272727272727,
+      "loss": 4.0085368156433105,
+      "step": 51,
+      "token_acc": 0.32693935119887163
+    },
+    {
+      "epoch": 0.023850475862859762,
+      "grad_norm": 1.0924046039581299,
+      "learning_rate": 0.0007878787878787878,
+      "loss": 3.9709558486938477,
+      "step": 52,
+      "token_acc": 0.3371493989696623
+    },
+    {
+      "epoch": 0.024309138860222453,
+      "grad_norm": 1.1345634460449219,
+      "learning_rate": 0.000803030303030303,
+      "loss": 3.922060012817383,
+      "step": 53,
+      "token_acc": 0.3538548432646145
+    },
+    {
+      "epoch": 0.02476780185758514,
+      "grad_norm": 1.2311711311340332,
+      "learning_rate": 0.0008181818181818183,
+      "loss": 3.998971939086914,
+      "step": 54,
+      "token_acc": 0.3430858404637041
+    },
+    {
+      "epoch": 0.02522646485494783,
+      "grad_norm": 0.7573533058166504,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 3.780540943145752,
+      "step": 55,
+      "token_acc": 0.34600550964187327
+    },
+    {
+      "epoch": 0.025685127852310516,
+      "grad_norm": 1.1019490957260132,
+      "learning_rate": 0.0008484848484848485,
+      "loss": 3.829848289489746,
+      "step": 56,
+      "token_acc": 0.35271842034081685
+    },
+    {
+      "epoch": 0.026143790849673203,
+      "grad_norm": 0.874021053314209,
+      "learning_rate": 0.0008636363636363636,
+      "loss": 3.9116899967193604,
+      "step": 57,
+      "token_acc": 0.3317455869991594
+    },
+    {
+      "epoch": 0.02660245384703589,
+      "grad_norm": 0.8654890060424805,
+      "learning_rate": 0.0008787878787878789,
+      "loss": 3.8506102561950684,
+      "step": 58,
+      "token_acc": 0.3390250619664004
+    },
+    {
+      "epoch": 0.02706111684439858,
+      "grad_norm": 0.6743205189704895,
+      "learning_rate": 0.000893939393939394,
+      "loss": 3.887430429458618,
+      "step": 59,
+      "token_acc": 0.34332959641255606
+    },
+    {
+      "epoch": 0.027519779841761266,
+      "grad_norm": 1.163176417350769,
+      "learning_rate": 0.0009090909090909091,
+      "loss": 3.970090866088867,
+      "step": 60,
+      "token_acc": 0.3351873536299766
+    },
+    {
+      "epoch": 0.027978442839123954,
+      "grad_norm": 1.5899271965026855,
+      "learning_rate": 0.0009242424242424242,
+      "loss": 3.999755382537842,
+      "step": 61,
+      "token_acc": 0.3409781707654048
+    },
+    {
+      "epoch": 0.02843710583648664,
+      "grad_norm": 0.841131865978241,
+      "learning_rate": 0.0009393939393939394,
+      "loss": 3.8386313915252686,
+      "step": 62,
+      "token_acc": 0.32965790217698615
+    },
+    {
+      "epoch": 0.02889576883384933,
+      "grad_norm": 0.9264029264450073,
+      "learning_rate": 0.0009545454545454546,
+      "loss": 3.7994751930236816,
+      "step": 63,
+      "token_acc": 0.34335260115606936
+    },
+    {
+      "epoch": 0.029354431831212016,
+      "grad_norm": 0.9236679673194885,
+      "learning_rate": 0.0009696969696969698,
+      "loss": 3.8508853912353516,
+      "step": 64,
+      "token_acc": 0.3457782883400345
+    },
+    {
+      "epoch": 0.029813094828574704,
+      "grad_norm": 0.7168257236480713,
+      "learning_rate": 0.000984848484848485,
+      "loss": 3.8315601348876953,
+      "step": 65,
+      "token_acc": 0.34408602150537637
+    },
+    {
+      "epoch": 0.03027175782593739,
+      "grad_norm": 0.5858761668205261,
+      "learning_rate": 0.001,
+      "loss": 3.7281155586242676,
+      "step": 66,
+      "token_acc": 0.3554489741540101
+    },
+    {
+      "epoch": 0.03073042082330008,
+      "grad_norm": 0.8973336815834045,
+      "learning_rate": 0.0009999994484067654,
+      "loss": 3.769437313079834,
+      "step": 67,
+      "token_acc": 0.3438320209973753
+    },
+    {
+      "epoch": 0.031189083820662766,
+      "grad_norm": 1.1702033281326294,
+      "learning_rate": 0.0009999977936282788,
+      "loss": 3.788480758666992,
+      "step": 68,
+      "token_acc": 0.3548204693242861
+    },
+    {
+      "epoch": 0.03164774681802546,
+      "grad_norm": 1.5060110092163086,
+      "learning_rate": 0.0009999950356681913,
+      "loss": 3.8499698638916016,
+      "step": 69,
+      "token_acc": 0.3400888395335924
+    },
+    {
+      "epoch": 0.03210640981538814,
+      "grad_norm": 0.7400742173194885,
+      "learning_rate": 0.0009999911745325876,
+      "loss": 3.715205669403076,
+      "step": 70,
+      "token_acc": 0.34644777809227284
+    },
+    {
+      "epoch": 0.03256507281275083,
+      "grad_norm": 1.1993465423583984,
+      "learning_rate": 0.0009999862102299873,
+      "loss": 3.7040815353393555,
+      "step": 71,
+      "token_acc": 0.3574660633484163
+    },
+    {
+      "epoch": 0.033023735810113516,
+      "grad_norm": 1.124855875968933,
+      "learning_rate": 0.0009999801427713433,
+      "loss": 3.7833755016326904,
+      "step": 72,
+      "token_acc": 0.34718758658908283
+    },
+    {
+      "epoch": 0.03348239880747621,
+      "grad_norm": 0.7248406410217285,
+      "learning_rate": 0.0009999729721700424,
+      "loss": 3.6647000312805176,
+      "step": 73,
+      "token_acc": 0.35466591485762616
+    },
+    {
+      "epoch": 0.03394106180483889,
+      "grad_norm": 0.6494280099868774,
+      "learning_rate": 0.000999964698441906,
+      "loss": 3.5873360633850098,
+      "step": 74,
+      "token_acc": 0.36829066886870354
+    },
+    {
+      "epoch": 0.03439972480220158,
+      "grad_norm": 0.7083467245101929,
+      "learning_rate": 0.0009999553216051892,
+      "loss": 3.580655097961426,
+      "step": 75,
+      "token_acc": 0.3699140401146132
+    },
+    {
+      "epoch": 0.034858387799564274,
+      "grad_norm": 0.7751051783561707,
+      "learning_rate": 0.00099994484168058,
+      "loss": 3.662949800491333,
+      "step": 76,
+      "token_acc": 0.3564920273348519
+    },
+    {
+      "epoch": 0.03531705079692696,
+      "grad_norm": 0.7821984887123108,
+      "learning_rate": 0.0009999332586912019,
+      "loss": 3.6108086109161377,
+      "step": 77,
+      "token_acc": 0.3578976640711902
+    },
+    {
+      "epoch": 0.03577571379428965,
+      "grad_norm": 0.9251242876052856,
+      "learning_rate": 0.0009999205726626108,
+      "loss": 3.716444492340088,
+      "step": 78,
+      "token_acc": 0.36063258966393674
+    },
+    {
+      "epoch": 0.03623437679165233,
+      "grad_norm": 0.6459327936172485,
+      "learning_rate": 0.000999906783622797,
+      "loss": 3.589423179626465,
+      "step": 79,
+      "token_acc": 0.3649132470393831
+    },
+    {
+      "epoch": 0.036693039789015024,
+      "grad_norm": 0.6607033610343933,
+      "learning_rate": 0.0009998918916021842,
+      "loss": 3.5814950466156006,
+      "step": 80,
+      "token_acc": 0.37221603563474387
+    },
+    {
+      "epoch": 0.03715170278637771,
+      "grad_norm": 0.7172372937202454,
+      "learning_rate": 0.0009998758966336297,
+      "loss": 3.6781551837921143,
+      "step": 81,
+      "token_acc": 0.35435267857142855
+    },
+    {
+      "epoch": 0.0376103657837404,
+      "grad_norm": 0.6790605783462524,
+      "learning_rate": 0.0009998587987524242,
+      "loss": 3.511000156402588,
+      "step": 82,
+      "token_acc": 0.3669222343921139
+    },
+    {
+      "epoch": 0.03806902878110308,
+      "grad_norm": 0.6576029658317566,
+      "learning_rate": 0.0009998405979962926,
+      "loss": 3.5655863285064697,
+      "step": 83,
+      "token_acc": 0.3637668676428366
+    },
+    {
+      "epoch": 0.038527691778465774,
+      "grad_norm": 0.6579151749610901,
+      "learning_rate": 0.000999821294405392,
+      "loss": 3.6492481231689453,
+      "step": 84,
+      "token_acc": 0.3598233995584989
+    },
+    {
+      "epoch": 0.03898635477582846,
+      "grad_norm": 0.6451024413108826,
+      "learning_rate": 0.0009998008880223134,
+      "loss": 3.530937433242798,
+      "step": 85,
+      "token_acc": 0.36975028376844493
+    },
+    {
+      "epoch": 0.03944501777319115,
+      "grad_norm": 0.5863217711448669,
+      "learning_rate": 0.000999779378892081,
+      "loss": 3.48888897895813,
+      "step": 86,
+      "token_acc": 0.38053596614950636
+    },
+    {
+      "epoch": 0.03990368077055383,
+      "grad_norm": 0.5968656539916992,
+      "learning_rate": 0.0009997567670621522,
+      "loss": 3.550015926361084,
+      "step": 87,
+      "token_acc": 0.3667394866193337
+    },
+    {
+      "epoch": 0.040362343767916524,
+      "grad_norm": 0.6071357131004333,
+      "learning_rate": 0.0009997330525824165,
+      "loss": 3.468745708465576,
+      "step": 88,
+      "token_acc": 0.36957130848977304
+    },
+    {
+      "epoch": 0.04082100676527921,
+      "grad_norm": 0.711405336856842,
+      "learning_rate": 0.0009997082355051976,
+      "loss": 3.6053686141967773,
+      "step": 89,
+      "token_acc": 0.3543675943786167
+    },
+    {
+      "epoch": 0.0412796697626419,
+      "grad_norm": 0.6349820494651794,
+      "learning_rate": 0.000999682315885251,
+      "loss": 3.4660398960113525,
+      "step": 90,
+      "token_acc": 0.3742399115533444
+    },
+    {
+      "epoch": 0.04173833276000459,
+      "grad_norm": 0.6023502349853516,
+      "learning_rate": 0.0009996552937797645,
+      "loss": 3.440434694290161,
+      "step": 91,
+      "token_acc": 0.36031478358628444
+    },
+    {
+      "epoch": 0.042196995757367274,
+      "grad_norm": 0.5499334931373596,
+      "learning_rate": 0.0009996271692483596,
+      "loss": 3.5707292556762695,
+      "step": 92,
+      "token_acc": 0.3681015452538631
+    },
+    {
+      "epoch": 0.042655658754729965,
+      "grad_norm": 0.820492684841156,
+      "learning_rate": 0.0009995979423530893,
+      "loss": 3.3118960857391357,
+      "step": 93,
+      "token_acc": 0.3887640449438202
+    },
+    {
+      "epoch": 0.04311432175209265,
+      "grad_norm": 0.6804525256156921,
+      "learning_rate": 0.000999567613158439,
+      "loss": 3.461143970489502,
+      "step": 94,
+      "token_acc": 0.3686382393397524
+    },
+    {
+      "epoch": 0.04357298474945534,
+      "grad_norm": 0.6287928223609924,
+      "learning_rate": 0.0009995361817313263,
+      "loss": 3.490051746368408,
+      "step": 95,
+      "token_acc": 0.3720353006067292
+    },
+    {
+      "epoch": 0.044031647746818024,
+      "grad_norm": 0.7325089573860168,
+      "learning_rate": 0.0009995036481411004,
+      "loss": 3.4617037773132324,
+      "step": 96,
+      "token_acc": 0.3777398235126672
+    },
+    {
+      "epoch": 0.044490310744180715,
+      "grad_norm": 0.6122854948043823,
+      "learning_rate": 0.0009994700124595429,
+      "loss": 3.5085387229919434,
+      "step": 97,
+      "token_acc": 0.3724176437744277
+    },
+    {
+      "epoch": 0.0449489737415434,
+      "grad_norm": 0.6038780808448792,
+      "learning_rate": 0.0009994352747608663,
+      "loss": 3.487184524536133,
+      "step": 98,
+      "token_acc": 0.37226074895977807
+    },
+    {
+      "epoch": 0.04540763673890609,
+      "grad_norm": 0.6164092421531677,
+      "learning_rate": 0.0009993994351217151,
+      "loss": 3.423229694366455,
+      "step": 99,
+      "token_acc": 0.3768037026953444
+    },
+    {
+      "epoch": 0.045866299736268774,
+      "grad_norm": 0.6025534272193909,
+      "learning_rate": 0.000999362493621165,
+      "loss": 3.4272513389587402,
+      "step": 100,
+      "token_acc": 0.3813012895662368
+    },
+    {
+      "epoch": 0.046324962733631465,
+      "grad_norm": 0.5870760679244995,
+      "learning_rate": 0.0009993244503407226,
+      "loss": 3.442089080810547,
+      "step": 101,
+      "token_acc": 0.37067099567099565
+    },
+    {
+      "epoch": 0.04678362573099415,
+      "grad_norm": 0.6258718967437744,
+      "learning_rate": 0.0009992853053643258,
+      "loss": 3.466139793395996,
+      "step": 102,
+      "token_acc": 0.3625795737614171
+    },
+    {
+      "epoch": 0.04724228872835684,
+      "grad_norm": 0.7367739081382751,
+      "learning_rate": 0.0009992450587783426,
+      "loss": 3.3844377994537354,
+      "step": 103,
+      "token_acc": 0.382031905961377
+    },
+    {
+      "epoch": 0.047700951725719525,
+      "grad_norm": 0.5201725363731384,
+      "learning_rate": 0.000999203710671572,
+      "loss": 3.363003730773926,
+      "step": 104,
+      "token_acc": 0.3867768595041322
+    },
+    {
+      "epoch": 0.048159614723082216,
+      "grad_norm": 0.7309805154800415,
+      "learning_rate": 0.0009991612611352438,
+      "loss": 3.400493860244751,
+      "step": 105,
+      "token_acc": 0.3800892359174568
+    },
+    {
+      "epoch": 0.04861827772044491,
+      "grad_norm": 0.7596207857131958,
+      "learning_rate": 0.0009991177102630173,
+      "loss": 3.363405227661133,
+      "step": 106,
+      "token_acc": 0.37980636237897647
+    },
+    {
+      "epoch": 0.04907694071780759,
+      "grad_norm": 0.5382477045059204,
+      "learning_rate": 0.0009990730581509817,
+      "loss": 3.4120779037475586,
+      "step": 107,
+      "token_acc": 0.3791561888795753
+    },
+    {
+      "epoch": 0.04953560371517028,
+      "grad_norm": 0.5730828642845154,
+      "learning_rate": 0.0009990273048976566,
+      "loss": 3.3583250045776367,
+      "step": 108,
+      "token_acc": 0.38283828382838286
+    },
+    {
+      "epoch": 0.049994266712532966,
+      "grad_norm": 0.5807106494903564,
+      "learning_rate": 0.0009989804506039905,
+      "loss": 3.3839306831359863,
+      "step": 109,
+      "token_acc": 0.38688801350590885
+    },
+    {
+      "epoch": 0.05045292970989566,
+      "grad_norm": 0.5736938714981079,
+      "learning_rate": 0.0009989324953733614,
+      "loss": 3.361260414123535,
+      "step": 110,
+      "token_acc": 0.3723640399556049
+    },
+    {
+      "epoch": 0.05091159270725834,
+      "grad_norm": 0.5874132513999939,
+      "learning_rate": 0.0009988834393115766,
+      "loss": 3.372527837753296,
+      "step": 111,
+      "token_acc": 0.37150916784203103
+    },
+    {
+      "epoch": 0.05137025570462103,
+      "grad_norm": 0.5767446756362915,
+      "learning_rate": 0.000998833282526872,
+      "loss": 3.3951525688171387,
+      "step": 112,
+      "token_acc": 0.3695039458850056
+    },
+    {
+      "epoch": 0.051828918701983716,
+      "grad_norm": 0.48997122049331665,
+      "learning_rate": 0.0009987820251299122,
+      "loss": 3.391263246536255,
+      "step": 113,
+      "token_acc": 0.37534097108565195
+    },
+    {
+      "epoch": 0.05228758169934641,
+      "grad_norm": 0.5470476746559143,
+      "learning_rate": 0.00099872966723379,
+      "loss": 3.3959829807281494,
+      "step": 114,
+      "token_acc": 0.37472283813747226
+    },
+    {
+      "epoch": 0.05274624469670909,
+      "grad_norm": 0.6191883683204651,
+      "learning_rate": 0.0009986762089540266,
+      "loss": 3.217118978500366,
+      "step": 115,
+      "token_acc": 0.40249787113255747
+    },
+    {
+      "epoch": 0.05320490769407178,
+      "grad_norm": 0.49316704273223877,
+      "learning_rate": 0.0009986216504085709,
+      "loss": 3.3129892349243164,
+      "step": 116,
+      "token_acc": 0.39786156443444004
+    },
+    {
+      "epoch": 0.053663570691434466,
+      "grad_norm": 0.7600622177124023,
+      "learning_rate": 0.0009985659917177991,
+      "loss": 3.328044891357422,
+      "step": 117,
+      "token_acc": 0.3867768595041322
+    },
+    {
+      "epoch": 0.05412223368879716,
+      "grad_norm": 0.5792534351348877,
+      "learning_rate": 0.0009985092330045155,
+      "loss": 3.213757038116455,
+      "step": 118,
+      "token_acc": 0.39055330634278
+    },
+    {
+      "epoch": 0.05458089668615984,
+      "grad_norm": 0.6456693410873413,
+      "learning_rate": 0.0009984513743939508,
+      "loss": 3.3834590911865234,
+      "step": 119,
+      "token_acc": 0.37679558011049724
+    },
+    {
+      "epoch": 0.05503955968352253,
+      "grad_norm": 0.4933325946331024,
+      "learning_rate": 0.0009983924160137626,
+      "loss": 3.385931968688965,
+      "step": 120,
+      "token_acc": 0.37689804772234275
+    },
+    {
+      "epoch": 0.05549822268088522,
+      "grad_norm": 0.62879878282547,
+      "learning_rate": 0.000998332357994035,
+      "loss": 3.245725631713867,
+      "step": 121,
+      "token_acc": 0.4
+    },
+    {
+      "epoch": 0.05595688567824791,
+      "grad_norm": 0.48477134108543396,
+      "learning_rate": 0.0009982712004672786,
+      "loss": 3.3588757514953613,
+      "step": 122,
+      "token_acc": 0.3801742919389978
+    },
+    {
+      "epoch": 0.0564155486756106,
+      "grad_norm": 0.6909441351890564,
+      "learning_rate": 0.0009982089435684295,
+      "loss": 3.3898701667785645,
+      "step": 123,
+      "token_acc": 0.3759185980780102
+    },
+    {
+      "epoch": 0.05687421167297328,
+      "grad_norm": 0.5182231664657593,
+      "learning_rate": 0.0009981455874348499,
+      "loss": 3.2565951347351074,
+      "step": 124,
+      "token_acc": 0.3962210134554824
+    },
+    {
+      "epoch": 0.05733287467033597,
+      "grad_norm": 0.7223635315895081,
+      "learning_rate": 0.0009980811322063269,
+      "loss": 3.309131145477295,
+      "step": 125,
+      "token_acc": 0.392536881689326
+    },
+    {
+      "epoch": 0.05779153766769866,
+      "grad_norm": 0.5949826836585999,
+      "learning_rate": 0.0009980155780250728,
+      "loss": 3.2291173934936523,
+      "step": 126,
+      "token_acc": 0.398005698005698
+    },
+    {
+      "epoch": 0.05825020066506135,
+      "grad_norm": 0.5459883809089661,
+      "learning_rate": 0.0009979489250357243,
+      "loss": 3.225986957550049,
+      "step": 127,
+      "token_acc": 0.3967314736545506
+    },
+    {
+      "epoch": 0.05870886366242403,
+      "grad_norm": 0.5994998216629028,
+      "learning_rate": 0.0009978811733853431,
+      "loss": 3.3751397132873535,
+      "step": 128,
+      "token_acc": 0.37531987489337504
+    },
+    {
+      "epoch": 0.05916752665978672,
+      "grad_norm": 0.5532410740852356,
+      "learning_rate": 0.0009978123232234147,
+      "loss": 3.3004636764526367,
+      "step": 129,
+      "token_acc": 0.39311642914762035
+    },
+    {
+      "epoch": 0.05962618965714941,
+      "grad_norm": 0.4959070384502411,
+      "learning_rate": 0.000997742374701848,
+      "loss": 3.2083373069763184,
+      "step": 130,
+      "token_acc": 0.39251570609123193
+    },
+    {
+      "epoch": 0.0600848526545121,
+      "grad_norm": 0.45832115411758423,
+      "learning_rate": 0.0009976713279749754,
+      "loss": 3.257824420928955,
+      "step": 131,
+      "token_acc": 0.3902852301609715
+    },
+    {
+      "epoch": 0.06054351565187478,
+      "grad_norm": 0.6288501620292664,
+      "learning_rate": 0.0009975991831995528,
+      "loss": 3.2704572677612305,
+      "step": 132,
+      "token_acc": 0.3978645686990728
+    },
+    {
+      "epoch": 0.06100217864923747,
+      "grad_norm": 0.5479359030723572,
+      "learning_rate": 0.0009975259405347581,
+      "loss": 3.179764986038208,
+      "step": 133,
+      "token_acc": 0.3874273054555525
+    },
+    {
+      "epoch": 0.06146084164660016,
+      "grad_norm": 0.5085932612419128,
+      "learning_rate": 0.0009974516001421926,
+      "loss": 3.154996871948242,
+      "step": 134,
+      "token_acc": 0.3973054715424801
+    },
+    {
+      "epoch": 0.06191950464396285,
+      "grad_norm": 0.5536165237426758,
+      "learning_rate": 0.000997376162185878,
+      "loss": 3.2330880165100098,
+      "step": 135,
+      "token_acc": 0.3912552891396333
+    },
+    {
+      "epoch": 0.06237816764132553,
+      "grad_norm": 0.5158190727233887,
+      "learning_rate": 0.0009972996268322594,
+      "loss": 3.279088258743286,
+      "step": 136,
+      "token_acc": 0.3908812899638588
+    },
+    {
+      "epoch": 0.06283683063868822,
+      "grad_norm": 0.5250589847564697,
+      "learning_rate": 0.0009972219942502017,
+      "loss": 3.198488712310791,
+      "step": 137,
+      "token_acc": 0.3973275156803927
+    },
+    {
+      "epoch": 0.06329549363605091,
+      "grad_norm": 0.4934110939502716,
+      "learning_rate": 0.0009971432646109918,
+      "loss": 3.235125780105591,
+      "step": 138,
+      "token_acc": 0.38868866093706683
+    },
+    {
+      "epoch": 0.0637541566334136,
+      "grad_norm": 0.4970228672027588,
+      "learning_rate": 0.0009970634380883365,
+      "loss": 3.115957260131836,
+      "step": 139,
+      "token_acc": 0.40145985401459855
+    },
+    {
+      "epoch": 0.06421281963077628,
+      "grad_norm": 0.5510164499282837,
+      "learning_rate": 0.0009969825148583627,
+      "loss": 3.2003121376037598,
+      "step": 140,
+      "token_acc": 0.39255840784539947
+    },
+    {
+      "epoch": 0.06467148262813897,
+      "grad_norm": 0.5686467289924622,
+      "learning_rate": 0.0009969004950996173,
+      "loss": 3.27793550491333,
+      "step": 141,
+      "token_acc": 0.3974033305108665
+    },
+    {
+      "epoch": 0.06513014562550166,
+      "grad_norm": 0.495929479598999,
+      "learning_rate": 0.0009968173789930668,
+      "loss": 3.1479763984680176,
+      "step": 142,
+      "token_acc": 0.3997214484679666
+    },
+    {
+      "epoch": 0.06558880862286436,
+      "grad_norm": 0.5312603712081909,
+      "learning_rate": 0.0009967331667220958,
+      "loss": 3.1552486419677734,
+      "step": 143,
+      "token_acc": 0.40129177197416455
+    },
+    {
+      "epoch": 0.06604747162022703,
+      "grad_norm": 0.4758537709712982,
+      "learning_rate": 0.0009966478584725086,
+      "loss": 3.1986045837402344,
+      "step": 144,
+      "token_acc": 0.3884016973125884
+    },
+    {
+      "epoch": 0.06650613461758972,
+      "grad_norm": 0.47298938035964966,
+      "learning_rate": 0.0009965614544325263,
+      "loss": 3.197282552719116,
+      "step": 145,
+      "token_acc": 0.40279681930353717
+    },
+    {
+      "epoch": 0.06696479761495241,
+      "grad_norm": 0.47355562448501587,
+      "learning_rate": 0.000996473954792789,
+      "loss": 3.1309452056884766,
+      "step": 146,
+      "token_acc": 0.3980350504514073
+    },
+    {
+      "epoch": 0.0674234606123151,
+      "grad_norm": 0.6271078586578369,
+      "learning_rate": 0.0009963853597463532,
+      "loss": 3.198099136352539,
+      "step": 147,
+      "token_acc": 0.39842381786339753
+    },
+    {
+      "epoch": 0.06788212360967778,
+      "grad_norm": 0.5167470574378967,
+      "learning_rate": 0.000996295669488693,
+      "loss": 3.1650633811950684,
+      "step": 148,
+      "token_acc": 0.38012489818083084
+    },
+    {
+      "epoch": 0.06834078660704047,
+      "grad_norm": 0.48250827193260193,
+      "learning_rate": 0.0009962048842176979,
+      "loss": 3.0213265419006348,
+      "step": 149,
+      "token_acc": 0.4075112107623318
+    },
+    {
+      "epoch": 0.06879944960440317,
+      "grad_norm": 0.4882107377052307,
+      "learning_rate": 0.0009961130041336748,
+      "loss": 3.0998148918151855,
+      "step": 150,
+      "token_acc": 0.398326359832636
+    },
+    {
+      "epoch": 0.06925811260176586,
+      "grad_norm": 0.4939694106578827,
+      "learning_rate": 0.0009960200294393449,
+      "loss": 3.1333916187286377,
+      "step": 151,
+      "token_acc": 0.40798898071625345
+    },
+    {
+      "epoch": 0.06971677559912855,
+      "grad_norm": 0.6528869271278381,
+      "learning_rate": 0.0009959259603398453,
+      "loss": 3.1838574409484863,
+      "step": 152,
+      "token_acc": 0.39456521739130435
+    },
+    {
+      "epoch": 0.07017543859649122,
+      "grad_norm": 0.5198072791099548,
+      "learning_rate": 0.0009958307970427275,
+      "loss": 3.1333155632019043,
+      "step": 153,
+      "token_acc": 0.4032697547683924
+    },
+    {
+      "epoch": 0.07063410159385392,
+      "grad_norm": 0.5131497979164124,
+      "learning_rate": 0.0009957345397579572,
+      "loss": 3.078389883041382,
+      "step": 154,
+      "token_acc": 0.40476190476190477
+    },
+    {
+      "epoch": 0.0710927645912166,
+      "grad_norm": 0.49800780415534973,
+      "learning_rate": 0.0009956371886979138,
+      "loss": 3.232649087905884,
+      "step": 155,
+      "token_acc": 0.3868256980211439
+    },
+    {
+      "epoch": 0.0715514275885793,
+      "grad_norm": 0.5495232343673706,
+      "learning_rate": 0.00099553874407739,
+      "loss": 3.2769150733947754,
+      "step": 156,
+      "token_acc": 0.38101640225867167
+    },
+    {
+      "epoch": 0.07201009058594197,
+      "grad_norm": 0.5473746061325073,
+      "learning_rate": 0.0009954392061135916,
+      "loss": 3.1467361450195312,
+      "step": 157,
+      "token_acc": 0.39038621839399834
+    },
+    {
+      "epoch": 0.07246875358330467,
+      "grad_norm": 0.5644493103027344,
+      "learning_rate": 0.0009953385750261364,
+      "loss": 3.0797924995422363,
+      "step": 158,
+      "token_acc": 0.40763274336283184
+    },
+    {
+      "epoch": 0.07292741658066736,
+      "grad_norm": 0.5598791241645813,
+      "learning_rate": 0.0009952368510370538,
+      "loss": 3.1925671100616455,
+      "step": 159,
+      "token_acc": 0.38829052747859705
+    },
+    {
+      "epoch": 0.07338607957803005,
+      "grad_norm": 0.5848110318183899,
+      "learning_rate": 0.0009951340343707852,
+      "loss": 3.0903687477111816,
+      "step": 160,
+      "token_acc": 0.3980467593962711
+    },
+    {
+      "epoch": 0.07384474257539272,
+      "grad_norm": 0.5031583309173584,
+      "learning_rate": 0.0009950301252541823,
+      "loss": 3.163787841796875,
+      "step": 161,
+      "token_acc": 0.40628604382929645
+    },
+    {
+      "epoch": 0.07430340557275542,
+      "grad_norm": 0.6483263373374939,
+      "learning_rate": 0.0009949251239165075,
+      "loss": 3.13171648979187,
+      "step": 162,
+      "token_acc": 0.39026998128842555
+    },
+    {
+      "epoch": 0.0747620685701181,
+      "grad_norm": 0.6655116677284241,
+      "learning_rate": 0.000994819030589433,
+      "loss": 3.1401309967041016,
+      "step": 163,
+      "token_acc": 0.39890867317633544
+    },
+    {
+      "epoch": 0.0752207315674808,
+      "grad_norm": 0.5282167196273804,
+      "learning_rate": 0.00099471184550704,
+      "loss": 3.123441696166992,
+      "step": 164,
+      "token_acc": 0.40553250345781466
+    },
+    {
+      "epoch": 0.07567939456484347,
+      "grad_norm": 0.5869361758232117,
+      "learning_rate": 0.0009946035689058189,
+      "loss": 3.1445727348327637,
+      "step": 165,
+      "token_acc": 0.39865771812080536
+    },
+    {
+      "epoch": 0.07613805756220617,
+      "grad_norm": 0.5184969305992126,
+      "learning_rate": 0.0009944942010246681,
+      "loss": 3.201768398284912,
+      "step": 166,
+      "token_acc": 0.3790849673202614
+    },
+    {
+      "epoch": 0.07659672055956886,
+      "grad_norm": 0.5623889565467834,
+      "learning_rate": 0.0009943837421048942,
+      "loss": 3.070108413696289,
+      "step": 167,
+      "token_acc": 0.4032390886631897
+    },
+    {
+      "epoch": 0.07705538355693155,
+      "grad_norm": 0.46002712845802307,
+      "learning_rate": 0.0009942721923902106,
+      "loss": 3.099198818206787,
+      "step": 168,
+      "token_acc": 0.40895104895104895
+    },
+    {
+      "epoch": 0.07751404655429424,
+      "grad_norm": 0.5260730385780334,
+      "learning_rate": 0.0009941595521267377,
+      "loss": 3.0090246200561523,
+      "step": 169,
+      "token_acc": 0.4082857142857143
+    },
+    {
+      "epoch": 0.07797270955165692,
+      "grad_norm": 0.4930124282836914,
+      "learning_rate": 0.0009940458215630017,
+      "loss": 3.072448253631592,
+      "step": 170,
+      "token_acc": 0.40625
+    },
+    {
+      "epoch": 0.0784313725490196,
+      "grad_norm": 0.5549517869949341,
+      "learning_rate": 0.0009939310009499348,
+      "loss": 3.058135509490967,
+      "step": 171,
+      "token_acc": 0.4042908888269713
+    },
+    {
+      "epoch": 0.0788900355463823,
+      "grad_norm": 0.599074125289917,
+      "learning_rate": 0.000993815090540874,
+      "loss": 3.005629777908325,
+      "step": 172,
+      "token_acc": 0.41917502787068006
+    },
+    {
+      "epoch": 0.07934869854374499,
+      "grad_norm": 0.5849031805992126,
+      "learning_rate": 0.000993698090591561,
+      "loss": 3.1162829399108887,
+      "step": 173,
+      "token_acc": 0.4183420545304324
+    },
+    {
+      "epoch": 0.07980736154110767,
+      "grad_norm": 0.518694281578064,
+      "learning_rate": 0.0009935800013601416,
+      "loss": 2.9923558235168457,
+      "step": 174,
+      "token_acc": 0.42321780783319246
+    },
+    {
+      "epoch": 0.08026602453847036,
+      "grad_norm": 0.6214985251426697,
+      "learning_rate": 0.000993460823107164,
+      "loss": 3.071643114089966,
+      "step": 175,
+      "token_acc": 0.4050951847704367
+    },
+    {
+      "epoch": 0.08072468753583305,
+      "grad_norm": 0.5082798004150391,
+      "learning_rate": 0.0009933405560955803,
+      "loss": 3.0221118927001953,
+      "step": 176,
+      "token_acc": 0.41281241022694626
+    },
+    {
+      "epoch": 0.08118335053319574,
+      "grad_norm": 0.5089051723480225,
+      "learning_rate": 0.0009932192005907446,
+      "loss": 3.0243191719055176,
+      "step": 177,
+      "token_acc": 0.41648230088495575
+    },
+    {
+      "epoch": 0.08164201353055842,
+      "grad_norm": 0.5226424932479858,
+      "learning_rate": 0.0009930967568604118,
+      "loss": 3.082242727279663,
+      "step": 178,
+      "token_acc": 0.40386253905140584
+    },
+    {
+      "epoch": 0.08210067652792111,
+      "grad_norm": 0.5430575013160706,
+      "learning_rate": 0.000992973225174739,
+      "loss": 3.0046510696411133,
+      "step": 179,
+      "token_acc": 0.41055718475073316
+    },
+    {
+      "epoch": 0.0825593395252838,
+      "grad_norm": 0.5573244094848633,
+      "learning_rate": 0.0009928486058062827,
+      "loss": 3.0243120193481445,
+      "step": 180,
+      "token_acc": 0.42710859606575047
+    },
+    {
+      "epoch": 0.08301800252264649,
+      "grad_norm": 0.5368469953536987,
+      "learning_rate": 0.0009927228990299999,
+      "loss": 2.9854307174682617,
+      "step": 181,
+      "token_acc": 0.4165232358003442
+    },
+    {
+      "epoch": 0.08347666552000918,
+      "grad_norm": 0.501571536064148,
+      "learning_rate": 0.0009925961051232468,
+      "loss": 3.011894941329956,
+      "step": 182,
+      "token_acc": 0.4216970387243736
+    },
+    {
+      "epoch": 0.08393532851737186,
+      "grad_norm": 0.5749439597129822,
+      "learning_rate": 0.000992468224365778,
+      "loss": 3.0376062393188477,
+      "step": 183,
+      "token_acc": 0.41257966195622053
+    },
+    {
+      "epoch": 0.08439399151473455,
+      "grad_norm": 0.4928274154663086,
+      "learning_rate": 0.000992339257039746,
+      "loss": 2.9668054580688477,
+      "step": 184,
+      "token_acc": 0.4200680272108844
+    },
+    {
+      "epoch": 0.08485265451209724,
+      "grad_norm": 0.5379028916358948,
+      "learning_rate": 0.0009922092034297006,
+      "loss": 3.0190951824188232,
+      "step": 185,
+      "token_acc": 0.41700879765395893
+    },
+    {
+      "epoch": 0.08531131750945993,
+      "grad_norm": 0.5658338665962219,
+      "learning_rate": 0.0009920780638225891,
+      "loss": 3.0155673027038574,
+      "step": 186,
+      "token_acc": 0.41138530566461023
+    },
+    {
+      "epoch": 0.08576998050682261,
+      "grad_norm": 0.5691428780555725,
+      "learning_rate": 0.0009919458385077538,
+      "loss": 2.8739476203918457,
+      "step": 187,
+      "token_acc": 0.4246844319775596
+    },
+    {
+      "epoch": 0.0862286435041853,
+      "grad_norm": 0.6267986297607422,
+      "learning_rate": 0.0009918125277769336,
+      "loss": 2.940361499786377,
+      "step": 188,
+      "token_acc": 0.4196078431372549
+    },
+    {
+      "epoch": 0.08668730650154799,
+      "grad_norm": 0.5709134936332703,
+      "learning_rate": 0.0009916781319242614,
+      "loss": 2.9900636672973633,
+      "step": 189,
+      "token_acc": 0.41562064156206413
+    },
+    {
+      "epoch": 0.08714596949891068,
+      "grad_norm": 0.7565932273864746,
+      "learning_rate": 0.0009915426512462646,
+      "loss": 3.0259649753570557,
+      "step": 190,
+      "token_acc": 0.40775623268698064
+    },
+    {
+      "epoch": 0.08760463249627336,
+      "grad_norm": 0.562564492225647,
+      "learning_rate": 0.0009914060860418644,
+      "loss": 2.9895684719085693,
+      "step": 191,
+      "token_acc": 0.4083170527490929
+    },
+    {
+      "epoch": 0.08806329549363605,
+      "grad_norm": 0.7307088971138,
+      "learning_rate": 0.000991268436612374,
+      "loss": 2.9440011978149414,
+      "step": 192,
+      "token_acc": 0.4139275766016713
+    },
+    {
+      "epoch": 0.08852195849099874,
+      "grad_norm": 0.5804943442344666,
+      "learning_rate": 0.0009911297032614997,
+      "loss": 3.0462260246276855,
+      "step": 193,
+      "token_acc": 0.40542035398230086
+    },
+    {
+      "epoch": 0.08898062148836143,
+      "grad_norm": 0.5728293061256409,
+      "learning_rate": 0.000990989886295339,
+      "loss": 3.0358266830444336,
+      "step": 194,
+      "token_acc": 0.4182282793867121
+    },
+    {
+      "epoch": 0.08943928448572411,
+      "grad_norm": 0.6788930296897888,
+      "learning_rate": 0.0009908489860223804,
+      "loss": 3.0980992317199707,
+      "step": 195,
+      "token_acc": 0.40238704177323104
+    },
+    {
+      "epoch": 0.0898979474830868,
+      "grad_norm": 0.5790948271751404,
+      "learning_rate": 0.000990707002753502,
+      "loss": 2.900399684906006,
+      "step": 196,
+      "token_acc": 0.42435218723878515
+    },
+    {
+      "epoch": 0.09035661048044949,
+      "grad_norm": 0.6170215010643005,
+      "learning_rate": 0.0009905639368019724,
+      "loss": 2.8389477729797363,
+      "step": 197,
+      "token_acc": 0.42612839921502665
+    },
+    {
+      "epoch": 0.09081527347781218,
+      "grad_norm": 0.570745587348938,
+      "learning_rate": 0.0009904197884834482,
+      "loss": 2.790898323059082,
+      "step": 198,
+      "token_acc": 0.4378994165045846
+    },
+    {
+      "epoch": 0.09127393647517487,
+      "grad_norm": 0.5969982147216797,
+      "learning_rate": 0.0009902745581159742,
+      "loss": 2.9808239936828613,
+      "step": 199,
+      "token_acc": 0.42574786324786323
+    },
+    {
+      "epoch": 0.09173259947253755,
+      "grad_norm": 0.5569668412208557,
+      "learning_rate": 0.0009901282460199829,
+      "loss": 2.900136947631836,
+      "step": 200,
+      "token_acc": 0.4230555555555556
+    },
+    {
+      "epoch": 0.09219126246990024,
+      "grad_norm": 0.540507972240448,
+      "learning_rate": 0.0009899808525182935,
+      "loss": 2.9313182830810547,
+      "step": 201,
+      "token_acc": 0.4305901911886949
+    },
+    {
+      "epoch": 0.09264992546726293,
+      "grad_norm": 0.593533456325531,
+      "learning_rate": 0.0009898323779361107,
+      "loss": 2.9265894889831543,
+      "step": 202,
+      "token_acc": 0.4221404303510759
+    },
+    {
+      "epoch": 0.09310858846462562,
+      "grad_norm": 0.5101314187049866,
+      "learning_rate": 0.000989682822601025,
+      "loss": 2.8799049854278564,
+      "step": 203,
+      "token_acc": 0.4207813347802496
+    },
+    {
+      "epoch": 0.0935672514619883,
+      "grad_norm": 0.549468457698822,
+      "learning_rate": 0.0009895321868430113,
+      "loss": 2.8317041397094727,
+      "step": 204,
+      "token_acc": 0.44077510917030566
+    },
+    {
+      "epoch": 0.09402591445935099,
+      "grad_norm": 0.6261354088783264,
+      "learning_rate": 0.0009893804709944281,
+      "loss": 2.916252374649048,
+      "step": 205,
+      "token_acc": 0.43227091633466136
+    },
+    {
+      "epoch": 0.09448457745671368,
+      "grad_norm": 0.6133216619491577,
+      "learning_rate": 0.0009892276753900174,
+      "loss": 2.819794178009033,
+      "step": 206,
+      "token_acc": 0.449629426297008
+    },
+    {
+      "epoch": 0.09494324045407637,
+      "grad_norm": 0.568579375743866,
+      "learning_rate": 0.0009890738003669028,
+      "loss": 2.941122531890869,
+      "step": 207,
+      "token_acc": 0.4137741046831956
+    },
+    {
+      "epoch": 0.09540190345143905,
+      "grad_norm": 0.6269049644470215,
+      "learning_rate": 0.0009889188462645904,
+      "loss": 2.7993907928466797,
+      "step": 208,
+      "token_acc": 0.43831438868866096
+    },
+    {
+      "epoch": 0.09586056644880174,
+      "grad_norm": 0.567550003528595,
+      "learning_rate": 0.0009887628134249667,
+      "loss": 2.9074909687042236,
+      "step": 209,
+      "token_acc": 0.4260700389105058
+    },
+    {
+      "epoch": 0.09631922944616443,
+      "grad_norm": 0.5696444511413574,
+      "learning_rate": 0.0009886057021922983,
+      "loss": 2.917890787124634,
+      "step": 210,
+      "token_acc": 0.4228571428571429
+    },
+    {
+      "epoch": 0.09677789244352712,
+      "grad_norm": 0.554904580116272,
+      "learning_rate": 0.0009884475129132311,
+      "loss": 2.8712992668151855,
+      "step": 211,
+      "token_acc": 0.4374301675977654
+    },
+    {
+      "epoch": 0.09723655544088981,
+      "grad_norm": 0.5444774627685547,
+      "learning_rate": 0.0009882882459367897,
+      "loss": 2.7397289276123047,
+      "step": 212,
+      "token_acc": 0.4525290776305112
+    },
+    {
+      "epoch": 0.09769521843825249,
+      "grad_norm": 0.5548387765884399,
+      "learning_rate": 0.0009881279016143766,
+      "loss": 2.7851297855377197,
+      "step": 213,
+      "token_acc": 0.4336473755047106
+    },
+    {
+      "epoch": 0.09815388143561518,
+      "grad_norm": 0.5498785376548767,
+      "learning_rate": 0.0009879664802997707,
+      "loss": 2.8806750774383545,
+      "step": 214,
+      "token_acc": 0.42422535211267604
+    },
+    {
+      "epoch": 0.09861254443297787,
+      "grad_norm": 0.5503478050231934,
+      "learning_rate": 0.000987803982349128,
+      "loss": 2.889479637145996,
+      "step": 215,
+      "token_acc": 0.43131548311990686
+    },
+    {
+      "epoch": 0.09907120743034056,
+      "grad_norm": 0.5529974102973938,
+      "learning_rate": 0.0009876404081209796,
+      "loss": 2.837960958480835,
+      "step": 216,
+      "token_acc": 0.4463470319634703
+    },
+    {
+      "epoch": 0.09952987042770324,
+      "grad_norm": 0.5562537312507629,
+      "learning_rate": 0.000987475757976231,
+      "loss": 2.789881706237793,
+      "step": 217,
+      "token_acc": 0.4521617852161785
+    },
+    {
+      "epoch": 0.09998853342506593,
+      "grad_norm": 0.5584325194358826,
+      "learning_rate": 0.000987310032278162,
+      "loss": 2.839132070541382,
+      "step": 218,
+      "token_acc": 0.4403747870528109
+    },
+    {
+      "epoch": 0.10044719642242862,
+      "grad_norm": 0.5202255845069885,
+      "learning_rate": 0.0009871432313924254,
+      "loss": 2.8884735107421875,
+      "step": 219,
+      "token_acc": 0.4330708661417323
+    },
+    {
+      "epoch": 0.10090585941979131,
+      "grad_norm": 0.5353502631187439,
+      "learning_rate": 0.000986975355687046,
+      "loss": 2.846851348876953,
+      "step": 220,
+      "token_acc": 0.42773551784669395
+    },
+    {
+      "epoch": 0.10136452241715399,
+      "grad_norm": 0.4803241789340973,
+      "learning_rate": 0.0009868064055324204,
+      "loss": 2.887118101119995,
+      "step": 221,
+      "token_acc": 0.42552602436323367
+    },
+    {
+      "epoch": 0.10182318541451668,
+      "grad_norm": 0.4748958647251129,
+      "learning_rate": 0.0009866363813013153,
+      "loss": 2.740333080291748,
+      "step": 222,
+      "token_acc": 0.4509423503325942
+    },
+    {
+      "epoch": 0.10228184841187937,
+      "grad_norm": 0.5004998445510864,
+      "learning_rate": 0.0009864652833688676,
+      "loss": 2.805943012237549,
+      "step": 223,
+      "token_acc": 0.43505266000540105
+    },
+    {
+      "epoch": 0.10274051140924206,
+      "grad_norm": 0.5053765177726746,
+      "learning_rate": 0.0009862931121125836,
+      "loss": 2.793546199798584,
+      "step": 224,
+      "token_acc": 0.43488555643251775
+    },
+    {
+      "epoch": 0.10319917440660474,
+      "grad_norm": 0.583875298500061,
+      "learning_rate": 0.000986119867912337,
+      "loss": 2.827031135559082,
+      "step": 225,
+      "token_acc": 0.4481292517006803
+    },
+    {
+      "epoch": 0.10365783740396743,
+      "grad_norm": 0.5419859886169434,
+      "learning_rate": 0.000985945551150369,
+      "loss": 2.762326717376709,
+      "step": 226,
+      "token_acc": 0.44920235096557515
+    },
+    {
+      "epoch": 0.10411650040133012,
+      "grad_norm": 0.5514088869094849,
+      "learning_rate": 0.0009857701622112876,
+      "loss": 2.6175482273101807,
+      "step": 227,
+      "token_acc": 0.45556176634991613
+    },
+    {
+      "epoch": 0.10457516339869281,
+      "grad_norm": 0.5651687383651733,
+      "learning_rate": 0.000985593701482066,
+      "loss": 2.8145639896392822,
+      "step": 228,
+      "token_acc": 0.4372133027522936
+    },
+    {
+      "epoch": 0.1050338263960555,
+      "grad_norm": 0.570810854434967,
+      "learning_rate": 0.0009854161693520424,
+      "loss": 2.7829031944274902,
+      "step": 229,
+      "token_acc": 0.44024289263041677
+    },
+    {
+      "epoch": 0.10549248939341818,
+      "grad_norm": 0.5228450298309326,
+      "learning_rate": 0.0009852375662129194,
+      "loss": 2.7513632774353027,
+      "step": 230,
+      "token_acc": 0.4459224985540775
+    },
+    {
+      "epoch": 0.10595115239078087,
+      "grad_norm": 0.558660626411438,
+      "learning_rate": 0.0009850578924587613,
+      "loss": 2.836071014404297,
+      "step": 231,
+      "token_acc": 0.4409902130109384
+    },
+    {
+      "epoch": 0.10640981538814356,
+      "grad_norm": 0.4837777018547058,
+      "learning_rate": 0.000984877148485996,
+      "loss": 2.8618927001953125,
+      "step": 232,
+      "token_acc": 0.4326487063216858
+    },
+    {
+      "epoch": 0.10686847838550625,
+      "grad_norm": 0.5952545404434204,
+      "learning_rate": 0.000984695334693412,
+      "loss": 2.684800386428833,
+      "step": 233,
+      "token_acc": 0.45030425963488846
+    },
+    {
+      "epoch": 0.10732714138286893,
+      "grad_norm": 0.530125617980957,
+      "learning_rate": 0.000984512451482158,
+      "loss": 2.836019515991211,
+      "step": 234,
+      "token_acc": 0.43385939741750357
+    },
+    {
+      "epoch": 0.10778580438023162,
+      "grad_norm": 0.5532754063606262,
+      "learning_rate": 0.0009843284992557431,
+      "loss": 2.6370129585266113,
+      "step": 235,
+      "token_acc": 0.45446710715311694
+    },
+    {
+      "epoch": 0.10824446737759431,
+      "grad_norm": 0.5605490803718567,
+      "learning_rate": 0.000984143478420034,
+      "loss": 2.7489161491394043,
+      "step": 236,
+      "token_acc": 0.43981117230527145
+    },
+    {
+      "epoch": 0.108703130374957,
+      "grad_norm": 0.6163219213485718,
+      "learning_rate": 0.0009839573893832563,
+      "loss": 2.7710604667663574,
+      "step": 237,
+      "token_acc": 0.432711061577041
+    },
+    {
+      "epoch": 0.10916179337231968,
+      "grad_norm": 0.5578672289848328,
+      "learning_rate": 0.000983770232555991,
+      "loss": 2.6544623374938965,
+      "step": 238,
+      "token_acc": 0.4618181818181818
+    },
+    {
+      "epoch": 0.10962045636968237,
+      "grad_norm": 0.5124946236610413,
+      "learning_rate": 0.0009835820083511765,
+      "loss": 2.6688618659973145,
+      "step": 239,
+      "token_acc": 0.4527761877504293
+    },
+    {
+      "epoch": 0.11007911936704506,
+      "grad_norm": 0.5671712756156921,
+      "learning_rate": 0.0009833927171841055,
+      "loss": 2.864449977874756,
+      "step": 240,
+      "token_acc": 0.4373146400647075
+    },
+    {
+      "epoch": 0.11053778236440776,
+      "grad_norm": 0.574104905128479,
+      "learning_rate": 0.0009832023594724246,
+      "loss": 2.767341136932373,
+      "step": 241,
+      "token_acc": 0.44297752808988766
+    },
+    {
+      "epoch": 0.11099644536177045,
+      "grad_norm": 0.4860352873802185,
+      "learning_rate": 0.0009830109356361344,
+      "loss": 2.7476189136505127,
+      "step": 242,
+      "token_acc": 0.4378332865562728
+    },
+    {
+      "epoch": 0.11145510835913312,
+      "grad_norm": 0.4607715904712677,
+      "learning_rate": 0.0009828184460975867,
+      "loss": 2.717127799987793,
+      "step": 243,
+      "token_acc": 0.45174594445971955
+    },
+    {
+      "epoch": 0.11191377135649581,
+      "grad_norm": 0.4885717034339905,
+      "learning_rate": 0.0009826248912814855,
+      "loss": 2.8432326316833496,
+      "step": 244,
+      "token_acc": 0.43477066739906617
+    },
+    {
+      "epoch": 0.1123724343538585,
+      "grad_norm": 0.49770957231521606,
+      "learning_rate": 0.0009824302716148847,
+      "loss": 2.7339110374450684,
+      "step": 245,
+      "token_acc": 0.45615538417594975
+    },
+    {
+      "epoch": 0.1128310973512212,
+      "grad_norm": 0.48586538434028625,
+      "learning_rate": 0.0009822345875271884,
+      "loss": 2.803290843963623,
+      "step": 246,
+      "token_acc": 0.43729903536977494
+    },
+    {
+      "epoch": 0.11328976034858387,
+      "grad_norm": 0.47004836797714233,
+      "learning_rate": 0.0009820378394501481,
+      "loss": 2.7158820629119873,
+      "step": 247,
+      "token_acc": 0.44130008405715887
+    },
+    {
+      "epoch": 0.11374842334594656,
+      "grad_norm": 0.4864044487476349,
+      "learning_rate": 0.0009818400278178636,
+      "loss": 2.7092905044555664,
+      "step": 248,
+      "token_acc": 0.4488888888888889
+    },
+    {
+      "epoch": 0.11420708634330926,
+      "grad_norm": 0.48333030939102173,
+      "learning_rate": 0.0009816411530667814,
+      "loss": 2.6776576042175293,
+      "step": 249,
+      "token_acc": 0.44512877939529677
+    },
+    {
+      "epoch": 0.11466574934067195,
+      "grad_norm": 0.539463460445404,
+      "learning_rate": 0.000981441215635693,
+      "loss": 2.6693131923675537,
+      "step": 250,
+      "token_acc": 0.467118261360429
+    },
+    {
+      "epoch": 0.11512441233803462,
+      "grad_norm": 0.50631183385849,
+      "learning_rate": 0.0009812402159657353,
+      "loss": 2.740495204925537,
+      "step": 251,
+      "token_acc": 0.4556473829201102
+    },
+    {
+      "epoch": 0.11558307533539731,
+      "grad_norm": 0.4745313823223114,
+      "learning_rate": 0.000981038154500388,
+      "loss": 2.6241979598999023,
+      "step": 252,
+      "token_acc": 0.4530735455543359
+    },
+    {
+      "epoch": 0.11604173833276,
+      "grad_norm": 0.5077370405197144,
+      "learning_rate": 0.0009808350316854746,
+      "loss": 2.687938690185547,
+      "step": 253,
+      "token_acc": 0.4496739438616388
+    },
+    {
+      "epoch": 0.1165004013301227,
+      "grad_norm": 0.4698963761329651,
+      "learning_rate": 0.0009806308479691594,
+      "loss": 2.6657698154449463,
+      "step": 254,
+      "token_acc": 0.4631284916201117
+    },
+    {
+      "epoch": 0.11695906432748537,
+      "grad_norm": 0.48045700788497925,
+      "learning_rate": 0.0009804256038019482,
+      "loss": 2.7079544067382812,
+      "step": 255,
+      "token_acc": 0.455503188245079
+    },
+    {
+      "epoch": 0.11741772732484806,
+      "grad_norm": 0.471588671207428,
+      "learning_rate": 0.0009802192996366857,
+      "loss": 2.8019728660583496,
+      "step": 256,
+      "token_acc": 0.42849051260266213
+    },
+    {
+      "epoch": 0.11787639032221076,
+      "grad_norm": 0.4373902678489685,
+      "learning_rate": 0.0009800119359285563,
+      "loss": 2.719996929168701,
+      "step": 257,
+      "token_acc": 0.4490566037735849
+    },
+    {
+      "epoch": 0.11833505331957345,
+      "grad_norm": 0.4419008791446686,
+      "learning_rate": 0.0009798035131350813,
+      "loss": 2.750486373901367,
+      "step": 258,
+      "token_acc": 0.4469820554649266
+    },
+    {
+      "epoch": 0.11879371631693614,
+      "grad_norm": 0.45689576864242554,
+      "learning_rate": 0.0009795940317161194,
+      "loss": 2.6923322677612305,
+      "step": 259,
+      "token_acc": 0.4683226346636896
+    },
+    {
+      "epoch": 0.11925237931429881,
+      "grad_norm": 0.4678480625152588,
+      "learning_rate": 0.0009793834921338646,
+      "loss": 2.6704845428466797,
+      "step": 260,
+      "token_acc": 0.4461582405027135
+    },
+    {
+      "epoch": 0.1197110423116615,
+      "grad_norm": 0.4603913128376007,
+      "learning_rate": 0.0009791718948528457,
+      "loss": 2.6925084590911865,
+      "step": 261,
+      "token_acc": 0.449945295404814
+    },
+    {
+      "epoch": 0.1201697053090242,
+      "grad_norm": 0.48764804005622864,
+      "learning_rate": 0.0009789592403399252,
+      "loss": 2.7791624069213867,
+      "step": 262,
+      "token_acc": 0.4376874829560949
+    },
+    {
+      "epoch": 0.12062836830638689,
+      "grad_norm": 0.5074710249900818,
+      "learning_rate": 0.0009787455290642985,
+      "loss": 2.6090641021728516,
+      "step": 263,
+      "token_acc": 0.45748054194292304
+    },
+    {
+      "epoch": 0.12108703130374956,
+      "grad_norm": 0.49795079231262207,
+      "learning_rate": 0.000978530761497492,
+      "loss": 2.7932376861572266,
+      "step": 264,
+      "token_acc": 0.44228055320349985
+    },
+    {
+      "epoch": 0.12154569430111226,
+      "grad_norm": 0.5155557990074158,
+      "learning_rate": 0.0009783149381133633,
+      "loss": 2.7531380653381348,
+      "step": 265,
+      "token_acc": 0.439419795221843
+    },
+    {
+      "epoch": 0.12200435729847495,
+      "grad_norm": 0.4545442759990692,
+      "learning_rate": 0.0009780980593880992,
+      "loss": 2.800661087036133,
+      "step": 266,
+      "token_acc": 0.43864519711271516
+    },
+    {
+      "epoch": 0.12246302029583764,
+      "grad_norm": 0.4660552144050598,
+      "learning_rate": 0.0009778801258002153,
+      "loss": 2.895918369293213,
+      "step": 267,
+      "token_acc": 0.4375
+    },
+    {
+      "epoch": 0.12292168329320032,
+      "grad_norm": 0.47203075885772705,
+      "learning_rate": 0.000977661137830554,
+      "loss": 2.787299156188965,
+      "step": 268,
+      "token_acc": 0.4434557979334099
+    },
+    {
+      "epoch": 0.123380346290563,
+      "grad_norm": 0.48214566707611084,
+      "learning_rate": 0.0009774410959622845,
+      "loss": 2.7425215244293213,
+      "step": 269,
+      "token_acc": 0.4540525114155251
+    },
+    {
+      "epoch": 0.1238390092879257,
+      "grad_norm": 0.4810029864311218,
+      "learning_rate": 0.000977220000680901,
+      "loss": 2.6146833896636963,
+      "step": 270,
+      "token_acc": 0.4693069306930693
+    },
+    {
+      "epoch": 0.12429767228528839,
+      "grad_norm": 0.49819162487983704,
+      "learning_rate": 0.000976997852474223,
+      "loss": 2.6429827213287354,
+      "step": 271,
+      "token_acc": 0.45541490857946554
+    },
+    {
+      "epoch": 0.12475633528265107,
+      "grad_norm": 0.48519694805145264,
+      "learning_rate": 0.0009767746518323914,
+      "loss": 2.601815700531006,
+      "step": 272,
+      "token_acc": 0.46147110332749564
+    },
+    {
+      "epoch": 0.12521499828001376,
+      "grad_norm": 0.4626546800136566,
+      "learning_rate": 0.0009765503992478704,
+      "loss": 2.755178928375244,
+      "step": 273,
+      "token_acc": 0.4522844011895107
+    },
+    {
+      "epoch": 0.12567366127737645,
+      "grad_norm": 0.44029468297958374,
+      "learning_rate": 0.0009763250952154449,
+      "loss": 2.6168665885925293,
+      "step": 274,
+      "token_acc": 0.4608244608244608
+    },
+    {
+      "epoch": 0.12613232427473914,
+      "grad_norm": 0.49189871549606323,
+      "learning_rate": 0.0009760987402322195,
+      "loss": 2.738861560821533,
+      "step": 275,
+      "token_acc": 0.43494749124854143
+    },
+    {
+      "epoch": 0.12659098727210183,
+      "grad_norm": 0.4711836576461792,
+      "learning_rate": 0.0009758713347976178,
+      "loss": 2.7233986854553223,
+      "step": 276,
+      "token_acc": 0.44700854700854703
+    },
+    {
+      "epoch": 0.12704965026946452,
+      "grad_norm": 0.46865519881248474,
+      "learning_rate": 0.000975642879413381,
+      "loss": 2.7250137329101562,
+      "step": 277,
+      "token_acc": 0.4469882801853366
+    },
+    {
+      "epoch": 0.1275083132668272,
+      "grad_norm": 0.48860496282577515,
+      "learning_rate": 0.0009754133745835665,
+      "loss": 2.631627082824707,
+      "step": 278,
+      "token_acc": 0.4510760401721664
+    },
+    {
+      "epoch": 0.12796697626418987,
+      "grad_norm": 0.471628874540329,
+      "learning_rate": 0.0009751828208145482,
+      "loss": 2.711574077606201,
+      "step": 279,
+      "token_acc": 0.4500846023688663
+    },
+    {
+      "epoch": 0.12842563926155257,
+      "grad_norm": 0.4410566985607147,
+      "learning_rate": 0.0009749512186150131,
+      "loss": 2.6659445762634277,
+      "step": 280,
+      "token_acc": 0.45608011444921315
+    },
+    {
+      "epoch": 0.12888430225891526,
+      "grad_norm": 0.4598624110221863,
+      "learning_rate": 0.0009747185684959625,
+      "loss": 2.576528549194336,
+      "step": 281,
+      "token_acc": 0.4682209270052734
+    },
+    {
+      "epoch": 0.12934296525627795,
+      "grad_norm": 0.4531632661819458,
+      "learning_rate": 0.000974484870970709,
+      "loss": 2.60367488861084,
+      "step": 282,
+      "token_acc": 0.4615814473316569
+    },
+    {
+      "epoch": 0.12980162825364064,
+      "grad_norm": 0.48766836524009705,
+      "learning_rate": 0.0009742501265548767,
+      "loss": 2.7014331817626953,
+      "step": 283,
+      "token_acc": 0.45675675675675675
+    },
+    {
+      "epoch": 0.13026029125100333,
+      "grad_norm": 0.45787861943244934,
+      "learning_rate": 0.0009740143357663993,
+      "loss": 2.743968963623047,
+      "step": 284,
+      "token_acc": 0.438132733408324
+    },
+    {
+      "epoch": 0.13071895424836602,
+      "grad_norm": 0.4447533190250397,
+      "learning_rate": 0.000973777499125519,
+      "loss": 2.580028533935547,
+      "step": 285,
+      "token_acc": 0.4640931024694862
+    },
+    {
+      "epoch": 0.1311776172457287,
+      "grad_norm": 0.42102017998695374,
+      "learning_rate": 0.0009735396171547859,
+      "loss": 2.709049701690674,
+      "step": 286,
+      "token_acc": 0.46093538794268724
+    },
+    {
+      "epoch": 0.13163628024309137,
+      "grad_norm": 0.4520343542098999,
+      "learning_rate": 0.0009733006903790564,
+      "loss": 2.666001796722412,
+      "step": 287,
+      "token_acc": 0.4589022011702424
+    },
+    {
+      "epoch": 0.13209494324045407,
+      "grad_norm": 0.45855414867401123,
+      "learning_rate": 0.0009730607193254922,
+      "loss": 2.6493330001831055,
+      "step": 288,
+      "token_acc": 0.4474182211408489
+    },
+    {
+      "epoch": 0.13255360623781676,
+      "grad_norm": 0.4588400721549988,
+      "learning_rate": 0.0009728197045235585,
+      "loss": 2.7342629432678223,
+      "step": 289,
+      "token_acc": 0.4611784140969163
+    },
+    {
+      "epoch": 0.13301226923517945,
+      "grad_norm": 0.44269150495529175,
+      "learning_rate": 0.0009725776465050242,
+      "loss": 2.7004497051239014,
+      "step": 290,
+      "token_acc": 0.4518966465090709
+    },
+    {
+      "epoch": 0.13347093223254214,
+      "grad_norm": 0.42865708470344543,
+      "learning_rate": 0.0009723345458039594,
+      "loss": 2.8211264610290527,
+      "step": 291,
+      "token_acc": 0.4496976360637713
+    },
+    {
+      "epoch": 0.13392959522990483,
+      "grad_norm": 0.4593128263950348,
+      "learning_rate": 0.000972090402956735,
+      "loss": 2.727714776992798,
+      "step": 292,
+      "token_acc": 0.4459072696050372
+    },
+    {
+      "epoch": 0.13438825822726752,
+      "grad_norm": 0.47486087679862976,
+      "learning_rate": 0.0009718452185020212,
+      "loss": 2.5863165855407715,
+      "step": 293,
+      "token_acc": 0.46486928104575165
+    },
+    {
+      "epoch": 0.1348469212246302,
+      "grad_norm": 0.46855610609054565,
+      "learning_rate": 0.0009715989929807862,
+      "loss": 2.679780960083008,
+      "step": 294,
+      "token_acc": 0.454753068798173
+    },
+    {
+      "epoch": 0.1353055842219929,
+      "grad_norm": 0.4737672507762909,
+      "learning_rate": 0.0009713517269362955,
+      "loss": 2.5102977752685547,
+      "step": 295,
+      "token_acc": 0.4812465526751241
+    },
+    {
+      "epoch": 0.13576424721935557,
+      "grad_norm": 0.4539264738559723,
+      "learning_rate": 0.0009711034209141101,
+      "loss": 2.6829171180725098,
+      "step": 296,
+      "token_acc": 0.45569620253164556
+    },
+    {
+      "epoch": 0.13622291021671826,
+      "grad_norm": 0.4509277939796448,
+      "learning_rate": 0.0009708540754620856,
+      "loss": 2.630279064178467,
+      "step": 297,
+      "token_acc": 0.4627777777777778
+    },
+    {
+      "epoch": 0.13668157321408095,
+      "grad_norm": 0.45156824588775635,
+      "learning_rate": 0.0009706036911303713,
+      "loss": 2.7109832763671875,
+      "step": 298,
+      "token_acc": 0.45323341659728006
+    },
+    {
+      "epoch": 0.13714023621144364,
+      "grad_norm": 0.4637218415737152,
+      "learning_rate": 0.0009703522684714083,
+      "loss": 2.683100700378418,
+      "step": 299,
+      "token_acc": 0.454325631380978
+    },
+    {
+      "epoch": 0.13759889920880633,
+      "grad_norm": 0.4948784112930298,
+      "learning_rate": 0.0009700998080399286,
+      "loss": 2.62599515914917,
+      "step": 300,
+      "token_acc": 0.47627118644067795
+    },
+    {
+      "epoch": 0.13805756220616902,
+      "grad_norm": 0.4904714524745941,
+      "learning_rate": 0.0009698463103929542,
+      "loss": 2.6045732498168945,
+      "step": 301,
+      "token_acc": 0.45304496300512237
+    },
+    {
+      "epoch": 0.1385162252035317,
+      "grad_norm": 0.4857576787471771,
+      "learning_rate": 0.0009695917760897954,
+      "loss": 2.6724820137023926,
+      "step": 302,
+      "token_acc": 0.446825827455236
+    },
+    {
+      "epoch": 0.1389748882008944,
+      "grad_norm": 0.4905373156070709,
+      "learning_rate": 0.0009693362056920501,
+      "loss": 2.6945180892944336,
+      "step": 303,
+      "token_acc": 0.45143018974794674
+    },
+    {
+      "epoch": 0.1394335511982571,
+      "grad_norm": 0.4605286717414856,
+      "learning_rate": 0.0009690795997636015,
+      "loss": 2.607300043106079,
+      "step": 304,
+      "token_acc": 0.45805555555555555
+    },
+    {
+      "epoch": 0.13989221419561976,
+      "grad_norm": 0.4407762587070465,
+      "learning_rate": 0.0009688219588706179,
+      "loss": 2.6524338722229004,
+      "step": 305,
+      "token_acc": 0.44611885129371626
+    },
+    {
+      "epoch": 0.14035087719298245,
+      "grad_norm": 0.49506306648254395,
+      "learning_rate": 0.0009685632835815518,
+      "loss": 2.7355003356933594,
+      "step": 306,
+      "token_acc": 0.4582977512097922
+    },
+    {
+      "epoch": 0.14080954019034514,
+      "grad_norm": 0.45858341455459595,
+      "learning_rate": 0.0009683035744671367,
+      "loss": 2.6687657833099365,
+      "step": 307,
+      "token_acc": 0.46675712347354137
+    },
+    {
+      "epoch": 0.14126820318770783,
+      "grad_norm": 0.45298895239830017,
+      "learning_rate": 0.0009680428321003883,
+      "loss": 2.5958151817321777,
+      "step": 308,
+      "token_acc": 0.4583093732029902
+    },
+    {
+      "epoch": 0.14172686618507052,
+      "grad_norm": 0.47553375363349915,
+      "learning_rate": 0.000967781057056601,
+      "loss": 2.765871047973633,
+      "step": 309,
+      "token_acc": 0.4411520354472445
+    },
+    {
+      "epoch": 0.1421855291824332,
+      "grad_norm": 0.4662638306617737,
+      "learning_rate": 0.0009675182499133485,
+      "loss": 2.5899243354797363,
+      "step": 310,
+      "token_acc": 0.47034368070953436
+    },
+    {
+      "epoch": 0.1426441921797959,
+      "grad_norm": 0.4514010548591614,
+      "learning_rate": 0.0009672544112504813,
+      "loss": 2.7456226348876953,
+      "step": 311,
+      "token_acc": 0.43640350877192985
+    },
+    {
+      "epoch": 0.1431028551771586,
+      "grad_norm": 0.44404852390289307,
+      "learning_rate": 0.0009669895416501257,
+      "loss": 2.6584689617156982,
+      "step": 312,
+      "token_acc": 0.4579004920721706
+    },
+    {
+      "epoch": 0.14356151817452126,
+      "grad_norm": 0.41799837350845337,
+      "learning_rate": 0.0009667236416966833,
+      "loss": 2.663342237472534,
+      "step": 313,
+      "token_acc": 0.4572237960339943
+    },
+    {
+      "epoch": 0.14402018117188395,
+      "grad_norm": 0.46077635884284973,
+      "learning_rate": 0.0009664567119768281,
+      "loss": 2.716834545135498,
+      "step": 314,
+      "token_acc": 0.4504792332268371
+    },
+    {
+      "epoch": 0.14447884416924664,
+      "grad_norm": 0.440729558467865,
+      "learning_rate": 0.0009661887530795067,
+      "loss": 2.641364574432373,
+      "step": 315,
+      "token_acc": 0.4575074667390714
+    },
+    {
+      "epoch": 0.14493750716660933,
+      "grad_norm": 0.4021221101284027,
+      "learning_rate": 0.0009659197655959365,
+      "loss": 2.5541903972625732,
+      "step": 316,
+      "token_acc": 0.46541584990198825
+    },
+    {
+      "epoch": 0.14539617016397202,
+      "grad_norm": 0.41290542483329773,
+      "learning_rate": 0.000965649750119604,
+      "loss": 2.6294302940368652,
+      "step": 317,
+      "token_acc": 0.4622260668973472
+    },
+    {
+      "epoch": 0.1458548331613347,
+      "grad_norm": 0.49133044481277466,
+      "learning_rate": 0.0009653787072462643,
+      "loss": 2.609557628631592,
+      "step": 318,
+      "token_acc": 0.4618406285072952
+    },
+    {
+      "epoch": 0.1463134961586974,
+      "grad_norm": 0.4281124472618103,
+      "learning_rate": 0.0009651066375739388,
+      "loss": 2.646521806716919,
+      "step": 319,
+      "token_acc": 0.452445652173913
+    },
+    {
+      "epoch": 0.1467721591560601,
+      "grad_norm": 0.4512559175491333,
+      "learning_rate": 0.000964833541702915,
+      "loss": 2.646510601043701,
+      "step": 320,
+      "token_acc": 0.45919256462387453
+    },
+    {
+      "epoch": 0.14723082215342279,
+      "grad_norm": 0.48132291436195374,
+      "learning_rate": 0.0009645594202357438,
+      "loss": 2.6195013523101807,
+      "step": 321,
+      "token_acc": 0.46012961397576785
+    },
+    {
+      "epoch": 0.14768948515078545,
+      "grad_norm": 0.4225758910179138,
+      "learning_rate": 0.0009642842737772397,
+      "loss": 2.6827616691589355,
+      "step": 322,
+      "token_acc": 0.4592445328031809
+    },
+    {
+      "epoch": 0.14814814814814814,
+      "grad_norm": 0.4714726507663727,
+      "learning_rate": 0.0009640081029344782,
+      "loss": 2.7056689262390137,
+      "step": 323,
+      "token_acc": 0.4472032742155525
+    },
+    {
+      "epoch": 0.14860681114551083,
+      "grad_norm": 0.44620776176452637,
+      "learning_rate": 0.0009637309083167956,
+      "loss": 2.619565010070801,
+      "step": 324,
+      "token_acc": 0.45176277671494947
+    },
+    {
+      "epoch": 0.14906547414287352,
+      "grad_norm": 0.45049190521240234,
+      "learning_rate": 0.0009634526905357859,
+      "loss": 2.5478286743164062,
+      "step": 325,
+      "token_acc": 0.4800878879428728
+    },
+    {
+      "epoch": 0.1495241371402362,
+      "grad_norm": 0.4652085304260254,
+      "learning_rate": 0.000963173450205302,
+      "loss": 2.7047977447509766,
+      "step": 326,
+      "token_acc": 0.45706999149900823
+    },
+    {
+      "epoch": 0.1499828001375989,
+      "grad_norm": 0.4410254955291748,
+      "learning_rate": 0.0009628931879414517,
+      "loss": 2.612150192260742,
+      "step": 327,
+      "token_acc": 0.468645948945616
+    },
+    {
+      "epoch": 0.1504414631349616,
+      "grad_norm": 0.433908611536026,
+      "learning_rate": 0.0009626119043625983,
+      "loss": 2.656696319580078,
+      "step": 328,
+      "token_acc": 0.4565102793885082
+    },
+    {
+      "epoch": 0.15090012613232429,
+      "grad_norm": 0.4078153371810913,
+      "learning_rate": 0.0009623296000893582,
+      "loss": 2.728360176086426,
+      "step": 329,
+      "token_acc": 0.4491662183969876
+    },
+    {
+      "epoch": 0.15135878912968695,
+      "grad_norm": 0.4310557246208191,
+      "learning_rate": 0.0009620462757446,
+      "loss": 2.6527769565582275,
+      "step": 330,
+      "token_acc": 0.4591385974599669
+    },
+    {
+      "epoch": 0.15181745212704964,
+      "grad_norm": 0.44758525490760803,
+      "learning_rate": 0.0009617619319534428,
+      "loss": 2.5204648971557617,
+      "step": 331,
+      "token_acc": 0.47711511789181693
+    },
+    {
+      "epoch": 0.15227611512441233,
+      "grad_norm": 0.4272925555706024,
+      "learning_rate": 0.000961476569343255,
+      "loss": 2.6252169609069824,
+      "step": 332,
+      "token_acc": 0.4616457461645746
+    },
+    {
+      "epoch": 0.15273477812177502,
+      "grad_norm": 0.4322047531604767,
+      "learning_rate": 0.0009611901885436529,
+      "loss": 2.675680637359619,
+      "step": 333,
+      "token_acc": 0.4553056516724337
+    },
+    {
+      "epoch": 0.1531934411191377,
+      "grad_norm": 0.41309264302253723,
+      "learning_rate": 0.0009609027901864996,
+      "loss": 2.540499210357666,
+      "step": 334,
+      "token_acc": 0.46470261256253476
+    },
+    {
+      "epoch": 0.1536521041165004,
+      "grad_norm": 0.4057660400867462,
+      "learning_rate": 0.0009606143749059029,
+      "loss": 2.546102285385132,
+      "step": 335,
+      "token_acc": 0.4695453245639119
+    },
+    {
+      "epoch": 0.1541107671138631,
+      "grad_norm": 0.43747833371162415,
+      "learning_rate": 0.0009603249433382144,
+      "loss": 2.513627290725708,
+      "step": 336,
+      "token_acc": 0.47656691134952006
+    },
+    {
+      "epoch": 0.1545694301112258,
+      "grad_norm": 0.42677709460258484,
+      "learning_rate": 0.0009600344961220282,
+      "loss": 2.5630908012390137,
+      "step": 337,
+      "token_acc": 0.4673380511703865
+    },
+    {
+      "epoch": 0.15502809310858848,
+      "grad_norm": 0.42010241746902466,
+      "learning_rate": 0.0009597430338981791,
+      "loss": 2.6896262168884277,
+      "step": 338,
+      "token_acc": 0.4583219458868543
+    },
+    {
+      "epoch": 0.15548675610595114,
+      "grad_norm": 0.4195159375667572,
+      "learning_rate": 0.0009594505573097414,
+      "loss": 2.550534725189209,
+      "step": 339,
+      "token_acc": 0.4762301918265221
+    },
+    {
+      "epoch": 0.15594541910331383,
+      "grad_norm": 0.9145894050598145,
+      "learning_rate": 0.0009591570670020277,
+      "loss": 2.6144676208496094,
+      "step": 340,
+      "token_acc": 0.463768115942029
+    },
+    {
+      "epoch": 0.15640408210067652,
+      "grad_norm": 0.41407856345176697,
+      "learning_rate": 0.0009588625636225871,
+      "loss": 2.5932719707489014,
+      "step": 341,
+      "token_acc": 0.4684431977559607
+    },
+    {
+      "epoch": 0.1568627450980392,
+      "grad_norm": 0.3991939127445221,
+      "learning_rate": 0.0009585670478212036,
+      "loss": 2.5219039916992188,
+      "step": 342,
+      "token_acc": 0.4842820730671198
+    },
+    {
+      "epoch": 0.1573214080954019,
+      "grad_norm": 0.3979887068271637,
+      "learning_rate": 0.0009582705202498956,
+      "loss": 2.740537405014038,
+      "step": 343,
+      "token_acc": 0.44368600682593856
+    },
+    {
+      "epoch": 0.1577800710927646,
+      "grad_norm": 0.4085947275161743,
+      "learning_rate": 0.0009579729815629133,
+      "loss": 2.645550012588501,
+      "step": 344,
+      "token_acc": 0.4454293628808864
+    },
+    {
+      "epoch": 0.1582387340901273,
+      "grad_norm": 0.3952935039997101,
+      "learning_rate": 0.0009576744324167379,
+      "loss": 2.6678290367126465,
+      "step": 345,
+      "token_acc": 0.45360246705915336
+    },
+    {
+      "epoch": 0.15869739708748998,
+      "grad_norm": 0.4013282358646393,
+      "learning_rate": 0.0009573748734700804,
+      "loss": 2.665316104888916,
+      "step": 346,
+      "token_acc": 0.4549803038829488
+    },
+    {
+      "epoch": 0.15915606008485264,
+      "grad_norm": 0.43184563517570496,
+      "learning_rate": 0.0009570743053838796,
+      "loss": 2.6518001556396484,
+      "step": 347,
+      "token_acc": 0.4527277920594116
+    },
+    {
+      "epoch": 0.15961472308221533,
+      "grad_norm": 0.43059587478637695,
+      "learning_rate": 0.0009567727288213005,
+      "loss": 2.6103944778442383,
+      "step": 348,
+      "token_acc": 0.4683982683982684
+    },
+    {
+      "epoch": 0.16007338607957802,
+      "grad_norm": 0.39773428440093994,
+      "learning_rate": 0.0009564701444477337,
+      "loss": 2.539630651473999,
+      "step": 349,
+      "token_acc": 0.4700574241181296
+    },
+    {
+      "epoch": 0.1605320490769407,
+      "grad_norm": 0.4003061354160309,
+      "learning_rate": 0.000956166552930793,
+      "loss": 2.5952489376068115,
+      "step": 350,
+      "token_acc": 0.46498371335504884
+    },
+    {
+      "epoch": 0.1609907120743034,
+      "grad_norm": 0.41031357645988464,
+      "learning_rate": 0.0009558619549403147,
+      "loss": 2.6801841259002686,
+      "step": 351,
+      "token_acc": 0.459511391710129
+    },
+    {
+      "epoch": 0.1614493750716661,
+      "grad_norm": 0.4316340684890747,
+      "learning_rate": 0.0009555563511483555,
+      "loss": 2.5892770290374756,
+      "step": 352,
+      "token_acc": 0.4663501815135437
+    },
+    {
+      "epoch": 0.1619080380690288,
+      "grad_norm": 0.4244668483734131,
+      "learning_rate": 0.0009552497422291912,
+      "loss": 2.6481175422668457,
+      "step": 353,
+      "token_acc": 0.453839516824849
+    },
+    {
+      "epoch": 0.16236670106639148,
+      "grad_norm": 0.43733328580856323,
+      "learning_rate": 0.0009549421288593157,
+      "loss": 2.6002888679504395,
+      "step": 354,
+      "token_acc": 0.4637600666481533
+    },
+    {
+      "epoch": 0.16282536406375417,
+      "grad_norm": 0.42245471477508545,
+      "learning_rate": 0.0009546335117174385,
+      "loss": 2.646571636199951,
+      "step": 355,
+      "token_acc": 0.4745065789473684
+    },
+    {
+      "epoch": 0.16328402706111683,
+      "grad_norm": 0.4705248475074768,
+      "learning_rate": 0.0009543238914844843,
+      "loss": 2.68941593170166,
+      "step": 356,
+      "token_acc": 0.4515946937623483
+    },
+    {
+      "epoch": 0.16374269005847952,
+      "grad_norm": 0.42907077074050903,
+      "learning_rate": 0.0009540132688435907,
+      "loss": 2.5946288108825684,
+      "step": 357,
+      "token_acc": 0.46524663677130046
+    },
+    {
+      "epoch": 0.16420135305584221,
+      "grad_norm": 0.44306936860084534,
+      "learning_rate": 0.0009537016444801074,
+      "loss": 2.5938315391540527,
+      "step": 358,
+      "token_acc": 0.4625831485587583
+    },
+    {
+      "epoch": 0.1646600160532049,
+      "grad_norm": 0.45394963026046753,
+      "learning_rate": 0.0009533890190815935,
+      "loss": 2.6404004096984863,
+      "step": 359,
+      "token_acc": 0.46140845070422537
+    },
+    {
+      "epoch": 0.1651186790505676,
+      "grad_norm": 0.3955903947353363,
+      "learning_rate": 0.0009530753933378173,
+      "loss": 2.5607573986053467,
+      "step": 360,
+      "token_acc": 0.47087776866283837
+    },
+    {
+      "epoch": 0.1655773420479303,
+      "grad_norm": 0.4902538061141968,
+      "learning_rate": 0.0009527607679407545,
+      "loss": 2.599848747253418,
+      "step": 361,
+      "token_acc": 0.4620288248337029
+    },
+    {
+      "epoch": 0.16603600504529298,
+      "grad_norm": 0.45067575573921204,
+      "learning_rate": 0.0009524451435845857,
+      "loss": 2.5180816650390625,
+      "step": 362,
+      "token_acc": 0.4786497403346797
+    },
+    {
+      "epoch": 0.16649466804265567,
+      "grad_norm": 0.482149600982666,
+      "learning_rate": 0.0009521285209656963,
+      "loss": 2.6017041206359863,
+      "step": 363,
+      "token_acc": 0.45644796380090497
+    },
+    {
+      "epoch": 0.16695333104001836,
+      "grad_norm": 0.451749712228775,
+      "learning_rate": 0.0009518109007826734,
+      "loss": 2.5994341373443604,
+      "step": 364,
+      "token_acc": 0.47328458942632173
+    },
+    {
+      "epoch": 0.16741199403738102,
+      "grad_norm": 0.42110058665275574,
+      "learning_rate": 0.0009514922837363059,
+      "loss": 2.636958122253418,
+      "step": 365,
+      "token_acc": 0.47013907826561224
+    },
+    {
+      "epoch": 0.16787065703474371,
+      "grad_norm": 0.44847872853279114,
+      "learning_rate": 0.0009511726705295817,
+      "loss": 2.5942578315734863,
+      "step": 366,
+      "token_acc": 0.4602957283680175
+    },
+    {
+      "epoch": 0.1683293200321064,
+      "grad_norm": 0.42123496532440186,
+      "learning_rate": 0.000950852061867687,
+      "loss": 2.653465509414673,
+      "step": 367,
+      "token_acc": 0.44511858797573084
+    },
+    {
+      "epoch": 0.1687879830294691,
+      "grad_norm": 0.4216095209121704,
+      "learning_rate": 0.0009505304584580038,
+      "loss": 2.674640655517578,
+      "step": 368,
+      "token_acc": 0.4494611127293912
+    },
+    {
+      "epoch": 0.1692466460268318,
+      "grad_norm": 0.4416753053665161,
+      "learning_rate": 0.0009502078610101092,
+      "loss": 2.6137852668762207,
+      "step": 369,
+      "token_acc": 0.4727120067170445
+    },
+    {
+      "epoch": 0.16970530902419448,
+      "grad_norm": 0.41216611862182617,
+      "learning_rate": 0.0009498842702357736,
+      "loss": 2.509769916534424,
+      "step": 370,
+      "token_acc": 0.46772428884026257
+    },
+    {
+      "epoch": 0.17016397202155717,
+      "grad_norm": 0.4165962040424347,
+      "learning_rate": 0.0009495596868489587,
+      "loss": 2.5886473655700684,
+      "step": 371,
+      "token_acc": 0.4643769514618223
+    },
+    {
+      "epoch": 0.17062263501891986,
+      "grad_norm": 0.39617934823036194,
+      "learning_rate": 0.0009492341115658167,
+      "loss": 2.638978958129883,
+      "step": 372,
+      "token_acc": 0.4578575312669929
+    },
+    {
+      "epoch": 0.17108129801628252,
+      "grad_norm": 0.41385167837142944,
+      "learning_rate": 0.0009489075451046879,
+      "loss": 2.629528045654297,
+      "step": 373,
+      "token_acc": 0.44881450488145047
+    },
+    {
+      "epoch": 0.17153996101364521,
+      "grad_norm": 0.4302857518196106,
+      "learning_rate": 0.0009485799881861,
+      "loss": 2.520348072052002,
+      "step": 374,
+      "token_acc": 0.46902901785714285
+    },
+    {
+      "epoch": 0.1719986240110079,
+      "grad_norm": 0.45588448643684387,
+      "learning_rate": 0.0009482514415327654,
+      "loss": 2.651028633117676,
+      "step": 375,
+      "token_acc": 0.45060706401766004
+    },
+    {
+      "epoch": 0.1724572870083706,
+      "grad_norm": 0.4505552649497986,
+      "learning_rate": 0.000947921905869581,
+      "loss": 2.5736663341522217,
+      "step": 376,
+      "token_acc": 0.47363636363636363
+    },
+    {
+      "epoch": 0.1729159500057333,
+      "grad_norm": 0.40757641196250916,
+      "learning_rate": 0.0009475913819236248,
+      "loss": 2.5957694053649902,
+      "step": 377,
+      "token_acc": 0.47420417124039516
+    },
+    {
+      "epoch": 0.17337461300309598,
+      "grad_norm": 0.4351325035095215,
+      "learning_rate": 0.0009472598704241561,
+      "loss": 2.4885451793670654,
+      "step": 378,
+      "token_acc": 0.4707658523195169
+    },
+    {
+      "epoch": 0.17383327600045867,
+      "grad_norm": 0.40504732728004456,
+      "learning_rate": 0.0009469273721026131,
+      "loss": 2.5353477001190186,
+      "step": 379,
+      "token_acc": 0.4721159103335156
+    },
+    {
+      "epoch": 0.17429193899782136,
+      "grad_norm": 0.38353148102760315,
+      "learning_rate": 0.0009465938876926111,
+      "loss": 2.6405746936798096,
+      "step": 380,
+      "token_acc": 0.46988950276243097
+    },
+    {
+      "epoch": 0.17475060199518405,
+      "grad_norm": 0.3908288776874542,
+      "learning_rate": 0.0009462594179299406,
+      "loss": 2.5685665607452393,
+      "step": 381,
+      "token_acc": 0.47017045454545453
+    },
+    {
+      "epoch": 0.17520926499254671,
+      "grad_norm": 0.41922634840011597,
+      "learning_rate": 0.0009459239635525672,
+      "loss": 2.615957260131836,
+      "step": 382,
+      "token_acc": 0.46454494695700727
+    },
+    {
+      "epoch": 0.1756679279899094,
+      "grad_norm": 0.4485314190387726,
+      "learning_rate": 0.0009455875253006281,
+      "loss": 2.593306541442871,
+      "step": 383,
+      "token_acc": 0.46047430830039526
+    },
+    {
+      "epoch": 0.1761265909872721,
+      "grad_norm": 0.3978206515312195,
+      "learning_rate": 0.0009452501039164315,
+      "loss": 2.6363213062286377,
+      "step": 384,
+      "token_acc": 0.4570466030320045
+    },
+    {
+      "epoch": 0.1765852539846348,
+      "grad_norm": 0.4241364002227783,
+      "learning_rate": 0.0009449117001444549,
+      "loss": 2.4863171577453613,
+      "step": 385,
+      "token_acc": 0.4844632768361582
+    },
+    {
+      "epoch": 0.17704391698199748,
+      "grad_norm": 0.4510960578918457,
+      "learning_rate": 0.0009445723147313433,
+      "loss": 2.6984877586364746,
+      "step": 386,
+      "token_acc": 0.4480177432769615
+    },
+    {
+      "epoch": 0.17750257997936017,
+      "grad_norm": 0.43443918228149414,
+      "learning_rate": 0.0009442319484259074,
+      "loss": 2.484069347381592,
+      "step": 387,
+      "token_acc": 0.48188194038573934
+    },
+    {
+      "epoch": 0.17796124297672286,
+      "grad_norm": 0.4151553809642792,
+      "learning_rate": 0.0009438906019791222,
+      "loss": 2.6051125526428223,
+      "step": 388,
+      "token_acc": 0.45906113537117904
+    },
+    {
+      "epoch": 0.17841990597408555,
+      "grad_norm": 0.3965606689453125,
+      "learning_rate": 0.0009435482761441251,
+      "loss": 2.514193534851074,
+      "step": 389,
+      "token_acc": 0.47919010123734535
+    },
+    {
+      "epoch": 0.17887856897144822,
+      "grad_norm": 0.43322673439979553,
+      "learning_rate": 0.000943204971676215,
+      "loss": 2.5595152378082275,
+      "step": 390,
+      "token_acc": 0.4584847637685211
+    },
+    {
+      "epoch": 0.1793372319688109,
+      "grad_norm": 0.40551865100860596,
+      "learning_rate": 0.0009428606893328493,
+      "loss": 2.5409257411956787,
+      "step": 391,
+      "token_acc": 0.46350468616870205
+    },
+    {
+      "epoch": 0.1797958949661736,
+      "grad_norm": 0.4015904664993286,
+      "learning_rate": 0.0009425154298736432,
+      "loss": 2.572035312652588,
+      "step": 392,
+      "token_acc": 0.46819634040081326
+    },
+    {
+      "epoch": 0.1802545579635363,
+      "grad_norm": 0.4025871157646179,
+      "learning_rate": 0.0009421691940603678,
+      "loss": 2.6474266052246094,
+      "step": 393,
+      "token_acc": 0.46271139451067367
+    },
+    {
+      "epoch": 0.18071322096089898,
+      "grad_norm": 0.4192837178707123,
+      "learning_rate": 0.0009418219826569488,
+      "loss": 2.701843023300171,
+      "step": 394,
+      "token_acc": 0.45130979498861046
+    },
+    {
+      "epoch": 0.18117188395826167,
+      "grad_norm": 0.38373637199401855,
+      "learning_rate": 0.0009414737964294635,
+      "loss": 2.570427894592285,
+      "step": 395,
+      "token_acc": 0.4481614597732928
+    },
+    {
+      "epoch": 0.18163054695562436,
+      "grad_norm": 0.4057350158691406,
+      "learning_rate": 0.000941124636146141,
+      "loss": 2.582561492919922,
+      "step": 396,
+      "token_acc": 0.4712304514606078
+    },
+    {
+      "epoch": 0.18208920995298705,
+      "grad_norm": 0.4132590591907501,
+      "learning_rate": 0.0009407745025773589,
+      "loss": 2.5467779636383057,
+      "step": 397,
+      "token_acc": 0.4694873881204231
+    },
+    {
+      "epoch": 0.18254787295034974,
+      "grad_norm": 0.39825674891471863,
+      "learning_rate": 0.0009404233964956423,
+      "loss": 2.7308290004730225,
+      "step": 398,
+      "token_acc": 0.4467480829309855
+    },
+    {
+      "epoch": 0.1830065359477124,
+      "grad_norm": 0.407055139541626,
+      "learning_rate": 0.0009400713186756625,
+      "loss": 2.619384527206421,
+      "step": 399,
+      "token_acc": 0.4601499583449042
+    },
+    {
+      "epoch": 0.1834651989450751,
+      "grad_norm": 0.4172784388065338,
+      "learning_rate": 0.0009397182698942342,
+      "loss": 2.5730819702148438,
+      "step": 400,
+      "token_acc": 0.45263739298536315
+    },
+    {
+      "epoch": 0.1839238619424378,
+      "grad_norm": 0.4333350956439972,
+      "learning_rate": 0.0009393642509303149,
+      "loss": 2.6688592433929443,
+      "step": 401,
+      "token_acc": 0.4741113909879653
+    },
+    {
+      "epoch": 0.18438252493980048,
+      "grad_norm": 0.3947511911392212,
+      "learning_rate": 0.0009390092625650023,
+      "loss": 2.657405376434326,
+      "step": 402,
+      "token_acc": 0.45810363836824697
+    },
+    {
+      "epoch": 0.18484118793716317,
+      "grad_norm": 0.4339149296283722,
+      "learning_rate": 0.0009386533055815332,
+      "loss": 2.681288719177246,
+      "step": 403,
+      "token_acc": 0.45652173913043476
+    },
+    {
+      "epoch": 0.18529985093452586,
+      "grad_norm": 0.3941650986671448,
+      "learning_rate": 0.0009382963807652813,
+      "loss": 2.5837690830230713,
+      "step": 404,
+      "token_acc": 0.47146334866107653
+    },
+    {
+      "epoch": 0.18575851393188855,
+      "grad_norm": 0.4603818953037262,
+      "learning_rate": 0.000937938488903756,
+      "loss": 2.6627614498138428,
+      "step": 405,
+      "token_acc": 0.466951566951567
+    },
+    {
+      "epoch": 0.18621717692925124,
+      "grad_norm": 0.3865680694580078,
+      "learning_rate": 0.0009375796307866003,
+      "loss": 2.5871713161468506,
+      "step": 406,
+      "token_acc": 0.4653716216216216
+    },
+    {
+      "epoch": 0.1866758399266139,
+      "grad_norm": 0.41417625546455383,
+      "learning_rate": 0.0009372198072055888,
+      "loss": 2.5773262977600098,
+      "step": 407,
+      "token_acc": 0.4564059433697785
+    },
+    {
+      "epoch": 0.1871345029239766,
+      "grad_norm": 0.3635321259498596,
+      "learning_rate": 0.0009368590189546268,
+      "loss": 2.5331361293792725,
+      "step": 408,
+      "token_acc": 0.4676176890156919
+    },
+    {
+      "epoch": 0.1875931659213393,
+      "grad_norm": 0.38962680101394653,
+      "learning_rate": 0.0009364972668297474,
+      "loss": 2.552304744720459,
+      "step": 409,
+      "token_acc": 0.4653732147669092
+    },
+    {
+      "epoch": 0.18805182891870198,
+      "grad_norm": 0.4158221185207367,
+      "learning_rate": 0.0009361345516291111,
+      "loss": 2.550410032272339,
+      "step": 410,
+      "token_acc": 0.453159645232816
+    },
+    {
+      "epoch": 0.18851049191606467,
+      "grad_norm": 0.4099529981613159,
+      "learning_rate": 0.0009357708741530024,
+      "loss": 2.707277774810791,
+      "step": 411,
+      "token_acc": 0.4332859174964438
+    },
+    {
+      "epoch": 0.18896915491342736,
+      "grad_norm": 0.41067618131637573,
+      "learning_rate": 0.00093540623520383,
+      "loss": 2.553727149963379,
+      "step": 412,
+      "token_acc": 0.4730488489612577
+    },
+    {
+      "epoch": 0.18942781791079005,
+      "grad_norm": 0.38499942421913147,
+      "learning_rate": 0.000935040635586123,
+      "loss": 2.5731756687164307,
+      "step": 413,
+      "token_acc": 0.4715830329914056
+    },
+    {
+      "epoch": 0.18988648090815274,
+      "grad_norm": 0.3790716826915741,
+      "learning_rate": 0.0009346740761065305,
+      "loss": 2.6889755725860596,
+      "step": 414,
+      "token_acc": 0.45875862068965517
+    },
+    {
+      "epoch": 0.19034514390551543,
+      "grad_norm": 0.3953869342803955,
+      "learning_rate": 0.0009343065575738197,
+      "loss": 2.6290853023529053,
+      "step": 415,
+      "token_acc": 0.465512577765756
+    },
+    {
+      "epoch": 0.1908038069028781,
+      "grad_norm": 0.4042235314846039,
+      "learning_rate": 0.0009339380807988733,
+      "loss": 2.6420435905456543,
+      "step": 416,
+      "token_acc": 0.4564732142857143
+    },
+    {
+      "epoch": 0.1912624699002408,
+      "grad_norm": 0.3795788586139679,
+      "learning_rate": 0.0009335686465946887,
+      "loss": 2.6411471366882324,
+      "step": 417,
+      "token_acc": 0.4573170731707317
+    },
+    {
+      "epoch": 0.19172113289760348,
+      "grad_norm": 0.39527779817581177,
+      "learning_rate": 0.0009331982557763754,
+      "loss": 2.7112417221069336,
+      "step": 418,
+      "token_acc": 0.4475817724350014
+    },
+    {
+      "epoch": 0.19217979589496617,
+      "grad_norm": 0.4037948250770569,
+      "learning_rate": 0.0009328269091611537,
+      "loss": 2.4808003902435303,
+      "step": 419,
+      "token_acc": 0.4915930464519806
+    },
+    {
+      "epoch": 0.19263845889232886,
+      "grad_norm": 0.4012736976146698,
+      "learning_rate": 0.0009324546075683524,
+      "loss": 2.5795071125030518,
+      "step": 420,
+      "token_acc": 0.4590256265840608
+    },
+    {
+      "epoch": 0.19309712188969155,
+      "grad_norm": 0.418231338262558,
+      "learning_rate": 0.0009320813518194083,
+      "loss": 2.4380812644958496,
+      "step": 421,
+      "token_acc": 0.4740925464117484
+    },
+    {
+      "epoch": 0.19355578488705424,
+      "grad_norm": 0.421398788690567,
+      "learning_rate": 0.0009317071427378624,
+      "loss": 2.522702693939209,
+      "step": 422,
+      "token_acc": 0.45930723739791607
+    },
+    {
+      "epoch": 0.19401444788441694,
+      "grad_norm": 0.39327558875083923,
+      "learning_rate": 0.0009313319811493594,
+      "loss": 2.6190366744995117,
+      "step": 423,
+      "token_acc": 0.4589691909012381
+    },
+    {
+      "epoch": 0.19447311088177963,
+      "grad_norm": 0.40502116084098816,
+      "learning_rate": 0.000930955867881646,
+      "loss": 2.607069730758667,
+      "step": 424,
+      "token_acc": 0.47392682224142896
+    },
+    {
+      "epoch": 0.1949317738791423,
+      "grad_norm": 0.3894353210926056,
+      "learning_rate": 0.0009305788037645681,
+      "loss": 2.5036253929138184,
+      "step": 425,
+      "token_acc": 0.4695208392401474
+    },
+    {
+      "epoch": 0.19539043687650498,
+      "grad_norm": 0.3827606439590454,
+      "learning_rate": 0.0009302007896300697,
+      "loss": 2.6175341606140137,
+      "step": 426,
+      "token_acc": 0.4520663480461063
+    },
+    {
+      "epoch": 0.19584909987386767,
+      "grad_norm": 0.40213632583618164,
+      "learning_rate": 0.0009298218263121911,
+      "loss": 2.655780792236328,
+      "step": 427,
+      "token_acc": 0.4506688963210702
+    },
+    {
+      "epoch": 0.19630776287123036,
+      "grad_norm": 0.4143352210521698,
+      "learning_rate": 0.0009294419146470668,
+      "loss": 2.5638465881347656,
+      "step": 428,
+      "token_acc": 0.4685153090699018
+    },
+    {
+      "epoch": 0.19676642586859305,
+      "grad_norm": 0.38488566875457764,
+      "learning_rate": 0.0009290610554729234,
+      "loss": 2.5924088954925537,
+      "step": 429,
+      "token_acc": 0.47608002319512904
+    },
+    {
+      "epoch": 0.19722508886595574,
+      "grad_norm": 0.39620792865753174,
+      "learning_rate": 0.0009286792496300784,
+      "loss": 2.6398215293884277,
+      "step": 430,
+      "token_acc": 0.4638377368561516
+    },
+    {
+      "epoch": 0.19768375186331844,
+      "grad_norm": 0.4052406847476959,
+      "learning_rate": 0.0009282964979609379,
+      "loss": 2.608097791671753,
+      "step": 431,
+      "token_acc": 0.46197664483053263
+    },
+    {
+      "epoch": 0.19814241486068113,
+      "grad_norm": 0.38303396105766296,
+      "learning_rate": 0.0009279128013099947,
+      "loss": 2.6472907066345215,
+      "step": 432,
+      "token_acc": 0.4598166127292341
+    },
+    {
+      "epoch": 0.1986010778580438,
+      "grad_norm": 0.40610387921333313,
+      "learning_rate": 0.0009275281605238268,
+      "loss": 2.492669105529785,
+      "step": 433,
+      "token_acc": 0.47534516765285995
+    },
+    {
+      "epoch": 0.19905974085540648,
+      "grad_norm": 0.3952889144420624,
+      "learning_rate": 0.0009271425764510953,
+      "loss": 2.6313681602478027,
+      "step": 434,
+      "token_acc": 0.4699468828627341
+    },
+    {
+      "epoch": 0.19951840385276917,
+      "grad_norm": 0.41193047165870667,
+      "learning_rate": 0.0009267560499425423,
+      "loss": 2.5954980850219727,
+      "step": 435,
+      "token_acc": 0.4695676905574516
+    },
+    {
+      "epoch": 0.19997706685013186,
+      "grad_norm": 0.3879605531692505,
+      "learning_rate": 0.0009263685818509895,
+      "loss": 2.4855003356933594,
+      "step": 436,
+      "token_acc": 0.47355092853123243
+    },
+    {
+      "epoch": 0.20043572984749455,
+      "grad_norm": 0.3875865340232849,
+      "learning_rate": 0.000925980173031336,
+      "loss": 2.5459117889404297,
+      "step": 437,
+      "token_acc": 0.4753639417693169
+    },
+    {
+      "epoch": 0.20089439284485724,
+      "grad_norm": 0.3909992277622223,
+      "learning_rate": 0.0009255908243405567,
+      "loss": 2.591198682785034,
+      "step": 438,
+      "token_acc": 0.4688505410938871
+    },
+    {
+      "epoch": 0.20135305584221994,
+      "grad_norm": 0.3927661180496216,
+      "learning_rate": 0.0009252005366376996,
+      "loss": 2.4856722354888916,
+      "step": 439,
+      "token_acc": 0.48118985126859143
+    },
+    {
+      "epoch": 0.20181171883958263,
+      "grad_norm": 0.3701532781124115,
+      "learning_rate": 0.0009248093107838852,
+      "loss": 2.5320944786071777,
+      "step": 440,
+      "token_acc": 0.47963169642857145
+    },
+    {
+      "epoch": 0.20227038183694532,
+      "grad_norm": 0.3763086497783661,
+      "learning_rate": 0.0009244171476423036,
+      "loss": 2.5174026489257812,
+      "step": 441,
+      "token_acc": 0.4662291495761553
+    },
+    {
+      "epoch": 0.20272904483430798,
+      "grad_norm": 0.37395140528678894,
+      "learning_rate": 0.0009240240480782129,
+      "loss": 2.5528581142425537,
+      "step": 442,
+      "token_acc": 0.4646860986547085
+    },
+    {
+      "epoch": 0.20318770783167067,
+      "grad_norm": 0.3783034682273865,
+      "learning_rate": 0.0009236300129589376,
+      "loss": 2.5438807010650635,
+      "step": 443,
+      "token_acc": 0.4774425685026294
+    },
+    {
+      "epoch": 0.20364637082903336,
+      "grad_norm": 0.388265997171402,
+      "learning_rate": 0.0009232350431538657,
+      "loss": 2.5656330585479736,
+      "step": 444,
+      "token_acc": 0.46824104234527686
+    },
+    {
+      "epoch": 0.20410503382639605,
+      "grad_norm": 0.40323275327682495,
+      "learning_rate": 0.0009228391395344482,
+      "loss": 2.645947217941284,
+      "step": 445,
+      "token_acc": 0.4491150442477876
+    },
+    {
+      "epoch": 0.20456369682375874,
+      "grad_norm": 0.4090023636817932,
+      "learning_rate": 0.000922442302974196,
+      "loss": 2.527318000793457,
+      "step": 446,
+      "token_acc": 0.46495726495726497
+    },
+    {
+      "epoch": 0.20502235982112144,
+      "grad_norm": 0.40271681547164917,
+      "learning_rate": 0.0009220445343486785,
+      "loss": 2.6372811794281006,
+      "step": 447,
+      "token_acc": 0.4597090095131505
+    },
+    {
+      "epoch": 0.20548102281848413,
+      "grad_norm": 0.3812653422355652,
+      "learning_rate": 0.0009216458345355217,
+      "loss": 2.4973151683807373,
+      "step": 448,
+      "token_acc": 0.47851893725268513
+    },
+    {
+      "epoch": 0.20593968581584682,
+      "grad_norm": 0.4018206000328064,
+      "learning_rate": 0.0009212462044144061,
+      "loss": 2.52083683013916,
+      "step": 449,
+      "token_acc": 0.4630890765459003
+    },
+    {
+      "epoch": 0.20639834881320948,
+      "grad_norm": 0.37830349802970886,
+      "learning_rate": 0.0009208456448670648,
+      "loss": 2.6749067306518555,
+      "step": 450,
+      "token_acc": 0.44304506017352363
+    },
+    {
+      "epoch": 0.20685701181057217,
+      "grad_norm": 0.439730703830719,
+      "learning_rate": 0.0009204441567772816,
+      "loss": 2.589843273162842,
+      "step": 451,
+      "token_acc": 0.4645216891697788
+    },
+    {
+      "epoch": 0.20731567480793486,
+      "grad_norm": 0.40967103838920593,
+      "learning_rate": 0.0009200417410308888,
+      "loss": 2.543421745300293,
+      "step": 452,
+      "token_acc": 0.46950875211744775
+    },
+    {
+      "epoch": 0.20777433780529755,
+      "grad_norm": 0.40374353528022766,
+      "learning_rate": 0.0009196383985157656,
+      "loss": 2.638310432434082,
+      "step": 453,
+      "token_acc": 0.4498764075803351
+    },
+    {
+      "epoch": 0.20823300080266025,
+      "grad_norm": 0.4105873703956604,
+      "learning_rate": 0.000919234130121836,
+      "loss": 2.5955827236175537,
+      "step": 454,
+      "token_acc": 0.47307256235827666
+    },
+    {
+      "epoch": 0.20869166380002294,
+      "grad_norm": 0.37560272216796875,
+      "learning_rate": 0.0009188289367410672,
+      "loss": 2.487872838973999,
+      "step": 455,
+      "token_acc": 0.46722871906445473
+    },
+    {
+      "epoch": 0.20915032679738563,
+      "grad_norm": 0.388428658246994,
+      "learning_rate": 0.0009184228192674666,
+      "loss": 2.506679058074951,
+      "step": 456,
+      "token_acc": 0.47288912867547883
+    },
+    {
+      "epoch": 0.20960898979474832,
+      "grad_norm": 0.3931160569190979,
+      "learning_rate": 0.0009180157785970808,
+      "loss": 2.5867390632629395,
+      "step": 457,
+      "token_acc": 0.4499865192774333
+    },
+    {
+      "epoch": 0.210067652792111,
+      "grad_norm": 0.41282862424850464,
+      "learning_rate": 0.0009176078156279932,
+      "loss": 2.587297201156616,
+      "step": 458,
+      "token_acc": 0.47007340485601357
+    },
+    {
+      "epoch": 0.21052631578947367,
+      "grad_norm": 0.39998891949653625,
+      "learning_rate": 0.0009171989312603226,
+      "loss": 2.550248861312866,
+      "step": 459,
+      "token_acc": 0.4854423292273236
+    },
+    {
+      "epoch": 0.21098497878683636,
+      "grad_norm": 0.42250239849090576,
+      "learning_rate": 0.0009167891263962202,
+      "loss": 2.603269100189209,
+      "step": 460,
+      "token_acc": 0.46368243243243246
+    },
+    {
+      "epoch": 0.21144364178419905,
+      "grad_norm": 0.4170747995376587,
+      "learning_rate": 0.0009163784019398685,
+      "loss": 2.690775156021118,
+      "step": 461,
+      "token_acc": 0.4549736769188141
+    },
+    {
+      "epoch": 0.21190230478156175,
+      "grad_norm": 0.3724856376647949,
+      "learning_rate": 0.0009159667587974785,
+      "loss": 2.6168031692504883,
+      "step": 462,
+      "token_acc": 0.4582751883896176
+    },
+    {
+      "epoch": 0.21236096777892444,
+      "grad_norm": 0.4137090742588043,
+      "learning_rate": 0.0009155541978772887,
+      "loss": 2.5024125576019287,
+      "step": 463,
+      "token_acc": 0.47983193277310926
+    },
+    {
+      "epoch": 0.21281963077628713,
+      "grad_norm": 0.38396579027175903,
+      "learning_rate": 0.0009151407200895625,
+      "loss": 2.5219240188598633,
+      "step": 464,
+      "token_acc": 0.4688134609805628
+    },
+    {
+      "epoch": 0.21327829377364982,
+      "grad_norm": 0.39594194293022156,
+      "learning_rate": 0.000914726326346586,
+      "loss": 2.4753499031066895,
+      "step": 465,
+      "token_acc": 0.49034216335540837
+    },
+    {
+      "epoch": 0.2137369567710125,
+      "grad_norm": 0.3724762201309204,
+      "learning_rate": 0.0009143110175626661,
+      "loss": 2.5561299324035645,
+      "step": 466,
+      "token_acc": 0.46510981373366694
+    },
+    {
+      "epoch": 0.21419561976837517,
+      "grad_norm": 0.3751997947692871,
+      "learning_rate": 0.0009138947946541291,
+      "loss": 2.496422290802002,
+      "step": 467,
+      "token_acc": 0.47304544171605983
+    },
+    {
+      "epoch": 0.21465428276573786,
+      "grad_norm": 0.4005948603153229,
+      "learning_rate": 0.0009134776585393181,
+      "loss": 2.6045703887939453,
+      "step": 468,
+      "token_acc": 0.4639463387367244
+    },
+    {
+      "epoch": 0.21511294576310055,
+      "grad_norm": 0.40457993745803833,
+      "learning_rate": 0.0009130596101385906,
+      "loss": 2.5033934116363525,
+      "step": 469,
+      "token_acc": 0.47127087461081235
+    },
+    {
+      "epoch": 0.21557160876046325,
+      "grad_norm": 0.39451906085014343,
+      "learning_rate": 0.0009126406503743174,
+      "loss": 2.5369369983673096,
+      "step": 470,
+      "token_acc": 0.4592711682743837
+    },
+    {
+      "epoch": 0.21603027175782594,
+      "grad_norm": 0.4096771478652954,
+      "learning_rate": 0.0009122207801708802,
+      "loss": 2.567286491394043,
+      "step": 471,
+      "token_acc": 0.46807901517320355
+    },
+    {
+      "epoch": 0.21648893475518863,
+      "grad_norm": 0.43727409839630127,
+      "learning_rate": 0.0009118000004546689,
+      "loss": 2.6949033737182617,
+      "step": 472,
+      "token_acc": 0.4469783352337514
+    },
+    {
+      "epoch": 0.21694759775255132,
+      "grad_norm": 0.36102235317230225,
+      "learning_rate": 0.0009113783121540807,
+      "loss": 2.520066976547241,
+      "step": 473,
+      "token_acc": 0.47419880499728406
+    },
+    {
+      "epoch": 0.217406260749914,
+      "grad_norm": 0.3721596598625183,
+      "learning_rate": 0.0009109557161995172,
+      "loss": 2.4864273071289062,
+      "step": 474,
+      "token_acc": 0.48077462812236876
+    },
+    {
+      "epoch": 0.2178649237472767,
+      "grad_norm": 0.42098984122276306,
+      "learning_rate": 0.0009105322135233828,
+      "loss": 2.7277424335479736,
+      "step": 475,
+      "token_acc": 0.4547960308710033
+    },
+    {
+      "epoch": 0.21832358674463936,
+      "grad_norm": 0.41538456082344055,
+      "learning_rate": 0.0009101078050600821,
+      "loss": 2.477248430252075,
+      "step": 476,
+      "token_acc": 0.48614318706697457
+    },
+    {
+      "epoch": 0.21878224974200206,
+      "grad_norm": 0.410741925239563,
+      "learning_rate": 0.0009096824917460186,
+      "loss": 2.5066070556640625,
+      "step": 477,
+      "token_acc": 0.4751835535976505
+    },
+    {
+      "epoch": 0.21924091273936475,
+      "grad_norm": 0.4074147939682007,
+      "learning_rate": 0.0009092562745195921,
+      "loss": 2.502903938293457,
+      "step": 478,
+      "token_acc": 0.46361862280457206
+    },
+    {
+      "epoch": 0.21969957573672744,
+      "grad_norm": 0.4084773361682892,
+      "learning_rate": 0.0009088291543211967,
+      "loss": 2.5185282230377197,
+      "step": 479,
+      "token_acc": 0.4697097774020851
+    },
+    {
+      "epoch": 0.22015823873409013,
+      "grad_norm": 0.38761746883392334,
+      "learning_rate": 0.0009084011320932188,
+      "loss": 2.642716884613037,
+      "step": 480,
+      "token_acc": 0.440668202764977
+    },
+    {
+      "epoch": 0.22061690173145282,
+      "grad_norm": 0.35659921169281006,
+      "learning_rate": 0.0009079722087800352,
+      "loss": 2.6534323692321777,
+      "step": 481,
+      "token_acc": 0.4625538793103448
+    },
+    {
+      "epoch": 0.2210755647288155,
+      "grad_norm": 0.3781280219554901,
+      "learning_rate": 0.0009075423853280106,
+      "loss": 2.5854148864746094,
+      "step": 482,
+      "token_acc": 0.45847554038680316
+    },
+    {
+      "epoch": 0.2215342277261782,
+      "grad_norm": 0.3818654716014862,
+      "learning_rate": 0.0009071116626854958,
+      "loss": 2.537139415740967,
+      "step": 483,
+      "token_acc": 0.4754289037510904
+    },
+    {
+      "epoch": 0.2219928907235409,
+      "grad_norm": 0.36289218068122864,
+      "learning_rate": 0.0009066800418028256,
+      "loss": 2.6622986793518066,
+      "step": 484,
+      "token_acc": 0.4523612261806131
+    },
+    {
+      "epoch": 0.22245155372090356,
+      "grad_norm": 0.3568601608276367,
+      "learning_rate": 0.0009062475236323168,
+      "loss": 2.4662697315216064,
+      "step": 485,
+      "token_acc": 0.471900826446281
+    },
+    {
+      "epoch": 0.22291021671826625,
+      "grad_norm": 0.4033224880695343,
+      "learning_rate": 0.0009058141091282656,
+      "loss": 2.577792167663574,
+      "step": 486,
+      "token_acc": 0.4701449275362319
+    },
+    {
+      "epoch": 0.22336887971562894,
+      "grad_norm": 0.41395699977874756,
+      "learning_rate": 0.0009053797992469461,
+      "loss": 2.517850875854492,
+      "step": 487,
+      "token_acc": 0.4728682170542636
+    },
+    {
+      "epoch": 0.22382754271299163,
+      "grad_norm": 0.397484689950943,
+      "learning_rate": 0.0009049445949466078,
+      "loss": 2.566315174102783,
+      "step": 488,
+      "token_acc": 0.4606741573033708
+    },
+    {
+      "epoch": 0.22428620571035432,
+      "grad_norm": 0.42345955967903137,
+      "learning_rate": 0.0009045084971874737,
+      "loss": 2.46694016456604,
+      "step": 489,
+      "token_acc": 0.48572261072261075
+    },
+    {
+      "epoch": 0.224744868707717,
+      "grad_norm": 0.3665259778499603,
+      "learning_rate": 0.0009040715069317382,
+      "loss": 2.546272039413452,
+      "step": 490,
+      "token_acc": 0.4705056179775281
+    },
+    {
+      "epoch": 0.2252035317050797,
+      "grad_norm": 0.37157562375068665,
+      "learning_rate": 0.0009036336251435648,
+      "loss": 2.5314531326293945,
+      "step": 491,
+      "token_acc": 0.47218378079158596
+    },
+    {
+      "epoch": 0.2256621947024424,
+      "grad_norm": 0.39277079701423645,
+      "learning_rate": 0.0009031948527890839,
+      "loss": 2.6590447425842285,
+      "step": 492,
+      "token_acc": 0.4602533009970358
+    },
+    {
+      "epoch": 0.22612085769980506,
+      "grad_norm": 0.36168089509010315,
+      "learning_rate": 0.000902755190836391,
+      "loss": 2.5425782203674316,
+      "step": 493,
+      "token_acc": 0.45703014933784164
+    },
+    {
+      "epoch": 0.22657952069716775,
+      "grad_norm": 0.37716665863990784,
+      "learning_rate": 0.0009023146402555442,
+      "loss": 2.591247320175171,
+      "step": 494,
+      "token_acc": 0.46091568955890566
+    },
+    {
+      "epoch": 0.22703818369453044,
+      "grad_norm": 0.38520413637161255,
+      "learning_rate": 0.0009018732020185624,
+      "loss": 2.528381109237671,
+      "step": 495,
+      "token_acc": 0.4755755193711398
+    },
+    {
+      "epoch": 0.22749684669189313,
+      "grad_norm": 0.3933509588241577,
+      "learning_rate": 0.0009014308770994235,
+      "loss": 2.6846232414245605,
+      "step": 496,
+      "token_acc": 0.4565278166060945
+    },
+    {
+      "epoch": 0.22795550968925582,
+      "grad_norm": 0.3352566659450531,
+      "learning_rate": 0.0009009876664740605,
+      "loss": 2.550840377807617,
+      "step": 497,
+      "token_acc": 0.4640171858216971
+    },
+    {
+      "epoch": 0.2284141726866185,
+      "grad_norm": 0.39495301246643066,
+      "learning_rate": 0.0009005435711203618,
+      "loss": 2.5562939643859863,
+      "step": 498,
+      "token_acc": 0.4732604945370903
+    },
+    {
+      "epoch": 0.2288728356839812,
+      "grad_norm": 0.3501955568790436,
+      "learning_rate": 0.000900098592018167,
+      "loss": 2.5315308570861816,
+      "step": 499,
+      "token_acc": 0.46990291262135925
+    },
+    {
+      "epoch": 0.2293314986813439,
+      "grad_norm": 0.3943643569946289,
+      "learning_rate": 0.0008996527301492663,
+      "loss": 2.6158156394958496,
+      "step": 500,
+      "token_acc": 0.45334457560427205
+    },
+    {
+      "epoch": 0.22979016167870658,
+      "grad_norm": 0.36251503229141235,
+      "learning_rate": 0.0008992059864973972,
+      "loss": 2.6009597778320312,
+      "step": 501,
+      "token_acc": 0.4622747747747748
+    },
+    {
+      "epoch": 0.23024882467606925,
+      "grad_norm": 0.3793307840824127,
+      "learning_rate": 0.0008987583620482427,
+      "loss": 2.4605164527893066,
+      "step": 502,
+      "token_acc": 0.48740658732355385
+    },
+    {
+      "epoch": 0.23070748767343194,
+      "grad_norm": 0.4345690906047821,
+      "learning_rate": 0.0008983098577894292,
+      "loss": 2.539327621459961,
+      "step": 503,
+      "token_acc": 0.4740761959323976
+    },
+    {
+      "epoch": 0.23116615067079463,
+      "grad_norm": 0.3961641788482666,
+      "learning_rate": 0.0008978604747105246,
+      "loss": 2.6559853553771973,
+      "step": 504,
+      "token_acc": 0.4596361569073337
+    },
+    {
+      "epoch": 0.23162481366815732,
+      "grad_norm": 0.4149439334869385,
+      "learning_rate": 0.0008974102138030354,
+      "loss": 2.6528587341308594,
+      "step": 505,
+      "token_acc": 0.44761904761904764
+    },
+    {
+      "epoch": 0.23208347666552,
+      "grad_norm": 0.37394022941589355,
+      "learning_rate": 0.000896959076060405,
+      "loss": 2.5719199180603027,
+      "step": 506,
+      "token_acc": 0.4569789674952199
+    },
+    {
+      "epoch": 0.2325421396628827,
+      "grad_norm": 0.3624346852302551,
+      "learning_rate": 0.0008965070624780116,
+      "loss": 2.5865468978881836,
+      "step": 507,
+      "token_acc": 0.4511550236571111
+    },
+    {
+      "epoch": 0.2330008026602454,
+      "grad_norm": 0.38855037093162537,
+      "learning_rate": 0.0008960541740531658,
+      "loss": 2.499340534210205,
+      "step": 508,
+      "token_acc": 0.4781276121482307
+    },
+    {
+      "epoch": 0.23345946565760808,
+      "grad_norm": 0.3862762153148651,
+      "learning_rate": 0.0008956004117851083,
+      "loss": 2.5793895721435547,
+      "step": 509,
+      "token_acc": 0.46044393853158794
+    },
+    {
+      "epoch": 0.23391812865497075,
+      "grad_norm": 0.37715065479278564,
+      "learning_rate": 0.0008951457766750079,
+      "loss": 2.526675224304199,
+      "step": 510,
+      "token_acc": 0.47380345511186633
+    },
+    {
+      "epoch": 0.23437679165233344,
+      "grad_norm": 0.366256445646286,
+      "learning_rate": 0.0008946902697259593,
+      "loss": 2.644956111907959,
+      "step": 511,
+      "token_acc": 0.46145220072890386
+    },
+    {
+      "epoch": 0.23483545464969613,
+      "grad_norm": 0.3832247853279114,
+      "learning_rate": 0.0008942338919429805,
+      "loss": 2.60667085647583,
+      "step": 512,
+      "token_acc": 0.46387726638772664
+    },
+    {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 0.3709598481655121,
+      "learning_rate": 0.0008937766443330113,
+      "loss": 2.4412527084350586,
+      "step": 513,
+      "token_acc": 0.4801845819761129
+    },
+    {
+      "epoch": 0.2357527806444215,
+      "grad_norm": 0.38569653034210205,
+      "learning_rate": 0.0008933185279049103,
+      "loss": 2.5649497509002686,
+      "step": 514,
+      "token_acc": 0.46852748504699515
+    },
+    {
+      "epoch": 0.2362114436417842,
+      "grad_norm": 0.3500916361808777,
+      "learning_rate": 0.0008928595436694532,
+      "loss": 2.5700924396514893,
+      "step": 515,
+      "token_acc": 0.46950393060449985
+    },
+    {
+      "epoch": 0.2366701066391469,
+      "grad_norm": 0.378198504447937,
+      "learning_rate": 0.0008923996926393305,
+      "loss": 2.5207161903381348,
+      "step": 516,
+      "token_acc": 0.4872576177285319
+    },
+    {
+      "epoch": 0.23712876963650958,
+      "grad_norm": 0.3587672710418701,
+      "learning_rate": 0.0008919389758291449,
+      "loss": 2.501023292541504,
+      "step": 517,
+      "token_acc": 0.4758933635847986
+    },
+    {
+      "epoch": 0.23758743263387228,
+      "grad_norm": 0.38815540075302124,
+      "learning_rate": 0.0008914773942554098,
+      "loss": 2.519097089767456,
+      "step": 518,
+      "token_acc": 0.47036823935558114
+    },
+    {
+      "epoch": 0.23804609563123494,
+      "grad_norm": 0.3701168894767761,
+      "learning_rate": 0.000891014948936546,
+      "loss": 2.6548495292663574,
+      "step": 519,
+      "token_acc": 0.4473042535898131
+    },
+    {
+      "epoch": 0.23850475862859763,
+      "grad_norm": 0.36297929286956787,
+      "learning_rate": 0.0008905516408928804,
+      "loss": 2.535475254058838,
+      "step": 520,
+      "token_acc": 0.4565864214227752
+    },
+    {
+      "epoch": 0.23896342162596032,
+      "grad_norm": 0.3630169630050659,
+      "learning_rate": 0.0008900874711466434,
+      "loss": 2.5720911026000977,
+      "step": 521,
+      "token_acc": 0.468682505399568
+    },
+    {
+      "epoch": 0.239422084623323,
+      "grad_norm": 0.3904373347759247,
+      "learning_rate": 0.0008896224407219666,
+      "loss": 2.5639562606811523,
+      "step": 522,
+      "token_acc": 0.4694285714285714
+    },
+    {
+      "epoch": 0.2398807476206857,
+      "grad_norm": 0.36818987131118774,
+      "learning_rate": 0.0008891565506448804,
+      "loss": 2.4963648319244385,
+      "step": 523,
+      "token_acc": 0.49330675021361436
+    },
+    {
+      "epoch": 0.2403394106180484,
+      "grad_norm": 0.36865079402923584,
+      "learning_rate": 0.0008886898019433122,
+      "loss": 2.6094717979431152,
+      "step": 524,
+      "token_acc": 0.4691593886462882
+    },
+    {
+      "epoch": 0.24079807361541108,
+      "grad_norm": 0.37248772382736206,
+      "learning_rate": 0.0008882221956470836,
+      "loss": 2.6031100749969482,
+      "step": 525,
+      "token_acc": 0.45375972342264476
+    },
+    {
+      "epoch": 0.24125673661277378,
+      "grad_norm": 0.36860355734825134,
+      "learning_rate": 0.0008877537327879086,
+      "loss": 2.507462501525879,
+      "step": 526,
+      "token_acc": 0.4742686890574215
+    },
+    {
+      "epoch": 0.24171539961013644,
+      "grad_norm": 0.3737073242664337,
+      "learning_rate": 0.0008872844143993908,
+      "loss": 2.5607147216796875,
+      "step": 527,
+      "token_acc": 0.4727272727272727
+    },
+    {
+      "epoch": 0.24217406260749913,
+      "grad_norm": 0.38415616750717163,
+      "learning_rate": 0.0008868142415170218,
+      "loss": 2.5315136909484863,
+      "step": 528,
+      "token_acc": 0.468785151856018
+    },
+    {
+      "epoch": 0.24263272560486182,
+      "grad_norm": 0.36869847774505615,
+      "learning_rate": 0.0008863432151781781,
+      "loss": 2.551889181137085,
+      "step": 529,
+      "token_acc": 0.46661031276415893
+    },
+    {
+      "epoch": 0.2430913886022245,
+      "grad_norm": 0.3933951258659363,
+      "learning_rate": 0.0008858713364221195,
+      "loss": 2.495333671569824,
+      "step": 530,
+      "token_acc": 0.48209209778283113
+    },
+    {
+      "epoch": 0.2435500515995872,
+      "grad_norm": 0.40007683634757996,
+      "learning_rate": 0.0008853986062899868,
+      "loss": 2.599771022796631,
+      "step": 531,
+      "token_acc": 0.46636896455484234
+    },
+    {
+      "epoch": 0.2440087145969499,
+      "grad_norm": 0.3963909447193146,
+      "learning_rate": 0.0008849250258247986,
+      "loss": 2.5964791774749756,
+      "step": 532,
+      "token_acc": 0.46296834156259076
+    },
+    {
+      "epoch": 0.24446737759431258,
+      "grad_norm": 0.36057886481285095,
+      "learning_rate": 0.0008844505960714503,
+      "loss": 2.492642879486084,
+      "step": 533,
+      "token_acc": 0.4758132956152758
+    },
+    {
+      "epoch": 0.24492604059167528,
+      "grad_norm": 0.36214277148246765,
+      "learning_rate": 0.0008839753180767108,
+      "loss": 2.6629886627197266,
+      "step": 534,
+      "token_acc": 0.4472817133443163
+    },
+    {
+      "epoch": 0.24538470358903797,
+      "grad_norm": 0.37312352657318115,
+      "learning_rate": 0.0008834991928892204,
+      "loss": 2.5500128269195557,
+      "step": 535,
+      "token_acc": 0.4643658810325477
+    },
+    {
+      "epoch": 0.24584336658640063,
+      "grad_norm": 0.36593517661094666,
+      "learning_rate": 0.000883022221559489,
+      "loss": 2.4934048652648926,
+      "step": 536,
+      "token_acc": 0.4817371297095197
+    },
+    {
+      "epoch": 0.24630202958376332,
+      "grad_norm": 0.36594492197036743,
+      "learning_rate": 0.0008825444051398934,
+      "loss": 2.57529354095459,
+      "step": 537,
+      "token_acc": 0.46644388749651905
+    },
+    {
+      "epoch": 0.246760692581126,
+      "grad_norm": 0.40934574604034424,
+      "learning_rate": 0.0008820657446846745,
+      "loss": 2.5797791481018066,
+      "step": 538,
+      "token_acc": 0.4711007841998257
+    },
+    {
+      "epoch": 0.2472193555784887,
+      "grad_norm": 0.3780839443206787,
+      "learning_rate": 0.000881586241249936,
+      "loss": 2.4139151573181152,
+      "step": 539,
+      "token_acc": 0.4985835694050991
+    },
+    {
+      "epoch": 0.2476780185758514,
+      "grad_norm": 0.3716084063053131,
+      "learning_rate": 0.0008811058958936411,
+      "loss": 2.6056158542633057,
+      "step": 540,
+      "token_acc": 0.4665948275862069
+    },
+    {
+      "epoch": 0.24813668157321409,
+      "grad_norm": 0.3573615252971649,
+      "learning_rate": 0.000880624709675611,
+      "loss": 2.508676290512085,
+      "step": 541,
+      "token_acc": 0.4794326241134752
+    },
+    {
+      "epoch": 0.24859534457057678,
+      "grad_norm": 0.34393006563186646,
+      "learning_rate": 0.000880142683657522,
+      "loss": 2.4562158584594727,
+      "step": 542,
+      "token_acc": 0.48460909833832744
+    },
+    {
+      "epoch": 0.24905400756793947,
+      "grad_norm": 0.33539706468582153,
+      "learning_rate": 0.0008796598189029029,
+      "loss": 2.521101713180542,
+      "step": 543,
+      "token_acc": 0.46258685195082844
+    },
+    {
+      "epoch": 0.24951267056530213,
+      "grad_norm": 0.3463994860649109,
+      "learning_rate": 0.0008791761164771338,
+      "loss": 2.5215516090393066,
+      "step": 544,
+      "token_acc": 0.468961778259691
+    },
+    {
+      "epoch": 0.24997133356266482,
+      "grad_norm": 0.35912296175956726,
+      "learning_rate": 0.0008786915774474424,
+      "loss": 2.4866104125976562,
+      "step": 545,
+      "token_acc": 0.4598265895953757
+    },
+    {
+      "epoch": 0.2504299965600275,
+      "grad_norm": 0.43533387780189514,
+      "learning_rate": 0.0008782062028829027,
+      "loss": 2.7244958877563477,
+      "step": 546,
+      "token_acc": 0.45994318181818183
+    },
+    {
+      "epoch": 0.2508886595573902,
+      "grad_norm": 0.35860514640808105,
+      "learning_rate": 0.0008777199938544318,
+      "loss": 2.5446414947509766,
+      "step": 547,
+      "token_acc": 0.47353989580477107
+    },
+    {
+      "epoch": 0.2513473225547529,
+      "grad_norm": 0.37407001852989197,
+      "learning_rate": 0.0008772329514347883,
+      "loss": 2.4595727920532227,
+      "step": 548,
+      "token_acc": 0.48616491422246816
+    },
+    {
+      "epoch": 0.2518059855521156,
+      "grad_norm": 0.37593337893486023,
+      "learning_rate": 0.0008767450766985694,
+      "loss": 2.586094856262207,
+      "step": 549,
+      "token_acc": 0.46538570217575587
+    },
+    {
+      "epoch": 0.2522646485494783,
+      "grad_norm": 0.3840199410915375,
+      "learning_rate": 0.0008762563707222086,
+      "loss": 2.638777494430542,
+      "step": 550,
+      "token_acc": 0.4617695248498088
+    },
+    {
+      "epoch": 0.25272331154684097,
+      "grad_norm": 0.40009695291519165,
+      "learning_rate": 0.0008757668345839738,
+      "loss": 2.5830562114715576,
+      "step": 551,
+      "token_acc": 0.469762109486959
+    },
+    {
+      "epoch": 0.25318197454420366,
+      "grad_norm": 0.38633623719215393,
+      "learning_rate": 0.0008752764693639638,
+      "loss": 2.4778928756713867,
+      "step": 552,
+      "token_acc": 0.4752840909090909
+    },
+    {
+      "epoch": 0.25364063754156635,
+      "grad_norm": 0.3737511932849884,
+      "learning_rate": 0.0008747852761441078,
+      "loss": 2.532231330871582,
+      "step": 553,
+      "token_acc": 0.4677817384151357
+    },
+    {
+      "epoch": 0.25409930053892904,
+      "grad_norm": 0.3823889195919037,
+      "learning_rate": 0.0008742932560081607,
+      "loss": 2.501948833465576,
+      "step": 554,
+      "token_acc": 0.4758789860997547
+    },
+    {
+      "epoch": 0.25455796353629173,
+      "grad_norm": 0.3918113708496094,
+      "learning_rate": 0.0008738004100417025,
+      "loss": 2.391803741455078,
+      "step": 555,
+      "token_acc": 0.4885974914481186
+    },
+    {
+      "epoch": 0.2550166265336544,
+      "grad_norm": 0.5072609782218933,
+      "learning_rate": 0.0008733067393321355,
+      "loss": 2.576840400695801,
+      "step": 556,
+      "token_acc": 0.47632234837995013
+    },
+    {
+      "epoch": 0.25547528953101706,
+      "grad_norm": 0.38675588369369507,
+      "learning_rate": 0.000872812244968681,
+      "loss": 2.5467629432678223,
+      "step": 557,
+      "token_acc": 0.47323634367279716
+    },
+    {
+      "epoch": 0.25593395252837975,
+      "grad_norm": 0.3646634519100189,
+      "learning_rate": 0.0008723169280423783,
+      "loss": 2.560244083404541,
+      "step": 558,
+      "token_acc": 0.45951359084406296
+    },
+    {
+      "epoch": 0.25639261552574244,
+      "grad_norm": 0.3523416221141815,
+      "learning_rate": 0.0008718207896460811,
+      "loss": 2.478100538253784,
+      "step": 559,
+      "token_acc": 0.47984212010149424
+    },
+    {
+      "epoch": 0.25685127852310513,
+      "grad_norm": 0.3732738494873047,
+      "learning_rate": 0.0008713238308744557,
+      "loss": 2.595236301422119,
+      "step": 560,
+      "token_acc": 0.45897000565930957
+    },
+    {
+      "epoch": 0.2573099415204678,
+      "grad_norm": 0.3519507050514221,
+      "learning_rate": 0.0008708260528239789,
+      "loss": 2.5661683082580566,
+      "step": 561,
+      "token_acc": 0.46342157699971537
+    },
+    {
+      "epoch": 0.2577686045178305,
+      "grad_norm": 0.40047842264175415,
+      "learning_rate": 0.000870327456592934,
+      "loss": 2.4865164756774902,
+      "step": 562,
+      "token_acc": 0.4875465216146579
+    },
+    {
+      "epoch": 0.2582272675151932,
+      "grad_norm": 0.3562781512737274,
+      "learning_rate": 0.0008698280432814107,
+      "loss": 2.5739858150482178,
+      "step": 563,
+      "token_acc": 0.475619949846754
+    },
+    {
+      "epoch": 0.2586859305125559,
+      "grad_norm": 0.38454264402389526,
+      "learning_rate": 0.000869327813991301,
+      "loss": 2.570310592651367,
+      "step": 564,
+      "token_acc": 0.4670206819452208
+    },
+    {
+      "epoch": 0.2591445935099186,
+      "grad_norm": 0.3964245319366455,
+      "learning_rate": 0.0008688267698262971,
+      "loss": 2.5230627059936523,
+      "step": 565,
+      "token_acc": 0.46742761692650336
+    },
+    {
+      "epoch": 0.2596032565072813,
+      "grad_norm": 0.3717069625854492,
+      "learning_rate": 0.0008683249118918894,
+      "loss": 2.502413511276245,
+      "step": 566,
+      "token_acc": 0.4714009394860459
+    },
+    {
+      "epoch": 0.26006191950464397,
+      "grad_norm": 0.3493504524230957,
+      "learning_rate": 0.0008678222412953637,
+      "loss": 2.5687639713287354,
+      "step": 567,
+      "token_acc": 0.4689507494646681
+    },
+    {
+      "epoch": 0.26052058250200666,
+      "grad_norm": 0.3600864112377167,
+      "learning_rate": 0.0008673187591457987,
+      "loss": 2.521217107772827,
+      "step": 568,
+      "token_acc": 0.4617762788083193
+    },
+    {
+      "epoch": 0.26097924549936935,
+      "grad_norm": 0.3688865602016449,
+      "learning_rate": 0.0008668144665540639,
+      "loss": 2.4496469497680664,
+      "step": 569,
+      "token_acc": 0.48809865213650705
+    },
+    {
+      "epoch": 0.26143790849673204,
+      "grad_norm": 0.4265752136707306,
+      "learning_rate": 0.0008663093646328167,
+      "loss": 2.578049659729004,
+      "step": 570,
+      "token_acc": 0.47192588433464344
+    },
+    {
+      "epoch": 0.26189657149409473,
+      "grad_norm": 0.383869469165802,
+      "learning_rate": 0.0008658034544965003,
+      "loss": 2.7164413928985596,
+      "step": 571,
+      "token_acc": 0.449205448354143
+    },
+    {
+      "epoch": 0.2623552344914574,
+      "grad_norm": 0.3509352505207062,
+      "learning_rate": 0.0008652967372613412,
+      "loss": 2.389366626739502,
+      "step": 572,
+      "token_acc": 0.49279303780255646
+    },
+    {
+      "epoch": 0.2628138974888201,
+      "grad_norm": 0.3443276286125183,
+      "learning_rate": 0.0008647892140453466,
+      "loss": 2.523355484008789,
+      "step": 573,
+      "token_acc": 0.4792514239218877
+    },
+    {
+      "epoch": 0.26327256048618275,
+      "grad_norm": 0.35621580481529236,
+      "learning_rate": 0.0008642808859683021,
+      "loss": 2.5430173873901367,
+      "step": 574,
+      "token_acc": 0.4747533372025537
+    },
+    {
+      "epoch": 0.26373122348354544,
+      "grad_norm": 0.3568367660045624,
+      "learning_rate": 0.0008637717541517689,
+      "loss": 2.576650381088257,
+      "step": 575,
+      "token_acc": 0.46353006681514475
+    },
+    {
+      "epoch": 0.26418988648090813,
+      "grad_norm": 0.36328744888305664,
+      "learning_rate": 0.0008632618197190816,
+      "loss": 2.6044557094573975,
+      "step": 576,
+      "token_acc": 0.4483674011149456
+    },
+    {
+      "epoch": 0.2646485494782708,
+      "grad_norm": 0.3581198751926422,
+      "learning_rate": 0.0008627510837953458,
+      "loss": 2.546280860900879,
+      "step": 577,
+      "token_acc": 0.4686043323279408
+    },
+    {
+      "epoch": 0.2651072124756335,
+      "grad_norm": 0.36019572615623474,
+      "learning_rate": 0.0008622395475074355,
+      "loss": 2.4845070838928223,
+      "step": 578,
+      "token_acc": 0.4831848232250647
+    },
+    {
+      "epoch": 0.2655658754729962,
+      "grad_norm": 0.37171995639801025,
+      "learning_rate": 0.0008617272119839903,
+      "loss": 2.5149924755096436,
+      "step": 579,
+      "token_acc": 0.46863872911531085
+    },
+    {
+      "epoch": 0.2660245384703589,
+      "grad_norm": 0.3653688132762909,
+      "learning_rate": 0.0008612140783554136,
+      "loss": 2.6136393547058105,
+      "step": 580,
+      "token_acc": 0.4568469505178366
+    },
+    {
+      "epoch": 0.2664832014677216,
+      "grad_norm": 0.3474707007408142,
+      "learning_rate": 0.0008607001477538696,
+      "loss": 2.4318695068359375,
+      "step": 581,
+      "token_acc": 0.49131378935939196
+    },
+    {
+      "epoch": 0.2669418644650843,
+      "grad_norm": 0.36851778626441956,
+      "learning_rate": 0.0008601854213132807,
+      "loss": 2.5574283599853516,
+      "step": 582,
+      "token_acc": 0.461212976022567
+    },
+    {
+      "epoch": 0.26740052746244697,
+      "grad_norm": 0.3394092917442322,
+      "learning_rate": 0.0008596699001693256,
+      "loss": 2.5186922550201416,
+      "step": 583,
+      "token_acc": 0.4724927612529613
+    },
+    {
+      "epoch": 0.26785919045980966,
+      "grad_norm": 0.3298639953136444,
+      "learning_rate": 0.000859153585459436,
+      "loss": 2.534701347351074,
+      "step": 584,
+      "token_acc": 0.48434469382100304
+    },
+    {
+      "epoch": 0.26831785345717235,
+      "grad_norm": 0.36513617634773254,
+      "learning_rate": 0.0008586364783227949,
+      "loss": 2.4792728424072266,
+      "step": 585,
+      "token_acc": 0.4856094808126411
+    },
+    {
+      "epoch": 0.26877651645453504,
+      "grad_norm": 0.3608119487762451,
+      "learning_rate": 0.0008581185799003332,
+      "loss": 2.486790895462036,
+      "step": 586,
+      "token_acc": 0.4785831960461285
+    },
+    {
+      "epoch": 0.26923517945189773,
+      "grad_norm": 0.3647616505622864,
+      "learning_rate": 0.0008575998913347283,
+      "loss": 2.5124502182006836,
+      "step": 587,
+      "token_acc": 0.47991008710311883
+    },
+    {
+      "epoch": 0.2696938424492604,
+      "grad_norm": 0.37836652994155884,
+      "learning_rate": 0.0008570804137704004,
+      "loss": 2.4567337036132812,
+      "step": 588,
+      "token_acc": 0.47277227722772275
+    },
+    {
+      "epoch": 0.2701525054466231,
+      "grad_norm": 0.37878143787384033,
+      "learning_rate": 0.0008565601483535108,
+      "loss": 2.62001371383667,
+      "step": 589,
+      "token_acc": 0.4596084918665564
+    },
+    {
+      "epoch": 0.2706111684439858,
+      "grad_norm": 0.37872931361198425,
+      "learning_rate": 0.0008560390962319591,
+      "loss": 2.476865291595459,
+      "step": 590,
+      "token_acc": 0.46257939795636566
+    },
+    {
+      "epoch": 0.2710698314413485,
+      "grad_norm": 0.36183515191078186,
+      "learning_rate": 0.0008555172585553804,
+      "loss": 2.5046513080596924,
+      "step": 591,
+      "token_acc": 0.47784632641615254
+    },
+    {
+      "epoch": 0.27152849443871113,
+      "grad_norm": 0.36415809392929077,
+      "learning_rate": 0.0008549946364751435,
+      "loss": 2.4734487533569336,
+      "step": 592,
+      "token_acc": 0.4883328647736857
+    },
+    {
+      "epoch": 0.2719871574360738,
+      "grad_norm": 0.3398836851119995,
+      "learning_rate": 0.0008544712311443475,
+      "loss": 2.438931941986084,
+      "step": 593,
+      "token_acc": 0.4735391400220507
+    },
+    {
+      "epoch": 0.2724458204334365,
+      "grad_norm": 0.3798900544643402,
+      "learning_rate": 0.0008539470437178196,
+      "loss": 2.5725996494293213,
+      "step": 594,
+      "token_acc": 0.46466080045415836
+    },
+    {
+      "epoch": 0.2729044834307992,
+      "grad_norm": 0.37606263160705566,
+      "learning_rate": 0.000853422075352113,
+      "loss": 2.42769718170166,
+      "step": 595,
+      "token_acc": 0.4856892523364486
+    },
+    {
+      "epoch": 0.2733631464281619,
+      "grad_norm": 0.3806784152984619,
+      "learning_rate": 0.0008528963272055035,
+      "loss": 2.5516395568847656,
+      "step": 596,
+      "token_acc": 0.4710204081632653
+    },
+    {
+      "epoch": 0.2738218094255246,
+      "grad_norm": 0.40173065662384033,
+      "learning_rate": 0.0008523698004379877,
+      "loss": 2.504723310470581,
+      "step": 597,
+      "token_acc": 0.4725182277061133
+    },
+    {
+      "epoch": 0.2742804724228873,
+      "grad_norm": 0.3868899941444397,
+      "learning_rate": 0.00085184249621128,
+      "loss": 2.583007335662842,
+      "step": 598,
+      "token_acc": 0.45726375176304657
+    },
+    {
+      "epoch": 0.27473913542024997,
+      "grad_norm": 0.3457110822200775,
+      "learning_rate": 0.0008513144156888101,
+      "loss": 2.532395839691162,
+      "step": 599,
+      "token_acc": 0.48110624315443595
+    },
+    {
+      "epoch": 0.27519779841761266,
+      "grad_norm": 0.3476879894733429,
+      "learning_rate": 0.0008507855600357207,
+      "loss": 2.58548641204834,
+      "step": 600,
+      "token_acc": 0.4608282036933408
+    },
+    {
+      "epoch": 0.27565646141497535,
+      "grad_norm": 0.37860506772994995,
+      "learning_rate": 0.0008502559304188644,
+      "loss": 2.5636420249938965,
+      "step": 601,
+      "token_acc": 0.4558904109589041
+    },
+    {
+      "epoch": 0.27611512441233804,
+      "grad_norm": 0.3444937467575073,
+      "learning_rate": 0.0008497255280068019,
+      "loss": 2.4888837337493896,
+      "step": 602,
+      "token_acc": 0.4819078947368421
+    },
+    {
+      "epoch": 0.27657378740970073,
+      "grad_norm": 0.39608126878738403,
+      "learning_rate": 0.0008491943539697986,
+      "loss": 2.4091334342956543,
+      "step": 603,
+      "token_acc": 0.4815450643776824
+    },
+    {
+      "epoch": 0.2770324504070634,
+      "grad_norm": 0.38607439398765564,
+      "learning_rate": 0.0008486624094798226,
+      "loss": 2.5877685546875,
+      "step": 604,
+      "token_acc": 0.4684734513274336
+    },
+    {
+      "epoch": 0.2774911134044261,
+      "grad_norm": 0.39865559339523315,
+      "learning_rate": 0.0008481296957105417,
+      "loss": 2.474951982498169,
+      "step": 605,
+      "token_acc": 0.47434119278779474
+    },
+    {
+      "epoch": 0.2779497764017888,
+      "grad_norm": 0.3722672760486603,
+      "learning_rate": 0.0008475962138373213,
+      "loss": 2.5402982234954834,
+      "step": 606,
+      "token_acc": 0.4711123886174188
+    },
+    {
+      "epoch": 0.2784084393991515,
+      "grad_norm": 0.35624295473098755,
+      "learning_rate": 0.0008470619650372211,
+      "loss": 2.5135498046875,
+      "step": 607,
+      "token_acc": 0.4716056500432401
+    },
+    {
+      "epoch": 0.2788671023965142,
+      "grad_norm": 0.3712524473667145,
+      "learning_rate": 0.0008465269504889934,
+      "loss": 2.4495763778686523,
+      "step": 608,
+      "token_acc": 0.4841875681570338
+    },
+    {
+      "epoch": 0.2793257653938768,
+      "grad_norm": 0.3522526025772095,
+      "learning_rate": 0.0008459911713730799,
+      "loss": 2.365891933441162,
+      "step": 609,
+      "token_acc": 0.4814385150812065
+    },
+    {
+      "epoch": 0.2797844283912395,
+      "grad_norm": 0.34159529209136963,
+      "learning_rate": 0.0008454546288716089,
+      "loss": 2.5207433700561523,
+      "step": 610,
+      "token_acc": 0.47121418826739425
+    },
+    {
+      "epoch": 0.2802430913886022,
+      "grad_norm": 0.3516010046005249,
+      "learning_rate": 0.0008449173241683935,
+      "loss": 2.564419984817505,
+      "step": 611,
+      "token_acc": 0.4769400718033692
+    },
+    {
+      "epoch": 0.2807017543859649,
+      "grad_norm": 0.355101615190506,
+      "learning_rate": 0.0008443792584489281,
+      "loss": 2.461103677749634,
+      "step": 612,
+      "token_acc": 0.49391929242675514
+    },
+    {
+      "epoch": 0.2811604173833276,
+      "grad_norm": 0.36776790022850037,
+      "learning_rate": 0.0008438404329003863,
+      "loss": 2.5651261806488037,
+      "step": 613,
+      "token_acc": 0.4702533447196129
+    },
+    {
+      "epoch": 0.2816190803806903,
+      "grad_norm": 0.3595694899559021,
+      "learning_rate": 0.0008433008487116183,
+      "loss": 2.5519630908966064,
+      "step": 614,
+      "token_acc": 0.4622053643998916
+    },
+    {
+      "epoch": 0.28207774337805297,
+      "grad_norm": 0.36444124579429626,
+      "learning_rate": 0.0008427605070731481,
+      "loss": 2.513122320175171,
+      "step": 615,
+      "token_acc": 0.4875179340028694
+    },
+    {
+      "epoch": 0.28253640637541566,
+      "grad_norm": 0.3482978940010071,
+      "learning_rate": 0.0008422194091771708,
+      "loss": 2.4145803451538086,
+      "step": 616,
+      "token_acc": 0.47286405158516925
+    },
+    {
+      "epoch": 0.28299506937277835,
+      "grad_norm": 0.34840551018714905,
+      "learning_rate": 0.0008416775562175503,
+      "loss": 2.4327523708343506,
+      "step": 617,
+      "token_acc": 0.4784345047923323
+    },
+    {
+      "epoch": 0.28345373237014104,
+      "grad_norm": 0.40639030933380127,
+      "learning_rate": 0.000841134949389816,
+      "loss": 2.4976911544799805,
+      "step": 618,
+      "token_acc": 0.4795592925485648
+    },
+    {
+      "epoch": 0.28391239536750373,
+      "grad_norm": 0.3533143103122711,
+      "learning_rate": 0.0008405915898911611,
+      "loss": 2.4329733848571777,
+      "step": 619,
+      "token_acc": 0.4848147116188353
+    },
+    {
+      "epoch": 0.2843710583648664,
+      "grad_norm": 0.37188422679901123,
+      "learning_rate": 0.0008400474789204396,
+      "loss": 2.5253469944000244,
+      "step": 620,
+      "token_acc": 0.47501372872048325
+    },
+    {
+      "epoch": 0.2848297213622291,
+      "grad_norm": 0.39061281085014343,
+      "learning_rate": 0.0008395026176781626,
+      "loss": 2.5718324184417725,
+      "step": 621,
+      "token_acc": 0.46888646288209607
+    },
+    {
+      "epoch": 0.2852883843595918,
+      "grad_norm": 0.3536094129085541,
+      "learning_rate": 0.0008389570073664976,
+      "loss": 2.4392898082733154,
+      "step": 622,
+      "token_acc": 0.4877222692633362
+    },
+    {
+      "epoch": 0.2857470473569545,
+      "grad_norm": 0.371198832988739,
+      "learning_rate": 0.0008384106491892642,
+      "loss": 2.481555938720703,
+      "step": 623,
+      "token_acc": 0.46749576031656304
+    },
+    {
+      "epoch": 0.2862057103543172,
+      "grad_norm": 0.35640448331832886,
+      "learning_rate": 0.0008378635443519327,
+      "loss": 2.522981643676758,
+      "step": 624,
+      "token_acc": 0.470976253298153
+    },
+    {
+      "epoch": 0.2866643733516799,
+      "grad_norm": 0.3595532178878784,
+      "learning_rate": 0.0008373156940616199,
+      "loss": 2.4354896545410156,
+      "step": 625,
+      "token_acc": 0.4838169642857143
+    },
+    {
+      "epoch": 0.2871230363490425,
+      "grad_norm": 0.36091500520706177,
+      "learning_rate": 0.0008367670995270882,
+      "loss": 2.5481934547424316,
+      "step": 626,
+      "token_acc": 0.47063781961225065
+    },
+    {
+      "epoch": 0.2875816993464052,
+      "grad_norm": 0.34244829416275024,
+      "learning_rate": 0.0008362177619587416,
+      "loss": 2.5275392532348633,
+      "step": 627,
+      "token_acc": 0.47137671041608487
+    },
+    {
+      "epoch": 0.2880403623437679,
+      "grad_norm": 0.33013561367988586,
+      "learning_rate": 0.0008356676825686238,
+      "loss": 2.5603859424591064,
+      "step": 628,
+      "token_acc": 0.46066196418882255
+    },
+    {
+      "epoch": 0.2884990253411306,
+      "grad_norm": 0.3425203263759613,
+      "learning_rate": 0.0008351168625704147,
+      "loss": 2.5613231658935547,
+      "step": 629,
+      "token_acc": 0.4591093117408907
+    },
+    {
+      "epoch": 0.2889576883384933,
+      "grad_norm": 0.38410261273384094,
+      "learning_rate": 0.0008345653031794292,
+      "loss": 2.4835751056671143,
+      "step": 630,
+      "token_acc": 0.47559591373439275
+    },
+    {
+      "epoch": 0.28941635133585597,
+      "grad_norm": 0.3521682620048523,
+      "learning_rate": 0.0008340130056126125,
+      "loss": 2.5552096366882324,
+      "step": 631,
+      "token_acc": 0.4642070484581498
+    },
+    {
+      "epoch": 0.28987501433321866,
+      "grad_norm": 0.3795808255672455,
+      "learning_rate": 0.0008334599710885394,
+      "loss": 2.5078701972961426,
+      "step": 632,
+      "token_acc": 0.47815054976036087
+    },
+    {
+      "epoch": 0.29033367733058135,
+      "grad_norm": 0.32778286933898926,
+      "learning_rate": 0.0008329062008274098,
+      "loss": 2.434720277786255,
+      "step": 633,
+      "token_acc": 0.47572544642857145
+    },
+    {
+      "epoch": 0.29079234032794404,
+      "grad_norm": 0.38708725571632385,
+      "learning_rate": 0.000832351696051048,
+      "loss": 2.5281739234924316,
+      "step": 634,
+      "token_acc": 0.4685580579116701
+    },
+    {
+      "epoch": 0.29125100332530673,
+      "grad_norm": 0.35527893900871277,
+      "learning_rate": 0.000831796457982898,
+      "loss": 2.5944664478302,
+      "step": 635,
+      "token_acc": 0.4586384594521291
+    },
+    {
+      "epoch": 0.2917096663226694,
+      "grad_norm": 0.3466051518917084,
+      "learning_rate": 0.0008312404878480222,
+      "loss": 2.4802706241607666,
+      "step": 636,
+      "token_acc": 0.47627024008933555
+    },
+    {
+      "epoch": 0.2921683293200321,
+      "grad_norm": 0.38533422350883484,
+      "learning_rate": 0.0008306837868730979,
+      "loss": 2.528677463531494,
+      "step": 637,
+      "token_acc": 0.47042488197722854
+    },
+    {
+      "epoch": 0.2926269923173948,
+      "grad_norm": 0.3741171658039093,
+      "learning_rate": 0.0008301263562864152,
+      "loss": 2.5128512382507324,
+      "step": 638,
+      "token_acc": 0.46878680800942285
+    },
+    {
+      "epoch": 0.2930856553147575,
+      "grad_norm": 0.3736501634120941,
+      "learning_rate": 0.0008295681973178737,
+      "loss": 2.468588352203369,
+      "step": 639,
+      "token_acc": 0.472984441301273
+    },
+    {
+      "epoch": 0.2935443183121202,
+      "grad_norm": 0.374865859746933,
+      "learning_rate": 0.0008290093111989804,
+      "loss": 2.4902660846710205,
+      "step": 640,
+      "token_acc": 0.47573632538569427
+    },
+    {
+      "epoch": 0.2940029813094829,
+      "grad_norm": 0.36957672238349915,
+      "learning_rate": 0.0008284496991628465,
+      "loss": 2.6000771522521973,
+      "step": 641,
+      "token_acc": 0.45921938088829073
+    },
+    {
+      "epoch": 0.29446164430684557,
+      "grad_norm": 0.3818596601486206,
+      "learning_rate": 0.0008278893624441847,
+      "loss": 2.598778247833252,
+      "step": 642,
+      "token_acc": 0.45560165975103734
+    },
+    {
+      "epoch": 0.2949203073042082,
+      "grad_norm": 0.35935285687446594,
+      "learning_rate": 0.000827328302279307,
+      "loss": 2.610846519470215,
+      "step": 643,
+      "token_acc": 0.46155965830807383
+    },
+    {
+      "epoch": 0.2953789703015709,
+      "grad_norm": 0.3513602316379547,
+      "learning_rate": 0.0008267665199061211,
+      "loss": 2.4548654556274414,
+      "step": 644,
+      "token_acc": 0.48196448390677027
+    },
+    {
+      "epoch": 0.2958376332989336,
+      "grad_norm": 0.3473533093929291,
+      "learning_rate": 0.0008262040165641288,
+      "loss": 2.536649703979492,
+      "step": 645,
+      "token_acc": 0.4748261474269819
+    },
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": 0.34129300713539124,
+      "learning_rate": 0.0008256407934944219,
+      "loss": 2.5052361488342285,
+      "step": 646,
+      "token_acc": 0.4664064678003903
+    },
+    {
+      "epoch": 0.29675495929365897,
+      "grad_norm": 0.3682518005371094,
+      "learning_rate": 0.0008250768519396807,
+      "loss": 2.455735683441162,
+      "step": 647,
+      "token_acc": 0.4836488812392427
+    },
+    {
+      "epoch": 0.29721362229102166,
+      "grad_norm": 0.3816128671169281,
+      "learning_rate": 0.0008245121931441706,
+      "loss": 2.4944562911987305,
+      "step": 648,
+      "token_acc": 0.4787446504992867
+    },
+    {
+      "epoch": 0.29767228528838435,
+      "grad_norm": 0.3876208961009979,
+      "learning_rate": 0.0008239468183537393,
+      "loss": 2.5391573905944824,
+      "step": 649,
+      "token_acc": 0.4800226693114197
+    },
+    {
+      "epoch": 0.29813094828574704,
+      "grad_norm": 0.36932453513145447,
+      "learning_rate": 0.0008233807288158146,
+      "loss": 2.459567070007324,
+      "step": 650,
+      "token_acc": 0.48169717138103163
+    },
+    {
+      "epoch": 0.29858961128310973,
+      "grad_norm": 0.34249791502952576,
+      "learning_rate": 0.0008228139257794012,
+      "loss": 2.4820594787597656,
+      "step": 651,
+      "token_acc": 0.49097574732092497
+    },
+    {
+      "epoch": 0.2990482742804724,
+      "grad_norm": 0.3477895259857178,
+      "learning_rate": 0.0008222464104950778,
+      "loss": 2.5432252883911133,
+      "step": 652,
+      "token_acc": 0.47225305216426194
+    },
+    {
+      "epoch": 0.2995069372778351,
+      "grad_norm": 0.35896340012550354,
+      "learning_rate": 0.000821678184214995,
+      "loss": 2.394166946411133,
+      "step": 653,
+      "token_acc": 0.4869755963805868
+    },
+    {
+      "epoch": 0.2999656002751978,
+      "grad_norm": 0.35171008110046387,
+      "learning_rate": 0.0008211092481928716,
+      "loss": 2.393663167953491,
+      "step": 654,
+      "token_acc": 0.4858710562414266
+    },
+    {
+      "epoch": 0.3004242632725605,
+      "grad_norm": 0.35666531324386597,
+      "learning_rate": 0.0008205396036839927,
+      "loss": 2.5489256381988525,
+      "step": 655,
+      "token_acc": 0.4692657939669892
+    },
+    {
+      "epoch": 0.3008829262699232,
+      "grad_norm": 0.34596869349479675,
+      "learning_rate": 0.0008199692519452069,
+      "loss": 2.487274646759033,
+      "step": 656,
+      "token_acc": 0.46792035398230086
+    },
+    {
+      "epoch": 0.3013415892672859,
+      "grad_norm": 0.37479063868522644,
+      "learning_rate": 0.0008193981942349224,
+      "loss": 2.453554153442383,
+      "step": 657,
+      "token_acc": 0.4755594817432273
+    },
+    {
+      "epoch": 0.30180025226464857,
+      "grad_norm": 0.34790608286857605,
+      "learning_rate": 0.0008188264318131056,
+      "loss": 2.428804397583008,
+      "step": 658,
+      "token_acc": 0.4944618006248225
+    },
+    {
+      "epoch": 0.30225891526201126,
+      "grad_norm": 0.3412317931652069,
+      "learning_rate": 0.0008182539659412776,
+      "loss": 2.454439640045166,
+      "step": 659,
+      "token_acc": 0.4856985698569857
+    },
+    {
+      "epoch": 0.3027175782593739,
+      "grad_norm": 0.34814453125,
+      "learning_rate": 0.0008176807978825118,
+      "loss": 2.566230535507202,
+      "step": 660,
+      "token_acc": 0.469726292507603
+    },
+    {
+      "epoch": 0.3031762412567366,
+      "grad_norm": 0.37712863087654114,
+      "learning_rate": 0.0008171069289014306,
+      "loss": 2.4501965045928955,
+      "step": 661,
+      "token_acc": 0.4754376058723885
+    },
+    {
+      "epoch": 0.3036349042540993,
+      "grad_norm": 0.33920538425445557,
+      "learning_rate": 0.0008165323602642028,
+      "loss": 2.597313404083252,
+      "step": 662,
+      "token_acc": 0.4573664328116568
+    },
+    {
+      "epoch": 0.30409356725146197,
+      "grad_norm": 0.3496813178062439,
+      "learning_rate": 0.0008159570932385414,
+      "loss": 2.455197811126709,
+      "step": 663,
+      "token_acc": 0.4870940882597835
+    },
+    {
+      "epoch": 0.30455223024882466,
+      "grad_norm": 0.36241719126701355,
+      "learning_rate": 0.0008153811290936999,
+      "loss": 2.5007219314575195,
+      "step": 664,
+      "token_acc": 0.47898448519040904
+    },
+    {
+      "epoch": 0.30501089324618735,
+      "grad_norm": 0.3510899543762207,
+      "learning_rate": 0.0008148044691004698,
+      "loss": 2.5122296810150146,
+      "step": 665,
+      "token_acc": 0.4802036199095023
+    },
+    {
+      "epoch": 0.30546955624355004,
+      "grad_norm": 0.3507455885410309,
+      "learning_rate": 0.0008142271145311783,
+      "loss": 2.482914686203003,
+      "step": 666,
+      "token_acc": 0.47938718662952645
+    },
+    {
+      "epoch": 0.30592821924091274,
+      "grad_norm": 0.33687421679496765,
+      "learning_rate": 0.000813649066659685,
+      "loss": 2.4350931644439697,
+      "step": 667,
+      "token_acc": 0.4832919083126208
+    },
+    {
+      "epoch": 0.3063868822382754,
+      "grad_norm": 0.35945454239845276,
+      "learning_rate": 0.0008130703267613787,
+      "loss": 2.4999451637268066,
+      "step": 668,
+      "token_acc": 0.47235475722705583
+    },
+    {
+      "epoch": 0.3068455452356381,
+      "grad_norm": 0.3554210364818573,
+      "learning_rate": 0.0008124908961131759,
+      "loss": 2.4043941497802734,
+      "step": 669,
+      "token_acc": 0.4827984966753397
+    },
+    {
+      "epoch": 0.3073042082330008,
+      "grad_norm": 0.35209041833877563,
+      "learning_rate": 0.0008119107759935163,
+      "loss": 2.510706901550293,
+      "step": 670,
+      "token_acc": 0.4823261117445838
+    },
+    {
+      "epoch": 0.3077628712303635,
+      "grad_norm": 0.3715539276599884,
+      "learning_rate": 0.0008113299676823615,
+      "loss": 2.5089211463928223,
+      "step": 671,
+      "token_acc": 0.4684107987753966
+    },
+    {
+      "epoch": 0.3082215342277262,
+      "grad_norm": 0.35757407546043396,
+      "learning_rate": 0.0008107484724611911,
+      "loss": 2.4624581336975098,
+      "step": 672,
+      "token_acc": 0.4748757592490337
+    },
+    {
+      "epoch": 0.3086801972250889,
+      "grad_norm": 0.3611299693584442,
+      "learning_rate": 0.0008101662916130006,
+      "loss": 2.432835817337036,
+      "step": 673,
+      "token_acc": 0.4772141014617369
+    },
+    {
+      "epoch": 0.3091388602224516,
+      "grad_norm": 0.3485843539237976,
+      "learning_rate": 0.0008095834264222979,
+      "loss": 2.4135727882385254,
+      "step": 674,
+      "token_acc": 0.49127589967284624
+    },
+    {
+      "epoch": 0.30959752321981426,
+      "grad_norm": 0.37126484513282776,
+      "learning_rate": 0.0008089998781751009,
+      "loss": 2.6135077476501465,
+      "step": 675,
+      "token_acc": 0.4674486803519062
+    },
+    {
+      "epoch": 0.31005618621717695,
+      "grad_norm": 0.38041549921035767,
+      "learning_rate": 0.0008084156481589349,
+      "loss": 2.463932514190674,
+      "step": 676,
+      "token_acc": 0.4703804347826087
+    },
+    {
+      "epoch": 0.3105148492145396,
+      "grad_norm": 0.34299805760383606,
+      "learning_rate": 0.0008078307376628291,
+      "loss": 2.4513766765594482,
+      "step": 677,
+      "token_acc": 0.48502495840266224
+    },
+    {
+      "epoch": 0.3109735122119023,
+      "grad_norm": 0.3507917821407318,
+      "learning_rate": 0.0008072451479773143,
+      "loss": 2.5057129859924316,
+      "step": 678,
+      "token_acc": 0.4689249720044793
+    },
+    {
+      "epoch": 0.31143217520926497,
+      "grad_norm": 0.36286208033561707,
+      "learning_rate": 0.0008066588803944195,
+      "loss": 2.532740592956543,
+      "step": 679,
+      "token_acc": 0.4686641011544805
+    },
+    {
+      "epoch": 0.31189083820662766,
+      "grad_norm": 0.3410475254058838,
+      "learning_rate": 0.0008060719362076697,
+      "loss": 2.5940396785736084,
+      "step": 680,
+      "token_acc": 0.45865921787709496
+    },
+    {
+      "epoch": 0.31234950120399035,
+      "grad_norm": 0.34983688592910767,
+      "learning_rate": 0.0008054843167120826,
+      "loss": 2.5263447761535645,
+      "step": 681,
+      "token_acc": 0.4743761738663805
+    },
+    {
+      "epoch": 0.31280816420135305,
+      "grad_norm": 0.35717347264289856,
+      "learning_rate": 0.0008048960232041663,
+      "loss": 2.4821815490722656,
+      "step": 682,
+      "token_acc": 0.4901174448582068
+    },
+    {
+      "epoch": 0.31326682719871574,
+      "grad_norm": 0.35143789649009705,
+      "learning_rate": 0.0008043070569819153,
+      "loss": 2.604642391204834,
+      "step": 683,
+      "token_acc": 0.46350974930362115
+    },
+    {
+      "epoch": 0.3137254901960784,
+      "grad_norm": 0.3501461148262024,
+      "learning_rate": 0.0008037174193448089,
+      "loss": 2.5003676414489746,
+      "step": 684,
+      "token_acc": 0.4652220438737293
+    },
+    {
+      "epoch": 0.3141841531934411,
+      "grad_norm": 0.38942310214042664,
+      "learning_rate": 0.0008031271115938077,
+      "loss": 2.395242929458618,
+      "step": 685,
+      "token_acc": 0.487888287261328
+    },
+    {
+      "epoch": 0.3146428161908038,
+      "grad_norm": 0.3649235963821411,
+      "learning_rate": 0.0008025361350313505,
+      "loss": 2.4117608070373535,
+      "step": 686,
+      "token_acc": 0.4814309120699072
+    },
+    {
+      "epoch": 0.3151014791881665,
+      "grad_norm": 0.3525184392929077,
+      "learning_rate": 0.0008019444909613523,
+      "loss": 2.5189971923828125,
+      "step": 687,
+      "token_acc": 0.4671368124118477
+    },
+    {
+      "epoch": 0.3155601421855292,
+      "grad_norm": 0.38877764344215393,
+      "learning_rate": 0.0008013521806892003,
+      "loss": 2.5280954837799072,
+      "step": 688,
+      "token_acc": 0.46228710462287104
+    },
+    {
+      "epoch": 0.3160188051828919,
+      "grad_norm": 0.3608831465244293,
+      "learning_rate": 0.000800759205521752,
+      "loss": 2.482534885406494,
+      "step": 689,
+      "token_acc": 0.4800221975582686
+    },
+    {
+      "epoch": 0.3164774681802546,
+      "grad_norm": 0.33392149209976196,
+      "learning_rate": 0.0008001655667673318,
+      "loss": 2.498241662979126,
+      "step": 690,
+      "token_acc": 0.47318699638788553
+    },
+    {
+      "epoch": 0.31693613117761726,
+      "grad_norm": 0.346088171005249,
+      "learning_rate": 0.0007995712657357279,
+      "loss": 2.4622936248779297,
+      "step": 691,
+      "token_acc": 0.4691324449279304
+    },
+    {
+      "epoch": 0.31739479417497996,
+      "grad_norm": 0.4086669385433197,
+      "learning_rate": 0.0007989763037381904,
+      "loss": 2.5037841796875,
+      "step": 692,
+      "token_acc": 0.47834645669291337
+    },
+    {
+      "epoch": 0.31785345717234265,
+      "grad_norm": 0.35320818424224854,
+      "learning_rate": 0.0007983806820874271,
+      "loss": 2.4438748359680176,
+      "step": 693,
+      "token_acc": 0.48568311971638944
+    },
+    {
+      "epoch": 0.3183121201697053,
+      "grad_norm": 0.3751761317253113,
+      "learning_rate": 0.0007977844020976016,
+      "loss": 2.5002529621124268,
+      "step": 694,
+      "token_acc": 0.46684042861280045
+    },
+    {
+      "epoch": 0.318770783167068,
+      "grad_norm": 0.3681119382381439,
+      "learning_rate": 0.00079718746508433,
+      "loss": 2.501915693283081,
+      "step": 695,
+      "token_acc": 0.4698694806998056
+    },
+    {
+      "epoch": 0.31922944616443066,
+      "grad_norm": 0.34130018949508667,
+      "learning_rate": 0.0007965898723646776,
+      "loss": 2.511105537414551,
+      "step": 696,
+      "token_acc": 0.4714881780250348
+    },
+    {
+      "epoch": 0.31968810916179335,
+      "grad_norm": 0.34937864542007446,
+      "learning_rate": 0.0007959916252571573,
+      "loss": 2.58450984954834,
+      "step": 697,
+      "token_acc": 0.46875860170657857
+    },
+    {
+      "epoch": 0.32014677215915605,
+      "grad_norm": 0.37094560265541077,
+      "learning_rate": 0.000795392725081725,
+      "loss": 2.4765450954437256,
+      "step": 698,
+      "token_acc": 0.4878048780487805
+    },
+    {
+      "epoch": 0.32060543515651874,
+      "grad_norm": 0.33710065484046936,
+      "learning_rate": 0.000794793173159778,
+      "loss": 2.580900192260742,
+      "step": 699,
+      "token_acc": 0.47442632015482444
+    },
+    {
+      "epoch": 0.3210640981538814,
+      "grad_norm": 0.3590303361415863,
+      "learning_rate": 0.0007941929708141513,
+      "loss": 2.567293882369995,
+      "step": 700,
+      "token_acc": 0.47200878155872666
+    },
+    {
+      "epoch": 0.3215227611512441,
+      "grad_norm": 0.36723387241363525,
+      "learning_rate": 0.0007935921193691153,
+      "loss": 2.5955965518951416,
+      "step": 701,
+      "token_acc": 0.45725211690794865
+    },
+    {
+      "epoch": 0.3219814241486068,
+      "grad_norm": 0.34601256251335144,
+      "learning_rate": 0.0007929906201503722,
+      "loss": 2.4192023277282715,
+      "step": 702,
+      "token_acc": 0.48301574150787074
+    },
+    {
+      "epoch": 0.3224400871459695,
+      "grad_norm": 0.3922874927520752,
+      "learning_rate": 0.0007923884744850536,
+      "loss": 2.403144359588623,
+      "step": 703,
+      "token_acc": 0.4859481582537517
+    },
+    {
+      "epoch": 0.3228987501433322,
+      "grad_norm": 0.37906432151794434,
+      "learning_rate": 0.0007917856837017176,
+      "loss": 2.535346031188965,
+      "step": 704,
+      "token_acc": 0.46719012899607404
+    },
+    {
+      "epoch": 0.3233574131406949,
+      "grad_norm": 0.3532241880893707,
+      "learning_rate": 0.0007911822491303452,
+      "loss": 2.50457501411438,
+      "step": 705,
+      "token_acc": 0.4784506273867976
+    },
+    {
+      "epoch": 0.3238160761380576,
+      "grad_norm": 0.37003663182258606,
+      "learning_rate": 0.0007905781721023382,
+      "loss": 2.5387887954711914,
+      "step": 706,
+      "token_acc": 0.4671717171717172
+    },
+    {
+      "epoch": 0.32427473913542026,
+      "grad_norm": 0.3547530770301819,
+      "learning_rate": 0.000789973453950516,
+      "loss": 2.4692649841308594,
+      "step": 707,
+      "token_acc": 0.4727468969239072
+    },
+    {
+      "epoch": 0.32473340213278296,
+      "grad_norm": 0.3270757496356964,
+      "learning_rate": 0.000789368096009112,
+      "loss": 2.4922938346862793,
+      "step": 708,
+      "token_acc": 0.47232267037552156
+    },
+    {
+      "epoch": 0.32519206513014565,
+      "grad_norm": 0.3403084874153137,
+      "learning_rate": 0.0007887620996137721,
+      "loss": 2.4505021572113037,
+      "step": 709,
+      "token_acc": 0.48622589531680444
+    },
+    {
+      "epoch": 0.32565072812750834,
+      "grad_norm": 0.3299373388290405,
+      "learning_rate": 0.0007881554661015497,
+      "loss": 2.560422658920288,
+      "step": 710,
+      "token_acc": 0.4754643748267258
+    },
+    {
+      "epoch": 0.32610939112487103,
+      "grad_norm": 0.3426433503627777,
+      "learning_rate": 0.0007875481968109051,
+      "loss": 2.5303573608398438,
+      "step": 711,
+      "token_acc": 0.4750914719954968
+    },
+    {
+      "epoch": 0.32656805412223366,
+      "grad_norm": 0.3157728612422943,
+      "learning_rate": 0.0007869402930817007,
+      "loss": 2.4995152950286865,
+      "step": 712,
+      "token_acc": 0.4666845062884667
+    },
+    {
+      "epoch": 0.32702671711959636,
+      "grad_norm": 0.3554588556289673,
+      "learning_rate": 0.0007863317562551987,
+      "loss": 2.4750475883483887,
+      "step": 713,
+      "token_acc": 0.4703622392974753
+    },
+    {
+      "epoch": 0.32748538011695905,
+      "grad_norm": 0.3609353005886078,
+      "learning_rate": 0.0007857225876740584,
+      "loss": 2.5715863704681396,
+      "step": 714,
+      "token_acc": 0.47438330170777987
+    },
+    {
+      "epoch": 0.32794404311432174,
+      "grad_norm": 0.38942810893058777,
+      "learning_rate": 0.0007851127886823327,
+      "loss": 2.4522764682769775,
+      "step": 715,
+      "token_acc": 0.4669994453688297
+    },
+    {
+      "epoch": 0.32840270611168443,
+      "grad_norm": 0.3638046085834503,
+      "learning_rate": 0.0007845023606254658,
+      "loss": 2.391580104827881,
+      "step": 716,
+      "token_acc": 0.471444261394838
+    },
+    {
+      "epoch": 0.3288613691090471,
+      "grad_norm": 0.37281668186187744,
+      "learning_rate": 0.0007838913048502894,
+      "loss": 2.5013651847839355,
+      "step": 717,
+      "token_acc": 0.4775866929799831
+    },
+    {
+      "epoch": 0.3293200321064098,
+      "grad_norm": 0.35957518219947815,
+      "learning_rate": 0.0007832796227050208,
+      "loss": 2.453460216522217,
+      "step": 718,
+      "token_acc": 0.492277450154451
+    },
+    {
+      "epoch": 0.3297786951037725,
+      "grad_norm": 0.39589008688926697,
+      "learning_rate": 0.0007826673155392587,
+      "loss": 2.4434778690338135,
+      "step": 719,
+      "token_acc": 0.48399666017255777
+    },
+    {
+      "epoch": 0.3302373581011352,
+      "grad_norm": 0.3566542863845825,
+      "learning_rate": 0.000782054384703981,
+      "loss": 2.564061164855957,
+      "step": 720,
+      "token_acc": 0.46494573188618366
+    },
+    {
+      "epoch": 0.3306960210984979,
+      "grad_norm": 0.35493654012680054,
+      "learning_rate": 0.0007814408315515418,
+      "loss": 2.445883274078369,
+      "step": 721,
+      "token_acc": 0.48
+    },
+    {
+      "epoch": 0.3311546840958606,
+      "grad_norm": 0.3641558885574341,
+      "learning_rate": 0.0007808266574356683,
+      "loss": 2.5719149112701416,
+      "step": 722,
+      "token_acc": 0.45585785674625207
+    },
+    {
+      "epoch": 0.33161334709322327,
+      "grad_norm": 0.34119558334350586,
+      "learning_rate": 0.0007802118637114573,
+      "loss": 2.596724510192871,
+      "step": 723,
+      "token_acc": 0.463943661971831
+    },
+    {
+      "epoch": 0.33207201009058596,
+      "grad_norm": 0.3604756295681,
+      "learning_rate": 0.0007795964517353734,
+      "loss": 2.5066018104553223,
+      "step": 724,
+      "token_acc": 0.48334709606385906
+    },
+    {
+      "epoch": 0.33253067308794865,
+      "grad_norm": 0.35032856464385986,
+      "learning_rate": 0.0007789804228652449,
+      "loss": 2.635077953338623,
+      "step": 725,
+      "token_acc": 0.4389280677009873
+    },
+    {
+      "epoch": 0.33298933608531134,
+      "grad_norm": 0.36541563272476196,
+      "learning_rate": 0.0007783637784602609,
+      "loss": 2.4435911178588867,
+      "step": 726,
+      "token_acc": 0.48745119910764084
+    },
+    {
+      "epoch": 0.33344799908267403,
+      "grad_norm": 0.36065584421157837,
+      "learning_rate": 0.0007777465198809692,
+      "loss": 2.4607625007629395,
+      "step": 727,
+      "token_acc": 0.48314285714285715
+    },
+    {
+      "epoch": 0.3339066620800367,
+      "grad_norm": 0.33385568857192993,
+      "learning_rate": 0.0007771286484892722,
+      "loss": 2.5126917362213135,
+      "step": 728,
+      "token_acc": 0.4797464866354368
+    },
+    {
+      "epoch": 0.33436532507739936,
+      "grad_norm": 0.36354780197143555,
+      "learning_rate": 0.000776510165648425,
+      "loss": 2.511340618133545,
+      "step": 729,
+      "token_acc": 0.47344632768361583
+    },
+    {
+      "epoch": 0.33482398807476205,
+      "grad_norm": 0.351592481136322,
+      "learning_rate": 0.0007758910727230311,
+      "loss": 2.4994800090789795,
+      "step": 730,
+      "token_acc": 0.464776381175095
+    },
+    {
+      "epoch": 0.33528265107212474,
+      "grad_norm": 0.3549693524837494,
+      "learning_rate": 0.0007752713710790404,
+      "loss": 2.524799108505249,
+      "step": 731,
+      "token_acc": 0.48202660628361166
+    },
+    {
+      "epoch": 0.33574131406948743,
+      "grad_norm": 0.35759496688842773,
+      "learning_rate": 0.0007746510620837459,
+      "loss": 2.49360990524292,
+      "step": 732,
+      "token_acc": 0.48623348017621143
+    },
+    {
+      "epoch": 0.3361999770668501,
+      "grad_norm": 0.3433513343334198,
+      "learning_rate": 0.0007740301471057807,
+      "loss": 2.3757376670837402,
+      "step": 733,
+      "token_acc": 0.4890552995391705
+    },
+    {
+      "epoch": 0.3366586400642128,
+      "grad_norm": 0.3621678352355957,
+      "learning_rate": 0.0007734086275151146,
+      "loss": 2.5070338249206543,
+      "step": 734,
+      "token_acc": 0.48040313549832026
+    },
+    {
+      "epoch": 0.3371173030615755,
+      "grad_norm": 0.3816535174846649,
+      "learning_rate": 0.0007727865046830517,
+      "loss": 2.5104877948760986,
+      "step": 735,
+      "token_acc": 0.46885617214043035
+    },
+    {
+      "epoch": 0.3375759660589382,
+      "grad_norm": 0.37210813164711,
+      "learning_rate": 0.0007721637799822269,
+      "loss": 2.4682278633117676,
+      "step": 736,
+      "token_acc": 0.4864183702044245
+    },
+    {
+      "epoch": 0.3380346290563009,
+      "grad_norm": 0.4333285093307495,
+      "learning_rate": 0.0007715404547866032,
+      "loss": 2.5908682346343994,
+      "step": 737,
+      "token_acc": 0.46633481791983233
+    },
+    {
+      "epoch": 0.3384932920536636,
+      "grad_norm": 0.3366856276988983,
+      "learning_rate": 0.0007709165304714685,
+      "loss": 2.552295207977295,
+      "step": 738,
+      "token_acc": 0.47695390781563124
+    },
+    {
+      "epoch": 0.33895195505102627,
+      "grad_norm": 0.33232381939888,
+      "learning_rate": 0.0007702920084134324,
+      "loss": 2.51790452003479,
+      "step": 739,
+      "token_acc": 0.46814482177939937
+    },
+    {
+      "epoch": 0.33941061804838896,
+      "grad_norm": 0.3236730694770813,
+      "learning_rate": 0.0007696668899904236,
+      "loss": 2.5784425735473633,
+      "step": 740,
+      "token_acc": 0.4552038626609442
+    },
+    {
+      "epoch": 0.33986928104575165,
+      "grad_norm": 0.3558567464351654,
+      "learning_rate": 0.0007690411765816864,
+      "loss": 2.513674259185791,
+      "step": 741,
+      "token_acc": 0.4773371104815864
+    },
+    {
+      "epoch": 0.34032794404311434,
+      "grad_norm": 0.3514906167984009,
+      "learning_rate": 0.0007684148695677778,
+      "loss": 2.5302951335906982,
+      "step": 742,
+      "token_acc": 0.4748633879781421
+    },
+    {
+      "epoch": 0.34078660704047703,
+      "grad_norm": 0.34525763988494873,
+      "learning_rate": 0.000767787970330565,
+      "loss": 2.524214267730713,
+      "step": 743,
+      "token_acc": 0.475368772613415
+    },
+    {
+      "epoch": 0.3412452700378397,
+      "grad_norm": 0.33909493684768677,
+      "learning_rate": 0.000767160480253221,
+      "loss": 2.4672207832336426,
+      "step": 744,
+      "token_acc": 0.48171074845244793
+    },
+    {
+      "epoch": 0.3417039330352024,
+      "grad_norm": 0.34997573494911194,
+      "learning_rate": 0.0007665324007202235,
+      "loss": 2.524260997772217,
+      "step": 745,
+      "token_acc": 0.48261238337574214
+    },
+    {
+      "epoch": 0.34216259603256505,
+      "grad_norm": 0.36363962292671204,
+      "learning_rate": 0.0007659037331173498,
+      "loss": 2.552900791168213,
+      "step": 746,
+      "token_acc": 0.46267029972752044
+    },
+    {
+      "epoch": 0.34262125902992774,
+      "grad_norm": 0.3389800190925598,
+      "learning_rate": 0.0007652744788316752,
+      "loss": 2.486886739730835,
+      "step": 747,
+      "token_acc": 0.4692039511911679
+    },
+    {
+      "epoch": 0.34307992202729043,
+      "grad_norm": 0.33301493525505066,
+      "learning_rate": 0.0007646446392515692,
+      "loss": 2.549711227416992,
+      "step": 748,
+      "token_acc": 0.4661991584852735
+    },
+    {
+      "epoch": 0.3435385850246531,
+      "grad_norm": 0.3301955759525299,
+      "learning_rate": 0.000764014215766693,
+      "loss": 2.4807004928588867,
+      "step": 749,
+      "token_acc": 0.4756625202812331
+    },
+    {
+      "epoch": 0.3439972480220158,
+      "grad_norm": 0.33102622628211975,
+      "learning_rate": 0.0007633832097679958,
+      "loss": 2.4364609718322754,
+      "step": 750,
+      "token_acc": 0.48858574610244987
+    },
+    {
+      "epoch": 0.3444559110193785,
+      "grad_norm": 0.34175965189933777,
+      "learning_rate": 0.0007627516226477122,
+      "loss": 2.5203254222869873,
+      "step": 751,
+      "token_acc": 0.46735780330624827
+    },
+    {
+      "epoch": 0.3449145740167412,
+      "grad_norm": 0.33683842420578003,
+      "learning_rate": 0.0007621194557993589,
+      "loss": 2.4582300186157227,
+      "step": 752,
+      "token_acc": 0.47496503496503495
+    },
+    {
+      "epoch": 0.3453732370141039,
+      "grad_norm": 0.319711297750473,
+      "learning_rate": 0.0007614867106177319,
+      "loss": 2.556149482727051,
+      "step": 753,
+      "token_acc": 0.4703493095044679
+    },
+    {
+      "epoch": 0.3458319000114666,
+      "grad_norm": 0.36632195115089417,
+      "learning_rate": 0.0007608533884989029,
+      "loss": 2.4283225536346436,
+      "step": 754,
+      "token_acc": 0.4897190848537504
+    },
+    {
+      "epoch": 0.34629056300882927,
+      "grad_norm": 0.34834444522857666,
+      "learning_rate": 0.0007602194908402166,
+      "loss": 2.545734405517578,
+      "step": 755,
+      "token_acc": 0.4574314574314574
+    },
+    {
+      "epoch": 0.34674922600619196,
+      "grad_norm": 0.3764784634113312,
+      "learning_rate": 0.0007595850190402877,
+      "loss": 2.5432612895965576,
+      "step": 756,
+      "token_acc": 0.46335899629312804
+    },
+    {
+      "epoch": 0.34720788900355465,
+      "grad_norm": 0.3312098979949951,
+      "learning_rate": 0.0007589499744989976,
+      "loss": 2.4372644424438477,
+      "step": 757,
+      "token_acc": 0.4880382775119617
+    },
+    {
+      "epoch": 0.34766655200091734,
+      "grad_norm": 0.3288785219192505,
+      "learning_rate": 0.0007583143586174916,
+      "loss": 2.406111240386963,
+      "step": 758,
+      "token_acc": 0.47542764051045344
+    },
+    {
+      "epoch": 0.34812521499828003,
+      "grad_norm": 0.3352579176425934,
+      "learning_rate": 0.000757678172798175,
+      "loss": 2.457388401031494,
+      "step": 759,
+      "token_acc": 0.47185525560022973
+    },
+    {
+      "epoch": 0.3485838779956427,
+      "grad_norm": 0.3413090109825134,
+      "learning_rate": 0.0007570414184447112,
+      "loss": 2.5851449966430664,
+      "step": 760,
+      "token_acc": 0.4624326623192515
+    },
+    {
+      "epoch": 0.3490425409930054,
+      "grad_norm": 0.3249777853488922,
+      "learning_rate": 0.0007564040969620179,
+      "loss": 2.4194319248199463,
+      "step": 761,
+      "token_acc": 0.479806598407281
+    },
+    {
+      "epoch": 0.3495012039903681,
+      "grad_norm": 0.3535235822200775,
+      "learning_rate": 0.0007557662097562636,
+      "loss": 2.5127203464508057,
+      "step": 762,
+      "token_acc": 0.4727954971857411
+    },
+    {
+      "epoch": 0.34995986698773074,
+      "grad_norm": 0.3230501413345337,
+      "learning_rate": 0.0007551277582348658,
+      "loss": 2.4848999977111816,
+      "step": 763,
+      "token_acc": 0.473965662820152
+    },
+    {
+      "epoch": 0.35041852998509343,
+      "grad_norm": 0.3324788212776184,
+      "learning_rate": 0.0007544887438064862,
+      "loss": 2.4135982990264893,
+      "step": 764,
+      "token_acc": 0.47573347957225115
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "grad_norm": 0.3648921847343445,
+      "learning_rate": 0.0007538491678810294,
+      "loss": 2.4969935417175293,
+      "step": 765,
+      "token_acc": 0.47896995708154505
+    },
+    {
+      "epoch": 0.3513358559798188,
+      "grad_norm": 0.3608934283256531,
+      "learning_rate": 0.0007532090318696381,
+      "loss": 2.47397780418396,
+      "step": 766,
+      "token_acc": 0.4847025495750708
+    },
+    {
+      "epoch": 0.3517945189771815,
+      "grad_norm": 0.35839247703552246,
+      "learning_rate": 0.0007525683371846913,
+      "loss": 2.563225746154785,
+      "step": 767,
+      "token_acc": 0.4642857142857143
+    },
+    {
+      "epoch": 0.3522531819745442,
+      "grad_norm": 0.35109156370162964,
+      "learning_rate": 0.0007519270852398001,
+      "loss": 2.4896039962768555,
+      "step": 768,
+      "token_acc": 0.47200909349246944
+    },
+    {
+      "epoch": 0.3527118449719069,
+      "grad_norm": 0.3396438956260681,
+      "learning_rate": 0.000751285277449806,
+      "loss": 2.4827041625976562,
+      "step": 769,
+      "token_acc": 0.4746110948048136
+    },
+    {
+      "epoch": 0.3531705079692696,
+      "grad_norm": 0.32917967438697815,
+      "learning_rate": 0.0007506429152307756,
+      "loss": 2.3996291160583496,
+      "step": 770,
+      "token_acc": 0.49016892827471614
+    },
+    {
+      "epoch": 0.35362917096663227,
+      "grad_norm": 0.3525303900241852,
+      "learning_rate": 0.00075,
+      "loss": 2.424008369445801,
+      "step": 771,
+      "token_acc": 0.4831932773109244
+    },
+    {
+      "epoch": 0.35408783396399496,
+      "grad_norm": 0.3548593521118164,
+      "learning_rate": 0.00074935653317599,
+      "loss": 2.5645644664764404,
+      "step": 772,
+      "token_acc": 0.46440042826552463
+    },
+    {
+      "epoch": 0.35454649696135765,
+      "grad_norm": 0.3535890579223633,
+      "learning_rate": 0.000748712516178473,
+      "loss": 2.4772462844848633,
+      "step": 773,
+      "token_acc": 0.4859213827711179
+    },
+    {
+      "epoch": 0.35500515995872034,
+      "grad_norm": 0.34181100130081177,
+      "learning_rate": 0.0007480679504283911,
+      "loss": 2.4619812965393066,
+      "step": 774,
+      "token_acc": 0.47187586589082847
+    },
+    {
+      "epoch": 0.35546382295608303,
+      "grad_norm": 0.3352970480918884,
+      "learning_rate": 0.0007474228373478964,
+      "loss": 2.517455816268921,
+      "step": 775,
+      "token_acc": 0.4739481749791028
+    },
+    {
+      "epoch": 0.3559224859534457,
+      "grad_norm": 0.3285975456237793,
+      "learning_rate": 0.0007467771783603492,
+      "loss": 2.494689702987671,
+      "step": 776,
+      "token_acc": 0.4742809734513274
+    },
+    {
+      "epoch": 0.3563811489508084,
+      "grad_norm": 0.3505977988243103,
+      "learning_rate": 0.0007461309748903138,
+      "loss": 2.3653063774108887,
+      "step": 777,
+      "token_acc": 0.49294582392776526
+    },
+    {
+      "epoch": 0.3568398119481711,
+      "grad_norm": 0.3395656943321228,
+      "learning_rate": 0.0007454842283635562,
+      "loss": 2.4750514030456543,
+      "step": 778,
+      "token_acc": 0.47219870166525546
+    },
+    {
+      "epoch": 0.3572984749455338,
+      "grad_norm": 0.34542128443717957,
+      "learning_rate": 0.0007448369402070404,
+      "loss": 2.4132838249206543,
+      "step": 779,
+      "token_acc": 0.48042804843706
+    },
+    {
+      "epoch": 0.35775713794289643,
+      "grad_norm": 0.35562390089035034,
+      "learning_rate": 0.0007441891118489254,
+      "loss": 2.431128978729248,
+      "step": 780,
+      "token_acc": 0.4909456740442656
+    },
+    {
+      "epoch": 0.3582158009402591,
+      "grad_norm": 0.33379650115966797,
+      "learning_rate": 0.0007435407447185622,
+      "loss": 2.3957133293151855,
+      "step": 781,
+      "token_acc": 0.49889012208657046
+    },
+    {
+      "epoch": 0.3586744639376218,
+      "grad_norm": 0.3335231840610504,
+      "learning_rate": 0.0007428918402464908,
+      "loss": 2.2889082431793213,
+      "step": 782,
+      "token_acc": 0.5097931034482759
+    },
+    {
+      "epoch": 0.3591331269349845,
+      "grad_norm": 0.3335070013999939,
+      "learning_rate": 0.0007422423998644359,
+      "loss": 2.404224395751953,
+      "step": 783,
+      "token_acc": 0.48468040147913366
+    },
+    {
+      "epoch": 0.3595917899323472,
+      "grad_norm": 0.3629177212715149,
+      "learning_rate": 0.0007415924250053055,
+      "loss": 2.4291582107543945,
+      "step": 784,
+      "token_acc": 0.48651717286403634
+    },
+    {
+      "epoch": 0.3600504529297099,
+      "grad_norm": 0.34305059909820557,
+      "learning_rate": 0.0007409419171031865,
+      "loss": 2.555297374725342,
+      "step": 785,
+      "token_acc": 0.46711074104912575
+    },
+    {
+      "epoch": 0.3605091159270726,
+      "grad_norm": 0.3312990069389343,
+      "learning_rate": 0.0007402908775933419,
+      "loss": 2.432730197906494,
+      "step": 786,
+      "token_acc": 0.47728563316297556
+    },
+    {
+      "epoch": 0.36096777892443527,
+      "grad_norm": 0.3471532166004181,
+      "learning_rate": 0.0007396393079122077,
+      "loss": 2.495298147201538,
+      "step": 787,
+      "token_acc": 0.47733333333333333
+    },
+    {
+      "epoch": 0.36142644192179796,
+      "grad_norm": 0.3289634585380554,
+      "learning_rate": 0.0007389872094973896,
+      "loss": 2.4447596073150635,
+      "step": 788,
+      "token_acc": 0.48094425483503983
+    },
+    {
+      "epoch": 0.36188510491916065,
+      "grad_norm": 0.33326053619384766,
+      "learning_rate": 0.00073833458378766,
+      "loss": 2.3992300033569336,
+      "step": 789,
+      "token_acc": 0.47897727272727275
+    },
+    {
+      "epoch": 0.36234376791652334,
+      "grad_norm": 0.33359360694885254,
+      "learning_rate": 0.0007376814322229544,
+      "loss": 2.52272629737854,
+      "step": 790,
+      "token_acc": 0.48142031379025596
+    },
+    {
+      "epoch": 0.36280243091388603,
+      "grad_norm": 0.30910125374794006,
+      "learning_rate": 0.0007370277562443688,
+      "loss": 2.5111989974975586,
+      "step": 791,
+      "token_acc": 0.4659890539483972
+    },
+    {
+      "epoch": 0.3632610939112487,
+      "grad_norm": 0.3456060588359833,
+      "learning_rate": 0.0007363735572941564,
+      "loss": 2.447417736053467,
+      "step": 792,
+      "token_acc": 0.47259507829977626
+    },
+    {
+      "epoch": 0.3637197569086114,
+      "grad_norm": 0.3354930579662323,
+      "learning_rate": 0.0007357188368157236,
+      "loss": 2.4065170288085938,
+      "step": 793,
+      "token_acc": 0.484296130117779
+    },
+    {
+      "epoch": 0.3641784199059741,
+      "grad_norm": 0.3679870665073395,
+      "learning_rate": 0.0007350635962536284,
+      "loss": 2.467536449432373,
+      "step": 794,
+      "token_acc": 0.4832100170745589
+    },
+    {
+      "epoch": 0.3646370829033368,
+      "grad_norm": 0.3262147605419159,
+      "learning_rate": 0.0007344078370535756,
+      "loss": 2.4807534217834473,
+      "step": 795,
+      "token_acc": 0.470242860955431
+    },
+    {
+      "epoch": 0.3650957459006995,
+      "grad_norm": 0.3515841066837311,
+      "learning_rate": 0.0007337515606624148,
+      "loss": 2.4958858489990234,
+      "step": 796,
+      "token_acc": 0.46664813785436354
+    },
+    {
+      "epoch": 0.3655544088980621,
+      "grad_norm": 0.36349594593048096,
+      "learning_rate": 0.0007330947685281362,
+      "loss": 2.37929630279541,
+      "step": 797,
+      "token_acc": 0.5024617067833698
+    },
+    {
+      "epoch": 0.3660130718954248,
+      "grad_norm": 0.37460190057754517,
+      "learning_rate": 0.0007324374620998682,
+      "loss": 2.4175400733947754,
+      "step": 798,
+      "token_acc": 0.480448533640023
+    },
+    {
+      "epoch": 0.3664717348927875,
+      "grad_norm": 0.34051451086997986,
+      "learning_rate": 0.000731779642827874,
+      "loss": 2.384699821472168,
+      "step": 799,
+      "token_acc": 0.49243505566657153
+    },
+    {
+      "epoch": 0.3669303978901502,
+      "grad_norm": 0.35937047004699707,
+      "learning_rate": 0.0007311213121635483,
+      "loss": 2.4641661643981934,
+      "step": 800,
+      "token_acc": 0.47732558139534886
+    },
+    {
+      "epoch": 0.3673890608875129,
+      "grad_norm": 0.353805810213089,
+      "learning_rate": 0.0007304624715594139,
+      "loss": 2.4949920177459717,
+      "step": 801,
+      "token_acc": 0.4786677676851087
+    },
+    {
+      "epoch": 0.3678477238848756,
+      "grad_norm": 0.3308771252632141,
+      "learning_rate": 0.0007298031224691193,
+      "loss": 2.4123919010162354,
+      "step": 802,
+      "token_acc": 0.47576848518415954
+    },
+    {
+      "epoch": 0.36830638688223827,
+      "grad_norm": 0.3476885259151459,
+      "learning_rate": 0.0007291432663474339,
+      "loss": 2.475379467010498,
+      "step": 803,
+      "token_acc": 0.47018221976808394
+    },
+    {
+      "epoch": 0.36876504987960096,
+      "grad_norm": 0.36175617575645447,
+      "learning_rate": 0.0007284829046502467,
+      "loss": 2.517099380493164,
+      "step": 804,
+      "token_acc": 0.4681528662420382
+    },
+    {
+      "epoch": 0.36922371287696365,
+      "grad_norm": 0.34956565499305725,
+      "learning_rate": 0.0007278220388345619,
+      "loss": 2.580439805984497,
+      "step": 805,
+      "token_acc": 0.46145027228432217
+    },
+    {
+      "epoch": 0.36968237587432634,
+      "grad_norm": 0.36770331859588623,
+      "learning_rate": 0.0007271606703584958,
+      "loss": 2.3498265743255615,
+      "step": 806,
+      "token_acc": 0.48791330925257015
+    },
+    {
+      "epoch": 0.37014103887168903,
+      "grad_norm": 0.35276126861572266,
+      "learning_rate": 0.000726498800681274,
+      "loss": 2.464916229248047,
+      "step": 807,
+      "token_acc": 0.4831812998859749
+    },
+    {
+      "epoch": 0.3705997018690517,
+      "grad_norm": 0.3493054211139679,
+      "learning_rate": 0.0007258364312632279,
+      "loss": 2.5920419692993164,
+      "step": 808,
+      "token_acc": 0.4601041952289553
+    },
+    {
+      "epoch": 0.3710583648664144,
+      "grad_norm": 0.38424357771873474,
+      "learning_rate": 0.0007251735635657915,
+      "loss": 2.438547134399414,
+      "step": 809,
+      "token_acc": 0.4809069212410501
+    },
+    {
+      "epoch": 0.3715170278637771,
+      "grad_norm": 0.35258960723876953,
+      "learning_rate": 0.000724510199051498,
+      "loss": 2.3928637504577637,
+      "step": 810,
+      "token_acc": 0.48171227309672177
+    },
+    {
+      "epoch": 0.3719756908611398,
+      "grad_norm": 0.3701295852661133,
+      "learning_rate": 0.0007238463391839769,
+      "loss": 2.548452854156494,
+      "step": 811,
+      "token_acc": 0.4752981260647359
+    },
+    {
+      "epoch": 0.3724343538585025,
+      "grad_norm": 0.34005725383758545,
+      "learning_rate": 0.0007231819854279508,
+      "loss": 2.5540356636047363,
+      "step": 812,
+      "token_acc": 0.47848389854659445
+    },
+    {
+      "epoch": 0.3728930168558652,
+      "grad_norm": 0.34729236364364624,
+      "learning_rate": 0.0007225171392492316,
+      "loss": 2.4485301971435547,
+      "step": 813,
+      "token_acc": 0.47530687981729947
+    },
+    {
+      "epoch": 0.3733516798532278,
+      "grad_norm": 0.3436357080936432,
+      "learning_rate": 0.0007218518021147182,
+      "loss": 2.5611181259155273,
+      "step": 814,
+      "token_acc": 0.4675145147912635
+    },
+    {
+      "epoch": 0.3738103428505905,
+      "grad_norm": 0.3415057361125946,
+      "learning_rate": 0.0007211859754923923,
+      "loss": 2.4905998706817627,
+      "step": 815,
+      "token_acc": 0.4802163393111301
+    },
+    {
+      "epoch": 0.3742690058479532,
+      "grad_norm": 0.3224409818649292,
+      "learning_rate": 0.0007205196608513158,
+      "loss": 2.4886622428894043,
+      "step": 816,
+      "token_acc": 0.4703308722996992
+    },
+    {
+      "epoch": 0.3747276688453159,
+      "grad_norm": 0.3343602418899536,
+      "learning_rate": 0.0007198528596616272,
+      "loss": 2.346679210662842,
+      "step": 817,
+      "token_acc": 0.4992963692654095
+    },
+    {
+      "epoch": 0.3751863318426786,
+      "grad_norm": 0.3545147478580475,
+      "learning_rate": 0.0007191855733945387,
+      "loss": 2.4271044731140137,
+      "step": 818,
+      "token_acc": 0.48335214446952596
+    },
+    {
+      "epoch": 0.37564499484004127,
+      "grad_norm": 0.3391993045806885,
+      "learning_rate": 0.0007185178035223327,
+      "loss": 2.410579204559326,
+      "step": 819,
+      "token_acc": 0.4904423812124522
+    },
+    {
+      "epoch": 0.37610365783740396,
+      "grad_norm": 0.36033087968826294,
+      "learning_rate": 0.0007178495515183583,
+      "loss": 2.518404960632324,
+      "step": 820,
+      "token_acc": 0.4784172661870504
+    },
+    {
+      "epoch": 0.37656232083476665,
+      "grad_norm": 0.37622544169425964,
+      "learning_rate": 0.000717180818857029,
+      "loss": 2.4787118434906006,
+      "step": 821,
+      "token_acc": 0.47202894517116617
+    },
+    {
+      "epoch": 0.37702098383212934,
+      "grad_norm": 0.35045674443244934,
+      "learning_rate": 0.0007165116070138182,
+      "loss": 2.5121822357177734,
+      "step": 822,
+      "token_acc": 0.4636963696369637
+    },
+    {
+      "epoch": 0.37747964682949203,
+      "grad_norm": 0.3700495958328247,
+      "learning_rate": 0.0007158419174652569,
+      "loss": 2.5115466117858887,
+      "step": 823,
+      "token_acc": 0.46317512274959083
+    },
+    {
+      "epoch": 0.3779383098268547,
+      "grad_norm": 0.38144850730895996,
+      "learning_rate": 0.00071517175168893,
+      "loss": 2.491389274597168,
+      "step": 824,
+      "token_acc": 0.4721989382509081
+    },
+    {
+      "epoch": 0.3783969728242174,
+      "grad_norm": 0.3349778354167938,
+      "learning_rate": 0.0007145011111634732,
+      "loss": 2.4309535026550293,
+      "step": 825,
+      "token_acc": 0.48610354223433244
+    },
+    {
+      "epoch": 0.3788556358215801,
+      "grad_norm": 0.3638837933540344,
+      "learning_rate": 0.0007138299973685694,
+      "loss": 2.5415701866149902,
+      "step": 826,
+      "token_acc": 0.4614546445110324
+    },
+    {
+      "epoch": 0.3793142988189428,
+      "grad_norm": 0.3995637595653534,
+      "learning_rate": 0.0007131584117849459,
+      "loss": 2.539368152618408,
+      "step": 827,
+      "token_acc": 0.4708049886621315
+    },
+    {
+      "epoch": 0.3797729618163055,
+      "grad_norm": 0.33401423692703247,
+      "learning_rate": 0.0007124863558943713,
+      "loss": 2.5239875316619873,
+      "step": 828,
+      "token_acc": 0.4754232659748771
+    },
+    {
+      "epoch": 0.3802316248136682,
+      "grad_norm": 0.3599550426006317,
+      "learning_rate": 0.0007118138311796514,
+      "loss": 2.5455970764160156,
+      "step": 829,
+      "token_acc": 0.46755555555555556
+    },
+    {
+      "epoch": 0.38069028781103087,
+      "grad_norm": 0.34945255517959595,
+      "learning_rate": 0.0007111408391246262,
+      "loss": 2.5135281085968018,
+      "step": 830,
+      "token_acc": 0.46258692628650905
+    },
+    {
+      "epoch": 0.3811489508083935,
+      "grad_norm": 0.34327560663223267,
+      "learning_rate": 0.0007104673812141675,
+      "loss": 2.4962868690490723,
+      "step": 831,
+      "token_acc": 0.4770617149098853
+    },
+    {
+      "epoch": 0.3816076138057562,
+      "grad_norm": 0.3618239760398865,
+      "learning_rate": 0.0007097934589341745,
+      "loss": 2.4645185470581055,
+      "step": 832,
+      "token_acc": 0.4867986798679868
+    },
+    {
+      "epoch": 0.3820662768031189,
+      "grad_norm": 0.33237510919570923,
+      "learning_rate": 0.0007091190737715711,
+      "loss": 2.564073085784912,
+      "step": 833,
+      "token_acc": 0.4602702702702703
+    },
+    {
+      "epoch": 0.3825249398004816,
+      "grad_norm": 0.3325451612472534,
+      "learning_rate": 0.0007084442272143026,
+      "loss": 2.488542318344116,
+      "step": 834,
+      "token_acc": 0.4708889520022721
+    },
+    {
+      "epoch": 0.38298360279784427,
+      "grad_norm": 0.3296065032482147,
+      "learning_rate": 0.000707768920751332,
+      "loss": 2.374340772628784,
+      "step": 835,
+      "token_acc": 0.4901164365014893
+    },
+    {
+      "epoch": 0.38344226579520696,
+      "grad_norm": 0.32573696970939636,
+      "learning_rate": 0.0007070931558726373,
+      "loss": 2.558864116668701,
+      "step": 836,
+      "token_acc": 0.46733668341708545
+    },
+    {
+      "epoch": 0.38390092879256965,
+      "grad_norm": 0.3295629322528839,
+      "learning_rate": 0.0007064169340692076,
+      "loss": 2.4058151245117188,
+      "step": 837,
+      "token_acc": 0.4703159041394335
+    },
+    {
+      "epoch": 0.38435959178993234,
+      "grad_norm": 0.3382768929004669,
+      "learning_rate": 0.0007057402568330407,
+      "loss": 2.454240322113037,
+      "step": 838,
+      "token_acc": 0.472636815920398
+    },
+    {
+      "epoch": 0.38481825478729503,
+      "grad_norm": 0.3621100187301636,
+      "learning_rate": 0.0007050631256571389,
+      "loss": 2.4515879154205322,
+      "step": 839,
+      "token_acc": 0.4820247339660627
+    },
+    {
+      "epoch": 0.3852769177846577,
+      "grad_norm": 0.3499838411808014,
+      "learning_rate": 0.000704385542035506,
+      "loss": 2.476222038269043,
+      "step": 840,
+      "token_acc": 0.4724890829694323
+    },
+    {
+      "epoch": 0.3857355807820204,
+      "grad_norm": 0.34161198139190674,
+      "learning_rate": 0.000703707507463144,
+      "loss": 2.4179282188415527,
+      "step": 841,
+      "token_acc": 0.47489597780859916
+    },
+    {
+      "epoch": 0.3861942437793831,
+      "grad_norm": 0.3581376373767853,
+      "learning_rate": 0.0007030290234360505,
+      "loss": 2.4231343269348145,
+      "step": 842,
+      "token_acc": 0.48804379141457793
+    },
+    {
+      "epoch": 0.3866529067767458,
+      "grad_norm": 0.3114863336086273,
+      "learning_rate": 0.0007023500914512139,
+      "loss": 2.3875174522399902,
+      "step": 843,
+      "token_acc": 0.48638988177069015
+    },
+    {
+      "epoch": 0.3871115697741085,
+      "grad_norm": 0.36698824167251587,
+      "learning_rate": 0.0007016707130066116,
+      "loss": 2.3906877040863037,
+      "step": 844,
+      "token_acc": 0.48205569910996265
+    },
+    {
+      "epoch": 0.3875702327714712,
+      "grad_norm": 0.3424600064754486,
+      "learning_rate": 0.0007009908896012055,
+      "loss": 2.4574131965637207,
+      "step": 845,
+      "token_acc": 0.4725490196078431
+    },
+    {
+      "epoch": 0.38802889576883387,
+      "grad_norm": 0.3314528465270996,
+      "learning_rate": 0.0007003106227349399,
+      "loss": 2.3655309677124023,
+      "step": 846,
+      "token_acc": 0.4950576606260296
+    },
+    {
+      "epoch": 0.38848755876619656,
+      "grad_norm": 0.3507498800754547,
+      "learning_rate": 0.000699629913908737,
+      "loss": 2.5706467628479004,
+      "step": 847,
+      "token_acc": 0.4544711014176663
+    },
+    {
+      "epoch": 0.38894622176355925,
+      "grad_norm": 0.35580703616142273,
+      "learning_rate": 0.0006989487646244943,
+      "loss": 2.542130947113037,
+      "step": 848,
+      "token_acc": 0.45558815684182447
+    },
+    {
+      "epoch": 0.3894048847609219,
+      "grad_norm": 0.3296971619129181,
+      "learning_rate": 0.0006982671763850814,
+      "loss": 2.4827723503112793,
+      "step": 849,
+      "token_acc": 0.4784110535405872
+    },
+    {
+      "epoch": 0.3898635477582846,
+      "grad_norm": 0.3323590159416199,
+      "learning_rate": 0.0006975851506943359,
+      "loss": 2.4418163299560547,
+      "step": 850,
+      "token_acc": 0.4789517702815723
+    },
+    {
+      "epoch": 0.39032221075564727,
+      "grad_norm": 0.3179738521575928,
+      "learning_rate": 0.0006969026890570611,
+      "loss": 2.446475028991699,
+      "step": 851,
+      "token_acc": 0.4717290357825731
+    },
+    {
+      "epoch": 0.39078087375300996,
+      "grad_norm": 0.34864169359207153,
+      "learning_rate": 0.0006962197929790216,
+      "loss": 2.5509390830993652,
+      "step": 852,
+      "token_acc": 0.4613500272182907
+    },
+    {
+      "epoch": 0.39123953675037265,
+      "grad_norm": 0.3578560948371887,
+      "learning_rate": 0.0006955364639669409,
+      "loss": 2.437828540802002,
+      "step": 853,
+      "token_acc": 0.4782126006106023
+    },
+    {
+      "epoch": 0.39169819974773534,
+      "grad_norm": 0.33879053592681885,
+      "learning_rate": 0.0006948527035284978,
+      "loss": 2.4185004234313965,
+      "step": 854,
+      "token_acc": 0.47908309455587395
+    },
+    {
+      "epoch": 0.39215686274509803,
+      "grad_norm": 0.35762783885002136,
+      "learning_rate": 0.0006941685131723225,
+      "loss": 2.5527725219726562,
+      "step": 855,
+      "token_acc": 0.45817490494296575
+    },
+    {
+      "epoch": 0.3926155257424607,
+      "grad_norm": 0.3617367446422577,
+      "learning_rate": 0.0006934838944079943,
+      "loss": 2.387233257293701,
+      "step": 856,
+      "token_acc": 0.4972144846796657
+    },
+    {
+      "epoch": 0.3930741887398234,
+      "grad_norm": 0.3725968599319458,
+      "learning_rate": 0.0006927988487460378,
+      "loss": 2.4895336627960205,
+      "step": 857,
+      "token_acc": 0.4732739420935412
+    },
+    {
+      "epoch": 0.3935328517371861,
+      "grad_norm": 0.35217392444610596,
+      "learning_rate": 0.0006921133776979186,
+      "loss": 2.469203233718872,
+      "step": 858,
+      "token_acc": 0.48589779391231497
+    },
+    {
+      "epoch": 0.3939915147345488,
+      "grad_norm": 0.31820574402809143,
+      "learning_rate": 0.0006914274827760418,
+      "loss": 2.4380342960357666,
+      "step": 859,
+      "token_acc": 0.4857852608335633
+    },
+    {
+      "epoch": 0.3944501777319115,
+      "grad_norm": 0.33736085891723633,
+      "learning_rate": 0.0006907411654937475,
+      "loss": 2.413689613342285,
+      "step": 860,
+      "token_acc": 0.4877641824249166
+    },
+    {
+      "epoch": 0.3949088407292742,
+      "grad_norm": 0.318315327167511,
+      "learning_rate": 0.0006900544273653075,
+      "loss": 2.4610211849212646,
+      "step": 861,
+      "token_acc": 0.4752313554708764
+    },
+    {
+      "epoch": 0.39536750372663687,
+      "grad_norm": 0.33929315209388733,
+      "learning_rate": 0.000689367269905922,
+      "loss": 2.471482038497925,
+      "step": 862,
+      "token_acc": 0.480375898286346
+    },
+    {
+      "epoch": 0.39582616672399956,
+      "grad_norm": 0.3373332917690277,
+      "learning_rate": 0.0006886796946317168,
+      "loss": 2.509321689605713,
+      "step": 863,
+      "token_acc": 0.4790842283776145
+    },
+    {
+      "epoch": 0.39628482972136225,
+      "grad_norm": 0.3210132420063019,
+      "learning_rate": 0.0006879917030597397,
+      "loss": 2.530477523803711,
+      "step": 864,
+      "token_acc": 0.4660922734852696
+    },
+    {
+      "epoch": 0.39674349271872494,
+      "grad_norm": 0.32578906416893005,
+      "learning_rate": 0.0006873032967079561,
+      "loss": 2.393293857574463,
+      "step": 865,
+      "token_acc": 0.4833854018744675
+    },
+    {
+      "epoch": 0.3972021557160876,
+      "grad_norm": 0.34614992141723633,
+      "learning_rate": 0.0006866144770952474,
+      "loss": 2.4211227893829346,
+      "step": 866,
+      "token_acc": 0.4699117411072479
+    },
+    {
+      "epoch": 0.39766081871345027,
+      "grad_norm": 0.36215364933013916,
+      "learning_rate": 0.0006859252457414067,
+      "loss": 2.495723247528076,
+      "step": 867,
+      "token_acc": 0.46153846153846156
+    },
+    {
+      "epoch": 0.39811948171081296,
+      "grad_norm": 0.3510194718837738,
+      "learning_rate": 0.0006852356041671351,
+      "loss": 2.4989211559295654,
+      "step": 868,
+      "token_acc": 0.4746192893401015
+    },
+    {
+      "epoch": 0.39857814470817565,
+      "grad_norm": 0.3313802182674408,
+      "learning_rate": 0.0006845455538940394,
+      "loss": 2.4638500213623047,
+      "step": 869,
+      "token_acc": 0.4678237650200267
+    },
+    {
+      "epoch": 0.39903680770553834,
+      "grad_norm": 0.3359384536743164,
+      "learning_rate": 0.0006838550964446276,
+      "loss": 2.5276336669921875,
+      "step": 870,
+      "token_acc": 0.46591222743582666
+    },
+    {
+      "epoch": 0.39949547070290103,
+      "grad_norm": 0.33474427461624146,
+      "learning_rate": 0.0006831642333423067,
+      "loss": 2.525841236114502,
+      "step": 871,
+      "token_acc": 0.46305959901126065
+    },
+    {
+      "epoch": 0.3999541337002637,
+      "grad_norm": 0.33878329396247864,
+      "learning_rate": 0.000682472966111378,
+      "loss": 2.3578083515167236,
+      "step": 872,
+      "token_acc": 0.49681344148319817
+    },
+    {
+      "epoch": 0.4004127966976264,
+      "grad_norm": 0.335550457239151,
+      "learning_rate": 0.0006817812962770348,
+      "loss": 2.5074901580810547,
+      "step": 873,
+      "token_acc": 0.46256830601092896
+    },
+    {
+      "epoch": 0.4008714596949891,
+      "grad_norm": 0.3222511410713196,
+      "learning_rate": 0.0006810892253653589,
+      "loss": 2.4579997062683105,
+      "step": 874,
+      "token_acc": 0.47377094204888764
+    },
+    {
+      "epoch": 0.4013301226923518,
+      "grad_norm": 0.40958118438720703,
+      "learning_rate": 0.0006803967549033167,
+      "loss": 2.500559091567993,
+      "step": 875,
+      "token_acc": 0.47086968758795383
+    },
+    {
+      "epoch": 0.4017887856897145,
+      "grad_norm": 0.342215359210968,
+      "learning_rate": 0.0006797038864187564,
+      "loss": 2.461747169494629,
+      "step": 876,
+      "token_acc": 0.4695121951219512
+    },
+    {
+      "epoch": 0.4022474486870772,
+      "grad_norm": 0.37586331367492676,
+      "learning_rate": 0.0006790106214404043,
+      "loss": 2.4394402503967285,
+      "step": 877,
+      "token_acc": 0.4819906516359637
+    },
+    {
+      "epoch": 0.40270611168443987,
+      "grad_norm": 0.3401262164115906,
+      "learning_rate": 0.0006783169614978614,
+      "loss": 2.4620203971862793,
+      "step": 878,
+      "token_acc": 0.46742209631728043
+    },
+    {
+      "epoch": 0.40316477468180256,
+      "grad_norm": 0.3470291197299957,
+      "learning_rate": 0.0006776229081216001,
+      "loss": 2.49172306060791,
+      "step": 879,
+      "token_acc": 0.46695035460992906
+    },
+    {
+      "epoch": 0.40362343767916525,
+      "grad_norm": 0.3389359414577484,
+      "learning_rate": 0.0006769284628429611,
+      "loss": 2.461165428161621,
+      "step": 880,
+      "token_acc": 0.476150155235676
+    },
+    {
+      "epoch": 0.40408210067652794,
+      "grad_norm": 0.3308427333831787,
+      "learning_rate": 0.0006762336271941498,
+      "loss": 2.44110107421875,
+      "step": 881,
+      "token_acc": 0.4813017413645447
+    },
+    {
+      "epoch": 0.40454076367389064,
+      "grad_norm": 0.3215057849884033,
+      "learning_rate": 0.0006755384027082326,
+      "loss": 2.4816231727600098,
+      "step": 882,
+      "token_acc": 0.46984572230014027
+    },
+    {
+      "epoch": 0.40499942667125327,
+      "grad_norm": 0.33226045966148376,
+      "learning_rate": 0.0006748427909191342,
+      "loss": 2.542203187942505,
+      "step": 883,
+      "token_acc": 0.462403951701427
+    },
+    {
+      "epoch": 0.40545808966861596,
+      "grad_norm": 0.3417050540447235,
+      "learning_rate": 0.0006741467933616335,
+      "loss": 2.4750823974609375,
+      "step": 884,
+      "token_acc": 0.4783337992731339
+    },
+    {
+      "epoch": 0.40591675266597865,
+      "grad_norm": 0.3694283664226532,
+      "learning_rate": 0.0006734504115713604,
+      "loss": 2.4716637134552,
+      "step": 885,
+      "token_acc": 0.474373576309795
+    },
+    {
+      "epoch": 0.40637541566334134,
+      "grad_norm": 0.3408249020576477,
+      "learning_rate": 0.0006727536470847932,
+      "loss": 2.467498779296875,
+      "step": 886,
+      "token_acc": 0.48575342465753424
+    },
+    {
+      "epoch": 0.40683407866070403,
+      "grad_norm": 0.3706459701061249,
+      "learning_rate": 0.000672056501439254,
+      "loss": 2.525841474533081,
+      "step": 887,
+      "token_acc": 0.47793481396019616
+    },
+    {
+      "epoch": 0.4072927416580667,
+      "grad_norm": 0.33338823914527893,
+      "learning_rate": 0.0006713589761729063,
+      "loss": 2.4270241260528564,
+      "step": 888,
+      "token_acc": 0.48518725544997204
+    },
+    {
+      "epoch": 0.4077514046554294,
+      "grad_norm": 0.3480849862098694,
+      "learning_rate": 0.0006706610728247508,
+      "loss": 2.5137414932250977,
+      "step": 889,
+      "token_acc": 0.4654927577392786
+    },
+    {
+      "epoch": 0.4082100676527921,
+      "grad_norm": 0.3385140895843506,
+      "learning_rate": 0.0006699627929346227,
+      "loss": 2.412680149078369,
+      "step": 890,
+      "token_acc": 0.4858677218767665
+    },
+    {
+      "epoch": 0.4086687306501548,
+      "grad_norm": 0.32687926292419434,
+      "learning_rate": 0.0006692641380431879,
+      "loss": 2.3571317195892334,
+      "step": 891,
+      "token_acc": 0.49587231700605394
+    },
+    {
+      "epoch": 0.4091273936475175,
+      "grad_norm": 0.34469565749168396,
+      "learning_rate": 0.0006685651096919393,
+      "loss": 2.3892743587493896,
+      "step": 892,
+      "token_acc": 0.4817903808729497
+    },
+    {
+      "epoch": 0.4095860566448802,
+      "grad_norm": 0.33755695819854736,
+      "learning_rate": 0.0006678657094231944,
+      "loss": 2.4766666889190674,
+      "step": 893,
+      "token_acc": 0.4866648336541105
+    },
+    {
+      "epoch": 0.41004471964224287,
+      "grad_norm": 0.32727566361427307,
+      "learning_rate": 0.0006671659387800909,
+      "loss": 2.562934637069702,
+      "step": 894,
+      "token_acc": 0.468404647208841
+    },
+    {
+      "epoch": 0.41050338263960556,
+      "grad_norm": 0.36177247762680054,
+      "learning_rate": 0.000666465799306584,
+      "loss": 2.4236083030700684,
+      "step": 895,
+      "token_acc": 0.469896387566508
+    },
+    {
+      "epoch": 0.41096204563696825,
+      "grad_norm": 0.32118985056877136,
+      "learning_rate": 0.0006657652925474423,
+      "loss": 2.4102890491485596,
+      "step": 896,
+      "token_acc": 0.4879518072289157
+    },
+    {
+      "epoch": 0.41142070863433094,
+      "grad_norm": 0.3292829990386963,
+      "learning_rate": 0.000665064420048245,
+      "loss": 2.432246208190918,
+      "step": 897,
+      "token_acc": 0.4901585565882996
+    },
+    {
+      "epoch": 0.41187937163169364,
+      "grad_norm": 0.3454367518424988,
+      "learning_rate": 0.0006643631833553785,
+      "loss": 2.3862335681915283,
+      "step": 898,
+      "token_acc": 0.4920190422850742
+    },
+    {
+      "epoch": 0.4123380346290563,
+      "grad_norm": 0.3250463902950287,
+      "learning_rate": 0.000663661584016032,
+      "loss": 2.40451717376709,
+      "step": 899,
+      "token_acc": 0.4741285403050109
+    },
+    {
+      "epoch": 0.41279669762641896,
+      "grad_norm": 0.33107975125312805,
+      "learning_rate": 0.0006629596235781957,
+      "loss": 2.413483142852783,
+      "step": 900,
+      "token_acc": 0.4797163120567376
+    },
+    {
+      "epoch": 0.41325536062378165,
+      "grad_norm": 0.3298957943916321,
+      "learning_rate": 0.0006622573035906556,
+      "loss": 2.4231109619140625,
+      "step": 901,
+      "token_acc": 0.48236259228876127
+    },
+    {
+      "epoch": 0.41371402362114434,
+      "grad_norm": 0.3405163884162903,
+      "learning_rate": 0.0006615546256029921,
+      "loss": 2.5227856636047363,
+      "step": 902,
+      "token_acc": 0.4665025977577249
+    },
+    {
+      "epoch": 0.41417268661850704,
+      "grad_norm": 0.3398095667362213,
+      "learning_rate": 0.0006608515911655743,
+      "loss": 2.4077415466308594,
+      "step": 903,
+      "token_acc": 0.4968625213918996
+    },
+    {
+      "epoch": 0.4146313496158697,
+      "grad_norm": 0.3194008469581604,
+      "learning_rate": 0.0006601482018295591,
+      "loss": 2.5073070526123047,
+      "step": 904,
+      "token_acc": 0.4906020157995097
+    },
+    {
+      "epoch": 0.4150900126132324,
+      "grad_norm": 0.3209075927734375,
+      "learning_rate": 0.0006594444591468851,
+      "loss": 2.4195785522460938,
+      "step": 905,
+      "token_acc": 0.48060754000542444
+    },
+    {
+      "epoch": 0.4155486756105951,
+      "grad_norm": 0.34620383381843567,
+      "learning_rate": 0.0006587403646702713,
+      "loss": 2.404463529586792,
+      "step": 906,
+      "token_acc": 0.4869950193691201
+    },
+    {
+      "epoch": 0.4160073386079578,
+      "grad_norm": 0.33298105001449585,
+      "learning_rate": 0.0006580359199532126,
+      "loss": 2.473375082015991,
+      "step": 907,
+      "token_acc": 0.471847739888977
+    },
+    {
+      "epoch": 0.4164660016053205,
+      "grad_norm": 0.3396308124065399,
+      "learning_rate": 0.000657331126549977,
+      "loss": 2.3809752464294434,
+      "step": 908,
+      "token_acc": 0.5013958682300391
+    },
+    {
+      "epoch": 0.4169246646026832,
+      "grad_norm": 0.32496148347854614,
+      "learning_rate": 0.0006566259860156014,
+      "loss": 2.4360573291778564,
+      "step": 909,
+      "token_acc": 0.476461038961039
+    },
+    {
+      "epoch": 0.4173833276000459,
+      "grad_norm": 0.35692402720451355,
+      "learning_rate": 0.0006559204999058888,
+      "loss": 2.4648337364196777,
+      "step": 910,
+      "token_acc": 0.4788536449638286
+    },
+    {
+      "epoch": 0.41784199059740856,
+      "grad_norm": 0.3381478786468506,
+      "learning_rate": 0.0006552146697774049,
+      "loss": 2.411172389984131,
+      "step": 911,
+      "token_acc": 0.4821727019498607
+    },
+    {
+      "epoch": 0.41830065359477125,
+      "grad_norm": 0.32509705424308777,
+      "learning_rate": 0.0006545084971874737,
+      "loss": 2.4794931411743164,
+      "step": 912,
+      "token_acc": 0.46895604395604396
+    },
+    {
+      "epoch": 0.41875931659213395,
+      "grad_norm": 0.33048540353775024,
+      "learning_rate": 0.0006538019836941758,
+      "loss": 2.406435489654541,
+      "step": 913,
+      "token_acc": 0.4842749791260785
+    },
+    {
+      "epoch": 0.41921797958949664,
+      "grad_norm": 0.3375578224658966,
+      "learning_rate": 0.0006530951308563431,
+      "loss": 2.4972496032714844,
+      "step": 914,
+      "token_acc": 0.48014541387024606
+    },
+    {
+      "epoch": 0.4196766425868593,
+      "grad_norm": 0.33902379870414734,
+      "learning_rate": 0.0006523879402335567,
+      "loss": 2.4719314575195312,
+      "step": 915,
+      "token_acc": 0.47727906328408143
+    },
+    {
+      "epoch": 0.420135305584222,
+      "grad_norm": 0.3327704966068268,
+      "learning_rate": 0.0006516804133861429,
+      "loss": 2.4043657779693604,
+      "step": 916,
+      "token_acc": 0.4829592684954281
+    },
+    {
+      "epoch": 0.42059396858158465,
+      "grad_norm": 0.3334977626800537,
+      "learning_rate": 0.0006509725518751698,
+      "loss": 2.4364006519317627,
+      "step": 917,
+      "token_acc": 0.47344759763978644
+    },
+    {
+      "epoch": 0.42105263157894735,
+      "grad_norm": 0.3373716473579407,
+      "learning_rate": 0.0006502643572624438,
+      "loss": 2.3419954776763916,
+      "step": 918,
+      "token_acc": 0.4955530850472485
+    },
+    {
+      "epoch": 0.42151129457631004,
+      "grad_norm": 0.34129130840301514,
+      "learning_rate": 0.0006495558311105064,
+      "loss": 2.4982738494873047,
+      "step": 919,
+      "token_acc": 0.473669623059867
+    },
+    {
+      "epoch": 0.4219699575736727,
+      "grad_norm": 0.3115142583847046,
+      "learning_rate": 0.0006488469749826305,
+      "loss": 2.447873830795288,
+      "step": 920,
+      "token_acc": 0.4855091730922627
+    },
+    {
+      "epoch": 0.4224286205710354,
+      "grad_norm": 0.3177265226840973,
+      "learning_rate": 0.000648137790442817,
+      "loss": 2.4756522178649902,
+      "step": 921,
+      "token_acc": 0.48343291689299295
+    },
+    {
+      "epoch": 0.4228872835683981,
+      "grad_norm": 0.36320260167121887,
+      "learning_rate": 0.0006474282790557916,
+      "loss": 2.4307937622070312,
+      "step": 922,
+      "token_acc": 0.4975776574522656
+    },
+    {
+      "epoch": 0.4233459465657608,
+      "grad_norm": 0.32924753427505493,
+      "learning_rate": 0.000646718442387001,
+      "loss": 2.3710238933563232,
+      "step": 923,
+      "token_acc": 0.4971366239432779
+    },
+    {
+      "epoch": 0.4238046095631235,
+      "grad_norm": 0.3493598401546478,
+      "learning_rate": 0.0006460082820026094,
+      "loss": 2.5720040798187256,
+      "step": 924,
+      "token_acc": 0.4608333333333333
+    },
+    {
+      "epoch": 0.4242632725604862,
+      "grad_norm": 0.35568714141845703,
+      "learning_rate": 0.0006452977994694959,
+      "loss": 2.453251361846924,
+      "step": 925,
+      "token_acc": 0.48622100954979536
+    },
+    {
+      "epoch": 0.4247219355578489,
+      "grad_norm": 0.3220854103565216,
+      "learning_rate": 0.0006445869963552496,
+      "loss": 2.394815444946289,
+      "step": 926,
+      "token_acc": 0.47585071350164654
+    },
+    {
+      "epoch": 0.42518059855521156,
+      "grad_norm": 0.3344813883304596,
+      "learning_rate": 0.0006438758742281672,
+      "loss": 2.4224698543548584,
+      "step": 927,
+      "token_acc": 0.4960328317373461
+    },
+    {
+      "epoch": 0.42563926155257426,
+      "grad_norm": 0.39103877544403076,
+      "learning_rate": 0.0006431644346572495,
+      "loss": 2.5200917720794678,
+      "step": 928,
+      "token_acc": 0.4589290720493412
+    },
+    {
+      "epoch": 0.42609792454993695,
+      "grad_norm": 0.3340437412261963,
+      "learning_rate": 0.0006424526792121974,
+      "loss": 2.5275228023529053,
+      "step": 929,
+      "token_acc": 0.4645143334261063
+    },
+    {
+      "epoch": 0.42655658754729964,
+      "grad_norm": 0.355785071849823,
+      "learning_rate": 0.0006417406094634089,
+      "loss": 2.4413881301879883,
+      "step": 930,
+      "token_acc": 0.4865771812080537
+    },
+    {
+      "epoch": 0.42701525054466233,
+      "grad_norm": 0.36327165365219116,
+      "learning_rate": 0.0006410282269819756,
+      "loss": 2.5758347511291504,
+      "step": 931,
+      "token_acc": 0.47629860913993755
+    },
+    {
+      "epoch": 0.427473913542025,
+      "grad_norm": 0.32997390627861023,
+      "learning_rate": 0.0006403155333396787,
+      "loss": 2.4430923461914062,
+      "step": 932,
+      "token_acc": 0.4847173383824723
+    },
+    {
+      "epoch": 0.4279325765393877,
+      "grad_norm": 0.36614543199539185,
+      "learning_rate": 0.0006396025301089863,
+      "loss": 2.421485424041748,
+      "step": 933,
+      "token_acc": 0.4745621351125938
+    },
+    {
+      "epoch": 0.42839123953675035,
+      "grad_norm": 0.3355928361415863,
+      "learning_rate": 0.0006388892188630493,
+      "loss": 2.4613075256347656,
+      "step": 934,
+      "token_acc": 0.4684512428298279
+    },
+    {
+      "epoch": 0.42884990253411304,
+      "grad_norm": 0.33424264192581177,
+      "learning_rate": 0.0006381756011756982,
+      "loss": 2.5218653678894043,
+      "step": 935,
+      "token_acc": 0.4703804347826087
+    },
+    {
+      "epoch": 0.4293085655314757,
+      "grad_norm": 0.3353055417537689,
+      "learning_rate": 0.0006374616786214403,
+      "loss": 2.4696428775787354,
+      "step": 936,
+      "token_acc": 0.48337028824833705
+    },
+    {
+      "epoch": 0.4297672285288384,
+      "grad_norm": 0.36095112562179565,
+      "learning_rate": 0.0006367474527754544,
+      "loss": 2.5012354850769043,
+      "step": 937,
+      "token_acc": 0.47456165564817476
+    },
+    {
+      "epoch": 0.4302258915262011,
+      "grad_norm": 0.35927727818489075,
+      "learning_rate": 0.0006360329252135894,
+      "loss": 2.3056390285491943,
+      "step": 938,
+      "token_acc": 0.5138849929873773
+    },
+    {
+      "epoch": 0.4306845545235638,
+      "grad_norm": 0.3377129137516022,
+      "learning_rate": 0.0006353180975123595,
+      "loss": 2.468533992767334,
+      "step": 939,
+      "token_acc": 0.4789892106757524
+    },
+    {
+      "epoch": 0.4311432175209265,
+      "grad_norm": 0.34502243995666504,
+      "learning_rate": 0.0006346029712489413,
+      "loss": 2.5318164825439453,
+      "step": 940,
+      "token_acc": 0.46023359288097887
+    },
+    {
+      "epoch": 0.4316018805182892,
+      "grad_norm": 0.3461168706417084,
+      "learning_rate": 0.0006338875480011698,
+      "loss": 2.4076178073883057,
+      "step": 941,
+      "token_acc": 0.47704428144525945
+    },
+    {
+      "epoch": 0.4320605435156519,
+      "grad_norm": 0.3349441885948181,
+      "learning_rate": 0.0006331718293475357,
+      "loss": 2.4736764430999756,
+      "step": 942,
+      "token_acc": 0.47488204274215934
+    },
+    {
+      "epoch": 0.43251920651301456,
+      "grad_norm": 0.3354679048061371,
+      "learning_rate": 0.0006324558168671811,
+      "loss": 2.4458165168762207,
+      "step": 943,
+      "token_acc": 0.4855658198614319
+    },
+    {
+      "epoch": 0.43297786951037726,
+      "grad_norm": 0.32944968342781067,
+      "learning_rate": 0.0006317395121398968,
+      "loss": 2.5307509899139404,
+      "step": 944,
+      "token_acc": 0.46499859432105706
+    },
+    {
+      "epoch": 0.43343653250773995,
+      "grad_norm": 0.33127132058143616,
+      "learning_rate": 0.0006310229167461179,
+      "loss": 2.3818087577819824,
+      "step": 945,
+      "token_acc": 0.47858796296296297
+    },
+    {
+      "epoch": 0.43389519550510264,
+      "grad_norm": 0.3457237482070923,
+      "learning_rate": 0.0006303060322669214,
+      "loss": 2.3439769744873047,
+      "step": 946,
+      "token_acc": 0.49524342473419136
+    },
+    {
+      "epoch": 0.43435385850246533,
+      "grad_norm": 0.3146384656429291,
+      "learning_rate": 0.0006295888602840214,
+      "loss": 2.3701133728027344,
+      "step": 947,
+      "token_acc": 0.49254555494202096
+    },
+    {
+      "epoch": 0.434812521499828,
+      "grad_norm": 0.34507277607917786,
+      "learning_rate": 0.0006288714023797671,
+      "loss": 2.4137330055236816,
+      "step": 948,
+      "token_acc": 0.48926080892608087
+    },
+    {
+      "epoch": 0.4352711844971907,
+      "grad_norm": 0.34911203384399414,
+      "learning_rate": 0.000628153660137138,
+      "loss": 2.441380500793457,
+      "step": 949,
+      "token_acc": 0.48540965207631875
+    },
+    {
+      "epoch": 0.4357298474945534,
+      "grad_norm": 0.3418898284435272,
+      "learning_rate": 0.0006274356351397413,
+      "loss": 2.4164395332336426,
+      "step": 950,
+      "token_acc": 0.4761092150170648
+    },
+    {
+      "epoch": 0.43618851049191604,
+      "grad_norm": 0.3438267409801483,
+      "learning_rate": 0.0006267173289718079,
+      "loss": 2.391000270843506,
+      "step": 951,
+      "token_acc": 0.48737808376362596
+    },
+    {
+      "epoch": 0.43664717348927873,
+      "grad_norm": 0.35862720012664795,
+      "learning_rate": 0.000625998743218189,
+      "loss": 2.4072818756103516,
+      "step": 952,
+      "token_acc": 0.4763646595385481
+    },
+    {
+      "epoch": 0.4371058364866414,
+      "grad_norm": 0.35209861397743225,
+      "learning_rate": 0.000625279879464353,
+      "loss": 2.496858835220337,
+      "step": 953,
+      "token_acc": 0.4773413897280967
+    },
+    {
+      "epoch": 0.4375644994840041,
+      "grad_norm": 0.35770609974861145,
+      "learning_rate": 0.000624560739296381,
+      "loss": 2.38735294342041,
+      "step": 954,
+      "token_acc": 0.48483947681331746
+    },
+    {
+      "epoch": 0.4380231624813668,
+      "grad_norm": 0.362027645111084,
+      "learning_rate": 0.0006238413243009648,
+      "loss": 2.4642162322998047,
+      "step": 955,
+      "token_acc": 0.4769592016436748
+    },
+    {
+      "epoch": 0.4384818254787295,
+      "grad_norm": 0.31088146567344666,
+      "learning_rate": 0.000623121636065402,
+      "loss": 2.4101524353027344,
+      "step": 956,
+      "token_acc": 0.4839443023586246
+    },
+    {
+      "epoch": 0.4389404884760922,
+      "grad_norm": 0.34831270575523376,
+      "learning_rate": 0.0006224016761775933,
+      "loss": 2.3885061740875244,
+      "step": 957,
+      "token_acc": 0.48254504504504503
+    },
+    {
+      "epoch": 0.4393991514734549,
+      "grad_norm": 0.33243533968925476,
+      "learning_rate": 0.0006216814462260386,
+      "loss": 2.401345729827881,
+      "step": 958,
+      "token_acc": 0.49347883949960075
+    },
+    {
+      "epoch": 0.43985781447081757,
+      "grad_norm": 0.33555805683135986,
+      "learning_rate": 0.0006209609477998338,
+      "loss": 2.449944019317627,
+      "step": 959,
+      "token_acc": 0.47324646520654284
+    },
+    {
+      "epoch": 0.44031647746818026,
+      "grad_norm": 0.3364394009113312,
+      "learning_rate": 0.0006202401824886674,
+      "loss": 2.4184885025024414,
+      "step": 960,
+      "token_acc": 0.4748303167420814
+    },
+    {
+      "epoch": 0.44077514046554295,
+      "grad_norm": 0.33988484740257263,
+      "learning_rate": 0.0006195191518828162,
+      "loss": 2.359002113342285,
+      "step": 961,
+      "token_acc": 0.48904109589041095
+    },
+    {
+      "epoch": 0.44123380346290564,
+      "grad_norm": 0.34133222699165344,
+      "learning_rate": 0.0006187978575731427,
+      "loss": 2.333381414413452,
+      "step": 962,
+      "token_acc": 0.5050761421319797
+    },
+    {
+      "epoch": 0.44169246646026833,
+      "grad_norm": 0.3267521858215332,
+      "learning_rate": 0.0006180763011510911,
+      "loss": 2.4179508686065674,
+      "step": 963,
+      "token_acc": 0.4887029288702929
+    },
+    {
+      "epoch": 0.442151129457631,
+      "grad_norm": 0.3586190342903137,
+      "learning_rate": 0.000617354484208684,
+      "loss": 2.4548840522766113,
+      "step": 964,
+      "token_acc": 0.4765886287625418
+    },
+    {
+      "epoch": 0.4426097924549937,
+      "grad_norm": 0.3419138789176941,
+      "learning_rate": 0.0006166324083385189,
+      "loss": 2.396864414215088,
+      "step": 965,
+      "token_acc": 0.4757532281205165
+    },
+    {
+      "epoch": 0.4430684554523564,
+      "grad_norm": 0.33298784494400024,
+      "learning_rate": 0.0006159100751337642,
+      "loss": 2.4908924102783203,
+      "step": 966,
+      "token_acc": 0.47154946016924426
+    },
+    {
+      "epoch": 0.4435271184497191,
+      "grad_norm": 0.3202367424964905,
+      "learning_rate": 0.0006151874861881565,
+      "loss": 2.306973457336426,
+      "step": 967,
+      "token_acc": 0.49004329004329006
+    },
+    {
+      "epoch": 0.4439857814470818,
+      "grad_norm": 0.33593282103538513,
+      "learning_rate": 0.0006144646430959964,
+      "loss": 2.4656834602355957,
+      "step": 968,
+      "token_acc": 0.4763363028953229
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.34052330255508423,
+      "learning_rate": 0.0006137415474521454,
+      "loss": 2.4953203201293945,
+      "step": 969,
+      "token_acc": 0.4698586674358235
+    },
+    {
+      "epoch": 0.4449031074418071,
+      "grad_norm": 0.328667014837265,
+      "learning_rate": 0.0006130182008520222,
+      "loss": 2.3609280586242676,
+      "step": 970,
+      "token_acc": 0.5035082795397138
+    },
+    {
+      "epoch": 0.4453617704391698,
+      "grad_norm": 0.329279363155365,
+      "learning_rate": 0.000612294604891599,
+      "loss": 2.425253391265869,
+      "step": 971,
+      "token_acc": 0.48001126126126126
+    },
+    {
+      "epoch": 0.4458204334365325,
+      "grad_norm": 0.34138333797454834,
+      "learning_rate": 0.0006115707611673986,
+      "loss": 2.507331132888794,
+      "step": 972,
+      "token_acc": 0.46867167919799496
+    },
+    {
+      "epoch": 0.4462790964338952,
+      "grad_norm": 0.357669860124588,
+      "learning_rate": 0.0006108466712764902,
+      "loss": 2.5542449951171875,
+      "step": 973,
+      "token_acc": 0.46636167922497307
+    },
+    {
+      "epoch": 0.4467377594312579,
+      "grad_norm": 0.3691292107105255,
+      "learning_rate": 0.0006101223368164858,
+      "loss": 2.432164192199707,
+      "step": 974,
+      "token_acc": 0.49555491826785203
+    },
+    {
+      "epoch": 0.44719642242862057,
+      "grad_norm": 0.3149251639842987,
+      "learning_rate": 0.0006093977593855375,
+      "loss": 2.363558292388916,
+      "step": 975,
+      "token_acc": 0.48337388483373883
+    },
+    {
+      "epoch": 0.44765508542598326,
+      "grad_norm": 0.32556718587875366,
+      "learning_rate": 0.0006086729405823335,
+      "loss": 2.4077835083007812,
+      "step": 976,
+      "token_acc": 0.4911392405063291
+    },
+    {
+      "epoch": 0.44811374842334595,
+      "grad_norm": 0.31064191460609436,
+      "learning_rate": 0.0006079478820060943,
+      "loss": 2.4025559425354004,
+      "step": 977,
+      "token_acc": 0.4872881355932203
+    },
+    {
+      "epoch": 0.44857241142070864,
+      "grad_norm": 0.33454564213752747,
+      "learning_rate": 0.0006072225852565695,
+      "loss": 2.344836711883545,
+      "step": 978,
+      "token_acc": 0.50377411238468
+    },
+    {
+      "epoch": 0.44903107441807133,
+      "grad_norm": 0.3250851333141327,
+      "learning_rate": 0.0006064970519340341,
+      "loss": 2.468132257461548,
+      "step": 979,
+      "token_acc": 0.47481636935991606
+    },
+    {
+      "epoch": 0.449489737415434,
+      "grad_norm": 0.3377173840999603,
+      "learning_rate": 0.0006057712836392856,
+      "loss": 2.4750680923461914,
+      "step": 980,
+      "token_acc": 0.4884053821929573
+    },
+    {
+      "epoch": 0.4499484004127967,
+      "grad_norm": 0.3356623947620392,
+      "learning_rate": 0.0006050452819736389,
+      "loss": 2.4662275314331055,
+      "step": 981,
+      "token_acc": 0.47956929872998344
+    },
+    {
+      "epoch": 0.4504070634101594,
+      "grad_norm": 0.3308337330818176,
+      "learning_rate": 0.000604319048538925,
+      "loss": 2.328805446624756,
+      "step": 982,
+      "token_acc": 0.5009968669894617
+    },
+    {
+      "epoch": 0.4508657264075221,
+      "grad_norm": 0.3601084351539612,
+      "learning_rate": 0.0006035925849374855,
+      "loss": 2.4731593132019043,
+      "step": 983,
+      "token_acc": 0.47119398831060394
+    },
+    {
+      "epoch": 0.4513243894048848,
+      "grad_norm": 0.34020325541496277,
+      "learning_rate": 0.0006028658927721697,
+      "loss": 2.4580349922180176,
+      "step": 984,
+      "token_acc": 0.4854759850445787
+    },
+    {
+      "epoch": 0.4517830524022475,
+      "grad_norm": 0.3302370309829712,
+      "learning_rate": 0.0006021389736463321,
+      "loss": 2.463129997253418,
+      "step": 985,
+      "token_acc": 0.4669282511210762
+    },
+    {
+      "epoch": 0.4522417153996101,
+      "grad_norm": 0.3398115932941437,
+      "learning_rate": 0.0006014118291638271,
+      "loss": 2.3027663230895996,
+      "step": 986,
+      "token_acc": 0.5001387732445185
+    },
+    {
+      "epoch": 0.4527003783969728,
+      "grad_norm": 0.3611450493335724,
+      "learning_rate": 0.0006006844609290065,
+      "loss": 2.3438522815704346,
+      "step": 987,
+      "token_acc": 0.4896611143021252
+    },
+    {
+      "epoch": 0.4531590413943355,
+      "grad_norm": 0.3473367393016815,
+      "learning_rate": 0.0005999568705467161,
+      "loss": 2.5061607360839844,
+      "step": 988,
+      "token_acc": 0.4757011941127465
+    },
+    {
+      "epoch": 0.4536177043916982,
+      "grad_norm": 0.35125091671943665,
+      "learning_rate": 0.0005992290596222915,
+      "loss": 2.491511106491089,
+      "step": 989,
+      "token_acc": 0.47276874821785003
+    },
+    {
+      "epoch": 0.4540763673890609,
+      "grad_norm": 0.3731937110424042,
+      "learning_rate": 0.0005985010297615551,
+      "loss": 2.439743995666504,
+      "step": 990,
+      "token_acc": 0.47817571348628984
+    },
+    {
+      "epoch": 0.45453503038642357,
+      "grad_norm": 0.3528503179550171,
+      "learning_rate": 0.0005977727825708123,
+      "loss": 2.454152822494507,
+      "step": 991,
+      "token_acc": 0.4892241379310345
+    },
+    {
+      "epoch": 0.45499369338378626,
+      "grad_norm": 0.3317166864871979,
+      "learning_rate": 0.0005970443196568478,
+      "loss": 2.450331211090088,
+      "step": 992,
+      "token_acc": 0.47843028110214303
+    },
+    {
+      "epoch": 0.45545235638114895,
+      "grad_norm": 0.3358785808086395,
+      "learning_rate": 0.0005963156426269227,
+      "loss": 2.3701581954956055,
+      "step": 993,
+      "token_acc": 0.49142857142857144
+    },
+    {
+      "epoch": 0.45591101937851164,
+      "grad_norm": 0.3694034516811371,
+      "learning_rate": 0.0005955867530887702,
+      "loss": 2.3658673763275146,
+      "step": 994,
+      "token_acc": 0.48593570608495984
+    },
+    {
+      "epoch": 0.45636968237587433,
+      "grad_norm": 0.34595945477485657,
+      "learning_rate": 0.0005948576526505923,
+      "loss": 2.5859975814819336,
+      "step": 995,
+      "token_acc": 0.45198998051767325
+    },
+    {
+      "epoch": 0.456828345373237,
+      "grad_norm": 0.31480926275253296,
+      "learning_rate": 0.0005941283429210568,
+      "loss": 2.3866028785705566,
+      "step": 996,
+      "token_acc": 0.48652365236523654
+    },
+    {
+      "epoch": 0.4572870083705997,
+      "grad_norm": 0.3421134352684021,
+      "learning_rate": 0.0005933988255092926,
+      "loss": 2.4394278526306152,
+      "step": 997,
+      "token_acc": 0.4851016429963798
+    },
+    {
+      "epoch": 0.4577456713679624,
+      "grad_norm": 0.3342604339122772,
+      "learning_rate": 0.0005926691020248874,
+      "loss": 2.404801607131958,
+      "step": 998,
+      "token_acc": 0.4924078091106291
+    },
+    {
+      "epoch": 0.4582043343653251,
+      "grad_norm": 0.3156786561012268,
+      "learning_rate": 0.0005919391740778833,
+      "loss": 2.479769706726074,
+      "step": 999,
+      "token_acc": 0.4885089686098655
+    },
+    {
+      "epoch": 0.4586629973626878,
+      "grad_norm": 0.29661825299263,
+      "learning_rate": 0.0005912090432787736,
+      "loss": 2.445432186126709,
+      "step": 1000,
+      "token_acc": 0.48003237992444686
+    },
+    {
+      "epoch": 0.4591216603600505,
+      "grad_norm": 0.3442749083042145,
+      "learning_rate": 0.000590478711238499,
+      "loss": 2.41615891456604,
+      "step": 1001,
+      "token_acc": 0.4875105248386191
+    },
+    {
+      "epoch": 0.45958032335741317,
+      "grad_norm": 0.3256503641605377,
+      "learning_rate": 0.0005897481795684446,
+      "loss": 2.3316497802734375,
+      "step": 1002,
+      "token_acc": 0.49168710820387024
+    },
+    {
+      "epoch": 0.4600389863547758,
+      "grad_norm": 0.3349616825580597,
+      "learning_rate": 0.0005890174498804355,
+      "loss": 2.4228224754333496,
+      "step": 1003,
+      "token_acc": 0.4831654676258993
+    },
+    {
+      "epoch": 0.4604976493521385,
+      "grad_norm": 0.34556734561920166,
+      "learning_rate": 0.0005882865237867339,
+      "loss": 2.423893690109253,
+      "step": 1004,
+      "token_acc": 0.48902644907146875
+    },
+    {
+      "epoch": 0.4609563123495012,
+      "grad_norm": 0.4137331247329712,
+      "learning_rate": 0.0005875554029000353,
+      "loss": 2.452030897140503,
+      "step": 1005,
+      "token_acc": 0.47690058479532166
+    },
+    {
+      "epoch": 0.4614149753468639,
+      "grad_norm": 0.3454006314277649,
+      "learning_rate": 0.0005868240888334653,
+      "loss": 2.373958110809326,
+      "step": 1006,
+      "token_acc": 0.4797374429223744
+    },
+    {
+      "epoch": 0.46187363834422657,
+      "grad_norm": 0.329140841960907,
+      "learning_rate": 0.0005860925832005753,
+      "loss": 2.4558422565460205,
+      "step": 1007,
+      "token_acc": 0.47763666482606293
+    },
+    {
+      "epoch": 0.46233230134158926,
+      "grad_norm": 0.3699704706668854,
+      "learning_rate": 0.0005853608876153395,
+      "loss": 2.577507972717285,
+      "step": 1008,
+      "token_acc": 0.46685393258426966
+    },
+    {
+      "epoch": 0.46279096433895195,
+      "grad_norm": 0.34477072954177856,
+      "learning_rate": 0.0005846290036921512,
+      "loss": 2.482990264892578,
+      "step": 1009,
+      "token_acc": 0.4793506123611507
+    },
+    {
+      "epoch": 0.46324962733631464,
+      "grad_norm": 0.31239402294158936,
+      "learning_rate": 0.0005838969330458195,
+      "loss": 2.3712563514709473,
+      "step": 1010,
+      "token_acc": 0.495656894679696
+    },
+    {
+      "epoch": 0.46370829033367733,
+      "grad_norm": 0.33874261379241943,
+      "learning_rate": 0.0005831646772915651,
+      "loss": 2.3803796768188477,
+      "step": 1011,
+      "token_acc": 0.49074864787930544
+    },
+    {
+      "epoch": 0.46416695333104,
+      "grad_norm": 0.33902624249458313,
+      "learning_rate": 0.0005824322380450173,
+      "loss": 2.4005751609802246,
+      "step": 1012,
+      "token_acc": 0.49415121255349503
+    },
+    {
+      "epoch": 0.4646256163284027,
+      "grad_norm": 0.3395114541053772,
+      "learning_rate": 0.0005816996169222102,
+      "loss": 2.4865212440490723,
+      "step": 1013,
+      "token_acc": 0.4753103448275862
+    },
+    {
+      "epoch": 0.4650842793257654,
+      "grad_norm": 0.33902034163475037,
+      "learning_rate": 0.0005809668155395793,
+      "loss": 2.3996636867523193,
+      "step": 1014,
+      "token_acc": 0.4727223131478451
+    },
+    {
+      "epoch": 0.4655429423231281,
+      "grad_norm": 0.33806946873664856,
+      "learning_rate": 0.0005802338355139578,
+      "loss": 2.455397844314575,
+      "step": 1015,
+      "token_acc": 0.4745621351125938
+    },
+    {
+      "epoch": 0.4660016053204908,
+      "grad_norm": 0.34738317131996155,
+      "learning_rate": 0.0005795006784625728,
+      "loss": 2.458098888397217,
+      "step": 1016,
+      "token_acc": 0.47207409486387875
+    },
+    {
+      "epoch": 0.4664602683178535,
+      "grad_norm": 0.3442336618900299,
+      "learning_rate": 0.0005787673460030423,
+      "loss": 2.3759074211120605,
+      "step": 1017,
+      "token_acc": 0.4923830250272035
+    },
+    {
+      "epoch": 0.46691893131521617,
+      "grad_norm": 0.3158933222293854,
+      "learning_rate": 0.000578033839753371,
+      "loss": 2.360297679901123,
+      "step": 1018,
+      "token_acc": 0.49403275048570633
+    },
+    {
+      "epoch": 0.46737759431257886,
+      "grad_norm": 0.32228654623031616,
+      "learning_rate": 0.0005773001613319476,
+      "loss": 2.3978331089019775,
+      "step": 1019,
+      "token_acc": 0.4909040022390148
+    },
+    {
+      "epoch": 0.4678362573099415,
+      "grad_norm": 0.33429211378097534,
+      "learning_rate": 0.00057656631235754,
+      "loss": 2.371523857116699,
+      "step": 1020,
+      "token_acc": 0.49258160237388726
+    },
+    {
+      "epoch": 0.4682949203073042,
+      "grad_norm": 0.3515044152736664,
+      "learning_rate": 0.0005758322944492929,
+      "loss": 2.347036361694336,
+      "step": 1021,
+      "token_acc": 0.49098360655737705
+    },
+    {
+      "epoch": 0.4687535833046669,
+      "grad_norm": 0.357808917760849,
+      "learning_rate": 0.0005750981092267237,
+      "loss": 2.444075107574463,
+      "step": 1022,
+      "token_acc": 0.4902459711620017
+    },
+    {
+      "epoch": 0.46921224630202957,
+      "grad_norm": 0.3392980098724365,
+      "learning_rate": 0.0005743637583097183,
+      "loss": 2.449713706970215,
+      "step": 1023,
+      "token_acc": 0.4752099701977784
+    },
+    {
+      "epoch": 0.46967090929939226,
+      "grad_norm": 0.3264814019203186,
+      "learning_rate": 0.0005736292433185291,
+      "loss": 2.4923369884490967,
+      "step": 1024,
+      "token_acc": 0.4732989970181621
+    },
+    {
+      "epoch": 0.47012957229675495,
+      "grad_norm": 0.33561939001083374,
+      "learning_rate": 0.0005728945658737699,
+      "loss": 2.4607090950012207,
+      "step": 1025,
+      "token_acc": 0.48709315375982043
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 0.3192346394062042,
+      "learning_rate": 0.0005721597275964133,
+      "loss": 2.440065860748291,
+      "step": 1026,
+      "token_acc": 0.4822558459422283
+    },
+    {
+      "epoch": 0.47104689829148033,
+      "grad_norm": 0.3238941431045532,
+      "learning_rate": 0.0005714247301077865,
+      "loss": 2.3831427097320557,
+      "step": 1027,
+      "token_acc": 0.4832466782206817
+    },
+    {
+      "epoch": 0.471505561288843,
+      "grad_norm": 0.33817458152770996,
+      "learning_rate": 0.0005706895750295682,
+      "loss": 2.368861198425293,
+      "step": 1028,
+      "token_acc": 0.49564032697547683
+    },
+    {
+      "epoch": 0.4719642242862057,
+      "grad_norm": 0.3244694471359253,
+      "learning_rate": 0.0005699542639837844,
+      "loss": 2.407780170440674,
+      "step": 1029,
+      "token_acc": 0.48732394366197185
+    },
+    {
+      "epoch": 0.4724228872835684,
+      "grad_norm": 0.3364354372024536,
+      "learning_rate": 0.0005692187985928055,
+      "loss": 2.399700164794922,
+      "step": 1030,
+      "token_acc": 0.4833948339483395
+    },
+    {
+      "epoch": 0.4728815502809311,
+      "grad_norm": 0.33582353591918945,
+      "learning_rate": 0.0005684831804793427,
+      "loss": 2.411986827850342,
+      "step": 1031,
+      "token_acc": 0.47955801104972373
+    },
+    {
+      "epoch": 0.4733402132782938,
+      "grad_norm": 0.3348402976989746,
+      "learning_rate": 0.0005677474112664438,
+      "loss": 2.3370702266693115,
+      "step": 1032,
+      "token_acc": 0.493181185638742
+    },
+    {
+      "epoch": 0.4737988762756565,
+      "grad_norm": 0.3559878468513489,
+      "learning_rate": 0.0005670114925774899,
+      "loss": 2.3192803859710693,
+      "step": 1033,
+      "token_acc": 0.4977077363896848
+    },
+    {
+      "epoch": 0.47425753927301917,
+      "grad_norm": 0.34823668003082275,
+      "learning_rate": 0.0005662754260361924,
+      "loss": 2.3438594341278076,
+      "step": 1034,
+      "token_acc": 0.4914219249781913
+    },
+    {
+      "epoch": 0.47471620227038186,
+      "grad_norm": 0.3399074077606201,
+      "learning_rate": 0.0005655392132665884,
+      "loss": 2.5112931728363037,
+      "step": 1035,
+      "token_acc": 0.46277331857182397
+    },
+    {
+      "epoch": 0.47517486526774455,
+      "grad_norm": 0.3259490132331848,
+      "learning_rate": 0.000564802855893038,
+      "loss": 2.3919918537139893,
+      "step": 1036,
+      "token_acc": 0.49186307519640854
+    },
+    {
+      "epoch": 0.4756335282651072,
+      "grad_norm": 0.3413908779621124,
+      "learning_rate": 0.0005640663555402198,
+      "loss": 2.3987250328063965,
+      "step": 1037,
+      "token_acc": 0.48070965925091524
+    },
+    {
+      "epoch": 0.4760921912624699,
+      "grad_norm": 0.3317534029483795,
+      "learning_rate": 0.0005633297138331285,
+      "loss": 2.5099992752075195,
+      "step": 1038,
+      "token_acc": 0.4763363028953229
+    },
+    {
+      "epoch": 0.47655085425983257,
+      "grad_norm": 0.3492196202278137,
+      "learning_rate": 0.0005625929323970705,
+      "loss": 2.38262677192688,
+      "step": 1039,
+      "token_acc": 0.4851598173515982
+    },
+    {
+      "epoch": 0.47700951725719526,
+      "grad_norm": 0.36115118861198425,
+      "learning_rate": 0.0005618560128576603,
+      "loss": 2.393599271774292,
+      "step": 1040,
+      "token_acc": 0.49730861244019137
+    },
+    {
+      "epoch": 0.47746818025455795,
+      "grad_norm": 0.32989412546157837,
+      "learning_rate": 0.0005611189568408173,
+      "loss": 2.4507246017456055,
+      "step": 1041,
+      "token_acc": 0.4850516904163174
+    },
+    {
+      "epoch": 0.47792684325192064,
+      "grad_norm": 0.33683207631111145,
+      "learning_rate": 0.0005603817659727619,
+      "loss": 2.359201431274414,
+      "step": 1042,
+      "token_acc": 0.5025787965616045
+    },
+    {
+      "epoch": 0.47838550624928333,
+      "grad_norm": 0.3617542088031769,
+      "learning_rate": 0.0005596444418800121,
+      "loss": 2.4225053787231445,
+      "step": 1043,
+      "token_acc": 0.48343023255813955
+    },
+    {
+      "epoch": 0.478844169246646,
+      "grad_norm": 0.3595106899738312,
+      "learning_rate": 0.0005589069861893798,
+      "loss": 2.425480365753174,
+      "step": 1044,
+      "token_acc": 0.47615062761506277
+    },
+    {
+      "epoch": 0.4793028322440087,
+      "grad_norm": 0.34402987360954285,
+      "learning_rate": 0.0005581694005279673,
+      "loss": 2.360713005065918,
+      "step": 1045,
+      "token_acc": 0.4936708860759494
+    },
+    {
+      "epoch": 0.4797614952413714,
+      "grad_norm": 0.3361959755420685,
+      "learning_rate": 0.0005574316865231637,
+      "loss": 2.438472032546997,
+      "step": 1046,
+      "token_acc": 0.48027210884353744
+    },
+    {
+      "epoch": 0.4802201582387341,
+      "grad_norm": 0.32732275128364563,
+      "learning_rate": 0.0005566938458026411,
+      "loss": 2.4174818992614746,
+      "step": 1047,
+      "token_acc": 0.4888399007991182
+    },
+    {
+      "epoch": 0.4806788212360968,
+      "grad_norm": 0.34317103028297424,
+      "learning_rate": 0.0005559558799943514,
+      "loss": 2.6050045490264893,
+      "step": 1048,
+      "token_acc": 0.4473832301631964
+    },
+    {
+      "epoch": 0.4811374842334595,
+      "grad_norm": 0.32789745926856995,
+      "learning_rate": 0.0005552177907265223,
+      "loss": 2.4361064434051514,
+      "step": 1049,
+      "token_acc": 0.47862029646522236
+    },
+    {
+      "epoch": 0.48159614723082217,
+      "grad_norm": 0.3215622007846832,
+      "learning_rate": 0.000554479579627654,
+      "loss": 2.5022668838500977,
+      "step": 1050,
+      "token_acc": 0.47944459569833925
+    },
+    {
+      "epoch": 0.48205481022818486,
+      "grad_norm": 0.33123335242271423,
+      "learning_rate": 0.0005537412483265157,
+      "loss": 2.4255118370056152,
+      "step": 1051,
+      "token_acc": 0.4737283398546674
+    },
+    {
+      "epoch": 0.48251347322554755,
+      "grad_norm": 0.32435300946235657,
+      "learning_rate": 0.0005530027984521413,
+      "loss": 2.346541404724121,
+      "step": 1052,
+      "token_acc": 0.4908675799086758
+    },
+    {
+      "epoch": 0.48297213622291024,
+      "grad_norm": 0.3296109139919281,
+      "learning_rate": 0.0005522642316338268,
+      "loss": 2.412287712097168,
+      "step": 1053,
+      "token_acc": 0.49831365935919053
+    },
+    {
+      "epoch": 0.4834307992202729,
+      "grad_norm": 0.3388538956642151,
+      "learning_rate": 0.0005515255495011259,
+      "loss": 2.5202436447143555,
+      "step": 1054,
+      "token_acc": 0.4656225112821874
+    },
+    {
+      "epoch": 0.48388946221763557,
+      "grad_norm": 0.3018677532672882,
+      "learning_rate": 0.0005507867536838472,
+      "loss": 2.3805348873138428,
+      "step": 1055,
+      "token_acc": 0.4826637314254265
+    },
+    {
+      "epoch": 0.48434812521499826,
+      "grad_norm": 0.32990387082099915,
+      "learning_rate": 0.0005500478458120492,
+      "loss": 2.4735240936279297,
+      "step": 1056,
+      "token_acc": 0.4664042732639865
+    },
+    {
+      "epoch": 0.48480678821236095,
+      "grad_norm": 0.3313564956188202,
+      "learning_rate": 0.0005493088275160387,
+      "loss": 2.407567262649536,
+      "step": 1057,
+      "token_acc": 0.48750343312276845
+    },
+    {
+      "epoch": 0.48526545120972364,
+      "grad_norm": 0.3240385055541992,
+      "learning_rate": 0.0005485697004263657,
+      "loss": 2.290937900543213,
+      "step": 1058,
+      "token_acc": 0.5081788440567067
+    },
+    {
+      "epoch": 0.48572411420708633,
+      "grad_norm": 0.33478209376335144,
+      "learning_rate": 0.0005478304661738199,
+      "loss": 2.42073392868042,
+      "step": 1059,
+      "token_acc": 0.4802594472645234
+    },
+    {
+      "epoch": 0.486182777204449,
+      "grad_norm": 0.32933369278907776,
+      "learning_rate": 0.0005470911263894279,
+      "loss": 2.5758726596832275,
+      "step": 1060,
+      "token_acc": 0.4616797900262467
+    },
+    {
+      "epoch": 0.4866414402018117,
+      "grad_norm": 0.3320506513118744,
+      "learning_rate": 0.0005463516827044491,
+      "loss": 2.4362080097198486,
+      "step": 1061,
+      "token_acc": 0.4764872521246459
+    },
+    {
+      "epoch": 0.4871001031991744,
+      "grad_norm": 0.335260272026062,
+      "learning_rate": 0.000545612136750372,
+      "loss": 2.511855125427246,
+      "step": 1062,
+      "token_acc": 0.46317777178311303
+    },
+    {
+      "epoch": 0.4875587661965371,
+      "grad_norm": 0.37047451734542847,
+      "learning_rate": 0.0005448724901589107,
+      "loss": 2.398721218109131,
+      "step": 1063,
+      "token_acc": 0.49843616718794426
+    },
+    {
+      "epoch": 0.4880174291938998,
+      "grad_norm": 0.324935644865036,
+      "learning_rate": 0.0005441327445620014,
+      "loss": 2.425210475921631,
+      "step": 1064,
+      "token_acc": 0.47744565217391305
+    },
+    {
+      "epoch": 0.4884760921912625,
+      "grad_norm": 0.3297592103481293,
+      "learning_rate": 0.0005433929015917988,
+      "loss": 2.3968043327331543,
+      "step": 1065,
+      "token_acc": 0.5012427506213754
+    },
+    {
+      "epoch": 0.48893475518862517,
+      "grad_norm": 0.3302333950996399,
+      "learning_rate": 0.0005426529628806724,
+      "loss": 2.4790163040161133,
+      "step": 1066,
+      "token_acc": 0.47749787715822245
+    },
+    {
+      "epoch": 0.48939341818598786,
+      "grad_norm": 0.3386436402797699,
+      "learning_rate": 0.0005419129300612029,
+      "loss": 2.4709956645965576,
+      "step": 1067,
+      "token_acc": 0.4834307992202729
+    },
+    {
+      "epoch": 0.48985208118335055,
+      "grad_norm": 0.34865912795066833,
+      "learning_rate": 0.000541172804766179,
+      "loss": 2.3381505012512207,
+      "step": 1068,
+      "token_acc": 0.4957836580401279
+    },
+    {
+      "epoch": 0.49031074418071324,
+      "grad_norm": 0.35883861780166626,
+      "learning_rate": 0.0005404325886285927,
+      "loss": 2.4133496284484863,
+      "step": 1069,
+      "token_acc": 0.4812849162011173
+    },
+    {
+      "epoch": 0.49076940717807593,
+      "grad_norm": 0.3391292691230774,
+      "learning_rate": 0.000539692283281637,
+      "loss": 2.5826239585876465,
+      "step": 1070,
+      "token_acc": 0.4725149530048419
+    },
+    {
+      "epoch": 0.49122807017543857,
+      "grad_norm": 0.336113303899765,
+      "learning_rate": 0.0005389518903587017,
+      "loss": 2.361985206604004,
+      "step": 1071,
+      "token_acc": 0.487510293713972
+    },
+    {
+      "epoch": 0.49168673317280126,
+      "grad_norm": 0.3300612270832062,
+      "learning_rate": 0.0005382114114933695,
+      "loss": 2.427905559539795,
+      "step": 1072,
+      "token_acc": 0.48468271334792123
+    },
+    {
+      "epoch": 0.49214539617016395,
+      "grad_norm": 0.3479423522949219,
+      "learning_rate": 0.0005374708483194132,
+      "loss": 2.4896979331970215,
+      "step": 1073,
+      "token_acc": 0.474931129476584
+    },
+    {
+      "epoch": 0.49260405916752664,
+      "grad_norm": 0.329458624124527,
+      "learning_rate": 0.000536730202470791,
+      "loss": 2.4164018630981445,
+      "step": 1074,
+      "token_acc": 0.4799335732078605
+    },
+    {
+      "epoch": 0.49306272216488933,
+      "grad_norm": 0.3301466107368469,
+      "learning_rate": 0.0005359894755816443,
+      "loss": 2.445589065551758,
+      "step": 1075,
+      "token_acc": 0.4860766473669699
+    },
+    {
+      "epoch": 0.493521385162252,
+      "grad_norm": 0.3187168538570404,
+      "learning_rate": 0.0005352486692862926,
+      "loss": 2.2914156913757324,
+      "step": 1076,
+      "token_acc": 0.5083262771662433
+    },
+    {
+      "epoch": 0.4939800481596147,
+      "grad_norm": 0.31797054409980774,
+      "learning_rate": 0.0005345077852192307,
+      "loss": 2.4282703399658203,
+      "step": 1077,
+      "token_acc": 0.4802103515084417
+    },
+    {
+      "epoch": 0.4944387111569774,
+      "grad_norm": 0.3418867290019989,
+      "learning_rate": 0.0005337668250151254,
+      "loss": 2.4379050731658936,
+      "step": 1078,
+      "token_acc": 0.4807121661721068
+    },
+    {
+      "epoch": 0.4948973741543401,
+      "grad_norm": 0.32624971866607666,
+      "learning_rate": 0.0005330257903088111,
+      "loss": 2.3572804927825928,
+      "step": 1079,
+      "token_acc": 0.48368953880764903
+    },
+    {
+      "epoch": 0.4953560371517028,
+      "grad_norm": 0.3312455713748932,
+      "learning_rate": 0.000532284682735287,
+      "loss": 2.529306411743164,
+      "step": 1080,
+      "token_acc": 0.4656319290465632
+    },
+    {
+      "epoch": 0.4958147001490655,
+      "grad_norm": 0.32542479038238525,
+      "learning_rate": 0.0005315435039297124,
+      "loss": 2.324214458465576,
+      "step": 1081,
+      "token_acc": 0.49691358024691357
+    },
+    {
+      "epoch": 0.49627336314642817,
+      "grad_norm": 0.3355901837348938,
+      "learning_rate": 0.0005308022555274046,
+      "loss": 2.4528372287750244,
+      "step": 1082,
+      "token_acc": 0.482236298540347
+    },
+    {
+      "epoch": 0.49673202614379086,
+      "grad_norm": 0.3346751034259796,
+      "learning_rate": 0.0005300609391638336,
+      "loss": 2.360931396484375,
+      "step": 1083,
+      "token_acc": 0.488988012266518
+    },
+    {
+      "epoch": 0.49719068914115355,
+      "grad_norm": 0.35198917984962463,
+      "learning_rate": 0.0005293195564746201,
+      "loss": 2.3942272663116455,
+      "step": 1084,
+      "token_acc": 0.4949467358645179
+    },
+    {
+      "epoch": 0.49764935213851624,
+      "grad_norm": 0.34621474146842957,
+      "learning_rate": 0.0005285781090955304,
+      "loss": 2.3291893005371094,
+      "step": 1085,
+      "token_acc": 0.5066371681415929
+    },
+    {
+      "epoch": 0.49810801513587893,
+      "grad_norm": 0.33755236864089966,
+      "learning_rate": 0.0005278365986624743,
+      "loss": 2.439788818359375,
+      "step": 1086,
+      "token_acc": 0.47704918032786886
+    },
+    {
+      "epoch": 0.4985666781332416,
+      "grad_norm": 0.35278841853141785,
+      "learning_rate": 0.0005270950268115001,
+      "loss": 2.593384027481079,
+      "step": 1087,
+      "token_acc": 0.4671951886276654
+    },
+    {
+      "epoch": 0.49902534113060426,
+      "grad_norm": 0.3408758342266083,
+      "learning_rate": 0.0005263533951787919,
+      "loss": 2.4258551597595215,
+      "step": 1088,
+      "token_acc": 0.4835042971998891
+    },
+    {
+      "epoch": 0.49948400412796695,
+      "grad_norm": 0.3320996165275574,
+      "learning_rate": 0.000525611705400666,
+      "loss": 2.4968271255493164,
+      "step": 1089,
+      "token_acc": 0.4768802228412256
+    },
+    {
+      "epoch": 0.49994266712532964,
+      "grad_norm": 0.3367486894130707,
+      "learning_rate": 0.0005248699591135664,
+      "loss": 2.286149501800537,
+      "step": 1090,
+      "token_acc": 0.5071649339702163
+    },
+    {
+      "epoch": 0.5004013301226924,
+      "grad_norm": 0.3450912833213806,
+      "learning_rate": 0.0005241281579540618,
+      "loss": 2.4291186332702637,
+      "step": 1091,
+      "token_acc": 0.4733405875952122
+    },
+    {
+      "epoch": 0.500859993120055,
+      "grad_norm": 0.3453631103038788,
+      "learning_rate": 0.0005233863035588427,
+      "loss": 2.4479312896728516,
+      "step": 1092,
+      "token_acc": 0.48976109215017066
+    },
+    {
+      "epoch": 0.5013186561174178,
+      "grad_norm": 0.3599177896976471,
+      "learning_rate": 0.0005226443975647161,
+      "loss": 2.4232516288757324,
+      "step": 1093,
+      "token_acc": 0.47461430575035063
+    },
+    {
+      "epoch": 0.5017773191147804,
+      "grad_norm": 0.32832807302474976,
+      "learning_rate": 0.0005219024416086036,
+      "loss": 2.433030843734741,
+      "step": 1094,
+      "token_acc": 0.49158249158249157
+    },
+    {
+      "epoch": 0.5022359821121432,
+      "grad_norm": 0.3214716613292694,
+      "learning_rate": 0.0005211604373275366,
+      "loss": 2.339202642440796,
+      "step": 1095,
+      "token_acc": 0.4827113062568606
+    },
+    {
+      "epoch": 0.5026946451095058,
+      "grad_norm": 0.35019397735595703,
+      "learning_rate": 0.0005204183863586533,
+      "loss": 2.3227591514587402,
+      "step": 1096,
+      "token_acc": 0.5
+    },
+    {
+      "epoch": 0.5031533081068684,
+      "grad_norm": 0.3759554326534271,
+      "learning_rate": 0.0005196762903391951,
+      "loss": 2.4995455741882324,
+      "step": 1097,
+      "token_acc": 0.49015748031496065
+    },
+    {
+      "epoch": 0.5036119711042312,
+      "grad_norm": 0.3440718948841095,
+      "learning_rate": 0.0005189341509065023,
+      "loss": 2.416973114013672,
+      "step": 1098,
+      "token_acc": 0.4879416713404375
+    },
+    {
+      "epoch": 0.5040706341015938,
+      "grad_norm": 0.34332475066185,
+      "learning_rate": 0.0005181919696980112,
+      "loss": 2.380890369415283,
+      "step": 1099,
+      "token_acc": 0.49177180471749865
+    },
+    {
+      "epoch": 0.5045292970989566,
+      "grad_norm": 0.3551151752471924,
+      "learning_rate": 0.0005174497483512506,
+      "loss": 2.435117721557617,
+      "step": 1100,
+      "token_acc": 0.4823855755894591
+    },
+    {
+      "epoch": 0.5049879600963192,
+      "grad_norm": 0.33621078729629517,
+      "learning_rate": 0.0005167074885038374,
+      "loss": 2.4811482429504395,
+      "step": 1101,
+      "token_acc": 0.4754477180820335
+    },
+    {
+      "epoch": 0.5054466230936819,
+      "grad_norm": 0.3153240978717804,
+      "learning_rate": 0.0005159651917934735,
+      "loss": 2.4260976314544678,
+      "step": 1102,
+      "token_acc": 0.48425509394019584
+    },
+    {
+      "epoch": 0.5059052860910446,
+      "grad_norm": 0.3622584640979767,
+      "learning_rate": 0.0005152228598579428,
+      "loss": 2.5205609798431396,
+      "step": 1103,
+      "token_acc": 0.4617493830545654
+    },
+    {
+      "epoch": 0.5063639490884073,
+      "grad_norm": 0.3550475537776947,
+      "learning_rate": 0.000514480494335106,
+      "loss": 2.5086865425109863,
+      "step": 1104,
+      "token_acc": 0.47497971328103866
+    },
+    {
+      "epoch": 0.50682261208577,
+      "grad_norm": 0.35856547951698303,
+      "learning_rate": 0.0005137380968628983,
+      "loss": 2.3257954120635986,
+      "step": 1105,
+      "token_acc": 0.5087719298245614
+    },
+    {
+      "epoch": 0.5072812750831327,
+      "grad_norm": 0.30771002173423767,
+      "learning_rate": 0.0005129956690793255,
+      "loss": 2.2821130752563477,
+      "step": 1106,
+      "token_acc": 0.5070232306861157
+    },
+    {
+      "epoch": 0.5077399380804953,
+      "grad_norm": 0.3454776704311371,
+      "learning_rate": 0.0005122532126224601,
+      "loss": 2.390139102935791,
+      "step": 1107,
+      "token_acc": 0.4982311320754717
+    },
+    {
+      "epoch": 0.5081986010778581,
+      "grad_norm": 0.3795795738697052,
+      "learning_rate": 0.0005115107291304378,
+      "loss": 2.451512336730957,
+      "step": 1108,
+      "token_acc": 0.4879500992344769
+    },
+    {
+      "epoch": 0.5086572640752207,
+      "grad_norm": 0.39156875014305115,
+      "learning_rate": 0.0005107682202414544,
+      "loss": 2.408329486846924,
+      "step": 1109,
+      "token_acc": 0.4911000875401226
+    },
+    {
+      "epoch": 0.5091159270725835,
+      "grad_norm": 0.3682164251804352,
+      "learning_rate": 0.0005100256875937613,
+      "loss": 2.4317450523376465,
+      "step": 1110,
+      "token_acc": 0.478105205177637
+    },
+    {
+      "epoch": 0.5095745900699461,
+      "grad_norm": 0.3569280505180359,
+      "learning_rate": 0.0005092831328256625,
+      "loss": 2.524905204772949,
+      "step": 1111,
+      "token_acc": 0.47758171825282036
+    },
+    {
+      "epoch": 0.5100332530673088,
+      "grad_norm": 0.34403684735298157,
+      "learning_rate": 0.0005085405575755105,
+      "loss": 2.4356486797332764,
+      "step": 1112,
+      "token_acc": 0.47552836484983313
+    },
+    {
+      "epoch": 0.5104919160646715,
+      "grad_norm": 0.3341377079486847,
+      "learning_rate": 0.0005077979634817034,
+      "loss": 2.4401259422302246,
+      "step": 1113,
+      "token_acc": 0.4722521551724138
+    },
+    {
+      "epoch": 0.5109505790620341,
+      "grad_norm": 0.333383172750473,
+      "learning_rate": 0.0005070553521826808,
+      "loss": 2.410233736038208,
+      "step": 1114,
+      "token_acc": 0.4910061832490163
+    },
+    {
+      "epoch": 0.5114092420593969,
+      "grad_norm": 0.3366769850254059,
+      "learning_rate": 0.00050631272531692,
+      "loss": 2.4345555305480957,
+      "step": 1115,
+      "token_acc": 0.48586956521739133
+    },
+    {
+      "epoch": 0.5118679050567595,
+      "grad_norm": 0.3316477835178375,
+      "learning_rate": 0.0005055700845229327,
+      "loss": 2.316999673843384,
+      "step": 1116,
+      "token_acc": 0.5039498774175973
+    },
+    {
+      "epoch": 0.5123265680541222,
+      "grad_norm": 0.3418847322463989,
+      "learning_rate": 0.000504827431439262,
+      "loss": 2.3524749279022217,
+      "step": 1117,
+      "token_acc": 0.4833150984682713
+    },
+    {
+      "epoch": 0.5127852310514849,
+      "grad_norm": 0.3334941565990448,
+      "learning_rate": 0.000504084767704477,
+      "loss": 2.406768798828125,
+      "step": 1118,
+      "token_acc": 0.4909240924092409
+    },
+    {
+      "epoch": 0.5132438940488476,
+      "grad_norm": 0.3574877083301544,
+      "learning_rate": 0.0005033420949571712,
+      "loss": 2.3923702239990234,
+      "step": 1119,
+      "token_acc": 0.4919148936170213
+    },
+    {
+      "epoch": 0.5137025570462103,
+      "grad_norm": 0.3600635826587677,
+      "learning_rate": 0.0005025994148359574,
+      "loss": 2.413276195526123,
+      "step": 1120,
+      "token_acc": 0.4940689655172414
+    },
+    {
+      "epoch": 0.514161220043573,
+      "grad_norm": 0.40777724981307983,
+      "learning_rate": 0.0005018567289794651,
+      "loss": 2.3796286582946777,
+      "step": 1121,
+      "token_acc": 0.4880517289850998
+    },
+    {
+      "epoch": 0.5146198830409356,
+      "grad_norm": 0.3608115017414093,
+      "learning_rate": 0.0005011140390263362,
+      "loss": 2.5886900424957275,
+      "step": 1122,
+      "token_acc": 0.46668556847178905
+    },
+    {
+      "epoch": 0.5150785460382984,
+      "grad_norm": 0.3360042870044708,
+      "learning_rate": 0.0005003713466152218,
+      "loss": 2.4352781772613525,
+      "step": 1123,
+      "token_acc": 0.48703494926719276
+    },
+    {
+      "epoch": 0.515537209035661,
+      "grad_norm": 0.340364933013916,
+      "learning_rate": 0.0004996286533847783,
+      "loss": 2.4607863426208496,
+      "step": 1124,
+      "token_acc": 0.4779286926994907
+    },
+    {
+      "epoch": 0.5159958720330238,
+      "grad_norm": 0.33719268441200256,
+      "learning_rate": 0.000498885960973664,
+      "loss": 2.445991039276123,
+      "step": 1125,
+      "token_acc": 0.4788051209103841
+    },
+    {
+      "epoch": 0.5164545350303864,
+      "grad_norm": 0.3265194594860077,
+      "learning_rate": 0.000498143271020535,
+      "loss": 2.3077054023742676,
+      "step": 1126,
+      "token_acc": 0.5016816143497758
+    },
+    {
+      "epoch": 0.5169131980277492,
+      "grad_norm": 0.32916203141212463,
+      "learning_rate": 0.0004974005851640428,
+      "loss": 2.390383720397949,
+      "step": 1127,
+      "token_acc": 0.48333333333333334
+    },
+    {
+      "epoch": 0.5173718610251118,
+      "grad_norm": 0.32733115553855896,
+      "learning_rate": 0.000496657905042829,
+      "loss": 2.315228223800659,
+      "step": 1128,
+      "token_acc": 0.49757412398921835
+    },
+    {
+      "epoch": 0.5178305240224745,
+      "grad_norm": 0.32467636466026306,
+      "learning_rate": 0.0004959152322955232,
+      "loss": 2.3158915042877197,
+      "step": 1129,
+      "token_acc": 0.5045558086560364
+    },
+    {
+      "epoch": 0.5182891870198372,
+      "grad_norm": 0.34765079617500305,
+      "learning_rate": 0.0004951725685607382,
+      "loss": 2.3778843879699707,
+      "step": 1130,
+      "token_acc": 0.5017311021350259
+    },
+    {
+      "epoch": 0.5187478500171998,
+      "grad_norm": 0.34203100204467773,
+      "learning_rate": 0.0004944299154770673,
+      "loss": 2.4137463569641113,
+      "step": 1131,
+      "token_acc": 0.4881384314819983
+    },
+    {
+      "epoch": 0.5192065130145626,
+      "grad_norm": 0.3279170095920563,
+      "learning_rate": 0.0004936872746830802,
+      "loss": 2.362159252166748,
+      "step": 1132,
+      "token_acc": 0.4963235294117647
+    },
+    {
+      "epoch": 0.5196651760119252,
+      "grad_norm": 0.3384300470352173,
+      "learning_rate": 0.0004929446478173195,
+      "loss": 2.4761362075805664,
+      "step": 1133,
+      "token_acc": 0.4739538855678907
+    },
+    {
+      "epoch": 0.5201238390092879,
+      "grad_norm": 0.36615675687789917,
+      "learning_rate": 0.0004922020365182968,
+      "loss": 2.4490060806274414,
+      "step": 1134,
+      "token_acc": 0.48009814612868046
+    },
+    {
+      "epoch": 0.5205825020066506,
+      "grad_norm": 0.3447256088256836,
+      "learning_rate": 0.0004914594424244897,
+      "loss": 2.303192615509033,
+      "step": 1135,
+      "token_acc": 0.49168577981651373
+    },
+    {
+      "epoch": 0.5210411650040133,
+      "grad_norm": 0.3317548334598541,
+      "learning_rate": 0.0004907168671743376,
+      "loss": 2.352898597717285,
+      "step": 1136,
+      "token_acc": 0.4829592684954281
+    },
+    {
+      "epoch": 0.521499828001376,
+      "grad_norm": 0.3226662278175354,
+      "learning_rate": 0.0004899743124062387,
+      "loss": 2.3910703659057617,
+      "step": 1137,
+      "token_acc": 0.4963439602222872
+    },
+    {
+      "epoch": 0.5219584909987387,
+      "grad_norm": 0.35412389039993286,
+      "learning_rate": 0.0004892317797585456,
+      "loss": 2.3865818977355957,
+      "step": 1138,
+      "token_acc": 0.47891477440283103
+    },
+    {
+      "epoch": 0.5224171539961013,
+      "grad_norm": 0.3400334119796753,
+      "learning_rate": 0.0004884892708695623,
+      "loss": 2.402967929840088,
+      "step": 1139,
+      "token_acc": 0.4840571742715778
+    },
+    {
+      "epoch": 0.5228758169934641,
+      "grad_norm": 0.35869327187538147,
+      "learning_rate": 0.0004877467873775402,
+      "loss": 2.3753623962402344,
+      "step": 1140,
+      "token_acc": 0.4805194805194805
+    },
+    {
+      "epoch": 0.5233344799908267,
+      "grad_norm": 0.3550738990306854,
+      "learning_rate": 0.00048700433092067473,
+      "loss": 2.461761713027954,
+      "step": 1141,
+      "token_acc": 0.4692799555184876
+    },
+    {
+      "epoch": 0.5237931429881895,
+      "grad_norm": 0.3442990481853485,
+      "learning_rate": 0.0004862619031371019,
+      "loss": 2.5074462890625,
+      "step": 1142,
+      "token_acc": 0.4722601803771522
+    },
+    {
+      "epoch": 0.5242518059855521,
+      "grad_norm": 0.33896327018737793,
+      "learning_rate": 0.0004855195056648942,
+      "loss": 2.4313061237335205,
+      "step": 1143,
+      "token_acc": 0.47838452787258245
+    },
+    {
+      "epoch": 0.5247104689829148,
+      "grad_norm": 0.35044485330581665,
+      "learning_rate": 0.00048477714014205734,
+      "loss": 2.3428125381469727,
+      "step": 1144,
+      "token_acc": 0.502405887347863
+    },
+    {
+      "epoch": 0.5251691319802775,
+      "grad_norm": 0.3287457227706909,
+      "learning_rate": 0.00048403480820652644,
+      "loss": 2.534541368484497,
+      "step": 1145,
+      "token_acc": 0.473627265350284
+    },
+    {
+      "epoch": 0.5256277949776402,
+      "grad_norm": 0.3308694660663605,
+      "learning_rate": 0.0004832925114961629,
+      "loss": 2.4820892810821533,
+      "step": 1146,
+      "token_acc": 0.4688763136620857
+    },
+    {
+      "epoch": 0.5260864579750029,
+      "grad_norm": 0.3306020200252533,
+      "learning_rate": 0.0004825502516487497,
+      "loss": 2.4575061798095703,
+      "step": 1147,
+      "token_acc": 0.48015122873345933
+    },
+    {
+      "epoch": 0.5265451209723655,
+      "grad_norm": 0.34184855222702026,
+      "learning_rate": 0.00048180803030198896,
+      "loss": 2.327465534210205,
+      "step": 1148,
+      "token_acc": 0.49110218140068884
+    },
+    {
+      "epoch": 0.5270037839697282,
+      "grad_norm": 0.34381648898124695,
+      "learning_rate": 0.0004810658490934979,
+      "loss": 2.501997470855713,
+      "step": 1149,
+      "token_acc": 0.4646520654283338
+    },
+    {
+      "epoch": 0.5274624469670909,
+      "grad_norm": 0.3188355267047882,
+      "learning_rate": 0.000480323709660805,
+      "loss": 2.3701171875,
+      "step": 1150,
+      "token_acc": 0.4954545454545455
+    },
+    {
+      "epoch": 0.5279211099644536,
+      "grad_norm": 0.33658087253570557,
+      "learning_rate": 0.0004795816136413467,
+      "loss": 2.4738900661468506,
+      "step": 1151,
+      "token_acc": 0.4801214798453893
+    },
+    {
+      "epoch": 0.5283797729618163,
+      "grad_norm": 0.31893256306648254,
+      "learning_rate": 0.00047883956267246353,
+      "loss": 2.3847813606262207,
+      "step": 1152,
+      "token_acc": 0.48894416804864566
+    },
+    {
+      "epoch": 0.528838435959179,
+      "grad_norm": 0.3229241371154785,
+      "learning_rate": 0.00047809755839139657,
+      "loss": 2.472221612930298,
+      "step": 1153,
+      "token_acc": 0.47794117647058826
+    },
+    {
+      "epoch": 0.5292970989565416,
+      "grad_norm": 0.32646888494491577,
+      "learning_rate": 0.0004773556024352841,
+      "loss": 2.3489205837249756,
+      "step": 1154,
+      "token_acc": 0.4976237070170534
+    },
+    {
+      "epoch": 0.5297557619539044,
+      "grad_norm": 0.33190491795539856,
+      "learning_rate": 0.00047661369644115754,
+      "loss": 2.475804090499878,
+      "step": 1155,
+      "token_acc": 0.48379825302902224
+    },
+    {
+      "epoch": 0.530214424951267,
+      "grad_norm": 0.3360702395439148,
+      "learning_rate": 0.0004758718420459383,
+      "loss": 2.386568546295166,
+      "step": 1156,
+      "token_acc": 0.4808970099667774
+    },
+    {
+      "epoch": 0.5306730879486298,
+      "grad_norm": 0.3379148244857788,
+      "learning_rate": 0.0004751300408864339,
+      "loss": 2.473959445953369,
+      "step": 1157,
+      "token_acc": 0.461453133666112
+    },
+    {
+      "epoch": 0.5311317509459924,
+      "grad_norm": 0.33049795031547546,
+      "learning_rate": 0.00047438829459933414,
+      "loss": 2.4235637187957764,
+      "step": 1158,
+      "token_acc": 0.4767378215654078
+    },
+    {
+      "epoch": 0.5315904139433552,
+      "grad_norm": 0.34790948033332825,
+      "learning_rate": 0.0004736466048212082,
+      "loss": 2.379197597503662,
+      "step": 1159,
+      "token_acc": 0.4871350101185314
+    },
+    {
+      "epoch": 0.5320490769407178,
+      "grad_norm": 0.33067309856414795,
+      "learning_rate": 0.0004729049731885002,
+      "loss": 2.411355495452881,
+      "step": 1160,
+      "token_acc": 0.48043906557838445
+    },
+    {
+      "epoch": 0.5325077399380805,
+      "grad_norm": 0.3278982937335968,
+      "learning_rate": 0.000472163401337526,
+      "loss": 2.3604488372802734,
+      "step": 1161,
+      "token_acc": 0.48992725237828766
+    },
+    {
+      "epoch": 0.5329664029354432,
+      "grad_norm": 0.3469405472278595,
+      "learning_rate": 0.00047142189090446985,
+      "loss": 2.4109301567077637,
+      "step": 1162,
+      "token_acc": 0.48941647597254007
+    },
+    {
+      "epoch": 0.5334250659328059,
+      "grad_norm": 0.32905158400535583,
+      "learning_rate": 0.0004706804435253802,
+      "loss": 2.294856071472168,
+      "step": 1163,
+      "token_acc": 0.4949021769082392
+    },
+    {
+      "epoch": 0.5338837289301686,
+      "grad_norm": 0.33145490288734436,
+      "learning_rate": 0.0004699390608361665,
+      "loss": 2.317436456680298,
+      "step": 1164,
+      "token_acc": 0.49502487562189057
+    },
+    {
+      "epoch": 0.5343423919275313,
+      "grad_norm": 0.35744139552116394,
+      "learning_rate": 0.0004691977444725955,
+      "loss": 2.3859448432922363,
+      "step": 1165,
+      "token_acc": 0.4833709131905299
+    },
+    {
+      "epoch": 0.5348010549248939,
+      "grad_norm": 0.3372769057750702,
+      "learning_rate": 0.0004684564960702877,
+      "loss": 2.368591070175171,
+      "step": 1166,
+      "token_acc": 0.489532549469458
+    },
+    {
+      "epoch": 0.5352597179222566,
+      "grad_norm": 0.3186121881008148,
+      "learning_rate": 0.0004677153172647131,
+      "loss": 2.4302520751953125,
+      "step": 1167,
+      "token_acc": 0.4760366182014001
+    },
+    {
+      "epoch": 0.5357183809196193,
+      "grad_norm": 0.33439403772354126,
+      "learning_rate": 0.00046697420969118894,
+      "loss": 2.466879367828369,
+      "step": 1168,
+      "token_acc": 0.47239597497960295
+    },
+    {
+      "epoch": 0.536177043916982,
+      "grad_norm": 0.31994086503982544,
+      "learning_rate": 0.00046623317498487466,
+      "loss": 2.380794048309326,
+      "step": 1169,
+      "token_acc": 0.48732394366197185
+    },
+    {
+      "epoch": 0.5366357069143447,
+      "grad_norm": 0.32965800166130066,
+      "learning_rate": 0.0004654922147807694,
+      "loss": 2.400881767272949,
+      "step": 1170,
+      "token_acc": 0.48006785411365566
+    },
+    {
+      "epoch": 0.5370943699117073,
+      "grad_norm": 0.3274883031845093,
+      "learning_rate": 0.00046475133071370757,
+      "loss": 2.3854472637176514,
+      "step": 1171,
+      "token_acc": 0.4783422459893048
+    },
+    {
+      "epoch": 0.5375530329090701,
+      "grad_norm": 0.3407370448112488,
+      "learning_rate": 0.00046401052441835574,
+      "loss": 2.379990816116333,
+      "step": 1172,
+      "token_acc": 0.497196261682243
+    },
+    {
+      "epoch": 0.5380116959064327,
+      "grad_norm": 0.34296369552612305,
+      "learning_rate": 0.000463269797529209,
+      "loss": 2.3752121925354004,
+      "step": 1173,
+      "token_acc": 0.47820965842167257
+    },
+    {
+      "epoch": 0.5384703589037955,
+      "grad_norm": 0.33161836862564087,
+      "learning_rate": 0.00046252915168058697,
+      "loss": 2.3046469688415527,
+      "step": 1174,
+      "token_acc": 0.5061153174140943
+    },
+    {
+      "epoch": 0.5389290219011581,
+      "grad_norm": 0.32786694169044495,
+      "learning_rate": 0.0004617885885066305,
+      "loss": 2.363800525665283,
+      "step": 1175,
+      "token_acc": 0.495693248124479
+    },
+    {
+      "epoch": 0.5393876848985208,
+      "grad_norm": 0.3195815086364746,
+      "learning_rate": 0.0004610481096412984,
+      "loss": 2.4256789684295654,
+      "step": 1176,
+      "token_acc": 0.4854394870424793
+    },
+    {
+      "epoch": 0.5398463478958835,
+      "grad_norm": 0.3374330699443817,
+      "learning_rate": 0.000460307716718363,
+      "loss": 2.370356559753418,
+      "step": 1177,
+      "token_acc": 0.5075134675361497
+    },
+    {
+      "epoch": 0.5403050108932462,
+      "grad_norm": 0.3149530291557312,
+      "learning_rate": 0.0004595674113714074,
+      "loss": 2.416278600692749,
+      "step": 1178,
+      "token_acc": 0.4718566227947354
+    },
+    {
+      "epoch": 0.5407636738906089,
+      "grad_norm": 0.3265056610107422,
+      "learning_rate": 0.0004588271952338212,
+      "loss": 2.404783010482788,
+      "step": 1179,
+      "token_acc": 0.4904548006737788
+    },
+    {
+      "epoch": 0.5412223368879716,
+      "grad_norm": 0.3221311867237091,
+      "learning_rate": 0.00045808706993879714,
+      "loss": 2.475677013397217,
+      "step": 1180,
+      "token_acc": 0.47053895559899467
+    },
+    {
+      "epoch": 0.5416809998853342,
+      "grad_norm": 0.3284562826156616,
+      "learning_rate": 0.00045734703711932767,
+      "loss": 2.419527292251587,
+      "step": 1181,
+      "token_acc": 0.48367868294067556
+    },
+    {
+      "epoch": 0.542139662882697,
+      "grad_norm": 0.3440361022949219,
+      "learning_rate": 0.0004566070984082013,
+      "loss": 2.3523144721984863,
+      "step": 1182,
+      "token_acc": 0.4979792147806005
+    },
+    {
+      "epoch": 0.5425983258800596,
+      "grad_norm": 0.3393910527229309,
+      "learning_rate": 0.00045586725543799865,
+      "loss": 2.4763576984405518,
+      "step": 1183,
+      "token_acc": 0.4828918322295806
+    },
+    {
+      "epoch": 0.5430569888774223,
+      "grad_norm": 0.345430850982666,
+      "learning_rate": 0.00045512750984108937,
+      "loss": 2.383568525314331,
+      "step": 1184,
+      "token_acc": 0.4874020156774916
+    },
+    {
+      "epoch": 0.543515651874785,
+      "grad_norm": 0.33511584997177124,
+      "learning_rate": 0.000454387863249628,
+      "loss": 2.4082822799682617,
+      "step": 1185,
+      "token_acc": 0.49108683151236343
+    },
+    {
+      "epoch": 0.5439743148721476,
+      "grad_norm": 0.3304150700569153,
+      "learning_rate": 0.00045364831729555096,
+      "loss": 2.357126235961914,
+      "step": 1186,
+      "token_acc": 0.49819092680211524
+    },
+    {
+      "epoch": 0.5444329778695104,
+      "grad_norm": 0.3438422977924347,
+      "learning_rate": 0.0004529088736105721,
+      "loss": 2.368241786956787,
+      "step": 1187,
+      "token_acc": 0.5026874115983027
+    },
+    {
+      "epoch": 0.544891640866873,
+      "grad_norm": 0.328216016292572,
+      "learning_rate": 0.0004521695338261802,
+      "loss": 2.449075937271118,
+      "step": 1188,
+      "token_acc": 0.48609198567887635
+    },
+    {
+      "epoch": 0.5453503038642358,
+      "grad_norm": 0.3344208598136902,
+      "learning_rate": 0.0004514302995736344,
+      "loss": 2.351963996887207,
+      "step": 1189,
+      "token_acc": 0.49407550289335905
+    },
+    {
+      "epoch": 0.5458089668615984,
+      "grad_norm": 0.343511700630188,
+      "learning_rate": 0.0004506911724839613,
+      "loss": 2.436291217803955,
+      "step": 1190,
+      "token_acc": 0.48068181818181815
+    },
+    {
+      "epoch": 0.5462676298589612,
+      "grad_norm": 0.32576438784599304,
+      "learning_rate": 0.0004499521541879508,
+      "loss": 2.3687691688537598,
+      "step": 1191,
+      "token_acc": 0.4792358803986711
+    },
+    {
+      "epoch": 0.5467262928563238,
+      "grad_norm": 0.33563125133514404,
+      "learning_rate": 0.00044921324631615303,
+      "loss": 2.3122730255126953,
+      "step": 1192,
+      "token_acc": 0.49754831266224403
+    },
+    {
+      "epoch": 0.5471849558536865,
+      "grad_norm": 0.340992271900177,
+      "learning_rate": 0.0004484744504988742,
+      "loss": 2.397444248199463,
+      "step": 1193,
+      "token_acc": 0.4862914862914863
+    },
+    {
+      "epoch": 0.5476436188510492,
+      "grad_norm": 0.34597668051719666,
+      "learning_rate": 0.00044773576836617336,
+      "loss": 2.4072422981262207,
+      "step": 1194,
+      "token_acc": 0.48477886272257326
+    },
+    {
+      "epoch": 0.5481022818484119,
+      "grad_norm": 0.31964075565338135,
+      "learning_rate": 0.0004469972015478588,
+      "loss": 2.404254913330078,
+      "step": 1195,
+      "token_acc": 0.49026063100137174
+    },
+    {
+      "epoch": 0.5485609448457746,
+      "grad_norm": 0.31169629096984863,
+      "learning_rate": 0.0004462587516734844,
+      "loss": 2.485556125640869,
+      "step": 1196,
+      "token_acc": 0.47184623714131024
+    },
+    {
+      "epoch": 0.5490196078431373,
+      "grad_norm": 0.3283757269382477,
+      "learning_rate": 0.00044552042037234596,
+      "loss": 2.4858906269073486,
+      "step": 1197,
+      "token_acc": 0.47494239631336405
+    },
+    {
+      "epoch": 0.5494782708404999,
+      "grad_norm": 0.33134961128234863,
+      "learning_rate": 0.00044478220927347774,
+      "loss": 2.3355555534362793,
+      "step": 1198,
+      "token_acc": 0.4806371875858281
+    },
+    {
+      "epoch": 0.5499369338378627,
+      "grad_norm": 0.3389824628829956,
+      "learning_rate": 0.00044404412000564875,
+      "loss": 2.440321445465088,
+      "step": 1199,
+      "token_acc": 0.49220742419948993
+    },
+    {
+      "epoch": 0.5503955968352253,
+      "grad_norm": 0.3425561785697937,
+      "learning_rate": 0.000443306154197359,
+      "loss": 2.5323190689086914,
+      "step": 1200,
+      "token_acc": 0.46542324246771877
+    },
+    {
+      "epoch": 0.550854259832588,
+      "grad_norm": 0.3538571894168854,
+      "learning_rate": 0.00044256831347683646,
+      "loss": 2.4835643768310547,
+      "step": 1201,
+      "token_acc": 0.47285067873303166
+    },
+    {
+      "epoch": 0.5513129228299507,
+      "grad_norm": 0.3112059533596039,
+      "learning_rate": 0.0004418305994720328,
+      "loss": 2.286160945892334,
+      "step": 1202,
+      "token_acc": 0.5158533223049352
+    },
+    {
+      "epoch": 0.5517715858273133,
+      "grad_norm": 0.32723918557167053,
+      "learning_rate": 0.0004410930138106203,
+      "loss": 2.3868699073791504,
+      "step": 1203,
+      "token_acc": 0.4959720730397422
+    },
+    {
+      "epoch": 0.5522302488246761,
+      "grad_norm": 0.32817670702934265,
+      "learning_rate": 0.000440355558119988,
+      "loss": 2.2926995754241943,
+      "step": 1204,
+      "token_acc": 0.4978050921861282
+    },
+    {
+      "epoch": 0.5526889118220387,
+      "grad_norm": 0.331314355134964,
+      "learning_rate": 0.00043961823402723814,
+      "loss": 2.2755377292633057,
+      "step": 1205,
+      "token_acc": 0.50169779286927
+    },
+    {
+      "epoch": 0.5531475748194015,
+      "grad_norm": 0.3287051320075989,
+      "learning_rate": 0.0004388810431591829,
+      "loss": 2.3041505813598633,
+      "step": 1206,
+      "token_acc": 0.5005558643690939
+    },
+    {
+      "epoch": 0.5536062378167641,
+      "grad_norm": 0.3475499153137207,
+      "learning_rate": 0.0004381439871423398,
+      "loss": 2.481767177581787,
+      "step": 1207,
+      "token_acc": 0.4770246984491672
+    },
+    {
+      "epoch": 0.5540649008141268,
+      "grad_norm": 0.3394912779331207,
+      "learning_rate": 0.00043740706760292966,
+      "loss": 2.328268051147461,
+      "step": 1208,
+      "token_acc": 0.4944126464976833
+    },
+    {
+      "epoch": 0.5545235638114895,
+      "grad_norm": 0.3594644367694855,
+      "learning_rate": 0.0004366702861668716,
+      "loss": 2.440275192260742,
+      "step": 1209,
+      "token_acc": 0.47631205673758864
+    },
+    {
+      "epoch": 0.5549822268088522,
+      "grad_norm": 0.34651413559913635,
+      "learning_rate": 0.00043593364445978036,
+      "loss": 2.4451394081115723,
+      "step": 1210,
+      "token_acc": 0.47500706015249927
+    },
+    {
+      "epoch": 0.5554408898062149,
+      "grad_norm": 0.3344196677207947,
+      "learning_rate": 0.0004351971441069622,
+      "loss": 2.3106343746185303,
+      "step": 1211,
+      "token_acc": 0.4906989853438557
+    },
+    {
+      "epoch": 0.5558995528035776,
+      "grad_norm": 0.34688499569892883,
+      "learning_rate": 0.0004344607867334116,
+      "loss": 2.3936924934387207,
+      "step": 1212,
+      "token_acc": 0.48639551192145863
+    },
+    {
+      "epoch": 0.5563582158009402,
+      "grad_norm": 0.33408495783805847,
+      "learning_rate": 0.00043372457396380766,
+      "loss": 2.4188308715820312,
+      "step": 1213,
+      "token_acc": 0.4883459702330806
+    },
+    {
+      "epoch": 0.556816878798303,
+      "grad_norm": 0.37232357263565063,
+      "learning_rate": 0.00043298850742251013,
+      "loss": 2.318387269973755,
+      "step": 1214,
+      "token_acc": 0.49273711193392195
+    },
+    {
+      "epoch": 0.5572755417956656,
+      "grad_norm": 0.32914647459983826,
+      "learning_rate": 0.0004322525887335563,
+      "loss": 2.3129100799560547,
+      "step": 1215,
+      "token_acc": 0.5013520822065982
+    },
+    {
+      "epoch": 0.5577342047930284,
+      "grad_norm": 0.32913053035736084,
+      "learning_rate": 0.00043151681952065734,
+      "loss": 2.348127841949463,
+      "step": 1216,
+      "token_acc": 0.4944743553414565
+    },
+    {
+      "epoch": 0.558192867790391,
+      "grad_norm": 0.34666576981544495,
+      "learning_rate": 0.00043078120140719456,
+      "loss": 2.4081196784973145,
+      "step": 1217,
+      "token_acc": 0.48874133949191684
+    },
+    {
+      "epoch": 0.5586515307877536,
+      "grad_norm": 0.32372456789016724,
+      "learning_rate": 0.0004300457360162158,
+      "loss": 2.4483871459960938,
+      "step": 1218,
+      "token_acc": 0.4693481276005548
+    },
+    {
+      "epoch": 0.5591101937851164,
+      "grad_norm": 0.34390881657600403,
+      "learning_rate": 0.0004293104249704319,
+      "loss": 2.4345483779907227,
+      "step": 1219,
+      "token_acc": 0.4818132464712269
+    },
+    {
+      "epoch": 0.559568856782479,
+      "grad_norm": 0.3545990288257599,
+      "learning_rate": 0.00042857526989221355,
+      "loss": 2.4466018676757812,
+      "step": 1220,
+      "token_acc": 0.4760898282694848
+    },
+    {
+      "epoch": 0.5600275197798418,
+      "grad_norm": 0.33733758330345154,
+      "learning_rate": 0.00042784027240358674,
+      "loss": 2.3660106658935547,
+      "step": 1221,
+      "token_acc": 0.48605921241736133
+    },
+    {
+      "epoch": 0.5604861827772044,
+      "grad_norm": 0.32617852091789246,
+      "learning_rate": 0.0004271054341262301,
+      "loss": 2.4787588119506836,
+      "step": 1222,
+      "token_acc": 0.4811657959857025
+    },
+    {
+      "epoch": 0.5609448457745672,
+      "grad_norm": 0.32000041007995605,
+      "learning_rate": 0.000426370756681471,
+      "loss": 2.4197468757629395,
+      "step": 1223,
+      "token_acc": 0.4804241435562806
+    },
+    {
+      "epoch": 0.5614035087719298,
+      "grad_norm": 0.333675742149353,
+      "learning_rate": 0.0004256362416902817,
+      "loss": 2.3936476707458496,
+      "step": 1224,
+      "token_acc": 0.47599531615925056
+    },
+    {
+      "epoch": 0.5618621717692925,
+      "grad_norm": 0.33793601393699646,
+      "learning_rate": 0.00042490189077327637,
+      "loss": 2.339996576309204,
+      "step": 1225,
+      "token_acc": 0.4877771461057419
+    },
+    {
+      "epoch": 0.5623208347666552,
+      "grad_norm": 0.3211178183555603,
+      "learning_rate": 0.00042416770555070703,
+      "loss": 2.477755546569824,
+      "step": 1226,
+      "token_acc": 0.48440065681444994
+    },
+    {
+      "epoch": 0.5627794977640179,
+      "grad_norm": 0.3442017734050751,
+      "learning_rate": 0.00042343368764246,
+      "loss": 2.3506226539611816,
+      "step": 1227,
+      "token_acc": 0.48245868367642797
+    },
+    {
+      "epoch": 0.5632381607613806,
+      "grad_norm": 0.3554806411266327,
+      "learning_rate": 0.0004226998386680524,
+      "loss": 2.4184913635253906,
+      "step": 1228,
+      "token_acc": 0.48822733423545334
+    },
+    {
+      "epoch": 0.5636968237587433,
+      "grad_norm": 0.3359168767929077,
+      "learning_rate": 0.000421966160246629,
+      "loss": 2.328129291534424,
+      "step": 1229,
+      "token_acc": 0.49019058295964124
+    },
+    {
+      "epoch": 0.5641554867561059,
+      "grad_norm": 0.3443622589111328,
+      "learning_rate": 0.00042123265399695783,
+      "loss": 2.3625025749206543,
+      "step": 1230,
+      "token_acc": 0.4944333428489866
+    },
+    {
+      "epoch": 0.5646141497534687,
+      "grad_norm": 0.34090185165405273,
+      "learning_rate": 0.0004204993215374273,
+      "loss": 2.5054771900177,
+      "step": 1231,
+      "token_acc": 0.4713203463203463
+    },
+    {
+      "epoch": 0.5650728127508313,
+      "grad_norm": 0.34598684310913086,
+      "learning_rate": 0.00041976616448604226,
+      "loss": 2.5186641216278076,
+      "step": 1232,
+      "token_acc": 0.4666849465313957
+    },
+    {
+      "epoch": 0.5655314757481941,
+      "grad_norm": 0.3255317509174347,
+      "learning_rate": 0.00041903318446042076,
+      "loss": 2.3030948638916016,
+      "step": 1233,
+      "token_acc": 0.48515406162464986
+    },
+    {
+      "epoch": 0.5659901387455567,
+      "grad_norm": 0.33572426438331604,
+      "learning_rate": 0.00041830038307778984,
+      "loss": 2.560073137283325,
+      "step": 1234,
+      "token_acc": 0.45712663259511643
+    },
+    {
+      "epoch": 0.5664488017429193,
+      "grad_norm": 0.3159019649028778,
+      "learning_rate": 0.0004175677619549828,
+      "loss": 2.3413145542144775,
+      "step": 1235,
+      "token_acc": 0.4988870339454647
+    },
+    {
+      "epoch": 0.5669074647402821,
+      "grad_norm": 0.33941614627838135,
+      "learning_rate": 0.000416835322708435,
+      "loss": 2.42108154296875,
+      "step": 1236,
+      "token_acc": 0.48903156768325307
+    },
+    {
+      "epoch": 0.5673661277376447,
+      "grad_norm": 0.3211330473423004,
+      "learning_rate": 0.00041610306695418056,
+      "loss": 2.402815818786621,
+      "step": 1237,
+      "token_acc": 0.48370019504040124
+    },
+    {
+      "epoch": 0.5678247907350075,
+      "grad_norm": 0.3443274199962616,
+      "learning_rate": 0.0004153709963078488,
+      "loss": 2.436002016067505,
+      "step": 1238,
+      "token_acc": 0.4869226488592098
+    },
+    {
+      "epoch": 0.5682834537323701,
+      "grad_norm": 0.34885191917419434,
+      "learning_rate": 0.0004146391123846606,
+      "loss": 2.4409127235412598,
+      "step": 1239,
+      "token_acc": 0.48285553681843735
+    },
+    {
+      "epoch": 0.5687421167297328,
+      "grad_norm": 0.34614840149879456,
+      "learning_rate": 0.0004139074167994249,
+      "loss": 2.4201903343200684,
+      "step": 1240,
+      "token_acc": 0.4834983498349835
+    },
+    {
+      "epoch": 0.5692007797270955,
+      "grad_norm": 0.331919401884079,
+      "learning_rate": 0.00041317591116653486,
+      "loss": 2.3994216918945312,
+      "step": 1241,
+      "token_acc": 0.4881665240946678
+    },
+    {
+      "epoch": 0.5696594427244582,
+      "grad_norm": 0.3240911364555359,
+      "learning_rate": 0.0004124445970999648,
+      "loss": 2.2819631099700928,
+      "step": 1242,
+      "token_acc": 0.5019230769230769
+    },
+    {
+      "epoch": 0.5701181057218209,
+      "grad_norm": 0.3376796841621399,
+      "learning_rate": 0.00041171347621326627,
+      "loss": 2.4925808906555176,
+      "step": 1243,
+      "token_acc": 0.47007586400674345
+    },
+    {
+      "epoch": 0.5705767687191836,
+      "grad_norm": 0.33301636576652527,
+      "learning_rate": 0.00041098255011956465,
+      "loss": 2.3698883056640625,
+      "step": 1244,
+      "token_acc": 0.49698795180722893
+    },
+    {
+      "epoch": 0.5710354317165462,
+      "grad_norm": 0.35458892583847046,
+      "learning_rate": 0.00041025182043155547,
+      "loss": 2.2901546955108643,
+      "step": 1245,
+      "token_acc": 0.5039908779931584
+    },
+    {
+      "epoch": 0.571494094713909,
+      "grad_norm": 0.33268123865127563,
+      "learning_rate": 0.000409521288761501,
+      "loss": 2.3650991916656494,
+      "step": 1246,
+      "token_acc": 0.4916281755196305
+    },
+    {
+      "epoch": 0.5719527577112716,
+      "grad_norm": 0.3476988673210144,
+      "learning_rate": 0.00040879095672122646,
+      "loss": 2.46368408203125,
+      "step": 1247,
+      "token_acc": 0.47098782904047554
+    },
+    {
+      "epoch": 0.5724114207086344,
+      "grad_norm": 0.3208668828010559,
+      "learning_rate": 0.0004080608259221167,
+      "loss": 2.351609706878662,
+      "step": 1248,
+      "token_acc": 0.48567674113009196
+    },
+    {
+      "epoch": 0.572870083705997,
+      "grad_norm": 0.33837610483169556,
+      "learning_rate": 0.0004073308979751126,
+      "loss": 2.42510986328125,
+      "step": 1249,
+      "token_acc": 0.482837528604119
+    },
+    {
+      "epoch": 0.5733287467033598,
+      "grad_norm": 0.3475898504257202,
+      "learning_rate": 0.0004066011744907074,
+      "loss": 2.327911853790283,
+      "step": 1250,
+      "token_acc": 0.4988801791713326
+    },
+    {
+      "epoch": 0.5737874097007224,
+      "grad_norm": 0.31971225142478943,
+      "learning_rate": 0.00040587165707894326,
+      "loss": 2.480320453643799,
+      "step": 1251,
+      "token_acc": 0.46329658510352245
+    },
+    {
+      "epoch": 0.574246072698085,
+      "grad_norm": 0.3156541585922241,
+      "learning_rate": 0.0004051423473494076,
+      "loss": 2.4188902378082275,
+      "step": 1252,
+      "token_acc": 0.4813881891967534
+    },
+    {
+      "epoch": 0.5747047356954478,
+      "grad_norm": 0.3291691243648529,
+      "learning_rate": 0.0004044132469112299,
+      "loss": 2.3880271911621094,
+      "step": 1253,
+      "token_acc": 0.49214517876489705
+    },
+    {
+      "epoch": 0.5751633986928104,
+      "grad_norm": 0.3401661217212677,
+      "learning_rate": 0.00040368435737307733,
+      "loss": 2.4230124950408936,
+      "step": 1254,
+      "token_acc": 0.47578425976884975
+    },
+    {
+      "epoch": 0.5756220616901732,
+      "grad_norm": 0.34469103813171387,
+      "learning_rate": 0.00040295568034315224,
+      "loss": 2.387690544128418,
+      "step": 1255,
+      "token_acc": 0.4900277008310249
+    },
+    {
+      "epoch": 0.5760807246875358,
+      "grad_norm": 0.3351454436779022,
+      "learning_rate": 0.0004022272174291878,
+      "loss": 2.360827922821045,
+      "step": 1256,
+      "token_acc": 0.491933278643697
+    },
+    {
+      "epoch": 0.5765393876848985,
+      "grad_norm": 0.33321672677993774,
+      "learning_rate": 0.0004014989702384449,
+      "loss": 2.4882776737213135,
+      "step": 1257,
+      "token_acc": 0.45794392523364486
+    },
+    {
+      "epoch": 0.5769980506822612,
+      "grad_norm": 0.34439513087272644,
+      "learning_rate": 0.00040077094037770843,
+      "loss": 2.5004217624664307,
+      "step": 1258,
+      "token_acc": 0.4855635757912271
+    },
+    {
+      "epoch": 0.5774567136796239,
+      "grad_norm": 0.320482462644577,
+      "learning_rate": 0.0004000431294532838,
+      "loss": 2.43469500541687,
+      "step": 1259,
+      "token_acc": 0.47989347536617843
+    },
+    {
+      "epoch": 0.5779153766769866,
+      "grad_norm": 0.3228101134300232,
+      "learning_rate": 0.0003993155390709935,
+      "loss": 2.2579996585845947,
+      "step": 1260,
+      "token_acc": 0.5012264922322158
+    },
+    {
+      "epoch": 0.5783740396743493,
+      "grad_norm": 0.3554765284061432,
+      "learning_rate": 0.0003985881708361729,
+      "loss": 2.4069061279296875,
+      "step": 1261,
+      "token_acc": 0.4835320840431573
+    },
+    {
+      "epoch": 0.5788327026717119,
+      "grad_norm": 0.3248046338558197,
+      "learning_rate": 0.00039786102635366784,
+      "loss": 2.3240976333618164,
+      "step": 1262,
+      "token_acc": 0.49567160011170064
+    },
+    {
+      "epoch": 0.5792913656690747,
+      "grad_norm": 0.3355124294757843,
+      "learning_rate": 0.0003971341072278302,
+      "loss": 2.358372688293457,
+      "step": 1263,
+      "token_acc": 0.48574417996337954
+    },
+    {
+      "epoch": 0.5797500286664373,
+      "grad_norm": 0.3375208079814911,
+      "learning_rate": 0.00039640741506251457,
+      "loss": 2.2823896408081055,
+      "step": 1264,
+      "token_acc": 0.5098442550690567
+    },
+    {
+      "epoch": 0.5802086916638001,
+      "grad_norm": 0.3746131360530853,
+      "learning_rate": 0.00039568095146107495,
+      "loss": 2.4372541904449463,
+      "step": 1265,
+      "token_acc": 0.4886657101865136
+    },
+    {
+      "epoch": 0.5806673546611627,
+      "grad_norm": 0.34838199615478516,
+      "learning_rate": 0.00039495471802636096,
+      "loss": 2.484485149383545,
+      "step": 1266,
+      "token_acc": 0.47902869757174393
+    },
+    {
+      "epoch": 0.5811260176585255,
+      "grad_norm": 0.34635233879089355,
+      "learning_rate": 0.0003942287163607145,
+      "loss": 2.3821139335632324,
+      "step": 1267,
+      "token_acc": 0.47875816993464054
+    },
+    {
+      "epoch": 0.5815846806558881,
+      "grad_norm": 0.349904865026474,
+      "learning_rate": 0.0003935029480659658,
+      "loss": 2.40873646736145,
+      "step": 1268,
+      "token_acc": 0.4906918588496805
+    },
+    {
+      "epoch": 0.5820433436532507,
+      "grad_norm": 0.3482176661491394,
+      "learning_rate": 0.00039277741474343054,
+      "loss": 2.3673319816589355,
+      "step": 1269,
+      "token_acc": 0.49348534201954397
+    },
+    {
+      "epoch": 0.5825020066506135,
+      "grad_norm": 0.324079692363739,
+      "learning_rate": 0.0003920521179939057,
+      "loss": 2.341050624847412,
+      "step": 1270,
+      "token_acc": 0.48408564814814814
+    },
+    {
+      "epoch": 0.5829606696479761,
+      "grad_norm": 0.3405047655105591,
+      "learning_rate": 0.00039132705941766644,
+      "loss": 2.397528648376465,
+      "step": 1271,
+      "token_acc": 0.4828651685393258
+    },
+    {
+      "epoch": 0.5834193326453389,
+      "grad_norm": 0.33491912484169006,
+      "learning_rate": 0.0003906022406144624,
+      "loss": 2.4042017459869385,
+      "step": 1272,
+      "token_acc": 0.48731241473396997
+    },
+    {
+      "epoch": 0.5838779956427015,
+      "grad_norm": 0.33675655722618103,
+      "learning_rate": 0.0003898776631835143,
+      "loss": 2.3883543014526367,
+      "step": 1273,
+      "token_acc": 0.4955898566703418
+    },
+    {
+      "epoch": 0.5843366586400642,
+      "grad_norm": 0.33834969997406006,
+      "learning_rate": 0.00038915332872350994,
+      "loss": 2.439603805541992,
+      "step": 1274,
+      "token_acc": 0.48196448390677027
+    },
+    {
+      "epoch": 0.5847953216374269,
+      "grad_norm": 0.35871055722236633,
+      "learning_rate": 0.00038842923883260135,
+      "loss": 2.492771625518799,
+      "step": 1275,
+      "token_acc": 0.48759124087591244
+    },
+    {
+      "epoch": 0.5852539846347896,
+      "grad_norm": 0.3426671624183655,
+      "learning_rate": 0.00038770539510840093,
+      "loss": 2.401170015335083,
+      "step": 1276,
+      "token_acc": 0.48406040268456374
+    },
+    {
+      "epoch": 0.5857126476321523,
+      "grad_norm": 0.3409467339515686,
+      "learning_rate": 0.00038698179914797783,
+      "loss": 2.40999698638916,
+      "step": 1277,
+      "token_acc": 0.49328859060402686
+    },
+    {
+      "epoch": 0.586171310629515,
+      "grad_norm": 0.34552034735679626,
+      "learning_rate": 0.0003862584525478545,
+      "loss": 2.456834316253662,
+      "step": 1278,
+      "token_acc": 0.48484848484848486
+    },
+    {
+      "epoch": 0.5866299736268776,
+      "grad_norm": 0.344443678855896,
+      "learning_rate": 0.00038553535690400353,
+      "loss": 2.4125397205352783,
+      "step": 1279,
+      "token_acc": 0.4818910699474703
+    },
+    {
+      "epoch": 0.5870886366242404,
+      "grad_norm": 0.330518901348114,
+      "learning_rate": 0.00038481251381184355,
+      "loss": 2.3883519172668457,
+      "step": 1280,
+      "token_acc": 0.4854155200880572
+    },
+    {
+      "epoch": 0.587547299621603,
+      "grad_norm": 0.34492021799087524,
+      "learning_rate": 0.00038408992486623584,
+      "loss": 2.400785446166992,
+      "step": 1281,
+      "token_acc": 0.4885739080127278
+    },
+    {
+      "epoch": 0.5880059626189658,
+      "grad_norm": 0.3304204046726227,
+      "learning_rate": 0.00038336759166148117,
+      "loss": 2.3912506103515625,
+      "step": 1282,
+      "token_acc": 0.4826233183856502
+    },
+    {
+      "epoch": 0.5884646256163284,
+      "grad_norm": 0.3564055562019348,
+      "learning_rate": 0.0003826455157913159,
+      "loss": 2.3989624977111816,
+      "step": 1283,
+      "token_acc": 0.48273910582908885
+    },
+    {
+      "epoch": 0.5889232886136911,
+      "grad_norm": 0.34016719460487366,
+      "learning_rate": 0.00038192369884890886,
+      "loss": 2.4132046699523926,
+      "step": 1284,
+      "token_acc": 0.48526959421901056
+    },
+    {
+      "epoch": 0.5893819516110538,
+      "grad_norm": 0.33444005250930786,
+      "learning_rate": 0.00038120214242685723,
+      "loss": 2.417942523956299,
+      "step": 1285,
+      "token_acc": 0.490403895731882
+    },
+    {
+      "epoch": 0.5898406146084164,
+      "grad_norm": 0.32987749576568604,
+      "learning_rate": 0.00038048084811718373,
+      "loss": 2.36061429977417,
+      "step": 1286,
+      "token_acc": 0.4845984598459846
+    },
+    {
+      "epoch": 0.5902992776057792,
+      "grad_norm": 0.3290899097919464,
+      "learning_rate": 0.0003797598175113327,
+      "loss": 2.4467458724975586,
+      "step": 1287,
+      "token_acc": 0.4758269720101781
+    },
+    {
+      "epoch": 0.5907579406031418,
+      "grad_norm": 0.3392254114151001,
+      "learning_rate": 0.0003790390522001662,
+      "loss": 2.302490711212158,
+      "step": 1288,
+      "token_acc": 0.5062146892655367
+    },
+    {
+      "epoch": 0.5912166036005045,
+      "grad_norm": 0.3305123746395111,
+      "learning_rate": 0.0003783185537739615,
+      "loss": 2.289241313934326,
+      "step": 1289,
+      "token_acc": 0.500690798563139
+    },
+    {
+      "epoch": 0.5916752665978672,
+      "grad_norm": 0.3308006227016449,
+      "learning_rate": 0.00037759832382240697,
+      "loss": 2.246800422668457,
+      "step": 1290,
+      "token_acc": 0.49689791314156795
+    },
+    {
+      "epoch": 0.5921339295952299,
+      "grad_norm": 0.32767626643180847,
+      "learning_rate": 0.00037687836393459826,
+      "loss": 2.3175716400146484,
+      "step": 1291,
+      "token_acc": 0.5015673981191222
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 0.3325299918651581,
+      "learning_rate": 0.0003761586756990354,
+      "loss": 2.4247419834136963,
+      "step": 1292,
+      "token_acc": 0.4716401229393685
+    },
+    {
+      "epoch": 0.5930512555899553,
+      "grad_norm": 0.34397822618484497,
+      "learning_rate": 0.0003754392607036191,
+      "loss": 2.4305343627929688,
+      "step": 1293,
+      "token_acc": 0.4767408263507657
+    },
+    {
+      "epoch": 0.5935099185873179,
+      "grad_norm": 0.3454072177410126,
+      "learning_rate": 0.0003747201205356472,
+      "loss": 2.416828155517578,
+      "step": 1294,
+      "token_acc": 0.49480369515011546
+    },
+    {
+      "epoch": 0.5939685815846807,
+      "grad_norm": 0.33437836170196533,
+      "learning_rate": 0.0003740012567818111,
+      "loss": 2.3844399452209473,
+      "step": 1295,
+      "token_acc": 0.4994305239179954
+    },
+    {
+      "epoch": 0.5944272445820433,
+      "grad_norm": 0.3223138451576233,
+      "learning_rate": 0.0003732826710281922,
+      "loss": 2.4136807918548584,
+      "step": 1296,
+      "token_acc": 0.4908243518788232
+    },
+    {
+      "epoch": 0.5948859075794061,
+      "grad_norm": 0.3140416741371155,
+      "learning_rate": 0.0003725643648602588,
+      "loss": 2.3260746002197266,
+      "step": 1297,
+      "token_acc": 0.49703975190301664
+    },
+    {
+      "epoch": 0.5953445705767687,
+      "grad_norm": 0.3444945514202118,
+      "learning_rate": 0.0003718463398628621,
+      "loss": 2.330179452896118,
+      "step": 1298,
+      "token_acc": 0.4974152785755313
+    },
+    {
+      "epoch": 0.5958032335741315,
+      "grad_norm": 0.3519197404384613,
+      "learning_rate": 0.0003711285976202331,
+      "loss": 2.42614483833313,
+      "step": 1299,
+      "token_acc": 0.4791961505802434
+    },
+    {
+      "epoch": 0.5962618965714941,
+      "grad_norm": 0.3358364403247833,
+      "learning_rate": 0.0003704111397159787,
+      "loss": 2.409801721572876,
+      "step": 1300,
+      "token_acc": 0.48670062252405205
+    },
+    {
+      "epoch": 0.5967205595688568,
+      "grad_norm": 0.34896978735923767,
+      "learning_rate": 0.0003696939677330788,
+      "loss": 2.508028030395508,
+      "step": 1301,
+      "token_acc": 0.4680105170902717
+    },
+    {
+      "epoch": 0.5971792225662195,
+      "grad_norm": 0.35777485370635986,
+      "learning_rate": 0.00036897708325388213,
+      "loss": 2.3242506980895996,
+      "step": 1302,
+      "token_acc": 0.4981705600900647
+    },
+    {
+      "epoch": 0.5976378855635821,
+      "grad_norm": 0.3417137563228607,
+      "learning_rate": 0.0003682604878601034,
+      "loss": 2.3854708671569824,
+      "step": 1303,
+      "token_acc": 0.5074370709382151
+    },
+    {
+      "epoch": 0.5980965485609449,
+      "grad_norm": 0.3396136164665222,
+      "learning_rate": 0.000367544183132819,
+      "loss": 2.3356847763061523,
+      "step": 1304,
+      "token_acc": 0.5043139437795714
+    },
+    {
+      "epoch": 0.5985552115583075,
+      "grad_norm": 0.34940797090530396,
+      "learning_rate": 0.0003668281706524645,
+      "loss": 2.315471649169922,
+      "step": 1305,
+      "token_acc": 0.5189393939393939
+    },
+    {
+      "epoch": 0.5990138745556702,
+      "grad_norm": 0.33320578932762146,
+      "learning_rate": 0.0003661124519988304,
+      "loss": 2.342496871948242,
+      "step": 1306,
+      "token_acc": 0.4995773457311919
+    },
+    {
+      "epoch": 0.5994725375530329,
+      "grad_norm": 0.33597850799560547,
+      "learning_rate": 0.00036539702875105893,
+      "loss": 2.483700752258301,
+      "step": 1307,
+      "token_acc": 0.47426784191071936
+    },
+    {
+      "epoch": 0.5999312005503956,
+      "grad_norm": 0.3359525799751282,
+      "learning_rate": 0.0003646819024876406,
+      "loss": 2.294806957244873,
+      "step": 1308,
+      "token_acc": 0.5038926174496644
+    },
+    {
+      "epoch": 0.6003898635477583,
+      "grad_norm": 0.33808475732803345,
+      "learning_rate": 0.0003639670747864107,
+      "loss": 2.3861141204833984,
+      "step": 1309,
+      "token_acc": 0.4862134862134862
+    },
+    {
+      "epoch": 0.600848526545121,
+      "grad_norm": 0.3495483100414276,
+      "learning_rate": 0.00036325254722454584,
+      "loss": 2.391299247741699,
+      "step": 1310,
+      "token_acc": 0.4876265466816648
+    },
+    {
+      "epoch": 0.6013071895424836,
+      "grad_norm": 0.30669280886650085,
+      "learning_rate": 0.00036253832137855997,
+      "loss": 2.283001184463501,
+      "step": 1311,
+      "token_acc": 0.5
+    },
+    {
+      "epoch": 0.6017658525398464,
+      "grad_norm": 0.33734989166259766,
+      "learning_rate": 0.00036182439882430183,
+      "loss": 2.318142890930176,
+      "step": 1312,
+      "token_acc": 0.5120137299771167
+    },
+    {
+      "epoch": 0.602224515537209,
+      "grad_norm": 0.35226139426231384,
+      "learning_rate": 0.00036111078113695096,
+      "loss": 2.4190421104431152,
+      "step": 1313,
+      "token_acc": 0.4964255075779239
+    },
+    {
+      "epoch": 0.6026831785345718,
+      "grad_norm": 0.35402336716651917,
+      "learning_rate": 0.0003603974698910139,
+      "loss": 2.4486522674560547,
+      "step": 1314,
+      "token_acc": 0.48428571428571426
+    },
+    {
+      "epoch": 0.6031418415319344,
+      "grad_norm": 0.3527601361274719,
+      "learning_rate": 0.0003596844666603214,
+      "loss": 2.3939948081970215,
+      "step": 1315,
+      "token_acc": 0.4853510226644555
+    },
+    {
+      "epoch": 0.6036005045292971,
+      "grad_norm": 0.3480856418609619,
+      "learning_rate": 0.0003589717730180245,
+      "loss": 2.496617555618286,
+      "step": 1316,
+      "token_acc": 0.46768275472763193
+    },
+    {
+      "epoch": 0.6040591675266598,
+      "grad_norm": 0.35495853424072266,
+      "learning_rate": 0.00035825939053659117,
+      "loss": 2.397785186767578,
+      "step": 1317,
+      "token_acc": 0.4888888888888889
+    },
+    {
+      "epoch": 0.6045178305240225,
+      "grad_norm": 0.32361191511154175,
+      "learning_rate": 0.00035754732078780273,
+      "loss": 2.418009042739868,
+      "step": 1318,
+      "token_acc": 0.48278711098870836
+    },
+    {
+      "epoch": 0.6049764935213852,
+      "grad_norm": 0.36219972372055054,
+      "learning_rate": 0.00035683556534275076,
+      "loss": 2.413954496383667,
+      "step": 1319,
+      "token_acc": 0.4881820834549168
+    },
+    {
+      "epoch": 0.6054351565187478,
+      "grad_norm": 0.33185145258903503,
+      "learning_rate": 0.00035612412577183303,
+      "loss": 2.3483667373657227,
+      "step": 1320,
+      "token_acc": 0.48593280524446875
+    },
+    {
+      "epoch": 0.6058938195161105,
+      "grad_norm": 0.3282735347747803,
+      "learning_rate": 0.00035541300364475063,
+      "loss": 2.4144420623779297,
+      "step": 1321,
+      "token_acc": 0.46903409090909093
+    },
+    {
+      "epoch": 0.6063524825134732,
+      "grad_norm": 0.3466692864894867,
+      "learning_rate": 0.0003547022005305043,
+      "loss": 2.3624067306518555,
+      "step": 1322,
+      "token_acc": 0.4798432250839866
+    },
+    {
+      "epoch": 0.6068111455108359,
+      "grad_norm": 0.3218834400177002,
+      "learning_rate": 0.0003539917179973907,
+      "loss": 2.361252784729004,
+      "step": 1323,
+      "token_acc": 0.4857142857142857
+    },
+    {
+      "epoch": 0.6072698085081986,
+      "grad_norm": 0.317954957485199,
+      "learning_rate": 0.00035328155761299917,
+      "loss": 2.2355566024780273,
+      "step": 1324,
+      "token_acc": 0.5137811078405138
+    },
+    {
+      "epoch": 0.6077284715055613,
+      "grad_norm": 0.3475446105003357,
+      "learning_rate": 0.0003525717209442085,
+      "loss": 2.3140103816986084,
+      "step": 1325,
+      "token_acc": 0.47944819819819817
+    },
+    {
+      "epoch": 0.6081871345029239,
+      "grad_norm": 0.3397582173347473,
+      "learning_rate": 0.00035186220955718306,
+      "loss": 2.3482189178466797,
+      "step": 1326,
+      "token_acc": 0.4961748633879781
+    },
+    {
+      "epoch": 0.6086457975002867,
+      "grad_norm": 0.3549669682979584,
+      "learning_rate": 0.0003511530250173696,
+      "loss": 2.2505135536193848,
+      "step": 1327,
+      "token_acc": 0.5008620689655172
+    },
+    {
+      "epoch": 0.6091044604976493,
+      "grad_norm": 0.3382364809513092,
+      "learning_rate": 0.00035044416888949364,
+      "loss": 2.332581043243408,
+      "step": 1328,
+      "token_acc": 0.49637276785714285
+    },
+    {
+      "epoch": 0.6095631234950121,
+      "grad_norm": 0.36244484782218933,
+      "learning_rate": 0.0003497356427375562,
+      "loss": 2.3235809803009033,
+      "step": 1329,
+      "token_acc": 0.5053946621237932
+    },
+    {
+      "epoch": 0.6100217864923747,
+      "grad_norm": 0.34174370765686035,
+      "learning_rate": 0.00034902744812483034,
+      "loss": 2.3119142055511475,
+      "step": 1330,
+      "token_acc": 0.49216300940438873
+    },
+    {
+      "epoch": 0.6104804494897375,
+      "grad_norm": 0.36694225668907166,
+      "learning_rate": 0.00034831958661385714,
+      "loss": 2.401324987411499,
+      "step": 1331,
+      "token_acc": 0.4838709677419355
+    },
+    {
+      "epoch": 0.6109391124871001,
+      "grad_norm": 0.347665935754776,
+      "learning_rate": 0.0003476120597664434,
+      "loss": 2.417351245880127,
+      "step": 1332,
+      "token_acc": 0.4870601919162547
+    },
+    {
+      "epoch": 0.6113977754844628,
+      "grad_norm": 0.3318571448326111,
+      "learning_rate": 0.00034690486914365704,
+      "loss": 2.3711981773376465,
+      "step": 1333,
+      "token_acc": 0.5007190106413575
+    },
+    {
+      "epoch": 0.6118564384818255,
+      "grad_norm": 0.32068905234336853,
+      "learning_rate": 0.00034619801630582435,
+      "loss": 2.3228840827941895,
+      "step": 1334,
+      "token_acc": 0.4998631261976458
+    },
+    {
+      "epoch": 0.6123151014791882,
+      "grad_norm": 0.346225768327713,
+      "learning_rate": 0.00034549150281252633,
+      "loss": 2.353450298309326,
+      "step": 1335,
+      "token_acc": 0.4933257597273502
+    },
+    {
+      "epoch": 0.6127737644765509,
+      "grad_norm": 0.32835492491722107,
+      "learning_rate": 0.0003447853302225952,
+      "loss": 2.396827220916748,
+      "step": 1336,
+      "token_acc": 0.48786473956913007
+    },
+    {
+      "epoch": 0.6132324274739135,
+      "grad_norm": 0.33355408906936646,
+      "learning_rate": 0.00034407950009411126,
+      "loss": 2.401613235473633,
+      "step": 1337,
+      "token_acc": 0.48171059709521247
+    },
+    {
+      "epoch": 0.6136910904712762,
+      "grad_norm": 0.3314051032066345,
+      "learning_rate": 0.00034337401398439873,
+      "loss": 2.337472438812256,
+      "step": 1338,
+      "token_acc": 0.4964858026426764
+    },
+    {
+      "epoch": 0.6141497534686389,
+      "grad_norm": 0.32379621267318726,
+      "learning_rate": 0.00034266887345002305,
+      "loss": 2.3952951431274414,
+      "step": 1339,
+      "token_acc": 0.4955604883462819
+    },
+    {
+      "epoch": 0.6146084164660016,
+      "grad_norm": 0.31511518359184265,
+      "learning_rate": 0.0003419640800467874,
+      "loss": 2.2989983558654785,
+      "step": 1340,
+      "token_acc": 0.49776161163961946
+    },
+    {
+      "epoch": 0.6150670794633643,
+      "grad_norm": 0.3427899479866028,
+      "learning_rate": 0.0003412596353297288,
+      "loss": 2.2804627418518066,
+      "step": 1341,
+      "token_acc": 0.5141973573235873
+    },
+    {
+      "epoch": 0.615525742460727,
+      "grad_norm": 0.34014198184013367,
+      "learning_rate": 0.00034055554085311493,
+      "loss": 2.3680307865142822,
+      "step": 1342,
+      "token_acc": 0.4785772029102668
+    },
+    {
+      "epoch": 0.6159844054580896,
+      "grad_norm": 0.33515748381614685,
+      "learning_rate": 0.00033985179817044105,
+      "loss": 2.378547191619873,
+      "step": 1343,
+      "token_acc": 0.47745071563597086
+    },
+    {
+      "epoch": 0.6164430684554524,
+      "grad_norm": 0.3379366993904114,
+      "learning_rate": 0.0003391484088344257,
+      "loss": 2.4104394912719727,
+      "step": 1344,
+      "token_acc": 0.4923033067274801
+    },
+    {
+      "epoch": 0.616901731452815,
+      "grad_norm": 0.3303073048591614,
+      "learning_rate": 0.00033844537439700807,
+      "loss": 2.2939507961273193,
+      "step": 1345,
+      "token_acc": 0.4899365867107803
+    },
+    {
+      "epoch": 0.6173603944501778,
+      "grad_norm": 0.340492844581604,
+      "learning_rate": 0.00033774269640934445,
+      "loss": 2.413130283355713,
+      "step": 1346,
+      "token_acc": 0.475273990911521
+    },
+    {
+      "epoch": 0.6178190574475404,
+      "grad_norm": 0.33295580744743347,
+      "learning_rate": 0.0003370403764218045,
+      "loss": 2.2369489669799805,
+      "step": 1347,
+      "token_acc": 0.5087274774774775
+    },
+    {
+      "epoch": 0.6182777204449031,
+      "grad_norm": 0.3448663055896759,
+      "learning_rate": 0.000336338415983968,
+      "loss": 2.328295946121216,
+      "step": 1348,
+      "token_acc": 0.49618991793669404
+    },
+    {
+      "epoch": 0.6187363834422658,
+      "grad_norm": 0.3231273591518402,
+      "learning_rate": 0.00033563681664462155,
+      "loss": 2.3706722259521484,
+      "step": 1349,
+      "token_acc": 0.48806584362139915
+    },
+    {
+      "epoch": 0.6191950464396285,
+      "grad_norm": 0.35387349128723145,
+      "learning_rate": 0.000334935579951755,
+      "loss": 2.399789810180664,
+      "step": 1350,
+      "token_acc": 0.4929343308395677
+    },
+    {
+      "epoch": 0.6196537094369912,
+      "grad_norm": 0.3376743197441101,
+      "learning_rate": 0.0003342347074525578,
+      "loss": 2.3810834884643555,
+      "step": 1351,
+      "token_acc": 0.489027363858033
+    },
+    {
+      "epoch": 0.6201123724343539,
+      "grad_norm": 0.3492054343223572,
+      "learning_rate": 0.0003335342006934161,
+      "loss": 2.4144954681396484,
+      "step": 1352,
+      "token_acc": 0.49943788645306353
+    },
+    {
+      "epoch": 0.6205710354317165,
+      "grad_norm": 0.31851106882095337,
+      "learning_rate": 0.00033283406121990914,
+      "loss": 2.3154895305633545,
+      "step": 1353,
+      "token_acc": 0.5009565455042362
+    },
+    {
+      "epoch": 0.6210296984290792,
+      "grad_norm": 0.33761394023895264,
+      "learning_rate": 0.0003321342905768057,
+      "loss": 2.4008822441101074,
+      "step": 1354,
+      "token_acc": 0.478687605159843
+    },
+    {
+      "epoch": 0.6214883614264419,
+      "grad_norm": 0.33304908871650696,
+      "learning_rate": 0.00033143489030806086,
+      "loss": 2.308924436569214,
+      "step": 1355,
+      "token_acc": 0.4907688068338385
+    },
+    {
+      "epoch": 0.6219470244238046,
+      "grad_norm": 0.37085628509521484,
+      "learning_rate": 0.00033073586195681227,
+      "loss": 2.515778064727783,
+      "step": 1356,
+      "token_acc": 0.47674418604651164
+    },
+    {
+      "epoch": 0.6224056874211673,
+      "grad_norm": 0.3530430793762207,
+      "learning_rate": 0.00033003720706537736,
+      "loss": 2.344749927520752,
+      "step": 1357,
+      "token_acc": 0.49557522123893805
+    },
+    {
+      "epoch": 0.6228643504185299,
+      "grad_norm": 0.37262749671936035,
+      "learning_rate": 0.0003293389271752492,
+      "loss": 2.384697675704956,
+      "step": 1358,
+      "token_acc": 0.4795353982300885
+    },
+    {
+      "epoch": 0.6233230134158927,
+      "grad_norm": 0.3245235085487366,
+      "learning_rate": 0.00032864102382709374,
+      "loss": 2.345730781555176,
+      "step": 1359,
+      "token_acc": 0.48370927318295737
+    },
+    {
+      "epoch": 0.6237816764132553,
+      "grad_norm": 0.36223724484443665,
+      "learning_rate": 0.000327943498560746,
+      "loss": 2.3580193519592285,
+      "step": 1360,
+      "token_acc": 0.4995610184372256
+    },
+    {
+      "epoch": 0.6242403394106181,
+      "grad_norm": 0.3300418555736542,
+      "learning_rate": 0.00032724635291520694,
+      "loss": 2.3559913635253906,
+      "step": 1361,
+      "token_acc": 0.4861419068736142
+    },
+    {
+      "epoch": 0.6246990024079807,
+      "grad_norm": 0.34241145849227905,
+      "learning_rate": 0.00032654958842863967,
+      "loss": 2.3577990531921387,
+      "step": 1362,
+      "token_acc": 0.48336594911937375
+    },
+    {
+      "epoch": 0.6251576654053435,
+      "grad_norm": 0.35038670897483826,
+      "learning_rate": 0.0003258532066383667,
+      "loss": 2.3318145275115967,
+      "step": 1363,
+      "token_acc": 0.49414389291689903
+    },
+    {
+      "epoch": 0.6256163284027061,
+      "grad_norm": 0.3182967007160187,
+      "learning_rate": 0.000325157209080866,
+      "loss": 2.375368595123291,
+      "step": 1364,
+      "token_acc": 0.5019230769230769
+    },
+    {
+      "epoch": 0.6260749914000688,
+      "grad_norm": 0.32574236392974854,
+      "learning_rate": 0.00032446159729176743,
+      "loss": 2.222464084625244,
+      "step": 1365,
+      "token_acc": 0.4959051115504095
+    },
+    {
+      "epoch": 0.6265336543974315,
+      "grad_norm": 0.33192455768585205,
+      "learning_rate": 0.0003237663728058502,
+      "loss": 2.299189567565918,
+      "step": 1366,
+      "token_acc": 0.4987226795344877
+    },
+    {
+      "epoch": 0.6269923173947942,
+      "grad_norm": 0.3664180636405945,
+      "learning_rate": 0.0003230715371570389,
+      "loss": 2.426185131072998,
+      "step": 1367,
+      "token_acc": 0.47751724137931034
+    },
+    {
+      "epoch": 0.6274509803921569,
+      "grad_norm": 0.33789846301078796,
+      "learning_rate": 0.00032237709187839996,
+      "loss": 2.3265540599823,
+      "step": 1368,
+      "token_acc": 0.498744069215741
+    },
+    {
+      "epoch": 0.6279096433895196,
+      "grad_norm": 0.3376023769378662,
+      "learning_rate": 0.0003216830385021388,
+      "loss": 2.3690009117126465,
+      "step": 1369,
+      "token_acc": 0.4743660418963616
+    },
+    {
+      "epoch": 0.6283683063868822,
+      "grad_norm": 0.34567922353744507,
+      "learning_rate": 0.0003209893785595959,
+      "loss": 2.4277138710021973,
+      "step": 1370,
+      "token_acc": 0.4861425339366516
+    },
+    {
+      "epoch": 0.6288269693842449,
+      "grad_norm": 0.34094834327697754,
+      "learning_rate": 0.00032029611358124366,
+      "loss": 2.3326363563537598,
+      "step": 1371,
+      "token_acc": 0.49130074565037285
+    },
+    {
+      "epoch": 0.6292856323816076,
+      "grad_norm": 0.34554293751716614,
+      "learning_rate": 0.00031960324509668336,
+      "loss": 2.3637142181396484,
+      "step": 1372,
+      "token_acc": 0.4899216125419933
+    },
+    {
+      "epoch": 0.6297442953789703,
+      "grad_norm": 0.32639217376708984,
+      "learning_rate": 0.0003189107746346412,
+      "loss": 2.377622127532959,
+      "step": 1373,
+      "token_acc": 0.5043149946062567
+    },
+    {
+      "epoch": 0.630202958376333,
+      "grad_norm": 0.3317423164844513,
+      "learning_rate": 0.0003182187037229653,
+      "loss": 2.2900407314300537,
+      "step": 1374,
+      "token_acc": 0.5031958163858222
+    },
+    {
+      "epoch": 0.6306616213736956,
+      "grad_norm": 0.35199400782585144,
+      "learning_rate": 0.0003175270338886221,
+      "loss": 2.403184413909912,
+      "step": 1375,
+      "token_acc": 0.4911174785100286
+    },
+    {
+      "epoch": 0.6311202843710584,
+      "grad_norm": 0.34216514229774475,
+      "learning_rate": 0.00031683576665769345,
+      "loss": 2.3706088066101074,
+      "step": 1376,
+      "token_acc": 0.493941955480417
+    },
+    {
+      "epoch": 0.631578947368421,
+      "grad_norm": 0.32496407628059387,
+      "learning_rate": 0.0003161449035553724,
+      "loss": 2.330216884613037,
+      "step": 1377,
+      "token_acc": 0.5021288674425206
+    },
+    {
+      "epoch": 0.6320376103657838,
+      "grad_norm": 0.3287331759929657,
+      "learning_rate": 0.00031545444610596077,
+      "loss": 2.413376808166504,
+      "step": 1378,
+      "token_acc": 0.4879534754915536
+    },
+    {
+      "epoch": 0.6324962733631464,
+      "grad_norm": 0.32665443420410156,
+      "learning_rate": 0.000314764395832865,
+      "loss": 2.450493812561035,
+      "step": 1379,
+      "token_acc": 0.4717138103161398
+    },
+    {
+      "epoch": 0.6329549363605091,
+      "grad_norm": 0.3706531822681427,
+      "learning_rate": 0.0003140747542585934,
+      "loss": 2.2770814895629883,
+      "step": 1380,
+      "token_acc": 0.4989611160581775
+    },
+    {
+      "epoch": 0.6334135993578718,
+      "grad_norm": 0.33608463406562805,
+      "learning_rate": 0.00031338552290475266,
+      "loss": 2.52781343460083,
+      "step": 1381,
+      "token_acc": 0.4714924538848519
+    },
+    {
+      "epoch": 0.6338722623552345,
+      "grad_norm": 0.33147764205932617,
+      "learning_rate": 0.00031269670329204396,
+      "loss": 2.4183778762817383,
+      "step": 1382,
+      "token_acc": 0.4899310344827586
+    },
+    {
+      "epoch": 0.6343309253525972,
+      "grad_norm": 0.34890851378440857,
+      "learning_rate": 0.0003120082969402604,
+      "loss": 2.3450608253479004,
+      "step": 1383,
+      "token_acc": 0.4890570116184815
+    },
+    {
+      "epoch": 0.6347895883499599,
+      "grad_norm": 0.3423956036567688,
+      "learning_rate": 0.00031132030536828314,
+      "loss": 2.375576972961426,
+      "step": 1384,
+      "token_acc": 0.49559032716927454
+    },
+    {
+      "epoch": 0.6352482513473225,
+      "grad_norm": 0.32465860247612,
+      "learning_rate": 0.00031063273009407805,
+      "loss": 2.3391873836517334,
+      "step": 1385,
+      "token_acc": 0.5037406483790524
+    },
+    {
+      "epoch": 0.6357069143446853,
+      "grad_norm": 0.33762699365615845,
+      "learning_rate": 0.00030994557263469265,
+      "loss": 2.402210235595703,
+      "step": 1386,
+      "token_acc": 0.4907637165701682
+    },
+    {
+      "epoch": 0.6361655773420479,
+      "grad_norm": 0.35522574186325073,
+      "learning_rate": 0.0003092588345062526,
+      "loss": 2.517825126647949,
+      "step": 1387,
+      "token_acc": 0.4687413935554944
+    },
+    {
+      "epoch": 0.6366242403394106,
+      "grad_norm": 0.3508312404155731,
+      "learning_rate": 0.0003085725172239582,
+      "loss": 2.3497841358184814,
+      "step": 1388,
+      "token_acc": 0.48286262681656156
+    },
+    {
+      "epoch": 0.6370829033367733,
+      "grad_norm": 0.33374521136283875,
+      "learning_rate": 0.0003078866223020815,
+      "loss": 2.5023722648620605,
+      "step": 1389,
+      "token_acc": 0.4741166803615448
+    },
+    {
+      "epoch": 0.637541566334136,
+      "grad_norm": 0.3327741324901581,
+      "learning_rate": 0.0003072011512539624,
+      "loss": 2.41453218460083,
+      "step": 1390,
+      "token_acc": 0.4848651623555311
+    },
+    {
+      "epoch": 0.6380002293314987,
+      "grad_norm": 0.3334726095199585,
+      "learning_rate": 0.00030651610559200574,
+      "loss": 2.3685004711151123,
+      "step": 1391,
+      "token_acc": 0.5015031429352282
+    },
+    {
+      "epoch": 0.6384588923288613,
+      "grad_norm": 0.3255791664123535,
+      "learning_rate": 0.00030583148682767757,
+      "loss": 2.3137755393981934,
+      "step": 1392,
+      "token_acc": 0.49302844394868933
+    },
+    {
+      "epoch": 0.6389175553262241,
+      "grad_norm": 0.32301777601242065,
+      "learning_rate": 0.00030514729647150243,
+      "loss": 2.4287872314453125,
+      "step": 1393,
+      "token_acc": 0.4854045037531276
+    },
+    {
+      "epoch": 0.6393762183235867,
+      "grad_norm": 0.3421832025051117,
+      "learning_rate": 0.0003044635360330592,
+      "loss": 2.369800567626953,
+      "step": 1394,
+      "token_acc": 0.49274148520379674
+    },
+    {
+      "epoch": 0.6398348813209495,
+      "grad_norm": 0.33747848868370056,
+      "learning_rate": 0.00030378020702097845,
+      "loss": 2.4112589359283447,
+      "step": 1395,
+      "token_acc": 0.4802405498281787
+    },
+    {
+      "epoch": 0.6402935443183121,
+      "grad_norm": 0.340278297662735,
+      "learning_rate": 0.000303097310942939,
+      "loss": 2.4044671058654785,
+      "step": 1396,
+      "token_acc": 0.48033946251768034
+    },
+    {
+      "epoch": 0.6407522073156748,
+      "grad_norm": 0.33371883630752563,
+      "learning_rate": 0.0003024148493056641,
+      "loss": 2.29628849029541,
+      "step": 1397,
+      "token_acc": 0.49114791547687037
+    },
+    {
+      "epoch": 0.6412108703130375,
+      "grad_norm": 0.33794447779655457,
+      "learning_rate": 0.00030173282361491865,
+      "loss": 2.390509605407715,
+      "step": 1398,
+      "token_acc": 0.4851123595505618
+    },
+    {
+      "epoch": 0.6416695333104002,
+      "grad_norm": 0.32746073603630066,
+      "learning_rate": 0.0003010512353755057,
+      "loss": 2.311551332473755,
+      "step": 1399,
+      "token_acc": 0.482943332393572
+    },
+    {
+      "epoch": 0.6421281963077629,
+      "grad_norm": 0.36006367206573486,
+      "learning_rate": 0.00030037008609126313,
+      "loss": 2.3887128829956055,
+      "step": 1400,
+      "token_acc": 0.4834892680242157
+    },
+    {
+      "epoch": 0.6425868593051256,
+      "grad_norm": 0.34520983695983887,
+      "learning_rate": 0.0002996893772650602,
+      "loss": 2.4541525840759277,
+      "step": 1401,
+      "token_acc": 0.46988280185336606
+    },
+    {
+      "epoch": 0.6430455223024882,
+      "grad_norm": 0.33551645278930664,
+      "learning_rate": 0.0002990091103987945,
+      "loss": 2.357340097427368,
+      "step": 1402,
+      "token_acc": 0.49310441880101324
+    },
+    {
+      "epoch": 0.643504185299851,
+      "grad_norm": 0.3306700885295868,
+      "learning_rate": 0.0002983292869933886,
+      "loss": 2.351029872894287,
+      "step": 1403,
+      "token_acc": 0.49360400444938823
+    },
+    {
+      "epoch": 0.6439628482972136,
+      "grad_norm": 0.3356305658817291,
+      "learning_rate": 0.0002976499085487862,
+      "loss": 2.353363513946533,
+      "step": 1404,
+      "token_acc": 0.4901907356948229
+    },
+    {
+      "epoch": 0.6444215112945763,
+      "grad_norm": 0.3439108431339264,
+      "learning_rate": 0.00029697097656394963,
+      "loss": 2.378523826599121,
+      "step": 1405,
+      "token_acc": 0.4991735537190083
+    },
+    {
+      "epoch": 0.644880174291939,
+      "grad_norm": 0.33045876026153564,
+      "learning_rate": 0.00029629249253685595,
+      "loss": 2.325188636779785,
+      "step": 1406,
+      "token_acc": 0.5019815059445178
+    },
+    {
+      "epoch": 0.6453388372893016,
+      "grad_norm": 0.3326583802700043,
+      "learning_rate": 0.00029561445796449416,
+      "loss": 2.203885555267334,
+      "step": 1407,
+      "token_acc": 0.5239697224558453
+    },
+    {
+      "epoch": 0.6457975002866644,
+      "grad_norm": 0.3416604995727539,
+      "learning_rate": 0.0002949368743428612,
+      "loss": 2.3953402042388916,
+      "step": 1408,
+      "token_acc": 0.4830508474576271
+    },
+    {
+      "epoch": 0.646256163284027,
+      "grad_norm": 0.3421464264392853,
+      "learning_rate": 0.0002942597431669593,
+      "loss": 2.373331308364868,
+      "step": 1409,
+      "token_acc": 0.48441108545034645
+    },
+    {
+      "epoch": 0.6467148262813898,
+      "grad_norm": 0.3544997572898865,
+      "learning_rate": 0.0002935830659307924,
+      "loss": 2.2875571250915527,
+      "step": 1410,
+      "token_acc": 0.4987190435525192
+    },
+    {
+      "epoch": 0.6471734892787524,
+      "grad_norm": 0.3543693423271179,
+      "learning_rate": 0.0002929068441273629,
+      "loss": 2.4100089073181152,
+      "step": 1411,
+      "token_acc": 0.4802836879432624
+    },
+    {
+      "epoch": 0.6476321522761151,
+      "grad_norm": 0.36088916659355164,
+      "learning_rate": 0.0002922310792486681,
+      "loss": 2.2865395545959473,
+      "step": 1412,
+      "token_acc": 0.5026192445547284
+    },
+    {
+      "epoch": 0.6480908152734778,
+      "grad_norm": 0.3670096695423126,
+      "learning_rate": 0.00029155577278569745,
+      "loss": 2.382117986679077,
+      "step": 1413,
+      "token_acc": 0.4872086412734508
+    },
+    {
+      "epoch": 0.6485494782708405,
+      "grad_norm": 0.37471479177474976,
+      "learning_rate": 0.00029088092622842895,
+      "loss": 2.317728042602539,
+      "step": 1414,
+      "token_acc": 0.49408783783783783
+    },
+    {
+      "epoch": 0.6490081412682032,
+      "grad_norm": 0.35377511382102966,
+      "learning_rate": 0.00029020654106582544,
+      "loss": 2.335371971130371,
+      "step": 1415,
+      "token_acc": 0.49740184757505773
+    },
+    {
+      "epoch": 0.6494668042655659,
+      "grad_norm": 0.3380454182624817,
+      "learning_rate": 0.0002895326187858326,
+      "loss": 2.3080310821533203,
+      "step": 1416,
+      "token_acc": 0.5053370786516854
+    },
+    {
+      "epoch": 0.6499254672629285,
+      "grad_norm": 0.3290717303752899,
+      "learning_rate": 0.00028885916087537377,
+      "loss": 2.3871777057647705,
+      "step": 1417,
+      "token_acc": 0.47679209008514145
+    },
+    {
+      "epoch": 0.6503841302602913,
+      "grad_norm": 0.3459347188472748,
+      "learning_rate": 0.00028818616882034877,
+      "loss": 2.3598389625549316,
+      "step": 1418,
+      "token_acc": 0.48246844319775595
+    },
+    {
+      "epoch": 0.6508427932576539,
+      "grad_norm": 0.3583964705467224,
+      "learning_rate": 0.0002875136441056286,
+      "loss": 2.366239309310913,
+      "step": 1419,
+      "token_acc": 0.49719258843346437
+    },
+    {
+      "epoch": 0.6513014562550167,
+      "grad_norm": 0.33667388558387756,
+      "learning_rate": 0.000286841588215054,
+      "loss": 2.4071407318115234,
+      "step": 1420,
+      "token_acc": 0.4757975797579758
+    },
+    {
+      "epoch": 0.6517601192523793,
+      "grad_norm": 0.36943763494491577,
+      "learning_rate": 0.0002861700026314308,
+      "loss": 2.4373979568481445,
+      "step": 1421,
+      "token_acc": 0.4858323494687131
+    },
+    {
+      "epoch": 0.6522187822497421,
+      "grad_norm": 0.31827855110168457,
+      "learning_rate": 0.00028549888883652686,
+      "loss": 2.321516275405884,
+      "step": 1422,
+      "token_acc": 0.49874476987447697
+    },
+    {
+      "epoch": 0.6526774452471047,
+      "grad_norm": 0.350901335477829,
+      "learning_rate": 0.00028482824831107,
+      "loss": 2.3648133277893066,
+      "step": 1423,
+      "token_acc": 0.4972129319955407
+    },
+    {
+      "epoch": 0.6531361082444673,
+      "grad_norm": 0.3690221607685089,
+      "learning_rate": 0.000284158082534743,
+      "loss": 2.440328359603882,
+      "step": 1424,
+      "token_acc": 0.4840514829322888
+    },
+    {
+      "epoch": 0.6535947712418301,
+      "grad_norm": 0.32961729168891907,
+      "learning_rate": 0.00028348839298618177,
+      "loss": 2.409961223602295,
+      "step": 1425,
+      "token_acc": 0.4923033865099356
+    },
+    {
+      "epoch": 0.6540534342391927,
+      "grad_norm": 0.36671754717826843,
+      "learning_rate": 0.0002828191811429709,
+      "loss": 2.3331186771392822,
+      "step": 1426,
+      "token_acc": 0.48568220101066817
+    },
+    {
+      "epoch": 0.6545120972365555,
+      "grad_norm": 0.3420977294445038,
+      "learning_rate": 0.00028215044848164164,
+      "loss": 2.3296186923980713,
+      "step": 1427,
+      "token_acc": 0.4990285872883708
+    },
+    {
+      "epoch": 0.6549707602339181,
+      "grad_norm": 0.366384357213974,
+      "learning_rate": 0.00028148219647766747,
+      "loss": 2.3316245079040527,
+      "step": 1428,
+      "token_acc": 0.4860879243183083
+    },
+    {
+      "epoch": 0.6554294232312808,
+      "grad_norm": 0.3466300964355469,
+      "learning_rate": 0.00028081442660546124,
+      "loss": 2.351372718811035,
+      "step": 1429,
+      "token_acc": 0.48840885142255
+    },
+    {
+      "epoch": 0.6558880862286435,
+      "grad_norm": 0.35693174600601196,
+      "learning_rate": 0.0002801471403383728,
+      "loss": 2.2421576976776123,
+      "step": 1430,
+      "token_acc": 0.5137666761282997
+    },
+    {
+      "epoch": 0.6563467492260062,
+      "grad_norm": 0.3414236605167389,
+      "learning_rate": 0.00027948033914868415,
+      "loss": 2.4301934242248535,
+      "step": 1431,
+      "token_acc": 0.4856265699134803
+    },
+    {
+      "epoch": 0.6568054122233689,
+      "grad_norm": 0.35659992694854736,
+      "learning_rate": 0.00027881402450760775,
+      "loss": 2.3740975856781006,
+      "step": 1432,
+      "token_acc": 0.47794316644113666
+    },
+    {
+      "epoch": 0.6572640752207316,
+      "grad_norm": 0.343971312046051,
+      "learning_rate": 0.00027814819788528165,
+      "loss": 2.3557310104370117,
+      "step": 1433,
+      "token_acc": 0.4925671812464265
+    },
+    {
+      "epoch": 0.6577227382180942,
+      "grad_norm": 0.3552509546279907,
+      "learning_rate": 0.00027748286075076836,
+      "loss": 2.341397762298584,
+      "step": 1434,
+      "token_acc": 0.48632218844984804
+    },
+    {
+      "epoch": 0.658181401215457,
+      "grad_norm": 0.3441976308822632,
+      "learning_rate": 0.00027681801457204937,
+      "loss": 2.49971866607666,
+      "step": 1435,
+      "token_acc": 0.4703081232492997
+    },
+    {
+      "epoch": 0.6586400642128196,
+      "grad_norm": 0.3290027379989624,
+      "learning_rate": 0.00027615366081602306,
+      "loss": 2.3934743404388428,
+      "step": 1436,
+      "token_acc": 0.4864714086471409
+    },
+    {
+      "epoch": 0.6590987272101824,
+      "grad_norm": 0.34579387307167053,
+      "learning_rate": 0.0002754898009485021,
+      "loss": 2.2465310096740723,
+      "step": 1437,
+      "token_acc": 0.5097265294615168
+    },
+    {
+      "epoch": 0.659557390207545,
+      "grad_norm": 0.35806840658187866,
+      "learning_rate": 0.0002748264364342085,
+      "loss": 2.311438798904419,
+      "step": 1438,
+      "token_acc": 0.49018492176386913
+    },
+    {
+      "epoch": 0.6600160532049077,
+      "grad_norm": 0.3430219888687134,
+      "learning_rate": 0.00027416356873677204,
+      "loss": 2.428553581237793,
+      "step": 1439,
+      "token_acc": 0.48353169111541655
+    },
+    {
+      "epoch": 0.6604747162022704,
+      "grad_norm": 0.3332395851612091,
+      "learning_rate": 0.0002735011993187258,
+      "loss": 2.3328959941864014,
+      "step": 1440,
+      "token_acc": 0.4924487594390507
+    },
+    {
+      "epoch": 0.660933379199633,
+      "grad_norm": 0.3400273323059082,
+      "learning_rate": 0.0002728393296415042,
+      "loss": 2.4805774688720703,
+      "step": 1441,
+      "token_acc": 0.4797752808988764
+    },
+    {
+      "epoch": 0.6613920421969958,
+      "grad_norm": 0.3502805829048157,
+      "learning_rate": 0.00027217796116543817,
+      "loss": 2.3786067962646484,
+      "step": 1442,
+      "token_acc": 0.48995756718528993
+    },
+    {
+      "epoch": 0.6618507051943584,
+      "grad_norm": 0.34918177127838135,
+      "learning_rate": 0.0002715170953497532,
+      "loss": 2.3213648796081543,
+      "step": 1443,
+      "token_acc": 0.49514563106796117
+    },
+    {
+      "epoch": 0.6623093681917211,
+      "grad_norm": 0.33220669627189636,
+      "learning_rate": 0.00027085673365256614,
+      "loss": 2.2478604316711426,
+      "step": 1444,
+      "token_acc": 0.5077363896848137
+    },
+    {
+      "epoch": 0.6627680311890838,
+      "grad_norm": 0.3283640444278717,
+      "learning_rate": 0.00027019687753088075,
+      "loss": 2.320185422897339,
+      "step": 1445,
+      "token_acc": 0.49673024523160764
+    },
+    {
+      "epoch": 0.6632266941864465,
+      "grad_norm": 0.3232027590274811,
+      "learning_rate": 0.00026953752844058597,
+      "loss": 2.4039063453674316,
+      "step": 1446,
+      "token_acc": 0.4829763866007688
+    },
+    {
+      "epoch": 0.6636853571838092,
+      "grad_norm": 0.33459722995758057,
+      "learning_rate": 0.0002688786878364516,
+      "loss": 2.453993320465088,
+      "step": 1447,
+      "token_acc": 0.481709019826864
+    },
+    {
+      "epoch": 0.6641440201811719,
+      "grad_norm": 0.36151182651519775,
+      "learning_rate": 0.00026822035717212597,
+      "loss": 2.2776594161987305,
+      "step": 1448,
+      "token_acc": 0.4980737479361585
+    },
+    {
+      "epoch": 0.6646026831785345,
+      "grad_norm": 0.32229289412498474,
+      "learning_rate": 0.00026756253790013193,
+      "loss": 2.382157802581787,
+      "step": 1449,
+      "token_acc": 0.48841698841698844
+    },
+    {
+      "epoch": 0.6650613461758973,
+      "grad_norm": 0.33439067006111145,
+      "learning_rate": 0.0002669052314718641,
+      "loss": 2.245457649230957,
+      "step": 1450,
+      "token_acc": 0.5142615080485738
+    },
+    {
+      "epoch": 0.6655200091732599,
+      "grad_norm": 0.3386085033416748,
+      "learning_rate": 0.0002662484393375855,
+      "loss": 2.3664112091064453,
+      "step": 1451,
+      "token_acc": 0.4907563025210084
+    },
+    {
+      "epoch": 0.6659786721706227,
+      "grad_norm": 0.3545595109462738,
+      "learning_rate": 0.00026559216294642446,
+      "loss": 2.3397302627563477,
+      "step": 1452,
+      "token_acc": 0.4932001110185956
+    },
+    {
+      "epoch": 0.6664373351679853,
+      "grad_norm": 0.32552570104599,
+      "learning_rate": 0.0002649364037463718,
+      "loss": 2.4264748096466064,
+      "step": 1453,
+      "token_acc": 0.48099829835507657
+    },
+    {
+      "epoch": 0.6668959981653481,
+      "grad_norm": 0.3284744918346405,
+      "learning_rate": 0.0002642811631842764,
+      "loss": 2.4170119762420654,
+      "step": 1454,
+      "token_acc": 0.48072051787222064
+    },
+    {
+      "epoch": 0.6673546611627107,
+      "grad_norm": 0.32984036207199097,
+      "learning_rate": 0.0002636264427058439,
+      "loss": 2.377608299255371,
+      "step": 1455,
+      "token_acc": 0.49892066918510525
+    },
+    {
+      "epoch": 0.6678133241600734,
+      "grad_norm": 0.34834277629852295,
+      "learning_rate": 0.00026297224375563123,
+      "loss": 2.2463531494140625,
+      "step": 1456,
+      "token_acc": 0.5002875215641173
+    },
+    {
+      "epoch": 0.6682719871574361,
+      "grad_norm": 0.3299846053123474,
+      "learning_rate": 0.00026231856777704575,
+      "loss": 2.4062135219573975,
+      "step": 1457,
+      "token_acc": 0.4804088586030664
+    },
+    {
+      "epoch": 0.6687306501547987,
+      "grad_norm": 0.36206936836242676,
+      "learning_rate": 0.00026166541621234026,
+      "loss": 2.3280835151672363,
+      "step": 1458,
+      "token_acc": 0.5056147422977253
+    },
+    {
+      "epoch": 0.6691893131521615,
+      "grad_norm": 0.3462112247943878,
+      "learning_rate": 0.00026101279050261045,
+      "loss": 2.3709912300109863,
+      "step": 1459,
+      "token_acc": 0.4866876610363584
+    },
+    {
+      "epoch": 0.6696479761495241,
+      "grad_norm": 0.3350227177143097,
+      "learning_rate": 0.00026036069208779247,
+      "loss": 2.3098535537719727,
+      "step": 1460,
+      "token_acc": 0.5071488645920942
+    },
+    {
+      "epoch": 0.6701066391468868,
+      "grad_norm": 0.35411742329597473,
+      "learning_rate": 0.0002597091224066581,
+      "loss": 2.4417033195495605,
+      "step": 1461,
+      "token_acc": 0.47085806799784136
+    },
+    {
+      "epoch": 0.6705653021442495,
+      "grad_norm": 0.3361799120903015,
+      "learning_rate": 0.00025905808289681365,
+      "loss": 2.261319160461426,
+      "step": 1462,
+      "token_acc": 0.507722549845549
+    },
+    {
+      "epoch": 0.6710239651416122,
+      "grad_norm": 0.36045587062835693,
+      "learning_rate": 0.0002584075749946946,
+      "loss": 2.4379801750183105,
+      "step": 1463,
+      "token_acc": 0.48335183129855713
+    },
+    {
+      "epoch": 0.6714826281389749,
+      "grad_norm": 0.3445369303226471,
+      "learning_rate": 0.00025775760013556424,
+      "loss": 2.475827217102051,
+      "step": 1464,
+      "token_acc": 0.47835926449787836
+    },
+    {
+      "epoch": 0.6719412911363376,
+      "grad_norm": 0.3342587947845459,
+      "learning_rate": 0.0002571081597535095,
+      "loss": 2.498302936553955,
+      "step": 1465,
+      "token_acc": 0.46957708049113234
+    },
+    {
+      "epoch": 0.6723999541337002,
+      "grad_norm": 0.32142579555511475,
+      "learning_rate": 0.00025645925528143776,
+      "loss": 2.397772789001465,
+      "step": 1466,
+      "token_acc": 0.4822791712104689
+    },
+    {
+      "epoch": 0.672858617131063,
+      "grad_norm": 0.3359048068523407,
+      "learning_rate": 0.0002558108881510747,
+      "loss": 2.501614809036255,
+      "step": 1467,
+      "token_acc": 0.46936008676789587
+    },
+    {
+      "epoch": 0.6733172801284256,
+      "grad_norm": 0.328414648771286,
+      "learning_rate": 0.00025516305979295963,
+      "loss": 2.350132942199707,
+      "step": 1468,
+      "token_acc": 0.49167349167349167
+    },
+    {
+      "epoch": 0.6737759431257884,
+      "grad_norm": 0.327379435300827,
+      "learning_rate": 0.0002545157716364439,
+      "loss": 2.3491439819335938,
+      "step": 1469,
+      "token_acc": 0.5065075921908894
+    },
+    {
+      "epoch": 0.674234606123151,
+      "grad_norm": 0.34349262714385986,
+      "learning_rate": 0.00025386902510968624,
+      "loss": 2.3576996326446533,
+      "step": 1470,
+      "token_acc": 0.4818005001389275
+    },
+    {
+      "epoch": 0.6746932691205138,
+      "grad_norm": 0.3329917788505554,
+      "learning_rate": 0.00025322282163965095,
+      "loss": 2.302304744720459,
+      "step": 1471,
+      "token_acc": 0.5014269406392694
+    },
+    {
+      "epoch": 0.6751519321178764,
+      "grad_norm": 0.3439604640007019,
+      "learning_rate": 0.00025257716265210384,
+      "loss": 2.515772581100464,
+      "step": 1472,
+      "token_acc": 0.4589358799454297
+    },
+    {
+      "epoch": 0.6756105951152391,
+      "grad_norm": 0.34442853927612305,
+      "learning_rate": 0.0002519320495716091,
+      "loss": 2.254587173461914,
+      "step": 1473,
+      "token_acc": 0.514854260089686
+    },
+    {
+      "epoch": 0.6760692581126018,
+      "grad_norm": 0.33922451734542847,
+      "learning_rate": 0.00025128748382152716,
+      "loss": 2.350156784057617,
+      "step": 1474,
+      "token_acc": 0.475619949846754
+    },
+    {
+      "epoch": 0.6765279211099644,
+      "grad_norm": 0.3449372947216034,
+      "learning_rate": 0.00025064346682401016,
+      "loss": 2.2954864501953125,
+      "step": 1475,
+      "token_acc": 0.4883116883116883
+    },
+    {
+      "epoch": 0.6769865841073271,
+      "grad_norm": 0.33519020676612854,
+      "learning_rate": 0.0002500000000000001,
+      "loss": 2.285968065261841,
+      "step": 1476,
+      "token_acc": 0.49436348638988176
+    },
+    {
+      "epoch": 0.6774452471046898,
+      "grad_norm": 0.366726279258728,
+      "learning_rate": 0.0002493570847692246,
+      "loss": 2.3989076614379883,
+      "step": 1477,
+      "token_acc": 0.48774795799299886
+    },
+    {
+      "epoch": 0.6779039101020525,
+      "grad_norm": 0.35372060537338257,
+      "learning_rate": 0.00024871472255019424,
+      "loss": 2.466765880584717,
+      "step": 1478,
+      "token_acc": 0.46937590711175614
+    },
+    {
+      "epoch": 0.6783625730994152,
+      "grad_norm": 0.35887521505355835,
+      "learning_rate": 0.00024807291476019994,
+      "loss": 2.4246630668640137,
+      "step": 1479,
+      "token_acc": 0.48754951895868703
+    },
+    {
+      "epoch": 0.6788212360967779,
+      "grad_norm": 0.3558376431465149,
+      "learning_rate": 0.00024743166281530877,
+      "loss": 2.2123970985412598,
+      "step": 1480,
+      "token_acc": 0.5213283710277699
+    },
+    {
+      "epoch": 0.6792798990941405,
+      "grad_norm": 0.3533353805541992,
+      "learning_rate": 0.000246790968130362,
+      "loss": 2.412726640701294,
+      "step": 1481,
+      "token_acc": 0.47968430283542823
+    },
+    {
+      "epoch": 0.6797385620915033,
+      "grad_norm": 0.338015615940094,
+      "learning_rate": 0.0002461508321189706,
+      "loss": 2.3070504665374756,
+      "step": 1482,
+      "token_acc": 0.4854341736694678
+    },
+    {
+      "epoch": 0.6801972250888659,
+      "grad_norm": 0.3468375504016876,
+      "learning_rate": 0.00024551125619351385,
+      "loss": 2.454956531524658,
+      "step": 1483,
+      "token_acc": 0.4814106068890104
+    },
+    {
+      "epoch": 0.6806558880862287,
+      "grad_norm": 0.31844574213027954,
+      "learning_rate": 0.00024487224176513453,
+      "loss": 2.303147315979004,
+      "step": 1484,
+      "token_acc": 0.48534385569334837
+    },
+    {
+      "epoch": 0.6811145510835913,
+      "grad_norm": 0.313986599445343,
+      "learning_rate": 0.0002442337902437365,
+      "loss": 2.339278221130371,
+      "step": 1485,
+      "token_acc": 0.5069817400644469
+    },
+    {
+      "epoch": 0.6815732140809541,
+      "grad_norm": 0.3568921685218811,
+      "learning_rate": 0.0002435959030379824,
+      "loss": 2.229948043823242,
+      "step": 1486,
+      "token_acc": 0.5117331071529545
+    },
+    {
+      "epoch": 0.6820318770783167,
+      "grad_norm": 0.34503602981567383,
+      "learning_rate": 0.00024295858155528888,
+      "loss": 2.3662681579589844,
+      "step": 1487,
+      "token_acc": 0.4761251372118551
+    },
+    {
+      "epoch": 0.6824905400756794,
+      "grad_norm": 0.35981976985931396,
+      "learning_rate": 0.00024232182720182523,
+      "loss": 2.429936408996582,
+      "step": 1488,
+      "token_acc": 0.479343520090549
+    },
+    {
+      "epoch": 0.6829492030730421,
+      "grad_norm": 0.35146617889404297,
+      "learning_rate": 0.00024168564138250855,
+      "loss": 2.4169921875,
+      "step": 1489,
+      "token_acc": 0.48028477546549836
+    },
+    {
+      "epoch": 0.6834078660704048,
+      "grad_norm": 0.338421106338501,
+      "learning_rate": 0.00024105002550100246,
+      "loss": 2.2379231452941895,
+      "step": 1490,
+      "token_acc": 0.5088534107402032
+    },
+    {
+      "epoch": 0.6838665290677675,
+      "grad_norm": 0.3549973964691162,
+      "learning_rate": 0.00024041498095971254,
+      "loss": 2.387535333633423,
+      "step": 1491,
+      "token_acc": 0.4848569046957488
+    },
+    {
+      "epoch": 0.6843251920651301,
+      "grad_norm": 0.3511679768562317,
+      "learning_rate": 0.0002397805091597835,
+      "loss": 2.4333364963531494,
+      "step": 1492,
+      "token_acc": 0.48010973936899864
+    },
+    {
+      "epoch": 0.6847838550624928,
+      "grad_norm": 0.355552077293396,
+      "learning_rate": 0.0002391466115010973,
+      "loss": 2.326216697692871,
+      "step": 1493,
+      "token_acc": 0.48661731207289294
+    },
+    {
+      "epoch": 0.6852425180598555,
+      "grad_norm": 0.3562723994255066,
+      "learning_rate": 0.00023851328938226808,
+      "loss": 2.3644156455993652,
+      "step": 1494,
+      "token_acc": 0.497971328103868
+    },
+    {
+      "epoch": 0.6857011810572182,
+      "grad_norm": 0.32964444160461426,
+      "learning_rate": 0.00023788054420064109,
+      "loss": 2.3610994815826416,
+      "step": 1495,
+      "token_acc": 0.4924565898092798
+    },
+    {
+      "epoch": 0.6861598440545809,
+      "grad_norm": 0.37209513783454895,
+      "learning_rate": 0.00023724837735228773,
+      "loss": 2.3160383701324463,
+      "step": 1496,
+      "token_acc": 0.49870354364736386
+    },
+    {
+      "epoch": 0.6866185070519436,
+      "grad_norm": 0.32344546914100647,
+      "learning_rate": 0.00023661679023200422,
+      "loss": 2.201646327972412,
+      "step": 1497,
+      "token_acc": 0.5107933837959069
+    },
+    {
+      "epoch": 0.6870771700493062,
+      "grad_norm": 0.32305777072906494,
+      "learning_rate": 0.00023598578423330714,
+      "loss": 2.4933509826660156,
+      "step": 1498,
+      "token_acc": 0.46548004314994607
+    },
+    {
+      "epoch": 0.687535833046669,
+      "grad_norm": 0.3323233723640442,
+      "learning_rate": 0.00023535536074843083,
+      "loss": 2.3102240562438965,
+      "step": 1499,
+      "token_acc": 0.49496872450367146
+    },
+    {
+      "epoch": 0.6879944960440316,
+      "grad_norm": 0.334379106760025,
+      "learning_rate": 0.00023472552116832502,
+      "loss": 2.514124870300293,
+      "step": 1500,
+      "token_acc": 0.4649545211342964
+    },
+    {
+      "epoch": 0.6884531590413944,
+      "grad_norm": 0.32077348232269287,
+      "learning_rate": 0.0002340962668826503,
+      "loss": 2.369551181793213,
+      "step": 1501,
+      "token_acc": 0.48006833712984054
+    },
+    {
+      "epoch": 0.688911822038757,
+      "grad_norm": 0.3339844346046448,
+      "learning_rate": 0.00023346759927977663,
+      "loss": 2.363593578338623,
+      "step": 1502,
+      "token_acc": 0.4962901896125309
+    },
+    {
+      "epoch": 0.6893704850361198,
+      "grad_norm": 0.33760666847229004,
+      "learning_rate": 0.0002328395197467789,
+      "loss": 2.3581886291503906,
+      "step": 1503,
+      "token_acc": 0.490862364363221
+    },
+    {
+      "epoch": 0.6898291480334824,
+      "grad_norm": 0.3430006504058838,
+      "learning_rate": 0.00023221202966943515,
+      "loss": 2.400117874145508,
+      "step": 1504,
+      "token_acc": 0.48106591865357645
+    },
+    {
+      "epoch": 0.6902878110308451,
+      "grad_norm": 0.31739991903305054,
+      "learning_rate": 0.0002315851304322223,
+      "loss": 2.3944246768951416,
+      "step": 1505,
+      "token_acc": 0.49172642029784885
+    },
+    {
+      "epoch": 0.6907464740282078,
+      "grad_norm": 0.3356907367706299,
+      "learning_rate": 0.0002309588234183137,
+      "loss": 2.327662467956543,
+      "step": 1506,
+      "token_acc": 0.4897959183673469
+    },
+    {
+      "epoch": 0.6912051370255705,
+      "grad_norm": 0.337432324886322,
+      "learning_rate": 0.00023033311000957653,
+      "loss": 2.3485326766967773,
+      "step": 1507,
+      "token_acc": 0.4802213001383126
+    },
+    {
+      "epoch": 0.6916638000229332,
+      "grad_norm": 0.35430288314819336,
+      "learning_rate": 0.00022970799158656758,
+      "loss": 2.3862409591674805,
+      "step": 1508,
+      "token_acc": 0.4883788495061011
+    },
+    {
+      "epoch": 0.6921224630202958,
+      "grad_norm": 0.3189259469509125,
+      "learning_rate": 0.0002290834695285316,
+      "loss": 2.318734884262085,
+      "step": 1509,
+      "token_acc": 0.5015641293013556
+    },
+    {
+      "epoch": 0.6925811260176585,
+      "grad_norm": 0.3486538529396057,
+      "learning_rate": 0.00022845954521339678,
+      "loss": 2.3482823371887207,
+      "step": 1510,
+      "token_acc": 0.48900789177001125
+    },
+    {
+      "epoch": 0.6930397890150212,
+      "grad_norm": 0.35996153950691223,
+      "learning_rate": 0.0002278362200177732,
+      "loss": 2.417691230773926,
+      "step": 1511,
+      "token_acc": 0.48901569186875893
+    },
+    {
+      "epoch": 0.6934984520123839,
+      "grad_norm": 0.3472958207130432,
+      "learning_rate": 0.00022721349531694852,
+      "loss": 2.315305709838867,
+      "step": 1512,
+      "token_acc": 0.49136008918617613
+    },
+    {
+      "epoch": 0.6939571150097466,
+      "grad_norm": 0.3579290509223938,
+      "learning_rate": 0.0002265913724848855,
+      "loss": 2.3845529556274414,
+      "step": 1513,
+      "token_acc": 0.4862791383889053
+    },
+    {
+      "epoch": 0.6944157780071093,
+      "grad_norm": 0.3245769739151001,
+      "learning_rate": 0.00022596985289421946,
+      "loss": 2.4838666915893555,
+      "step": 1514,
+      "token_acc": 0.4803063457330416
+    },
+    {
+      "epoch": 0.6948744410044719,
+      "grad_norm": 0.3510947823524475,
+      "learning_rate": 0.00022534893791625405,
+      "loss": 2.355891466140747,
+      "step": 1515,
+      "token_acc": 0.49679397825480903
+    },
+    {
+      "epoch": 0.6953331040018347,
+      "grad_norm": 0.327653169631958,
+      "learning_rate": 0.00022472862892095968,
+      "loss": 2.4002974033355713,
+      "step": 1516,
+      "token_acc": 0.4853392907009215
+    },
+    {
+      "epoch": 0.6957917669991973,
+      "grad_norm": 0.32736408710479736,
+      "learning_rate": 0.00022410892727696896,
+      "loss": 2.4073326587677,
+      "step": 1517,
+      "token_acc": 0.4921304103428893
+    },
+    {
+      "epoch": 0.6962504299965601,
+      "grad_norm": 0.3398886024951935,
+      "learning_rate": 0.0002234898343515751,
+      "loss": 2.4565858840942383,
+      "step": 1518,
+      "token_acc": 0.4765854963874766
+    },
+    {
+      "epoch": 0.6967090929939227,
+      "grad_norm": 0.3381604552268982,
+      "learning_rate": 0.00022287135151072792,
+      "loss": 2.3410589694976807,
+      "step": 1519,
+      "token_acc": 0.4873125720876586
+    },
+    {
+      "epoch": 0.6971677559912854,
+      "grad_norm": 0.34329554438591003,
+      "learning_rate": 0.00022225348011903096,
+      "loss": 2.3413262367248535,
+      "step": 1520,
+      "token_acc": 0.49366375668825685
+    },
+    {
+      "epoch": 0.6976264189886481,
+      "grad_norm": 0.32418933510780334,
+      "learning_rate": 0.0002216362215397393,
+      "loss": 2.3659088611602783,
+      "step": 1521,
+      "token_acc": 0.4886082898709854
+    },
+    {
+      "epoch": 0.6980850819860108,
+      "grad_norm": 0.3371358811855316,
+      "learning_rate": 0.00022101957713475522,
+      "loss": 2.352426290512085,
+      "step": 1522,
+      "token_acc": 0.4858125537403267
+    },
+    {
+      "epoch": 0.6985437449833735,
+      "grad_norm": 0.33461418747901917,
+      "learning_rate": 0.00022040354826462666,
+      "loss": 2.4209957122802734,
+      "step": 1523,
+      "token_acc": 0.4801223241590214
+    },
+    {
+      "epoch": 0.6990024079807362,
+      "grad_norm": 0.33934280276298523,
+      "learning_rate": 0.0002197881362885426,
+      "loss": 2.3614234924316406,
+      "step": 1524,
+      "token_acc": 0.49208515283842796
+    },
+    {
+      "epoch": 0.6994610709780988,
+      "grad_norm": 0.3302291929721832,
+      "learning_rate": 0.0002191733425643318,
+      "loss": 2.3257555961608887,
+      "step": 1525,
+      "token_acc": 0.5002832861189802
+    },
+    {
+      "epoch": 0.6999197339754615,
+      "grad_norm": 0.3377806842327118,
+      "learning_rate": 0.00021855916844845826,
+      "loss": 2.3069403171539307,
+      "step": 1526,
+      "token_acc": 0.49720982142857145
+    },
+    {
+      "epoch": 0.7003783969728242,
+      "grad_norm": 0.3423719108104706,
+      "learning_rate": 0.00021794561529601898,
+      "loss": 2.3746275901794434,
+      "step": 1527,
+      "token_acc": 0.48451576576576577
+    },
+    {
+      "epoch": 0.7008370599701869,
+      "grad_norm": 0.35406455397605896,
+      "learning_rate": 0.00021733268446074138,
+      "loss": 2.2250373363494873,
+      "step": 1528,
+      "token_acc": 0.5114893617021277
+    },
+    {
+      "epoch": 0.7012957229675496,
+      "grad_norm": 0.3499007225036621,
+      "learning_rate": 0.00021672037729497917,
+      "loss": 2.437242269515991,
+      "step": 1529,
+      "token_acc": 0.48740658732355385
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 0.3445296585559845,
+      "learning_rate": 0.0002161086951497106,
+      "loss": 2.425785541534424,
+      "step": 1530,
+      "token_acc": 0.4908503767491927
+    },
+    {
+      "epoch": 0.702213048962275,
+      "grad_norm": 0.3611782193183899,
+      "learning_rate": 0.00021549763937453442,
+      "loss": 2.3834478855133057,
+      "step": 1531,
+      "token_acc": 0.4848153214774282
+    },
+    {
+      "epoch": 0.7026717119596376,
+      "grad_norm": 0.3537669777870178,
+      "learning_rate": 0.00021488721131766736,
+      "loss": 2.257786273956299,
+      "step": 1532,
+      "token_acc": 0.5002805836139169
+    },
+    {
+      "epoch": 0.7031303749570004,
+      "grad_norm": 0.343782901763916,
+      "learning_rate": 0.00021427741232594183,
+      "loss": 2.386030912399292,
+      "step": 1533,
+      "token_acc": 0.47651195499296767
+    },
+    {
+      "epoch": 0.703589037954363,
+      "grad_norm": 0.3596150875091553,
+      "learning_rate": 0.0002136682437448013,
+      "loss": 2.3823487758636475,
+      "step": 1534,
+      "token_acc": 0.4835408022130014
+    },
+    {
+      "epoch": 0.7040477009517258,
+      "grad_norm": 0.35633689165115356,
+      "learning_rate": 0.0002130597069182994,
+      "loss": 2.4964325428009033,
+      "step": 1535,
+      "token_acc": 0.4711348915798367
+    },
+    {
+      "epoch": 0.7045063639490884,
+      "grad_norm": 0.35173147916793823,
+      "learning_rate": 0.0002124518031890948,
+      "loss": 2.4514927864074707,
+      "step": 1536,
+      "token_acc": 0.47945945945945945
+    },
+    {
+      "epoch": 0.7049650269464511,
+      "grad_norm": 0.316037654876709,
+      "learning_rate": 0.0002118445338984502,
+      "loss": 2.3340044021606445,
+      "step": 1537,
+      "token_acc": 0.48456449834619625
+    },
+    {
+      "epoch": 0.7054236899438138,
+      "grad_norm": 0.3303672969341278,
+      "learning_rate": 0.00021123790038622808,
+      "loss": 2.297034978866577,
+      "step": 1538,
+      "token_acc": 0.5033670033670034
+    },
+    {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 0.34590238332748413,
+      "learning_rate": 0.0002106319039908879,
+      "loss": 2.3945984840393066,
+      "step": 1539,
+      "token_acc": 0.49217002237136465
+    },
+    {
+      "epoch": 0.7063410159385392,
+      "grad_norm": 0.3515450060367584,
+      "learning_rate": 0.00021002654604948412,
+      "loss": 2.2335052490234375,
+      "step": 1540,
+      "token_acc": 0.5028216704288939
+    },
+    {
+      "epoch": 0.7067996789359019,
+      "grad_norm": 0.35775527358055115,
+      "learning_rate": 0.00020942182789766172,
+      "loss": 2.2620928287506104,
+      "step": 1541,
+      "token_acc": 0.5074879909578978
+    },
+    {
+      "epoch": 0.7072583419332645,
+      "grad_norm": 0.3592069745063782,
+      "learning_rate": 0.00020881775086965492,
+      "loss": 2.3670907020568848,
+      "step": 1542,
+      "token_acc": 0.4849072279147051
+    },
+    {
+      "epoch": 0.7077170049306272,
+      "grad_norm": 0.32948219776153564,
+      "learning_rate": 0.00020821431629828246,
+      "loss": 2.398244857788086,
+      "step": 1543,
+      "token_acc": 0.4889253486464315
+    },
+    {
+      "epoch": 0.7081756679279899,
+      "grad_norm": 0.3307759463787079,
+      "learning_rate": 0.00020761152551494643,
+      "loss": 2.2044475078582764,
+      "step": 1544,
+      "token_acc": 0.5060406370126305
+    },
+    {
+      "epoch": 0.7086343309253526,
+      "grad_norm": 0.3441196084022522,
+      "learning_rate": 0.00020700937984962798,
+      "loss": 2.3607406616210938,
+      "step": 1545,
+      "token_acc": 0.49596437517394937
+    },
+    {
+      "epoch": 0.7090929939227153,
+      "grad_norm": 0.3729856610298157,
+      "learning_rate": 0.0002064078806308848,
+      "loss": 2.3864150047302246,
+      "step": 1546,
+      "token_acc": 0.49802594472645234
+    },
+    {
+      "epoch": 0.7095516569200779,
+      "grad_norm": 0.3341358006000519,
+      "learning_rate": 0.00020580702918584882,
+      "loss": 2.330585479736328,
+      "step": 1547,
+      "token_acc": 0.49930843706777317
+    },
+    {
+      "epoch": 0.7100103199174407,
+      "grad_norm": 0.35409462451934814,
+      "learning_rate": 0.000205206826840222,
+      "loss": 2.2961018085479736,
+      "step": 1548,
+      "token_acc": 0.503919372900336
+    },
+    {
+      "epoch": 0.7104689829148033,
+      "grad_norm": 0.3554162085056305,
+      "learning_rate": 0.0002046072749182751,
+      "loss": 2.4137563705444336,
+      "step": 1549,
+      "token_acc": 0.47774979009235935
+    },
+    {
+      "epoch": 0.7109276459121661,
+      "grad_norm": 0.34207361936569214,
+      "learning_rate": 0.00020400837474284273,
+      "loss": 2.280057191848755,
+      "step": 1550,
+      "token_acc": 0.49105080831408776
+    },
+    {
+      "epoch": 0.7113863089095287,
+      "grad_norm": 0.33347874879837036,
+      "learning_rate": 0.0002034101276353224,
+      "loss": 2.4710445404052734,
+      "step": 1551,
+      "token_acc": 0.483665799363978
+    },
+    {
+      "epoch": 0.7118449719068914,
+      "grad_norm": 0.3239796459674835,
+      "learning_rate": 0.00020281253491567027,
+      "loss": 2.452528476715088,
+      "step": 1552,
+      "token_acc": 0.4867584745762712
+    },
+    {
+      "epoch": 0.7123036349042541,
+      "grad_norm": 0.3422119915485382,
+      "learning_rate": 0.0002022155979023984,
+      "loss": 2.2803030014038086,
+      "step": 1553,
+      "token_acc": 0.5076380728554641
+    },
+    {
+      "epoch": 0.7127622979016168,
+      "grad_norm": 0.3353760242462158,
+      "learning_rate": 0.000201619317912573,
+      "loss": 2.3245232105255127,
+      "step": 1554,
+      "token_acc": 0.4958768554150632
+    },
+    {
+      "epoch": 0.7132209608989795,
+      "grad_norm": 0.3413839638233185,
+      "learning_rate": 0.00020102369626180962,
+      "loss": 2.4467058181762695,
+      "step": 1555,
+      "token_acc": 0.4770065695515567
+    },
+    {
+      "epoch": 0.7136796238963422,
+      "grad_norm": 0.33466485142707825,
+      "learning_rate": 0.0002004287342642721,
+      "loss": 2.2656667232513428,
+      "step": 1556,
+      "token_acc": 0.5104052573932092
+    },
+    {
+      "epoch": 0.7141382868937048,
+      "grad_norm": 0.3264230489730835,
+      "learning_rate": 0.00019983443323266824,
+      "loss": 2.381321668624878,
+      "step": 1557,
+      "token_acc": 0.47438063063063063
+    },
+    {
+      "epoch": 0.7145969498910676,
+      "grad_norm": 0.3395976424217224,
+      "learning_rate": 0.00019924079447824805,
+      "loss": 2.3830809593200684,
+      "step": 1558,
+      "token_acc": 0.5017064846416383
+    },
+    {
+      "epoch": 0.7150556128884302,
+      "grad_norm": 0.3445148766040802,
+      "learning_rate": 0.00019864781931079977,
+      "loss": 2.341043710708618,
+      "step": 1559,
+      "token_acc": 0.4858106209609441
+    },
+    {
+      "epoch": 0.7155142758857929,
+      "grad_norm": 0.35488107800483704,
+      "learning_rate": 0.00019805550903864773,
+      "loss": 2.412588596343994,
+      "step": 1560,
+      "token_acc": 0.504206393718452
+    },
+    {
+      "epoch": 0.7159729388831556,
+      "grad_norm": 0.3293531835079193,
+      "learning_rate": 0.00019746386496864948,
+      "loss": 2.461543321609497,
+      "step": 1561,
+      "token_acc": 0.47377232142857145
+    },
+    {
+      "epoch": 0.7164316018805182,
+      "grad_norm": 0.3348361849784851,
+      "learning_rate": 0.00019687288840619226,
+      "loss": 2.372575283050537,
+      "step": 1562,
+      "token_acc": 0.49392265193370166
+    },
+    {
+      "epoch": 0.716890264877881,
+      "grad_norm": 0.3561291992664337,
+      "learning_rate": 0.0001962825806551911,
+      "loss": 2.3713603019714355,
+      "step": 1563,
+      "token_acc": 0.4826606026151222
+    },
+    {
+      "epoch": 0.7173489278752436,
+      "grad_norm": 0.3244268596172333,
+      "learning_rate": 0.0001956929430180846,
+      "loss": 2.372830390930176,
+      "step": 1564,
+      "token_acc": 0.5014140271493213
+    },
+    {
+      "epoch": 0.7178075908726064,
+      "grad_norm": 0.34590813517570496,
+      "learning_rate": 0.00019510397679583374,
+      "loss": 2.3227691650390625,
+      "step": 1565,
+      "token_acc": 0.49501566505269157
+    },
+    {
+      "epoch": 0.718266253869969,
+      "grad_norm": 0.3508793115615845,
+      "learning_rate": 0.0001945156832879174,
+      "loss": 2.3720040321350098,
+      "step": 1566,
+      "token_acc": 0.49654178674351584
+    },
+    {
+      "epoch": 0.7187249168673318,
+      "grad_norm": 0.3506203293800354,
+      "learning_rate": 0.00019392806379233036,
+      "loss": 2.276287078857422,
+      "step": 1567,
+      "token_acc": 0.5031500572737686
+    },
+    {
+      "epoch": 0.7191835798646944,
+      "grad_norm": 0.33903056383132935,
+      "learning_rate": 0.00019334111960558065,
+      "loss": 2.350778102874756,
+      "step": 1568,
+      "token_acc": 0.49257567104511707
+    },
+    {
+      "epoch": 0.7196422428620571,
+      "grad_norm": 0.3471570611000061,
+      "learning_rate": 0.00019275485202268573,
+      "loss": 2.421555519104004,
+      "step": 1569,
+      "token_acc": 0.4855332047395977
+    },
+    {
+      "epoch": 0.7201009058594198,
+      "grad_norm": 0.3496105968952179,
+      "learning_rate": 0.00019216926233717085,
+      "loss": 2.3653883934020996,
+      "step": 1570,
+      "token_acc": 0.5016602102933038
+    },
+    {
+      "epoch": 0.7205595688567825,
+      "grad_norm": 0.33393850922584534,
+      "learning_rate": 0.00019158435184106498,
+      "loss": 2.3865904808044434,
+      "step": 1571,
+      "token_acc": 0.48361581920903957
+    },
+    {
+      "epoch": 0.7210182318541452,
+      "grad_norm": 0.3244492709636688,
+      "learning_rate": 0.00019100012182489905,
+      "loss": 2.3554043769836426,
+      "step": 1572,
+      "token_acc": 0.5023842917251052
+    },
+    {
+      "epoch": 0.7214768948515079,
+      "grad_norm": 0.3523988425731659,
+      "learning_rate": 0.00019041657357770226,
+      "loss": 2.2677834033966064,
+      "step": 1573,
+      "token_acc": 0.49451754385964913
+    },
+    {
+      "epoch": 0.7219355578488705,
+      "grad_norm": 0.34086042642593384,
+      "learning_rate": 0.00018983370838699943,
+      "loss": 2.3781309127807617,
+      "step": 1574,
+      "token_acc": 0.4931506849315068
+    },
+    {
+      "epoch": 0.7223942208462333,
+      "grad_norm": 0.34232792258262634,
+      "learning_rate": 0.00018925152753880892,
+      "loss": 2.3204708099365234,
+      "step": 1575,
+      "token_acc": 0.4876875176903481
+    },
+    {
+      "epoch": 0.7228528838435959,
+      "grad_norm": 0.3605189025402069,
+      "learning_rate": 0.00018867003231763847,
+      "loss": 2.368988513946533,
+      "step": 1576,
+      "token_acc": 0.4879089615931721
+    },
+    {
+      "epoch": 0.7233115468409586,
+      "grad_norm": 0.3460288643836975,
+      "learning_rate": 0.00018808922400648375,
+      "loss": 2.3541975021362305,
+      "step": 1577,
+      "token_acc": 0.4983277591973244
+    },
+    {
+      "epoch": 0.7237702098383213,
+      "grad_norm": 0.353070467710495,
+      "learning_rate": 0.00018750910388682428,
+      "loss": 2.3728508949279785,
+      "step": 1578,
+      "token_acc": 0.4813867576015914
+    },
+    {
+      "epoch": 0.7242288728356839,
+      "grad_norm": 0.33050358295440674,
+      "learning_rate": 0.00018692967323862125,
+      "loss": 2.3066554069519043,
+      "step": 1579,
+      "token_acc": 0.4960254372019078
+    },
+    {
+      "epoch": 0.7246875358330467,
+      "grad_norm": 0.3250425457954407,
+      "learning_rate": 0.00018635093334031517,
+      "loss": 2.3048601150512695,
+      "step": 1580,
+      "token_acc": 0.5002715915263444
+    },
+    {
+      "epoch": 0.7251461988304093,
+      "grad_norm": 0.3314255475997925,
+      "learning_rate": 0.00018577288546882165,
+      "loss": 2.3339643478393555,
+      "step": 1581,
+      "token_acc": 0.4863146253801493
+    },
+    {
+      "epoch": 0.7256048618277721,
+      "grad_norm": 0.3297326862812042,
+      "learning_rate": 0.00018519553089953023,
+      "loss": 2.338585615158081,
+      "step": 1582,
+      "token_acc": 0.4910414333706607
+    },
+    {
+      "epoch": 0.7260635248251347,
+      "grad_norm": 0.32463183999061584,
+      "learning_rate": 0.0001846188709063001,
+      "loss": 2.3846006393432617,
+      "step": 1583,
+      "token_acc": 0.4976705946834749
+    },
+    {
+      "epoch": 0.7265221878224974,
+      "grad_norm": 0.3435765206813812,
+      "learning_rate": 0.00018404290676145857,
+      "loss": 2.3555126190185547,
+      "step": 1584,
+      "token_acc": 0.4963687150837989
+    },
+    {
+      "epoch": 0.7269808508198601,
+      "grad_norm": 0.34066885709762573,
+      "learning_rate": 0.00018346763973579722,
+      "loss": 2.3701300621032715,
+      "step": 1585,
+      "token_acc": 0.48135964912280704
+    },
+    {
+      "epoch": 0.7274395138172228,
+      "grad_norm": 0.3243306875228882,
+      "learning_rate": 0.00018289307109856939,
+      "loss": 2.4006075859069824,
+      "step": 1586,
+      "token_acc": 0.4846322722283205
+    },
+    {
+      "epoch": 0.7278981768145855,
+      "grad_norm": 0.33059221506118774,
+      "learning_rate": 0.0001823192021174882,
+      "loss": 2.216521739959717,
+      "step": 1587,
+      "token_acc": 0.5285921625544268
+    },
+    {
+      "epoch": 0.7283568398119482,
+      "grad_norm": 0.33596155047416687,
+      "learning_rate": 0.0001817460340587223,
+      "loss": 2.277677059173584,
+      "step": 1588,
+      "token_acc": 0.4951130969003072
+    },
+    {
+      "epoch": 0.7288155028093108,
+      "grad_norm": 0.336929589509964,
+      "learning_rate": 0.00018117356818689445,
+      "loss": 2.3130226135253906,
+      "step": 1589,
+      "token_acc": 0.48497380755445274
+    },
+    {
+      "epoch": 0.7292741658066736,
+      "grad_norm": 0.3248392939567566,
+      "learning_rate": 0.00018060180576507756,
+      "loss": 2.337327241897583,
+      "step": 1590,
+      "token_acc": 0.4871099050203528
+    },
+    {
+      "epoch": 0.7297328288040362,
+      "grad_norm": 0.3442942798137665,
+      "learning_rate": 0.00018003074805479313,
+      "loss": 2.3693339824676514,
+      "step": 1591,
+      "token_acc": 0.49700598802395207
+    },
+    {
+      "epoch": 0.730191491801399,
+      "grad_norm": 0.33692827820777893,
+      "learning_rate": 0.00017946039631600724,
+      "loss": 2.255974769592285,
+      "step": 1592,
+      "token_acc": 0.5011148272017837
+    },
+    {
+      "epoch": 0.7306501547987616,
+      "grad_norm": 0.3444417715072632,
+      "learning_rate": 0.00017889075180712837,
+      "loss": 2.3173365592956543,
+      "step": 1593,
+      "token_acc": 0.48885172798216275
+    },
+    {
+      "epoch": 0.7311088177961242,
+      "grad_norm": 0.33369556069374084,
+      "learning_rate": 0.00017832181578500512,
+      "loss": 2.346073627471924,
+      "step": 1594,
+      "token_acc": 0.4939385396109388
+    },
+    {
+      "epoch": 0.731567480793487,
+      "grad_norm": 0.33577340841293335,
+      "learning_rate": 0.0001777535895049221,
+      "loss": 2.3433032035827637,
+      "step": 1595,
+      "token_acc": 0.48551724137931035
+    },
+    {
+      "epoch": 0.7320261437908496,
+      "grad_norm": 0.3291725516319275,
+      "learning_rate": 0.0001771860742205988,
+      "loss": 2.2765822410583496,
+      "step": 1596,
+      "token_acc": 0.5020990764063812
+    },
+    {
+      "epoch": 0.7324848067882124,
+      "grad_norm": 0.376070111989975,
+      "learning_rate": 0.00017661927118418525,
+      "loss": 2.312075138092041,
+      "step": 1597,
+      "token_acc": 0.4989974219421369
+    },
+    {
+      "epoch": 0.732943469785575,
+      "grad_norm": 0.3297310173511505,
+      "learning_rate": 0.00017605318164626066,
+      "loss": 2.277297019958496,
+      "step": 1598,
+      "token_acc": 0.49313533202577753
+    },
+    {
+      "epoch": 0.7334021327829378,
+      "grad_norm": 0.3394879698753357,
+      "learning_rate": 0.00017548780685582949,
+      "loss": 2.226576328277588,
+      "step": 1599,
+      "token_acc": 0.5138967668746455
+    },
+    {
+      "epoch": 0.7338607957803004,
+      "grad_norm": 0.34047818183898926,
+      "learning_rate": 0.00017492314806031922,
+      "loss": 2.3251333236694336,
+      "step": 1600,
+      "token_acc": 0.5018471156578573
+    },
+    {
+      "epoch": 0.7343194587776631,
+      "grad_norm": 0.3686220645904541,
+      "learning_rate": 0.00017435920650557806,
+      "loss": 2.4146299362182617,
+      "step": 1601,
+      "token_acc": 0.48309583682592905
+    },
+    {
+      "epoch": 0.7347781217750258,
+      "grad_norm": 0.358632892370224,
+      "learning_rate": 0.00017379598343587112,
+      "loss": 2.2951266765594482,
+      "step": 1602,
+      "token_acc": 0.491167101071532
+    },
+    {
+      "epoch": 0.7352367847723885,
+      "grad_norm": 0.34073421359062195,
+      "learning_rate": 0.00017323348009387878,
+      "loss": 2.3231122493743896,
+      "step": 1603,
+      "token_acc": 0.5013269639065817
+    },
+    {
+      "epoch": 0.7356954477697512,
+      "grad_norm": 0.3511035442352295,
+      "learning_rate": 0.0001726716977206929,
+      "loss": 2.3894424438476562,
+      "step": 1604,
+      "token_acc": 0.4972482113373693
+    },
+    {
+      "epoch": 0.7361541107671139,
+      "grad_norm": 0.3712899386882782,
+      "learning_rate": 0.00017211063755581525,
+      "loss": 2.395988941192627,
+      "step": 1605,
+      "token_acc": 0.48674080410607357
+    },
+    {
+      "epoch": 0.7366127737644765,
+      "grad_norm": 0.36385780572891235,
+      "learning_rate": 0.0001715503008371536,
+      "loss": 2.4531800746917725,
+      "step": 1606,
+      "token_acc": 0.4788051209103841
+    },
+    {
+      "epoch": 0.7370714367618393,
+      "grad_norm": 0.33243218064308167,
+      "learning_rate": 0.0001709906888010196,
+      "loss": 2.358290672302246,
+      "step": 1607,
+      "token_acc": 0.4898346435348333
+    },
+    {
+      "epoch": 0.7375300997592019,
+      "grad_norm": 0.3312876522541046,
+      "learning_rate": 0.00017043180268212638,
+      "loss": 2.4274001121520996,
+      "step": 1608,
+      "token_acc": 0.48547149122807015
+    },
+    {
+      "epoch": 0.7379887627565647,
+      "grad_norm": 0.3236379027366638,
+      "learning_rate": 0.00016987364371358481,
+      "loss": 2.2879250049591064,
+      "step": 1609,
+      "token_acc": 0.5026484527460273
+    },
+    {
+      "epoch": 0.7384474257539273,
+      "grad_norm": 0.33778122067451477,
+      "learning_rate": 0.00016931621312690214,
+      "loss": 2.365924596786499,
+      "step": 1610,
+      "token_acc": 0.4877202349172451
+    },
+    {
+      "epoch": 0.7389060887512899,
+      "grad_norm": 0.3536229133605957,
+      "learning_rate": 0.00016875951215197777,
+      "loss": 2.430210590362549,
+      "step": 1611,
+      "token_acc": 0.4781292984869326
+    },
+    {
+      "epoch": 0.7393647517486527,
+      "grad_norm": 0.3440890908241272,
+      "learning_rate": 0.00016820354201710214,
+      "loss": 2.354444980621338,
+      "step": 1612,
+      "token_acc": 0.4990160247399494
+    },
+    {
+      "epoch": 0.7398234147460153,
+      "grad_norm": 0.3411904275417328,
+      "learning_rate": 0.00016764830394895203,
+      "loss": 2.356900215148926,
+      "step": 1613,
+      "token_acc": 0.5098039215686274
+    },
+    {
+      "epoch": 0.7402820777433781,
+      "grad_norm": 0.3271668255329132,
+      "learning_rate": 0.00016709379917259027,
+      "loss": 2.4466404914855957,
+      "step": 1614,
+      "token_acc": 0.4740494032750486
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.33035361766815186,
+      "learning_rate": 0.00016654002891146091,
+      "loss": 2.3966317176818848,
+      "step": 1615,
+      "token_acc": 0.4772117962466488
+    },
+    {
+      "epoch": 0.7411994037381034,
+      "grad_norm": 0.3406640589237213,
+      "learning_rate": 0.00016598699438738764,
+      "loss": 2.3563101291656494,
+      "step": 1616,
+      "token_acc": 0.49260943718021605
+    },
+    {
+      "epoch": 0.7416580667354661,
+      "grad_norm": 0.3380766808986664,
+      "learning_rate": 0.00016543469682057105,
+      "loss": 2.2576003074645996,
+      "step": 1617,
+      "token_acc": 0.5047806524184477
+    },
+    {
+      "epoch": 0.7421167297328288,
+      "grad_norm": 0.3740149736404419,
+      "learning_rate": 0.00016488313742958526,
+      "loss": 2.4218525886535645,
+      "step": 1618,
+      "token_acc": 0.48518518518518516
+    },
+    {
+      "epoch": 0.7425753927301915,
+      "grad_norm": 0.34136340022087097,
+      "learning_rate": 0.00016433231743137646,
+      "loss": 2.1876931190490723,
+      "step": 1619,
+      "token_acc": 0.5144557823129252
+    },
+    {
+      "epoch": 0.7430340557275542,
+      "grad_norm": 0.34627437591552734,
+      "learning_rate": 0.0001637822380412584,
+      "loss": 2.3639187812805176,
+      "step": 1620,
+      "token_acc": 0.48645690834473326
+    },
+    {
+      "epoch": 0.7434927187249168,
+      "grad_norm": 0.3551805913448334,
+      "learning_rate": 0.00016323290047291195,
+      "loss": 2.3327231407165527,
+      "step": 1621,
+      "token_acc": 0.49930996411813416
+    },
+    {
+      "epoch": 0.7439513817222796,
+      "grad_norm": 0.34675735235214233,
+      "learning_rate": 0.0001626843059383803,
+      "loss": 2.324911117553711,
+      "step": 1622,
+      "token_acc": 0.5029077817779009
+    },
+    {
+      "epoch": 0.7444100447196422,
+      "grad_norm": 0.3591375946998596,
+      "learning_rate": 0.00016213645564806752,
+      "loss": 2.391982078552246,
+      "step": 1623,
+      "token_acc": 0.48901569186875893
+    },
+    {
+      "epoch": 0.744868707717005,
+      "grad_norm": 0.3699428141117096,
+      "learning_rate": 0.0001615893508107359,
+      "loss": 2.393920421600342,
+      "step": 1624,
+      "token_acc": 0.4906636024130997
+    },
+    {
+      "epoch": 0.7453273707143676,
+      "grad_norm": 0.3355953097343445,
+      "learning_rate": 0.00016104299263350252,
+      "loss": 2.2541823387145996,
+      "step": 1625,
+      "token_acc": 0.5008547008547009
+    },
+    {
+      "epoch": 0.7457860337117304,
+      "grad_norm": 0.3346434235572815,
+      "learning_rate": 0.00016049738232183758,
+      "loss": 2.348360776901245,
+      "step": 1626,
+      "token_acc": 0.4935100800883734
+    },
+    {
+      "epoch": 0.746244696709093,
+      "grad_norm": 0.3336450755596161,
+      "learning_rate": 0.0001599525210795606,
+      "loss": 2.309814929962158,
+      "step": 1627,
+      "token_acc": 0.5
+    },
+    {
+      "epoch": 0.7467033597064556,
+      "grad_norm": 0.35335713624954224,
+      "learning_rate": 0.00015940841010883889,
+      "loss": 2.431572914123535,
+      "step": 1628,
+      "token_acc": 0.4797516996748448
+    },
+    {
+      "epoch": 0.7471620227038184,
+      "grad_norm": 0.34837087988853455,
+      "learning_rate": 0.00015886505061018413,
+      "loss": 2.192800998687744,
+      "step": 1629,
+      "token_acc": 0.5162764134780126
+    },
+    {
+      "epoch": 0.747620685701181,
+      "grad_norm": 0.34289252758026123,
+      "learning_rate": 0.0001583224437824498,
+      "loss": 2.3121328353881836,
+      "step": 1630,
+      "token_acc": 0.4976905311778291
+    },
+    {
+      "epoch": 0.7480793486985438,
+      "grad_norm": 0.35652846097946167,
+      "learning_rate": 0.0001577805908228293,
+      "loss": 2.348264694213867,
+      "step": 1631,
+      "token_acc": 0.500277932184547
+    },
+    {
+      "epoch": 0.7485380116959064,
+      "grad_norm": 0.3318858742713928,
+      "learning_rate": 0.00015723949292685191,
+      "loss": 2.397118091583252,
+      "step": 1632,
+      "token_acc": 0.4778809393773894
+    },
+    {
+      "epoch": 0.7489966746932691,
+      "grad_norm": 0.33221501111984253,
+      "learning_rate": 0.0001566991512883818,
+      "loss": 2.4133496284484863,
+      "step": 1633,
+      "token_acc": 0.4824134199134199
+    },
+    {
+      "epoch": 0.7494553376906318,
+      "grad_norm": 0.32519495487213135,
+      "learning_rate": 0.00015615956709961378,
+      "loss": 2.4071388244628906,
+      "step": 1634,
+      "token_acc": 0.4678346564467561
+    },
+    {
+      "epoch": 0.7499140006879945,
+      "grad_norm": 0.32279929518699646,
+      "learning_rate": 0.00015562074155107215,
+      "loss": 2.4226675033569336,
+      "step": 1635,
+      "token_acc": 0.4772550038991422
+    },
+    {
+      "epoch": 0.7503726636853572,
+      "grad_norm": 0.3303390145301819,
+      "learning_rate": 0.0001550826758316068,
+      "loss": 2.331573963165283,
+      "step": 1636,
+      "token_acc": 0.49709762532981533
+    },
+    {
+      "epoch": 0.7508313266827199,
+      "grad_norm": 0.32371798157691956,
+      "learning_rate": 0.00015454537112839122,
+      "loss": 2.3231453895568848,
+      "step": 1637,
+      "token_acc": 0.4886677722498618
+    },
+    {
+      "epoch": 0.7512899896800825,
+      "grad_norm": 0.3316543400287628,
+      "learning_rate": 0.00015400882862692033,
+      "loss": 2.4417612552642822,
+      "step": 1638,
+      "token_acc": 0.4853057982525814
+    },
+    {
+      "epoch": 0.7517486526774453,
+      "grad_norm": 0.3375518023967743,
+      "learning_rate": 0.00015347304951100665,
+      "loss": 2.2937893867492676,
+      "step": 1639,
+      "token_acc": 0.5012773204655123
+    },
+    {
+      "epoch": 0.7522073156748079,
+      "grad_norm": 0.3432401120662689,
+      "learning_rate": 0.00015293803496277907,
+      "loss": 2.42484450340271,
+      "step": 1640,
+      "token_acc": 0.4713467048710602
+    },
+    {
+      "epoch": 0.7526659786721707,
+      "grad_norm": 0.319578617811203,
+      "learning_rate": 0.00015240378616267886,
+      "loss": 2.2832694053649902,
+      "step": 1641,
+      "token_acc": 0.5053983075576306
+    },
+    {
+      "epoch": 0.7531246416695333,
+      "grad_norm": 0.3443111777305603,
+      "learning_rate": 0.00015187030428945843,
+      "loss": 2.1909384727478027,
+      "step": 1642,
+      "token_acc": 0.5245529378370707
+    },
+    {
+      "epoch": 0.753583304666896,
+      "grad_norm": 0.3458714783191681,
+      "learning_rate": 0.0001513375905201776,
+      "loss": 2.3498029708862305,
+      "step": 1643,
+      "token_acc": 0.4933481152993348
+    },
+    {
+      "epoch": 0.7540419676642587,
+      "grad_norm": 0.33867815136909485,
+      "learning_rate": 0.00015080564603020142,
+      "loss": 2.2973504066467285,
+      "step": 1644,
+      "token_acc": 0.48797939324556383
+    },
+    {
+      "epoch": 0.7545006306616213,
+      "grad_norm": 0.3546656370162964,
+      "learning_rate": 0.0001502744719931982,
+      "loss": 2.2942771911621094,
+      "step": 1645,
+      "token_acc": 0.5083926031294452
+    },
+    {
+      "epoch": 0.7549592936589841,
+      "grad_norm": 0.35301673412323,
+      "learning_rate": 0.00014974406958113558,
+      "loss": 2.418250560760498,
+      "step": 1646,
+      "token_acc": 0.4848998024273215
+    },
+    {
+      "epoch": 0.7554179566563467,
+      "grad_norm": 0.3369089961051941,
+      "learning_rate": 0.00014921443996427947,
+      "loss": 2.3584914207458496,
+      "step": 1647,
+      "token_acc": 0.48730684326710816
+    },
+    {
+      "epoch": 0.7558766196537094,
+      "grad_norm": 0.3427674174308777,
+      "learning_rate": 0.0001486855843111901,
+      "loss": 2.363612651824951,
+      "step": 1648,
+      "token_acc": 0.4835812517541398
+    },
+    {
+      "epoch": 0.7563352826510721,
+      "grad_norm": 0.3486386835575104,
+      "learning_rate": 0.0001481575037887201,
+      "loss": 2.3772430419921875,
+      "step": 1649,
+      "token_acc": 0.4865539229276407
+    },
+    {
+      "epoch": 0.7567939456484348,
+      "grad_norm": 0.3668610751628876,
+      "learning_rate": 0.00014763019956201253,
+      "loss": 2.3746743202209473,
+      "step": 1650,
+      "token_acc": 0.47448394495412843
+    },
+    {
+      "epoch": 0.7572526086457975,
+      "grad_norm": 0.33974599838256836,
+      "learning_rate": 0.0001471036727944966,
+      "loss": 2.320089340209961,
+      "step": 1651,
+      "token_acc": 0.4979056129572745
+    },
+    {
+      "epoch": 0.7577112716431602,
+      "grad_norm": 0.35869884490966797,
+      "learning_rate": 0.0001465779246478872,
+      "loss": 2.3279049396514893,
+      "step": 1652,
+      "token_acc": 0.5121255349500713
+    },
+    {
+      "epoch": 0.7581699346405228,
+      "grad_norm": 0.338882178068161,
+      "learning_rate": 0.00014605295628218045,
+      "loss": 2.339691638946533,
+      "step": 1653,
+      "token_acc": 0.5038932146829811
+    },
+    {
+      "epoch": 0.7586285976378856,
+      "grad_norm": 0.33764392137527466,
+      "learning_rate": 0.0001455287688556527,
+      "loss": 2.4369864463806152,
+      "step": 1654,
+      "token_acc": 0.48389806776813216
+    },
+    {
+      "epoch": 0.7590872606352482,
+      "grad_norm": 0.3276992738246918,
+      "learning_rate": 0.00014500536352485673,
+      "loss": 2.3020424842834473,
+      "step": 1655,
+      "token_acc": 0.5056863263686855
+    },
+    {
+      "epoch": 0.759545923632611,
+      "grad_norm": 0.33636221289634705,
+      "learning_rate": 0.00014448274144461965,
+      "loss": 2.2966909408569336,
+      "step": 1656,
+      "token_acc": 0.49840595111583424
+    },
+    {
+      "epoch": 0.7600045866299736,
+      "grad_norm": 0.3568006455898285,
+      "learning_rate": 0.00014396090376804112,
+      "loss": 2.2886438369750977,
+      "step": 1657,
+      "token_acc": 0.5066512434933488
+    },
+    {
+      "epoch": 0.7604632496273364,
+      "grad_norm": 0.34005752205848694,
+      "learning_rate": 0.00014343985164648926,
+      "loss": 2.286372661590576,
+      "step": 1658,
+      "token_acc": 0.505859375
+    },
+    {
+      "epoch": 0.760921912624699,
+      "grad_norm": 0.34000974893569946,
+      "learning_rate": 0.00014291958622959973,
+      "loss": 2.2969794273376465,
+      "step": 1659,
+      "token_acc": 0.4973396807616914
+    },
+    {
+      "epoch": 0.7613805756220617,
+      "grad_norm": 0.3271826505661011,
+      "learning_rate": 0.00014240010866527176,
+      "loss": 2.3477232456207275,
+      "step": 1660,
+      "token_acc": 0.48610339077265147
+    },
+    {
+      "epoch": 0.7618392386194244,
+      "grad_norm": 0.35196706652641296,
+      "learning_rate": 0.00014188142009966686,
+      "loss": 2.3699700832366943,
+      "step": 1661,
+      "token_acc": 0.5031935573451819
+    },
+    {
+      "epoch": 0.762297901616787,
+      "grad_norm": 0.3321390450000763,
+      "learning_rate": 0.0001413635216772053,
+      "loss": 2.358823776245117,
+      "step": 1662,
+      "token_acc": 0.4862359550561798
+    },
+    {
+      "epoch": 0.7627565646141498,
+      "grad_norm": 0.34531083703041077,
+      "learning_rate": 0.000140846414540564,
+      "loss": 2.335993766784668,
+      "step": 1663,
+      "token_acc": 0.49904397705544934
+    },
+    {
+      "epoch": 0.7632152276115124,
+      "grad_norm": 0.33894023299217224,
+      "learning_rate": 0.00014033009983067452,
+      "loss": 2.29191255569458,
+      "step": 1664,
+      "token_acc": 0.49839509775313684
+    },
+    {
+      "epoch": 0.7636738906088751,
+      "grad_norm": 0.35586610436439514,
+      "learning_rate": 0.00013981457868671927,
+      "loss": 2.3417396545410156,
+      "step": 1665,
+      "token_acc": 0.5037698966769059
+    },
+    {
+      "epoch": 0.7641325536062378,
+      "grad_norm": 0.3516406714916229,
+      "learning_rate": 0.0001392998522461305,
+      "loss": 2.3881053924560547,
+      "step": 1666,
+      "token_acc": 0.48619841486745013
+    },
+    {
+      "epoch": 0.7645912166036005,
+      "grad_norm": 0.3469773530960083,
+      "learning_rate": 0.00013878592164458635,
+      "loss": 2.3837761878967285,
+      "step": 1667,
+      "token_acc": 0.4947986129634569
+    },
+    {
+      "epoch": 0.7650498796009632,
+      "grad_norm": 0.3341671824455261,
+      "learning_rate": 0.00013827278801600978,
+      "loss": 2.206620693206787,
+      "step": 1668,
+      "token_acc": 0.5029804144195288
+    },
+    {
+      "epoch": 0.7655085425983259,
+      "grad_norm": 0.3586134910583496,
+      "learning_rate": 0.0001377604524925647,
+      "loss": 2.3467369079589844,
+      "step": 1669,
+      "token_acc": 0.493844049247606
+    },
+    {
+      "epoch": 0.7659672055956885,
+      "grad_norm": 0.36412379145622253,
+      "learning_rate": 0.00013724891620465424,
+      "loss": 2.3643879890441895,
+      "step": 1670,
+      "token_acc": 0.4979615608619686
+    },
+    {
+      "epoch": 0.7664258685930513,
+      "grad_norm": 0.3632110059261322,
+      "learning_rate": 0.0001367381802809185,
+      "loss": 2.387087345123291,
+      "step": 1671,
+      "token_acc": 0.4905117883841288
+    },
+    {
+      "epoch": 0.7668845315904139,
+      "grad_norm": 0.3365231156349182,
+      "learning_rate": 0.00013622824584823113,
+      "loss": 2.2920303344726562,
+      "step": 1672,
+      "token_acc": 0.4906409529211571
+    },
+    {
+      "epoch": 0.7673431945877767,
+      "grad_norm": 0.34381651878356934,
+      "learning_rate": 0.00013571911403169795,
+      "loss": 2.3355979919433594,
+      "step": 1673,
+      "token_acc": 0.48356279853891543
+    },
+    {
+      "epoch": 0.7678018575851393,
+      "grad_norm": 0.34178438782691956,
+      "learning_rate": 0.0001352107859546533,
+      "loss": 2.3413867950439453,
+      "step": 1674,
+      "token_acc": 0.4876543209876543
+    },
+    {
+      "epoch": 0.768260520582502,
+      "grad_norm": 0.33297041058540344,
+      "learning_rate": 0.00013470326273865886,
+      "loss": 2.281527519226074,
+      "step": 1675,
+      "token_acc": 0.5114698385726423
+    },
+    {
+      "epoch": 0.7687191835798647,
+      "grad_norm": 0.35832756757736206,
+      "learning_rate": 0.00013419654550349985,
+      "loss": 2.2990834712982178,
+      "step": 1676,
+      "token_acc": 0.4957241379310345
+    },
+    {
+      "epoch": 0.7691778465772274,
+      "grad_norm": 0.3447275757789612,
+      "learning_rate": 0.00013369063536718346,
+      "loss": 2.503087282180786,
+      "step": 1677,
+      "token_acc": 0.48016643550624133
+    },
+    {
+      "epoch": 0.7696365095745901,
+      "grad_norm": 0.3484703302383423,
+      "learning_rate": 0.00013318553344593632,
+      "loss": 2.3847875595092773,
+      "step": 1678,
+      "token_acc": 0.4852005532503458
+    },
+    {
+      "epoch": 0.7700951725719528,
+      "grad_norm": 0.35201093554496765,
+      "learning_rate": 0.00013268124085420136,
+      "loss": 2.257429599761963,
+      "step": 1679,
+      "token_acc": 0.5042114435085681
+    },
+    {
+      "epoch": 0.7705538355693154,
+      "grad_norm": 0.34060394763946533,
+      "learning_rate": 0.0001321777587046364,
+      "loss": 2.3270423412323,
+      "step": 1680,
+      "token_acc": 0.5045871559633027
+    },
+    {
+      "epoch": 0.7710124985666781,
+      "grad_norm": 0.3446199297904968,
+      "learning_rate": 0.00013167508810811059,
+      "loss": 2.4161674976348877,
+      "step": 1681,
+      "token_acc": 0.4771714922048998
+    },
+    {
+      "epoch": 0.7714711615640408,
+      "grad_norm": 0.3483222723007202,
+      "learning_rate": 0.0001311732301737029,
+      "loss": 2.374894857406616,
+      "step": 1682,
+      "token_acc": 0.4916851441241685
+    },
+    {
+      "epoch": 0.7719298245614035,
+      "grad_norm": 0.3286564350128174,
+      "learning_rate": 0.0001306721860086991,
+      "loss": 2.2757842540740967,
+      "step": 1683,
+      "token_acc": 0.49526643224235867
+    },
+    {
+      "epoch": 0.7723884875587662,
+      "grad_norm": 0.3671477735042572,
+      "learning_rate": 0.00013017195671858928,
+      "loss": 2.3948426246643066,
+      "step": 1684,
+      "token_acc": 0.4852036331673015
+    },
+    {
+      "epoch": 0.7728471505561288,
+      "grad_norm": 0.3347415328025818,
+      "learning_rate": 0.0001296725434070661,
+      "loss": 2.3400464057922363,
+      "step": 1685,
+      "token_acc": 0.4920417124039517
+    },
+    {
+      "epoch": 0.7733058135534916,
+      "grad_norm": 0.342963308095932,
+      "learning_rate": 0.00012917394717602121,
+      "loss": 2.3526370525360107,
+      "step": 1686,
+      "token_acc": 0.5030042918454936
+    },
+    {
+      "epoch": 0.7737644765508542,
+      "grad_norm": 0.34412896633148193,
+      "learning_rate": 0.00012867616912554426,
+      "loss": 2.28363299369812,
+      "step": 1687,
+      "token_acc": 0.5008469791078487
+    },
+    {
+      "epoch": 0.774223139548217,
+      "grad_norm": 0.34296438097953796,
+      "learning_rate": 0.00012817921035391882,
+      "loss": 2.4127960205078125,
+      "step": 1688,
+      "token_acc": 0.4781767955801105
+    },
+    {
+      "epoch": 0.7746818025455796,
+      "grad_norm": 0.3372040390968323,
+      "learning_rate": 0.00012768307195762168,
+      "loss": 2.3115837574005127,
+      "step": 1689,
+      "token_acc": 0.49806629834254146
+    },
+    {
+      "epoch": 0.7751404655429424,
+      "grad_norm": 0.3432585895061493,
+      "learning_rate": 0.00012718775503131908,
+      "loss": 2.322422504425049,
+      "step": 1690,
+      "token_acc": 0.48609534619750283
+    },
+    {
+      "epoch": 0.775599128540305,
+      "grad_norm": 0.34192076325416565,
+      "learning_rate": 0.0001266932606678646,
+      "loss": 2.339813232421875,
+      "step": 1691,
+      "token_acc": 0.49014162732574285
+    },
+    {
+      "epoch": 0.7760577915376677,
+      "grad_norm": 0.3507980406284332,
+      "learning_rate": 0.00012619958995829756,
+      "loss": 2.350595474243164,
+      "step": 1692,
+      "token_acc": 0.5005668934240363
+    },
+    {
+      "epoch": 0.7765164545350304,
+      "grad_norm": 0.3457689583301544,
+      "learning_rate": 0.0001257067439918394,
+      "loss": 2.4148173332214355,
+      "step": 1693,
+      "token_acc": 0.4861605919429981
+    },
+    {
+      "epoch": 0.7769751175323931,
+      "grad_norm": 0.34666144847869873,
+      "learning_rate": 0.00012521472385589234,
+      "loss": 2.3451433181762695,
+      "step": 1694,
+      "token_acc": 0.4931082981715893
+    },
+    {
+      "epoch": 0.7774337805297558,
+      "grad_norm": 0.35866957902908325,
+      "learning_rate": 0.00012472353063603626,
+      "loss": 2.4169321060180664,
+      "step": 1695,
+      "token_acc": 0.4840620592383639
+    },
+    {
+      "epoch": 0.7778924435271185,
+      "grad_norm": 0.3436647653579712,
+      "learning_rate": 0.0001242331654160263,
+      "loss": 2.3810629844665527,
+      "step": 1696,
+      "token_acc": 0.4892005610098177
+    },
+    {
+      "epoch": 0.7783511065244811,
+      "grad_norm": 0.3269905745983124,
+      "learning_rate": 0.0001237436292777914,
+      "loss": 2.253495693206787,
+      "step": 1697,
+      "token_acc": 0.5070035704476792
+    },
+    {
+      "epoch": 0.7788097695218438,
+      "grad_norm": 0.3635874390602112,
+      "learning_rate": 0.00012325492330143061,
+      "loss": 2.31325626373291,
+      "step": 1698,
+      "token_acc": 0.4897119341563786
+    },
+    {
+      "epoch": 0.7792684325192065,
+      "grad_norm": 0.35077953338623047,
+      "learning_rate": 0.00012276704856521175,
+      "loss": 2.426875114440918,
+      "step": 1699,
+      "token_acc": 0.4936111111111111
+    },
+    {
+      "epoch": 0.7797270955165692,
+      "grad_norm": 0.3359808027744293,
+      "learning_rate": 0.00012228000614556816,
+      "loss": 2.3770997524261475,
+      "step": 1700,
+      "token_acc": 0.4906427990235964
+    },
+    {
+      "epoch": 0.7801857585139319,
+      "grad_norm": 0.3486747443675995,
+      "learning_rate": 0.00012179379711709738,
+      "loss": 2.449178457260132,
+      "step": 1701,
+      "token_acc": 0.48500428449014565
+    },
+    {
+      "epoch": 0.7806444215112945,
+      "grad_norm": 0.33946412801742554,
+      "learning_rate": 0.0001213084225525577,
+      "loss": 2.387899160385132,
+      "step": 1702,
+      "token_acc": 0.48739495798319327
+    },
+    {
+      "epoch": 0.7811030845086573,
+      "grad_norm": 0.3201528787612915,
+      "learning_rate": 0.00012082388352286627,
+      "loss": 2.310896396636963,
+      "step": 1703,
+      "token_acc": 0.49347659247889486
+    },
+    {
+      "epoch": 0.7815617475060199,
+      "grad_norm": 0.33396804332733154,
+      "learning_rate": 0.00012034018109709716,
+      "loss": 2.34926700592041,
+      "step": 1704,
+      "token_acc": 0.488264192139738
+    },
+    {
+      "epoch": 0.7820204105033827,
+      "grad_norm": 0.3473016023635864,
+      "learning_rate": 0.00011985731634247809,
+      "loss": 2.287855386734009,
+      "step": 1705,
+      "token_acc": 0.4994266055045872
+    },
+    {
+      "epoch": 0.7824790735007453,
+      "grad_norm": 0.34904786944389343,
+      "learning_rate": 0.00011937529032438904,
+      "loss": 2.3916831016540527,
+      "step": 1706,
+      "token_acc": 0.4788009721847151
+    },
+    {
+      "epoch": 0.782937736498108,
+      "grad_norm": 0.3430524170398712,
+      "learning_rate": 0.00011889410410635887,
+      "loss": 2.364654064178467,
+      "step": 1707,
+      "token_acc": 0.4905233380480905
+    },
+    {
+      "epoch": 0.7833963994954707,
+      "grad_norm": 0.34083792567253113,
+      "learning_rate": 0.0001184137587500641,
+      "loss": 2.3570656776428223,
+      "step": 1708,
+      "token_acc": 0.49571673329525984
+    },
+    {
+      "epoch": 0.7838550624928334,
+      "grad_norm": 0.35375866293907166,
+      "learning_rate": 0.00011793425531532564,
+      "loss": 2.3988406658172607,
+      "step": 1709,
+      "token_acc": 0.4834792431516521
+    },
+    {
+      "epoch": 0.7843137254901961,
+      "grad_norm": 0.34956881403923035,
+      "learning_rate": 0.00011745559486010671,
+      "loss": 2.3135619163513184,
+      "step": 1710,
+      "token_acc": 0.5061391541609823
+    },
+    {
+      "epoch": 0.7847723884875588,
+      "grad_norm": 0.3417733907699585,
+      "learning_rate": 0.00011697777844051105,
+      "loss": 2.2443103790283203,
+      "step": 1711,
+      "token_acc": 0.5126003877042371
+    },
+    {
+      "epoch": 0.7852310514849214,
+      "grad_norm": 0.34329482913017273,
+      "learning_rate": 0.00011650080711077964,
+      "loss": 2.246236801147461,
+      "step": 1712,
+      "token_acc": 0.5015299026425591
+    },
+    {
+      "epoch": 0.7856897144822842,
+      "grad_norm": 0.34837251901626587,
+      "learning_rate": 0.00011602468192328936,
+      "loss": 2.3212029933929443,
+      "step": 1713,
+      "token_acc": 0.489900426742532
+    },
+    {
+      "epoch": 0.7861483774796468,
+      "grad_norm": 0.3719780147075653,
+      "learning_rate": 0.00011554940392854973,
+      "loss": 2.414048671722412,
+      "step": 1714,
+      "token_acc": 0.4816236972024136
+    },
+    {
+      "epoch": 0.7866070404770095,
+      "grad_norm": 0.3476426601409912,
+      "learning_rate": 0.00011507497417520146,
+      "loss": 2.2529282569885254,
+      "step": 1715,
+      "token_acc": 0.49886169607285147
+    },
+    {
+      "epoch": 0.7870657034743722,
+      "grad_norm": 0.3599509596824646,
+      "learning_rate": 0.00011460139371001339,
+      "loss": 2.354111433029175,
+      "step": 1716,
+      "token_acc": 0.49056603773584906
+    },
+    {
+      "epoch": 0.7875243664717348,
+      "grad_norm": 0.3389667570590973,
+      "learning_rate": 0.00011412866357788049,
+      "loss": 2.470759153366089,
+      "step": 1717,
+      "token_acc": 0.4695817490494297
+    },
+    {
+      "epoch": 0.7879830294690976,
+      "grad_norm": 0.3486955165863037,
+      "learning_rate": 0.00011365678482182207,
+      "loss": 2.301211357116699,
+      "step": 1718,
+      "token_acc": 0.5047701647875108
+    },
+    {
+      "epoch": 0.7884416924664602,
+      "grad_norm": 0.3415502905845642,
+      "learning_rate": 0.0001131857584829783,
+      "loss": 2.472989082336426,
+      "step": 1719,
+      "token_acc": 0.4710104914411927
+    },
+    {
+      "epoch": 0.788900355463823,
+      "grad_norm": 0.34041544795036316,
+      "learning_rate": 0.0001127155856006093,
+      "loss": 2.392775058746338,
+      "step": 1720,
+      "token_acc": 0.48413344182262
+    },
+    {
+      "epoch": 0.7893590184611856,
+      "grad_norm": 0.33902794122695923,
+      "learning_rate": 0.00011224626721209141,
+      "loss": 2.418940782546997,
+      "step": 1721,
+      "token_acc": 0.4759898904802022
+    },
+    {
+      "epoch": 0.7898176814585484,
+      "grad_norm": 0.3443155586719513,
+      "learning_rate": 0.0001117778043529164,
+      "loss": 2.402000904083252,
+      "step": 1722,
+      "token_acc": 0.4922237380627558
+    },
+    {
+      "epoch": 0.790276344455911,
+      "grad_norm": 0.3544413447380066,
+      "learning_rate": 0.0001113101980566879,
+      "loss": 2.2933928966522217,
+      "step": 1723,
+      "token_acc": 0.5071826443858106
+    },
+    {
+      "epoch": 0.7907350074532737,
+      "grad_norm": 0.3424176573753357,
+      "learning_rate": 0.00011084344935511958,
+      "loss": 2.3634321689605713,
+      "step": 1724,
+      "token_acc": 0.4850462207721588
+    },
+    {
+      "epoch": 0.7911936704506364,
+      "grad_norm": 0.3441798985004425,
+      "learning_rate": 0.00011037755927803345,
+      "loss": 2.347646713256836,
+      "step": 1725,
+      "token_acc": 0.4846867097499298
+    },
+    {
+      "epoch": 0.7916523334479991,
+      "grad_norm": 0.3441164493560791,
+      "learning_rate": 0.00010991252885335651,
+      "loss": 2.211894989013672,
+      "step": 1726,
+      "token_acc": 0.5045325779036827
+    },
+    {
+      "epoch": 0.7921109964453618,
+      "grad_norm": 0.3579557240009308,
+      "learning_rate": 0.00010944835910711958,
+      "loss": 2.359849214553833,
+      "step": 1727,
+      "token_acc": 0.48921266461193613
+    },
+    {
+      "epoch": 0.7925696594427245,
+      "grad_norm": 0.34293675422668457,
+      "learning_rate": 0.00010898505106345396,
+      "loss": 2.211099863052368,
+      "step": 1728,
+      "token_acc": 0.515036496350365
+    },
+    {
+      "epoch": 0.7930283224400871,
+      "grad_norm": 0.3516233563423157,
+      "learning_rate": 0.00010852260574459022,
+      "loss": 2.4274301528930664,
+      "step": 1729,
+      "token_acc": 0.4854368932038835
+    },
+    {
+      "epoch": 0.7934869854374499,
+      "grad_norm": 0.3459794223308563,
+      "learning_rate": 0.00010806102417085512,
+      "loss": 2.386627197265625,
+      "step": 1730,
+      "token_acc": 0.49475772173420235
+    },
+    {
+      "epoch": 0.7939456484348125,
+      "grad_norm": 0.3457988500595093,
+      "learning_rate": 0.00010760030736066951,
+      "loss": 2.354804277420044,
+      "step": 1731,
+      "token_acc": 0.49616858237547895
+    },
+    {
+      "epoch": 0.7944043114321752,
+      "grad_norm": 0.3403247892856598,
+      "learning_rate": 0.00010714045633054687,
+      "loss": 2.2822365760803223,
+      "step": 1732,
+      "token_acc": 0.5103236607142857
+    },
+    {
+      "epoch": 0.7948629744295379,
+      "grad_norm": 0.3442862331867218,
+      "learning_rate": 0.00010668147209508971,
+      "loss": 2.257420063018799,
+      "step": 1733,
+      "token_acc": 0.4980641592920354
+    },
+    {
+      "epoch": 0.7953216374269005,
+      "grad_norm": 0.348183274269104,
+      "learning_rate": 0.00010622335566698877,
+      "loss": 2.4369754791259766,
+      "step": 1734,
+      "token_acc": 0.4763768521107073
+    },
+    {
+      "epoch": 0.7957803004242633,
+      "grad_norm": 0.34758955240249634,
+      "learning_rate": 0.00010576610805701942,
+      "loss": 2.313093900680542,
+      "step": 1735,
+      "token_acc": 0.486039886039886
+    },
+    {
+      "epoch": 0.7962389634216259,
+      "grad_norm": 0.35387471318244934,
+      "learning_rate": 0.00010530973027404073,
+      "loss": 2.3149375915527344,
+      "step": 1736,
+      "token_acc": 0.4936562860438293
+    },
+    {
+      "epoch": 0.7966976264189887,
+      "grad_norm": 0.3525843322277069,
+      "learning_rate": 0.00010485422332499212,
+      "loss": 2.3726234436035156,
+      "step": 1737,
+      "token_acc": 0.48789414414414417
+    },
+    {
+      "epoch": 0.7971562894163513,
+      "grad_norm": 0.3315074145793915,
+      "learning_rate": 0.00010439958821489165,
+      "loss": 2.353853702545166,
+      "step": 1738,
+      "token_acc": 0.4895862260483199
+    },
+    {
+      "epoch": 0.797614952413714,
+      "grad_norm": 0.34124287962913513,
+      "learning_rate": 0.00010394582594683428,
+      "loss": 2.271850824356079,
+      "step": 1739,
+      "token_acc": 0.5018769852728848
+    },
+    {
+      "epoch": 0.7980736154110767,
+      "grad_norm": 0.3388957381248474,
+      "learning_rate": 0.0001034929375219884,
+      "loss": 2.3460793495178223,
+      "step": 1740,
+      "token_acc": 0.501085776330076
+    },
+    {
+      "epoch": 0.7985322784084394,
+      "grad_norm": 0.34356969594955444,
+      "learning_rate": 0.00010304092393959514,
+      "loss": 2.2740139961242676,
+      "step": 1741,
+      "token_acc": 0.4963285286918684
+    },
+    {
+      "epoch": 0.7989909414058021,
+      "grad_norm": 0.34700387716293335,
+      "learning_rate": 0.00010258978619696468,
+      "loss": 2.248873233795166,
+      "step": 1742,
+      "token_acc": 0.5040787623066104
+    },
+    {
+      "epoch": 0.7994496044031648,
+      "grad_norm": 0.36148402094841003,
+      "learning_rate": 0.00010213952528947551,
+      "loss": 2.3197827339172363,
+      "step": 1743,
+      "token_acc": 0.5
+    },
+    {
+      "epoch": 0.7999082674005275,
+      "grad_norm": 0.34262707829475403,
+      "learning_rate": 0.00010169014221057089,
+      "loss": 2.3066887855529785,
+      "step": 1744,
+      "token_acc": 0.48982516480366867
+    },
+    {
+      "epoch": 0.8003669303978902,
+      "grad_norm": 0.3393036425113678,
+      "learning_rate": 0.00010124163795175734,
+      "loss": 2.3216748237609863,
+      "step": 1745,
+      "token_acc": 0.5049032600053008
+    },
+    {
+      "epoch": 0.8008255933952528,
+      "grad_norm": 0.335234671831131,
+      "learning_rate": 0.00010079401350260287,
+      "loss": 2.419403314590454,
+      "step": 1746,
+      "token_acc": 0.4815214459131373
+    },
+    {
+      "epoch": 0.8012842563926156,
+      "grad_norm": 0.3517586886882782,
+      "learning_rate": 0.00010034726985073362,
+      "loss": 2.3094987869262695,
+      "step": 1747,
+      "token_acc": 0.4896041013956138
+    },
+    {
+      "epoch": 0.8017429193899782,
+      "grad_norm": 0.3397800922393799,
+      "learning_rate": 9.9901407981833e-05,
+      "loss": 2.4074645042419434,
+      "step": 1748,
+      "token_acc": 0.48476454293628807
+    },
+    {
+      "epoch": 0.8022015823873409,
+      "grad_norm": 0.33755776286125183,
+      "learning_rate": 9.94564288796384e-05,
+      "loss": 2.292478084564209,
+      "step": 1749,
+      "token_acc": 0.5008152173913043
+    },
+    {
+      "epoch": 0.8026602453847036,
+      "grad_norm": 0.34281429648399353,
+      "learning_rate": 9.901233352593953e-05,
+      "loss": 2.264887809753418,
+      "step": 1750,
+      "token_acc": 0.5062076749435666
+    },
+    {
+      "epoch": 0.8031189083820662,
+      "grad_norm": 0.3368517756462097,
+      "learning_rate": 9.856912290057668e-05,
+      "loss": 2.3124756813049316,
+      "step": 1751,
+      "token_acc": 0.4959598774031764
+    },
+    {
+      "epoch": 0.803577571379429,
+      "grad_norm": 0.35408881306648254,
+      "learning_rate": 9.812679798143748e-05,
+      "loss": 2.342602252960205,
+      "step": 1752,
+      "token_acc": 0.5062041737168641
+    },
+    {
+      "epoch": 0.8040362343767916,
+      "grad_norm": 0.33654269576072693,
+      "learning_rate": 9.768535974445586e-05,
+      "loss": 2.499549150466919,
+      "step": 1753,
+      "token_acc": 0.4706044714325145
+    },
+    {
+      "epoch": 0.8044948973741544,
+      "grad_norm": 0.3582037091255188,
+      "learning_rate": 9.724480916360906e-05,
+      "loss": 2.2592642307281494,
+      "step": 1754,
+      "token_acc": 0.5065430752453653
+    },
+    {
+      "epoch": 0.804953560371517,
+      "grad_norm": 0.3626381754875183,
+      "learning_rate": 9.68051472109162e-05,
+      "loss": 2.2006468772888184,
+      "step": 1755,
+      "token_acc": 0.5034216007140732
+    },
+    {
+      "epoch": 0.8054122233688797,
+      "grad_norm": 0.34863486886024475,
+      "learning_rate": 9.636637485643529e-05,
+      "loss": 2.221928596496582,
+      "step": 1756,
+      "token_acc": 0.5139275766016713
+    },
+    {
+      "epoch": 0.8058708863662424,
+      "grad_norm": 0.3548058271408081,
+      "learning_rate": 9.592849306826174e-05,
+      "loss": 2.392080307006836,
+      "step": 1757,
+      "token_acc": 0.4966405375139978
+    },
+    {
+      "epoch": 0.8063295493636051,
+      "grad_norm": 0.341632604598999,
+      "learning_rate": 9.549150281252633e-05,
+      "loss": 2.4025678634643555,
+      "step": 1758,
+      "token_acc": 0.4782728272827283
+    },
+    {
+      "epoch": 0.8067882123609678,
+      "grad_norm": 0.35458868741989136,
+      "learning_rate": 9.505540505339223e-05,
+      "loss": 2.313371181488037,
+      "step": 1759,
+      "token_acc": 0.49603933351543295
+    },
+    {
+      "epoch": 0.8072468753583305,
+      "grad_norm": 0.35544851422309875,
+      "learning_rate": 9.4620200753054e-05,
+      "loss": 2.3278379440307617,
+      "step": 1760,
+      "token_acc": 0.4923419660261765
+    },
+    {
+      "epoch": 0.8077055383556931,
+      "grad_norm": 0.34659430384635925,
+      "learning_rate": 9.418589087173441e-05,
+      "loss": 2.3084402084350586,
+      "step": 1761,
+      "token_acc": 0.5024278777492145
+    },
+    {
+      "epoch": 0.8081642013530559,
+      "grad_norm": 0.34321826696395874,
+      "learning_rate": 9.375247636768325e-05,
+      "loss": 2.410942554473877,
+      "step": 1762,
+      "token_acc": 0.4873926295372679
+    },
+    {
+      "epoch": 0.8086228643504185,
+      "grad_norm": 0.3223225772380829,
+      "learning_rate": 9.331995819717443e-05,
+      "loss": 2.4444189071655273,
+      "step": 1763,
+      "token_acc": 0.4836836283185841
+    },
+    {
+      "epoch": 0.8090815273477813,
+      "grad_norm": 0.3400341272354126,
+      "learning_rate": 9.288833731450419e-05,
+      "loss": 2.3730380535125732,
+      "step": 1764,
+      "token_acc": 0.488065150238697
+    },
+    {
+      "epoch": 0.8095401903451439,
+      "grad_norm": 0.36031097173690796,
+      "learning_rate": 9.245761467198948e-05,
+      "loss": 2.300055503845215,
+      "step": 1765,
+      "token_acc": 0.48789414414414417
+    },
+    {
+      "epoch": 0.8099988533425065,
+      "grad_norm": 0.33209577202796936,
+      "learning_rate": 9.20277912199648e-05,
+      "loss": 2.216284990310669,
+      "step": 1766,
+      "token_acc": 0.5098152424942263
+    },
+    {
+      "epoch": 0.8104575163398693,
+      "grad_norm": 0.34907469153404236,
+      "learning_rate": 9.159886790678123e-05,
+      "loss": 2.3763904571533203,
+      "step": 1767,
+      "token_acc": 0.4782370654256775
+    },
+    {
+      "epoch": 0.8109161793372319,
+      "grad_norm": 0.3510114252567291,
+      "learning_rate": 9.11708456788033e-05,
+      "loss": 2.3726978302001953,
+      "step": 1768,
+      "token_acc": 0.48896956157497906
+    },
+    {
+      "epoch": 0.8113748423345947,
+      "grad_norm": 0.3518482446670532,
+      "learning_rate": 9.074372548040793e-05,
+      "loss": 2.418327808380127,
+      "step": 1769,
+      "token_acc": 0.4745809288266007
+    },
+    {
+      "epoch": 0.8118335053319573,
+      "grad_norm": 0.3328094780445099,
+      "learning_rate": 9.031750825398145e-05,
+      "loss": 2.3276824951171875,
+      "step": 1770,
+      "token_acc": 0.4934404283801874
+    },
+    {
+      "epoch": 0.81229216832932,
+      "grad_norm": 0.3379485607147217,
+      "learning_rate": 8.98921949399179e-05,
+      "loss": 2.305774211883545,
+      "step": 1771,
+      "token_acc": 0.5029207232267038
+    },
+    {
+      "epoch": 0.8127508313266827,
+      "grad_norm": 0.3578743636608124,
+      "learning_rate": 8.94677864766173e-05,
+      "loss": 2.3304247856140137,
+      "step": 1772,
+      "token_acc": 0.49603065973172733
+    },
+    {
+      "epoch": 0.8132094943240454,
+      "grad_norm": 0.3515740931034088,
+      "learning_rate": 8.904428380048269e-05,
+      "loss": 2.305543899536133,
+      "step": 1773,
+      "token_acc": 0.4939007092198582
+    },
+    {
+      "epoch": 0.8136681573214081,
+      "grad_norm": 0.34503498673439026,
+      "learning_rate": 8.862168784591929e-05,
+      "loss": 2.3719353675842285,
+      "step": 1774,
+      "token_acc": 0.48676511563109504
+    },
+    {
+      "epoch": 0.8141268203187708,
+      "grad_norm": 0.34058043360710144,
+      "learning_rate": 8.819999954533115e-05,
+      "loss": 2.2761733531951904,
+      "step": 1775,
+      "token_acc": 0.49605656785422897
+    },
+    {
+      "epoch": 0.8145854833161335,
+      "grad_norm": 0.358213871717453,
+      "learning_rate": 8.777921982911996e-05,
+      "loss": 2.439089775085449,
+      "step": 1776,
+      "token_acc": 0.47804878048780486
+    },
+    {
+      "epoch": 0.8150441463134962,
+      "grad_norm": 0.3591679632663727,
+      "learning_rate": 8.735934962568253e-05,
+      "loss": 2.3598287105560303,
+      "step": 1777,
+      "token_acc": 0.4911414464130119
+    },
+    {
+      "epoch": 0.8155028093108588,
+      "grad_norm": 0.3337683081626892,
+      "learning_rate": 8.694038986140945e-05,
+      "loss": 2.3531246185302734,
+      "step": 1778,
+      "token_acc": 0.47716150081566067
+    },
+    {
+      "epoch": 0.8159614723082216,
+      "grad_norm": 0.3378220200538635,
+      "learning_rate": 8.652234146068206e-05,
+      "loss": 2.257934093475342,
+      "step": 1779,
+      "token_acc": 0.5015273535129131
+    },
+    {
+      "epoch": 0.8164201353055842,
+      "grad_norm": 0.3594716191291809,
+      "learning_rate": 8.610520534587086e-05,
+      "loss": 2.4477319717407227,
+      "step": 1780,
+      "token_acc": 0.48177311169437154
+    },
+    {
+      "epoch": 0.816878798302947,
+      "grad_norm": 0.31936123967170715,
+      "learning_rate": 8.568898243733397e-05,
+      "loss": 2.275913953781128,
+      "step": 1781,
+      "token_acc": 0.4952561669829222
+    },
+    {
+      "epoch": 0.8173374613003096,
+      "grad_norm": 0.3394831418991089,
+      "learning_rate": 8.527367365341409e-05,
+      "loss": 2.424553394317627,
+      "step": 1782,
+      "token_acc": 0.4979768006474238
+    },
+    {
+      "epoch": 0.8177961242976722,
+      "grad_norm": 0.3558088541030884,
+      "learning_rate": 8.485927991043757e-05,
+      "loss": 2.3555076122283936,
+      "step": 1783,
+      "token_acc": 0.4939521800281294
+    },
+    {
+      "epoch": 0.818254787295035,
+      "grad_norm": 0.3543827533721924,
+      "learning_rate": 8.444580212271125e-05,
+      "loss": 2.3409714698791504,
+      "step": 1784,
+      "token_acc": 0.4885783391561408
+    },
+    {
+      "epoch": 0.8187134502923976,
+      "grad_norm": 0.3317083716392517,
+      "learning_rate": 8.403324120252159e-05,
+      "loss": 2.2420296669006348,
+      "step": 1785,
+      "token_acc": 0.5049723756906077
+    },
+    {
+      "epoch": 0.8191721132897604,
+      "grad_norm": 0.3390710949897766,
+      "learning_rate": 8.362159806013175e-05,
+      "loss": 2.3413565158843994,
+      "step": 1786,
+      "token_acc": 0.4966367713004484
+    },
+    {
+      "epoch": 0.819630776287123,
+      "grad_norm": 0.3424408435821533,
+      "learning_rate": 8.321087360377988e-05,
+      "loss": 2.3762011528015137,
+      "step": 1787,
+      "token_acc": 0.4915059026778002
+    },
+    {
+      "epoch": 0.8200894392844857,
+      "grad_norm": 0.34307608008384705,
+      "learning_rate": 8.280106873967752e-05,
+      "loss": 2.2308573722839355,
+      "step": 1788,
+      "token_acc": 0.5072305593451569
+    },
+    {
+      "epoch": 0.8205481022818484,
+      "grad_norm": 0.33436816930770874,
+      "learning_rate": 8.239218437200679e-05,
+      "loss": 2.329380512237549,
+      "step": 1789,
+      "token_acc": 0.49440459110473456
+    },
+    {
+      "epoch": 0.8210067652792111,
+      "grad_norm": 0.34022000432014465,
+      "learning_rate": 8.198422140291939e-05,
+      "loss": 2.331752300262451,
+      "step": 1790,
+      "token_acc": 0.4933602771362587
+    },
+    {
+      "epoch": 0.8214654282765738,
+      "grad_norm": 0.3502206802368164,
+      "learning_rate": 8.157718073253351e-05,
+      "loss": 2.361274242401123,
+      "step": 1791,
+      "token_acc": 0.4926719278466742
+    },
+    {
+      "epoch": 0.8219240912739365,
+      "grad_norm": 0.3464970588684082,
+      "learning_rate": 8.117106325893287e-05,
+      "loss": 2.3629298210144043,
+      "step": 1792,
+      "token_acc": 0.49233342626149984
+    },
+    {
+      "epoch": 0.8223827542712991,
+      "grad_norm": 0.3418751358985901,
+      "learning_rate": 8.076586987816404e-05,
+      "loss": 2.2871475219726562,
+      "step": 1793,
+      "token_acc": 0.4903244166192373
+    },
+    {
+      "epoch": 0.8228414172686619,
+      "grad_norm": 0.340283066034317,
+      "learning_rate": 8.036160148423449e-05,
+      "loss": 2.343477249145508,
+      "step": 1794,
+      "token_acc": 0.49188445667125175
+    },
+    {
+      "epoch": 0.8233000802660245,
+      "grad_norm": 0.3409213125705719,
+      "learning_rate": 7.995825896911141e-05,
+      "loss": 2.318657875061035,
+      "step": 1795,
+      "token_acc": 0.4931506849315068
+    },
+    {
+      "epoch": 0.8237587432633873,
+      "grad_norm": 0.3603390157222748,
+      "learning_rate": 7.955584322271853e-05,
+      "loss": 2.428893566131592,
+      "step": 1796,
+      "token_acc": 0.48214285714285715
+    },
+    {
+      "epoch": 0.8242174062607499,
+      "grad_norm": 0.33327364921569824,
+      "learning_rate": 7.915435513293523e-05,
+      "loss": 2.297451972961426,
+      "step": 1797,
+      "token_acc": 0.4987482614742698
+    },
+    {
+      "epoch": 0.8246760692581127,
+      "grad_norm": 0.34232065081596375,
+      "learning_rate": 7.875379558559387e-05,
+      "loss": 2.3540124893188477,
+      "step": 1798,
+      "token_acc": 0.4886677722498618
+    },
+    {
+      "epoch": 0.8251347322554753,
+      "grad_norm": 0.34872034192085266,
+      "learning_rate": 7.835416546447838e-05,
+      "loss": 2.39192533493042,
+      "step": 1799,
+      "token_acc": 0.4842454394693201
+    },
+    {
+      "epoch": 0.8255933952528379,
+      "grad_norm": 0.3498040735721588,
+      "learning_rate": 7.795546565132167e-05,
+      "loss": 2.266745090484619,
+      "step": 1800,
+      "token_acc": 0.5089574155653451
+    },
+    {
+      "epoch": 0.8260520582502007,
+      "grad_norm": 0.3337041437625885,
+      "learning_rate": 7.755769702580412e-05,
+      "loss": 2.400848388671875,
+      "step": 1801,
+      "token_acc": 0.48549742477636215
+    },
+    {
+      "epoch": 0.8265107212475633,
+      "grad_norm": 0.3630457818508148,
+      "learning_rate": 7.716086046555193e-05,
+      "loss": 2.401732921600342,
+      "step": 1802,
+      "token_acc": 0.48444811450591796
+    },
+    {
+      "epoch": 0.826969384244926,
+      "grad_norm": 0.3487928807735443,
+      "learning_rate": 7.676495684613432e-05,
+      "loss": 2.419093608856201,
+      "step": 1803,
+      "token_acc": 0.4818473037907101
+    },
+    {
+      "epoch": 0.8274280472422887,
+      "grad_norm": 0.36501890420913696,
+      "learning_rate": 7.636998704106252e-05,
+      "loss": 2.4333009719848633,
+      "step": 1804,
+      "token_acc": 0.48029850746268654
+    },
+    {
+      "epoch": 0.8278867102396514,
+      "grad_norm": 0.3434891402721405,
+      "learning_rate": 7.597595192178702e-05,
+      "loss": 2.3298959732055664,
+      "step": 1805,
+      "token_acc": 0.4896159317211949
+    },
+    {
+      "epoch": 0.8283453732370141,
+      "grad_norm": 0.33230915665626526,
+      "learning_rate": 7.558285235769646e-05,
+      "loss": 2.2461471557617188,
+      "step": 1806,
+      "token_acc": 0.507242260721386
+    },
+    {
+      "epoch": 0.8288040362343768,
+      "grad_norm": 0.3450563848018646,
+      "learning_rate": 7.519068921611494e-05,
+      "loss": 2.285722255706787,
+      "step": 1807,
+      "token_acc": 0.49399563318777295
+    },
+    {
+      "epoch": 0.8292626992317395,
+      "grad_norm": 0.3387637436389923,
+      "learning_rate": 7.479946336230047e-05,
+      "loss": 2.2607688903808594,
+      "step": 1808,
+      "token_acc": 0.5032904148783978
+    },
+    {
+      "epoch": 0.8297213622291022,
+      "grad_norm": 0.33623597025871277,
+      "learning_rate": 7.440917565944349e-05,
+      "loss": 2.396404266357422,
+      "step": 1809,
+      "token_acc": 0.48954558126568165
+    },
+    {
+      "epoch": 0.8301800252264648,
+      "grad_norm": 0.32811683416366577,
+      "learning_rate": 7.4019826968664e-05,
+      "loss": 2.29229736328125,
+      "step": 1810,
+      "token_acc": 0.5072869955156951
+    },
+    {
+      "epoch": 0.8306386882238276,
+      "grad_norm": 0.36723440885543823,
+      "learning_rate": 7.363141814901053e-05,
+      "loss": 2.208789348602295,
+      "step": 1811,
+      "token_acc": 0.5168442268931759
+    },
+    {
+      "epoch": 0.8310973512211902,
+      "grad_norm": 0.35072678327560425,
+      "learning_rate": 7.32439500574577e-05,
+      "loss": 2.3367838859558105,
+      "step": 1812,
+      "token_acc": 0.493727348759409
+    },
+    {
+      "epoch": 0.831556014218553,
+      "grad_norm": 0.3695262670516968,
+      "learning_rate": 7.285742354890473e-05,
+      "loss": 2.423921823501587,
+      "step": 1813,
+      "token_acc": 0.47554806070826305
+    },
+    {
+      "epoch": 0.8320146772159156,
+      "grad_norm": 0.33562231063842773,
+      "learning_rate": 7.247183947617325e-05,
+      "loss": 2.3366260528564453,
+      "step": 1814,
+      "token_acc": 0.4861072902338377
+    },
+    {
+      "epoch": 0.8324733402132783,
+      "grad_norm": 0.33905190229415894,
+      "learning_rate": 7.20871986900053e-05,
+      "loss": 2.2422585487365723,
+      "step": 1815,
+      "token_acc": 0.5131022823330516
+    },
+    {
+      "epoch": 0.832932003210641,
+      "grad_norm": 0.35481420159339905,
+      "learning_rate": 7.170350203906218e-05,
+      "loss": 2.23815655708313,
+      "step": 1816,
+      "token_acc": 0.5128132118451025
+    },
+    {
+      "epoch": 0.8333906662080036,
+      "grad_norm": 0.32230162620544434,
+      "learning_rate": 7.132075036992158e-05,
+      "loss": 2.222874164581299,
+      "step": 1817,
+      "token_acc": 0.5170880800222284
+    },
+    {
+      "epoch": 0.8338493292053664,
+      "grad_norm": 0.35030126571655273,
+      "learning_rate": 7.093894452707666e-05,
+      "loss": 2.3593881130218506,
+      "step": 1818,
+      "token_acc": 0.4998578333807222
+    },
+    {
+      "epoch": 0.834307992202729,
+      "grad_norm": 0.33856189250946045,
+      "learning_rate": 7.055808535293334e-05,
+      "loss": 2.2329001426696777,
+      "step": 1819,
+      "token_acc": 0.5110242813284956
+    },
+    {
+      "epoch": 0.8347666552000917,
+      "grad_norm": 0.34818097949028015,
+      "learning_rate": 7.017817368780888e-05,
+      "loss": 2.289492607116699,
+      "step": 1820,
+      "token_acc": 0.4970970417473044
+    },
+    {
+      "epoch": 0.8352253181974544,
+      "grad_norm": 0.35232019424438477,
+      "learning_rate": 6.979921036993042e-05,
+      "loss": 2.2610228061676025,
+      "step": 1821,
+      "token_acc": 0.5155799192152337
+    },
+    {
+      "epoch": 0.8356839811948171,
+      "grad_norm": 0.352506548166275,
+      "learning_rate": 6.942119623543202e-05,
+      "loss": 2.3382887840270996,
+      "step": 1822,
+      "token_acc": 0.47894137734775183
+    },
+    {
+      "epoch": 0.8361426441921798,
+      "grad_norm": 0.3640366196632385,
+      "learning_rate": 6.904413211835414e-05,
+      "loss": 2.2654311656951904,
+      "step": 1823,
+      "token_acc": 0.5015873015873016
+    },
+    {
+      "epoch": 0.8366013071895425,
+      "grad_norm": 0.35429322719573975,
+      "learning_rate": 6.866801885064056e-05,
+      "loss": 2.4645442962646484,
+      "step": 1824,
+      "token_acc": 0.472991499862901
+    },
+    {
+      "epoch": 0.8370599701869051,
+      "grad_norm": 0.3328467905521393,
+      "learning_rate": 6.829285726213769e-05,
+      "loss": 2.3245797157287598,
+      "step": 1825,
+      "token_acc": 0.48559670781893005
+    },
+    {
+      "epoch": 0.8375186331842679,
+      "grad_norm": 0.3477995693683624,
+      "learning_rate": 6.79186481805918e-05,
+      "loss": 2.407137632369995,
+      "step": 1826,
+      "token_acc": 0.48557826939232707
+    },
+    {
+      "epoch": 0.8379772961816305,
+      "grad_norm": 0.35213300585746765,
+      "learning_rate": 6.754539243164754e-05,
+      "loss": 2.4133996963500977,
+      "step": 1827,
+      "token_acc": 0.4775993237531699
+    },
+    {
+      "epoch": 0.8384359591789933,
+      "grad_norm": 0.3198488652706146,
+      "learning_rate": 6.717309083884654e-05,
+      "loss": 2.225069046020508,
+      "step": 1828,
+      "token_acc": 0.5148327939590076
+    },
+    {
+      "epoch": 0.8388946221763559,
+      "grad_norm": 0.3491551876068115,
+      "learning_rate": 6.680174422362468e-05,
+      "loss": 2.374579429626465,
+      "step": 1829,
+      "token_acc": 0.48704663212435234
+    },
+    {
+      "epoch": 0.8393532851737187,
+      "grad_norm": 0.34302401542663574,
+      "learning_rate": 6.643135340531136e-05,
+      "loss": 2.3658361434936523,
+      "step": 1830,
+      "token_acc": 0.4896611143021252
+    },
+    {
+      "epoch": 0.8398119481710813,
+      "grad_norm": 0.3504773676395416,
+      "learning_rate": 6.606191920112664e-05,
+      "loss": 2.3634157180786133,
+      "step": 1831,
+      "token_acc": 0.4838255977496484
+    },
+    {
+      "epoch": 0.840270611168444,
+      "grad_norm": 0.3321126103401184,
+      "learning_rate": 6.569344242618036e-05,
+      "loss": 2.418583869934082,
+      "step": 1832,
+      "token_acc": 0.48396989127404516
+    },
+    {
+      "epoch": 0.8407292741658067,
+      "grad_norm": 0.3415120840072632,
+      "learning_rate": 6.532592389346958e-05,
+      "loss": 2.2718896865844727,
+      "step": 1833,
+      "token_acc": 0.5028312570781427
+    },
+    {
+      "epoch": 0.8411879371631693,
+      "grad_norm": 0.3444622755050659,
+      "learning_rate": 6.495936441387713e-05,
+      "loss": 2.425118923187256,
+      "step": 1834,
+      "token_acc": 0.49213161659513593
+    },
+    {
+      "epoch": 0.841646600160532,
+      "grad_norm": 0.3446201980113983,
+      "learning_rate": 6.459376479617013e-05,
+      "loss": 2.2019405364990234,
+      "step": 1835,
+      "token_acc": 0.5289139633286318
+    },
+    {
+      "epoch": 0.8421052631578947,
+      "grad_norm": 0.3397805094718933,
+      "learning_rate": 6.422912584699752e-05,
+      "loss": 2.3888111114501953,
+      "step": 1836,
+      "token_acc": 0.4637720488466757
+    },
+    {
+      "epoch": 0.8425639261552574,
+      "grad_norm": 0.3445199131965637,
+      "learning_rate": 6.386544837088904e-05,
+      "loss": 2.367321014404297,
+      "step": 1837,
+      "token_acc": 0.4887531241321855
+    },
+    {
+      "epoch": 0.8430225891526201,
+      "grad_norm": 0.3242432475090027,
+      "learning_rate": 6.350273317025251e-05,
+      "loss": 2.2981600761413574,
+      "step": 1838,
+      "token_acc": 0.48403679653679654
+    },
+    {
+      "epoch": 0.8434812521499828,
+      "grad_norm": 0.3712983727455139,
+      "learning_rate": 6.314098104537324e-05,
+      "loss": 2.4504237174987793,
+      "step": 1839,
+      "token_acc": 0.4797129450731438
+    },
+    {
+      "epoch": 0.8439399151473455,
+      "grad_norm": 0.34935036301612854,
+      "learning_rate": 6.278019279441122e-05,
+      "loss": 2.3853797912597656,
+      "step": 1840,
+      "token_acc": 0.49142053445850914
+    },
+    {
+      "epoch": 0.8443985781447082,
+      "grad_norm": 0.3467150330543518,
+      "learning_rate": 6.242036921339972e-05,
+      "loss": 2.3663580417633057,
+      "step": 1841,
+      "token_acc": 0.4843792447704428
+    },
+    {
+      "epoch": 0.8448572411420708,
+      "grad_norm": 0.3489900529384613,
+      "learning_rate": 6.206151109624402e-05,
+      "loss": 2.290548324584961,
+      "step": 1842,
+      "token_acc": 0.48709315375982043
+    },
+    {
+      "epoch": 0.8453159041394336,
+      "grad_norm": 0.3285813629627228,
+      "learning_rate": 6.170361923471868e-05,
+      "loss": 2.3327503204345703,
+      "step": 1843,
+      "token_acc": 0.4983342587451416
+    },
+    {
+      "epoch": 0.8457745671367962,
+      "grad_norm": 0.3364870846271515,
+      "learning_rate": 6.134669441846691e-05,
+      "loss": 2.2853431701660156,
+      "step": 1844,
+      "token_acc": 0.4971720980339348
+    },
+    {
+      "epoch": 0.846233230134159,
+      "grad_norm": 0.36086997389793396,
+      "learning_rate": 6.099073743499772e-05,
+      "loss": 2.320000171661377,
+      "step": 1845,
+      "token_acc": 0.4813137032842582
+    },
+    {
+      "epoch": 0.8466918931315216,
+      "grad_norm": 0.3391818702220917,
+      "learning_rate": 6.063574906968511e-05,
+      "loss": 2.4259033203125,
+      "step": 1846,
+      "token_acc": 0.49590048063330505
+    },
+    {
+      "epoch": 0.8471505561288843,
+      "grad_norm": 0.3332633078098297,
+      "learning_rate": 6.028173010576582e-05,
+      "loss": 2.2239861488342285,
+      "step": 1847,
+      "token_acc": 0.5103267973856209
+    },
+    {
+      "epoch": 0.847609219126247,
+      "grad_norm": 0.3539312779903412,
+      "learning_rate": 5.9928681324337544e-05,
+      "loss": 2.4211838245391846,
+      "step": 1848,
+      "token_acc": 0.4695410292072323
+    },
+    {
+      "epoch": 0.8480678821236097,
+      "grad_norm": 0.35303995013237,
+      "learning_rate": 5.957660350435773e-05,
+      "loss": 2.3063368797302246,
+      "step": 1849,
+      "token_acc": 0.49941211052322165
+    },
+    {
+      "epoch": 0.8485265451209724,
+      "grad_norm": 0.37126395106315613,
+      "learning_rate": 5.922549742264122e-05,
+      "loss": 2.287405490875244,
+      "step": 1850,
+      "token_acc": 0.514947245017585
+    },
+    {
+      "epoch": 0.848985208118335,
+      "grad_norm": 0.33842793107032776,
+      "learning_rate": 5.8875363853859166e-05,
+      "loss": 2.306096315383911,
+      "step": 1851,
+      "token_acc": 0.4830674503218584
+    },
+    {
+      "epoch": 0.8494438711156977,
+      "grad_norm": 0.3437037467956543,
+      "learning_rate": 5.852620357053651e-05,
+      "loss": 2.406630516052246,
+      "step": 1852,
+      "token_acc": 0.4858369098712446
+    },
+    {
+      "epoch": 0.8499025341130604,
+      "grad_norm": 0.36516106128692627,
+      "learning_rate": 5.8178017343051336e-05,
+      "loss": 2.2084522247314453,
+      "step": 1853,
+      "token_acc": 0.5140213934663197
+    },
+    {
+      "epoch": 0.8503611971104231,
+      "grad_norm": 0.3502216339111328,
+      "learning_rate": 5.783080593963219e-05,
+      "loss": 2.410921335220337,
+      "step": 1854,
+      "token_acc": 0.4751203852327448
+    },
+    {
+      "epoch": 0.8508198601077858,
+      "grad_norm": 0.35774680972099304,
+      "learning_rate": 5.748457012635683e-05,
+      "loss": 2.3605763912200928,
+      "step": 1855,
+      "token_acc": 0.4853868194842407
+    },
+    {
+      "epoch": 0.8512785231051485,
+      "grad_norm": 0.3453747034072876,
+      "learning_rate": 5.713931066715078e-05,
+      "loss": 2.328455686569214,
+      "step": 1856,
+      "token_acc": 0.4953804347826087
+    },
+    {
+      "epoch": 0.8517371861025111,
+      "grad_norm": 0.33495602011680603,
+      "learning_rate": 5.679502832378497e-05,
+      "loss": 2.283583402633667,
+      "step": 1857,
+      "token_acc": 0.5017754711827369
+    },
+    {
+      "epoch": 0.8521958490998739,
+      "grad_norm": 0.35302430391311646,
+      "learning_rate": 5.645172385587482e-05,
+      "loss": 2.279367446899414,
+      "step": 1858,
+      "token_acc": 0.519564577817005
+    },
+    {
+      "epoch": 0.8526545120972365,
+      "grad_norm": 0.3320028781890869,
+      "learning_rate": 5.6109398020877834e-05,
+      "loss": 2.349329710006714,
+      "step": 1859,
+      "token_acc": 0.48308525033829497
+    },
+    {
+      "epoch": 0.8531131750945993,
+      "grad_norm": 0.33842575550079346,
+      "learning_rate": 5.576805157409265e-05,
+      "loss": 2.2674448490142822,
+      "step": 1860,
+      "token_acc": 0.4995834490419328
+    },
+    {
+      "epoch": 0.8535718380919619,
+      "grad_norm": 0.3376774787902832,
+      "learning_rate": 5.542768526865677e-05,
+      "loss": 2.2889039516448975,
+      "step": 1861,
+      "token_acc": 0.511437908496732
+    },
+    {
+      "epoch": 0.8540305010893247,
+      "grad_norm": 0.33881503343582153,
+      "learning_rate": 5.508829985554509e-05,
+      "loss": 2.3306570053100586,
+      "step": 1862,
+      "token_acc": 0.5035635964912281
+    },
+    {
+      "epoch": 0.8544891640866873,
+      "grad_norm": 0.35851868987083435,
+      "learning_rate": 5.474989608356856e-05,
+      "loss": 2.4704151153564453,
+      "step": 1863,
+      "token_acc": 0.47432357813362785
+    },
+    {
+      "epoch": 0.85494782708405,
+      "grad_norm": 0.3571590781211853,
+      "learning_rate": 5.441247469937194e-05,
+      "loss": 2.447523355484009,
+      "step": 1864,
+      "token_acc": 0.47535596933187296
+    },
+    {
+      "epoch": 0.8554064900814127,
+      "grad_norm": 0.35217204689979553,
+      "learning_rate": 5.407603644743286e-05,
+      "loss": 2.356210470199585,
+      "step": 1865,
+      "token_acc": 0.478869297509096
+    },
+    {
+      "epoch": 0.8558651530787754,
+      "grad_norm": 0.34812772274017334,
+      "learning_rate": 5.374058207005944e-05,
+      "loss": 2.3331105709075928,
+      "step": 1866,
+      "token_acc": 0.48961180973209406
+    },
+    {
+      "epoch": 0.8563238160761381,
+      "grad_norm": 0.3494341969490051,
+      "learning_rate": 5.3406112307389066e-05,
+      "loss": 2.2922322750091553,
+      "step": 1867,
+      "token_acc": 0.49543899657924745
+    },
+    {
+      "epoch": 0.8567824790735007,
+      "grad_norm": 0.3395400941371918,
+      "learning_rate": 5.3072627897386926e-05,
+      "loss": 2.303804636001587,
+      "step": 1868,
+      "token_acc": 0.48835904628330995
+    },
+    {
+      "epoch": 0.8572411420708634,
+      "grad_norm": 0.3350875675678253,
+      "learning_rate": 5.27401295758439e-05,
+      "loss": 2.312012195587158,
+      "step": 1869,
+      "token_acc": 0.49352438688343897
+    },
+    {
+      "epoch": 0.8576998050682261,
+      "grad_norm": 0.35094091296195984,
+      "learning_rate": 5.2408618076375315e-05,
+      "loss": 2.3872923851013184,
+      "step": 1870,
+      "token_acc": 0.4983277591973244
+    },
+    {
+      "epoch": 0.8581584680655888,
+      "grad_norm": 0.3341224491596222,
+      "learning_rate": 5.207809413041914e-05,
+      "loss": 2.2888574600219727,
+      "step": 1871,
+      "token_acc": 0.4964959568733154
+    },
+    {
+      "epoch": 0.8586171310629515,
+      "grad_norm": 0.3481275737285614,
+      "learning_rate": 5.174855846723459e-05,
+      "loss": 2.377129554748535,
+      "step": 1872,
+      "token_acc": 0.4875175315568022
+    },
+    {
+      "epoch": 0.8590757940603142,
+      "grad_norm": 0.3524986505508423,
+      "learning_rate": 5.1420011813900104e-05,
+      "loss": 2.2634849548339844,
+      "step": 1873,
+      "token_acc": 0.48402466367713004
+    },
+    {
+      "epoch": 0.8595344570576768,
+      "grad_norm": 0.3380487859249115,
+      "learning_rate": 5.109245489531211e-05,
+      "loss": 2.3169209957122803,
+      "step": 1874,
+      "token_acc": 0.49119956674790144
+    },
+    {
+      "epoch": 0.8599931200550396,
+      "grad_norm": 0.3424326777458191,
+      "learning_rate": 5.0765888434183446e-05,
+      "loss": 2.2887237071990967,
+      "step": 1875,
+      "token_acc": 0.5113604488078541
+    },
+    {
+      "epoch": 0.8604517830524022,
+      "grad_norm": 0.34902942180633545,
+      "learning_rate": 5.0440313151041364e-05,
+      "loss": 2.238100528717041,
+      "step": 1876,
+      "token_acc": 0.5175563802455039
+    },
+    {
+      "epoch": 0.860910446049765,
+      "grad_norm": 0.35631975531578064,
+      "learning_rate": 5.011572976422657e-05,
+      "loss": 2.353519916534424,
+      "step": 1877,
+      "token_acc": 0.4959560947429232
+    },
+    {
+      "epoch": 0.8613691090471276,
+      "grad_norm": 0.37275317311286926,
+      "learning_rate": 4.9792138989890825e-05,
+      "loss": 2.4014832973480225,
+      "step": 1878,
+      "token_acc": 0.4813402342685917
+    },
+    {
+      "epoch": 0.8618277720444903,
+      "grad_norm": 0.3564111292362213,
+      "learning_rate": 4.9469541541996234e-05,
+      "loss": 2.2729721069335938,
+      "step": 1879,
+      "token_acc": 0.5171312427409989
+    },
+    {
+      "epoch": 0.862286435041853,
+      "grad_norm": 0.3527158498764038,
+      "learning_rate": 4.914793813231305e-05,
+      "loss": 2.260648727416992,
+      "step": 1880,
+      "token_acc": 0.4970178926441352
+    },
+    {
+      "epoch": 0.8627450980392157,
+      "grad_norm": 0.34461072087287903,
+      "learning_rate": 4.882732947041818e-05,
+      "loss": 2.195263624191284,
+      "step": 1881,
+      "token_acc": 0.5156337241764377
+    },
+    {
+      "epoch": 0.8632037610365784,
+      "grad_norm": 0.3604516088962555,
+      "learning_rate": 4.850771626369416e-05,
+      "loss": 2.3481085300445557,
+      "step": 1882,
+      "token_acc": 0.49060965039006066
+    },
+    {
+      "epoch": 0.8636624240339411,
+      "grad_norm": 0.3438739478588104,
+      "learning_rate": 4.818909921732662e-05,
+      "loss": 2.3260040283203125,
+      "step": 1883,
+      "token_acc": 0.49624494511842865
+    },
+    {
+      "epoch": 0.8641210870313037,
+      "grad_norm": 0.3481057286262512,
+      "learning_rate": 4.787147903430383e-05,
+      "loss": 2.35025691986084,
+      "step": 1884,
+      "token_acc": 0.5023319615912208
+    },
+    {
+      "epoch": 0.8645797500286664,
+      "grad_norm": 0.3431238830089569,
+      "learning_rate": 4.755485641541424e-05,
+      "loss": 2.2724039554595947,
+      "step": 1885,
+      "token_acc": 0.49873132224415
+    },
+    {
+      "epoch": 0.8650384130260291,
+      "grad_norm": 0.3499290943145752,
+      "learning_rate": 4.723923205924557e-05,
+      "loss": 2.3354969024658203,
+      "step": 1886,
+      "token_acc": 0.5083309799491669
+    },
+    {
+      "epoch": 0.8654970760233918,
+      "grad_norm": 0.356599360704422,
+      "learning_rate": 4.6924606662182736e-05,
+      "loss": 2.3091864585876465,
+      "step": 1887,
+      "token_acc": 0.49985823646158206
+    },
+    {
+      "epoch": 0.8659557390207545,
+      "grad_norm": 0.34929320216178894,
+      "learning_rate": 4.6610980918406596e-05,
+      "loss": 2.3585987091064453,
+      "step": 1888,
+      "token_acc": 0.4893857911123691
+    },
+    {
+      "epoch": 0.8664144020181171,
+      "grad_norm": 0.34878596663475037,
+      "learning_rate": 4.629835551989276e-05,
+      "loss": 2.2558937072753906,
+      "step": 1889,
+      "token_acc": 0.4980192416525184
+    },
+    {
+      "epoch": 0.8668730650154799,
+      "grad_norm": 0.3565264344215393,
+      "learning_rate": 4.5986731156409224e-05,
+      "loss": 2.496164321899414,
+      "step": 1890,
+      "token_acc": 0.46900420757363254
+    },
+    {
+      "epoch": 0.8673317280128425,
+      "grad_norm": 0.3931976556777954,
+      "learning_rate": 4.567610851551568e-05,
+      "loss": 2.234647035598755,
+      "step": 1891,
+      "token_acc": 0.5165637282425604
+    },
+    {
+      "epoch": 0.8677903910102053,
+      "grad_norm": 0.35193535685539246,
+      "learning_rate": 4.536648828256146e-05,
+      "loss": 2.4563851356506348,
+      "step": 1892,
+      "token_acc": 0.4760312151616499
+    },
+    {
+      "epoch": 0.8682490540075679,
+      "grad_norm": 0.3495912551879883,
+      "learning_rate": 4.505787114068433e-05,
+      "loss": 2.360513210296631,
+      "step": 1893,
+      "token_acc": 0.4904494382022472
+    },
+    {
+      "epoch": 0.8687077170049307,
+      "grad_norm": 0.3591647446155548,
+      "learning_rate": 4.4750257770808764e-05,
+      "loss": 2.3418056964874268,
+      "step": 1894,
+      "token_acc": 0.48559077809798273
+    },
+    {
+      "epoch": 0.8691663800022933,
+      "grad_norm": 0.34019190073013306,
+      "learning_rate": 4.444364885164448e-05,
+      "loss": 2.387608528137207,
+      "step": 1895,
+      "token_acc": 0.4825272574783338
+    },
+    {
+      "epoch": 0.869625042999656,
+      "grad_norm": 0.3473565876483917,
+      "learning_rate": 4.413804505968533e-05,
+      "loss": 2.3120670318603516,
+      "step": 1896,
+      "token_acc": 0.5047117516629712
+    },
+    {
+      "epoch": 0.8700837059970187,
+      "grad_norm": 0.3564021587371826,
+      "learning_rate": 4.3833447069206944e-05,
+      "loss": 2.4210891723632812,
+      "step": 1897,
+      "token_acc": 0.4893078221722003
+    },
+    {
+      "epoch": 0.8705423689943814,
+      "grad_norm": 0.34622690081596375,
+      "learning_rate": 4.352985555226635e-05,
+      "loss": 2.386613368988037,
+      "step": 1898,
+      "token_acc": 0.4785395763656633
+    },
+    {
+      "epoch": 0.8710010319917441,
+      "grad_norm": 0.349586546421051,
+      "learning_rate": 4.322727117869951e-05,
+      "loss": 2.2411556243896484,
+      "step": 1899,
+      "token_acc": 0.5109953703703703
+    },
+    {
+      "epoch": 0.8714596949891068,
+      "grad_norm": 0.3576890528202057,
+      "learning_rate": 4.29256946161205e-05,
+      "loss": 2.3328495025634766,
+      "step": 1900,
+      "token_acc": 0.4946297343131713
+    },
+    {
+      "epoch": 0.8719183579864694,
+      "grad_norm": 0.3405376076698303,
+      "learning_rate": 4.262512652991968e-05,
+      "loss": 2.282243251800537,
+      "step": 1901,
+      "token_acc": 0.5084745762711864
+    },
+    {
+      "epoch": 0.8723770209838321,
+      "grad_norm": 0.346627414226532,
+      "learning_rate": 4.2325567583262113e-05,
+      "loss": 2.3239049911499023,
+      "step": 1902,
+      "token_acc": 0.4968873797396718
+    },
+    {
+      "epoch": 0.8728356839811948,
+      "grad_norm": 0.35646572709083557,
+      "learning_rate": 4.2027018437086895e-05,
+      "loss": 2.2903809547424316,
+      "step": 1903,
+      "token_acc": 0.5112391930835735
+    },
+    {
+      "epoch": 0.8732943469785575,
+      "grad_norm": 0.3371918797492981,
+      "learning_rate": 4.172947975010449e-05,
+      "loss": 2.331043243408203,
+      "step": 1904,
+      "token_acc": 0.4977900552486188
+    },
+    {
+      "epoch": 0.8737530099759202,
+      "grad_norm": 0.32650047540664673,
+      "learning_rate": 4.143295217879645e-05,
+      "loss": 2.3226513862609863,
+      "step": 1905,
+      "token_acc": 0.4959598774031764
+    },
+    {
+      "epoch": 0.8742116729732828,
+      "grad_norm": 0.34066784381866455,
+      "learning_rate": 4.113743637741296e-05,
+      "loss": 2.224803924560547,
+      "step": 1906,
+      "token_acc": 0.5123111359820929
+    },
+    {
+      "epoch": 0.8746703359706456,
+      "grad_norm": 0.3336503505706787,
+      "learning_rate": 4.084293299797226e-05,
+      "loss": 2.3969545364379883,
+      "step": 1907,
+      "token_acc": 0.4816326530612245
+    },
+    {
+      "epoch": 0.8751289989680082,
+      "grad_norm": 0.34670203924179077,
+      "learning_rate": 4.054944269025862e-05,
+      "loss": 2.338252067565918,
+      "step": 1908,
+      "token_acc": 0.4933078393881453
+    },
+    {
+      "epoch": 0.875587661965371,
+      "grad_norm": 0.3452502191066742,
+      "learning_rate": 4.025696610182095e-05,
+      "loss": 2.326305627822876,
+      "step": 1909,
+      "token_acc": 0.4902349278233796
+    },
+    {
+      "epoch": 0.8760463249627336,
+      "grad_norm": 0.33914950489997864,
+      "learning_rate": 3.996550387797187e-05,
+      "loss": 2.225217819213867,
+      "step": 1910,
+      "token_acc": 0.5201556852932999
+    },
+    {
+      "epoch": 0.8765049879600963,
+      "grad_norm": 0.3784179389476776,
+      "learning_rate": 3.9675056661785556e-05,
+      "loss": 2.32301664352417,
+      "step": 1911,
+      "token_acc": 0.49154969922658265
+    },
+    {
+      "epoch": 0.876963650957459,
+      "grad_norm": 0.34889161586761475,
+      "learning_rate": 3.9385625094097154e-05,
+      "loss": 2.432009696960449,
+      "step": 1912,
+      "token_acc": 0.47560627674750355
+    },
+    {
+      "epoch": 0.8774223139548217,
+      "grad_norm": 0.348724901676178,
+      "learning_rate": 3.909720981350034e-05,
+      "loss": 2.3155713081359863,
+      "step": 1913,
+      "token_acc": 0.48368200836820086
+    },
+    {
+      "epoch": 0.8778809769521844,
+      "grad_norm": 0.33795198798179626,
+      "learning_rate": 3.880981145634704e-05,
+      "loss": 2.3566064834594727,
+      "step": 1914,
+      "token_acc": 0.5001373249107388
+    },
+    {
+      "epoch": 0.8783396399495471,
+      "grad_norm": 0.33012568950653076,
+      "learning_rate": 3.852343065674507e-05,
+      "loss": 2.400451421737671,
+      "step": 1915,
+      "token_acc": 0.4868165417707466
+    },
+    {
+      "epoch": 0.8787983029469097,
+      "grad_norm": 0.3260754346847534,
+      "learning_rate": 3.8238068046557276e-05,
+      "loss": 2.2927944660186768,
+      "step": 1916,
+      "token_acc": 0.4871099050203528
+    },
+    {
+      "epoch": 0.8792569659442725,
+      "grad_norm": 0.3363783657550812,
+      "learning_rate": 3.795372425540006e-05,
+      "loss": 2.3306884765625,
+      "step": 1917,
+      "token_acc": 0.49074329925393756
+    },
+    {
+      "epoch": 0.8797156289416351,
+      "grad_norm": 0.32986387610435486,
+      "learning_rate": 3.76703999106418e-05,
+      "loss": 2.3431873321533203,
+      "step": 1918,
+      "token_acc": 0.48668885191347755
+    },
+    {
+      "epoch": 0.8801742919389978,
+      "grad_norm": 0.3526691496372223,
+      "learning_rate": 3.7388095637401754e-05,
+      "loss": 2.241054058074951,
+      "step": 1919,
+      "token_acc": 0.50748459054887
+    },
+    {
+      "epoch": 0.8806329549363605,
+      "grad_norm": 0.3382164239883423,
+      "learning_rate": 3.7106812058548376e-05,
+      "loss": 2.4098222255706787,
+      "step": 1920,
+      "token_acc": 0.5007235890014472
+    },
+    {
+      "epoch": 0.8810916179337231,
+      "grad_norm": 0.3539363443851471,
+      "learning_rate": 3.682654979469807e-05,
+      "loss": 2.3490705490112305,
+      "step": 1921,
+      "token_acc": 0.48076383038472337
+    },
+    {
+      "epoch": 0.8815502809310859,
+      "grad_norm": 0.3289749026298523,
+      "learning_rate": 3.654730946421403e-05,
+      "loss": 2.3809146881103516,
+      "step": 1922,
+      "token_acc": 0.4833715596330275
+    },
+    {
+      "epoch": 0.8820089439284485,
+      "grad_norm": 0.35224565863609314,
+      "learning_rate": 3.6269091683204466e-05,
+      "loss": 2.3809540271759033,
+      "step": 1923,
+      "token_acc": 0.5006961849067112
+    },
+    {
+      "epoch": 0.8824676069258113,
+      "grad_norm": 0.34404832124710083,
+      "learning_rate": 3.5991897065521693e-05,
+      "loss": 2.434966564178467,
+      "step": 1924,
+      "token_acc": 0.48721511951083935
+    },
+    {
+      "epoch": 0.8829262699231739,
+      "grad_norm": 0.36163192987442017,
+      "learning_rate": 3.571572622276026e-05,
+      "loss": 2.3249623775482178,
+      "step": 1925,
+      "token_acc": 0.5135212888377445
+    },
+    {
+      "epoch": 0.8833849329205367,
+      "grad_norm": 0.3366922438144684,
+      "learning_rate": 3.544057976425619e-05,
+      "loss": 2.263253688812256,
+      "step": 1926,
+      "token_acc": 0.49521465682253213
+    },
+    {
+      "epoch": 0.8838435959178993,
+      "grad_norm": 0.3323342204093933,
+      "learning_rate": 3.5166458297085146e-05,
+      "loss": 2.2945990562438965,
+      "step": 1927,
+      "token_acc": 0.5084840055632823
+    },
+    {
+      "epoch": 0.884302258915262,
+      "grad_norm": 0.35745319724082947,
+      "learning_rate": 3.489336242606111e-05,
+      "loss": 2.3411989212036133,
+      "step": 1928,
+      "token_acc": 0.49016203703703703
+    },
+    {
+      "epoch": 0.8847609219126247,
+      "grad_norm": 0.34900030493736267,
+      "learning_rate": 3.462129275373577e-05,
+      "loss": 2.3102035522460938,
+      "step": 1929,
+      "token_acc": 0.4896004378762999
+    },
+    {
+      "epoch": 0.8852195849099874,
+      "grad_norm": 0.3383863866329193,
+      "learning_rate": 3.4350249880395924e-05,
+      "loss": 2.283487558364868,
+      "step": 1930,
+      "token_acc": 0.5040401225968236
+    },
+    {
+      "epoch": 0.8856782479073501,
+      "grad_norm": 0.32288071513175964,
+      "learning_rate": 3.408023440406355e-05,
+      "loss": 2.2258594036102295,
+      "step": 1931,
+      "token_acc": 0.5165745856353591
+    },
+    {
+      "epoch": 0.8861369109047128,
+      "grad_norm": 0.36917999386787415,
+      "learning_rate": 3.381124692049331e-05,
+      "loss": 2.3541009426116943,
+      "step": 1932,
+      "token_acc": 0.4850182021842621
+    },
+    {
+      "epoch": 0.8865955739020754,
+      "grad_norm": 0.33864521980285645,
+      "learning_rate": 3.354328802317197e-05,
+      "loss": 2.418692111968994,
+      "step": 1933,
+      "token_acc": 0.4846473029045643
+    },
+    {
+      "epoch": 0.8870542368994382,
+      "grad_norm": 0.33407339453697205,
+      "learning_rate": 3.327635830331677e-05,
+      "loss": 2.3102731704711914,
+      "step": 1934,
+      "token_acc": 0.4883398112159911
+    },
+    {
+      "epoch": 0.8875128998968008,
+      "grad_norm": 0.3547273278236389,
+      "learning_rate": 3.3010458349874206e-05,
+      "loss": 2.3274271488189697,
+      "step": 1935,
+      "token_acc": 0.5056850483229107
+    },
+    {
+      "epoch": 0.8879715628941636,
+      "grad_norm": 0.3932439982891083,
+      "learning_rate": 3.2745588749518775e-05,
+      "loss": 2.3530149459838867,
+      "step": 1936,
+      "token_acc": 0.49493243243243246
+    },
+    {
+      "epoch": 0.8884302258915262,
+      "grad_norm": 0.3504945635795593,
+      "learning_rate": 3.248175008665161e-05,
+      "loss": 2.286787986755371,
+      "step": 1937,
+      "token_acc": 0.4957313602731929
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.3506946861743927,
+      "learning_rate": 3.221894294339911e-05,
+      "loss": 2.3112597465515137,
+      "step": 1938,
+      "token_acc": 0.5051399200456882
+    },
+    {
+      "epoch": 0.8893475518862516,
+      "grad_norm": 0.3374845087528229,
+      "learning_rate": 3.1957167899611836e-05,
+      "loss": 2.3393359184265137,
+      "step": 1939,
+      "token_acc": 0.4937466014138119
+    },
+    {
+      "epoch": 0.8898062148836142,
+      "grad_norm": 0.34044623374938965,
+      "learning_rate": 3.169642553286334e-05,
+      "loss": 2.4234485626220703,
+      "step": 1940,
+      "token_acc": 0.47452407614781633
+    },
+    {
+      "epoch": 0.890264877880977,
+      "grad_norm": 0.34031492471694946,
+      "learning_rate": 3.143671641844831e-05,
+      "loss": 2.317091464996338,
+      "step": 1941,
+      "token_acc": 0.5057565789473685
+    },
+    {
+      "epoch": 0.8907235408783396,
+      "grad_norm": 0.37146690487861633,
+      "learning_rate": 3.117804112938205e-05,
+      "loss": 2.295835018157959,
+      "step": 1942,
+      "token_acc": 0.5030538589672404
+    },
+    {
+      "epoch": 0.8911822038757024,
+      "grad_norm": 0.34840840101242065,
+      "learning_rate": 3.092040023639869e-05,
+      "loss": 2.332411766052246,
+      "step": 1943,
+      "token_acc": 0.4861816130851664
+    },
+    {
+      "epoch": 0.891640866873065,
+      "grad_norm": 0.34565091133117676,
+      "learning_rate": 3.066379430795002e-05,
+      "loss": 2.327288866043091,
+      "step": 1944,
+      "token_acc": 0.5061077179344808
+    },
+    {
+      "epoch": 0.8920995298704277,
+      "grad_norm": 0.3513728678226471,
+      "learning_rate": 3.040822391020459e-05,
+      "loss": 2.373246192932129,
+      "step": 1945,
+      "token_acc": 0.49233769852326553
+    },
+    {
+      "epoch": 0.8925581928677904,
+      "grad_norm": 0.34450462460517883,
+      "learning_rate": 3.0153689607045842e-05,
+      "loss": 2.340646266937256,
+      "step": 1946,
+      "token_acc": 0.49351000540832884
+    },
+    {
+      "epoch": 0.8930168558651531,
+      "grad_norm": 0.3527611792087555,
+      "learning_rate": 2.9900191960071545e-05,
+      "loss": 2.323350429534912,
+      "step": 1947,
+      "token_acc": 0.48221786614393725
+    },
+    {
+      "epoch": 0.8934755188625157,
+      "grad_norm": 0.32077494263648987,
+      "learning_rate": 2.9647731528591848e-05,
+      "loss": 2.3266754150390625,
+      "step": 1948,
+      "token_acc": 0.4935704514363885
+    },
+    {
+      "epoch": 0.8939341818598785,
+      "grad_norm": 0.35171034932136536,
+      "learning_rate": 2.9396308869628795e-05,
+      "loss": 2.3253722190856934,
+      "step": 1949,
+      "token_acc": 0.49752611324903795
+    },
+    {
+      "epoch": 0.8943928448572411,
+      "grad_norm": 0.35658660531044006,
+      "learning_rate": 2.914592453791448e-05,
+      "loss": 2.2291510105133057,
+      "step": 1950,
+      "token_acc": 0.5065844774446624
+    },
+    {
+      "epoch": 0.8948515078546039,
+      "grad_norm": 0.3288397789001465,
+      "learning_rate": 2.8896579085889994e-05,
+      "loss": 2.298976421356201,
+      "step": 1951,
+      "token_acc": 0.49466484268125854
+    },
+    {
+      "epoch": 0.8953101708519665,
+      "grad_norm": 0.3537818491458893,
+      "learning_rate": 2.86482730637046e-05,
+      "loss": 2.241769313812256,
+      "step": 1952,
+      "token_acc": 0.4859839816933638
+    },
+    {
+      "epoch": 0.8957688338493293,
+      "grad_norm": 0.3319143056869507,
+      "learning_rate": 2.840100701921383e-05,
+      "loss": 2.3408279418945312,
+      "step": 1953,
+      "token_acc": 0.4912179671753527
+    },
+    {
+      "epoch": 0.8962274968466919,
+      "grad_norm": 0.3537519574165344,
+      "learning_rate": 2.8154781497978898e-05,
+      "loss": 2.398258686065674,
+      "step": 1954,
+      "token_acc": 0.48768606224627875
+    },
+    {
+      "epoch": 0.8966861598440545,
+      "grad_norm": 0.35952675342559814,
+      "learning_rate": 2.7909597043265013e-05,
+      "loss": 2.2318286895751953,
+      "step": 1955,
+      "token_acc": 0.5102330869812394
+    },
+    {
+      "epoch": 0.8971448228414173,
+      "grad_norm": 0.3568873107433319,
+      "learning_rate": 2.7665454196040662e-05,
+      "loss": 2.447822093963623,
+      "step": 1956,
+      "token_acc": 0.4745945945945946
+    },
+    {
+      "epoch": 0.8976034858387799,
+      "grad_norm": 0.3545272946357727,
+      "learning_rate": 2.7422353494975905e-05,
+      "loss": 2.2397472858428955,
+      "step": 1957,
+      "token_acc": 0.5025
+    },
+    {
+      "epoch": 0.8980621488361427,
+      "grad_norm": 0.33152303099632263,
+      "learning_rate": 2.7180295476441573e-05,
+      "loss": 2.2786643505096436,
+      "step": 1958,
+      "token_acc": 0.5153407548194406
+    },
+    {
+      "epoch": 0.8985208118335053,
+      "grad_norm": 0.34092867374420166,
+      "learning_rate": 2.6939280674508016e-05,
+      "loss": 2.3911585807800293,
+      "step": 1959,
+      "token_acc": 0.4718826405867971
+    },
+    {
+      "epoch": 0.898979474830868,
+      "grad_norm": 0.34896132349967957,
+      "learning_rate": 2.669930962094358e-05,
+      "loss": 2.31127667427063,
+      "step": 1960,
+      "token_acc": 0.5040401225968236
+    },
+    {
+      "epoch": 0.8994381378282307,
+      "grad_norm": 0.3546248972415924,
+      "learning_rate": 2.6460382845214126e-05,
+      "loss": 2.380032539367676,
+      "step": 1961,
+      "token_acc": 0.4902122966639096
+    },
+    {
+      "epoch": 0.8998968008255934,
+      "grad_norm": 0.3504306375980377,
+      "learning_rate": 2.6222500874481025e-05,
+      "loss": 2.3645501136779785,
+      "step": 1962,
+      "token_acc": 0.4916810097532989
+    },
+    {
+      "epoch": 0.9003554638229561,
+      "grad_norm": 0.3660736680030823,
+      "learning_rate": 2.5985664233600827e-05,
+      "loss": 2.263450860977173,
+      "step": 1963,
+      "token_acc": 0.5102681118083285
+    },
+    {
+      "epoch": 0.9008141268203188,
+      "grad_norm": 0.3365185856819153,
+      "learning_rate": 2.574987344512336e-05,
+      "loss": 2.3248138427734375,
+      "step": 1964,
+      "token_acc": 0.49672084402623323
+    },
+    {
+      "epoch": 0.9012727898176814,
+      "grad_norm": 0.34839728474617004,
+      "learning_rate": 2.5515129029290984e-05,
+      "loss": 2.3102612495422363,
+      "step": 1965,
+      "token_acc": 0.5005727376861397
+    },
+    {
+      "epoch": 0.9017314528150442,
+      "grad_norm": 0.34304359555244446,
+      "learning_rate": 2.5281431504037556e-05,
+      "loss": 2.2776575088500977,
+      "step": 1966,
+      "token_acc": 0.5128792215226102
+    },
+    {
+      "epoch": 0.9021901158124068,
+      "grad_norm": 0.3406859338283539,
+      "learning_rate": 2.504878138498684e-05,
+      "loss": 2.281919479370117,
+      "step": 1967,
+      "token_acc": 0.5009644530173601
+    },
+    {
+      "epoch": 0.9026487788097696,
+      "grad_norm": 0.3376754820346832,
+      "learning_rate": 2.48171791854519e-05,
+      "loss": 2.324916362762451,
+      "step": 1968,
+      "token_acc": 0.4943374858437146
+    },
+    {
+      "epoch": 0.9031074418071322,
+      "grad_norm": 0.3408062160015106,
+      "learning_rate": 2.4586625416433473e-05,
+      "loss": 2.3978116512298584,
+      "step": 1969,
+      "token_acc": 0.4809536859413538
+    },
+    {
+      "epoch": 0.903566104804495,
+      "grad_norm": 0.3415771424770355,
+      "learning_rate": 2.435712058661921e-05,
+      "loss": 2.31131911277771,
+      "step": 1970,
+      "token_acc": 0.48966480446927374
+    },
+    {
+      "epoch": 0.9040247678018576,
+      "grad_norm": 0.3390965163707733,
+      "learning_rate": 2.4128665202382327e-05,
+      "loss": 2.278390645980835,
+      "step": 1971,
+      "token_acc": 0.5093081411503195
+    },
+    {
+      "epoch": 0.9044834307992202,
+      "grad_norm": 0.3491651117801666,
+      "learning_rate": 2.3901259767780515e-05,
+      "loss": 2.2257015705108643,
+      "step": 1972,
+      "token_acc": 0.5162647223780146
+    },
+    {
+      "epoch": 0.904942093796583,
+      "grad_norm": 0.36659112572669983,
+      "learning_rate": 2.367490478455514e-05,
+      "loss": 2.389982223510742,
+      "step": 1973,
+      "token_acc": 0.4817056396148556
+    },
+    {
+      "epoch": 0.9054007567939456,
+      "grad_norm": 0.34485214948654175,
+      "learning_rate": 2.3449600752129597e-05,
+      "loss": 2.40696382522583,
+      "step": 1974,
+      "token_acc": 0.4791957553755934
+    },
+    {
+      "epoch": 0.9058594197913084,
+      "grad_norm": 0.34363695979118347,
+      "learning_rate": 2.3225348167608685e-05,
+      "loss": 2.3907063007354736,
+      "step": 1975,
+      "token_acc": 0.4834187112429226
+    },
+    {
+      "epoch": 0.906318082788671,
+      "grad_norm": 0.36876770853996277,
+      "learning_rate": 2.3002147525777118e-05,
+      "loss": 2.33627986907959,
+      "step": 1976,
+      "token_acc": 0.496875
+    },
+    {
+      "epoch": 0.9067767457860337,
+      "grad_norm": 0.3767753541469574,
+      "learning_rate": 2.2779999319098856e-05,
+      "loss": 2.406512975692749,
+      "step": 1977,
+      "token_acc": 0.48400352216025827
+    },
+    {
+      "epoch": 0.9072354087833964,
+      "grad_norm": 0.35412389039993286,
+      "learning_rate": 2.255890403771571e-05,
+      "loss": 2.4416961669921875,
+      "step": 1978,
+      "token_acc": 0.4797058022337238
+    },
+    {
+      "epoch": 0.9076940717807591,
+      "grad_norm": 0.35427266359329224,
+      "learning_rate": 2.233886216944614e-05,
+      "loss": 2.257330894470215,
+      "step": 1979,
+      "token_acc": 0.5059017293439473
+    },
+    {
+      "epoch": 0.9081527347781218,
+      "grad_norm": 0.3480878472328186,
+      "learning_rate": 2.211987419978484e-05,
+      "loss": 2.4038097858428955,
+      "step": 1980,
+      "token_acc": 0.4867798497077651
+    },
+    {
+      "epoch": 0.9086113977754845,
+      "grad_norm": 0.3471308648586273,
+      "learning_rate": 2.1901940611900705e-05,
+      "loss": 2.3939414024353027,
+      "step": 1981,
+      "token_acc": 0.4843110504774898
+    },
+    {
+      "epoch": 0.9090700607728471,
+      "grad_norm": 0.34885460138320923,
+      "learning_rate": 2.168506188663666e-05,
+      "loss": 2.367527484893799,
+      "step": 1982,
+      "token_acc": 0.4946384382733022
+    },
+    {
+      "epoch": 0.9095287237702099,
+      "grad_norm": 0.3513716459274292,
+      "learning_rate": 2.1469238502507925e-05,
+      "loss": 2.3397727012634277,
+      "step": 1983,
+      "token_acc": 0.490473441108545
+    },
+    {
+      "epoch": 0.9099873867675725,
+      "grad_norm": 0.35325193405151367,
+      "learning_rate": 2.125447093570154e-05,
+      "loss": 2.3433427810668945,
+      "step": 1984,
+      "token_acc": 0.4988642816581488
+    },
+    {
+      "epoch": 0.9104460497649353,
+      "grad_norm": 0.3568861186504364,
+      "learning_rate": 2.1040759660074793e-05,
+      "loss": 2.2619080543518066,
+      "step": 1985,
+      "token_acc": 0.49764428739693756
+    },
+    {
+      "epoch": 0.9109047127622979,
+      "grad_norm": 0.33976322412490845,
+      "learning_rate": 2.0828105147154273e-05,
+      "loss": 2.2690229415893555,
+      "step": 1986,
+      "token_acc": 0.5021881838074398
+    },
+    {
+      "epoch": 0.9113633757596606,
+      "grad_norm": 0.337329238653183,
+      "learning_rate": 2.061650786613545e-05,
+      "loss": 2.262986660003662,
+      "step": 1987,
+      "token_acc": 0.49471046770601335
+    },
+    {
+      "epoch": 0.9118220387570233,
+      "grad_norm": 0.3602612316608429,
+      "learning_rate": 2.040596828388058e-05,
+      "loss": 2.340639591217041,
+      "step": 1988,
+      "token_acc": 0.49459084604715675
+    },
+    {
+      "epoch": 0.9122807017543859,
+      "grad_norm": 0.3446958363056183,
+      "learning_rate": 2.019648686491865e-05,
+      "loss": 2.3168845176696777,
+      "step": 1989,
+      "token_acc": 0.498486099642169
+    },
+    {
+      "epoch": 0.9127393647517487,
+      "grad_norm": 0.3297688663005829,
+      "learning_rate": 1.9988064071443767e-05,
+      "loss": 2.285585641860962,
+      "step": 1990,
+      "token_acc": 0.49986029617211514
+    },
+    {
+      "epoch": 0.9131980277491113,
+      "grad_norm": 0.36058929562568665,
+      "learning_rate": 1.9780700363314253e-05,
+      "loss": 2.2517731189727783,
+      "step": 1991,
+      "token_acc": 0.5017103762827823
+    },
+    {
+      "epoch": 0.913656690746474,
+      "grad_norm": 0.35496366024017334,
+      "learning_rate": 1.957439619805196e-05,
+      "loss": 2.2948570251464844,
+      "step": 1992,
+      "token_acc": 0.49843971631205675
+    },
+    {
+      "epoch": 0.9141153537438367,
+      "grad_norm": 0.33351022005081177,
+      "learning_rate": 1.9369152030840554e-05,
+      "loss": 2.3222427368164062,
+      "step": 1993,
+      "token_acc": 0.5050223214285714
+    },
+    {
+      "epoch": 0.9145740167411994,
+      "grad_norm": 0.33928194642066956,
+      "learning_rate": 1.916496831452552e-05,
+      "loss": 2.30348539352417,
+      "step": 1994,
+      "token_acc": 0.49781181619256015
+    },
+    {
+      "epoch": 0.9150326797385621,
+      "grad_norm": 0.3465850055217743,
+      "learning_rate": 1.8961845499611998e-05,
+      "loss": 2.2647271156311035,
+      "step": 1995,
+      "token_acc": 0.5027042413891261
+    },
+    {
+      "epoch": 0.9154913427359248,
+      "grad_norm": 0.33816853165626526,
+      "learning_rate": 1.8759784034264925e-05,
+      "loss": 2.2912468910217285,
+      "step": 1996,
+      "token_acc": 0.49342481417953116
+    },
+    {
+      "epoch": 0.9159500057332874,
+      "grad_norm": 0.35156700015068054,
+      "learning_rate": 1.855878436430708e-05,
+      "loss": 2.423896312713623,
+      "step": 1997,
+      "token_acc": 0.5009812167087188
+    },
+    {
+      "epoch": 0.9164086687306502,
+      "grad_norm": 0.33435505628585815,
+      "learning_rate": 1.835884693321871e-05,
+      "loss": 2.2609198093414307,
+      "step": 1998,
+      "token_acc": 0.5063254744105808
+    },
+    {
+      "epoch": 0.9168673317280128,
+      "grad_norm": 0.3435823917388916,
+      "learning_rate": 1.8159972182136386e-05,
+      "loss": 2.3326003551483154,
+      "step": 1999,
+      "token_acc": 0.4881845982763414
+    },
+    {
+      "epoch": 0.9173259947253756,
+      "grad_norm": 0.33998167514801025,
+      "learning_rate": 1.7962160549851945e-05,
+      "loss": 2.3448486328125,
+      "step": 2000,
+      "token_acc": 0.4971799210377891
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 2181,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.161068005676181e+19,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/training_args.bin b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/training_args.bin
new file mode 100644
index 0000000000000000000000000000000000000000..aafd89a8edd3c38f59f8dee28044cb9acd741e72
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:200d346876ba234fd0173cd966223e4da8153079cadd47fac8343ec67a256e4b
+size 8913
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/zero_to_fp32.py b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/zero_to_fp32.py
new file mode 100644
index 0000000000000000000000000000000000000000..5995d6e6f04e43b989587aa9022a3aef0c66d694
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2000/zero_to_fp32.py
@@ -0,0 +1,760 @@
+#!/usr/bin/env python
+
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
+# This script extracts fp32 consolidated weights from a zero 1, 2 and 3 DeepSpeed checkpoints. It gets
+# copied into the top level checkpoint dir, so the user can easily do the conversion at any point in
+# the future. Once extracted, the weights don't require DeepSpeed and can be used in any
+# application.
+#
+# example:
+#   python zero_to_fp32.py . output_dir/
+#   or
+#   python zero_to_fp32.py . output_dir/ --safe_serialization
+
+import argparse
+import torch
+import glob
+import math
+import os
+import re
+import gc
+import json
+import numpy as np
+from tqdm import tqdm
+from collections import OrderedDict
+from dataclasses import dataclass
+
+# while this script doesn't use deepspeed to recover data, since the checkpoints are pickled with
+# DeepSpeed data structures it has to be available in the current python environment.
+from deepspeed.utils import logger
+from deepspeed.checkpoint.constants import (DS_VERSION, OPTIMIZER_STATE_DICT, SINGLE_PARTITION_OF_FP32_GROUPS,
+                                            FP32_FLAT_GROUPS, ZERO_STAGE, PARTITION_COUNT, PARAM_SHAPES, BUFFER_NAMES,
+                                            FROZEN_PARAM_SHAPES, FROZEN_PARAM_FRAGMENTS)
+
+
+@dataclass
+class zero_model_state:
+    buffers: dict()
+    param_shapes: dict()
+    shared_params: list
+    ds_version: int
+    frozen_param_shapes: dict()
+    frozen_param_fragments: dict()
+
+
+debug = 0
+
+# load to cpu
+device = torch.device('cpu')
+
+
+def atoi(text):
+    return int(text) if text.isdigit() else text
+
+
+def natural_keys(text):
+    '''
+    alist.sort(key=natural_keys) sorts in human order
+    http://nedbatchelder.com/blog/200712/human_sorting.html
+    (See Toothy's implementation in the comments)
+    '''
+    return [atoi(c) for c in re.split(r'(\d+)', text)]
+
+
+def get_model_state_file(checkpoint_dir, zero_stage):
+    if not os.path.isdir(checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{checkpoint_dir}' doesn't exist")
+
+    # there should be only one file
+    if zero_stage <= 2:
+        file = os.path.join(checkpoint_dir, "mp_rank_00_model_states.pt")
+    elif zero_stage == 3:
+        file = os.path.join(checkpoint_dir, "zero_pp_rank_0_mp_rank_00_model_states.pt")
+
+    if not os.path.exists(file):
+        raise FileNotFoundError(f"can't find model states file at '{file}'")
+
+    return file
+
+
+def get_checkpoint_files(checkpoint_dir, glob_pattern):
+    # XXX: need to test that this simple glob rule works for multi-node setup too
+    ckpt_files = sorted(glob.glob(os.path.join(checkpoint_dir, glob_pattern)), key=natural_keys)
+
+    if len(ckpt_files) == 0:
+        raise FileNotFoundError(f"can't find {glob_pattern} files in directory '{checkpoint_dir}'")
+
+    return ckpt_files
+
+
+def get_optim_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_optim_states.pt")
+
+
+def get_model_state_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_model_states.pt")
+
+
+def parse_model_states(files):
+    zero_model_states = []
+    for file in files:
+        state_dict = torch.load(file, map_location=device, weights_only=False)
+
+        if BUFFER_NAMES not in state_dict:
+            raise ValueError(f"{file} is not a model state checkpoint")
+        buffer_names = state_dict[BUFFER_NAMES]
+        if debug:
+            print("Found buffers:", buffer_names)
+
+        # recover just the buffers while restoring them to fp32 if they were saved in fp16
+        buffers = {k: v.float() for k, v in state_dict["module"].items() if k in buffer_names}
+        param_shapes = state_dict[PARAM_SHAPES]
+
+        # collect parameters that are included in param_shapes
+        param_names = []
+        for s in param_shapes:
+            for name in s.keys():
+                param_names.append(name)
+
+        # update with frozen parameters
+        frozen_param_shapes = state_dict.get(FROZEN_PARAM_SHAPES, None)
+        if frozen_param_shapes is not None:
+            if debug:
+                print(f"Found frozen_param_shapes: {frozen_param_shapes}")
+            param_names += list(frozen_param_shapes.keys())
+
+        # handle shared params
+        shared_params = [[k, v] for k, v in state_dict["shared_params"].items()]
+
+        ds_version = state_dict.get(DS_VERSION, None)
+
+        frozen_param_fragments = state_dict.get(FROZEN_PARAM_FRAGMENTS, None)
+
+        z_model_state = zero_model_state(buffers=buffers,
+                                         param_shapes=param_shapes,
+                                         shared_params=shared_params,
+                                         ds_version=ds_version,
+                                         frozen_param_shapes=frozen_param_shapes,
+                                         frozen_param_fragments=frozen_param_fragments)
+        zero_model_states.append(z_model_state)
+
+    return zero_model_states
+
+
+def parse_optim_states(files, ds_checkpoint_dir):
+    total_files = len(files)
+    state_dicts = []
+    for f in tqdm(files, desc='Loading checkpoint shards'):
+        state_dict = torch.load(f, map_location=device, mmap=True, weights_only=False)
+        # immediately discard the potentially huge 2 optimizer states as we only care for fp32 master weights
+        # and also handle the case where it was already removed by another helper script
+        state_dict["optimizer_state_dict"].pop("optimizer_state_dict", None)
+        state_dicts.append(state_dict)
+
+    if ZERO_STAGE not in state_dicts[0][OPTIMIZER_STATE_DICT]:
+        raise ValueError(f"{files[0]} is not a zero checkpoint")
+    zero_stage = state_dicts[0][OPTIMIZER_STATE_DICT][ZERO_STAGE]
+    world_size = state_dicts[0][OPTIMIZER_STATE_DICT][PARTITION_COUNT]
+
+    # For ZeRO-2 each param group can have different partition_count as data parallelism for expert
+    # parameters can be different from data parallelism for non-expert parameters. So we can just
+    # use the max of the partition_count to get the dp world_size.
+
+    if type(world_size) is list:
+        world_size = max(world_size)
+
+    if world_size != total_files:
+        raise ValueError(
+            f"Expected {world_size} of '*_optim_states.pt' under '{ds_checkpoint_dir}' but found {total_files} files. "
+            "Possibly due to an overwrite of an old checkpoint, or a checkpoint didn't get saved by one or more processes."
+        )
+
+    # the groups are named differently in each stage
+    if zero_stage <= 2:
+        fp32_groups_key = SINGLE_PARTITION_OF_FP32_GROUPS
+    elif zero_stage == 3:
+        fp32_groups_key = FP32_FLAT_GROUPS
+    else:
+        raise ValueError(f"unknown zero stage {zero_stage}")
+
+    fp32_flat_groups = [state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key] for i in range(len(state_dicts))]
+    return zero_stage, world_size, fp32_flat_groups
+
+
+def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters):
+    """
+    Returns fp32 state_dict reconstructed from ds checkpoint
+
+    Args:
+        - ``ds_checkpoint_dir``: path to the deepspeed checkpoint folder (where the optimizer files are)
+
+    """
+    print(f"Processing zero checkpoint '{ds_checkpoint_dir}'")
+
+    optim_files = get_optim_files(ds_checkpoint_dir)
+    zero_stage, world_size, fp32_flat_groups = parse_optim_states(optim_files, ds_checkpoint_dir)
+    print(f"Detected checkpoint of type zero stage {zero_stage}, world_size: {world_size}")
+
+    model_files = get_model_state_files(ds_checkpoint_dir)
+
+    zero_model_states = parse_model_states(model_files)
+    print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
+
+    if zero_stage <= 2:
+        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+    elif zero_stage == 3:
+        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+
+
+def _zero2_merge_frozen_params(state_dict, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+
+    frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+    frozen_param_fragments = zero_model_states[0].frozen_param_fragments
+
+    if debug:
+        num_elem = sum(s.numel() for s in frozen_param_shapes.values())
+        print(f'rank 0: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in frozen_param_fragments.values()])
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+
+    total_params = 0
+    total_numel = 0
+    for name, shape in frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+
+        state_dict[name] = frozen_param_fragments[name]
+
+        if debug:
+            print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _has_callable(obj, fn):
+    attr = getattr(obj, fn, None)
+    return callable(attr)
+
+
+def _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+
+    # Reconstruction protocol:
+    #
+    # XXX: document this
+
+    if debug:
+        for i in range(world_size):
+            for j in range(len(fp32_flat_groups[0])):
+                print(f"{FP32_FLAT_GROUPS}[{i}][{j}].shape={fp32_flat_groups[i][j].shape}")
+
+    # XXX: memory usage doubles here (zero2)
+    num_param_groups = len(fp32_flat_groups[0])
+    merged_single_partition_of_fp32_groups = []
+    for i in range(num_param_groups):
+        merged_partitions = [sd[i] for sd in fp32_flat_groups]
+        full_single_fp32_vector = torch.cat(merged_partitions, 0)
+        merged_single_partition_of_fp32_groups.append(full_single_fp32_vector)
+    avail_numel = sum(
+        [full_single_fp32_vector.numel() for full_single_fp32_vector in merged_single_partition_of_fp32_groups])
+
+    if debug:
+        wanted_params = sum([len(shapes) for shapes in param_shapes])
+        wanted_numel = sum([sum(shape.numel() for shape in shapes.values()) for shapes in param_shapes])
+        # not asserting if there is a mismatch due to possible padding
+        print(f"Have {avail_numel} numels to process.")
+        print(f"Need {wanted_numel} numels in {wanted_params} params.")
+
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    total_numel = 0
+    total_params = 0
+    for shapes, full_single_fp32_vector in zip(param_shapes, merged_single_partition_of_fp32_groups):
+        offset = 0
+        avail_numel = full_single_fp32_vector.numel()
+        for name, shape in shapes.items():
+
+            unpartitioned_numel = shape.numel() if _has_callable(shape, 'numel') else math.prod(shape)
+            total_numel += unpartitioned_numel
+            total_params += 1
+
+            if debug:
+                print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+            state_dict[name] = full_single_fp32_vector.narrow(0, offset, unpartitioned_numel).view(shape)
+            offset += unpartitioned_numel
+
+        # Z2 started to align to 2*world_size to improve nccl performance. Therefore both offset and
+        # avail_numel can differ by anywhere between 0..2*world_size. Due to two unrelated complex
+        # paddings performed in the code it's almost impossible to predict the exact numbers w/o the
+        # live optimizer object, so we are checking that the numbers are within the right range
+        align_to = 2 * world_size
+
+        def zero2_align(x):
+            return align_to * math.ceil(x / align_to)
+
+        if debug:
+            print(f"original offset={offset}, avail_numel={avail_numel}")
+
+        offset = zero2_align(offset)
+        avail_numel = zero2_align(avail_numel)
+
+        if debug:
+            print(f"aligned  offset={offset}, avail_numel={avail_numel}")
+
+        # Sanity check
+        if offset != avail_numel:
+            raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+
+    print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+
+    if not exclude_frozen_parameters:
+        _zero2_merge_frozen_params(state_dict, zero_model_states)
+
+    _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+
+    return state_dict
+
+
+def zero3_partitioned_param_info(unpartitioned_numel, world_size):
+    remainder = unpartitioned_numel % world_size
+    padding_numel = (world_size - remainder) if remainder else 0
+    partitioned_numel = math.ceil(unpartitioned_numel / world_size)
+    return partitioned_numel, padding_numel
+
+
+def _zero3_merge_frozen_params(state_dict, world_size, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+
+    if debug:
+        for i in range(world_size):
+            num_elem = sum(s.numel() for s in zero_model_states[i].frozen_param_fragments.values())
+            print(f'rank {i}: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+
+        frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in zero_model_states[0].frozen_param_fragments.values()]) * world_size
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+
+    total_params = 0
+    total_numel = 0
+    for name, shape in zero_model_states[0].frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+
+        param_frags = tuple(model_state.frozen_param_fragments[name] for model_state in zero_model_states)
+        state_dict[name] = torch.cat(param_frags, 0).narrow(0, 0, unpartitioned_numel).view(shape)
+
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+
+        if debug:
+            print(
+                f"Frozen params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+
+
+class GatheredTensor:
+    """
+    A pseudo tensor that collects partitioned weights.
+    It is more memory efficient when there are multiple groups.
+    """
+
+    def __init__(self, flat_groups, flat_groups_offset, offset, partitioned_numel, shape):
+        self.flat_groups = flat_groups
+        self.flat_groups_offset = flat_groups_offset
+        self.offset = offset
+        self.partitioned_numel = partitioned_numel
+        self.shape = shape
+        self.dtype = self.flat_groups[0][0].dtype
+
+    def contiguous(self):
+        """
+        Merge partitioned weights from flat_groups into a single tensor.
+        """
+        end_idx = self.offset + self.partitioned_numel
+        world_size = len(self.flat_groups)
+        pad_flat_param_chunks = []
+
+        for rank_i in range(world_size):
+            # for each rank, we need to collect weights from related group/groups
+            flat_groups_at_rank_i = self.flat_groups[rank_i]
+            start_group_id = None
+            end_group_id = None
+            for group_id in range(len(self.flat_groups_offset)):
+                if self.flat_groups_offset[group_id] <= self.offset < self.flat_groups_offset[group_id + 1]:
+                    start_group_id = group_id
+                if self.flat_groups_offset[group_id] < end_idx <= self.flat_groups_offset[group_id + 1]:
+                    end_group_id = group_id
+                    break
+            # collect weights from related group/groups
+            for group_id in range(start_group_id, end_group_id + 1):
+                flat_tensor = flat_groups_at_rank_i[group_id]
+                start_offset = self.offset - self.flat_groups_offset[group_id]
+                end_offset = min(end_idx, self.flat_groups_offset[group_id + 1]) - self.flat_groups_offset[group_id]
+                pad_flat_param_chunks.append(flat_tensor[start_offset:end_offset])
+
+        # collect weights from all ranks
+        pad_flat_param = torch.cat(pad_flat_param_chunks, dim=0)
+        param = pad_flat_param[:self.shape.numel()].view(self.shape).contiguous()
+        return param
+
+
+def _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    avail_numel = sum([flat_group.numel() for flat_group in fp32_flat_groups[0]]) * world_size
+
+    # Reconstruction protocol: For zero3 we need to zip the partitions together at boundary of each
+    # param, re-consolidating each param, while dealing with padding if any
+
+    # merge list of dicts, preserving order
+    param_shapes = {k: v for d in param_shapes for k, v in d.items()}
+
+    if debug:
+        for i in range(world_size):
+            print(f"{FP32_FLAT_GROUPS}[{i}].shape={fp32_flat_groups[i].shape}")
+
+        wanted_params = len(param_shapes)
+        wanted_numel = sum(shape.numel() for shape in param_shapes.values())
+        # not asserting if there is a mismatch due to possible padding
+        avail_numel = fp32_flat_groups[0].numel() * world_size
+        print(f"Trainable params: Have {avail_numel} numels to process.")
+        print(f"Trainable params: Need {wanted_numel} numels in {wanted_params} params.")
+
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    offset = 0
+    total_numel = 0
+    total_params = 0
+    flat_groups_offset = [0] + list(np.cumsum([flat_tensor.numel() for flat_tensor in fp32_flat_groups[0]]))
+    for name, shape in tqdm(param_shapes.items(), desc='Gathering sharded weights'):
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        total_params += 1
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+
+        if debug:
+            print(
+                f"Trainable params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+
+        # memory efficient tensor
+        tensor = GatheredTensor(fp32_flat_groups, flat_groups_offset, offset, partitioned_numel, shape)
+        state_dict[name] = tensor
+        offset += partitioned_numel
+
+    offset *= world_size
+
+    # Sanity check
+    if offset != avail_numel:
+        raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+
+    print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+
+    if not exclude_frozen_parameters:
+        _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
+
+    _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+
+    return state_dict
+
+
+def to_torch_tensor(state_dict, return_empty_tensor=False):
+    """
+    Convert state_dict of GatheredTensor to torch tensor
+    """
+    torch_state_dict = {}
+    converted_tensors = {}
+    for name, tensor in state_dict.items():
+        tensor_id = id(tensor)
+        if tensor_id in converted_tensors:  # shared tensors
+            shared_tensor = torch_state_dict[converted_tensors[tensor_id]]
+            torch_state_dict[name] = shared_tensor
+        else:
+            converted_tensors[tensor_id] = name
+            if return_empty_tensor:
+                torch_state_dict[name] = torch.empty(tensor.shape, dtype=tensor.dtype)
+            else:
+                torch_state_dict[name] = tensor.contiguous()
+    return torch_state_dict
+
+
+def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir,
+                                             tag=None,
+                                             exclude_frozen_parameters=False,
+                                             lazy_mode=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
+    ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
+    via a model hub.
+
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+        - ``lazy_mode``: get state_dict in lazy mode. It returns a dict of pesduo tensor instead of torch tensor, which is more memory efficient.
+          Convert the pesduo tensor to torch tensor by ``.contiguous()``
+
+    Returns:
+        - pytorch ``state_dict``
+
+    A typical usage might be ::
+
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        # do the training and checkpoint saving
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir) # already on cpu
+        model = model.cpu() # move to cpu
+        model.load_state_dict(state_dict)
+        # submit to model hub or save the model to share with others
+
+    In this example the ``model`` will no longer be usable in the deepspeed context of the same
+    application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+
+    If you want it all done for you, use ``load_state_dict_from_zero_checkpoint`` instead.
+
+    Note: the above usage may not work if your application doesn't have sufficient free CPU memory.
+    You may need to use the offline approach using the ``zero_to_fp32.py`` script that is saved with
+    the checkpoint. Or you can load state_dict in lazy mode ::
+
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, lazy_mode=True) # not on cpu
+        for name, lazy_tensor in state_dict.item():
+            tensor = lazy_tensor.contiguous()  # to cpu
+            print(name, tensor)
+            # del tensor to release memory if it no longer in use
+    """
+    if tag is None:
+        latest_path = os.path.join(checkpoint_dir, 'latest')
+        if os.path.isfile(latest_path):
+            with open(latest_path, 'r') as fd:
+                tag = fd.read().strip()
+        else:
+            raise ValueError(f"Unable to find 'latest' file at {latest_path}")
+
+    ds_checkpoint_dir = os.path.join(checkpoint_dir, tag)
+
+    if not os.path.isdir(ds_checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
+
+    state_dict = _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters)
+    if lazy_mode:
+        return state_dict
+    else:
+        return to_torch_tensor(state_dict)
+
+
+def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir,
+                                               output_dir,
+                                               max_shard_size="5GB",
+                                               safe_serialization=False,
+                                               tag=None,
+                                               exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
+    loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
+
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``output_dir``: directory to the pytorch fp32 state_dict output files
+        - ``max_shard_size``: the maximum size for a checkpoint before being sharded, default value is 5GB
+        - ``safe_serialization``:  whether to save the model using `safetensors` or the traditional PyTorch way (that uses `pickle`).
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+    """
+
+    # Dependency pre-check
+    if safe_serialization:
+        try:
+            from safetensors.torch import save_file
+        except ImportError:
+            print('If you want to use `safe_serialization`, please `pip install safetensors`')
+            raise
+    if max_shard_size is not None:
+        try:
+            from huggingface_hub import split_torch_state_dict_into_shards
+        except ImportError:
+            print('If you want to use `max_shard_size`, please `pip install huggingface_hub`')
+            raise
+
+    # Convert zero checkpoint to state_dict
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir,
+                                                          tag,
+                                                          exclude_frozen_parameters,
+                                                          lazy_mode=True)
+
+    # Shard the model if it is too big.
+    weights_name = "model.safetensors" if safe_serialization else "pytorch_model.bin"
+    if max_shard_size is not None:
+        filename_pattern = weights_name.replace(".bin", "{suffix}.bin").replace(".safetensors", "{suffix}.safetensors")
+        # an memory-efficient approach for sharding
+        empty_state_dict = to_torch_tensor(state_dict, return_empty_tensor=True)
+        state_dict_split = split_torch_state_dict_into_shards(empty_state_dict,
+                                                              filename_pattern=filename_pattern,
+                                                              max_shard_size=max_shard_size)
+    else:
+        from collections import namedtuple
+        StateDictSplit = namedtuple("StateDictSplit", ["is_sharded", "filename_to_tensors"])
+        state_dict_split = StateDictSplit(is_sharded=False,
+                                          filename_to_tensors={weights_name: list(state_dict.keys())})
+
+    # Save the model by shard
+    os.makedirs(output_dir, exist_ok=True)
+    filename_to_tensors = state_dict_split.filename_to_tensors.items()
+    for shard_file, tensors in tqdm(filename_to_tensors, desc="Saving checkpoint shards"):
+        shard_state_dict = {tensor_name: state_dict[tensor_name] for tensor_name in tensors}
+        shard_state_dict = to_torch_tensor(shard_state_dict)
+        output_path = os.path.join(output_dir, shard_file)
+        if safe_serialization:
+            save_file(shard_state_dict, output_path, metadata={"format": "pt"})
+        else:
+            torch.save(shard_state_dict, output_path)
+        # release the memory of current shard
+        for tensor_name in list(shard_state_dict.keys()):
+            del state_dict[tensor_name]
+            del shard_state_dict[tensor_name]
+        del shard_state_dict
+        gc.collect()
+
+    # Save index if sharded
+    if state_dict_split.is_sharded:
+        index = {
+            "metadata": state_dict_split.metadata,
+            "weight_map": state_dict_split.tensor_to_filename,
+        }
+        save_index_file = "model.safetensors.index.json" if safe_serialization else "pytorch_model.bin.index.json"
+        save_index_file = os.path.join(output_dir, save_index_file)
+        with open(save_index_file, "w", encoding="utf-8") as f:
+            content = json.dumps(index, indent=2, sort_keys=True) + "\n"
+            f.write(content)
+
+
+def load_state_dict_from_zero_checkpoint(model, checkpoint_dir, tag=None):
+    """
+    1. Put the provided model to cpu
+    2. Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict``
+    3. Load it into the provided model
+
+    Args:
+        - ``model``: the model object to update
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+
+    Returns:
+        - ``model`: modified model
+
+    Make sure you have plenty of CPU memory available before you call this function. If you don't
+    have enough use the ``zero_to_fp32.py`` utility to do the conversion. You will find it
+    conveniently placed for you in the checkpoint folder.
+
+    A typical usage might be ::
+
+        from deepspeed.utils.zero_to_fp32 import load_state_dict_from_zero_checkpoint
+        model = load_state_dict_from_zero_checkpoint(trainer.model, checkpoint_dir)
+        # submit to model hub or save the model to share with others
+
+    Note, that once this was run, the ``model`` will no longer be usable in the deepspeed context
+    of the same application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+
+    """
+    logger.info("Extracting fp32 weights")
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
+
+    logger.info("Overwriting model with fp32 weights")
+    model = model.cpu()
+    model.load_state_dict(state_dict, strict=False)
+
+    return model
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("checkpoint_dir",
+                        type=str,
+                        help="path to the desired checkpoint folder, e.g., path/checkpoint-12")
+    parser.add_argument("output_dir",
+                        type=str,
+                        help="directory to the pytorch fp32 state_dict output files"
+                        "(e.g. path/checkpoint-12-output/)")
+    parser.add_argument(
+        "--max_shard_size",
+        type=str,
+        default="5GB",
+        help="The maximum size for a checkpoint before being sharded. Checkpoints shard will then be each of size"
+        "lower than this size. If expressed as a string, needs to be digits followed by a unit (like `5MB`"
+        "We default it to 5GB in order for models to be able to run easily on free-tier google colab instances"
+        "without CPU OOM issues.")
+    parser.add_argument(
+        "--safe_serialization",
+        default=False,
+        action='store_true',
+        help="Whether to save the model using `safetensors` or the traditional PyTorch way (that uses `pickle`).")
+    parser.add_argument("-t",
+                        "--tag",
+                        type=str,
+                        default=None,
+                        help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
+    parser.add_argument("--exclude_frozen_parameters", action='store_true', help="exclude frozen parameters")
+    parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
+    args = parser.parse_args()
+
+    debug = args.debug
+
+    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir,
+                                               args.output_dir,
+                                               max_shard_size=args.max_shard_size,
+                                               safe_serialization=args.safe_serialization,
+                                               tag=args.tag,
+                                               exclude_frozen_parameters=args.exclude_frozen_parameters)
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/args.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/args.json
new file mode 100644
index 0000000000000000000000000000000000000000..7ad716daa308581ab36f680aa193aa1bf3ff023b
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/args.json
@@ -0,0 +1,382 @@
+{
+  "output_dir": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153",
+  "per_device_train_batch_size": 8,
+  "num_train_epochs": 1.0,
+  "max_steps": -1,
+  "learning_rate": 0.001,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": null,
+  "warmup_steps": 0,
+  "optim": "adamw_torch_fused",
+  "optim_args": null,
+  "weight_decay": 0.1,
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "optim_target_modules": null,
+  "gradient_accumulation_steps": 4,
+  "average_tokens_across_devices": true,
+  "max_grad_norm": 1.0,
+  "label_smoothing_factor": 0.0,
+  "bf16": true,
+  "fp16": false,
+  "bf16_full_eval": false,
+  "fp16_full_eval": false,
+  "tf32": null,
+  "gradient_checkpointing": true,
+  "gradient_checkpointing_kwargs": null,
+  "torch_compile": false,
+  "torch_compile_backend": null,
+  "torch_compile_mode": null,
+  "use_liger_kernel": false,
+  "liger_kernel_config": null,
+  "use_cache": false,
+  "neftune_noise_alpha": null,
+  "torch_empty_cache_steps": null,
+  "auto_find_batch_size": false,
+  "logging_strategy": "steps",
+  "logging_steps": 1,
+  "logging_first_step": true,
+  "log_on_each_node": true,
+  "logging_nan_inf_filter": true,
+  "include_num_input_tokens_seen": false,
+  "log_level": "passive",
+  "log_level_replica": "warning",
+  "disable_tqdm": null,
+  "report_to": [
+    "none"
+  ],
+  "run_name": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153",
+  "project": "huggingface",
+  "trackio_space_id": "trackio",
+  "eval_strategy": "no",
+  "eval_steps": 500.0,
+  "eval_delay": 0,
+  "per_device_eval_batch_size": 1,
+  "prediction_loss_only": false,
+  "eval_on_start": false,
+  "eval_do_concat_batches": true,
+  "eval_use_gather_object": false,
+  "eval_accumulation_steps": null,
+  "include_for_metrics": [],
+  "batch_eval_metrics": false,
+  "save_only_model": false,
+  "save_strategy": "steps",
+  "save_steps": 500.0,
+  "save_on_each_node": false,
+  "save_total_limit": 2,
+  "enable_jit_checkpoint": false,
+  "push_to_hub": false,
+  "hub_token": null,
+  "hub_private_repo": null,
+  "hub_model_id": null,
+  "hub_strategy": "every_save",
+  "hub_always_push": false,
+  "hub_revision": null,
+  "load_best_model_at_end": false,
+  "metric_for_best_model": "loss",
+  "greater_is_better": false,
+  "ignore_data_skip": false,
+  "restore_callback_states_from_checkpoint": false,
+  "full_determinism": false,
+  "seed": 42,
+  "data_seed": 42,
+  "use_cpu": false,
+  "accelerator_config": {
+    "dispatch_batches": false
+  },
+  "parallelism_config": null,
+  "dataloader_drop_last": false,
+  "dataloader_num_workers": null,
+  "dataloader_pin_memory": true,
+  "dataloader_persistent_workers": false,
+  "dataloader_prefetch_factor": null,
+  "remove_unused_columns": true,
+  "label_names": null,
+  "train_sampling_strategy": "random",
+  "length_column_name": "length",
+  "ddp_find_unused_parameters": null,
+  "ddp_bucket_cap_mb": null,
+  "ddp_broadcast_buffers": null,
+  "ddp_backend": null,
+  "ddp_timeout": 7200,
+  "fsdp": [],
+  "fsdp_config": null,
+  "deepspeed": {
+    "fp16": {
+      "enabled": "auto",
+      "loss_scale": 0,
+      "loss_scale_window": 1000,
+      "initial_scale_power": 16,
+      "hysteresis": 2,
+      "min_loss_scale": 1
+    },
+    "bf16": {
+      "enabled": "auto"
+    },
+    "zero_optimization": {
+      "stage": 2,
+      "offload_optimizer": {
+        "device": "none",
+        "pin_memory": true
+      },
+      "allgather_partitions": true,
+      "allgather_bucket_size": 200000000.0,
+      "overlap_comm": false,
+      "reduce_scatter": true,
+      "reduce_bucket_size": 200000000.0,
+      "contiguous_gradients": true
+    },
+    "gradient_accumulation_steps": "auto",
+    "gradient_clipping": "auto",
+    "steps_per_print": 2000,
+    "train_batch_size": "auto",
+    "train_micro_batch_size_per_gpu": "auto",
+    "wall_clock_breakdown": false
+  },
+  "debug": null,
+  "skip_memory_metrics": true,
+  "do_train": false,
+  "do_eval": false,
+  "do_predict": false,
+  "resume_from_checkpoint": null,
+  "warmup_ratio": 0.03,
+  "logging_dir": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/runs",
+  "local_rank": 0,
+  "sortish_sampler": false,
+  "predict_with_generate": false,
+  "generation_max_length": null,
+  "generation_num_beams": null,
+  "generation_config": null,
+  "tuner_backend": "peft",
+  "vit_gradient_checkpointing": null,
+  "router_aux_loss_coef": 0.0,
+  "enable_dft_loss": false,
+  "enable_channel_loss": false,
+  "safe_serialization": true,
+  "max_shard_size": "5GB",
+  "check_model": true,
+  "acc_strategy": "token",
+  "train_dataloader_shuffle": true,
+  "group_by_length": false,
+  "max_epochs": null,
+  "aligner_lr": null,
+  "vit_lr": null,
+  "use_logits_to_keep": null,
+  "ds3_gather_for_generation": true,
+  "resume_only_model": false,
+  "optimizer": null,
+  "loss_type": null,
+  "eval_metric": null,
+  "callbacks": [],
+  "early_stop_interval": null,
+  "eval_use_evalscope": false,
+  "eval_dataset": [],
+  "eval_dataset_args": null,
+  "eval_limit": null,
+  "eval_generation_config": null,
+  "extra_eval_args": null,
+  "tuner_type": "full",
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "use_flash_ckpt": false,
+  "use_ray": false,
+  "ray_exp_name": null,
+  "device_groups": null,
+  "model": "Qwen/Qwen3-1.7B",
+  "model_type": "llava_siglip2_qwen3",
+  "model_revision": null,
+  "task_type": "causal_lm",
+  "torch_dtype": "bfloat16",
+  "attn_impl": "flash_attn",
+  "experts_impl": null,
+  "new_special_tokens": [],
+  "num_labels": null,
+  "problem_type": null,
+  "rope_scaling": null,
+  "device_map": null,
+  "max_memory": {},
+  "max_model_len": null,
+  "local_repo_path": null,
+  "init_strategy": null,
+  "template": "llava_siglip2_qwen3",
+  "system": null,
+  "max_length": 4096,
+  "truncation_strategy": "delete",
+  "max_pixels": null,
+  "agent_template": null,
+  "norm_bbox": null,
+  "use_chat_template": true,
+  "padding_side": "right",
+  "padding_free": false,
+  "loss_scale": "default",
+  "sequence_parallel_size": 1,
+  "template_backend": "swift",
+  "response_prefix": null,
+  "enable_thinking": null,
+  "add_non_thinking_prefix": true,
+  "dataset": [
+    "vmllm_s1_558k"
+  ],
+  "val_dataset": [],
+  "cached_dataset": [],
+  "cached_val_dataset": [],
+  "split_dataset_ratio": 0.0,
+  "dataset_num_proc": 16,
+  "load_from_cache_file": false,
+  "dataset_shuffle": true,
+  "val_dataset_shuffle": false,
+  "streaming": false,
+  "interleave_prob": null,
+  "stopping_strategy": "first_exhausted",
+  "shuffle_buffer_size": 1000,
+  "download_mode": "reuse_dataset_if_exists",
+  "columns": {},
+  "strict": false,
+  "model_name": null,
+  "model_author": null,
+  "custom_dataset_info": [],
+  "quant_method": null,
+  "quant_bits": null,
+  "hqq_axis": null,
+  "bnb_4bit_compute_dtype": "bfloat16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "max_new_tokens": 64,
+  "temperature": 0.0,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "stream": false,
+  "stop_words": [],
+  "logprobs": false,
+  "top_logprobs": null,
+  "structured_outputs_regex": null,
+  "train_type": null,
+  "adapters": [],
+  "external_plugins": [
+    "video_mllm/model_plugin.py",
+    "video_mllm/dataset_plugin.py"
+  ],
+  "custom_register_path": [],
+  "model_kwargs": {},
+  "load_args": false,
+  "load_data_args": false,
+  "packing": false,
+  "packing_length": null,
+  "packing_num_proc": 1,
+  "lazy_tokenize": true,
+  "use_hf": true,
+  "ignore_args_error": false,
+  "use_swift_lora": false,
+  "freeze_parameters": [
+    "model.language_model",
+    "lm_head",
+    "model.vision_tower"
+  ],
+  "freeze_parameters_regex": null,
+  "freeze_parameters_ratio": 0.0,
+  "trainable_parameters": [
+    "model.multi_modal_projector"
+  ],
+  "trainable_parameters_regex": null,
+  "freeze_llm": true,
+  "freeze_vit": true,
+  "freeze_aligner": false,
+  "target_modules": [
+    "all-linear"
+  ],
+  "target_regex": null,
+  "target_parameters": null,
+  "modules_to_save": [],
+  "lora_rank": 8,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "lora_bias": "none",
+  "lora_dtype": null,
+  "lorap_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "lora_ga_batch_size": 2,
+  "lora_ga_iters": 2,
+  "lora_ga_max_length": 1024,
+  "lora_ga_direction": "ArB2r",
+  "lora_ga_scale": "stable",
+  "lora_ga_stable_gamma": 16,
+  "init_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "swanlab_token": null,
+  "swanlab_project": "ms-swift",
+  "swanlab_workspace": null,
+  "swanlab_exp_name": null,
+  "swanlab_notification_method": null,
+  "swanlab_webhook_url": null,
+  "swanlab_secret": null,
+  "swanlab_sender_email": null,
+  "swanlab_receiver_email": null,
+  "swanlab_smtp_server": null,
+  "swanlab_smtp_port": null,
+  "swanlab_email_language": "zh",
+  "swanlab_mode": "cloud",
+  "add_version": true,
+  "create_checkpoint_symlink": false,
+  "zero_hpz_partition_size": null,
+  "deepspeed_autotp_size": null,
+  "swift_version": "4.1.0.dev0",
+  "ckpt_dir": null,
+  "rank": 0,
+  "global_world_size": 8,
+  "local_world_size": 8,
+  "model_suffix": "Qwen3-1.7B",
+  "model_info": "ModelInfo(model_type='llava_siglip2_qwen3', model_dir='/home/tiger/.cache/huggingface/hub/models--Qwen--Qwen3-1.7B/snapshots/70d244cc86ccca08cf5af4e1e306ecf908b1ad5e', torch_dtype=torch.bfloat16, max_model_len=40960, quant_method=None, quant_bits=None, rope_scaling={'rope_theta': 1000000, 'rope_type': 'default'}, is_moe_model=False, is_multimodal=True, config=None, task_type='causal_lm', num_labels=None)",
+  "model_meta": "ModelMeta(model_type='llava_siglip2_qwen3', model_groups=[ModelGroup(models=[Model(ms_model_id='Qwen/Qwen3-0.6B', hf_model_id='Qwen/Qwen3-0.6B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-1.7B', hf_model_id='Qwen/Qwen3-1.7B', model_path=None, ms_revision=None, hf_revision=None), Model(ms_model_id='Qwen/Qwen3-4B', hf_model_id='Qwen/Qwen3-4B', model_path=None, ms_revision=None, hf_revision=None)], template=None, ignore_patterns=None, requires=None, tags=[])], loader=<class 'model_plugin.SigLIP2Qwen3Loader'>, template='llava_siglip2_qwen3', model_arch=MultiModelKeys(arch_name='llava_hf', embedding=None, module_list=None, lm_head=None, q_proj=None, k_proj=None, v_proj=None, o_proj=None, attention=None, mlp=None, down_proj=None, qkv_proj=None, qk_proj=None, qa_proj=None, qb_proj=None, kv_proj=None, kva_proj=None, kvb_proj=None, language_model=['model.language_model', 'lm_head'], aligner=['model.multi_modal_projector'], vision_tower=['model.vision_tower'], generator=[]), architectures=['LlavaOnevisionForConditionalGeneration'], additional_saved_files=[], torch_dtype=None, is_multimodal=True, is_reward=False, task_type=None, ignore_patterns=None, requires=[], tags=['vision', 'video'])",
+  "model_dir": "/home/tiger/.cache/huggingface/hub/models--Qwen--Qwen3-1.7B/snapshots/70d244cc86ccca08cf5af4e1e306ecf908b1ad5e",
+  "template_meta": "QwenTemplateMeta(template_type='llava_siglip2_qwen3', prefix=[], prompt=['<|im_start|>user\\n{{QUERY}}<|im_end|>\\n<|im_start|>assistant\\n'], chat_sep=['<|im_end|>\\n'], suffix=['<|im_end|>\\n'], template_cls=<class 'model_plugin.SigLIP2LlavaTemplate'>, system_prefix=['<|im_start|>system\\n{{SYSTEM}}<|im_end|>\\n'], default_system=None, auto_add_bos=False, stop_words=['<|endoftext|>'], agent_template='hermes', is_thinking=False, thinking_prefix='', non_thinking_prefix='', history_thinking_prefix='')",
+  "_val_dataset_exists": false,
+  "hub": "<class 'swift.hub.hub.HFHub'>",
+  "evaluation_strategy": "steps",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153', per_device_train_batch_size=8, num_train_epochs=1.0, max_steps=-1, learning_rate=0.001, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs=None, warmup_steps=0.03, optim=<OptimizerNames.ADAMW_TORCH_FUSED: 'adamw_torch_fused'>, optim_args=None, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, optim_target_modules=None, gradient_accumulation_steps=4, average_tokens_across_devices=None, max_grad_norm=1.0, label_smoothing_factor=0.0, bf16=True, fp16=False, bf16_full_eval=False, fp16_full_eval=False, tf32=None, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, use_liger_kernel=False, liger_kernel_config=None, use_cache=False, neftune_noise_alpha=None, torch_empty_cache_steps=None, auto_find_batch_size=False, logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_steps=1, logging_first_step=True, log_on_each_node=True, logging_nan_inf_filter=True, include_num_input_tokens_seen=None, log_level='passive', log_level_replica='warning', disable_tqdm=False, report_to=[], run_name='/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153', project='huggingface', trackio_space_id='trackio', eval_strategy=<IntervalStrategy.NO: 'no'>, eval_steps=500.0, eval_delay=0, per_device_eval_batch_size=1, prediction_loss_only=False, eval_on_start=False, eval_do_concat_batches=True, eval_use_gather_object=False, eval_accumulation_steps=None, include_for_metrics=[], batch_eval_metrics=False, save_only_model=False, save_strategy=<SaveStrategy.STEPS: 'steps'>, save_steps=500, save_on_each_node=False, save_total_limit=2, enable_jit_checkpoint=False, push_to_hub=False, hub_token=None, hub_private_repo=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_always_push=False, hub_revision=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, restore_callback_states_from_checkpoint=False, full_determinism=False, seed=42, data_seed=42, use_cpu=False, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), parallelism_config=None, dataloader_drop_last=False, dataloader_num_workers=1, dataloader_pin_memory=True, dataloader_persistent_workers=False, dataloader_prefetch_factor=2, remove_unused_columns=False, label_names=None, train_sampling_strategy='random', length_column_name='length', ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, ddp_backend=None, ddp_timeout=7200, fsdp=[], fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, deepspeed={'fp16': {'enabled': 'auto', 'loss_scale': 0, 'loss_scale_window': 1000, 'initial_scale_power': 16, 'hysteresis': 2, 'min_loss_scale': 1}, 'bf16': {'enabled': 'auto'}, 'zero_optimization': {'stage': 2, 'offload_optimizer': {'device': 'none', 'pin_memory': True}, 'allgather_partitions': True, 'allgather_bucket_size': 200000000.0, 'overlap_comm': False, 'reduce_scatter': True, 'reduce_bucket_size': 200000000.0, 'contiguous_gradients': True}, 'gradient_accumulation_steps': 'auto', 'gradient_clipping': 'auto', 'steps_per_print': 2000, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'wall_clock_breakdown': False}, debug=[], skip_memory_metrics=True, do_train=False, do_eval=False, do_predict=False, resume_from_checkpoint=None, warmup_ratio=0.03, logging_dir='/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/runs', local_rank=0, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=None, tuner_backend='peft', vit_gradient_checkpointing=True, router_aux_loss_coef=0.0, enable_dft_loss=False, enable_channel_loss=False, safe_serialization=True, max_shard_size='5GB', check_model=True, acc_strategy='token', train_dataloader_shuffle=True, group_by_length=False, max_epochs=None, aligner_lr=None, vit_lr=None, use_logits_to_keep=None, ds3_gather_for_generation=True, resume_only_model=False, optimizer=None, loss_type=None, eval_metric=None, callbacks=[], early_stop_interval=None, eval_use_evalscope=False, eval_dataset=[], eval_dataset_args=None, eval_limit=None, eval_generation_config=None, extra_eval_args=None, tuner_type='full', use_galore=False, galore_target_modules=None, galore_rank=128, galore_update_proj_gap=50, galore_scale=1.0, galore_proj_type='std', galore_optim_per_parameter=False, galore_with_embedding=False, galore_quantization=False, galore_proj_quant=False, galore_proj_bits=4, galore_proj_group_size=256, galore_cos_threshold=0.4, galore_gamma_proj=2, galore_queue_size=5, lisa_activated_layers=0, lisa_step_interval=20, use_flash_ckpt=False)"
+}
\ No newline at end of file
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/chat_template.jinja b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/chat_template.jinja
new file mode 100644
index 0000000000000000000000000000000000000000..01be9b307daa2d425f7c168c9fb145a286e0afb4
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/chat_template.jinja
@@ -0,0 +1,89 @@
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}
\ No newline at end of file
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/config.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/config.json
new file mode 100644
index 0000000000000000000000000000000000000000..91fec50984b1ce69db1f04f83bf57934419cc5ac
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/config.json
@@ -0,0 +1,248 @@
+{
+  "architectures": [
+    "LlavaOnevisionForConditionalGeneration"
+  ],
+  "bos_token_id": null,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "hidden_size": 2048,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_token_index": 151669,
+  "keys_to_ignore_at_inference": [
+    "past_key_values"
+  ],
+  "model_type": "llava_onevision",
+  "multimodal_projector_bias": true,
+  "pad_token_id": 151643,
+  "projector_hidden_act": "gelu",
+  "text_config": {
+    "_name_or_path": "/home/tiger/.cache/huggingface/hub/models--Qwen--Qwen3-1.7B/snapshots/70d244cc86ccca08cf5af4e1e306ecf908b1ad5e",
+    "architectures": [
+      "Qwen3ForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "dtype": "bfloat16",
+    "eos_token_id": 151645,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 2048,
+    "initializer_range": 0.02,
+    "intermediate_size": 6144,
+    "layer_types": [
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 40960,
+    "max_window_layers": 28,
+    "model_type": "qwen3",
+    "num_attention_heads": 16,
+    "num_hidden_layers": 28,
+    "num_key_value_heads": 8,
+    "pad_token_id": 151643,
+    "rms_norm_eps": 1e-06,
+    "rope_parameters": {
+      "rope_theta": 1000000,
+      "rope_type": "default"
+    },
+    "sliding_window": null,
+    "tie_word_embeddings": true,
+    "use_cache": false,
+    "use_sliding_window": false,
+    "vocab_size": 151936
+  },
+  "tie_word_embeddings": true,
+  "transformers_version": "5.2.0",
+  "use_cache": false,
+  "video_token_index": 151670,
+  "vision_aspect_ratio": "anyres_max_9",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1152,
+    "image_size": 384,
+    "intermediate_size": 4304,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip_vision_model",
+    "num_attention_heads": 16,
+    "num_channels": 3,
+    "num_hidden_layers": 26,
+    "patch_size": 14,
+    "vision_use_head": false
+  },
+  "vision_feature_layer": -1,
+  "vision_feature_select_strategy": "full"
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/generation_config.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/generation_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..caf77791d2c04f34887781e78a159cf8968d3fe6
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/generation_config.json
@@ -0,0 +1,12 @@
+{
+  "_from_model_config": true,
+  "bos_token_id": 151643,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "output_attentions": false,
+  "output_hidden_states": false,
+  "transformers_version": "5.2.0",
+  "use_cache": true
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..4afb0f52cfa339e11578e586305385ba32a823a8
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:65fed60db4ff3fd97e8de3230946e44e4848d1f6a4f0ff8c7ed8b9dbfc26ab1d
+size 9845509
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..ab62f7bc8d97242323c4d47e5459ab4879353333
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:d87bbca1871c7b82d5fcad9832c6881e47abb6c79de61766ff0aed59b84f4c96
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..3027a85cb3f7cd1d21384448637aff41ff4fdf57
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f6c3a9d916ece3e96358b8b889b2b45266b929a7ae36545ded6caf7cb5ad3746
+size 9845509
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..cd4eaf5a15e392c629cb51301d1983dc256779af
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:2679eefb4e4f9da8f732c8e843763247144e7fb3c8494125cbb4bda6802e3f61
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..c618d7002601e2a085cca6614971f24235c790c5
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_4_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:f18242bfcf9f0b1b6486f0b9d65bf3388bcf4933da827d31cbc92ecf146e821d
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..9f4bb0a3527017555d24070d06410e6b816c17f0
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_5_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:44e1c7c95dac0e1104d310391cc15eea54cb5758c02cb7553b340cc1d017e54a
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..0a6d4f0c260bd9de0688c4dc8010863dc2321c04
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_6_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:174d066277b5c0bef01c90aea41f0c4436d0121173bbcbdb3480af269b6f1668
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..a7e517477ea1dd76e9553631ad11f1757b5965a5
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/bf16_zero_pp_rank_7_mp_rank_00_optim_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9d85f2229d837d8497874b40f17e546603f3a946c01bf649bfc8163fd28c11f4
+size 9845445
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/mp_rank_00_model_states.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/mp_rank_00_model_states.pt
new file mode 100644
index 0000000000000000000000000000000000000000..479e981b5b19af550e71a3029ca913e6fd201d3d
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/global_step2181/mp_rank_00_model_states.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:adf5c638d5fefc4b278cc6a9fc5b8f493c3eded4fee67bdecc68fb89cbccd384
+size 8487035043
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/latest b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/latest
new file mode 100644
index 0000000000000000000000000000000000000000..665dbca470c17173ef3f59a6bdfee02253fe6a90
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/latest
@@ -0,0 +1 @@
+global_step2181
\ No newline at end of file
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/model.safetensors b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/model.safetensors
new file mode 100644
index 0000000000000000000000000000000000000000..726abe57ff141775d8a9dcfd98954796c016252b
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/model.safetensors
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:113230338a97d421531d8f7564267bfae41b26b7644d1204abf2632db42a4ebe
+size 4872193968
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/processor_config.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/processor_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..01039364dd6b06f3ca0a6df00c5f16fcb79e564a
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/processor_config.json
@@ -0,0 +1,205 @@
+{
+  "image_processor": {
+    "do_convert_rgb": true,
+    "do_normalize": true,
+    "do_pad": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "image_grid_pinpoints": [
+      [
+        384,
+        384
+      ],
+      [
+        384,
+        768
+      ],
+      [
+        384,
+        1152
+      ],
+      [
+        384,
+        1536
+      ],
+      [
+        384,
+        1920
+      ],
+      [
+        384,
+        2304
+      ],
+      [
+        768,
+        384
+      ],
+      [
+        768,
+        768
+      ],
+      [
+        768,
+        1152
+      ],
+      [
+        768,
+        1536
+      ],
+      [
+        768,
+        1920
+      ],
+      [
+        768,
+        2304
+      ],
+      [
+        1152,
+        384
+      ],
+      [
+        1152,
+        768
+      ],
+      [
+        1152,
+        1152
+      ],
+      [
+        1152,
+        1536
+      ],
+      [
+        1152,
+        1920
+      ],
+      [
+        1152,
+        2304
+      ],
+      [
+        1536,
+        384
+      ],
+      [
+        1536,
+        768
+      ],
+      [
+        1536,
+        1152
+      ],
+      [
+        1536,
+        1536
+      ],
+      [
+        1536,
+        1920
+      ],
+      [
+        1536,
+        2304
+      ],
+      [
+        1920,
+        384
+      ],
+      [
+        1920,
+        768
+      ],
+      [
+        1920,
+        1152
+      ],
+      [
+        1920,
+        1536
+      ],
+      [
+        1920,
+        1920
+      ],
+      [
+        1920,
+        2304
+      ],
+      [
+        2304,
+        384
+      ],
+      [
+        2304,
+        768
+      ],
+      [
+        2304,
+        1152
+      ],
+      [
+        2304,
+        1536
+      ],
+      [
+        2304,
+        1920
+      ],
+      [
+        2304,
+        2304
+      ]
+    ],
+    "image_mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "image_processor_type": "LlavaOnevisionImageProcessor",
+    "image_std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "size": {
+      "height": 384,
+      "width": 384
+    }
+  },
+  "image_token": "<image>",
+  "num_image_tokens": 729,
+  "processor_class": "LlavaOnevisionProcessor",
+  "video_processor": {
+    "data_format": "channels_first",
+    "default_to_square": false,
+    "do_convert_rgb": true,
+    "do_normalize": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "do_sample_frames": false,
+    "image_mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "image_std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "resample": 3,
+    "rescale_factor": 0.00392156862745098,
+    "return_metadata": false,
+    "size": {
+      "height": 384,
+      "width": 384
+    },
+    "video_processor_type": "LlavaOnevisionVideoProcessor"
+  },
+  "video_token": "<video>",
+  "vision_aspect_ratio": "anyres_max_9",
+  "vision_feature_select_strategy": null
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_0.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_0.pth
new file mode 100644
index 0000000000000000000000000000000000000000..4928248aedaa77b1631bf811e1c66a09736133c1
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_0.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:478b41e9f26d338fd8f896e08cad1adab7c423b61f1b45754113bc78d256a3f9
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_1.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_1.pth
new file mode 100644
index 0000000000000000000000000000000000000000..8a5bd77e81f942d5702f9fe86745d03c68a9cde3
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_1.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:ce29a8767a7d907dd24987aa2c3e654d4317f3042fbc13b5b72cadb46d43311a
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_2.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_2.pth
new file mode 100644
index 0000000000000000000000000000000000000000..e596aed814dc368e2868b17172e9e2f46fbf40f5
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_2.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:61a48db011646b4e9a867bf12f4a233cad5dfbfe309686f8996c250196d3783a
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_3.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_3.pth
new file mode 100644
index 0000000000000000000000000000000000000000..f81230ec72b5b67b65ed9a5a093a20ac849b75df
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_3.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:b9562ee822472a4f01dcd6349ab3d1ef42a48915fe3b92e843a0c37db53c8421
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_4.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_4.pth
new file mode 100644
index 0000000000000000000000000000000000000000..8c78fd8c12aebc63e034a4160ea3e69167e90f32
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_4.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:e7d2767d83c3bf27f12db022b0632e2c4f8c164274ba75e380cf18f9d5f21819
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_5.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_5.pth
new file mode 100644
index 0000000000000000000000000000000000000000..5dcade47956003825c84ad00891d1d436c13a75d
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_5.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:76816358d4e5db8149d60d55234db658d67a13c0c1ce05d7404cf7125a676a5c
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_6.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_6.pth
new file mode 100644
index 0000000000000000000000000000000000000000..345ee260e6ed86dd84330556e9a4138bb832399f
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_6.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:1562e7520c977d178183d641f70abcf3f57da2489938756cfbebf9b6e6c1a9fd
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_7.pth b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_7.pth
new file mode 100644
index 0000000000000000000000000000000000000000..956e00add16d26c688ffcebcfa2d9f6c44fbb20b
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/rng_state_7.pth
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:a6b6cabaed045c5398cd1b732f7ec48bd363f3b43cd24e0e70e641a42bd00c28
+size 16389
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/scheduler.pt b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/scheduler.pt
new file mode 100644
index 0000000000000000000000000000000000000000..71f663863e1bdcfc342a8233837929f07711a68c
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/scheduler.pt
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:905051781778c75c57d3a70f47abee91e0d7d08f7695e033dae616c2cab74abf
+size 1465
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/tokenizer.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/tokenizer.json
new file mode 100644
index 0000000000000000000000000000000000000000..c40d89c9226d696c215d65a68eea68c6dd55d79e
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/tokenizer.json
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:9024318c850eaadf26be79389d21b07a7afd8f1af749b89f9109b06c0d12173c
+size 11423018
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/tokenizer_config.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/tokenizer_config.json
new file mode 100644
index 0000000000000000000000000000000000000000..167bb5a31833bd1251a4c68a223081a372a57c1c
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/tokenizer_config.json
@@ -0,0 +1,19 @@
+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": [
+    "<image>",
+    "<video>"
+  ],
+  "is_local": true,
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "processor_class": "LlavaOnevisionProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/trainer_state.json b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/trainer_state.json
new file mode 100644
index 0000000000000000000000000000000000000000..7cf4c0329da607621d8d7cdb4e98a352b4f411a0
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/trainer_state.json
@@ -0,0 +1,17482 @@
+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500.0,
+  "global_step": 2181,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.00045866299736268775,
+      "grad_norm": 163.7677001953125,
+      "learning_rate": 1.5151515151515153e-05,
+      "loss": 10.531155586242676,
+      "step": 1,
+      "token_acc": 0.09404563160823595
+    },
+    {
+      "epoch": 0.0009173259947253755,
+      "grad_norm": 138.49777221679688,
+      "learning_rate": 3.0303030303030306e-05,
+      "loss": 10.444791793823242,
+      "step": 2,
+      "token_acc": 0.09786628733997155
+    },
+    {
+      "epoch": 0.0013759889920880633,
+      "grad_norm": 118.87862396240234,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 10.013096809387207,
+      "step": 3,
+      "token_acc": 0.09296482412060302
+    },
+    {
+      "epoch": 0.001834651989450751,
+      "grad_norm": 72.25511169433594,
+      "learning_rate": 6.060606060606061e-05,
+      "loss": 9.020011901855469,
+      "step": 4,
+      "token_acc": 0.09770114942528736
+    },
+    {
+      "epoch": 0.002293314986813439,
+      "grad_norm": 83.02162170410156,
+      "learning_rate": 7.575757575757576e-05,
+      "loss": 9.098867416381836,
+      "step": 5,
+      "token_acc": 0.08465753424657534
+    },
+    {
+      "epoch": 0.0027519779841761265,
+      "grad_norm": 22.35651969909668,
+      "learning_rate": 9.090909090909092e-05,
+      "loss": 7.659309387207031,
+      "step": 6,
+      "token_acc": 0.07787325456498388
+    },
+    {
+      "epoch": 0.0032106409815388145,
+      "grad_norm": 33.81536102294922,
+      "learning_rate": 0.00010606060606060606,
+      "loss": 7.8151702880859375,
+      "step": 7,
+      "token_acc": 0.06806998359759431
+    },
+    {
+      "epoch": 0.003669303978901502,
+      "grad_norm": 31.71108627319336,
+      "learning_rate": 0.00012121212121212122,
+      "loss": 7.728543281555176,
+      "step": 8,
+      "token_acc": 0.07960741548527808
+    },
+    {
+      "epoch": 0.0041279669762641896,
+      "grad_norm": 32.627410888671875,
+      "learning_rate": 0.00013636363636363637,
+      "loss": 6.97025203704834,
+      "step": 9,
+      "token_acc": 0.11186632681959785
+    },
+    {
+      "epoch": 0.004586629973626878,
+      "grad_norm": 10.527961730957031,
+      "learning_rate": 0.00015151515151515152,
+      "loss": 6.030107498168945,
+      "step": 10,
+      "token_acc": 0.17089871611982882
+    },
+    {
+      "epoch": 0.0050452929709895655,
+      "grad_norm": 159.68701171875,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 7.386981010437012,
+      "step": 11,
+      "token_acc": 0.16736635880212705
+    },
+    {
+      "epoch": 0.005503955968352253,
+      "grad_norm": 131.26353454589844,
+      "learning_rate": 0.00018181818181818183,
+      "loss": 7.935171127319336,
+      "step": 12,
+      "token_acc": 0.15159128978224456
+    },
+    {
+      "epoch": 0.0059626189657149406,
+      "grad_norm": 73.0645980834961,
+      "learning_rate": 0.00019696969696969695,
+      "loss": 5.753294944763184,
+      "step": 13,
+      "token_acc": 0.19318801089918256
+    },
+    {
+      "epoch": 0.006421281963077629,
+      "grad_norm": 11.480243682861328,
+      "learning_rate": 0.00021212121212121213,
+      "loss": 5.651885032653809,
+      "step": 14,
+      "token_acc": 0.2021600664635835
+    },
+    {
+      "epoch": 0.0068799449604403165,
+      "grad_norm": 15.904385566711426,
+      "learning_rate": 0.00022727272727272727,
+      "loss": 5.547451019287109,
+      "step": 15,
+      "token_acc": 0.22640433418876532
+    },
+    {
+      "epoch": 0.007338607957803004,
+      "grad_norm": 7.918464183807373,
+      "learning_rate": 0.00024242424242424245,
+      "loss": 5.11993408203125,
+      "step": 16,
+      "token_acc": 0.24526748971193416
+    },
+    {
+      "epoch": 0.007797270955165692,
+      "grad_norm": 4.623650550842285,
+      "learning_rate": 0.00025757575757575756,
+      "loss": 5.043087959289551,
+      "step": 17,
+      "token_acc": 0.23001676914477362
+    },
+    {
+      "epoch": 0.008255933952528379,
+      "grad_norm": 3.6584064960479736,
+      "learning_rate": 0.00027272727272727274,
+      "loss": 4.81586217880249,
+      "step": 18,
+      "token_acc": 0.26924169270093723
+    },
+    {
+      "epoch": 0.008714596949891068,
+      "grad_norm": 2.083461284637451,
+      "learning_rate": 0.0002878787878787879,
+      "loss": 4.790818214416504,
+      "step": 19,
+      "token_acc": 0.2828341013824885
+    },
+    {
+      "epoch": 0.009173259947253756,
+      "grad_norm": 2.366408109664917,
+      "learning_rate": 0.00030303030303030303,
+      "loss": 4.616162300109863,
+      "step": 20,
+      "token_acc": 0.29432918395574
+    },
+    {
+      "epoch": 0.009631922944616443,
+      "grad_norm": 2.6877963542938232,
+      "learning_rate": 0.0003181818181818182,
+      "loss": 4.530404090881348,
+      "step": 21,
+      "token_acc": 0.29698311652366455
+    },
+    {
+      "epoch": 0.010090585941979131,
+      "grad_norm": 15.406994819641113,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 4.611711502075195,
+      "step": 22,
+      "token_acc": 0.29226040793517744
+    },
+    {
+      "epoch": 0.010549248939341819,
+      "grad_norm": 2.105778932571411,
+      "learning_rate": 0.0003484848484848485,
+      "loss": 4.455286979675293,
+      "step": 23,
+      "token_acc": 0.3085279739272135
+    },
+    {
+      "epoch": 0.011007911936704506,
+      "grad_norm": 2.7499122619628906,
+      "learning_rate": 0.00036363636363636367,
+      "loss": 4.490814208984375,
+      "step": 24,
+      "token_acc": 0.3004243281471004
+    },
+    {
+      "epoch": 0.011466574934067194,
+      "grad_norm": 2.1527163982391357,
+      "learning_rate": 0.0003787878787878788,
+      "loss": 4.323946952819824,
+      "step": 25,
+      "token_acc": 0.32578397212543553
+    },
+    {
+      "epoch": 0.011925237931429881,
+      "grad_norm": 1.4435594081878662,
+      "learning_rate": 0.0003939393939393939,
+      "loss": 4.340972900390625,
+      "step": 26,
+      "token_acc": 0.3189143341815098
+    },
+    {
+      "epoch": 0.01238390092879257,
+      "grad_norm": 1.0701165199279785,
+      "learning_rate": 0.00040909090909090913,
+      "loss": 4.310399055480957,
+      "step": 27,
+      "token_acc": 0.3084397556912826
+    },
+    {
+      "epoch": 0.012842563926155258,
+      "grad_norm": 1.6745245456695557,
+      "learning_rate": 0.00042424242424242425,
+      "loss": 4.251889228820801,
+      "step": 28,
+      "token_acc": 0.31632935957859715
+    },
+    {
+      "epoch": 0.013301226923517945,
+      "grad_norm": 1.5971771478652954,
+      "learning_rate": 0.0004393939393939394,
+      "loss": 4.2047119140625,
+      "step": 29,
+      "token_acc": 0.3360088569056186
+    },
+    {
+      "epoch": 0.013759889920880633,
+      "grad_norm": 1.3686933517456055,
+      "learning_rate": 0.00045454545454545455,
+      "loss": 4.262190818786621,
+      "step": 30,
+      "token_acc": 0.32445316881660125
+    },
+    {
+      "epoch": 0.01421855291824332,
+      "grad_norm": 1.1092084646224976,
+      "learning_rate": 0.0004696969696969697,
+      "loss": 4.314598083496094,
+      "step": 31,
+      "token_acc": 0.3196538246789503
+    },
+    {
+      "epoch": 0.014677215915606008,
+      "grad_norm": 1.348927617073059,
+      "learning_rate": 0.0004848484848484849,
+      "loss": 4.096429347991943,
+      "step": 32,
+      "token_acc": 0.33142693737489276
+    },
+    {
+      "epoch": 0.015135878912968696,
+      "grad_norm": 1.7629704475402832,
+      "learning_rate": 0.0005,
+      "loss": 4.313679218292236,
+      "step": 33,
+      "token_acc": 0.31673541543901
+    },
+    {
+      "epoch": 0.015594541910331383,
+      "grad_norm": 1.62588369846344,
+      "learning_rate": 0.0005151515151515151,
+      "loss": 4.066803455352783,
+      "step": 34,
+      "token_acc": 0.3375097885669538
+    },
+    {
+      "epoch": 0.01605320490769407,
+      "grad_norm": 1.3345831632614136,
+      "learning_rate": 0.0005303030303030302,
+      "loss": 4.222330570220947,
+      "step": 35,
+      "token_acc": 0.32342857142857145
+    },
+    {
+      "epoch": 0.016511867905056758,
+      "grad_norm": 1.2153950929641724,
+      "learning_rate": 0.0005454545454545455,
+      "loss": 4.147995471954346,
+      "step": 36,
+      "token_acc": 0.3326069190956143
+    },
+    {
+      "epoch": 0.016970530902419446,
+      "grad_norm": 1.0629780292510986,
+      "learning_rate": 0.0005606060606060606,
+      "loss": 4.121190547943115,
+      "step": 37,
+      "token_acc": 0.324190894130554
+    },
+    {
+      "epoch": 0.017429193899782137,
+      "grad_norm": 2.0344314575195312,
+      "learning_rate": 0.0005757575757575758,
+      "loss": 4.16463565826416,
+      "step": 38,
+      "token_acc": 0.33741109530583213
+    },
+    {
+      "epoch": 0.017887856897144824,
+      "grad_norm": 1.3344801664352417,
+      "learning_rate": 0.0005909090909090909,
+      "loss": 4.211524963378906,
+      "step": 39,
+      "token_acc": 0.3259653049804141
+    },
+    {
+      "epoch": 0.018346519894507512,
+      "grad_norm": 1.6878693103790283,
+      "learning_rate": 0.0006060606060606061,
+      "loss": 4.274176597595215,
+      "step": 40,
+      "token_acc": 0.3195301027900147
+    },
+    {
+      "epoch": 0.0188051828918702,
+      "grad_norm": 1.5034598112106323,
+      "learning_rate": 0.0006212121212121212,
+      "loss": 4.197498321533203,
+      "step": 41,
+      "token_acc": 0.3212986286034145
+    },
+    {
+      "epoch": 0.019263845889232887,
+      "grad_norm": 0.7870559692382812,
+      "learning_rate": 0.0006363636363636364,
+      "loss": 4.152724266052246,
+      "step": 42,
+      "token_acc": 0.33125354509359045
+    },
+    {
+      "epoch": 0.019722508886595574,
+      "grad_norm": 0.5971645712852478,
+      "learning_rate": 0.0006515151515151515,
+      "loss": 4.083730220794678,
+      "step": 43,
+      "token_acc": 0.3285831734721842
+    },
+    {
+      "epoch": 0.020181171883958262,
+      "grad_norm": 1.3385121822357178,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 4.142114639282227,
+      "step": 44,
+      "token_acc": 0.32073277115440535
+    },
+    {
+      "epoch": 0.02063983488132095,
+      "grad_norm": 1.3026437759399414,
+      "learning_rate": 0.0006818181818181818,
+      "loss": 3.941800355911255,
+      "step": 45,
+      "token_acc": 0.34519572953736655
+    },
+    {
+      "epoch": 0.021098497878683637,
+      "grad_norm": 0.8030999302864075,
+      "learning_rate": 0.000696969696969697,
+      "loss": 4.076504707336426,
+      "step": 46,
+      "token_acc": 0.33389168062534896
+    },
+    {
+      "epoch": 0.021557160876046325,
+      "grad_norm": 1.3694953918457031,
+      "learning_rate": 0.0007121212121212122,
+      "loss": 4.071778774261475,
+      "step": 47,
+      "token_acc": 0.34139236819108654
+    },
+    {
+      "epoch": 0.022015823873409012,
+      "grad_norm": 1.0741102695465088,
+      "learning_rate": 0.0007272727272727273,
+      "loss": 4.049587249755859,
+      "step": 48,
+      "token_acc": 0.33285135916714864
+    },
+    {
+      "epoch": 0.0224744868707717,
+      "grad_norm": 1.0750032663345337,
+      "learning_rate": 0.0007424242424242425,
+      "loss": 3.996241569519043,
+      "step": 49,
+      "token_acc": 0.3324324324324324
+    },
+    {
+      "epoch": 0.022933149868134387,
+      "grad_norm": 0.8069612383842468,
+      "learning_rate": 0.0007575757575757576,
+      "loss": 4.0738019943237305,
+      "step": 50,
+      "token_acc": 0.32842865074958355
+    },
+    {
+      "epoch": 0.023391812865497075,
+      "grad_norm": 1.1857705116271973,
+      "learning_rate": 0.0007727272727272727,
+      "loss": 4.0085368156433105,
+      "step": 51,
+      "token_acc": 0.32693935119887163
+    },
+    {
+      "epoch": 0.023850475862859762,
+      "grad_norm": 1.0924046039581299,
+      "learning_rate": 0.0007878787878787878,
+      "loss": 3.9709558486938477,
+      "step": 52,
+      "token_acc": 0.3371493989696623
+    },
+    {
+      "epoch": 0.024309138860222453,
+      "grad_norm": 1.1345634460449219,
+      "learning_rate": 0.000803030303030303,
+      "loss": 3.922060012817383,
+      "step": 53,
+      "token_acc": 0.3538548432646145
+    },
+    {
+      "epoch": 0.02476780185758514,
+      "grad_norm": 1.2311711311340332,
+      "learning_rate": 0.0008181818181818183,
+      "loss": 3.998971939086914,
+      "step": 54,
+      "token_acc": 0.3430858404637041
+    },
+    {
+      "epoch": 0.02522646485494783,
+      "grad_norm": 0.7573533058166504,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 3.780540943145752,
+      "step": 55,
+      "token_acc": 0.34600550964187327
+    },
+    {
+      "epoch": 0.025685127852310516,
+      "grad_norm": 1.1019490957260132,
+      "learning_rate": 0.0008484848484848485,
+      "loss": 3.829848289489746,
+      "step": 56,
+      "token_acc": 0.35271842034081685
+    },
+    {
+      "epoch": 0.026143790849673203,
+      "grad_norm": 0.874021053314209,
+      "learning_rate": 0.0008636363636363636,
+      "loss": 3.9116899967193604,
+      "step": 57,
+      "token_acc": 0.3317455869991594
+    },
+    {
+      "epoch": 0.02660245384703589,
+      "grad_norm": 0.8654890060424805,
+      "learning_rate": 0.0008787878787878789,
+      "loss": 3.8506102561950684,
+      "step": 58,
+      "token_acc": 0.3390250619664004
+    },
+    {
+      "epoch": 0.02706111684439858,
+      "grad_norm": 0.6743205189704895,
+      "learning_rate": 0.000893939393939394,
+      "loss": 3.887430429458618,
+      "step": 59,
+      "token_acc": 0.34332959641255606
+    },
+    {
+      "epoch": 0.027519779841761266,
+      "grad_norm": 1.163176417350769,
+      "learning_rate": 0.0009090909090909091,
+      "loss": 3.970090866088867,
+      "step": 60,
+      "token_acc": 0.3351873536299766
+    },
+    {
+      "epoch": 0.027978442839123954,
+      "grad_norm": 1.5899271965026855,
+      "learning_rate": 0.0009242424242424242,
+      "loss": 3.999755382537842,
+      "step": 61,
+      "token_acc": 0.3409781707654048
+    },
+    {
+      "epoch": 0.02843710583648664,
+      "grad_norm": 0.841131865978241,
+      "learning_rate": 0.0009393939393939394,
+      "loss": 3.8386313915252686,
+      "step": 62,
+      "token_acc": 0.32965790217698615
+    },
+    {
+      "epoch": 0.02889576883384933,
+      "grad_norm": 0.9264029264450073,
+      "learning_rate": 0.0009545454545454546,
+      "loss": 3.7994751930236816,
+      "step": 63,
+      "token_acc": 0.34335260115606936
+    },
+    {
+      "epoch": 0.029354431831212016,
+      "grad_norm": 0.9236679673194885,
+      "learning_rate": 0.0009696969696969698,
+      "loss": 3.8508853912353516,
+      "step": 64,
+      "token_acc": 0.3457782883400345
+    },
+    {
+      "epoch": 0.029813094828574704,
+      "grad_norm": 0.7168257236480713,
+      "learning_rate": 0.000984848484848485,
+      "loss": 3.8315601348876953,
+      "step": 65,
+      "token_acc": 0.34408602150537637
+    },
+    {
+      "epoch": 0.03027175782593739,
+      "grad_norm": 0.5858761668205261,
+      "learning_rate": 0.001,
+      "loss": 3.7281155586242676,
+      "step": 66,
+      "token_acc": 0.3554489741540101
+    },
+    {
+      "epoch": 0.03073042082330008,
+      "grad_norm": 0.8973336815834045,
+      "learning_rate": 0.0009999994484067654,
+      "loss": 3.769437313079834,
+      "step": 67,
+      "token_acc": 0.3438320209973753
+    },
+    {
+      "epoch": 0.031189083820662766,
+      "grad_norm": 1.1702033281326294,
+      "learning_rate": 0.0009999977936282788,
+      "loss": 3.788480758666992,
+      "step": 68,
+      "token_acc": 0.3548204693242861
+    },
+    {
+      "epoch": 0.03164774681802546,
+      "grad_norm": 1.5060110092163086,
+      "learning_rate": 0.0009999950356681913,
+      "loss": 3.8499698638916016,
+      "step": 69,
+      "token_acc": 0.3400888395335924
+    },
+    {
+      "epoch": 0.03210640981538814,
+      "grad_norm": 0.7400742173194885,
+      "learning_rate": 0.0009999911745325876,
+      "loss": 3.715205669403076,
+      "step": 70,
+      "token_acc": 0.34644777809227284
+    },
+    {
+      "epoch": 0.03256507281275083,
+      "grad_norm": 1.1993465423583984,
+      "learning_rate": 0.0009999862102299873,
+      "loss": 3.7040815353393555,
+      "step": 71,
+      "token_acc": 0.3574660633484163
+    },
+    {
+      "epoch": 0.033023735810113516,
+      "grad_norm": 1.124855875968933,
+      "learning_rate": 0.0009999801427713433,
+      "loss": 3.7833755016326904,
+      "step": 72,
+      "token_acc": 0.34718758658908283
+    },
+    {
+      "epoch": 0.03348239880747621,
+      "grad_norm": 0.7248406410217285,
+      "learning_rate": 0.0009999729721700424,
+      "loss": 3.6647000312805176,
+      "step": 73,
+      "token_acc": 0.35466591485762616
+    },
+    {
+      "epoch": 0.03394106180483889,
+      "grad_norm": 0.6494280099868774,
+      "learning_rate": 0.000999964698441906,
+      "loss": 3.5873360633850098,
+      "step": 74,
+      "token_acc": 0.36829066886870354
+    },
+    {
+      "epoch": 0.03439972480220158,
+      "grad_norm": 0.7083467245101929,
+      "learning_rate": 0.0009999553216051892,
+      "loss": 3.580655097961426,
+      "step": 75,
+      "token_acc": 0.3699140401146132
+    },
+    {
+      "epoch": 0.034858387799564274,
+      "grad_norm": 0.7751051783561707,
+      "learning_rate": 0.00099994484168058,
+      "loss": 3.662949800491333,
+      "step": 76,
+      "token_acc": 0.3564920273348519
+    },
+    {
+      "epoch": 0.03531705079692696,
+      "grad_norm": 0.7821984887123108,
+      "learning_rate": 0.0009999332586912019,
+      "loss": 3.6108086109161377,
+      "step": 77,
+      "token_acc": 0.3578976640711902
+    },
+    {
+      "epoch": 0.03577571379428965,
+      "grad_norm": 0.9251242876052856,
+      "learning_rate": 0.0009999205726626108,
+      "loss": 3.716444492340088,
+      "step": 78,
+      "token_acc": 0.36063258966393674
+    },
+    {
+      "epoch": 0.03623437679165233,
+      "grad_norm": 0.6459327936172485,
+      "learning_rate": 0.000999906783622797,
+      "loss": 3.589423179626465,
+      "step": 79,
+      "token_acc": 0.3649132470393831
+    },
+    {
+      "epoch": 0.036693039789015024,
+      "grad_norm": 0.6607033610343933,
+      "learning_rate": 0.0009998918916021842,
+      "loss": 3.5814950466156006,
+      "step": 80,
+      "token_acc": 0.37221603563474387
+    },
+    {
+      "epoch": 0.03715170278637771,
+      "grad_norm": 0.7172372937202454,
+      "learning_rate": 0.0009998758966336297,
+      "loss": 3.6781551837921143,
+      "step": 81,
+      "token_acc": 0.35435267857142855
+    },
+    {
+      "epoch": 0.0376103657837404,
+      "grad_norm": 0.6790605783462524,
+      "learning_rate": 0.0009998587987524242,
+      "loss": 3.511000156402588,
+      "step": 82,
+      "token_acc": 0.3669222343921139
+    },
+    {
+      "epoch": 0.03806902878110308,
+      "grad_norm": 0.6576029658317566,
+      "learning_rate": 0.0009998405979962926,
+      "loss": 3.5655863285064697,
+      "step": 83,
+      "token_acc": 0.3637668676428366
+    },
+    {
+      "epoch": 0.038527691778465774,
+      "grad_norm": 0.6579151749610901,
+      "learning_rate": 0.000999821294405392,
+      "loss": 3.6492481231689453,
+      "step": 84,
+      "token_acc": 0.3598233995584989
+    },
+    {
+      "epoch": 0.03898635477582846,
+      "grad_norm": 0.6451024413108826,
+      "learning_rate": 0.0009998008880223134,
+      "loss": 3.530937433242798,
+      "step": 85,
+      "token_acc": 0.36975028376844493
+    },
+    {
+      "epoch": 0.03944501777319115,
+      "grad_norm": 0.5863217711448669,
+      "learning_rate": 0.000999779378892081,
+      "loss": 3.48888897895813,
+      "step": 86,
+      "token_acc": 0.38053596614950636
+    },
+    {
+      "epoch": 0.03990368077055383,
+      "grad_norm": 0.5968656539916992,
+      "learning_rate": 0.0009997567670621522,
+      "loss": 3.550015926361084,
+      "step": 87,
+      "token_acc": 0.3667394866193337
+    },
+    {
+      "epoch": 0.040362343767916524,
+      "grad_norm": 0.6071357131004333,
+      "learning_rate": 0.0009997330525824165,
+      "loss": 3.468745708465576,
+      "step": 88,
+      "token_acc": 0.36957130848977304
+    },
+    {
+      "epoch": 0.04082100676527921,
+      "grad_norm": 0.711405336856842,
+      "learning_rate": 0.0009997082355051976,
+      "loss": 3.6053686141967773,
+      "step": 89,
+      "token_acc": 0.3543675943786167
+    },
+    {
+      "epoch": 0.0412796697626419,
+      "grad_norm": 0.6349820494651794,
+      "learning_rate": 0.000999682315885251,
+      "loss": 3.4660398960113525,
+      "step": 90,
+      "token_acc": 0.3742399115533444
+    },
+    {
+      "epoch": 0.04173833276000459,
+      "grad_norm": 0.6023502349853516,
+      "learning_rate": 0.0009996552937797645,
+      "loss": 3.440434694290161,
+      "step": 91,
+      "token_acc": 0.36031478358628444
+    },
+    {
+      "epoch": 0.042196995757367274,
+      "grad_norm": 0.5499334931373596,
+      "learning_rate": 0.0009996271692483596,
+      "loss": 3.5707292556762695,
+      "step": 92,
+      "token_acc": 0.3681015452538631
+    },
+    {
+      "epoch": 0.042655658754729965,
+      "grad_norm": 0.820492684841156,
+      "learning_rate": 0.0009995979423530893,
+      "loss": 3.3118960857391357,
+      "step": 93,
+      "token_acc": 0.3887640449438202
+    },
+    {
+      "epoch": 0.04311432175209265,
+      "grad_norm": 0.6804525256156921,
+      "learning_rate": 0.000999567613158439,
+      "loss": 3.461143970489502,
+      "step": 94,
+      "token_acc": 0.3686382393397524
+    },
+    {
+      "epoch": 0.04357298474945534,
+      "grad_norm": 0.6287928223609924,
+      "learning_rate": 0.0009995361817313263,
+      "loss": 3.490051746368408,
+      "step": 95,
+      "token_acc": 0.3720353006067292
+    },
+    {
+      "epoch": 0.044031647746818024,
+      "grad_norm": 0.7325089573860168,
+      "learning_rate": 0.0009995036481411004,
+      "loss": 3.4617037773132324,
+      "step": 96,
+      "token_acc": 0.3777398235126672
+    },
+    {
+      "epoch": 0.044490310744180715,
+      "grad_norm": 0.6122854948043823,
+      "learning_rate": 0.0009994700124595429,
+      "loss": 3.5085387229919434,
+      "step": 97,
+      "token_acc": 0.3724176437744277
+    },
+    {
+      "epoch": 0.0449489737415434,
+      "grad_norm": 0.6038780808448792,
+      "learning_rate": 0.0009994352747608663,
+      "loss": 3.487184524536133,
+      "step": 98,
+      "token_acc": 0.37226074895977807
+    },
+    {
+      "epoch": 0.04540763673890609,
+      "grad_norm": 0.6164092421531677,
+      "learning_rate": 0.0009993994351217151,
+      "loss": 3.423229694366455,
+      "step": 99,
+      "token_acc": 0.3768037026953444
+    },
+    {
+      "epoch": 0.045866299736268774,
+      "grad_norm": 0.6025534272193909,
+      "learning_rate": 0.000999362493621165,
+      "loss": 3.4272513389587402,
+      "step": 100,
+      "token_acc": 0.3813012895662368
+    },
+    {
+      "epoch": 0.046324962733631465,
+      "grad_norm": 0.5870760679244995,
+      "learning_rate": 0.0009993244503407226,
+      "loss": 3.442089080810547,
+      "step": 101,
+      "token_acc": 0.37067099567099565
+    },
+    {
+      "epoch": 0.04678362573099415,
+      "grad_norm": 0.6258718967437744,
+      "learning_rate": 0.0009992853053643258,
+      "loss": 3.466139793395996,
+      "step": 102,
+      "token_acc": 0.3625795737614171
+    },
+    {
+      "epoch": 0.04724228872835684,
+      "grad_norm": 0.7367739081382751,
+      "learning_rate": 0.0009992450587783426,
+      "loss": 3.3844377994537354,
+      "step": 103,
+      "token_acc": 0.382031905961377
+    },
+    {
+      "epoch": 0.047700951725719525,
+      "grad_norm": 0.5201725363731384,
+      "learning_rate": 0.000999203710671572,
+      "loss": 3.363003730773926,
+      "step": 104,
+      "token_acc": 0.3867768595041322
+    },
+    {
+      "epoch": 0.048159614723082216,
+      "grad_norm": 0.7309805154800415,
+      "learning_rate": 0.0009991612611352438,
+      "loss": 3.400493860244751,
+      "step": 105,
+      "token_acc": 0.3800892359174568
+    },
+    {
+      "epoch": 0.04861827772044491,
+      "grad_norm": 0.7596207857131958,
+      "learning_rate": 0.0009991177102630173,
+      "loss": 3.363405227661133,
+      "step": 106,
+      "token_acc": 0.37980636237897647
+    },
+    {
+      "epoch": 0.04907694071780759,
+      "grad_norm": 0.5382477045059204,
+      "learning_rate": 0.0009990730581509817,
+      "loss": 3.4120779037475586,
+      "step": 107,
+      "token_acc": 0.3791561888795753
+    },
+    {
+      "epoch": 0.04953560371517028,
+      "grad_norm": 0.5730828642845154,
+      "learning_rate": 0.0009990273048976566,
+      "loss": 3.3583250045776367,
+      "step": 108,
+      "token_acc": 0.38283828382838286
+    },
+    {
+      "epoch": 0.049994266712532966,
+      "grad_norm": 0.5807106494903564,
+      "learning_rate": 0.0009989804506039905,
+      "loss": 3.3839306831359863,
+      "step": 109,
+      "token_acc": 0.38688801350590885
+    },
+    {
+      "epoch": 0.05045292970989566,
+      "grad_norm": 0.5736938714981079,
+      "learning_rate": 0.0009989324953733614,
+      "loss": 3.361260414123535,
+      "step": 110,
+      "token_acc": 0.3723640399556049
+    },
+    {
+      "epoch": 0.05091159270725834,
+      "grad_norm": 0.5874132513999939,
+      "learning_rate": 0.0009988834393115766,
+      "loss": 3.372527837753296,
+      "step": 111,
+      "token_acc": 0.37150916784203103
+    },
+    {
+      "epoch": 0.05137025570462103,
+      "grad_norm": 0.5767446756362915,
+      "learning_rate": 0.000998833282526872,
+      "loss": 3.3951525688171387,
+      "step": 112,
+      "token_acc": 0.3695039458850056
+    },
+    {
+      "epoch": 0.051828918701983716,
+      "grad_norm": 0.48997122049331665,
+      "learning_rate": 0.0009987820251299122,
+      "loss": 3.391263246536255,
+      "step": 113,
+      "token_acc": 0.37534097108565195
+    },
+    {
+      "epoch": 0.05228758169934641,
+      "grad_norm": 0.5470476746559143,
+      "learning_rate": 0.00099872966723379,
+      "loss": 3.3959829807281494,
+      "step": 114,
+      "token_acc": 0.37472283813747226
+    },
+    {
+      "epoch": 0.05274624469670909,
+      "grad_norm": 0.6191883683204651,
+      "learning_rate": 0.0009986762089540266,
+      "loss": 3.217118978500366,
+      "step": 115,
+      "token_acc": 0.40249787113255747
+    },
+    {
+      "epoch": 0.05320490769407178,
+      "grad_norm": 0.49316704273223877,
+      "learning_rate": 0.0009986216504085709,
+      "loss": 3.3129892349243164,
+      "step": 116,
+      "token_acc": 0.39786156443444004
+    },
+    {
+      "epoch": 0.053663570691434466,
+      "grad_norm": 0.7600622177124023,
+      "learning_rate": 0.0009985659917177991,
+      "loss": 3.328044891357422,
+      "step": 117,
+      "token_acc": 0.3867768595041322
+    },
+    {
+      "epoch": 0.05412223368879716,
+      "grad_norm": 0.5792534351348877,
+      "learning_rate": 0.0009985092330045155,
+      "loss": 3.213757038116455,
+      "step": 118,
+      "token_acc": 0.39055330634278
+    },
+    {
+      "epoch": 0.05458089668615984,
+      "grad_norm": 0.6456693410873413,
+      "learning_rate": 0.0009984513743939508,
+      "loss": 3.3834590911865234,
+      "step": 119,
+      "token_acc": 0.37679558011049724
+    },
+    {
+      "epoch": 0.05503955968352253,
+      "grad_norm": 0.4933325946331024,
+      "learning_rate": 0.0009983924160137626,
+      "loss": 3.385931968688965,
+      "step": 120,
+      "token_acc": 0.37689804772234275
+    },
+    {
+      "epoch": 0.05549822268088522,
+      "grad_norm": 0.62879878282547,
+      "learning_rate": 0.000998332357994035,
+      "loss": 3.245725631713867,
+      "step": 121,
+      "token_acc": 0.4
+    },
+    {
+      "epoch": 0.05595688567824791,
+      "grad_norm": 0.48477134108543396,
+      "learning_rate": 0.0009982712004672786,
+      "loss": 3.3588757514953613,
+      "step": 122,
+      "token_acc": 0.3801742919389978
+    },
+    {
+      "epoch": 0.0564155486756106,
+      "grad_norm": 0.6909441351890564,
+      "learning_rate": 0.0009982089435684295,
+      "loss": 3.3898701667785645,
+      "step": 123,
+      "token_acc": 0.3759185980780102
+    },
+    {
+      "epoch": 0.05687421167297328,
+      "grad_norm": 0.5182231664657593,
+      "learning_rate": 0.0009981455874348499,
+      "loss": 3.2565951347351074,
+      "step": 124,
+      "token_acc": 0.3962210134554824
+    },
+    {
+      "epoch": 0.05733287467033597,
+      "grad_norm": 0.7223635315895081,
+      "learning_rate": 0.0009980811322063269,
+      "loss": 3.309131145477295,
+      "step": 125,
+      "token_acc": 0.392536881689326
+    },
+    {
+      "epoch": 0.05779153766769866,
+      "grad_norm": 0.5949826836585999,
+      "learning_rate": 0.0009980155780250728,
+      "loss": 3.2291173934936523,
+      "step": 126,
+      "token_acc": 0.398005698005698
+    },
+    {
+      "epoch": 0.05825020066506135,
+      "grad_norm": 0.5459883809089661,
+      "learning_rate": 0.0009979489250357243,
+      "loss": 3.225986957550049,
+      "step": 127,
+      "token_acc": 0.3967314736545506
+    },
+    {
+      "epoch": 0.05870886366242403,
+      "grad_norm": 0.5994998216629028,
+      "learning_rate": 0.0009978811733853431,
+      "loss": 3.3751397132873535,
+      "step": 128,
+      "token_acc": 0.37531987489337504
+    },
+    {
+      "epoch": 0.05916752665978672,
+      "grad_norm": 0.5532410740852356,
+      "learning_rate": 0.0009978123232234147,
+      "loss": 3.3004636764526367,
+      "step": 129,
+      "token_acc": 0.39311642914762035
+    },
+    {
+      "epoch": 0.05962618965714941,
+      "grad_norm": 0.4959070384502411,
+      "learning_rate": 0.000997742374701848,
+      "loss": 3.2083373069763184,
+      "step": 130,
+      "token_acc": 0.39251570609123193
+    },
+    {
+      "epoch": 0.0600848526545121,
+      "grad_norm": 0.45832115411758423,
+      "learning_rate": 0.0009976713279749754,
+      "loss": 3.257824420928955,
+      "step": 131,
+      "token_acc": 0.3902852301609715
+    },
+    {
+      "epoch": 0.06054351565187478,
+      "grad_norm": 0.6288501620292664,
+      "learning_rate": 0.0009975991831995528,
+      "loss": 3.2704572677612305,
+      "step": 132,
+      "token_acc": 0.3978645686990728
+    },
+    {
+      "epoch": 0.06100217864923747,
+      "grad_norm": 0.5479359030723572,
+      "learning_rate": 0.0009975259405347581,
+      "loss": 3.179764986038208,
+      "step": 133,
+      "token_acc": 0.3874273054555525
+    },
+    {
+      "epoch": 0.06146084164660016,
+      "grad_norm": 0.5085932612419128,
+      "learning_rate": 0.0009974516001421926,
+      "loss": 3.154996871948242,
+      "step": 134,
+      "token_acc": 0.3973054715424801
+    },
+    {
+      "epoch": 0.06191950464396285,
+      "grad_norm": 0.5536165237426758,
+      "learning_rate": 0.000997376162185878,
+      "loss": 3.2330880165100098,
+      "step": 135,
+      "token_acc": 0.3912552891396333
+    },
+    {
+      "epoch": 0.06237816764132553,
+      "grad_norm": 0.5158190727233887,
+      "learning_rate": 0.0009972996268322594,
+      "loss": 3.279088258743286,
+      "step": 136,
+      "token_acc": 0.3908812899638588
+    },
+    {
+      "epoch": 0.06283683063868822,
+      "grad_norm": 0.5250589847564697,
+      "learning_rate": 0.0009972219942502017,
+      "loss": 3.198488712310791,
+      "step": 137,
+      "token_acc": 0.3973275156803927
+    },
+    {
+      "epoch": 0.06329549363605091,
+      "grad_norm": 0.4934110939502716,
+      "learning_rate": 0.0009971432646109918,
+      "loss": 3.235125780105591,
+      "step": 138,
+      "token_acc": 0.38868866093706683
+    },
+    {
+      "epoch": 0.0637541566334136,
+      "grad_norm": 0.4970228672027588,
+      "learning_rate": 0.0009970634380883365,
+      "loss": 3.115957260131836,
+      "step": 139,
+      "token_acc": 0.40145985401459855
+    },
+    {
+      "epoch": 0.06421281963077628,
+      "grad_norm": 0.5510164499282837,
+      "learning_rate": 0.0009969825148583627,
+      "loss": 3.2003121376037598,
+      "step": 140,
+      "token_acc": 0.39255840784539947
+    },
+    {
+      "epoch": 0.06467148262813897,
+      "grad_norm": 0.5686467289924622,
+      "learning_rate": 0.0009969004950996173,
+      "loss": 3.27793550491333,
+      "step": 141,
+      "token_acc": 0.3974033305108665
+    },
+    {
+      "epoch": 0.06513014562550166,
+      "grad_norm": 0.495929479598999,
+      "learning_rate": 0.0009968173789930668,
+      "loss": 3.1479763984680176,
+      "step": 142,
+      "token_acc": 0.3997214484679666
+    },
+    {
+      "epoch": 0.06558880862286436,
+      "grad_norm": 0.5312603712081909,
+      "learning_rate": 0.0009967331667220958,
+      "loss": 3.1552486419677734,
+      "step": 143,
+      "token_acc": 0.40129177197416455
+    },
+    {
+      "epoch": 0.06604747162022703,
+      "grad_norm": 0.4758537709712982,
+      "learning_rate": 0.0009966478584725086,
+      "loss": 3.1986045837402344,
+      "step": 144,
+      "token_acc": 0.3884016973125884
+    },
+    {
+      "epoch": 0.06650613461758972,
+      "grad_norm": 0.47298938035964966,
+      "learning_rate": 0.0009965614544325263,
+      "loss": 3.197282552719116,
+      "step": 145,
+      "token_acc": 0.40279681930353717
+    },
+    {
+      "epoch": 0.06696479761495241,
+      "grad_norm": 0.47355562448501587,
+      "learning_rate": 0.000996473954792789,
+      "loss": 3.1309452056884766,
+      "step": 146,
+      "token_acc": 0.3980350504514073
+    },
+    {
+      "epoch": 0.0674234606123151,
+      "grad_norm": 0.6271078586578369,
+      "learning_rate": 0.0009963853597463532,
+      "loss": 3.198099136352539,
+      "step": 147,
+      "token_acc": 0.39842381786339753
+    },
+    {
+      "epoch": 0.06788212360967778,
+      "grad_norm": 0.5167470574378967,
+      "learning_rate": 0.000996295669488693,
+      "loss": 3.1650633811950684,
+      "step": 148,
+      "token_acc": 0.38012489818083084
+    },
+    {
+      "epoch": 0.06834078660704047,
+      "grad_norm": 0.48250827193260193,
+      "learning_rate": 0.0009962048842176979,
+      "loss": 3.0213265419006348,
+      "step": 149,
+      "token_acc": 0.4075112107623318
+    },
+    {
+      "epoch": 0.06879944960440317,
+      "grad_norm": 0.4882107377052307,
+      "learning_rate": 0.0009961130041336748,
+      "loss": 3.0998148918151855,
+      "step": 150,
+      "token_acc": 0.398326359832636
+    },
+    {
+      "epoch": 0.06925811260176586,
+      "grad_norm": 0.4939694106578827,
+      "learning_rate": 0.0009960200294393449,
+      "loss": 3.1333916187286377,
+      "step": 151,
+      "token_acc": 0.40798898071625345
+    },
+    {
+      "epoch": 0.06971677559912855,
+      "grad_norm": 0.6528869271278381,
+      "learning_rate": 0.0009959259603398453,
+      "loss": 3.1838574409484863,
+      "step": 152,
+      "token_acc": 0.39456521739130435
+    },
+    {
+      "epoch": 0.07017543859649122,
+      "grad_norm": 0.5198072791099548,
+      "learning_rate": 0.0009958307970427275,
+      "loss": 3.1333155632019043,
+      "step": 153,
+      "token_acc": 0.4032697547683924
+    },
+    {
+      "epoch": 0.07063410159385392,
+      "grad_norm": 0.5131497979164124,
+      "learning_rate": 0.0009957345397579572,
+      "loss": 3.078389883041382,
+      "step": 154,
+      "token_acc": 0.40476190476190477
+    },
+    {
+      "epoch": 0.0710927645912166,
+      "grad_norm": 0.49800780415534973,
+      "learning_rate": 0.0009956371886979138,
+      "loss": 3.232649087905884,
+      "step": 155,
+      "token_acc": 0.3868256980211439
+    },
+    {
+      "epoch": 0.0715514275885793,
+      "grad_norm": 0.5495232343673706,
+      "learning_rate": 0.00099553874407739,
+      "loss": 3.2769150733947754,
+      "step": 156,
+      "token_acc": 0.38101640225867167
+    },
+    {
+      "epoch": 0.07201009058594197,
+      "grad_norm": 0.5473746061325073,
+      "learning_rate": 0.0009954392061135916,
+      "loss": 3.1467361450195312,
+      "step": 157,
+      "token_acc": 0.39038621839399834
+    },
+    {
+      "epoch": 0.07246875358330467,
+      "grad_norm": 0.5644493103027344,
+      "learning_rate": 0.0009953385750261364,
+      "loss": 3.0797924995422363,
+      "step": 158,
+      "token_acc": 0.40763274336283184
+    },
+    {
+      "epoch": 0.07292741658066736,
+      "grad_norm": 0.5598791241645813,
+      "learning_rate": 0.0009952368510370538,
+      "loss": 3.1925671100616455,
+      "step": 159,
+      "token_acc": 0.38829052747859705
+    },
+    {
+      "epoch": 0.07338607957803005,
+      "grad_norm": 0.5848110318183899,
+      "learning_rate": 0.0009951340343707852,
+      "loss": 3.0903687477111816,
+      "step": 160,
+      "token_acc": 0.3980467593962711
+    },
+    {
+      "epoch": 0.07384474257539272,
+      "grad_norm": 0.5031583309173584,
+      "learning_rate": 0.0009950301252541823,
+      "loss": 3.163787841796875,
+      "step": 161,
+      "token_acc": 0.40628604382929645
+    },
+    {
+      "epoch": 0.07430340557275542,
+      "grad_norm": 0.6483263373374939,
+      "learning_rate": 0.0009949251239165075,
+      "loss": 3.13171648979187,
+      "step": 162,
+      "token_acc": 0.39026998128842555
+    },
+    {
+      "epoch": 0.0747620685701181,
+      "grad_norm": 0.6655116677284241,
+      "learning_rate": 0.000994819030589433,
+      "loss": 3.1401309967041016,
+      "step": 163,
+      "token_acc": 0.39890867317633544
+    },
+    {
+      "epoch": 0.0752207315674808,
+      "grad_norm": 0.5282167196273804,
+      "learning_rate": 0.00099471184550704,
+      "loss": 3.123441696166992,
+      "step": 164,
+      "token_acc": 0.40553250345781466
+    },
+    {
+      "epoch": 0.07567939456484347,
+      "grad_norm": 0.5869361758232117,
+      "learning_rate": 0.0009946035689058189,
+      "loss": 3.1445727348327637,
+      "step": 165,
+      "token_acc": 0.39865771812080536
+    },
+    {
+      "epoch": 0.07613805756220617,
+      "grad_norm": 0.5184969305992126,
+      "learning_rate": 0.0009944942010246681,
+      "loss": 3.201768398284912,
+      "step": 166,
+      "token_acc": 0.3790849673202614
+    },
+    {
+      "epoch": 0.07659672055956886,
+      "grad_norm": 0.5623889565467834,
+      "learning_rate": 0.0009943837421048942,
+      "loss": 3.070108413696289,
+      "step": 167,
+      "token_acc": 0.4032390886631897
+    },
+    {
+      "epoch": 0.07705538355693155,
+      "grad_norm": 0.46002712845802307,
+      "learning_rate": 0.0009942721923902106,
+      "loss": 3.099198818206787,
+      "step": 168,
+      "token_acc": 0.40895104895104895
+    },
+    {
+      "epoch": 0.07751404655429424,
+      "grad_norm": 0.5260730385780334,
+      "learning_rate": 0.0009941595521267377,
+      "loss": 3.0090246200561523,
+      "step": 169,
+      "token_acc": 0.4082857142857143
+    },
+    {
+      "epoch": 0.07797270955165692,
+      "grad_norm": 0.4930124282836914,
+      "learning_rate": 0.0009940458215630017,
+      "loss": 3.072448253631592,
+      "step": 170,
+      "token_acc": 0.40625
+    },
+    {
+      "epoch": 0.0784313725490196,
+      "grad_norm": 0.5549517869949341,
+      "learning_rate": 0.0009939310009499348,
+      "loss": 3.058135509490967,
+      "step": 171,
+      "token_acc": 0.4042908888269713
+    },
+    {
+      "epoch": 0.0788900355463823,
+      "grad_norm": 0.599074125289917,
+      "learning_rate": 0.000993815090540874,
+      "loss": 3.005629777908325,
+      "step": 172,
+      "token_acc": 0.41917502787068006
+    },
+    {
+      "epoch": 0.07934869854374499,
+      "grad_norm": 0.5849031805992126,
+      "learning_rate": 0.000993698090591561,
+      "loss": 3.1162829399108887,
+      "step": 173,
+      "token_acc": 0.4183420545304324
+    },
+    {
+      "epoch": 0.07980736154110767,
+      "grad_norm": 0.518694281578064,
+      "learning_rate": 0.0009935800013601416,
+      "loss": 2.9923558235168457,
+      "step": 174,
+      "token_acc": 0.42321780783319246
+    },
+    {
+      "epoch": 0.08026602453847036,
+      "grad_norm": 0.6214985251426697,
+      "learning_rate": 0.000993460823107164,
+      "loss": 3.071643114089966,
+      "step": 175,
+      "token_acc": 0.4050951847704367
+    },
+    {
+      "epoch": 0.08072468753583305,
+      "grad_norm": 0.5082798004150391,
+      "learning_rate": 0.0009933405560955803,
+      "loss": 3.0221118927001953,
+      "step": 176,
+      "token_acc": 0.41281241022694626
+    },
+    {
+      "epoch": 0.08118335053319574,
+      "grad_norm": 0.5089051723480225,
+      "learning_rate": 0.0009932192005907446,
+      "loss": 3.0243191719055176,
+      "step": 177,
+      "token_acc": 0.41648230088495575
+    },
+    {
+      "epoch": 0.08164201353055842,
+      "grad_norm": 0.5226424932479858,
+      "learning_rate": 0.0009930967568604118,
+      "loss": 3.082242727279663,
+      "step": 178,
+      "token_acc": 0.40386253905140584
+    },
+    {
+      "epoch": 0.08210067652792111,
+      "grad_norm": 0.5430575013160706,
+      "learning_rate": 0.000992973225174739,
+      "loss": 3.0046510696411133,
+      "step": 179,
+      "token_acc": 0.41055718475073316
+    },
+    {
+      "epoch": 0.0825593395252838,
+      "grad_norm": 0.5573244094848633,
+      "learning_rate": 0.0009928486058062827,
+      "loss": 3.0243120193481445,
+      "step": 180,
+      "token_acc": 0.42710859606575047
+    },
+    {
+      "epoch": 0.08301800252264649,
+      "grad_norm": 0.5368469953536987,
+      "learning_rate": 0.0009927228990299999,
+      "loss": 2.9854307174682617,
+      "step": 181,
+      "token_acc": 0.4165232358003442
+    },
+    {
+      "epoch": 0.08347666552000918,
+      "grad_norm": 0.501571536064148,
+      "learning_rate": 0.0009925961051232468,
+      "loss": 3.011894941329956,
+      "step": 182,
+      "token_acc": 0.4216970387243736
+    },
+    {
+      "epoch": 0.08393532851737186,
+      "grad_norm": 0.5749439597129822,
+      "learning_rate": 0.000992468224365778,
+      "loss": 3.0376062393188477,
+      "step": 183,
+      "token_acc": 0.41257966195622053
+    },
+    {
+      "epoch": 0.08439399151473455,
+      "grad_norm": 0.4928274154663086,
+      "learning_rate": 0.000992339257039746,
+      "loss": 2.9668054580688477,
+      "step": 184,
+      "token_acc": 0.4200680272108844
+    },
+    {
+      "epoch": 0.08485265451209724,
+      "grad_norm": 0.5379028916358948,
+      "learning_rate": 0.0009922092034297006,
+      "loss": 3.0190951824188232,
+      "step": 185,
+      "token_acc": 0.41700879765395893
+    },
+    {
+      "epoch": 0.08531131750945993,
+      "grad_norm": 0.5658338665962219,
+      "learning_rate": 0.0009920780638225891,
+      "loss": 3.0155673027038574,
+      "step": 186,
+      "token_acc": 0.41138530566461023
+    },
+    {
+      "epoch": 0.08576998050682261,
+      "grad_norm": 0.5691428780555725,
+      "learning_rate": 0.0009919458385077538,
+      "loss": 2.8739476203918457,
+      "step": 187,
+      "token_acc": 0.4246844319775596
+    },
+    {
+      "epoch": 0.0862286435041853,
+      "grad_norm": 0.6267986297607422,
+      "learning_rate": 0.0009918125277769336,
+      "loss": 2.940361499786377,
+      "step": 188,
+      "token_acc": 0.4196078431372549
+    },
+    {
+      "epoch": 0.08668730650154799,
+      "grad_norm": 0.5709134936332703,
+      "learning_rate": 0.0009916781319242614,
+      "loss": 2.9900636672973633,
+      "step": 189,
+      "token_acc": 0.41562064156206413
+    },
+    {
+      "epoch": 0.08714596949891068,
+      "grad_norm": 0.7565932273864746,
+      "learning_rate": 0.0009915426512462646,
+      "loss": 3.0259649753570557,
+      "step": 190,
+      "token_acc": 0.40775623268698064
+    },
+    {
+      "epoch": 0.08760463249627336,
+      "grad_norm": 0.562564492225647,
+      "learning_rate": 0.0009914060860418644,
+      "loss": 2.9895684719085693,
+      "step": 191,
+      "token_acc": 0.4083170527490929
+    },
+    {
+      "epoch": 0.08806329549363605,
+      "grad_norm": 0.7307088971138,
+      "learning_rate": 0.000991268436612374,
+      "loss": 2.9440011978149414,
+      "step": 192,
+      "token_acc": 0.4139275766016713
+    },
+    {
+      "epoch": 0.08852195849099874,
+      "grad_norm": 0.5804943442344666,
+      "learning_rate": 0.0009911297032614997,
+      "loss": 3.0462260246276855,
+      "step": 193,
+      "token_acc": 0.40542035398230086
+    },
+    {
+      "epoch": 0.08898062148836143,
+      "grad_norm": 0.5728293061256409,
+      "learning_rate": 0.000990989886295339,
+      "loss": 3.0358266830444336,
+      "step": 194,
+      "token_acc": 0.4182282793867121
+    },
+    {
+      "epoch": 0.08943928448572411,
+      "grad_norm": 0.6788930296897888,
+      "learning_rate": 0.0009908489860223804,
+      "loss": 3.0980992317199707,
+      "step": 195,
+      "token_acc": 0.40238704177323104
+    },
+    {
+      "epoch": 0.0898979474830868,
+      "grad_norm": 0.5790948271751404,
+      "learning_rate": 0.000990707002753502,
+      "loss": 2.900399684906006,
+      "step": 196,
+      "token_acc": 0.42435218723878515
+    },
+    {
+      "epoch": 0.09035661048044949,
+      "grad_norm": 0.6170215010643005,
+      "learning_rate": 0.0009905639368019724,
+      "loss": 2.8389477729797363,
+      "step": 197,
+      "token_acc": 0.42612839921502665
+    },
+    {
+      "epoch": 0.09081527347781218,
+      "grad_norm": 0.570745587348938,
+      "learning_rate": 0.0009904197884834482,
+      "loss": 2.790898323059082,
+      "step": 198,
+      "token_acc": 0.4378994165045846
+    },
+    {
+      "epoch": 0.09127393647517487,
+      "grad_norm": 0.5969982147216797,
+      "learning_rate": 0.0009902745581159742,
+      "loss": 2.9808239936828613,
+      "step": 199,
+      "token_acc": 0.42574786324786323
+    },
+    {
+      "epoch": 0.09173259947253755,
+      "grad_norm": 0.5569668412208557,
+      "learning_rate": 0.0009901282460199829,
+      "loss": 2.900136947631836,
+      "step": 200,
+      "token_acc": 0.4230555555555556
+    },
+    {
+      "epoch": 0.09219126246990024,
+      "grad_norm": 0.540507972240448,
+      "learning_rate": 0.0009899808525182935,
+      "loss": 2.9313182830810547,
+      "step": 201,
+      "token_acc": 0.4305901911886949
+    },
+    {
+      "epoch": 0.09264992546726293,
+      "grad_norm": 0.593533456325531,
+      "learning_rate": 0.0009898323779361107,
+      "loss": 2.9265894889831543,
+      "step": 202,
+      "token_acc": 0.4221404303510759
+    },
+    {
+      "epoch": 0.09310858846462562,
+      "grad_norm": 0.5101314187049866,
+      "learning_rate": 0.000989682822601025,
+      "loss": 2.8799049854278564,
+      "step": 203,
+      "token_acc": 0.4207813347802496
+    },
+    {
+      "epoch": 0.0935672514619883,
+      "grad_norm": 0.549468457698822,
+      "learning_rate": 0.0009895321868430113,
+      "loss": 2.8317041397094727,
+      "step": 204,
+      "token_acc": 0.44077510917030566
+    },
+    {
+      "epoch": 0.09402591445935099,
+      "grad_norm": 0.6261354088783264,
+      "learning_rate": 0.0009893804709944281,
+      "loss": 2.916252374649048,
+      "step": 205,
+      "token_acc": 0.43227091633466136
+    },
+    {
+      "epoch": 0.09448457745671368,
+      "grad_norm": 0.6133216619491577,
+      "learning_rate": 0.0009892276753900174,
+      "loss": 2.819794178009033,
+      "step": 206,
+      "token_acc": 0.449629426297008
+    },
+    {
+      "epoch": 0.09494324045407637,
+      "grad_norm": 0.568579375743866,
+      "learning_rate": 0.0009890738003669028,
+      "loss": 2.941122531890869,
+      "step": 207,
+      "token_acc": 0.4137741046831956
+    },
+    {
+      "epoch": 0.09540190345143905,
+      "grad_norm": 0.6269049644470215,
+      "learning_rate": 0.0009889188462645904,
+      "loss": 2.7993907928466797,
+      "step": 208,
+      "token_acc": 0.43831438868866096
+    },
+    {
+      "epoch": 0.09586056644880174,
+      "grad_norm": 0.567550003528595,
+      "learning_rate": 0.0009887628134249667,
+      "loss": 2.9074909687042236,
+      "step": 209,
+      "token_acc": 0.4260700389105058
+    },
+    {
+      "epoch": 0.09631922944616443,
+      "grad_norm": 0.5696444511413574,
+      "learning_rate": 0.0009886057021922983,
+      "loss": 2.917890787124634,
+      "step": 210,
+      "token_acc": 0.4228571428571429
+    },
+    {
+      "epoch": 0.09677789244352712,
+      "grad_norm": 0.554904580116272,
+      "learning_rate": 0.0009884475129132311,
+      "loss": 2.8712992668151855,
+      "step": 211,
+      "token_acc": 0.4374301675977654
+    },
+    {
+      "epoch": 0.09723655544088981,
+      "grad_norm": 0.5444774627685547,
+      "learning_rate": 0.0009882882459367897,
+      "loss": 2.7397289276123047,
+      "step": 212,
+      "token_acc": 0.4525290776305112
+    },
+    {
+      "epoch": 0.09769521843825249,
+      "grad_norm": 0.5548387765884399,
+      "learning_rate": 0.0009881279016143766,
+      "loss": 2.7851297855377197,
+      "step": 213,
+      "token_acc": 0.4336473755047106
+    },
+    {
+      "epoch": 0.09815388143561518,
+      "grad_norm": 0.5498785376548767,
+      "learning_rate": 0.0009879664802997707,
+      "loss": 2.8806750774383545,
+      "step": 214,
+      "token_acc": 0.42422535211267604
+    },
+    {
+      "epoch": 0.09861254443297787,
+      "grad_norm": 0.5503478050231934,
+      "learning_rate": 0.000987803982349128,
+      "loss": 2.889479637145996,
+      "step": 215,
+      "token_acc": 0.43131548311990686
+    },
+    {
+      "epoch": 0.09907120743034056,
+      "grad_norm": 0.5529974102973938,
+      "learning_rate": 0.0009876404081209796,
+      "loss": 2.837960958480835,
+      "step": 216,
+      "token_acc": 0.4463470319634703
+    },
+    {
+      "epoch": 0.09952987042770324,
+      "grad_norm": 0.5562537312507629,
+      "learning_rate": 0.000987475757976231,
+      "loss": 2.789881706237793,
+      "step": 217,
+      "token_acc": 0.4521617852161785
+    },
+    {
+      "epoch": 0.09998853342506593,
+      "grad_norm": 0.5584325194358826,
+      "learning_rate": 0.000987310032278162,
+      "loss": 2.839132070541382,
+      "step": 218,
+      "token_acc": 0.4403747870528109
+    },
+    {
+      "epoch": 0.10044719642242862,
+      "grad_norm": 0.5202255845069885,
+      "learning_rate": 0.0009871432313924254,
+      "loss": 2.8884735107421875,
+      "step": 219,
+      "token_acc": 0.4330708661417323
+    },
+    {
+      "epoch": 0.10090585941979131,
+      "grad_norm": 0.5353502631187439,
+      "learning_rate": 0.000986975355687046,
+      "loss": 2.846851348876953,
+      "step": 220,
+      "token_acc": 0.42773551784669395
+    },
+    {
+      "epoch": 0.10136452241715399,
+      "grad_norm": 0.4803241789340973,
+      "learning_rate": 0.0009868064055324204,
+      "loss": 2.887118101119995,
+      "step": 221,
+      "token_acc": 0.42552602436323367
+    },
+    {
+      "epoch": 0.10182318541451668,
+      "grad_norm": 0.4748958647251129,
+      "learning_rate": 0.0009866363813013153,
+      "loss": 2.740333080291748,
+      "step": 222,
+      "token_acc": 0.4509423503325942
+    },
+    {
+      "epoch": 0.10228184841187937,
+      "grad_norm": 0.5004998445510864,
+      "learning_rate": 0.0009864652833688676,
+      "loss": 2.805943012237549,
+      "step": 223,
+      "token_acc": 0.43505266000540105
+    },
+    {
+      "epoch": 0.10274051140924206,
+      "grad_norm": 0.5053765177726746,
+      "learning_rate": 0.0009862931121125836,
+      "loss": 2.793546199798584,
+      "step": 224,
+      "token_acc": 0.43488555643251775
+    },
+    {
+      "epoch": 0.10319917440660474,
+      "grad_norm": 0.583875298500061,
+      "learning_rate": 0.000986119867912337,
+      "loss": 2.827031135559082,
+      "step": 225,
+      "token_acc": 0.4481292517006803
+    },
+    {
+      "epoch": 0.10365783740396743,
+      "grad_norm": 0.5419859886169434,
+      "learning_rate": 0.000985945551150369,
+      "loss": 2.762326717376709,
+      "step": 226,
+      "token_acc": 0.44920235096557515
+    },
+    {
+      "epoch": 0.10411650040133012,
+      "grad_norm": 0.5514088869094849,
+      "learning_rate": 0.0009857701622112876,
+      "loss": 2.6175482273101807,
+      "step": 227,
+      "token_acc": 0.45556176634991613
+    },
+    {
+      "epoch": 0.10457516339869281,
+      "grad_norm": 0.5651687383651733,
+      "learning_rate": 0.000985593701482066,
+      "loss": 2.8145639896392822,
+      "step": 228,
+      "token_acc": 0.4372133027522936
+    },
+    {
+      "epoch": 0.1050338263960555,
+      "grad_norm": 0.570810854434967,
+      "learning_rate": 0.0009854161693520424,
+      "loss": 2.7829031944274902,
+      "step": 229,
+      "token_acc": 0.44024289263041677
+    },
+    {
+      "epoch": 0.10549248939341818,
+      "grad_norm": 0.5228450298309326,
+      "learning_rate": 0.0009852375662129194,
+      "loss": 2.7513632774353027,
+      "step": 230,
+      "token_acc": 0.4459224985540775
+    },
+    {
+      "epoch": 0.10595115239078087,
+      "grad_norm": 0.558660626411438,
+      "learning_rate": 0.0009850578924587613,
+      "loss": 2.836071014404297,
+      "step": 231,
+      "token_acc": 0.4409902130109384
+    },
+    {
+      "epoch": 0.10640981538814356,
+      "grad_norm": 0.4837777018547058,
+      "learning_rate": 0.000984877148485996,
+      "loss": 2.8618927001953125,
+      "step": 232,
+      "token_acc": 0.4326487063216858
+    },
+    {
+      "epoch": 0.10686847838550625,
+      "grad_norm": 0.5952545404434204,
+      "learning_rate": 0.000984695334693412,
+      "loss": 2.684800386428833,
+      "step": 233,
+      "token_acc": 0.45030425963488846
+    },
+    {
+      "epoch": 0.10732714138286893,
+      "grad_norm": 0.530125617980957,
+      "learning_rate": 0.000984512451482158,
+      "loss": 2.836019515991211,
+      "step": 234,
+      "token_acc": 0.43385939741750357
+    },
+    {
+      "epoch": 0.10778580438023162,
+      "grad_norm": 0.5532754063606262,
+      "learning_rate": 0.0009843284992557431,
+      "loss": 2.6370129585266113,
+      "step": 235,
+      "token_acc": 0.45446710715311694
+    },
+    {
+      "epoch": 0.10824446737759431,
+      "grad_norm": 0.5605490803718567,
+      "learning_rate": 0.000984143478420034,
+      "loss": 2.7489161491394043,
+      "step": 236,
+      "token_acc": 0.43981117230527145
+    },
+    {
+      "epoch": 0.108703130374957,
+      "grad_norm": 0.6163219213485718,
+      "learning_rate": 0.0009839573893832563,
+      "loss": 2.7710604667663574,
+      "step": 237,
+      "token_acc": 0.432711061577041
+    },
+    {
+      "epoch": 0.10916179337231968,
+      "grad_norm": 0.5578672289848328,
+      "learning_rate": 0.000983770232555991,
+      "loss": 2.6544623374938965,
+      "step": 238,
+      "token_acc": 0.4618181818181818
+    },
+    {
+      "epoch": 0.10962045636968237,
+      "grad_norm": 0.5124946236610413,
+      "learning_rate": 0.0009835820083511765,
+      "loss": 2.6688618659973145,
+      "step": 239,
+      "token_acc": 0.4527761877504293
+    },
+    {
+      "epoch": 0.11007911936704506,
+      "grad_norm": 0.5671712756156921,
+      "learning_rate": 0.0009833927171841055,
+      "loss": 2.864449977874756,
+      "step": 240,
+      "token_acc": 0.4373146400647075
+    },
+    {
+      "epoch": 0.11053778236440776,
+      "grad_norm": 0.574104905128479,
+      "learning_rate": 0.0009832023594724246,
+      "loss": 2.767341136932373,
+      "step": 241,
+      "token_acc": 0.44297752808988766
+    },
+    {
+      "epoch": 0.11099644536177045,
+      "grad_norm": 0.4860352873802185,
+      "learning_rate": 0.0009830109356361344,
+      "loss": 2.7476189136505127,
+      "step": 242,
+      "token_acc": 0.4378332865562728
+    },
+    {
+      "epoch": 0.11145510835913312,
+      "grad_norm": 0.4607715904712677,
+      "learning_rate": 0.0009828184460975867,
+      "loss": 2.717127799987793,
+      "step": 243,
+      "token_acc": 0.45174594445971955
+    },
+    {
+      "epoch": 0.11191377135649581,
+      "grad_norm": 0.4885717034339905,
+      "learning_rate": 0.0009826248912814855,
+      "loss": 2.8432326316833496,
+      "step": 244,
+      "token_acc": 0.43477066739906617
+    },
+    {
+      "epoch": 0.1123724343538585,
+      "grad_norm": 0.49770957231521606,
+      "learning_rate": 0.0009824302716148847,
+      "loss": 2.7339110374450684,
+      "step": 245,
+      "token_acc": 0.45615538417594975
+    },
+    {
+      "epoch": 0.1128310973512212,
+      "grad_norm": 0.48586538434028625,
+      "learning_rate": 0.0009822345875271884,
+      "loss": 2.803290843963623,
+      "step": 246,
+      "token_acc": 0.43729903536977494
+    },
+    {
+      "epoch": 0.11328976034858387,
+      "grad_norm": 0.47004836797714233,
+      "learning_rate": 0.0009820378394501481,
+      "loss": 2.7158820629119873,
+      "step": 247,
+      "token_acc": 0.44130008405715887
+    },
+    {
+      "epoch": 0.11374842334594656,
+      "grad_norm": 0.4864044487476349,
+      "learning_rate": 0.0009818400278178636,
+      "loss": 2.7092905044555664,
+      "step": 248,
+      "token_acc": 0.4488888888888889
+    },
+    {
+      "epoch": 0.11420708634330926,
+      "grad_norm": 0.48333030939102173,
+      "learning_rate": 0.0009816411530667814,
+      "loss": 2.6776576042175293,
+      "step": 249,
+      "token_acc": 0.44512877939529677
+    },
+    {
+      "epoch": 0.11466574934067195,
+      "grad_norm": 0.539463460445404,
+      "learning_rate": 0.000981441215635693,
+      "loss": 2.6693131923675537,
+      "step": 250,
+      "token_acc": 0.467118261360429
+    },
+    {
+      "epoch": 0.11512441233803462,
+      "grad_norm": 0.50631183385849,
+      "learning_rate": 0.0009812402159657353,
+      "loss": 2.740495204925537,
+      "step": 251,
+      "token_acc": 0.4556473829201102
+    },
+    {
+      "epoch": 0.11558307533539731,
+      "grad_norm": 0.4745313823223114,
+      "learning_rate": 0.000981038154500388,
+      "loss": 2.6241979598999023,
+      "step": 252,
+      "token_acc": 0.4530735455543359
+    },
+    {
+      "epoch": 0.11604173833276,
+      "grad_norm": 0.5077370405197144,
+      "learning_rate": 0.0009808350316854746,
+      "loss": 2.687938690185547,
+      "step": 253,
+      "token_acc": 0.4496739438616388
+    },
+    {
+      "epoch": 0.1165004013301227,
+      "grad_norm": 0.4698963761329651,
+      "learning_rate": 0.0009806308479691594,
+      "loss": 2.6657698154449463,
+      "step": 254,
+      "token_acc": 0.4631284916201117
+    },
+    {
+      "epoch": 0.11695906432748537,
+      "grad_norm": 0.48045700788497925,
+      "learning_rate": 0.0009804256038019482,
+      "loss": 2.7079544067382812,
+      "step": 255,
+      "token_acc": 0.455503188245079
+    },
+    {
+      "epoch": 0.11741772732484806,
+      "grad_norm": 0.471588671207428,
+      "learning_rate": 0.0009802192996366857,
+      "loss": 2.8019728660583496,
+      "step": 256,
+      "token_acc": 0.42849051260266213
+    },
+    {
+      "epoch": 0.11787639032221076,
+      "grad_norm": 0.4373902678489685,
+      "learning_rate": 0.0009800119359285563,
+      "loss": 2.719996929168701,
+      "step": 257,
+      "token_acc": 0.4490566037735849
+    },
+    {
+      "epoch": 0.11833505331957345,
+      "grad_norm": 0.4419008791446686,
+      "learning_rate": 0.0009798035131350813,
+      "loss": 2.750486373901367,
+      "step": 258,
+      "token_acc": 0.4469820554649266
+    },
+    {
+      "epoch": 0.11879371631693614,
+      "grad_norm": 0.45689576864242554,
+      "learning_rate": 0.0009795940317161194,
+      "loss": 2.6923322677612305,
+      "step": 259,
+      "token_acc": 0.4683226346636896
+    },
+    {
+      "epoch": 0.11925237931429881,
+      "grad_norm": 0.4678480625152588,
+      "learning_rate": 0.0009793834921338646,
+      "loss": 2.6704845428466797,
+      "step": 260,
+      "token_acc": 0.4461582405027135
+    },
+    {
+      "epoch": 0.1197110423116615,
+      "grad_norm": 0.4603913128376007,
+      "learning_rate": 0.0009791718948528457,
+      "loss": 2.6925084590911865,
+      "step": 261,
+      "token_acc": 0.449945295404814
+    },
+    {
+      "epoch": 0.1201697053090242,
+      "grad_norm": 0.48764804005622864,
+      "learning_rate": 0.0009789592403399252,
+      "loss": 2.7791624069213867,
+      "step": 262,
+      "token_acc": 0.4376874829560949
+    },
+    {
+      "epoch": 0.12062836830638689,
+      "grad_norm": 0.5074710249900818,
+      "learning_rate": 0.0009787455290642985,
+      "loss": 2.6090641021728516,
+      "step": 263,
+      "token_acc": 0.45748054194292304
+    },
+    {
+      "epoch": 0.12108703130374956,
+      "grad_norm": 0.49795079231262207,
+      "learning_rate": 0.000978530761497492,
+      "loss": 2.7932376861572266,
+      "step": 264,
+      "token_acc": 0.44228055320349985
+    },
+    {
+      "epoch": 0.12154569430111226,
+      "grad_norm": 0.5155557990074158,
+      "learning_rate": 0.0009783149381133633,
+      "loss": 2.7531380653381348,
+      "step": 265,
+      "token_acc": 0.439419795221843
+    },
+    {
+      "epoch": 0.12200435729847495,
+      "grad_norm": 0.4545442759990692,
+      "learning_rate": 0.0009780980593880992,
+      "loss": 2.800661087036133,
+      "step": 266,
+      "token_acc": 0.43864519711271516
+    },
+    {
+      "epoch": 0.12246302029583764,
+      "grad_norm": 0.4660552144050598,
+      "learning_rate": 0.0009778801258002153,
+      "loss": 2.895918369293213,
+      "step": 267,
+      "token_acc": 0.4375
+    },
+    {
+      "epoch": 0.12292168329320032,
+      "grad_norm": 0.47203075885772705,
+      "learning_rate": 0.000977661137830554,
+      "loss": 2.787299156188965,
+      "step": 268,
+      "token_acc": 0.4434557979334099
+    },
+    {
+      "epoch": 0.123380346290563,
+      "grad_norm": 0.48214566707611084,
+      "learning_rate": 0.0009774410959622845,
+      "loss": 2.7425215244293213,
+      "step": 269,
+      "token_acc": 0.4540525114155251
+    },
+    {
+      "epoch": 0.1238390092879257,
+      "grad_norm": 0.4810029864311218,
+      "learning_rate": 0.000977220000680901,
+      "loss": 2.6146833896636963,
+      "step": 270,
+      "token_acc": 0.4693069306930693
+    },
+    {
+      "epoch": 0.12429767228528839,
+      "grad_norm": 0.49819162487983704,
+      "learning_rate": 0.000976997852474223,
+      "loss": 2.6429827213287354,
+      "step": 271,
+      "token_acc": 0.45541490857946554
+    },
+    {
+      "epoch": 0.12475633528265107,
+      "grad_norm": 0.48519694805145264,
+      "learning_rate": 0.0009767746518323914,
+      "loss": 2.601815700531006,
+      "step": 272,
+      "token_acc": 0.46147110332749564
+    },
+    {
+      "epoch": 0.12521499828001376,
+      "grad_norm": 0.4626546800136566,
+      "learning_rate": 0.0009765503992478704,
+      "loss": 2.755178928375244,
+      "step": 273,
+      "token_acc": 0.4522844011895107
+    },
+    {
+      "epoch": 0.12567366127737645,
+      "grad_norm": 0.44029468297958374,
+      "learning_rate": 0.0009763250952154449,
+      "loss": 2.6168665885925293,
+      "step": 274,
+      "token_acc": 0.4608244608244608
+    },
+    {
+      "epoch": 0.12613232427473914,
+      "grad_norm": 0.49189871549606323,
+      "learning_rate": 0.0009760987402322195,
+      "loss": 2.738861560821533,
+      "step": 275,
+      "token_acc": 0.43494749124854143
+    },
+    {
+      "epoch": 0.12659098727210183,
+      "grad_norm": 0.4711836576461792,
+      "learning_rate": 0.0009758713347976178,
+      "loss": 2.7233986854553223,
+      "step": 276,
+      "token_acc": 0.44700854700854703
+    },
+    {
+      "epoch": 0.12704965026946452,
+      "grad_norm": 0.46865519881248474,
+      "learning_rate": 0.000975642879413381,
+      "loss": 2.7250137329101562,
+      "step": 277,
+      "token_acc": 0.4469882801853366
+    },
+    {
+      "epoch": 0.1275083132668272,
+      "grad_norm": 0.48860496282577515,
+      "learning_rate": 0.0009754133745835665,
+      "loss": 2.631627082824707,
+      "step": 278,
+      "token_acc": 0.4510760401721664
+    },
+    {
+      "epoch": 0.12796697626418987,
+      "grad_norm": 0.471628874540329,
+      "learning_rate": 0.0009751828208145482,
+      "loss": 2.711574077606201,
+      "step": 279,
+      "token_acc": 0.4500846023688663
+    },
+    {
+      "epoch": 0.12842563926155257,
+      "grad_norm": 0.4410566985607147,
+      "learning_rate": 0.0009749512186150131,
+      "loss": 2.6659445762634277,
+      "step": 280,
+      "token_acc": 0.45608011444921315
+    },
+    {
+      "epoch": 0.12888430225891526,
+      "grad_norm": 0.4598624110221863,
+      "learning_rate": 0.0009747185684959625,
+      "loss": 2.576528549194336,
+      "step": 281,
+      "token_acc": 0.4682209270052734
+    },
+    {
+      "epoch": 0.12934296525627795,
+      "grad_norm": 0.4531632661819458,
+      "learning_rate": 0.000974484870970709,
+      "loss": 2.60367488861084,
+      "step": 282,
+      "token_acc": 0.4615814473316569
+    },
+    {
+      "epoch": 0.12980162825364064,
+      "grad_norm": 0.48766836524009705,
+      "learning_rate": 0.0009742501265548767,
+      "loss": 2.7014331817626953,
+      "step": 283,
+      "token_acc": 0.45675675675675675
+    },
+    {
+      "epoch": 0.13026029125100333,
+      "grad_norm": 0.45787861943244934,
+      "learning_rate": 0.0009740143357663993,
+      "loss": 2.743968963623047,
+      "step": 284,
+      "token_acc": 0.438132733408324
+    },
+    {
+      "epoch": 0.13071895424836602,
+      "grad_norm": 0.4447533190250397,
+      "learning_rate": 0.000973777499125519,
+      "loss": 2.580028533935547,
+      "step": 285,
+      "token_acc": 0.4640931024694862
+    },
+    {
+      "epoch": 0.1311776172457287,
+      "grad_norm": 0.42102017998695374,
+      "learning_rate": 0.0009735396171547859,
+      "loss": 2.709049701690674,
+      "step": 286,
+      "token_acc": 0.46093538794268724
+    },
+    {
+      "epoch": 0.13163628024309137,
+      "grad_norm": 0.4520343542098999,
+      "learning_rate": 0.0009733006903790564,
+      "loss": 2.666001796722412,
+      "step": 287,
+      "token_acc": 0.4589022011702424
+    },
+    {
+      "epoch": 0.13209494324045407,
+      "grad_norm": 0.45855414867401123,
+      "learning_rate": 0.0009730607193254922,
+      "loss": 2.6493330001831055,
+      "step": 288,
+      "token_acc": 0.4474182211408489
+    },
+    {
+      "epoch": 0.13255360623781676,
+      "grad_norm": 0.4588400721549988,
+      "learning_rate": 0.0009728197045235585,
+      "loss": 2.7342629432678223,
+      "step": 289,
+      "token_acc": 0.4611784140969163
+    },
+    {
+      "epoch": 0.13301226923517945,
+      "grad_norm": 0.44269150495529175,
+      "learning_rate": 0.0009725776465050242,
+      "loss": 2.7004497051239014,
+      "step": 290,
+      "token_acc": 0.4518966465090709
+    },
+    {
+      "epoch": 0.13347093223254214,
+      "grad_norm": 0.42865708470344543,
+      "learning_rate": 0.0009723345458039594,
+      "loss": 2.8211264610290527,
+      "step": 291,
+      "token_acc": 0.4496976360637713
+    },
+    {
+      "epoch": 0.13392959522990483,
+      "grad_norm": 0.4593128263950348,
+      "learning_rate": 0.000972090402956735,
+      "loss": 2.727714776992798,
+      "step": 292,
+      "token_acc": 0.4459072696050372
+    },
+    {
+      "epoch": 0.13438825822726752,
+      "grad_norm": 0.47486087679862976,
+      "learning_rate": 0.0009718452185020212,
+      "loss": 2.5863165855407715,
+      "step": 293,
+      "token_acc": 0.46486928104575165
+    },
+    {
+      "epoch": 0.1348469212246302,
+      "grad_norm": 0.46855610609054565,
+      "learning_rate": 0.0009715989929807862,
+      "loss": 2.679780960083008,
+      "step": 294,
+      "token_acc": 0.454753068798173
+    },
+    {
+      "epoch": 0.1353055842219929,
+      "grad_norm": 0.4737672507762909,
+      "learning_rate": 0.0009713517269362955,
+      "loss": 2.5102977752685547,
+      "step": 295,
+      "token_acc": 0.4812465526751241
+    },
+    {
+      "epoch": 0.13576424721935557,
+      "grad_norm": 0.4539264738559723,
+      "learning_rate": 0.0009711034209141101,
+      "loss": 2.6829171180725098,
+      "step": 296,
+      "token_acc": 0.45569620253164556
+    },
+    {
+      "epoch": 0.13622291021671826,
+      "grad_norm": 0.4509277939796448,
+      "learning_rate": 0.0009708540754620856,
+      "loss": 2.630279064178467,
+      "step": 297,
+      "token_acc": 0.4627777777777778
+    },
+    {
+      "epoch": 0.13668157321408095,
+      "grad_norm": 0.45156824588775635,
+      "learning_rate": 0.0009706036911303713,
+      "loss": 2.7109832763671875,
+      "step": 298,
+      "token_acc": 0.45323341659728006
+    },
+    {
+      "epoch": 0.13714023621144364,
+      "grad_norm": 0.4637218415737152,
+      "learning_rate": 0.0009703522684714083,
+      "loss": 2.683100700378418,
+      "step": 299,
+      "token_acc": 0.454325631380978
+    },
+    {
+      "epoch": 0.13759889920880633,
+      "grad_norm": 0.4948784112930298,
+      "learning_rate": 0.0009700998080399286,
+      "loss": 2.62599515914917,
+      "step": 300,
+      "token_acc": 0.47627118644067795
+    },
+    {
+      "epoch": 0.13805756220616902,
+      "grad_norm": 0.4904714524745941,
+      "learning_rate": 0.0009698463103929542,
+      "loss": 2.6045732498168945,
+      "step": 301,
+      "token_acc": 0.45304496300512237
+    },
+    {
+      "epoch": 0.1385162252035317,
+      "grad_norm": 0.4857576787471771,
+      "learning_rate": 0.0009695917760897954,
+      "loss": 2.6724820137023926,
+      "step": 302,
+      "token_acc": 0.446825827455236
+    },
+    {
+      "epoch": 0.1389748882008944,
+      "grad_norm": 0.4905373156070709,
+      "learning_rate": 0.0009693362056920501,
+      "loss": 2.6945180892944336,
+      "step": 303,
+      "token_acc": 0.45143018974794674
+    },
+    {
+      "epoch": 0.1394335511982571,
+      "grad_norm": 0.4605286717414856,
+      "learning_rate": 0.0009690795997636015,
+      "loss": 2.607300043106079,
+      "step": 304,
+      "token_acc": 0.45805555555555555
+    },
+    {
+      "epoch": 0.13989221419561976,
+      "grad_norm": 0.4407762587070465,
+      "learning_rate": 0.0009688219588706179,
+      "loss": 2.6524338722229004,
+      "step": 305,
+      "token_acc": 0.44611885129371626
+    },
+    {
+      "epoch": 0.14035087719298245,
+      "grad_norm": 0.49506306648254395,
+      "learning_rate": 0.0009685632835815518,
+      "loss": 2.7355003356933594,
+      "step": 306,
+      "token_acc": 0.4582977512097922
+    },
+    {
+      "epoch": 0.14080954019034514,
+      "grad_norm": 0.45858341455459595,
+      "learning_rate": 0.0009683035744671367,
+      "loss": 2.6687657833099365,
+      "step": 307,
+      "token_acc": 0.46675712347354137
+    },
+    {
+      "epoch": 0.14126820318770783,
+      "grad_norm": 0.45298895239830017,
+      "learning_rate": 0.0009680428321003883,
+      "loss": 2.5958151817321777,
+      "step": 308,
+      "token_acc": 0.4583093732029902
+    },
+    {
+      "epoch": 0.14172686618507052,
+      "grad_norm": 0.47553375363349915,
+      "learning_rate": 0.000967781057056601,
+      "loss": 2.765871047973633,
+      "step": 309,
+      "token_acc": 0.4411520354472445
+    },
+    {
+      "epoch": 0.1421855291824332,
+      "grad_norm": 0.4662638306617737,
+      "learning_rate": 0.0009675182499133485,
+      "loss": 2.5899243354797363,
+      "step": 310,
+      "token_acc": 0.47034368070953436
+    },
+    {
+      "epoch": 0.1426441921797959,
+      "grad_norm": 0.4514010548591614,
+      "learning_rate": 0.0009672544112504813,
+      "loss": 2.7456226348876953,
+      "step": 311,
+      "token_acc": 0.43640350877192985
+    },
+    {
+      "epoch": 0.1431028551771586,
+      "grad_norm": 0.44404852390289307,
+      "learning_rate": 0.0009669895416501257,
+      "loss": 2.6584689617156982,
+      "step": 312,
+      "token_acc": 0.4579004920721706
+    },
+    {
+      "epoch": 0.14356151817452126,
+      "grad_norm": 0.41799837350845337,
+      "learning_rate": 0.0009667236416966833,
+      "loss": 2.663342237472534,
+      "step": 313,
+      "token_acc": 0.4572237960339943
+    },
+    {
+      "epoch": 0.14402018117188395,
+      "grad_norm": 0.46077635884284973,
+      "learning_rate": 0.0009664567119768281,
+      "loss": 2.716834545135498,
+      "step": 314,
+      "token_acc": 0.4504792332268371
+    },
+    {
+      "epoch": 0.14447884416924664,
+      "grad_norm": 0.440729558467865,
+      "learning_rate": 0.0009661887530795067,
+      "loss": 2.641364574432373,
+      "step": 315,
+      "token_acc": 0.4575074667390714
+    },
+    {
+      "epoch": 0.14493750716660933,
+      "grad_norm": 0.4021221101284027,
+      "learning_rate": 0.0009659197655959365,
+      "loss": 2.5541903972625732,
+      "step": 316,
+      "token_acc": 0.46541584990198825
+    },
+    {
+      "epoch": 0.14539617016397202,
+      "grad_norm": 0.41290542483329773,
+      "learning_rate": 0.000965649750119604,
+      "loss": 2.6294302940368652,
+      "step": 317,
+      "token_acc": 0.4622260668973472
+    },
+    {
+      "epoch": 0.1458548331613347,
+      "grad_norm": 0.49133044481277466,
+      "learning_rate": 0.0009653787072462643,
+      "loss": 2.609557628631592,
+      "step": 318,
+      "token_acc": 0.4618406285072952
+    },
+    {
+      "epoch": 0.1463134961586974,
+      "grad_norm": 0.4281124472618103,
+      "learning_rate": 0.0009651066375739388,
+      "loss": 2.646521806716919,
+      "step": 319,
+      "token_acc": 0.452445652173913
+    },
+    {
+      "epoch": 0.1467721591560601,
+      "grad_norm": 0.4512559175491333,
+      "learning_rate": 0.000964833541702915,
+      "loss": 2.646510601043701,
+      "step": 320,
+      "token_acc": 0.45919256462387453
+    },
+    {
+      "epoch": 0.14723082215342279,
+      "grad_norm": 0.48132291436195374,
+      "learning_rate": 0.0009645594202357438,
+      "loss": 2.6195013523101807,
+      "step": 321,
+      "token_acc": 0.46012961397576785
+    },
+    {
+      "epoch": 0.14768948515078545,
+      "grad_norm": 0.4225758910179138,
+      "learning_rate": 0.0009642842737772397,
+      "loss": 2.6827616691589355,
+      "step": 322,
+      "token_acc": 0.4592445328031809
+    },
+    {
+      "epoch": 0.14814814814814814,
+      "grad_norm": 0.4714726507663727,
+      "learning_rate": 0.0009640081029344782,
+      "loss": 2.7056689262390137,
+      "step": 323,
+      "token_acc": 0.4472032742155525
+    },
+    {
+      "epoch": 0.14860681114551083,
+      "grad_norm": 0.44620776176452637,
+      "learning_rate": 0.0009637309083167956,
+      "loss": 2.619565010070801,
+      "step": 324,
+      "token_acc": 0.45176277671494947
+    },
+    {
+      "epoch": 0.14906547414287352,
+      "grad_norm": 0.45049190521240234,
+      "learning_rate": 0.0009634526905357859,
+      "loss": 2.5478286743164062,
+      "step": 325,
+      "token_acc": 0.4800878879428728
+    },
+    {
+      "epoch": 0.1495241371402362,
+      "grad_norm": 0.4652085304260254,
+      "learning_rate": 0.000963173450205302,
+      "loss": 2.7047977447509766,
+      "step": 326,
+      "token_acc": 0.45706999149900823
+    },
+    {
+      "epoch": 0.1499828001375989,
+      "grad_norm": 0.4410254955291748,
+      "learning_rate": 0.0009628931879414517,
+      "loss": 2.612150192260742,
+      "step": 327,
+      "token_acc": 0.468645948945616
+    },
+    {
+      "epoch": 0.1504414631349616,
+      "grad_norm": 0.433908611536026,
+      "learning_rate": 0.0009626119043625983,
+      "loss": 2.656696319580078,
+      "step": 328,
+      "token_acc": 0.4565102793885082
+    },
+    {
+      "epoch": 0.15090012613232429,
+      "grad_norm": 0.4078153371810913,
+      "learning_rate": 0.0009623296000893582,
+      "loss": 2.728360176086426,
+      "step": 329,
+      "token_acc": 0.4491662183969876
+    },
+    {
+      "epoch": 0.15135878912968695,
+      "grad_norm": 0.4310557246208191,
+      "learning_rate": 0.0009620462757446,
+      "loss": 2.6527769565582275,
+      "step": 330,
+      "token_acc": 0.4591385974599669
+    },
+    {
+      "epoch": 0.15181745212704964,
+      "grad_norm": 0.44758525490760803,
+      "learning_rate": 0.0009617619319534428,
+      "loss": 2.5204648971557617,
+      "step": 331,
+      "token_acc": 0.47711511789181693
+    },
+    {
+      "epoch": 0.15227611512441233,
+      "grad_norm": 0.4272925555706024,
+      "learning_rate": 0.000961476569343255,
+      "loss": 2.6252169609069824,
+      "step": 332,
+      "token_acc": 0.4616457461645746
+    },
+    {
+      "epoch": 0.15273477812177502,
+      "grad_norm": 0.4322047531604767,
+      "learning_rate": 0.0009611901885436529,
+      "loss": 2.675680637359619,
+      "step": 333,
+      "token_acc": 0.4553056516724337
+    },
+    {
+      "epoch": 0.1531934411191377,
+      "grad_norm": 0.41309264302253723,
+      "learning_rate": 0.0009609027901864996,
+      "loss": 2.540499210357666,
+      "step": 334,
+      "token_acc": 0.46470261256253476
+    },
+    {
+      "epoch": 0.1536521041165004,
+      "grad_norm": 0.4057660400867462,
+      "learning_rate": 0.0009606143749059029,
+      "loss": 2.546102285385132,
+      "step": 335,
+      "token_acc": 0.4695453245639119
+    },
+    {
+      "epoch": 0.1541107671138631,
+      "grad_norm": 0.43747833371162415,
+      "learning_rate": 0.0009603249433382144,
+      "loss": 2.513627290725708,
+      "step": 336,
+      "token_acc": 0.47656691134952006
+    },
+    {
+      "epoch": 0.1545694301112258,
+      "grad_norm": 0.42677709460258484,
+      "learning_rate": 0.0009600344961220282,
+      "loss": 2.5630908012390137,
+      "step": 337,
+      "token_acc": 0.4673380511703865
+    },
+    {
+      "epoch": 0.15502809310858848,
+      "grad_norm": 0.42010241746902466,
+      "learning_rate": 0.0009597430338981791,
+      "loss": 2.6896262168884277,
+      "step": 338,
+      "token_acc": 0.4583219458868543
+    },
+    {
+      "epoch": 0.15548675610595114,
+      "grad_norm": 0.4195159375667572,
+      "learning_rate": 0.0009594505573097414,
+      "loss": 2.550534725189209,
+      "step": 339,
+      "token_acc": 0.4762301918265221
+    },
+    {
+      "epoch": 0.15594541910331383,
+      "grad_norm": 0.9145894050598145,
+      "learning_rate": 0.0009591570670020277,
+      "loss": 2.6144676208496094,
+      "step": 340,
+      "token_acc": 0.463768115942029
+    },
+    {
+      "epoch": 0.15640408210067652,
+      "grad_norm": 0.41407856345176697,
+      "learning_rate": 0.0009588625636225871,
+      "loss": 2.5932719707489014,
+      "step": 341,
+      "token_acc": 0.4684431977559607
+    },
+    {
+      "epoch": 0.1568627450980392,
+      "grad_norm": 0.3991939127445221,
+      "learning_rate": 0.0009585670478212036,
+      "loss": 2.5219039916992188,
+      "step": 342,
+      "token_acc": 0.4842820730671198
+    },
+    {
+      "epoch": 0.1573214080954019,
+      "grad_norm": 0.3979887068271637,
+      "learning_rate": 0.0009582705202498956,
+      "loss": 2.740537405014038,
+      "step": 343,
+      "token_acc": 0.44368600682593856
+    },
+    {
+      "epoch": 0.1577800710927646,
+      "grad_norm": 0.4085947275161743,
+      "learning_rate": 0.0009579729815629133,
+      "loss": 2.645550012588501,
+      "step": 344,
+      "token_acc": 0.4454293628808864
+    },
+    {
+      "epoch": 0.1582387340901273,
+      "grad_norm": 0.3952935039997101,
+      "learning_rate": 0.0009576744324167379,
+      "loss": 2.6678290367126465,
+      "step": 345,
+      "token_acc": 0.45360246705915336
+    },
+    {
+      "epoch": 0.15869739708748998,
+      "grad_norm": 0.4013282358646393,
+      "learning_rate": 0.0009573748734700804,
+      "loss": 2.665316104888916,
+      "step": 346,
+      "token_acc": 0.4549803038829488
+    },
+    {
+      "epoch": 0.15915606008485264,
+      "grad_norm": 0.43184563517570496,
+      "learning_rate": 0.0009570743053838796,
+      "loss": 2.6518001556396484,
+      "step": 347,
+      "token_acc": 0.4527277920594116
+    },
+    {
+      "epoch": 0.15961472308221533,
+      "grad_norm": 0.43059587478637695,
+      "learning_rate": 0.0009567727288213005,
+      "loss": 2.6103944778442383,
+      "step": 348,
+      "token_acc": 0.4683982683982684
+    },
+    {
+      "epoch": 0.16007338607957802,
+      "grad_norm": 0.39773428440093994,
+      "learning_rate": 0.0009564701444477337,
+      "loss": 2.539630651473999,
+      "step": 349,
+      "token_acc": 0.4700574241181296
+    },
+    {
+      "epoch": 0.1605320490769407,
+      "grad_norm": 0.4003061354160309,
+      "learning_rate": 0.000956166552930793,
+      "loss": 2.5952489376068115,
+      "step": 350,
+      "token_acc": 0.46498371335504884
+    },
+    {
+      "epoch": 0.1609907120743034,
+      "grad_norm": 0.41031357645988464,
+      "learning_rate": 0.0009558619549403147,
+      "loss": 2.6801841259002686,
+      "step": 351,
+      "token_acc": 0.459511391710129
+    },
+    {
+      "epoch": 0.1614493750716661,
+      "grad_norm": 0.4316340684890747,
+      "learning_rate": 0.0009555563511483555,
+      "loss": 2.5892770290374756,
+      "step": 352,
+      "token_acc": 0.4663501815135437
+    },
+    {
+      "epoch": 0.1619080380690288,
+      "grad_norm": 0.4244668483734131,
+      "learning_rate": 0.0009552497422291912,
+      "loss": 2.6481175422668457,
+      "step": 353,
+      "token_acc": 0.453839516824849
+    },
+    {
+      "epoch": 0.16236670106639148,
+      "grad_norm": 0.43733328580856323,
+      "learning_rate": 0.0009549421288593157,
+      "loss": 2.6002888679504395,
+      "step": 354,
+      "token_acc": 0.4637600666481533
+    },
+    {
+      "epoch": 0.16282536406375417,
+      "grad_norm": 0.42245471477508545,
+      "learning_rate": 0.0009546335117174385,
+      "loss": 2.646571636199951,
+      "step": 355,
+      "token_acc": 0.4745065789473684
+    },
+    {
+      "epoch": 0.16328402706111683,
+      "grad_norm": 0.4705248475074768,
+      "learning_rate": 0.0009543238914844843,
+      "loss": 2.68941593170166,
+      "step": 356,
+      "token_acc": 0.4515946937623483
+    },
+    {
+      "epoch": 0.16374269005847952,
+      "grad_norm": 0.42907077074050903,
+      "learning_rate": 0.0009540132688435907,
+      "loss": 2.5946288108825684,
+      "step": 357,
+      "token_acc": 0.46524663677130046
+    },
+    {
+      "epoch": 0.16420135305584221,
+      "grad_norm": 0.44306936860084534,
+      "learning_rate": 0.0009537016444801074,
+      "loss": 2.5938315391540527,
+      "step": 358,
+      "token_acc": 0.4625831485587583
+    },
+    {
+      "epoch": 0.1646600160532049,
+      "grad_norm": 0.45394963026046753,
+      "learning_rate": 0.0009533890190815935,
+      "loss": 2.6404004096984863,
+      "step": 359,
+      "token_acc": 0.46140845070422537
+    },
+    {
+      "epoch": 0.1651186790505676,
+      "grad_norm": 0.3955903947353363,
+      "learning_rate": 0.0009530753933378173,
+      "loss": 2.5607573986053467,
+      "step": 360,
+      "token_acc": 0.47087776866283837
+    },
+    {
+      "epoch": 0.1655773420479303,
+      "grad_norm": 0.4902538061141968,
+      "learning_rate": 0.0009527607679407545,
+      "loss": 2.599848747253418,
+      "step": 361,
+      "token_acc": 0.4620288248337029
+    },
+    {
+      "epoch": 0.16603600504529298,
+      "grad_norm": 0.45067575573921204,
+      "learning_rate": 0.0009524451435845857,
+      "loss": 2.5180816650390625,
+      "step": 362,
+      "token_acc": 0.4786497403346797
+    },
+    {
+      "epoch": 0.16649466804265567,
+      "grad_norm": 0.482149600982666,
+      "learning_rate": 0.0009521285209656963,
+      "loss": 2.6017041206359863,
+      "step": 363,
+      "token_acc": 0.45644796380090497
+    },
+    {
+      "epoch": 0.16695333104001836,
+      "grad_norm": 0.451749712228775,
+      "learning_rate": 0.0009518109007826734,
+      "loss": 2.5994341373443604,
+      "step": 364,
+      "token_acc": 0.47328458942632173
+    },
+    {
+      "epoch": 0.16741199403738102,
+      "grad_norm": 0.42110058665275574,
+      "learning_rate": 0.0009514922837363059,
+      "loss": 2.636958122253418,
+      "step": 365,
+      "token_acc": 0.47013907826561224
+    },
+    {
+      "epoch": 0.16787065703474371,
+      "grad_norm": 0.44847872853279114,
+      "learning_rate": 0.0009511726705295817,
+      "loss": 2.5942578315734863,
+      "step": 366,
+      "token_acc": 0.4602957283680175
+    },
+    {
+      "epoch": 0.1683293200321064,
+      "grad_norm": 0.42123496532440186,
+      "learning_rate": 0.000950852061867687,
+      "loss": 2.653465509414673,
+      "step": 367,
+      "token_acc": 0.44511858797573084
+    },
+    {
+      "epoch": 0.1687879830294691,
+      "grad_norm": 0.4216095209121704,
+      "learning_rate": 0.0009505304584580038,
+      "loss": 2.674640655517578,
+      "step": 368,
+      "token_acc": 0.4494611127293912
+    },
+    {
+      "epoch": 0.1692466460268318,
+      "grad_norm": 0.4416753053665161,
+      "learning_rate": 0.0009502078610101092,
+      "loss": 2.6137852668762207,
+      "step": 369,
+      "token_acc": 0.4727120067170445
+    },
+    {
+      "epoch": 0.16970530902419448,
+      "grad_norm": 0.41216611862182617,
+      "learning_rate": 0.0009498842702357736,
+      "loss": 2.509769916534424,
+      "step": 370,
+      "token_acc": 0.46772428884026257
+    },
+    {
+      "epoch": 0.17016397202155717,
+      "grad_norm": 0.4165962040424347,
+      "learning_rate": 0.0009495596868489587,
+      "loss": 2.5886473655700684,
+      "step": 371,
+      "token_acc": 0.4643769514618223
+    },
+    {
+      "epoch": 0.17062263501891986,
+      "grad_norm": 0.39617934823036194,
+      "learning_rate": 0.0009492341115658167,
+      "loss": 2.638978958129883,
+      "step": 372,
+      "token_acc": 0.4578575312669929
+    },
+    {
+      "epoch": 0.17108129801628252,
+      "grad_norm": 0.41385167837142944,
+      "learning_rate": 0.0009489075451046879,
+      "loss": 2.629528045654297,
+      "step": 373,
+      "token_acc": 0.44881450488145047
+    },
+    {
+      "epoch": 0.17153996101364521,
+      "grad_norm": 0.4302857518196106,
+      "learning_rate": 0.0009485799881861,
+      "loss": 2.520348072052002,
+      "step": 374,
+      "token_acc": 0.46902901785714285
+    },
+    {
+      "epoch": 0.1719986240110079,
+      "grad_norm": 0.45588448643684387,
+      "learning_rate": 0.0009482514415327654,
+      "loss": 2.651028633117676,
+      "step": 375,
+      "token_acc": 0.45060706401766004
+    },
+    {
+      "epoch": 0.1724572870083706,
+      "grad_norm": 0.4505552649497986,
+      "learning_rate": 0.000947921905869581,
+      "loss": 2.5736663341522217,
+      "step": 376,
+      "token_acc": 0.47363636363636363
+    },
+    {
+      "epoch": 0.1729159500057333,
+      "grad_norm": 0.40757641196250916,
+      "learning_rate": 0.0009475913819236248,
+      "loss": 2.5957694053649902,
+      "step": 377,
+      "token_acc": 0.47420417124039516
+    },
+    {
+      "epoch": 0.17337461300309598,
+      "grad_norm": 0.4351325035095215,
+      "learning_rate": 0.0009472598704241561,
+      "loss": 2.4885451793670654,
+      "step": 378,
+      "token_acc": 0.4707658523195169
+    },
+    {
+      "epoch": 0.17383327600045867,
+      "grad_norm": 0.40504732728004456,
+      "learning_rate": 0.0009469273721026131,
+      "loss": 2.5353477001190186,
+      "step": 379,
+      "token_acc": 0.4721159103335156
+    },
+    {
+      "epoch": 0.17429193899782136,
+      "grad_norm": 0.38353148102760315,
+      "learning_rate": 0.0009465938876926111,
+      "loss": 2.6405746936798096,
+      "step": 380,
+      "token_acc": 0.46988950276243097
+    },
+    {
+      "epoch": 0.17475060199518405,
+      "grad_norm": 0.3908288776874542,
+      "learning_rate": 0.0009462594179299406,
+      "loss": 2.5685665607452393,
+      "step": 381,
+      "token_acc": 0.47017045454545453
+    },
+    {
+      "epoch": 0.17520926499254671,
+      "grad_norm": 0.41922634840011597,
+      "learning_rate": 0.0009459239635525672,
+      "loss": 2.615957260131836,
+      "step": 382,
+      "token_acc": 0.46454494695700727
+    },
+    {
+      "epoch": 0.1756679279899094,
+      "grad_norm": 0.4485314190387726,
+      "learning_rate": 0.0009455875253006281,
+      "loss": 2.593306541442871,
+      "step": 383,
+      "token_acc": 0.46047430830039526
+    },
+    {
+      "epoch": 0.1761265909872721,
+      "grad_norm": 0.3978206515312195,
+      "learning_rate": 0.0009452501039164315,
+      "loss": 2.6363213062286377,
+      "step": 384,
+      "token_acc": 0.4570466030320045
+    },
+    {
+      "epoch": 0.1765852539846348,
+      "grad_norm": 0.4241364002227783,
+      "learning_rate": 0.0009449117001444549,
+      "loss": 2.4863171577453613,
+      "step": 385,
+      "token_acc": 0.4844632768361582
+    },
+    {
+      "epoch": 0.17704391698199748,
+      "grad_norm": 0.4510960578918457,
+      "learning_rate": 0.0009445723147313433,
+      "loss": 2.6984877586364746,
+      "step": 386,
+      "token_acc": 0.4480177432769615
+    },
+    {
+      "epoch": 0.17750257997936017,
+      "grad_norm": 0.43443918228149414,
+      "learning_rate": 0.0009442319484259074,
+      "loss": 2.484069347381592,
+      "step": 387,
+      "token_acc": 0.48188194038573934
+    },
+    {
+      "epoch": 0.17796124297672286,
+      "grad_norm": 0.4151553809642792,
+      "learning_rate": 0.0009438906019791222,
+      "loss": 2.6051125526428223,
+      "step": 388,
+      "token_acc": 0.45906113537117904
+    },
+    {
+      "epoch": 0.17841990597408555,
+      "grad_norm": 0.3965606689453125,
+      "learning_rate": 0.0009435482761441251,
+      "loss": 2.514193534851074,
+      "step": 389,
+      "token_acc": 0.47919010123734535
+    },
+    {
+      "epoch": 0.17887856897144822,
+      "grad_norm": 0.43322673439979553,
+      "learning_rate": 0.000943204971676215,
+      "loss": 2.5595152378082275,
+      "step": 390,
+      "token_acc": 0.4584847637685211
+    },
+    {
+      "epoch": 0.1793372319688109,
+      "grad_norm": 0.40551865100860596,
+      "learning_rate": 0.0009428606893328493,
+      "loss": 2.5409257411956787,
+      "step": 391,
+      "token_acc": 0.46350468616870205
+    },
+    {
+      "epoch": 0.1797958949661736,
+      "grad_norm": 0.4015904664993286,
+      "learning_rate": 0.0009425154298736432,
+      "loss": 2.572035312652588,
+      "step": 392,
+      "token_acc": 0.46819634040081326
+    },
+    {
+      "epoch": 0.1802545579635363,
+      "grad_norm": 0.4025871157646179,
+      "learning_rate": 0.0009421691940603678,
+      "loss": 2.6474266052246094,
+      "step": 393,
+      "token_acc": 0.46271139451067367
+    },
+    {
+      "epoch": 0.18071322096089898,
+      "grad_norm": 0.4192837178707123,
+      "learning_rate": 0.0009418219826569488,
+      "loss": 2.701843023300171,
+      "step": 394,
+      "token_acc": 0.45130979498861046
+    },
+    {
+      "epoch": 0.18117188395826167,
+      "grad_norm": 0.38373637199401855,
+      "learning_rate": 0.0009414737964294635,
+      "loss": 2.570427894592285,
+      "step": 395,
+      "token_acc": 0.4481614597732928
+    },
+    {
+      "epoch": 0.18163054695562436,
+      "grad_norm": 0.4057350158691406,
+      "learning_rate": 0.000941124636146141,
+      "loss": 2.582561492919922,
+      "step": 396,
+      "token_acc": 0.4712304514606078
+    },
+    {
+      "epoch": 0.18208920995298705,
+      "grad_norm": 0.4132590591907501,
+      "learning_rate": 0.0009407745025773589,
+      "loss": 2.5467779636383057,
+      "step": 397,
+      "token_acc": 0.4694873881204231
+    },
+    {
+      "epoch": 0.18254787295034974,
+      "grad_norm": 0.39825674891471863,
+      "learning_rate": 0.0009404233964956423,
+      "loss": 2.7308290004730225,
+      "step": 398,
+      "token_acc": 0.4467480829309855
+    },
+    {
+      "epoch": 0.1830065359477124,
+      "grad_norm": 0.407055139541626,
+      "learning_rate": 0.0009400713186756625,
+      "loss": 2.619384527206421,
+      "step": 399,
+      "token_acc": 0.4601499583449042
+    },
+    {
+      "epoch": 0.1834651989450751,
+      "grad_norm": 0.4172784388065338,
+      "learning_rate": 0.0009397182698942342,
+      "loss": 2.5730819702148438,
+      "step": 400,
+      "token_acc": 0.45263739298536315
+    },
+    {
+      "epoch": 0.1839238619424378,
+      "grad_norm": 0.4333350956439972,
+      "learning_rate": 0.0009393642509303149,
+      "loss": 2.6688592433929443,
+      "step": 401,
+      "token_acc": 0.4741113909879653
+    },
+    {
+      "epoch": 0.18438252493980048,
+      "grad_norm": 0.3947511911392212,
+      "learning_rate": 0.0009390092625650023,
+      "loss": 2.657405376434326,
+      "step": 402,
+      "token_acc": 0.45810363836824697
+    },
+    {
+      "epoch": 0.18484118793716317,
+      "grad_norm": 0.4339149296283722,
+      "learning_rate": 0.0009386533055815332,
+      "loss": 2.681288719177246,
+      "step": 403,
+      "token_acc": 0.45652173913043476
+    },
+    {
+      "epoch": 0.18529985093452586,
+      "grad_norm": 0.3941650986671448,
+      "learning_rate": 0.0009382963807652813,
+      "loss": 2.5837690830230713,
+      "step": 404,
+      "token_acc": 0.47146334866107653
+    },
+    {
+      "epoch": 0.18575851393188855,
+      "grad_norm": 0.4603818953037262,
+      "learning_rate": 0.000937938488903756,
+      "loss": 2.6627614498138428,
+      "step": 405,
+      "token_acc": 0.466951566951567
+    },
+    {
+      "epoch": 0.18621717692925124,
+      "grad_norm": 0.3865680694580078,
+      "learning_rate": 0.0009375796307866003,
+      "loss": 2.5871713161468506,
+      "step": 406,
+      "token_acc": 0.4653716216216216
+    },
+    {
+      "epoch": 0.1866758399266139,
+      "grad_norm": 0.41417625546455383,
+      "learning_rate": 0.0009372198072055888,
+      "loss": 2.5773262977600098,
+      "step": 407,
+      "token_acc": 0.4564059433697785
+    },
+    {
+      "epoch": 0.1871345029239766,
+      "grad_norm": 0.3635321259498596,
+      "learning_rate": 0.0009368590189546268,
+      "loss": 2.5331361293792725,
+      "step": 408,
+      "token_acc": 0.4676176890156919
+    },
+    {
+      "epoch": 0.1875931659213393,
+      "grad_norm": 0.38962680101394653,
+      "learning_rate": 0.0009364972668297474,
+      "loss": 2.552304744720459,
+      "step": 409,
+      "token_acc": 0.4653732147669092
+    },
+    {
+      "epoch": 0.18805182891870198,
+      "grad_norm": 0.4158221185207367,
+      "learning_rate": 0.0009361345516291111,
+      "loss": 2.550410032272339,
+      "step": 410,
+      "token_acc": 0.453159645232816
+    },
+    {
+      "epoch": 0.18851049191606467,
+      "grad_norm": 0.4099529981613159,
+      "learning_rate": 0.0009357708741530024,
+      "loss": 2.707277774810791,
+      "step": 411,
+      "token_acc": 0.4332859174964438
+    },
+    {
+      "epoch": 0.18896915491342736,
+      "grad_norm": 0.41067618131637573,
+      "learning_rate": 0.00093540623520383,
+      "loss": 2.553727149963379,
+      "step": 412,
+      "token_acc": 0.4730488489612577
+    },
+    {
+      "epoch": 0.18942781791079005,
+      "grad_norm": 0.38499942421913147,
+      "learning_rate": 0.000935040635586123,
+      "loss": 2.5731756687164307,
+      "step": 413,
+      "token_acc": 0.4715830329914056
+    },
+    {
+      "epoch": 0.18988648090815274,
+      "grad_norm": 0.3790716826915741,
+      "learning_rate": 0.0009346740761065305,
+      "loss": 2.6889755725860596,
+      "step": 414,
+      "token_acc": 0.45875862068965517
+    },
+    {
+      "epoch": 0.19034514390551543,
+      "grad_norm": 0.3953869342803955,
+      "learning_rate": 0.0009343065575738197,
+      "loss": 2.6290853023529053,
+      "step": 415,
+      "token_acc": 0.465512577765756
+    },
+    {
+      "epoch": 0.1908038069028781,
+      "grad_norm": 0.4042235314846039,
+      "learning_rate": 0.0009339380807988733,
+      "loss": 2.6420435905456543,
+      "step": 416,
+      "token_acc": 0.4564732142857143
+    },
+    {
+      "epoch": 0.1912624699002408,
+      "grad_norm": 0.3795788586139679,
+      "learning_rate": 0.0009335686465946887,
+      "loss": 2.6411471366882324,
+      "step": 417,
+      "token_acc": 0.4573170731707317
+    },
+    {
+      "epoch": 0.19172113289760348,
+      "grad_norm": 0.39527779817581177,
+      "learning_rate": 0.0009331982557763754,
+      "loss": 2.7112417221069336,
+      "step": 418,
+      "token_acc": 0.4475817724350014
+    },
+    {
+      "epoch": 0.19217979589496617,
+      "grad_norm": 0.4037948250770569,
+      "learning_rate": 0.0009328269091611537,
+      "loss": 2.4808003902435303,
+      "step": 419,
+      "token_acc": 0.4915930464519806
+    },
+    {
+      "epoch": 0.19263845889232886,
+      "grad_norm": 0.4012736976146698,
+      "learning_rate": 0.0009324546075683524,
+      "loss": 2.5795071125030518,
+      "step": 420,
+      "token_acc": 0.4590256265840608
+    },
+    {
+      "epoch": 0.19309712188969155,
+      "grad_norm": 0.418231338262558,
+      "learning_rate": 0.0009320813518194083,
+      "loss": 2.4380812644958496,
+      "step": 421,
+      "token_acc": 0.4740925464117484
+    },
+    {
+      "epoch": 0.19355578488705424,
+      "grad_norm": 0.421398788690567,
+      "learning_rate": 0.0009317071427378624,
+      "loss": 2.522702693939209,
+      "step": 422,
+      "token_acc": 0.45930723739791607
+    },
+    {
+      "epoch": 0.19401444788441694,
+      "grad_norm": 0.39327558875083923,
+      "learning_rate": 0.0009313319811493594,
+      "loss": 2.6190366744995117,
+      "step": 423,
+      "token_acc": 0.4589691909012381
+    },
+    {
+      "epoch": 0.19447311088177963,
+      "grad_norm": 0.40502116084098816,
+      "learning_rate": 0.000930955867881646,
+      "loss": 2.607069730758667,
+      "step": 424,
+      "token_acc": 0.47392682224142896
+    },
+    {
+      "epoch": 0.1949317738791423,
+      "grad_norm": 0.3894353210926056,
+      "learning_rate": 0.0009305788037645681,
+      "loss": 2.5036253929138184,
+      "step": 425,
+      "token_acc": 0.4695208392401474
+    },
+    {
+      "epoch": 0.19539043687650498,
+      "grad_norm": 0.3827606439590454,
+      "learning_rate": 0.0009302007896300697,
+      "loss": 2.6175341606140137,
+      "step": 426,
+      "token_acc": 0.4520663480461063
+    },
+    {
+      "epoch": 0.19584909987386767,
+      "grad_norm": 0.40213632583618164,
+      "learning_rate": 0.0009298218263121911,
+      "loss": 2.655780792236328,
+      "step": 427,
+      "token_acc": 0.4506688963210702
+    },
+    {
+      "epoch": 0.19630776287123036,
+      "grad_norm": 0.4143352210521698,
+      "learning_rate": 0.0009294419146470668,
+      "loss": 2.5638465881347656,
+      "step": 428,
+      "token_acc": 0.4685153090699018
+    },
+    {
+      "epoch": 0.19676642586859305,
+      "grad_norm": 0.38488566875457764,
+      "learning_rate": 0.0009290610554729234,
+      "loss": 2.5924088954925537,
+      "step": 429,
+      "token_acc": 0.47608002319512904
+    },
+    {
+      "epoch": 0.19722508886595574,
+      "grad_norm": 0.39620792865753174,
+      "learning_rate": 0.0009286792496300784,
+      "loss": 2.6398215293884277,
+      "step": 430,
+      "token_acc": 0.4638377368561516
+    },
+    {
+      "epoch": 0.19768375186331844,
+      "grad_norm": 0.4052406847476959,
+      "learning_rate": 0.0009282964979609379,
+      "loss": 2.608097791671753,
+      "step": 431,
+      "token_acc": 0.46197664483053263
+    },
+    {
+      "epoch": 0.19814241486068113,
+      "grad_norm": 0.38303396105766296,
+      "learning_rate": 0.0009279128013099947,
+      "loss": 2.6472907066345215,
+      "step": 432,
+      "token_acc": 0.4598166127292341
+    },
+    {
+      "epoch": 0.1986010778580438,
+      "grad_norm": 0.40610387921333313,
+      "learning_rate": 0.0009275281605238268,
+      "loss": 2.492669105529785,
+      "step": 433,
+      "token_acc": 0.47534516765285995
+    },
+    {
+      "epoch": 0.19905974085540648,
+      "grad_norm": 0.3952889144420624,
+      "learning_rate": 0.0009271425764510953,
+      "loss": 2.6313681602478027,
+      "step": 434,
+      "token_acc": 0.4699468828627341
+    },
+    {
+      "epoch": 0.19951840385276917,
+      "grad_norm": 0.41193047165870667,
+      "learning_rate": 0.0009267560499425423,
+      "loss": 2.5954980850219727,
+      "step": 435,
+      "token_acc": 0.4695676905574516
+    },
+    {
+      "epoch": 0.19997706685013186,
+      "grad_norm": 0.3879605531692505,
+      "learning_rate": 0.0009263685818509895,
+      "loss": 2.4855003356933594,
+      "step": 436,
+      "token_acc": 0.47355092853123243
+    },
+    {
+      "epoch": 0.20043572984749455,
+      "grad_norm": 0.3875865340232849,
+      "learning_rate": 0.000925980173031336,
+      "loss": 2.5459117889404297,
+      "step": 437,
+      "token_acc": 0.4753639417693169
+    },
+    {
+      "epoch": 0.20089439284485724,
+      "grad_norm": 0.3909992277622223,
+      "learning_rate": 0.0009255908243405567,
+      "loss": 2.591198682785034,
+      "step": 438,
+      "token_acc": 0.4688505410938871
+    },
+    {
+      "epoch": 0.20135305584221994,
+      "grad_norm": 0.3927661180496216,
+      "learning_rate": 0.0009252005366376996,
+      "loss": 2.4856722354888916,
+      "step": 439,
+      "token_acc": 0.48118985126859143
+    },
+    {
+      "epoch": 0.20181171883958263,
+      "grad_norm": 0.3701532781124115,
+      "learning_rate": 0.0009248093107838852,
+      "loss": 2.5320944786071777,
+      "step": 440,
+      "token_acc": 0.47963169642857145
+    },
+    {
+      "epoch": 0.20227038183694532,
+      "grad_norm": 0.3763086497783661,
+      "learning_rate": 0.0009244171476423036,
+      "loss": 2.5174026489257812,
+      "step": 441,
+      "token_acc": 0.4662291495761553
+    },
+    {
+      "epoch": 0.20272904483430798,
+      "grad_norm": 0.37395140528678894,
+      "learning_rate": 0.0009240240480782129,
+      "loss": 2.5528581142425537,
+      "step": 442,
+      "token_acc": 0.4646860986547085
+    },
+    {
+      "epoch": 0.20318770783167067,
+      "grad_norm": 0.3783034682273865,
+      "learning_rate": 0.0009236300129589376,
+      "loss": 2.5438807010650635,
+      "step": 443,
+      "token_acc": 0.4774425685026294
+    },
+    {
+      "epoch": 0.20364637082903336,
+      "grad_norm": 0.388265997171402,
+      "learning_rate": 0.0009232350431538657,
+      "loss": 2.5656330585479736,
+      "step": 444,
+      "token_acc": 0.46824104234527686
+    },
+    {
+      "epoch": 0.20410503382639605,
+      "grad_norm": 0.40323275327682495,
+      "learning_rate": 0.0009228391395344482,
+      "loss": 2.645947217941284,
+      "step": 445,
+      "token_acc": 0.4491150442477876
+    },
+    {
+      "epoch": 0.20456369682375874,
+      "grad_norm": 0.4090023636817932,
+      "learning_rate": 0.000922442302974196,
+      "loss": 2.527318000793457,
+      "step": 446,
+      "token_acc": 0.46495726495726497
+    },
+    {
+      "epoch": 0.20502235982112144,
+      "grad_norm": 0.40271681547164917,
+      "learning_rate": 0.0009220445343486785,
+      "loss": 2.6372811794281006,
+      "step": 447,
+      "token_acc": 0.4597090095131505
+    },
+    {
+      "epoch": 0.20548102281848413,
+      "grad_norm": 0.3812653422355652,
+      "learning_rate": 0.0009216458345355217,
+      "loss": 2.4973151683807373,
+      "step": 448,
+      "token_acc": 0.47851893725268513
+    },
+    {
+      "epoch": 0.20593968581584682,
+      "grad_norm": 0.4018206000328064,
+      "learning_rate": 0.0009212462044144061,
+      "loss": 2.52083683013916,
+      "step": 449,
+      "token_acc": 0.4630890765459003
+    },
+    {
+      "epoch": 0.20639834881320948,
+      "grad_norm": 0.37830349802970886,
+      "learning_rate": 0.0009208456448670648,
+      "loss": 2.6749067306518555,
+      "step": 450,
+      "token_acc": 0.44304506017352363
+    },
+    {
+      "epoch": 0.20685701181057217,
+      "grad_norm": 0.439730703830719,
+      "learning_rate": 0.0009204441567772816,
+      "loss": 2.589843273162842,
+      "step": 451,
+      "token_acc": 0.4645216891697788
+    },
+    {
+      "epoch": 0.20731567480793486,
+      "grad_norm": 0.40967103838920593,
+      "learning_rate": 0.0009200417410308888,
+      "loss": 2.543421745300293,
+      "step": 452,
+      "token_acc": 0.46950875211744775
+    },
+    {
+      "epoch": 0.20777433780529755,
+      "grad_norm": 0.40374353528022766,
+      "learning_rate": 0.0009196383985157656,
+      "loss": 2.638310432434082,
+      "step": 453,
+      "token_acc": 0.4498764075803351
+    },
+    {
+      "epoch": 0.20823300080266025,
+      "grad_norm": 0.4105873703956604,
+      "learning_rate": 0.000919234130121836,
+      "loss": 2.5955827236175537,
+      "step": 454,
+      "token_acc": 0.47307256235827666
+    },
+    {
+      "epoch": 0.20869166380002294,
+      "grad_norm": 0.37560272216796875,
+      "learning_rate": 0.0009188289367410672,
+      "loss": 2.487872838973999,
+      "step": 455,
+      "token_acc": 0.46722871906445473
+    },
+    {
+      "epoch": 0.20915032679738563,
+      "grad_norm": 0.388428658246994,
+      "learning_rate": 0.0009184228192674666,
+      "loss": 2.506679058074951,
+      "step": 456,
+      "token_acc": 0.47288912867547883
+    },
+    {
+      "epoch": 0.20960898979474832,
+      "grad_norm": 0.3931160569190979,
+      "learning_rate": 0.0009180157785970808,
+      "loss": 2.5867390632629395,
+      "step": 457,
+      "token_acc": 0.4499865192774333
+    },
+    {
+      "epoch": 0.210067652792111,
+      "grad_norm": 0.41282862424850464,
+      "learning_rate": 0.0009176078156279932,
+      "loss": 2.587297201156616,
+      "step": 458,
+      "token_acc": 0.47007340485601357
+    },
+    {
+      "epoch": 0.21052631578947367,
+      "grad_norm": 0.39998891949653625,
+      "learning_rate": 0.0009171989312603226,
+      "loss": 2.550248861312866,
+      "step": 459,
+      "token_acc": 0.4854423292273236
+    },
+    {
+      "epoch": 0.21098497878683636,
+      "grad_norm": 0.42250239849090576,
+      "learning_rate": 0.0009167891263962202,
+      "loss": 2.603269100189209,
+      "step": 460,
+      "token_acc": 0.46368243243243246
+    },
+    {
+      "epoch": 0.21144364178419905,
+      "grad_norm": 0.4170747995376587,
+      "learning_rate": 0.0009163784019398685,
+      "loss": 2.690775156021118,
+      "step": 461,
+      "token_acc": 0.4549736769188141
+    },
+    {
+      "epoch": 0.21190230478156175,
+      "grad_norm": 0.3724856376647949,
+      "learning_rate": 0.0009159667587974785,
+      "loss": 2.6168031692504883,
+      "step": 462,
+      "token_acc": 0.4582751883896176
+    },
+    {
+      "epoch": 0.21236096777892444,
+      "grad_norm": 0.4137090742588043,
+      "learning_rate": 0.0009155541978772887,
+      "loss": 2.5024125576019287,
+      "step": 463,
+      "token_acc": 0.47983193277310926
+    },
+    {
+      "epoch": 0.21281963077628713,
+      "grad_norm": 0.38396579027175903,
+      "learning_rate": 0.0009151407200895625,
+      "loss": 2.5219240188598633,
+      "step": 464,
+      "token_acc": 0.4688134609805628
+    },
+    {
+      "epoch": 0.21327829377364982,
+      "grad_norm": 0.39594194293022156,
+      "learning_rate": 0.000914726326346586,
+      "loss": 2.4753499031066895,
+      "step": 465,
+      "token_acc": 0.49034216335540837
+    },
+    {
+      "epoch": 0.2137369567710125,
+      "grad_norm": 0.3724762201309204,
+      "learning_rate": 0.0009143110175626661,
+      "loss": 2.5561299324035645,
+      "step": 466,
+      "token_acc": 0.46510981373366694
+    },
+    {
+      "epoch": 0.21419561976837517,
+      "grad_norm": 0.3751997947692871,
+      "learning_rate": 0.0009138947946541291,
+      "loss": 2.496422290802002,
+      "step": 467,
+      "token_acc": 0.47304544171605983
+    },
+    {
+      "epoch": 0.21465428276573786,
+      "grad_norm": 0.4005948603153229,
+      "learning_rate": 0.0009134776585393181,
+      "loss": 2.6045703887939453,
+      "step": 468,
+      "token_acc": 0.4639463387367244
+    },
+    {
+      "epoch": 0.21511294576310055,
+      "grad_norm": 0.40457993745803833,
+      "learning_rate": 0.0009130596101385906,
+      "loss": 2.5033934116363525,
+      "step": 469,
+      "token_acc": 0.47127087461081235
+    },
+    {
+      "epoch": 0.21557160876046325,
+      "grad_norm": 0.39451906085014343,
+      "learning_rate": 0.0009126406503743174,
+      "loss": 2.5369369983673096,
+      "step": 470,
+      "token_acc": 0.4592711682743837
+    },
+    {
+      "epoch": 0.21603027175782594,
+      "grad_norm": 0.4096771478652954,
+      "learning_rate": 0.0009122207801708802,
+      "loss": 2.567286491394043,
+      "step": 471,
+      "token_acc": 0.46807901517320355
+    },
+    {
+      "epoch": 0.21648893475518863,
+      "grad_norm": 0.43727409839630127,
+      "learning_rate": 0.0009118000004546689,
+      "loss": 2.6949033737182617,
+      "step": 472,
+      "token_acc": 0.4469783352337514
+    },
+    {
+      "epoch": 0.21694759775255132,
+      "grad_norm": 0.36102235317230225,
+      "learning_rate": 0.0009113783121540807,
+      "loss": 2.520066976547241,
+      "step": 473,
+      "token_acc": 0.47419880499728406
+    },
+    {
+      "epoch": 0.217406260749914,
+      "grad_norm": 0.3721596598625183,
+      "learning_rate": 0.0009109557161995172,
+      "loss": 2.4864273071289062,
+      "step": 474,
+      "token_acc": 0.48077462812236876
+    },
+    {
+      "epoch": 0.2178649237472767,
+      "grad_norm": 0.42098984122276306,
+      "learning_rate": 0.0009105322135233828,
+      "loss": 2.7277424335479736,
+      "step": 475,
+      "token_acc": 0.4547960308710033
+    },
+    {
+      "epoch": 0.21832358674463936,
+      "grad_norm": 0.41538456082344055,
+      "learning_rate": 0.0009101078050600821,
+      "loss": 2.477248430252075,
+      "step": 476,
+      "token_acc": 0.48614318706697457
+    },
+    {
+      "epoch": 0.21878224974200206,
+      "grad_norm": 0.410741925239563,
+      "learning_rate": 0.0009096824917460186,
+      "loss": 2.5066070556640625,
+      "step": 477,
+      "token_acc": 0.4751835535976505
+    },
+    {
+      "epoch": 0.21924091273936475,
+      "grad_norm": 0.4074147939682007,
+      "learning_rate": 0.0009092562745195921,
+      "loss": 2.502903938293457,
+      "step": 478,
+      "token_acc": 0.46361862280457206
+    },
+    {
+      "epoch": 0.21969957573672744,
+      "grad_norm": 0.4084773361682892,
+      "learning_rate": 0.0009088291543211967,
+      "loss": 2.5185282230377197,
+      "step": 479,
+      "token_acc": 0.4697097774020851
+    },
+    {
+      "epoch": 0.22015823873409013,
+      "grad_norm": 0.38761746883392334,
+      "learning_rate": 0.0009084011320932188,
+      "loss": 2.642716884613037,
+      "step": 480,
+      "token_acc": 0.440668202764977
+    },
+    {
+      "epoch": 0.22061690173145282,
+      "grad_norm": 0.35659921169281006,
+      "learning_rate": 0.0009079722087800352,
+      "loss": 2.6534323692321777,
+      "step": 481,
+      "token_acc": 0.4625538793103448
+    },
+    {
+      "epoch": 0.2210755647288155,
+      "grad_norm": 0.3781280219554901,
+      "learning_rate": 0.0009075423853280106,
+      "loss": 2.5854148864746094,
+      "step": 482,
+      "token_acc": 0.45847554038680316
+    },
+    {
+      "epoch": 0.2215342277261782,
+      "grad_norm": 0.3818654716014862,
+      "learning_rate": 0.0009071116626854958,
+      "loss": 2.537139415740967,
+      "step": 483,
+      "token_acc": 0.4754289037510904
+    },
+    {
+      "epoch": 0.2219928907235409,
+      "grad_norm": 0.36289218068122864,
+      "learning_rate": 0.0009066800418028256,
+      "loss": 2.6622986793518066,
+      "step": 484,
+      "token_acc": 0.4523612261806131
+    },
+    {
+      "epoch": 0.22245155372090356,
+      "grad_norm": 0.3568601608276367,
+      "learning_rate": 0.0009062475236323168,
+      "loss": 2.4662697315216064,
+      "step": 485,
+      "token_acc": 0.471900826446281
+    },
+    {
+      "epoch": 0.22291021671826625,
+      "grad_norm": 0.4033224880695343,
+      "learning_rate": 0.0009058141091282656,
+      "loss": 2.577792167663574,
+      "step": 486,
+      "token_acc": 0.4701449275362319
+    },
+    {
+      "epoch": 0.22336887971562894,
+      "grad_norm": 0.41395699977874756,
+      "learning_rate": 0.0009053797992469461,
+      "loss": 2.517850875854492,
+      "step": 487,
+      "token_acc": 0.4728682170542636
+    },
+    {
+      "epoch": 0.22382754271299163,
+      "grad_norm": 0.397484689950943,
+      "learning_rate": 0.0009049445949466078,
+      "loss": 2.566315174102783,
+      "step": 488,
+      "token_acc": 0.4606741573033708
+    },
+    {
+      "epoch": 0.22428620571035432,
+      "grad_norm": 0.42345955967903137,
+      "learning_rate": 0.0009045084971874737,
+      "loss": 2.46694016456604,
+      "step": 489,
+      "token_acc": 0.48572261072261075
+    },
+    {
+      "epoch": 0.224744868707717,
+      "grad_norm": 0.3665259778499603,
+      "learning_rate": 0.0009040715069317382,
+      "loss": 2.546272039413452,
+      "step": 490,
+      "token_acc": 0.4705056179775281
+    },
+    {
+      "epoch": 0.2252035317050797,
+      "grad_norm": 0.37157562375068665,
+      "learning_rate": 0.0009036336251435648,
+      "loss": 2.5314531326293945,
+      "step": 491,
+      "token_acc": 0.47218378079158596
+    },
+    {
+      "epoch": 0.2256621947024424,
+      "grad_norm": 0.39277079701423645,
+      "learning_rate": 0.0009031948527890839,
+      "loss": 2.6590447425842285,
+      "step": 492,
+      "token_acc": 0.4602533009970358
+    },
+    {
+      "epoch": 0.22612085769980506,
+      "grad_norm": 0.36168089509010315,
+      "learning_rate": 0.000902755190836391,
+      "loss": 2.5425782203674316,
+      "step": 493,
+      "token_acc": 0.45703014933784164
+    },
+    {
+      "epoch": 0.22657952069716775,
+      "grad_norm": 0.37716665863990784,
+      "learning_rate": 0.0009023146402555442,
+      "loss": 2.591247320175171,
+      "step": 494,
+      "token_acc": 0.46091568955890566
+    },
+    {
+      "epoch": 0.22703818369453044,
+      "grad_norm": 0.38520413637161255,
+      "learning_rate": 0.0009018732020185624,
+      "loss": 2.528381109237671,
+      "step": 495,
+      "token_acc": 0.4755755193711398
+    },
+    {
+      "epoch": 0.22749684669189313,
+      "grad_norm": 0.3933509588241577,
+      "learning_rate": 0.0009014308770994235,
+      "loss": 2.6846232414245605,
+      "step": 496,
+      "token_acc": 0.4565278166060945
+    },
+    {
+      "epoch": 0.22795550968925582,
+      "grad_norm": 0.3352566659450531,
+      "learning_rate": 0.0009009876664740605,
+      "loss": 2.550840377807617,
+      "step": 497,
+      "token_acc": 0.4640171858216971
+    },
+    {
+      "epoch": 0.2284141726866185,
+      "grad_norm": 0.39495301246643066,
+      "learning_rate": 0.0009005435711203618,
+      "loss": 2.5562939643859863,
+      "step": 498,
+      "token_acc": 0.4732604945370903
+    },
+    {
+      "epoch": 0.2288728356839812,
+      "grad_norm": 0.3501955568790436,
+      "learning_rate": 0.000900098592018167,
+      "loss": 2.5315308570861816,
+      "step": 499,
+      "token_acc": 0.46990291262135925
+    },
+    {
+      "epoch": 0.2293314986813439,
+      "grad_norm": 0.3943643569946289,
+      "learning_rate": 0.0008996527301492663,
+      "loss": 2.6158156394958496,
+      "step": 500,
+      "token_acc": 0.45334457560427205
+    },
+    {
+      "epoch": 0.22979016167870658,
+      "grad_norm": 0.36251503229141235,
+      "learning_rate": 0.0008992059864973972,
+      "loss": 2.6009597778320312,
+      "step": 501,
+      "token_acc": 0.4622747747747748
+    },
+    {
+      "epoch": 0.23024882467606925,
+      "grad_norm": 0.3793307840824127,
+      "learning_rate": 0.0008987583620482427,
+      "loss": 2.4605164527893066,
+      "step": 502,
+      "token_acc": 0.48740658732355385
+    },
+    {
+      "epoch": 0.23070748767343194,
+      "grad_norm": 0.4345690906047821,
+      "learning_rate": 0.0008983098577894292,
+      "loss": 2.539327621459961,
+      "step": 503,
+      "token_acc": 0.4740761959323976
+    },
+    {
+      "epoch": 0.23116615067079463,
+      "grad_norm": 0.3961641788482666,
+      "learning_rate": 0.0008978604747105246,
+      "loss": 2.6559853553771973,
+      "step": 504,
+      "token_acc": 0.4596361569073337
+    },
+    {
+      "epoch": 0.23162481366815732,
+      "grad_norm": 0.4149439334869385,
+      "learning_rate": 0.0008974102138030354,
+      "loss": 2.6528587341308594,
+      "step": 505,
+      "token_acc": 0.44761904761904764
+    },
+    {
+      "epoch": 0.23208347666552,
+      "grad_norm": 0.37394022941589355,
+      "learning_rate": 0.000896959076060405,
+      "loss": 2.5719199180603027,
+      "step": 506,
+      "token_acc": 0.4569789674952199
+    },
+    {
+      "epoch": 0.2325421396628827,
+      "grad_norm": 0.3624346852302551,
+      "learning_rate": 0.0008965070624780116,
+      "loss": 2.5865468978881836,
+      "step": 507,
+      "token_acc": 0.4511550236571111
+    },
+    {
+      "epoch": 0.2330008026602454,
+      "grad_norm": 0.38855037093162537,
+      "learning_rate": 0.0008960541740531658,
+      "loss": 2.499340534210205,
+      "step": 508,
+      "token_acc": 0.4781276121482307
+    },
+    {
+      "epoch": 0.23345946565760808,
+      "grad_norm": 0.3862762153148651,
+      "learning_rate": 0.0008956004117851083,
+      "loss": 2.5793895721435547,
+      "step": 509,
+      "token_acc": 0.46044393853158794
+    },
+    {
+      "epoch": 0.23391812865497075,
+      "grad_norm": 0.37715065479278564,
+      "learning_rate": 0.0008951457766750079,
+      "loss": 2.526675224304199,
+      "step": 510,
+      "token_acc": 0.47380345511186633
+    },
+    {
+      "epoch": 0.23437679165233344,
+      "grad_norm": 0.366256445646286,
+      "learning_rate": 0.0008946902697259593,
+      "loss": 2.644956111907959,
+      "step": 511,
+      "token_acc": 0.46145220072890386
+    },
+    {
+      "epoch": 0.23483545464969613,
+      "grad_norm": 0.3832247853279114,
+      "learning_rate": 0.0008942338919429805,
+      "loss": 2.60667085647583,
+      "step": 512,
+      "token_acc": 0.46387726638772664
+    },
+    {
+      "epoch": 0.23529411764705882,
+      "grad_norm": 0.3709598481655121,
+      "learning_rate": 0.0008937766443330113,
+      "loss": 2.4412527084350586,
+      "step": 513,
+      "token_acc": 0.4801845819761129
+    },
+    {
+      "epoch": 0.2357527806444215,
+      "grad_norm": 0.38569653034210205,
+      "learning_rate": 0.0008933185279049103,
+      "loss": 2.5649497509002686,
+      "step": 514,
+      "token_acc": 0.46852748504699515
+    },
+    {
+      "epoch": 0.2362114436417842,
+      "grad_norm": 0.3500916361808777,
+      "learning_rate": 0.0008928595436694532,
+      "loss": 2.5700924396514893,
+      "step": 515,
+      "token_acc": 0.46950393060449985
+    },
+    {
+      "epoch": 0.2366701066391469,
+      "grad_norm": 0.378198504447937,
+      "learning_rate": 0.0008923996926393305,
+      "loss": 2.5207161903381348,
+      "step": 516,
+      "token_acc": 0.4872576177285319
+    },
+    {
+      "epoch": 0.23712876963650958,
+      "grad_norm": 0.3587672710418701,
+      "learning_rate": 0.0008919389758291449,
+      "loss": 2.501023292541504,
+      "step": 517,
+      "token_acc": 0.4758933635847986
+    },
+    {
+      "epoch": 0.23758743263387228,
+      "grad_norm": 0.38815540075302124,
+      "learning_rate": 0.0008914773942554098,
+      "loss": 2.519097089767456,
+      "step": 518,
+      "token_acc": 0.47036823935558114
+    },
+    {
+      "epoch": 0.23804609563123494,
+      "grad_norm": 0.3701168894767761,
+      "learning_rate": 0.000891014948936546,
+      "loss": 2.6548495292663574,
+      "step": 519,
+      "token_acc": 0.4473042535898131
+    },
+    {
+      "epoch": 0.23850475862859763,
+      "grad_norm": 0.36297929286956787,
+      "learning_rate": 0.0008905516408928804,
+      "loss": 2.535475254058838,
+      "step": 520,
+      "token_acc": 0.4565864214227752
+    },
+    {
+      "epoch": 0.23896342162596032,
+      "grad_norm": 0.3630169630050659,
+      "learning_rate": 0.0008900874711466434,
+      "loss": 2.5720911026000977,
+      "step": 521,
+      "token_acc": 0.468682505399568
+    },
+    {
+      "epoch": 0.239422084623323,
+      "grad_norm": 0.3904373347759247,
+      "learning_rate": 0.0008896224407219666,
+      "loss": 2.5639562606811523,
+      "step": 522,
+      "token_acc": 0.4694285714285714
+    },
+    {
+      "epoch": 0.2398807476206857,
+      "grad_norm": 0.36818987131118774,
+      "learning_rate": 0.0008891565506448804,
+      "loss": 2.4963648319244385,
+      "step": 523,
+      "token_acc": 0.49330675021361436
+    },
+    {
+      "epoch": 0.2403394106180484,
+      "grad_norm": 0.36865079402923584,
+      "learning_rate": 0.0008886898019433122,
+      "loss": 2.6094717979431152,
+      "step": 524,
+      "token_acc": 0.4691593886462882
+    },
+    {
+      "epoch": 0.24079807361541108,
+      "grad_norm": 0.37248772382736206,
+      "learning_rate": 0.0008882221956470836,
+      "loss": 2.6031100749969482,
+      "step": 525,
+      "token_acc": 0.45375972342264476
+    },
+    {
+      "epoch": 0.24125673661277378,
+      "grad_norm": 0.36860355734825134,
+      "learning_rate": 0.0008877537327879086,
+      "loss": 2.507462501525879,
+      "step": 526,
+      "token_acc": 0.4742686890574215
+    },
+    {
+      "epoch": 0.24171539961013644,
+      "grad_norm": 0.3737073242664337,
+      "learning_rate": 0.0008872844143993908,
+      "loss": 2.5607147216796875,
+      "step": 527,
+      "token_acc": 0.4727272727272727
+    },
+    {
+      "epoch": 0.24217406260749913,
+      "grad_norm": 0.38415616750717163,
+      "learning_rate": 0.0008868142415170218,
+      "loss": 2.5315136909484863,
+      "step": 528,
+      "token_acc": 0.468785151856018
+    },
+    {
+      "epoch": 0.24263272560486182,
+      "grad_norm": 0.36869847774505615,
+      "learning_rate": 0.0008863432151781781,
+      "loss": 2.551889181137085,
+      "step": 529,
+      "token_acc": 0.46661031276415893
+    },
+    {
+      "epoch": 0.2430913886022245,
+      "grad_norm": 0.3933951258659363,
+      "learning_rate": 0.0008858713364221195,
+      "loss": 2.495333671569824,
+      "step": 530,
+      "token_acc": 0.48209209778283113
+    },
+    {
+      "epoch": 0.2435500515995872,
+      "grad_norm": 0.40007683634757996,
+      "learning_rate": 0.0008853986062899868,
+      "loss": 2.599771022796631,
+      "step": 531,
+      "token_acc": 0.46636896455484234
+    },
+    {
+      "epoch": 0.2440087145969499,
+      "grad_norm": 0.3963909447193146,
+      "learning_rate": 0.0008849250258247986,
+      "loss": 2.5964791774749756,
+      "step": 532,
+      "token_acc": 0.46296834156259076
+    },
+    {
+      "epoch": 0.24446737759431258,
+      "grad_norm": 0.36057886481285095,
+      "learning_rate": 0.0008844505960714503,
+      "loss": 2.492642879486084,
+      "step": 533,
+      "token_acc": 0.4758132956152758
+    },
+    {
+      "epoch": 0.24492604059167528,
+      "grad_norm": 0.36214277148246765,
+      "learning_rate": 0.0008839753180767108,
+      "loss": 2.6629886627197266,
+      "step": 534,
+      "token_acc": 0.4472817133443163
+    },
+    {
+      "epoch": 0.24538470358903797,
+      "grad_norm": 0.37312352657318115,
+      "learning_rate": 0.0008834991928892204,
+      "loss": 2.5500128269195557,
+      "step": 535,
+      "token_acc": 0.4643658810325477
+    },
+    {
+      "epoch": 0.24584336658640063,
+      "grad_norm": 0.36593517661094666,
+      "learning_rate": 0.000883022221559489,
+      "loss": 2.4934048652648926,
+      "step": 536,
+      "token_acc": 0.4817371297095197
+    },
+    {
+      "epoch": 0.24630202958376332,
+      "grad_norm": 0.36594492197036743,
+      "learning_rate": 0.0008825444051398934,
+      "loss": 2.57529354095459,
+      "step": 537,
+      "token_acc": 0.46644388749651905
+    },
+    {
+      "epoch": 0.246760692581126,
+      "grad_norm": 0.40934574604034424,
+      "learning_rate": 0.0008820657446846745,
+      "loss": 2.5797791481018066,
+      "step": 538,
+      "token_acc": 0.4711007841998257
+    },
+    {
+      "epoch": 0.2472193555784887,
+      "grad_norm": 0.3780839443206787,
+      "learning_rate": 0.000881586241249936,
+      "loss": 2.4139151573181152,
+      "step": 539,
+      "token_acc": 0.4985835694050991
+    },
+    {
+      "epoch": 0.2476780185758514,
+      "grad_norm": 0.3716084063053131,
+      "learning_rate": 0.0008811058958936411,
+      "loss": 2.6056158542633057,
+      "step": 540,
+      "token_acc": 0.4665948275862069
+    },
+    {
+      "epoch": 0.24813668157321409,
+      "grad_norm": 0.3573615252971649,
+      "learning_rate": 0.000880624709675611,
+      "loss": 2.508676290512085,
+      "step": 541,
+      "token_acc": 0.4794326241134752
+    },
+    {
+      "epoch": 0.24859534457057678,
+      "grad_norm": 0.34393006563186646,
+      "learning_rate": 0.000880142683657522,
+      "loss": 2.4562158584594727,
+      "step": 542,
+      "token_acc": 0.48460909833832744
+    },
+    {
+      "epoch": 0.24905400756793947,
+      "grad_norm": 0.33539706468582153,
+      "learning_rate": 0.0008796598189029029,
+      "loss": 2.521101713180542,
+      "step": 543,
+      "token_acc": 0.46258685195082844
+    },
+    {
+      "epoch": 0.24951267056530213,
+      "grad_norm": 0.3463994860649109,
+      "learning_rate": 0.0008791761164771338,
+      "loss": 2.5215516090393066,
+      "step": 544,
+      "token_acc": 0.468961778259691
+    },
+    {
+      "epoch": 0.24997133356266482,
+      "grad_norm": 0.35912296175956726,
+      "learning_rate": 0.0008786915774474424,
+      "loss": 2.4866104125976562,
+      "step": 545,
+      "token_acc": 0.4598265895953757
+    },
+    {
+      "epoch": 0.2504299965600275,
+      "grad_norm": 0.43533387780189514,
+      "learning_rate": 0.0008782062028829027,
+      "loss": 2.7244958877563477,
+      "step": 546,
+      "token_acc": 0.45994318181818183
+    },
+    {
+      "epoch": 0.2508886595573902,
+      "grad_norm": 0.35860514640808105,
+      "learning_rate": 0.0008777199938544318,
+      "loss": 2.5446414947509766,
+      "step": 547,
+      "token_acc": 0.47353989580477107
+    },
+    {
+      "epoch": 0.2513473225547529,
+      "grad_norm": 0.37407001852989197,
+      "learning_rate": 0.0008772329514347883,
+      "loss": 2.4595727920532227,
+      "step": 548,
+      "token_acc": 0.48616491422246816
+    },
+    {
+      "epoch": 0.2518059855521156,
+      "grad_norm": 0.37593337893486023,
+      "learning_rate": 0.0008767450766985694,
+      "loss": 2.586094856262207,
+      "step": 549,
+      "token_acc": 0.46538570217575587
+    },
+    {
+      "epoch": 0.2522646485494783,
+      "grad_norm": 0.3840199410915375,
+      "learning_rate": 0.0008762563707222086,
+      "loss": 2.638777494430542,
+      "step": 550,
+      "token_acc": 0.4617695248498088
+    },
+    {
+      "epoch": 0.25272331154684097,
+      "grad_norm": 0.40009695291519165,
+      "learning_rate": 0.0008757668345839738,
+      "loss": 2.5830562114715576,
+      "step": 551,
+      "token_acc": 0.469762109486959
+    },
+    {
+      "epoch": 0.25318197454420366,
+      "grad_norm": 0.38633623719215393,
+      "learning_rate": 0.0008752764693639638,
+      "loss": 2.4778928756713867,
+      "step": 552,
+      "token_acc": 0.4752840909090909
+    },
+    {
+      "epoch": 0.25364063754156635,
+      "grad_norm": 0.3737511932849884,
+      "learning_rate": 0.0008747852761441078,
+      "loss": 2.532231330871582,
+      "step": 553,
+      "token_acc": 0.4677817384151357
+    },
+    {
+      "epoch": 0.25409930053892904,
+      "grad_norm": 0.3823889195919037,
+      "learning_rate": 0.0008742932560081607,
+      "loss": 2.501948833465576,
+      "step": 554,
+      "token_acc": 0.4758789860997547
+    },
+    {
+      "epoch": 0.25455796353629173,
+      "grad_norm": 0.3918113708496094,
+      "learning_rate": 0.0008738004100417025,
+      "loss": 2.391803741455078,
+      "step": 555,
+      "token_acc": 0.4885974914481186
+    },
+    {
+      "epoch": 0.2550166265336544,
+      "grad_norm": 0.5072609782218933,
+      "learning_rate": 0.0008733067393321355,
+      "loss": 2.576840400695801,
+      "step": 556,
+      "token_acc": 0.47632234837995013
+    },
+    {
+      "epoch": 0.25547528953101706,
+      "grad_norm": 0.38675588369369507,
+      "learning_rate": 0.000872812244968681,
+      "loss": 2.5467629432678223,
+      "step": 557,
+      "token_acc": 0.47323634367279716
+    },
+    {
+      "epoch": 0.25593395252837975,
+      "grad_norm": 0.3646634519100189,
+      "learning_rate": 0.0008723169280423783,
+      "loss": 2.560244083404541,
+      "step": 558,
+      "token_acc": 0.45951359084406296
+    },
+    {
+      "epoch": 0.25639261552574244,
+      "grad_norm": 0.3523416221141815,
+      "learning_rate": 0.0008718207896460811,
+      "loss": 2.478100538253784,
+      "step": 559,
+      "token_acc": 0.47984212010149424
+    },
+    {
+      "epoch": 0.25685127852310513,
+      "grad_norm": 0.3732738494873047,
+      "learning_rate": 0.0008713238308744557,
+      "loss": 2.595236301422119,
+      "step": 560,
+      "token_acc": 0.45897000565930957
+    },
+    {
+      "epoch": 0.2573099415204678,
+      "grad_norm": 0.3519507050514221,
+      "learning_rate": 0.0008708260528239789,
+      "loss": 2.5661683082580566,
+      "step": 561,
+      "token_acc": 0.46342157699971537
+    },
+    {
+      "epoch": 0.2577686045178305,
+      "grad_norm": 0.40047842264175415,
+      "learning_rate": 0.000870327456592934,
+      "loss": 2.4865164756774902,
+      "step": 562,
+      "token_acc": 0.4875465216146579
+    },
+    {
+      "epoch": 0.2582272675151932,
+      "grad_norm": 0.3562781512737274,
+      "learning_rate": 0.0008698280432814107,
+      "loss": 2.5739858150482178,
+      "step": 563,
+      "token_acc": 0.475619949846754
+    },
+    {
+      "epoch": 0.2586859305125559,
+      "grad_norm": 0.38454264402389526,
+      "learning_rate": 0.000869327813991301,
+      "loss": 2.570310592651367,
+      "step": 564,
+      "token_acc": 0.4670206819452208
+    },
+    {
+      "epoch": 0.2591445935099186,
+      "grad_norm": 0.3964245319366455,
+      "learning_rate": 0.0008688267698262971,
+      "loss": 2.5230627059936523,
+      "step": 565,
+      "token_acc": 0.46742761692650336
+    },
+    {
+      "epoch": 0.2596032565072813,
+      "grad_norm": 0.3717069625854492,
+      "learning_rate": 0.0008683249118918894,
+      "loss": 2.502413511276245,
+      "step": 566,
+      "token_acc": 0.4714009394860459
+    },
+    {
+      "epoch": 0.26006191950464397,
+      "grad_norm": 0.3493504524230957,
+      "learning_rate": 0.0008678222412953637,
+      "loss": 2.5687639713287354,
+      "step": 567,
+      "token_acc": 0.4689507494646681
+    },
+    {
+      "epoch": 0.26052058250200666,
+      "grad_norm": 0.3600864112377167,
+      "learning_rate": 0.0008673187591457987,
+      "loss": 2.521217107772827,
+      "step": 568,
+      "token_acc": 0.4617762788083193
+    },
+    {
+      "epoch": 0.26097924549936935,
+      "grad_norm": 0.3688865602016449,
+      "learning_rate": 0.0008668144665540639,
+      "loss": 2.4496469497680664,
+      "step": 569,
+      "token_acc": 0.48809865213650705
+    },
+    {
+      "epoch": 0.26143790849673204,
+      "grad_norm": 0.4265752136707306,
+      "learning_rate": 0.0008663093646328167,
+      "loss": 2.578049659729004,
+      "step": 570,
+      "token_acc": 0.47192588433464344
+    },
+    {
+      "epoch": 0.26189657149409473,
+      "grad_norm": 0.383869469165802,
+      "learning_rate": 0.0008658034544965003,
+      "loss": 2.7164413928985596,
+      "step": 571,
+      "token_acc": 0.449205448354143
+    },
+    {
+      "epoch": 0.2623552344914574,
+      "grad_norm": 0.3509352505207062,
+      "learning_rate": 0.0008652967372613412,
+      "loss": 2.389366626739502,
+      "step": 572,
+      "token_acc": 0.49279303780255646
+    },
+    {
+      "epoch": 0.2628138974888201,
+      "grad_norm": 0.3443276286125183,
+      "learning_rate": 0.0008647892140453466,
+      "loss": 2.523355484008789,
+      "step": 573,
+      "token_acc": 0.4792514239218877
+    },
+    {
+      "epoch": 0.26327256048618275,
+      "grad_norm": 0.35621580481529236,
+      "learning_rate": 0.0008642808859683021,
+      "loss": 2.5430173873901367,
+      "step": 574,
+      "token_acc": 0.4747533372025537
+    },
+    {
+      "epoch": 0.26373122348354544,
+      "grad_norm": 0.3568367660045624,
+      "learning_rate": 0.0008637717541517689,
+      "loss": 2.576650381088257,
+      "step": 575,
+      "token_acc": 0.46353006681514475
+    },
+    {
+      "epoch": 0.26418988648090813,
+      "grad_norm": 0.36328744888305664,
+      "learning_rate": 0.0008632618197190816,
+      "loss": 2.6044557094573975,
+      "step": 576,
+      "token_acc": 0.4483674011149456
+    },
+    {
+      "epoch": 0.2646485494782708,
+      "grad_norm": 0.3581198751926422,
+      "learning_rate": 0.0008627510837953458,
+      "loss": 2.546280860900879,
+      "step": 577,
+      "token_acc": 0.4686043323279408
+    },
+    {
+      "epoch": 0.2651072124756335,
+      "grad_norm": 0.36019572615623474,
+      "learning_rate": 0.0008622395475074355,
+      "loss": 2.4845070838928223,
+      "step": 578,
+      "token_acc": 0.4831848232250647
+    },
+    {
+      "epoch": 0.2655658754729962,
+      "grad_norm": 0.37171995639801025,
+      "learning_rate": 0.0008617272119839903,
+      "loss": 2.5149924755096436,
+      "step": 579,
+      "token_acc": 0.46863872911531085
+    },
+    {
+      "epoch": 0.2660245384703589,
+      "grad_norm": 0.3653688132762909,
+      "learning_rate": 0.0008612140783554136,
+      "loss": 2.6136393547058105,
+      "step": 580,
+      "token_acc": 0.4568469505178366
+    },
+    {
+      "epoch": 0.2664832014677216,
+      "grad_norm": 0.3474707007408142,
+      "learning_rate": 0.0008607001477538696,
+      "loss": 2.4318695068359375,
+      "step": 581,
+      "token_acc": 0.49131378935939196
+    },
+    {
+      "epoch": 0.2669418644650843,
+      "grad_norm": 0.36851778626441956,
+      "learning_rate": 0.0008601854213132807,
+      "loss": 2.5574283599853516,
+      "step": 582,
+      "token_acc": 0.461212976022567
+    },
+    {
+      "epoch": 0.26740052746244697,
+      "grad_norm": 0.3394092917442322,
+      "learning_rate": 0.0008596699001693256,
+      "loss": 2.5186922550201416,
+      "step": 583,
+      "token_acc": 0.4724927612529613
+    },
+    {
+      "epoch": 0.26785919045980966,
+      "grad_norm": 0.3298639953136444,
+      "learning_rate": 0.000859153585459436,
+      "loss": 2.534701347351074,
+      "step": 584,
+      "token_acc": 0.48434469382100304
+    },
+    {
+      "epoch": 0.26831785345717235,
+      "grad_norm": 0.36513617634773254,
+      "learning_rate": 0.0008586364783227949,
+      "loss": 2.4792728424072266,
+      "step": 585,
+      "token_acc": 0.4856094808126411
+    },
+    {
+      "epoch": 0.26877651645453504,
+      "grad_norm": 0.3608119487762451,
+      "learning_rate": 0.0008581185799003332,
+      "loss": 2.486790895462036,
+      "step": 586,
+      "token_acc": 0.4785831960461285
+    },
+    {
+      "epoch": 0.26923517945189773,
+      "grad_norm": 0.3647616505622864,
+      "learning_rate": 0.0008575998913347283,
+      "loss": 2.5124502182006836,
+      "step": 587,
+      "token_acc": 0.47991008710311883
+    },
+    {
+      "epoch": 0.2696938424492604,
+      "grad_norm": 0.37836652994155884,
+      "learning_rate": 0.0008570804137704004,
+      "loss": 2.4567337036132812,
+      "step": 588,
+      "token_acc": 0.47277227722772275
+    },
+    {
+      "epoch": 0.2701525054466231,
+      "grad_norm": 0.37878143787384033,
+      "learning_rate": 0.0008565601483535108,
+      "loss": 2.62001371383667,
+      "step": 589,
+      "token_acc": 0.4596084918665564
+    },
+    {
+      "epoch": 0.2706111684439858,
+      "grad_norm": 0.37872931361198425,
+      "learning_rate": 0.0008560390962319591,
+      "loss": 2.476865291595459,
+      "step": 590,
+      "token_acc": 0.46257939795636566
+    },
+    {
+      "epoch": 0.2710698314413485,
+      "grad_norm": 0.36183515191078186,
+      "learning_rate": 0.0008555172585553804,
+      "loss": 2.5046513080596924,
+      "step": 591,
+      "token_acc": 0.47784632641615254
+    },
+    {
+      "epoch": 0.27152849443871113,
+      "grad_norm": 0.36415809392929077,
+      "learning_rate": 0.0008549946364751435,
+      "loss": 2.4734487533569336,
+      "step": 592,
+      "token_acc": 0.4883328647736857
+    },
+    {
+      "epoch": 0.2719871574360738,
+      "grad_norm": 0.3398836851119995,
+      "learning_rate": 0.0008544712311443475,
+      "loss": 2.438931941986084,
+      "step": 593,
+      "token_acc": 0.4735391400220507
+    },
+    {
+      "epoch": 0.2724458204334365,
+      "grad_norm": 0.3798900544643402,
+      "learning_rate": 0.0008539470437178196,
+      "loss": 2.5725996494293213,
+      "step": 594,
+      "token_acc": 0.46466080045415836
+    },
+    {
+      "epoch": 0.2729044834307992,
+      "grad_norm": 0.37606263160705566,
+      "learning_rate": 0.000853422075352113,
+      "loss": 2.42769718170166,
+      "step": 595,
+      "token_acc": 0.4856892523364486
+    },
+    {
+      "epoch": 0.2733631464281619,
+      "grad_norm": 0.3806784152984619,
+      "learning_rate": 0.0008528963272055035,
+      "loss": 2.5516395568847656,
+      "step": 596,
+      "token_acc": 0.4710204081632653
+    },
+    {
+      "epoch": 0.2738218094255246,
+      "grad_norm": 0.40173065662384033,
+      "learning_rate": 0.0008523698004379877,
+      "loss": 2.504723310470581,
+      "step": 597,
+      "token_acc": 0.4725182277061133
+    },
+    {
+      "epoch": 0.2742804724228873,
+      "grad_norm": 0.3868899941444397,
+      "learning_rate": 0.00085184249621128,
+      "loss": 2.583007335662842,
+      "step": 598,
+      "token_acc": 0.45726375176304657
+    },
+    {
+      "epoch": 0.27473913542024997,
+      "grad_norm": 0.3457110822200775,
+      "learning_rate": 0.0008513144156888101,
+      "loss": 2.532395839691162,
+      "step": 599,
+      "token_acc": 0.48110624315443595
+    },
+    {
+      "epoch": 0.27519779841761266,
+      "grad_norm": 0.3476879894733429,
+      "learning_rate": 0.0008507855600357207,
+      "loss": 2.58548641204834,
+      "step": 600,
+      "token_acc": 0.4608282036933408
+    },
+    {
+      "epoch": 0.27565646141497535,
+      "grad_norm": 0.37860506772994995,
+      "learning_rate": 0.0008502559304188644,
+      "loss": 2.5636420249938965,
+      "step": 601,
+      "token_acc": 0.4558904109589041
+    },
+    {
+      "epoch": 0.27611512441233804,
+      "grad_norm": 0.3444937467575073,
+      "learning_rate": 0.0008497255280068019,
+      "loss": 2.4888837337493896,
+      "step": 602,
+      "token_acc": 0.4819078947368421
+    },
+    {
+      "epoch": 0.27657378740970073,
+      "grad_norm": 0.39608126878738403,
+      "learning_rate": 0.0008491943539697986,
+      "loss": 2.4091334342956543,
+      "step": 603,
+      "token_acc": 0.4815450643776824
+    },
+    {
+      "epoch": 0.2770324504070634,
+      "grad_norm": 0.38607439398765564,
+      "learning_rate": 0.0008486624094798226,
+      "loss": 2.5877685546875,
+      "step": 604,
+      "token_acc": 0.4684734513274336
+    },
+    {
+      "epoch": 0.2774911134044261,
+      "grad_norm": 0.39865559339523315,
+      "learning_rate": 0.0008481296957105417,
+      "loss": 2.474951982498169,
+      "step": 605,
+      "token_acc": 0.47434119278779474
+    },
+    {
+      "epoch": 0.2779497764017888,
+      "grad_norm": 0.3722672760486603,
+      "learning_rate": 0.0008475962138373213,
+      "loss": 2.5402982234954834,
+      "step": 606,
+      "token_acc": 0.4711123886174188
+    },
+    {
+      "epoch": 0.2784084393991515,
+      "grad_norm": 0.35624295473098755,
+      "learning_rate": 0.0008470619650372211,
+      "loss": 2.5135498046875,
+      "step": 607,
+      "token_acc": 0.4716056500432401
+    },
+    {
+      "epoch": 0.2788671023965142,
+      "grad_norm": 0.3712524473667145,
+      "learning_rate": 0.0008465269504889934,
+      "loss": 2.4495763778686523,
+      "step": 608,
+      "token_acc": 0.4841875681570338
+    },
+    {
+      "epoch": 0.2793257653938768,
+      "grad_norm": 0.3522526025772095,
+      "learning_rate": 0.0008459911713730799,
+      "loss": 2.365891933441162,
+      "step": 609,
+      "token_acc": 0.4814385150812065
+    },
+    {
+      "epoch": 0.2797844283912395,
+      "grad_norm": 0.34159529209136963,
+      "learning_rate": 0.0008454546288716089,
+      "loss": 2.5207433700561523,
+      "step": 610,
+      "token_acc": 0.47121418826739425
+    },
+    {
+      "epoch": 0.2802430913886022,
+      "grad_norm": 0.3516010046005249,
+      "learning_rate": 0.0008449173241683935,
+      "loss": 2.564419984817505,
+      "step": 611,
+      "token_acc": 0.4769400718033692
+    },
+    {
+      "epoch": 0.2807017543859649,
+      "grad_norm": 0.355101615190506,
+      "learning_rate": 0.0008443792584489281,
+      "loss": 2.461103677749634,
+      "step": 612,
+      "token_acc": 0.49391929242675514
+    },
+    {
+      "epoch": 0.2811604173833276,
+      "grad_norm": 0.36776790022850037,
+      "learning_rate": 0.0008438404329003863,
+      "loss": 2.5651261806488037,
+      "step": 613,
+      "token_acc": 0.4702533447196129
+    },
+    {
+      "epoch": 0.2816190803806903,
+      "grad_norm": 0.3595694899559021,
+      "learning_rate": 0.0008433008487116183,
+      "loss": 2.5519630908966064,
+      "step": 614,
+      "token_acc": 0.4622053643998916
+    },
+    {
+      "epoch": 0.28207774337805297,
+      "grad_norm": 0.36444124579429626,
+      "learning_rate": 0.0008427605070731481,
+      "loss": 2.513122320175171,
+      "step": 615,
+      "token_acc": 0.4875179340028694
+    },
+    {
+      "epoch": 0.28253640637541566,
+      "grad_norm": 0.3482978940010071,
+      "learning_rate": 0.0008422194091771708,
+      "loss": 2.4145803451538086,
+      "step": 616,
+      "token_acc": 0.47286405158516925
+    },
+    {
+      "epoch": 0.28299506937277835,
+      "grad_norm": 0.34840551018714905,
+      "learning_rate": 0.0008416775562175503,
+      "loss": 2.4327523708343506,
+      "step": 617,
+      "token_acc": 0.4784345047923323
+    },
+    {
+      "epoch": 0.28345373237014104,
+      "grad_norm": 0.40639030933380127,
+      "learning_rate": 0.000841134949389816,
+      "loss": 2.4976911544799805,
+      "step": 618,
+      "token_acc": 0.4795592925485648
+    },
+    {
+      "epoch": 0.28391239536750373,
+      "grad_norm": 0.3533143103122711,
+      "learning_rate": 0.0008405915898911611,
+      "loss": 2.4329733848571777,
+      "step": 619,
+      "token_acc": 0.4848147116188353
+    },
+    {
+      "epoch": 0.2843710583648664,
+      "grad_norm": 0.37188422679901123,
+      "learning_rate": 0.0008400474789204396,
+      "loss": 2.5253469944000244,
+      "step": 620,
+      "token_acc": 0.47501372872048325
+    },
+    {
+      "epoch": 0.2848297213622291,
+      "grad_norm": 0.39061281085014343,
+      "learning_rate": 0.0008395026176781626,
+      "loss": 2.5718324184417725,
+      "step": 621,
+      "token_acc": 0.46888646288209607
+    },
+    {
+      "epoch": 0.2852883843595918,
+      "grad_norm": 0.3536094129085541,
+      "learning_rate": 0.0008389570073664976,
+      "loss": 2.4392898082733154,
+      "step": 622,
+      "token_acc": 0.4877222692633362
+    },
+    {
+      "epoch": 0.2857470473569545,
+      "grad_norm": 0.371198832988739,
+      "learning_rate": 0.0008384106491892642,
+      "loss": 2.481555938720703,
+      "step": 623,
+      "token_acc": 0.46749576031656304
+    },
+    {
+      "epoch": 0.2862057103543172,
+      "grad_norm": 0.35640448331832886,
+      "learning_rate": 0.0008378635443519327,
+      "loss": 2.522981643676758,
+      "step": 624,
+      "token_acc": 0.470976253298153
+    },
+    {
+      "epoch": 0.2866643733516799,
+      "grad_norm": 0.3595532178878784,
+      "learning_rate": 0.0008373156940616199,
+      "loss": 2.4354896545410156,
+      "step": 625,
+      "token_acc": 0.4838169642857143
+    },
+    {
+      "epoch": 0.2871230363490425,
+      "grad_norm": 0.36091500520706177,
+      "learning_rate": 0.0008367670995270882,
+      "loss": 2.5481934547424316,
+      "step": 626,
+      "token_acc": 0.47063781961225065
+    },
+    {
+      "epoch": 0.2875816993464052,
+      "grad_norm": 0.34244829416275024,
+      "learning_rate": 0.0008362177619587416,
+      "loss": 2.5275392532348633,
+      "step": 627,
+      "token_acc": 0.47137671041608487
+    },
+    {
+      "epoch": 0.2880403623437679,
+      "grad_norm": 0.33013561367988586,
+      "learning_rate": 0.0008356676825686238,
+      "loss": 2.5603859424591064,
+      "step": 628,
+      "token_acc": 0.46066196418882255
+    },
+    {
+      "epoch": 0.2884990253411306,
+      "grad_norm": 0.3425203263759613,
+      "learning_rate": 0.0008351168625704147,
+      "loss": 2.5613231658935547,
+      "step": 629,
+      "token_acc": 0.4591093117408907
+    },
+    {
+      "epoch": 0.2889576883384933,
+      "grad_norm": 0.38410261273384094,
+      "learning_rate": 0.0008345653031794292,
+      "loss": 2.4835751056671143,
+      "step": 630,
+      "token_acc": 0.47559591373439275
+    },
+    {
+      "epoch": 0.28941635133585597,
+      "grad_norm": 0.3521682620048523,
+      "learning_rate": 0.0008340130056126125,
+      "loss": 2.5552096366882324,
+      "step": 631,
+      "token_acc": 0.4642070484581498
+    },
+    {
+      "epoch": 0.28987501433321866,
+      "grad_norm": 0.3795808255672455,
+      "learning_rate": 0.0008334599710885394,
+      "loss": 2.5078701972961426,
+      "step": 632,
+      "token_acc": 0.47815054976036087
+    },
+    {
+      "epoch": 0.29033367733058135,
+      "grad_norm": 0.32778286933898926,
+      "learning_rate": 0.0008329062008274098,
+      "loss": 2.434720277786255,
+      "step": 633,
+      "token_acc": 0.47572544642857145
+    },
+    {
+      "epoch": 0.29079234032794404,
+      "grad_norm": 0.38708725571632385,
+      "learning_rate": 0.000832351696051048,
+      "loss": 2.5281739234924316,
+      "step": 634,
+      "token_acc": 0.4685580579116701
+    },
+    {
+      "epoch": 0.29125100332530673,
+      "grad_norm": 0.35527893900871277,
+      "learning_rate": 0.000831796457982898,
+      "loss": 2.5944664478302,
+      "step": 635,
+      "token_acc": 0.4586384594521291
+    },
+    {
+      "epoch": 0.2917096663226694,
+      "grad_norm": 0.3466051518917084,
+      "learning_rate": 0.0008312404878480222,
+      "loss": 2.4802706241607666,
+      "step": 636,
+      "token_acc": 0.47627024008933555
+    },
+    {
+      "epoch": 0.2921683293200321,
+      "grad_norm": 0.38533422350883484,
+      "learning_rate": 0.0008306837868730979,
+      "loss": 2.528677463531494,
+      "step": 637,
+      "token_acc": 0.47042488197722854
+    },
+    {
+      "epoch": 0.2926269923173948,
+      "grad_norm": 0.3741171658039093,
+      "learning_rate": 0.0008301263562864152,
+      "loss": 2.5128512382507324,
+      "step": 638,
+      "token_acc": 0.46878680800942285
+    },
+    {
+      "epoch": 0.2930856553147575,
+      "grad_norm": 0.3736501634120941,
+      "learning_rate": 0.0008295681973178737,
+      "loss": 2.468588352203369,
+      "step": 639,
+      "token_acc": 0.472984441301273
+    },
+    {
+      "epoch": 0.2935443183121202,
+      "grad_norm": 0.374865859746933,
+      "learning_rate": 0.0008290093111989804,
+      "loss": 2.4902660846710205,
+      "step": 640,
+      "token_acc": 0.47573632538569427
+    },
+    {
+      "epoch": 0.2940029813094829,
+      "grad_norm": 0.36957672238349915,
+      "learning_rate": 0.0008284496991628465,
+      "loss": 2.6000771522521973,
+      "step": 641,
+      "token_acc": 0.45921938088829073
+    },
+    {
+      "epoch": 0.29446164430684557,
+      "grad_norm": 0.3818596601486206,
+      "learning_rate": 0.0008278893624441847,
+      "loss": 2.598778247833252,
+      "step": 642,
+      "token_acc": 0.45560165975103734
+    },
+    {
+      "epoch": 0.2949203073042082,
+      "grad_norm": 0.35935285687446594,
+      "learning_rate": 0.000827328302279307,
+      "loss": 2.610846519470215,
+      "step": 643,
+      "token_acc": 0.46155965830807383
+    },
+    {
+      "epoch": 0.2953789703015709,
+      "grad_norm": 0.3513602316379547,
+      "learning_rate": 0.0008267665199061211,
+      "loss": 2.4548654556274414,
+      "step": 644,
+      "token_acc": 0.48196448390677027
+    },
+    {
+      "epoch": 0.2958376332989336,
+      "grad_norm": 0.3473533093929291,
+      "learning_rate": 0.0008262040165641288,
+      "loss": 2.536649703979492,
+      "step": 645,
+      "token_acc": 0.4748261474269819
+    },
+    {
+      "epoch": 0.2962962962962963,
+      "grad_norm": 0.34129300713539124,
+      "learning_rate": 0.0008256407934944219,
+      "loss": 2.5052361488342285,
+      "step": 646,
+      "token_acc": 0.4664064678003903
+    },
+    {
+      "epoch": 0.29675495929365897,
+      "grad_norm": 0.3682518005371094,
+      "learning_rate": 0.0008250768519396807,
+      "loss": 2.455735683441162,
+      "step": 647,
+      "token_acc": 0.4836488812392427
+    },
+    {
+      "epoch": 0.29721362229102166,
+      "grad_norm": 0.3816128671169281,
+      "learning_rate": 0.0008245121931441706,
+      "loss": 2.4944562911987305,
+      "step": 648,
+      "token_acc": 0.4787446504992867
+    },
+    {
+      "epoch": 0.29767228528838435,
+      "grad_norm": 0.3876208961009979,
+      "learning_rate": 0.0008239468183537393,
+      "loss": 2.5391573905944824,
+      "step": 649,
+      "token_acc": 0.4800226693114197
+    },
+    {
+      "epoch": 0.29813094828574704,
+      "grad_norm": 0.36932453513145447,
+      "learning_rate": 0.0008233807288158146,
+      "loss": 2.459567070007324,
+      "step": 650,
+      "token_acc": 0.48169717138103163
+    },
+    {
+      "epoch": 0.29858961128310973,
+      "grad_norm": 0.34249791502952576,
+      "learning_rate": 0.0008228139257794012,
+      "loss": 2.4820594787597656,
+      "step": 651,
+      "token_acc": 0.49097574732092497
+    },
+    {
+      "epoch": 0.2990482742804724,
+      "grad_norm": 0.3477895259857178,
+      "learning_rate": 0.0008222464104950778,
+      "loss": 2.5432252883911133,
+      "step": 652,
+      "token_acc": 0.47225305216426194
+    },
+    {
+      "epoch": 0.2995069372778351,
+      "grad_norm": 0.35896340012550354,
+      "learning_rate": 0.000821678184214995,
+      "loss": 2.394166946411133,
+      "step": 653,
+      "token_acc": 0.4869755963805868
+    },
+    {
+      "epoch": 0.2999656002751978,
+      "grad_norm": 0.35171008110046387,
+      "learning_rate": 0.0008211092481928716,
+      "loss": 2.393663167953491,
+      "step": 654,
+      "token_acc": 0.4858710562414266
+    },
+    {
+      "epoch": 0.3004242632725605,
+      "grad_norm": 0.35666531324386597,
+      "learning_rate": 0.0008205396036839927,
+      "loss": 2.5489256381988525,
+      "step": 655,
+      "token_acc": 0.4692657939669892
+    },
+    {
+      "epoch": 0.3008829262699232,
+      "grad_norm": 0.34596869349479675,
+      "learning_rate": 0.0008199692519452069,
+      "loss": 2.487274646759033,
+      "step": 656,
+      "token_acc": 0.46792035398230086
+    },
+    {
+      "epoch": 0.3013415892672859,
+      "grad_norm": 0.37479063868522644,
+      "learning_rate": 0.0008193981942349224,
+      "loss": 2.453554153442383,
+      "step": 657,
+      "token_acc": 0.4755594817432273
+    },
+    {
+      "epoch": 0.30180025226464857,
+      "grad_norm": 0.34790608286857605,
+      "learning_rate": 0.0008188264318131056,
+      "loss": 2.428804397583008,
+      "step": 658,
+      "token_acc": 0.4944618006248225
+    },
+    {
+      "epoch": 0.30225891526201126,
+      "grad_norm": 0.3412317931652069,
+      "learning_rate": 0.0008182539659412776,
+      "loss": 2.454439640045166,
+      "step": 659,
+      "token_acc": 0.4856985698569857
+    },
+    {
+      "epoch": 0.3027175782593739,
+      "grad_norm": 0.34814453125,
+      "learning_rate": 0.0008176807978825118,
+      "loss": 2.566230535507202,
+      "step": 660,
+      "token_acc": 0.469726292507603
+    },
+    {
+      "epoch": 0.3031762412567366,
+      "grad_norm": 0.37712863087654114,
+      "learning_rate": 0.0008171069289014306,
+      "loss": 2.4501965045928955,
+      "step": 661,
+      "token_acc": 0.4754376058723885
+    },
+    {
+      "epoch": 0.3036349042540993,
+      "grad_norm": 0.33920538425445557,
+      "learning_rate": 0.0008165323602642028,
+      "loss": 2.597313404083252,
+      "step": 662,
+      "token_acc": 0.4573664328116568
+    },
+    {
+      "epoch": 0.30409356725146197,
+      "grad_norm": 0.3496813178062439,
+      "learning_rate": 0.0008159570932385414,
+      "loss": 2.455197811126709,
+      "step": 663,
+      "token_acc": 0.4870940882597835
+    },
+    {
+      "epoch": 0.30455223024882466,
+      "grad_norm": 0.36241719126701355,
+      "learning_rate": 0.0008153811290936999,
+      "loss": 2.5007219314575195,
+      "step": 664,
+      "token_acc": 0.47898448519040904
+    },
+    {
+      "epoch": 0.30501089324618735,
+      "grad_norm": 0.3510899543762207,
+      "learning_rate": 0.0008148044691004698,
+      "loss": 2.5122296810150146,
+      "step": 665,
+      "token_acc": 0.4802036199095023
+    },
+    {
+      "epoch": 0.30546955624355004,
+      "grad_norm": 0.3507455885410309,
+      "learning_rate": 0.0008142271145311783,
+      "loss": 2.482914686203003,
+      "step": 666,
+      "token_acc": 0.47938718662952645
+    },
+    {
+      "epoch": 0.30592821924091274,
+      "grad_norm": 0.33687421679496765,
+      "learning_rate": 0.000813649066659685,
+      "loss": 2.4350931644439697,
+      "step": 667,
+      "token_acc": 0.4832919083126208
+    },
+    {
+      "epoch": 0.3063868822382754,
+      "grad_norm": 0.35945454239845276,
+      "learning_rate": 0.0008130703267613787,
+      "loss": 2.4999451637268066,
+      "step": 668,
+      "token_acc": 0.47235475722705583
+    },
+    {
+      "epoch": 0.3068455452356381,
+      "grad_norm": 0.3554210364818573,
+      "learning_rate": 0.0008124908961131759,
+      "loss": 2.4043941497802734,
+      "step": 669,
+      "token_acc": 0.4827984966753397
+    },
+    {
+      "epoch": 0.3073042082330008,
+      "grad_norm": 0.35209041833877563,
+      "learning_rate": 0.0008119107759935163,
+      "loss": 2.510706901550293,
+      "step": 670,
+      "token_acc": 0.4823261117445838
+    },
+    {
+      "epoch": 0.3077628712303635,
+      "grad_norm": 0.3715539276599884,
+      "learning_rate": 0.0008113299676823615,
+      "loss": 2.5089211463928223,
+      "step": 671,
+      "token_acc": 0.4684107987753966
+    },
+    {
+      "epoch": 0.3082215342277262,
+      "grad_norm": 0.35757407546043396,
+      "learning_rate": 0.0008107484724611911,
+      "loss": 2.4624581336975098,
+      "step": 672,
+      "token_acc": 0.4748757592490337
+    },
+    {
+      "epoch": 0.3086801972250889,
+      "grad_norm": 0.3611299693584442,
+      "learning_rate": 0.0008101662916130006,
+      "loss": 2.432835817337036,
+      "step": 673,
+      "token_acc": 0.4772141014617369
+    },
+    {
+      "epoch": 0.3091388602224516,
+      "grad_norm": 0.3485843539237976,
+      "learning_rate": 0.0008095834264222979,
+      "loss": 2.4135727882385254,
+      "step": 674,
+      "token_acc": 0.49127589967284624
+    },
+    {
+      "epoch": 0.30959752321981426,
+      "grad_norm": 0.37126484513282776,
+      "learning_rate": 0.0008089998781751009,
+      "loss": 2.6135077476501465,
+      "step": 675,
+      "token_acc": 0.4674486803519062
+    },
+    {
+      "epoch": 0.31005618621717695,
+      "grad_norm": 0.38041549921035767,
+      "learning_rate": 0.0008084156481589349,
+      "loss": 2.463932514190674,
+      "step": 676,
+      "token_acc": 0.4703804347826087
+    },
+    {
+      "epoch": 0.3105148492145396,
+      "grad_norm": 0.34299805760383606,
+      "learning_rate": 0.0008078307376628291,
+      "loss": 2.4513766765594482,
+      "step": 677,
+      "token_acc": 0.48502495840266224
+    },
+    {
+      "epoch": 0.3109735122119023,
+      "grad_norm": 0.3507917821407318,
+      "learning_rate": 0.0008072451479773143,
+      "loss": 2.5057129859924316,
+      "step": 678,
+      "token_acc": 0.4689249720044793
+    },
+    {
+      "epoch": 0.31143217520926497,
+      "grad_norm": 0.36286208033561707,
+      "learning_rate": 0.0008066588803944195,
+      "loss": 2.532740592956543,
+      "step": 679,
+      "token_acc": 0.4686641011544805
+    },
+    {
+      "epoch": 0.31189083820662766,
+      "grad_norm": 0.3410475254058838,
+      "learning_rate": 0.0008060719362076697,
+      "loss": 2.5940396785736084,
+      "step": 680,
+      "token_acc": 0.45865921787709496
+    },
+    {
+      "epoch": 0.31234950120399035,
+      "grad_norm": 0.34983688592910767,
+      "learning_rate": 0.0008054843167120826,
+      "loss": 2.5263447761535645,
+      "step": 681,
+      "token_acc": 0.4743761738663805
+    },
+    {
+      "epoch": 0.31280816420135305,
+      "grad_norm": 0.35717347264289856,
+      "learning_rate": 0.0008048960232041663,
+      "loss": 2.4821815490722656,
+      "step": 682,
+      "token_acc": 0.4901174448582068
+    },
+    {
+      "epoch": 0.31326682719871574,
+      "grad_norm": 0.35143789649009705,
+      "learning_rate": 0.0008043070569819153,
+      "loss": 2.604642391204834,
+      "step": 683,
+      "token_acc": 0.46350974930362115
+    },
+    {
+      "epoch": 0.3137254901960784,
+      "grad_norm": 0.3501461148262024,
+      "learning_rate": 0.0008037174193448089,
+      "loss": 2.5003676414489746,
+      "step": 684,
+      "token_acc": 0.4652220438737293
+    },
+    {
+      "epoch": 0.3141841531934411,
+      "grad_norm": 0.38942310214042664,
+      "learning_rate": 0.0008031271115938077,
+      "loss": 2.395242929458618,
+      "step": 685,
+      "token_acc": 0.487888287261328
+    },
+    {
+      "epoch": 0.3146428161908038,
+      "grad_norm": 0.3649235963821411,
+      "learning_rate": 0.0008025361350313505,
+      "loss": 2.4117608070373535,
+      "step": 686,
+      "token_acc": 0.4814309120699072
+    },
+    {
+      "epoch": 0.3151014791881665,
+      "grad_norm": 0.3525184392929077,
+      "learning_rate": 0.0008019444909613523,
+      "loss": 2.5189971923828125,
+      "step": 687,
+      "token_acc": 0.4671368124118477
+    },
+    {
+      "epoch": 0.3155601421855292,
+      "grad_norm": 0.38877764344215393,
+      "learning_rate": 0.0008013521806892003,
+      "loss": 2.5280954837799072,
+      "step": 688,
+      "token_acc": 0.46228710462287104
+    },
+    {
+      "epoch": 0.3160188051828919,
+      "grad_norm": 0.3608831465244293,
+      "learning_rate": 0.000800759205521752,
+      "loss": 2.482534885406494,
+      "step": 689,
+      "token_acc": 0.4800221975582686
+    },
+    {
+      "epoch": 0.3164774681802546,
+      "grad_norm": 0.33392149209976196,
+      "learning_rate": 0.0008001655667673318,
+      "loss": 2.498241662979126,
+      "step": 690,
+      "token_acc": 0.47318699638788553
+    },
+    {
+      "epoch": 0.31693613117761726,
+      "grad_norm": 0.346088171005249,
+      "learning_rate": 0.0007995712657357279,
+      "loss": 2.4622936248779297,
+      "step": 691,
+      "token_acc": 0.4691324449279304
+    },
+    {
+      "epoch": 0.31739479417497996,
+      "grad_norm": 0.4086669385433197,
+      "learning_rate": 0.0007989763037381904,
+      "loss": 2.5037841796875,
+      "step": 692,
+      "token_acc": 0.47834645669291337
+    },
+    {
+      "epoch": 0.31785345717234265,
+      "grad_norm": 0.35320818424224854,
+      "learning_rate": 0.0007983806820874271,
+      "loss": 2.4438748359680176,
+      "step": 693,
+      "token_acc": 0.48568311971638944
+    },
+    {
+      "epoch": 0.3183121201697053,
+      "grad_norm": 0.3751761317253113,
+      "learning_rate": 0.0007977844020976016,
+      "loss": 2.5002529621124268,
+      "step": 694,
+      "token_acc": 0.46684042861280045
+    },
+    {
+      "epoch": 0.318770783167068,
+      "grad_norm": 0.3681119382381439,
+      "learning_rate": 0.00079718746508433,
+      "loss": 2.501915693283081,
+      "step": 695,
+      "token_acc": 0.4698694806998056
+    },
+    {
+      "epoch": 0.31922944616443066,
+      "grad_norm": 0.34130018949508667,
+      "learning_rate": 0.0007965898723646776,
+      "loss": 2.511105537414551,
+      "step": 696,
+      "token_acc": 0.4714881780250348
+    },
+    {
+      "epoch": 0.31968810916179335,
+      "grad_norm": 0.34937864542007446,
+      "learning_rate": 0.0007959916252571573,
+      "loss": 2.58450984954834,
+      "step": 697,
+      "token_acc": 0.46875860170657857
+    },
+    {
+      "epoch": 0.32014677215915605,
+      "grad_norm": 0.37094560265541077,
+      "learning_rate": 0.000795392725081725,
+      "loss": 2.4765450954437256,
+      "step": 698,
+      "token_acc": 0.4878048780487805
+    },
+    {
+      "epoch": 0.32060543515651874,
+      "grad_norm": 0.33710065484046936,
+      "learning_rate": 0.000794793173159778,
+      "loss": 2.580900192260742,
+      "step": 699,
+      "token_acc": 0.47442632015482444
+    },
+    {
+      "epoch": 0.3210640981538814,
+      "grad_norm": 0.3590303361415863,
+      "learning_rate": 0.0007941929708141513,
+      "loss": 2.567293882369995,
+      "step": 700,
+      "token_acc": 0.47200878155872666
+    },
+    {
+      "epoch": 0.3215227611512441,
+      "grad_norm": 0.36723387241363525,
+      "learning_rate": 0.0007935921193691153,
+      "loss": 2.5955965518951416,
+      "step": 701,
+      "token_acc": 0.45725211690794865
+    },
+    {
+      "epoch": 0.3219814241486068,
+      "grad_norm": 0.34601256251335144,
+      "learning_rate": 0.0007929906201503722,
+      "loss": 2.4192023277282715,
+      "step": 702,
+      "token_acc": 0.48301574150787074
+    },
+    {
+      "epoch": 0.3224400871459695,
+      "grad_norm": 0.3922874927520752,
+      "learning_rate": 0.0007923884744850536,
+      "loss": 2.403144359588623,
+      "step": 703,
+      "token_acc": 0.4859481582537517
+    },
+    {
+      "epoch": 0.3228987501433322,
+      "grad_norm": 0.37906432151794434,
+      "learning_rate": 0.0007917856837017176,
+      "loss": 2.535346031188965,
+      "step": 704,
+      "token_acc": 0.46719012899607404
+    },
+    {
+      "epoch": 0.3233574131406949,
+      "grad_norm": 0.3532241880893707,
+      "learning_rate": 0.0007911822491303452,
+      "loss": 2.50457501411438,
+      "step": 705,
+      "token_acc": 0.4784506273867976
+    },
+    {
+      "epoch": 0.3238160761380576,
+      "grad_norm": 0.37003663182258606,
+      "learning_rate": 0.0007905781721023382,
+      "loss": 2.5387887954711914,
+      "step": 706,
+      "token_acc": 0.4671717171717172
+    },
+    {
+      "epoch": 0.32427473913542026,
+      "grad_norm": 0.3547530770301819,
+      "learning_rate": 0.000789973453950516,
+      "loss": 2.4692649841308594,
+      "step": 707,
+      "token_acc": 0.4727468969239072
+    },
+    {
+      "epoch": 0.32473340213278296,
+      "grad_norm": 0.3270757496356964,
+      "learning_rate": 0.000789368096009112,
+      "loss": 2.4922938346862793,
+      "step": 708,
+      "token_acc": 0.47232267037552156
+    },
+    {
+      "epoch": 0.32519206513014565,
+      "grad_norm": 0.3403084874153137,
+      "learning_rate": 0.0007887620996137721,
+      "loss": 2.4505021572113037,
+      "step": 709,
+      "token_acc": 0.48622589531680444
+    },
+    {
+      "epoch": 0.32565072812750834,
+      "grad_norm": 0.3299373388290405,
+      "learning_rate": 0.0007881554661015497,
+      "loss": 2.560422658920288,
+      "step": 710,
+      "token_acc": 0.4754643748267258
+    },
+    {
+      "epoch": 0.32610939112487103,
+      "grad_norm": 0.3426433503627777,
+      "learning_rate": 0.0007875481968109051,
+      "loss": 2.5303573608398438,
+      "step": 711,
+      "token_acc": 0.4750914719954968
+    },
+    {
+      "epoch": 0.32656805412223366,
+      "grad_norm": 0.3157728612422943,
+      "learning_rate": 0.0007869402930817007,
+      "loss": 2.4995152950286865,
+      "step": 712,
+      "token_acc": 0.4666845062884667
+    },
+    {
+      "epoch": 0.32702671711959636,
+      "grad_norm": 0.3554588556289673,
+      "learning_rate": 0.0007863317562551987,
+      "loss": 2.4750475883483887,
+      "step": 713,
+      "token_acc": 0.4703622392974753
+    },
+    {
+      "epoch": 0.32748538011695905,
+      "grad_norm": 0.3609353005886078,
+      "learning_rate": 0.0007857225876740584,
+      "loss": 2.5715863704681396,
+      "step": 714,
+      "token_acc": 0.47438330170777987
+    },
+    {
+      "epoch": 0.32794404311432174,
+      "grad_norm": 0.38942810893058777,
+      "learning_rate": 0.0007851127886823327,
+      "loss": 2.4522764682769775,
+      "step": 715,
+      "token_acc": 0.4669994453688297
+    },
+    {
+      "epoch": 0.32840270611168443,
+      "grad_norm": 0.3638046085834503,
+      "learning_rate": 0.0007845023606254658,
+      "loss": 2.391580104827881,
+      "step": 716,
+      "token_acc": 0.471444261394838
+    },
+    {
+      "epoch": 0.3288613691090471,
+      "grad_norm": 0.37281668186187744,
+      "learning_rate": 0.0007838913048502894,
+      "loss": 2.5013651847839355,
+      "step": 717,
+      "token_acc": 0.4775866929799831
+    },
+    {
+      "epoch": 0.3293200321064098,
+      "grad_norm": 0.35957518219947815,
+      "learning_rate": 0.0007832796227050208,
+      "loss": 2.453460216522217,
+      "step": 718,
+      "token_acc": 0.492277450154451
+    },
+    {
+      "epoch": 0.3297786951037725,
+      "grad_norm": 0.39589008688926697,
+      "learning_rate": 0.0007826673155392587,
+      "loss": 2.4434778690338135,
+      "step": 719,
+      "token_acc": 0.48399666017255777
+    },
+    {
+      "epoch": 0.3302373581011352,
+      "grad_norm": 0.3566542863845825,
+      "learning_rate": 0.000782054384703981,
+      "loss": 2.564061164855957,
+      "step": 720,
+      "token_acc": 0.46494573188618366
+    },
+    {
+      "epoch": 0.3306960210984979,
+      "grad_norm": 0.35493654012680054,
+      "learning_rate": 0.0007814408315515418,
+      "loss": 2.445883274078369,
+      "step": 721,
+      "token_acc": 0.48
+    },
+    {
+      "epoch": 0.3311546840958606,
+      "grad_norm": 0.3641558885574341,
+      "learning_rate": 0.0007808266574356683,
+      "loss": 2.5719149112701416,
+      "step": 722,
+      "token_acc": 0.45585785674625207
+    },
+    {
+      "epoch": 0.33161334709322327,
+      "grad_norm": 0.34119558334350586,
+      "learning_rate": 0.0007802118637114573,
+      "loss": 2.596724510192871,
+      "step": 723,
+      "token_acc": 0.463943661971831
+    },
+    {
+      "epoch": 0.33207201009058596,
+      "grad_norm": 0.3604756295681,
+      "learning_rate": 0.0007795964517353734,
+      "loss": 2.5066018104553223,
+      "step": 724,
+      "token_acc": 0.48334709606385906
+    },
+    {
+      "epoch": 0.33253067308794865,
+      "grad_norm": 0.35032856464385986,
+      "learning_rate": 0.0007789804228652449,
+      "loss": 2.635077953338623,
+      "step": 725,
+      "token_acc": 0.4389280677009873
+    },
+    {
+      "epoch": 0.33298933608531134,
+      "grad_norm": 0.36541563272476196,
+      "learning_rate": 0.0007783637784602609,
+      "loss": 2.4435911178588867,
+      "step": 726,
+      "token_acc": 0.48745119910764084
+    },
+    {
+      "epoch": 0.33344799908267403,
+      "grad_norm": 0.36065584421157837,
+      "learning_rate": 0.0007777465198809692,
+      "loss": 2.4607625007629395,
+      "step": 727,
+      "token_acc": 0.48314285714285715
+    },
+    {
+      "epoch": 0.3339066620800367,
+      "grad_norm": 0.33385568857192993,
+      "learning_rate": 0.0007771286484892722,
+      "loss": 2.5126917362213135,
+      "step": 728,
+      "token_acc": 0.4797464866354368
+    },
+    {
+      "epoch": 0.33436532507739936,
+      "grad_norm": 0.36354780197143555,
+      "learning_rate": 0.000776510165648425,
+      "loss": 2.511340618133545,
+      "step": 729,
+      "token_acc": 0.47344632768361583
+    },
+    {
+      "epoch": 0.33482398807476205,
+      "grad_norm": 0.351592481136322,
+      "learning_rate": 0.0007758910727230311,
+      "loss": 2.4994800090789795,
+      "step": 730,
+      "token_acc": 0.464776381175095
+    },
+    {
+      "epoch": 0.33528265107212474,
+      "grad_norm": 0.3549693524837494,
+      "learning_rate": 0.0007752713710790404,
+      "loss": 2.524799108505249,
+      "step": 731,
+      "token_acc": 0.48202660628361166
+    },
+    {
+      "epoch": 0.33574131406948743,
+      "grad_norm": 0.35759496688842773,
+      "learning_rate": 0.0007746510620837459,
+      "loss": 2.49360990524292,
+      "step": 732,
+      "token_acc": 0.48623348017621143
+    },
+    {
+      "epoch": 0.3361999770668501,
+      "grad_norm": 0.3433513343334198,
+      "learning_rate": 0.0007740301471057807,
+      "loss": 2.3757376670837402,
+      "step": 733,
+      "token_acc": 0.4890552995391705
+    },
+    {
+      "epoch": 0.3366586400642128,
+      "grad_norm": 0.3621678352355957,
+      "learning_rate": 0.0007734086275151146,
+      "loss": 2.5070338249206543,
+      "step": 734,
+      "token_acc": 0.48040313549832026
+    },
+    {
+      "epoch": 0.3371173030615755,
+      "grad_norm": 0.3816535174846649,
+      "learning_rate": 0.0007727865046830517,
+      "loss": 2.5104877948760986,
+      "step": 735,
+      "token_acc": 0.46885617214043035
+    },
+    {
+      "epoch": 0.3375759660589382,
+      "grad_norm": 0.37210813164711,
+      "learning_rate": 0.0007721637799822269,
+      "loss": 2.4682278633117676,
+      "step": 736,
+      "token_acc": 0.4864183702044245
+    },
+    {
+      "epoch": 0.3380346290563009,
+      "grad_norm": 0.4333285093307495,
+      "learning_rate": 0.0007715404547866032,
+      "loss": 2.5908682346343994,
+      "step": 737,
+      "token_acc": 0.46633481791983233
+    },
+    {
+      "epoch": 0.3384932920536636,
+      "grad_norm": 0.3366856276988983,
+      "learning_rate": 0.0007709165304714685,
+      "loss": 2.552295207977295,
+      "step": 738,
+      "token_acc": 0.47695390781563124
+    },
+    {
+      "epoch": 0.33895195505102627,
+      "grad_norm": 0.33232381939888,
+      "learning_rate": 0.0007702920084134324,
+      "loss": 2.51790452003479,
+      "step": 739,
+      "token_acc": 0.46814482177939937
+    },
+    {
+      "epoch": 0.33941061804838896,
+      "grad_norm": 0.3236730694770813,
+      "learning_rate": 0.0007696668899904236,
+      "loss": 2.5784425735473633,
+      "step": 740,
+      "token_acc": 0.4552038626609442
+    },
+    {
+      "epoch": 0.33986928104575165,
+      "grad_norm": 0.3558567464351654,
+      "learning_rate": 0.0007690411765816864,
+      "loss": 2.513674259185791,
+      "step": 741,
+      "token_acc": 0.4773371104815864
+    },
+    {
+      "epoch": 0.34032794404311434,
+      "grad_norm": 0.3514906167984009,
+      "learning_rate": 0.0007684148695677778,
+      "loss": 2.5302951335906982,
+      "step": 742,
+      "token_acc": 0.4748633879781421
+    },
+    {
+      "epoch": 0.34078660704047703,
+      "grad_norm": 0.34525763988494873,
+      "learning_rate": 0.000767787970330565,
+      "loss": 2.524214267730713,
+      "step": 743,
+      "token_acc": 0.475368772613415
+    },
+    {
+      "epoch": 0.3412452700378397,
+      "grad_norm": 0.33909493684768677,
+      "learning_rate": 0.000767160480253221,
+      "loss": 2.4672207832336426,
+      "step": 744,
+      "token_acc": 0.48171074845244793
+    },
+    {
+      "epoch": 0.3417039330352024,
+      "grad_norm": 0.34997573494911194,
+      "learning_rate": 0.0007665324007202235,
+      "loss": 2.524260997772217,
+      "step": 745,
+      "token_acc": 0.48261238337574214
+    },
+    {
+      "epoch": 0.34216259603256505,
+      "grad_norm": 0.36363962292671204,
+      "learning_rate": 0.0007659037331173498,
+      "loss": 2.552900791168213,
+      "step": 746,
+      "token_acc": 0.46267029972752044
+    },
+    {
+      "epoch": 0.34262125902992774,
+      "grad_norm": 0.3389800190925598,
+      "learning_rate": 0.0007652744788316752,
+      "loss": 2.486886739730835,
+      "step": 747,
+      "token_acc": 0.4692039511911679
+    },
+    {
+      "epoch": 0.34307992202729043,
+      "grad_norm": 0.33301493525505066,
+      "learning_rate": 0.0007646446392515692,
+      "loss": 2.549711227416992,
+      "step": 748,
+      "token_acc": 0.4661991584852735
+    },
+    {
+      "epoch": 0.3435385850246531,
+      "grad_norm": 0.3301955759525299,
+      "learning_rate": 0.000764014215766693,
+      "loss": 2.4807004928588867,
+      "step": 749,
+      "token_acc": 0.4756625202812331
+    },
+    {
+      "epoch": 0.3439972480220158,
+      "grad_norm": 0.33102622628211975,
+      "learning_rate": 0.0007633832097679958,
+      "loss": 2.4364609718322754,
+      "step": 750,
+      "token_acc": 0.48858574610244987
+    },
+    {
+      "epoch": 0.3444559110193785,
+      "grad_norm": 0.34175965189933777,
+      "learning_rate": 0.0007627516226477122,
+      "loss": 2.5203254222869873,
+      "step": 751,
+      "token_acc": 0.46735780330624827
+    },
+    {
+      "epoch": 0.3449145740167412,
+      "grad_norm": 0.33683842420578003,
+      "learning_rate": 0.0007621194557993589,
+      "loss": 2.4582300186157227,
+      "step": 752,
+      "token_acc": 0.47496503496503495
+    },
+    {
+      "epoch": 0.3453732370141039,
+      "grad_norm": 0.319711297750473,
+      "learning_rate": 0.0007614867106177319,
+      "loss": 2.556149482727051,
+      "step": 753,
+      "token_acc": 0.4703493095044679
+    },
+    {
+      "epoch": 0.3458319000114666,
+      "grad_norm": 0.36632195115089417,
+      "learning_rate": 0.0007608533884989029,
+      "loss": 2.4283225536346436,
+      "step": 754,
+      "token_acc": 0.4897190848537504
+    },
+    {
+      "epoch": 0.34629056300882927,
+      "grad_norm": 0.34834444522857666,
+      "learning_rate": 0.0007602194908402166,
+      "loss": 2.545734405517578,
+      "step": 755,
+      "token_acc": 0.4574314574314574
+    },
+    {
+      "epoch": 0.34674922600619196,
+      "grad_norm": 0.3764784634113312,
+      "learning_rate": 0.0007595850190402877,
+      "loss": 2.5432612895965576,
+      "step": 756,
+      "token_acc": 0.46335899629312804
+    },
+    {
+      "epoch": 0.34720788900355465,
+      "grad_norm": 0.3312098979949951,
+      "learning_rate": 0.0007589499744989976,
+      "loss": 2.4372644424438477,
+      "step": 757,
+      "token_acc": 0.4880382775119617
+    },
+    {
+      "epoch": 0.34766655200091734,
+      "grad_norm": 0.3288785219192505,
+      "learning_rate": 0.0007583143586174916,
+      "loss": 2.406111240386963,
+      "step": 758,
+      "token_acc": 0.47542764051045344
+    },
+    {
+      "epoch": 0.34812521499828003,
+      "grad_norm": 0.3352579176425934,
+      "learning_rate": 0.000757678172798175,
+      "loss": 2.457388401031494,
+      "step": 759,
+      "token_acc": 0.47185525560022973
+    },
+    {
+      "epoch": 0.3485838779956427,
+      "grad_norm": 0.3413090109825134,
+      "learning_rate": 0.0007570414184447112,
+      "loss": 2.5851449966430664,
+      "step": 760,
+      "token_acc": 0.4624326623192515
+    },
+    {
+      "epoch": 0.3490425409930054,
+      "grad_norm": 0.3249777853488922,
+      "learning_rate": 0.0007564040969620179,
+      "loss": 2.4194319248199463,
+      "step": 761,
+      "token_acc": 0.479806598407281
+    },
+    {
+      "epoch": 0.3495012039903681,
+      "grad_norm": 0.3535235822200775,
+      "learning_rate": 0.0007557662097562636,
+      "loss": 2.5127203464508057,
+      "step": 762,
+      "token_acc": 0.4727954971857411
+    },
+    {
+      "epoch": 0.34995986698773074,
+      "grad_norm": 0.3230501413345337,
+      "learning_rate": 0.0007551277582348658,
+      "loss": 2.4848999977111816,
+      "step": 763,
+      "token_acc": 0.473965662820152
+    },
+    {
+      "epoch": 0.35041852998509343,
+      "grad_norm": 0.3324788212776184,
+      "learning_rate": 0.0007544887438064862,
+      "loss": 2.4135982990264893,
+      "step": 764,
+      "token_acc": 0.47573347957225115
+    },
+    {
+      "epoch": 0.3508771929824561,
+      "grad_norm": 0.3648921847343445,
+      "learning_rate": 0.0007538491678810294,
+      "loss": 2.4969935417175293,
+      "step": 765,
+      "token_acc": 0.47896995708154505
+    },
+    {
+      "epoch": 0.3513358559798188,
+      "grad_norm": 0.3608934283256531,
+      "learning_rate": 0.0007532090318696381,
+      "loss": 2.47397780418396,
+      "step": 766,
+      "token_acc": 0.4847025495750708
+    },
+    {
+      "epoch": 0.3517945189771815,
+      "grad_norm": 0.35839247703552246,
+      "learning_rate": 0.0007525683371846913,
+      "loss": 2.563225746154785,
+      "step": 767,
+      "token_acc": 0.4642857142857143
+    },
+    {
+      "epoch": 0.3522531819745442,
+      "grad_norm": 0.35109156370162964,
+      "learning_rate": 0.0007519270852398001,
+      "loss": 2.4896039962768555,
+      "step": 768,
+      "token_acc": 0.47200909349246944
+    },
+    {
+      "epoch": 0.3527118449719069,
+      "grad_norm": 0.3396438956260681,
+      "learning_rate": 0.000751285277449806,
+      "loss": 2.4827041625976562,
+      "step": 769,
+      "token_acc": 0.4746110948048136
+    },
+    {
+      "epoch": 0.3531705079692696,
+      "grad_norm": 0.32917967438697815,
+      "learning_rate": 0.0007506429152307756,
+      "loss": 2.3996291160583496,
+      "step": 770,
+      "token_acc": 0.49016892827471614
+    },
+    {
+      "epoch": 0.35362917096663227,
+      "grad_norm": 0.3525303900241852,
+      "learning_rate": 0.00075,
+      "loss": 2.424008369445801,
+      "step": 771,
+      "token_acc": 0.4831932773109244
+    },
+    {
+      "epoch": 0.35408783396399496,
+      "grad_norm": 0.3548593521118164,
+      "learning_rate": 0.00074935653317599,
+      "loss": 2.5645644664764404,
+      "step": 772,
+      "token_acc": 0.46440042826552463
+    },
+    {
+      "epoch": 0.35454649696135765,
+      "grad_norm": 0.3535890579223633,
+      "learning_rate": 0.000748712516178473,
+      "loss": 2.4772462844848633,
+      "step": 773,
+      "token_acc": 0.4859213827711179
+    },
+    {
+      "epoch": 0.35500515995872034,
+      "grad_norm": 0.34181100130081177,
+      "learning_rate": 0.0007480679504283911,
+      "loss": 2.4619812965393066,
+      "step": 774,
+      "token_acc": 0.47187586589082847
+    },
+    {
+      "epoch": 0.35546382295608303,
+      "grad_norm": 0.3352970480918884,
+      "learning_rate": 0.0007474228373478964,
+      "loss": 2.517455816268921,
+      "step": 775,
+      "token_acc": 0.4739481749791028
+    },
+    {
+      "epoch": 0.3559224859534457,
+      "grad_norm": 0.3285975456237793,
+      "learning_rate": 0.0007467771783603492,
+      "loss": 2.494689702987671,
+      "step": 776,
+      "token_acc": 0.4742809734513274
+    },
+    {
+      "epoch": 0.3563811489508084,
+      "grad_norm": 0.3505977988243103,
+      "learning_rate": 0.0007461309748903138,
+      "loss": 2.3653063774108887,
+      "step": 777,
+      "token_acc": 0.49294582392776526
+    },
+    {
+      "epoch": 0.3568398119481711,
+      "grad_norm": 0.3395656943321228,
+      "learning_rate": 0.0007454842283635562,
+      "loss": 2.4750514030456543,
+      "step": 778,
+      "token_acc": 0.47219870166525546
+    },
+    {
+      "epoch": 0.3572984749455338,
+      "grad_norm": 0.34542128443717957,
+      "learning_rate": 0.0007448369402070404,
+      "loss": 2.4132838249206543,
+      "step": 779,
+      "token_acc": 0.48042804843706
+    },
+    {
+      "epoch": 0.35775713794289643,
+      "grad_norm": 0.35562390089035034,
+      "learning_rate": 0.0007441891118489254,
+      "loss": 2.431128978729248,
+      "step": 780,
+      "token_acc": 0.4909456740442656
+    },
+    {
+      "epoch": 0.3582158009402591,
+      "grad_norm": 0.33379650115966797,
+      "learning_rate": 0.0007435407447185622,
+      "loss": 2.3957133293151855,
+      "step": 781,
+      "token_acc": 0.49889012208657046
+    },
+    {
+      "epoch": 0.3586744639376218,
+      "grad_norm": 0.3335231840610504,
+      "learning_rate": 0.0007428918402464908,
+      "loss": 2.2889082431793213,
+      "step": 782,
+      "token_acc": 0.5097931034482759
+    },
+    {
+      "epoch": 0.3591331269349845,
+      "grad_norm": 0.3335070013999939,
+      "learning_rate": 0.0007422423998644359,
+      "loss": 2.404224395751953,
+      "step": 783,
+      "token_acc": 0.48468040147913366
+    },
+    {
+      "epoch": 0.3595917899323472,
+      "grad_norm": 0.3629177212715149,
+      "learning_rate": 0.0007415924250053055,
+      "loss": 2.4291582107543945,
+      "step": 784,
+      "token_acc": 0.48651717286403634
+    },
+    {
+      "epoch": 0.3600504529297099,
+      "grad_norm": 0.34305059909820557,
+      "learning_rate": 0.0007409419171031865,
+      "loss": 2.555297374725342,
+      "step": 785,
+      "token_acc": 0.46711074104912575
+    },
+    {
+      "epoch": 0.3605091159270726,
+      "grad_norm": 0.3312990069389343,
+      "learning_rate": 0.0007402908775933419,
+      "loss": 2.432730197906494,
+      "step": 786,
+      "token_acc": 0.47728563316297556
+    },
+    {
+      "epoch": 0.36096777892443527,
+      "grad_norm": 0.3471532166004181,
+      "learning_rate": 0.0007396393079122077,
+      "loss": 2.495298147201538,
+      "step": 787,
+      "token_acc": 0.47733333333333333
+    },
+    {
+      "epoch": 0.36142644192179796,
+      "grad_norm": 0.3289634585380554,
+      "learning_rate": 0.0007389872094973896,
+      "loss": 2.4447596073150635,
+      "step": 788,
+      "token_acc": 0.48094425483503983
+    },
+    {
+      "epoch": 0.36188510491916065,
+      "grad_norm": 0.33326053619384766,
+      "learning_rate": 0.00073833458378766,
+      "loss": 2.3992300033569336,
+      "step": 789,
+      "token_acc": 0.47897727272727275
+    },
+    {
+      "epoch": 0.36234376791652334,
+      "grad_norm": 0.33359360694885254,
+      "learning_rate": 0.0007376814322229544,
+      "loss": 2.52272629737854,
+      "step": 790,
+      "token_acc": 0.48142031379025596
+    },
+    {
+      "epoch": 0.36280243091388603,
+      "grad_norm": 0.30910125374794006,
+      "learning_rate": 0.0007370277562443688,
+      "loss": 2.5111989974975586,
+      "step": 791,
+      "token_acc": 0.4659890539483972
+    },
+    {
+      "epoch": 0.3632610939112487,
+      "grad_norm": 0.3456060588359833,
+      "learning_rate": 0.0007363735572941564,
+      "loss": 2.447417736053467,
+      "step": 792,
+      "token_acc": 0.47259507829977626
+    },
+    {
+      "epoch": 0.3637197569086114,
+      "grad_norm": 0.3354930579662323,
+      "learning_rate": 0.0007357188368157236,
+      "loss": 2.4065170288085938,
+      "step": 793,
+      "token_acc": 0.484296130117779
+    },
+    {
+      "epoch": 0.3641784199059741,
+      "grad_norm": 0.3679870665073395,
+      "learning_rate": 0.0007350635962536284,
+      "loss": 2.467536449432373,
+      "step": 794,
+      "token_acc": 0.4832100170745589
+    },
+    {
+      "epoch": 0.3646370829033368,
+      "grad_norm": 0.3262147605419159,
+      "learning_rate": 0.0007344078370535756,
+      "loss": 2.4807534217834473,
+      "step": 795,
+      "token_acc": 0.470242860955431
+    },
+    {
+      "epoch": 0.3650957459006995,
+      "grad_norm": 0.3515841066837311,
+      "learning_rate": 0.0007337515606624148,
+      "loss": 2.4958858489990234,
+      "step": 796,
+      "token_acc": 0.46664813785436354
+    },
+    {
+      "epoch": 0.3655544088980621,
+      "grad_norm": 0.36349594593048096,
+      "learning_rate": 0.0007330947685281362,
+      "loss": 2.37929630279541,
+      "step": 797,
+      "token_acc": 0.5024617067833698
+    },
+    {
+      "epoch": 0.3660130718954248,
+      "grad_norm": 0.37460190057754517,
+      "learning_rate": 0.0007324374620998682,
+      "loss": 2.4175400733947754,
+      "step": 798,
+      "token_acc": 0.480448533640023
+    },
+    {
+      "epoch": 0.3664717348927875,
+      "grad_norm": 0.34051451086997986,
+      "learning_rate": 0.000731779642827874,
+      "loss": 2.384699821472168,
+      "step": 799,
+      "token_acc": 0.49243505566657153
+    },
+    {
+      "epoch": 0.3669303978901502,
+      "grad_norm": 0.35937047004699707,
+      "learning_rate": 0.0007311213121635483,
+      "loss": 2.4641661643981934,
+      "step": 800,
+      "token_acc": 0.47732558139534886
+    },
+    {
+      "epoch": 0.3673890608875129,
+      "grad_norm": 0.353805810213089,
+      "learning_rate": 0.0007304624715594139,
+      "loss": 2.4949920177459717,
+      "step": 801,
+      "token_acc": 0.4786677676851087
+    },
+    {
+      "epoch": 0.3678477238848756,
+      "grad_norm": 0.3308771252632141,
+      "learning_rate": 0.0007298031224691193,
+      "loss": 2.4123919010162354,
+      "step": 802,
+      "token_acc": 0.47576848518415954
+    },
+    {
+      "epoch": 0.36830638688223827,
+      "grad_norm": 0.3476885259151459,
+      "learning_rate": 0.0007291432663474339,
+      "loss": 2.475379467010498,
+      "step": 803,
+      "token_acc": 0.47018221976808394
+    },
+    {
+      "epoch": 0.36876504987960096,
+      "grad_norm": 0.36175617575645447,
+      "learning_rate": 0.0007284829046502467,
+      "loss": 2.517099380493164,
+      "step": 804,
+      "token_acc": 0.4681528662420382
+    },
+    {
+      "epoch": 0.36922371287696365,
+      "grad_norm": 0.34956565499305725,
+      "learning_rate": 0.0007278220388345619,
+      "loss": 2.580439805984497,
+      "step": 805,
+      "token_acc": 0.46145027228432217
+    },
+    {
+      "epoch": 0.36968237587432634,
+      "grad_norm": 0.36770331859588623,
+      "learning_rate": 0.0007271606703584958,
+      "loss": 2.3498265743255615,
+      "step": 806,
+      "token_acc": 0.48791330925257015
+    },
+    {
+      "epoch": 0.37014103887168903,
+      "grad_norm": 0.35276126861572266,
+      "learning_rate": 0.000726498800681274,
+      "loss": 2.464916229248047,
+      "step": 807,
+      "token_acc": 0.4831812998859749
+    },
+    {
+      "epoch": 0.3705997018690517,
+      "grad_norm": 0.3493054211139679,
+      "learning_rate": 0.0007258364312632279,
+      "loss": 2.5920419692993164,
+      "step": 808,
+      "token_acc": 0.4601041952289553
+    },
+    {
+      "epoch": 0.3710583648664144,
+      "grad_norm": 0.38424357771873474,
+      "learning_rate": 0.0007251735635657915,
+      "loss": 2.438547134399414,
+      "step": 809,
+      "token_acc": 0.4809069212410501
+    },
+    {
+      "epoch": 0.3715170278637771,
+      "grad_norm": 0.35258960723876953,
+      "learning_rate": 0.000724510199051498,
+      "loss": 2.3928637504577637,
+      "step": 810,
+      "token_acc": 0.48171227309672177
+    },
+    {
+      "epoch": 0.3719756908611398,
+      "grad_norm": 0.3701295852661133,
+      "learning_rate": 0.0007238463391839769,
+      "loss": 2.548452854156494,
+      "step": 811,
+      "token_acc": 0.4752981260647359
+    },
+    {
+      "epoch": 0.3724343538585025,
+      "grad_norm": 0.34005725383758545,
+      "learning_rate": 0.0007231819854279508,
+      "loss": 2.5540356636047363,
+      "step": 812,
+      "token_acc": 0.47848389854659445
+    },
+    {
+      "epoch": 0.3728930168558652,
+      "grad_norm": 0.34729236364364624,
+      "learning_rate": 0.0007225171392492316,
+      "loss": 2.4485301971435547,
+      "step": 813,
+      "token_acc": 0.47530687981729947
+    },
+    {
+      "epoch": 0.3733516798532278,
+      "grad_norm": 0.3436357080936432,
+      "learning_rate": 0.0007218518021147182,
+      "loss": 2.5611181259155273,
+      "step": 814,
+      "token_acc": 0.4675145147912635
+    },
+    {
+      "epoch": 0.3738103428505905,
+      "grad_norm": 0.3415057361125946,
+      "learning_rate": 0.0007211859754923923,
+      "loss": 2.4905998706817627,
+      "step": 815,
+      "token_acc": 0.4802163393111301
+    },
+    {
+      "epoch": 0.3742690058479532,
+      "grad_norm": 0.3224409818649292,
+      "learning_rate": 0.0007205196608513158,
+      "loss": 2.4886622428894043,
+      "step": 816,
+      "token_acc": 0.4703308722996992
+    },
+    {
+      "epoch": 0.3747276688453159,
+      "grad_norm": 0.3343602418899536,
+      "learning_rate": 0.0007198528596616272,
+      "loss": 2.346679210662842,
+      "step": 817,
+      "token_acc": 0.4992963692654095
+    },
+    {
+      "epoch": 0.3751863318426786,
+      "grad_norm": 0.3545147478580475,
+      "learning_rate": 0.0007191855733945387,
+      "loss": 2.4271044731140137,
+      "step": 818,
+      "token_acc": 0.48335214446952596
+    },
+    {
+      "epoch": 0.37564499484004127,
+      "grad_norm": 0.3391993045806885,
+      "learning_rate": 0.0007185178035223327,
+      "loss": 2.410579204559326,
+      "step": 819,
+      "token_acc": 0.4904423812124522
+    },
+    {
+      "epoch": 0.37610365783740396,
+      "grad_norm": 0.36033087968826294,
+      "learning_rate": 0.0007178495515183583,
+      "loss": 2.518404960632324,
+      "step": 820,
+      "token_acc": 0.4784172661870504
+    },
+    {
+      "epoch": 0.37656232083476665,
+      "grad_norm": 0.37622544169425964,
+      "learning_rate": 0.000717180818857029,
+      "loss": 2.4787118434906006,
+      "step": 821,
+      "token_acc": 0.47202894517116617
+    },
+    {
+      "epoch": 0.37702098383212934,
+      "grad_norm": 0.35045674443244934,
+      "learning_rate": 0.0007165116070138182,
+      "loss": 2.5121822357177734,
+      "step": 822,
+      "token_acc": 0.4636963696369637
+    },
+    {
+      "epoch": 0.37747964682949203,
+      "grad_norm": 0.3700495958328247,
+      "learning_rate": 0.0007158419174652569,
+      "loss": 2.5115466117858887,
+      "step": 823,
+      "token_acc": 0.46317512274959083
+    },
+    {
+      "epoch": 0.3779383098268547,
+      "grad_norm": 0.38144850730895996,
+      "learning_rate": 0.00071517175168893,
+      "loss": 2.491389274597168,
+      "step": 824,
+      "token_acc": 0.4721989382509081
+    },
+    {
+      "epoch": 0.3783969728242174,
+      "grad_norm": 0.3349778354167938,
+      "learning_rate": 0.0007145011111634732,
+      "loss": 2.4309535026550293,
+      "step": 825,
+      "token_acc": 0.48610354223433244
+    },
+    {
+      "epoch": 0.3788556358215801,
+      "grad_norm": 0.3638837933540344,
+      "learning_rate": 0.0007138299973685694,
+      "loss": 2.5415701866149902,
+      "step": 826,
+      "token_acc": 0.4614546445110324
+    },
+    {
+      "epoch": 0.3793142988189428,
+      "grad_norm": 0.3995637595653534,
+      "learning_rate": 0.0007131584117849459,
+      "loss": 2.539368152618408,
+      "step": 827,
+      "token_acc": 0.4708049886621315
+    },
+    {
+      "epoch": 0.3797729618163055,
+      "grad_norm": 0.33401423692703247,
+      "learning_rate": 0.0007124863558943713,
+      "loss": 2.5239875316619873,
+      "step": 828,
+      "token_acc": 0.4754232659748771
+    },
+    {
+      "epoch": 0.3802316248136682,
+      "grad_norm": 0.3599550426006317,
+      "learning_rate": 0.0007118138311796514,
+      "loss": 2.5455970764160156,
+      "step": 829,
+      "token_acc": 0.46755555555555556
+    },
+    {
+      "epoch": 0.38069028781103087,
+      "grad_norm": 0.34945255517959595,
+      "learning_rate": 0.0007111408391246262,
+      "loss": 2.5135281085968018,
+      "step": 830,
+      "token_acc": 0.46258692628650905
+    },
+    {
+      "epoch": 0.3811489508083935,
+      "grad_norm": 0.34327560663223267,
+      "learning_rate": 0.0007104673812141675,
+      "loss": 2.4962868690490723,
+      "step": 831,
+      "token_acc": 0.4770617149098853
+    },
+    {
+      "epoch": 0.3816076138057562,
+      "grad_norm": 0.3618239760398865,
+      "learning_rate": 0.0007097934589341745,
+      "loss": 2.4645185470581055,
+      "step": 832,
+      "token_acc": 0.4867986798679868
+    },
+    {
+      "epoch": 0.3820662768031189,
+      "grad_norm": 0.33237510919570923,
+      "learning_rate": 0.0007091190737715711,
+      "loss": 2.564073085784912,
+      "step": 833,
+      "token_acc": 0.4602702702702703
+    },
+    {
+      "epoch": 0.3825249398004816,
+      "grad_norm": 0.3325451612472534,
+      "learning_rate": 0.0007084442272143026,
+      "loss": 2.488542318344116,
+      "step": 834,
+      "token_acc": 0.4708889520022721
+    },
+    {
+      "epoch": 0.38298360279784427,
+      "grad_norm": 0.3296065032482147,
+      "learning_rate": 0.000707768920751332,
+      "loss": 2.374340772628784,
+      "step": 835,
+      "token_acc": 0.4901164365014893
+    },
+    {
+      "epoch": 0.38344226579520696,
+      "grad_norm": 0.32573696970939636,
+      "learning_rate": 0.0007070931558726373,
+      "loss": 2.558864116668701,
+      "step": 836,
+      "token_acc": 0.46733668341708545
+    },
+    {
+      "epoch": 0.38390092879256965,
+      "grad_norm": 0.3295629322528839,
+      "learning_rate": 0.0007064169340692076,
+      "loss": 2.4058151245117188,
+      "step": 837,
+      "token_acc": 0.4703159041394335
+    },
+    {
+      "epoch": 0.38435959178993234,
+      "grad_norm": 0.3382768929004669,
+      "learning_rate": 0.0007057402568330407,
+      "loss": 2.454240322113037,
+      "step": 838,
+      "token_acc": 0.472636815920398
+    },
+    {
+      "epoch": 0.38481825478729503,
+      "grad_norm": 0.3621100187301636,
+      "learning_rate": 0.0007050631256571389,
+      "loss": 2.4515879154205322,
+      "step": 839,
+      "token_acc": 0.4820247339660627
+    },
+    {
+      "epoch": 0.3852769177846577,
+      "grad_norm": 0.3499838411808014,
+      "learning_rate": 0.000704385542035506,
+      "loss": 2.476222038269043,
+      "step": 840,
+      "token_acc": 0.4724890829694323
+    },
+    {
+      "epoch": 0.3857355807820204,
+      "grad_norm": 0.34161198139190674,
+      "learning_rate": 0.000703707507463144,
+      "loss": 2.4179282188415527,
+      "step": 841,
+      "token_acc": 0.47489597780859916
+    },
+    {
+      "epoch": 0.3861942437793831,
+      "grad_norm": 0.3581376373767853,
+      "learning_rate": 0.0007030290234360505,
+      "loss": 2.4231343269348145,
+      "step": 842,
+      "token_acc": 0.48804379141457793
+    },
+    {
+      "epoch": 0.3866529067767458,
+      "grad_norm": 0.3114863336086273,
+      "learning_rate": 0.0007023500914512139,
+      "loss": 2.3875174522399902,
+      "step": 843,
+      "token_acc": 0.48638988177069015
+    },
+    {
+      "epoch": 0.3871115697741085,
+      "grad_norm": 0.36698824167251587,
+      "learning_rate": 0.0007016707130066116,
+      "loss": 2.3906877040863037,
+      "step": 844,
+      "token_acc": 0.48205569910996265
+    },
+    {
+      "epoch": 0.3875702327714712,
+      "grad_norm": 0.3424600064754486,
+      "learning_rate": 0.0007009908896012055,
+      "loss": 2.4574131965637207,
+      "step": 845,
+      "token_acc": 0.4725490196078431
+    },
+    {
+      "epoch": 0.38802889576883387,
+      "grad_norm": 0.3314528465270996,
+      "learning_rate": 0.0007003106227349399,
+      "loss": 2.3655309677124023,
+      "step": 846,
+      "token_acc": 0.4950576606260296
+    },
+    {
+      "epoch": 0.38848755876619656,
+      "grad_norm": 0.3507498800754547,
+      "learning_rate": 0.000699629913908737,
+      "loss": 2.5706467628479004,
+      "step": 847,
+      "token_acc": 0.4544711014176663
+    },
+    {
+      "epoch": 0.38894622176355925,
+      "grad_norm": 0.35580703616142273,
+      "learning_rate": 0.0006989487646244943,
+      "loss": 2.542130947113037,
+      "step": 848,
+      "token_acc": 0.45558815684182447
+    },
+    {
+      "epoch": 0.3894048847609219,
+      "grad_norm": 0.3296971619129181,
+      "learning_rate": 0.0006982671763850814,
+      "loss": 2.4827723503112793,
+      "step": 849,
+      "token_acc": 0.4784110535405872
+    },
+    {
+      "epoch": 0.3898635477582846,
+      "grad_norm": 0.3323590159416199,
+      "learning_rate": 0.0006975851506943359,
+      "loss": 2.4418163299560547,
+      "step": 850,
+      "token_acc": 0.4789517702815723
+    },
+    {
+      "epoch": 0.39032221075564727,
+      "grad_norm": 0.3179738521575928,
+      "learning_rate": 0.0006969026890570611,
+      "loss": 2.446475028991699,
+      "step": 851,
+      "token_acc": 0.4717290357825731
+    },
+    {
+      "epoch": 0.39078087375300996,
+      "grad_norm": 0.34864169359207153,
+      "learning_rate": 0.0006962197929790216,
+      "loss": 2.5509390830993652,
+      "step": 852,
+      "token_acc": 0.4613500272182907
+    },
+    {
+      "epoch": 0.39123953675037265,
+      "grad_norm": 0.3578560948371887,
+      "learning_rate": 0.0006955364639669409,
+      "loss": 2.437828540802002,
+      "step": 853,
+      "token_acc": 0.4782126006106023
+    },
+    {
+      "epoch": 0.39169819974773534,
+      "grad_norm": 0.33879053592681885,
+      "learning_rate": 0.0006948527035284978,
+      "loss": 2.4185004234313965,
+      "step": 854,
+      "token_acc": 0.47908309455587395
+    },
+    {
+      "epoch": 0.39215686274509803,
+      "grad_norm": 0.35762783885002136,
+      "learning_rate": 0.0006941685131723225,
+      "loss": 2.5527725219726562,
+      "step": 855,
+      "token_acc": 0.45817490494296575
+    },
+    {
+      "epoch": 0.3926155257424607,
+      "grad_norm": 0.3617367446422577,
+      "learning_rate": 0.0006934838944079943,
+      "loss": 2.387233257293701,
+      "step": 856,
+      "token_acc": 0.4972144846796657
+    },
+    {
+      "epoch": 0.3930741887398234,
+      "grad_norm": 0.3725968599319458,
+      "learning_rate": 0.0006927988487460378,
+      "loss": 2.4895336627960205,
+      "step": 857,
+      "token_acc": 0.4732739420935412
+    },
+    {
+      "epoch": 0.3935328517371861,
+      "grad_norm": 0.35217392444610596,
+      "learning_rate": 0.0006921133776979186,
+      "loss": 2.469203233718872,
+      "step": 858,
+      "token_acc": 0.48589779391231497
+    },
+    {
+      "epoch": 0.3939915147345488,
+      "grad_norm": 0.31820574402809143,
+      "learning_rate": 0.0006914274827760418,
+      "loss": 2.4380342960357666,
+      "step": 859,
+      "token_acc": 0.4857852608335633
+    },
+    {
+      "epoch": 0.3944501777319115,
+      "grad_norm": 0.33736085891723633,
+      "learning_rate": 0.0006907411654937475,
+      "loss": 2.413689613342285,
+      "step": 860,
+      "token_acc": 0.4877641824249166
+    },
+    {
+      "epoch": 0.3949088407292742,
+      "grad_norm": 0.318315327167511,
+      "learning_rate": 0.0006900544273653075,
+      "loss": 2.4610211849212646,
+      "step": 861,
+      "token_acc": 0.4752313554708764
+    },
+    {
+      "epoch": 0.39536750372663687,
+      "grad_norm": 0.33929315209388733,
+      "learning_rate": 0.000689367269905922,
+      "loss": 2.471482038497925,
+      "step": 862,
+      "token_acc": 0.480375898286346
+    },
+    {
+      "epoch": 0.39582616672399956,
+      "grad_norm": 0.3373332917690277,
+      "learning_rate": 0.0006886796946317168,
+      "loss": 2.509321689605713,
+      "step": 863,
+      "token_acc": 0.4790842283776145
+    },
+    {
+      "epoch": 0.39628482972136225,
+      "grad_norm": 0.3210132420063019,
+      "learning_rate": 0.0006879917030597397,
+      "loss": 2.530477523803711,
+      "step": 864,
+      "token_acc": 0.4660922734852696
+    },
+    {
+      "epoch": 0.39674349271872494,
+      "grad_norm": 0.32578906416893005,
+      "learning_rate": 0.0006873032967079561,
+      "loss": 2.393293857574463,
+      "step": 865,
+      "token_acc": 0.4833854018744675
+    },
+    {
+      "epoch": 0.3972021557160876,
+      "grad_norm": 0.34614992141723633,
+      "learning_rate": 0.0006866144770952474,
+      "loss": 2.4211227893829346,
+      "step": 866,
+      "token_acc": 0.4699117411072479
+    },
+    {
+      "epoch": 0.39766081871345027,
+      "grad_norm": 0.36215364933013916,
+      "learning_rate": 0.0006859252457414067,
+      "loss": 2.495723247528076,
+      "step": 867,
+      "token_acc": 0.46153846153846156
+    },
+    {
+      "epoch": 0.39811948171081296,
+      "grad_norm": 0.3510194718837738,
+      "learning_rate": 0.0006852356041671351,
+      "loss": 2.4989211559295654,
+      "step": 868,
+      "token_acc": 0.4746192893401015
+    },
+    {
+      "epoch": 0.39857814470817565,
+      "grad_norm": 0.3313802182674408,
+      "learning_rate": 0.0006845455538940394,
+      "loss": 2.4638500213623047,
+      "step": 869,
+      "token_acc": 0.4678237650200267
+    },
+    {
+      "epoch": 0.39903680770553834,
+      "grad_norm": 0.3359384536743164,
+      "learning_rate": 0.0006838550964446276,
+      "loss": 2.5276336669921875,
+      "step": 870,
+      "token_acc": 0.46591222743582666
+    },
+    {
+      "epoch": 0.39949547070290103,
+      "grad_norm": 0.33474427461624146,
+      "learning_rate": 0.0006831642333423067,
+      "loss": 2.525841236114502,
+      "step": 871,
+      "token_acc": 0.46305959901126065
+    },
+    {
+      "epoch": 0.3999541337002637,
+      "grad_norm": 0.33878329396247864,
+      "learning_rate": 0.000682472966111378,
+      "loss": 2.3578083515167236,
+      "step": 872,
+      "token_acc": 0.49681344148319817
+    },
+    {
+      "epoch": 0.4004127966976264,
+      "grad_norm": 0.335550457239151,
+      "learning_rate": 0.0006817812962770348,
+      "loss": 2.5074901580810547,
+      "step": 873,
+      "token_acc": 0.46256830601092896
+    },
+    {
+      "epoch": 0.4008714596949891,
+      "grad_norm": 0.3222511410713196,
+      "learning_rate": 0.0006810892253653589,
+      "loss": 2.4579997062683105,
+      "step": 874,
+      "token_acc": 0.47377094204888764
+    },
+    {
+      "epoch": 0.4013301226923518,
+      "grad_norm": 0.40958118438720703,
+      "learning_rate": 0.0006803967549033167,
+      "loss": 2.500559091567993,
+      "step": 875,
+      "token_acc": 0.47086968758795383
+    },
+    {
+      "epoch": 0.4017887856897145,
+      "grad_norm": 0.342215359210968,
+      "learning_rate": 0.0006797038864187564,
+      "loss": 2.461747169494629,
+      "step": 876,
+      "token_acc": 0.4695121951219512
+    },
+    {
+      "epoch": 0.4022474486870772,
+      "grad_norm": 0.37586331367492676,
+      "learning_rate": 0.0006790106214404043,
+      "loss": 2.4394402503967285,
+      "step": 877,
+      "token_acc": 0.4819906516359637
+    },
+    {
+      "epoch": 0.40270611168443987,
+      "grad_norm": 0.3401262164115906,
+      "learning_rate": 0.0006783169614978614,
+      "loss": 2.4620203971862793,
+      "step": 878,
+      "token_acc": 0.46742209631728043
+    },
+    {
+      "epoch": 0.40316477468180256,
+      "grad_norm": 0.3470291197299957,
+      "learning_rate": 0.0006776229081216001,
+      "loss": 2.49172306060791,
+      "step": 879,
+      "token_acc": 0.46695035460992906
+    },
+    {
+      "epoch": 0.40362343767916525,
+      "grad_norm": 0.3389359414577484,
+      "learning_rate": 0.0006769284628429611,
+      "loss": 2.461165428161621,
+      "step": 880,
+      "token_acc": 0.476150155235676
+    },
+    {
+      "epoch": 0.40408210067652794,
+      "grad_norm": 0.3308427333831787,
+      "learning_rate": 0.0006762336271941498,
+      "loss": 2.44110107421875,
+      "step": 881,
+      "token_acc": 0.4813017413645447
+    },
+    {
+      "epoch": 0.40454076367389064,
+      "grad_norm": 0.3215057849884033,
+      "learning_rate": 0.0006755384027082326,
+      "loss": 2.4816231727600098,
+      "step": 882,
+      "token_acc": 0.46984572230014027
+    },
+    {
+      "epoch": 0.40499942667125327,
+      "grad_norm": 0.33226045966148376,
+      "learning_rate": 0.0006748427909191342,
+      "loss": 2.542203187942505,
+      "step": 883,
+      "token_acc": 0.462403951701427
+    },
+    {
+      "epoch": 0.40545808966861596,
+      "grad_norm": 0.3417050540447235,
+      "learning_rate": 0.0006741467933616335,
+      "loss": 2.4750823974609375,
+      "step": 884,
+      "token_acc": 0.4783337992731339
+    },
+    {
+      "epoch": 0.40591675266597865,
+      "grad_norm": 0.3694283664226532,
+      "learning_rate": 0.0006734504115713604,
+      "loss": 2.4716637134552,
+      "step": 885,
+      "token_acc": 0.474373576309795
+    },
+    {
+      "epoch": 0.40637541566334134,
+      "grad_norm": 0.3408249020576477,
+      "learning_rate": 0.0006727536470847932,
+      "loss": 2.467498779296875,
+      "step": 886,
+      "token_acc": 0.48575342465753424
+    },
+    {
+      "epoch": 0.40683407866070403,
+      "grad_norm": 0.3706459701061249,
+      "learning_rate": 0.000672056501439254,
+      "loss": 2.525841474533081,
+      "step": 887,
+      "token_acc": 0.47793481396019616
+    },
+    {
+      "epoch": 0.4072927416580667,
+      "grad_norm": 0.33338823914527893,
+      "learning_rate": 0.0006713589761729063,
+      "loss": 2.4270241260528564,
+      "step": 888,
+      "token_acc": 0.48518725544997204
+    },
+    {
+      "epoch": 0.4077514046554294,
+      "grad_norm": 0.3480849862098694,
+      "learning_rate": 0.0006706610728247508,
+      "loss": 2.5137414932250977,
+      "step": 889,
+      "token_acc": 0.4654927577392786
+    },
+    {
+      "epoch": 0.4082100676527921,
+      "grad_norm": 0.3385140895843506,
+      "learning_rate": 0.0006699627929346227,
+      "loss": 2.412680149078369,
+      "step": 890,
+      "token_acc": 0.4858677218767665
+    },
+    {
+      "epoch": 0.4086687306501548,
+      "grad_norm": 0.32687926292419434,
+      "learning_rate": 0.0006692641380431879,
+      "loss": 2.3571317195892334,
+      "step": 891,
+      "token_acc": 0.49587231700605394
+    },
+    {
+      "epoch": 0.4091273936475175,
+      "grad_norm": 0.34469565749168396,
+      "learning_rate": 0.0006685651096919393,
+      "loss": 2.3892743587493896,
+      "step": 892,
+      "token_acc": 0.4817903808729497
+    },
+    {
+      "epoch": 0.4095860566448802,
+      "grad_norm": 0.33755695819854736,
+      "learning_rate": 0.0006678657094231944,
+      "loss": 2.4766666889190674,
+      "step": 893,
+      "token_acc": 0.4866648336541105
+    },
+    {
+      "epoch": 0.41004471964224287,
+      "grad_norm": 0.32727566361427307,
+      "learning_rate": 0.0006671659387800909,
+      "loss": 2.562934637069702,
+      "step": 894,
+      "token_acc": 0.468404647208841
+    },
+    {
+      "epoch": 0.41050338263960556,
+      "grad_norm": 0.36177247762680054,
+      "learning_rate": 0.000666465799306584,
+      "loss": 2.4236083030700684,
+      "step": 895,
+      "token_acc": 0.469896387566508
+    },
+    {
+      "epoch": 0.41096204563696825,
+      "grad_norm": 0.32118985056877136,
+      "learning_rate": 0.0006657652925474423,
+      "loss": 2.4102890491485596,
+      "step": 896,
+      "token_acc": 0.4879518072289157
+    },
+    {
+      "epoch": 0.41142070863433094,
+      "grad_norm": 0.3292829990386963,
+      "learning_rate": 0.000665064420048245,
+      "loss": 2.432246208190918,
+      "step": 897,
+      "token_acc": 0.4901585565882996
+    },
+    {
+      "epoch": 0.41187937163169364,
+      "grad_norm": 0.3454367518424988,
+      "learning_rate": 0.0006643631833553785,
+      "loss": 2.3862335681915283,
+      "step": 898,
+      "token_acc": 0.4920190422850742
+    },
+    {
+      "epoch": 0.4123380346290563,
+      "grad_norm": 0.3250463902950287,
+      "learning_rate": 0.000663661584016032,
+      "loss": 2.40451717376709,
+      "step": 899,
+      "token_acc": 0.4741285403050109
+    },
+    {
+      "epoch": 0.41279669762641896,
+      "grad_norm": 0.33107975125312805,
+      "learning_rate": 0.0006629596235781957,
+      "loss": 2.413483142852783,
+      "step": 900,
+      "token_acc": 0.4797163120567376
+    },
+    {
+      "epoch": 0.41325536062378165,
+      "grad_norm": 0.3298957943916321,
+      "learning_rate": 0.0006622573035906556,
+      "loss": 2.4231109619140625,
+      "step": 901,
+      "token_acc": 0.48236259228876127
+    },
+    {
+      "epoch": 0.41371402362114434,
+      "grad_norm": 0.3405163884162903,
+      "learning_rate": 0.0006615546256029921,
+      "loss": 2.5227856636047363,
+      "step": 902,
+      "token_acc": 0.4665025977577249
+    },
+    {
+      "epoch": 0.41417268661850704,
+      "grad_norm": 0.3398095667362213,
+      "learning_rate": 0.0006608515911655743,
+      "loss": 2.4077415466308594,
+      "step": 903,
+      "token_acc": 0.4968625213918996
+    },
+    {
+      "epoch": 0.4146313496158697,
+      "grad_norm": 0.3194008469581604,
+      "learning_rate": 0.0006601482018295591,
+      "loss": 2.5073070526123047,
+      "step": 904,
+      "token_acc": 0.4906020157995097
+    },
+    {
+      "epoch": 0.4150900126132324,
+      "grad_norm": 0.3209075927734375,
+      "learning_rate": 0.0006594444591468851,
+      "loss": 2.4195785522460938,
+      "step": 905,
+      "token_acc": 0.48060754000542444
+    },
+    {
+      "epoch": 0.4155486756105951,
+      "grad_norm": 0.34620383381843567,
+      "learning_rate": 0.0006587403646702713,
+      "loss": 2.404463529586792,
+      "step": 906,
+      "token_acc": 0.4869950193691201
+    },
+    {
+      "epoch": 0.4160073386079578,
+      "grad_norm": 0.33298105001449585,
+      "learning_rate": 0.0006580359199532126,
+      "loss": 2.473375082015991,
+      "step": 907,
+      "token_acc": 0.471847739888977
+    },
+    {
+      "epoch": 0.4164660016053205,
+      "grad_norm": 0.3396308124065399,
+      "learning_rate": 0.000657331126549977,
+      "loss": 2.3809752464294434,
+      "step": 908,
+      "token_acc": 0.5013958682300391
+    },
+    {
+      "epoch": 0.4169246646026832,
+      "grad_norm": 0.32496148347854614,
+      "learning_rate": 0.0006566259860156014,
+      "loss": 2.4360573291778564,
+      "step": 909,
+      "token_acc": 0.476461038961039
+    },
+    {
+      "epoch": 0.4173833276000459,
+      "grad_norm": 0.35692402720451355,
+      "learning_rate": 0.0006559204999058888,
+      "loss": 2.4648337364196777,
+      "step": 910,
+      "token_acc": 0.4788536449638286
+    },
+    {
+      "epoch": 0.41784199059740856,
+      "grad_norm": 0.3381478786468506,
+      "learning_rate": 0.0006552146697774049,
+      "loss": 2.411172389984131,
+      "step": 911,
+      "token_acc": 0.4821727019498607
+    },
+    {
+      "epoch": 0.41830065359477125,
+      "grad_norm": 0.32509705424308777,
+      "learning_rate": 0.0006545084971874737,
+      "loss": 2.4794931411743164,
+      "step": 912,
+      "token_acc": 0.46895604395604396
+    },
+    {
+      "epoch": 0.41875931659213395,
+      "grad_norm": 0.33048540353775024,
+      "learning_rate": 0.0006538019836941758,
+      "loss": 2.406435489654541,
+      "step": 913,
+      "token_acc": 0.4842749791260785
+    },
+    {
+      "epoch": 0.41921797958949664,
+      "grad_norm": 0.3375578224658966,
+      "learning_rate": 0.0006530951308563431,
+      "loss": 2.4972496032714844,
+      "step": 914,
+      "token_acc": 0.48014541387024606
+    },
+    {
+      "epoch": 0.4196766425868593,
+      "grad_norm": 0.33902379870414734,
+      "learning_rate": 0.0006523879402335567,
+      "loss": 2.4719314575195312,
+      "step": 915,
+      "token_acc": 0.47727906328408143
+    },
+    {
+      "epoch": 0.420135305584222,
+      "grad_norm": 0.3327704966068268,
+      "learning_rate": 0.0006516804133861429,
+      "loss": 2.4043657779693604,
+      "step": 916,
+      "token_acc": 0.4829592684954281
+    },
+    {
+      "epoch": 0.42059396858158465,
+      "grad_norm": 0.3334977626800537,
+      "learning_rate": 0.0006509725518751698,
+      "loss": 2.4364006519317627,
+      "step": 917,
+      "token_acc": 0.47344759763978644
+    },
+    {
+      "epoch": 0.42105263157894735,
+      "grad_norm": 0.3373716473579407,
+      "learning_rate": 0.0006502643572624438,
+      "loss": 2.3419954776763916,
+      "step": 918,
+      "token_acc": 0.4955530850472485
+    },
+    {
+      "epoch": 0.42151129457631004,
+      "grad_norm": 0.34129130840301514,
+      "learning_rate": 0.0006495558311105064,
+      "loss": 2.4982738494873047,
+      "step": 919,
+      "token_acc": 0.473669623059867
+    },
+    {
+      "epoch": 0.4219699575736727,
+      "grad_norm": 0.3115142583847046,
+      "learning_rate": 0.0006488469749826305,
+      "loss": 2.447873830795288,
+      "step": 920,
+      "token_acc": 0.4855091730922627
+    },
+    {
+      "epoch": 0.4224286205710354,
+      "grad_norm": 0.3177265226840973,
+      "learning_rate": 0.000648137790442817,
+      "loss": 2.4756522178649902,
+      "step": 921,
+      "token_acc": 0.48343291689299295
+    },
+    {
+      "epoch": 0.4228872835683981,
+      "grad_norm": 0.36320260167121887,
+      "learning_rate": 0.0006474282790557916,
+      "loss": 2.4307937622070312,
+      "step": 922,
+      "token_acc": 0.4975776574522656
+    },
+    {
+      "epoch": 0.4233459465657608,
+      "grad_norm": 0.32924753427505493,
+      "learning_rate": 0.000646718442387001,
+      "loss": 2.3710238933563232,
+      "step": 923,
+      "token_acc": 0.4971366239432779
+    },
+    {
+      "epoch": 0.4238046095631235,
+      "grad_norm": 0.3493598401546478,
+      "learning_rate": 0.0006460082820026094,
+      "loss": 2.5720040798187256,
+      "step": 924,
+      "token_acc": 0.4608333333333333
+    },
+    {
+      "epoch": 0.4242632725604862,
+      "grad_norm": 0.35568714141845703,
+      "learning_rate": 0.0006452977994694959,
+      "loss": 2.453251361846924,
+      "step": 925,
+      "token_acc": 0.48622100954979536
+    },
+    {
+      "epoch": 0.4247219355578489,
+      "grad_norm": 0.3220854103565216,
+      "learning_rate": 0.0006445869963552496,
+      "loss": 2.394815444946289,
+      "step": 926,
+      "token_acc": 0.47585071350164654
+    },
+    {
+      "epoch": 0.42518059855521156,
+      "grad_norm": 0.3344813883304596,
+      "learning_rate": 0.0006438758742281672,
+      "loss": 2.4224698543548584,
+      "step": 927,
+      "token_acc": 0.4960328317373461
+    },
+    {
+      "epoch": 0.42563926155257426,
+      "grad_norm": 0.39103877544403076,
+      "learning_rate": 0.0006431644346572495,
+      "loss": 2.5200917720794678,
+      "step": 928,
+      "token_acc": 0.4589290720493412
+    },
+    {
+      "epoch": 0.42609792454993695,
+      "grad_norm": 0.3340437412261963,
+      "learning_rate": 0.0006424526792121974,
+      "loss": 2.5275228023529053,
+      "step": 929,
+      "token_acc": 0.4645143334261063
+    },
+    {
+      "epoch": 0.42655658754729964,
+      "grad_norm": 0.355785071849823,
+      "learning_rate": 0.0006417406094634089,
+      "loss": 2.4413881301879883,
+      "step": 930,
+      "token_acc": 0.4865771812080537
+    },
+    {
+      "epoch": 0.42701525054466233,
+      "grad_norm": 0.36327165365219116,
+      "learning_rate": 0.0006410282269819756,
+      "loss": 2.5758347511291504,
+      "step": 931,
+      "token_acc": 0.47629860913993755
+    },
+    {
+      "epoch": 0.427473913542025,
+      "grad_norm": 0.32997390627861023,
+      "learning_rate": 0.0006403155333396787,
+      "loss": 2.4430923461914062,
+      "step": 932,
+      "token_acc": 0.4847173383824723
+    },
+    {
+      "epoch": 0.4279325765393877,
+      "grad_norm": 0.36614543199539185,
+      "learning_rate": 0.0006396025301089863,
+      "loss": 2.421485424041748,
+      "step": 933,
+      "token_acc": 0.4745621351125938
+    },
+    {
+      "epoch": 0.42839123953675035,
+      "grad_norm": 0.3355928361415863,
+      "learning_rate": 0.0006388892188630493,
+      "loss": 2.4613075256347656,
+      "step": 934,
+      "token_acc": 0.4684512428298279
+    },
+    {
+      "epoch": 0.42884990253411304,
+      "grad_norm": 0.33424264192581177,
+      "learning_rate": 0.0006381756011756982,
+      "loss": 2.5218653678894043,
+      "step": 935,
+      "token_acc": 0.4703804347826087
+    },
+    {
+      "epoch": 0.4293085655314757,
+      "grad_norm": 0.3353055417537689,
+      "learning_rate": 0.0006374616786214403,
+      "loss": 2.4696428775787354,
+      "step": 936,
+      "token_acc": 0.48337028824833705
+    },
+    {
+      "epoch": 0.4297672285288384,
+      "grad_norm": 0.36095112562179565,
+      "learning_rate": 0.0006367474527754544,
+      "loss": 2.5012354850769043,
+      "step": 937,
+      "token_acc": 0.47456165564817476
+    },
+    {
+      "epoch": 0.4302258915262011,
+      "grad_norm": 0.35927727818489075,
+      "learning_rate": 0.0006360329252135894,
+      "loss": 2.3056390285491943,
+      "step": 938,
+      "token_acc": 0.5138849929873773
+    },
+    {
+      "epoch": 0.4306845545235638,
+      "grad_norm": 0.3377129137516022,
+      "learning_rate": 0.0006353180975123595,
+      "loss": 2.468533992767334,
+      "step": 939,
+      "token_acc": 0.4789892106757524
+    },
+    {
+      "epoch": 0.4311432175209265,
+      "grad_norm": 0.34502243995666504,
+      "learning_rate": 0.0006346029712489413,
+      "loss": 2.5318164825439453,
+      "step": 940,
+      "token_acc": 0.46023359288097887
+    },
+    {
+      "epoch": 0.4316018805182892,
+      "grad_norm": 0.3461168706417084,
+      "learning_rate": 0.0006338875480011698,
+      "loss": 2.4076178073883057,
+      "step": 941,
+      "token_acc": 0.47704428144525945
+    },
+    {
+      "epoch": 0.4320605435156519,
+      "grad_norm": 0.3349441885948181,
+      "learning_rate": 0.0006331718293475357,
+      "loss": 2.4736764430999756,
+      "step": 942,
+      "token_acc": 0.47488204274215934
+    },
+    {
+      "epoch": 0.43251920651301456,
+      "grad_norm": 0.3354679048061371,
+      "learning_rate": 0.0006324558168671811,
+      "loss": 2.4458165168762207,
+      "step": 943,
+      "token_acc": 0.4855658198614319
+    },
+    {
+      "epoch": 0.43297786951037726,
+      "grad_norm": 0.32944968342781067,
+      "learning_rate": 0.0006317395121398968,
+      "loss": 2.5307509899139404,
+      "step": 944,
+      "token_acc": 0.46499859432105706
+    },
+    {
+      "epoch": 0.43343653250773995,
+      "grad_norm": 0.33127132058143616,
+      "learning_rate": 0.0006310229167461179,
+      "loss": 2.3818087577819824,
+      "step": 945,
+      "token_acc": 0.47858796296296297
+    },
+    {
+      "epoch": 0.43389519550510264,
+      "grad_norm": 0.3457237482070923,
+      "learning_rate": 0.0006303060322669214,
+      "loss": 2.3439769744873047,
+      "step": 946,
+      "token_acc": 0.49524342473419136
+    },
+    {
+      "epoch": 0.43435385850246533,
+      "grad_norm": 0.3146384656429291,
+      "learning_rate": 0.0006295888602840214,
+      "loss": 2.3701133728027344,
+      "step": 947,
+      "token_acc": 0.49254555494202096
+    },
+    {
+      "epoch": 0.434812521499828,
+      "grad_norm": 0.34507277607917786,
+      "learning_rate": 0.0006288714023797671,
+      "loss": 2.4137330055236816,
+      "step": 948,
+      "token_acc": 0.48926080892608087
+    },
+    {
+      "epoch": 0.4352711844971907,
+      "grad_norm": 0.34911203384399414,
+      "learning_rate": 0.000628153660137138,
+      "loss": 2.441380500793457,
+      "step": 949,
+      "token_acc": 0.48540965207631875
+    },
+    {
+      "epoch": 0.4357298474945534,
+      "grad_norm": 0.3418898284435272,
+      "learning_rate": 0.0006274356351397413,
+      "loss": 2.4164395332336426,
+      "step": 950,
+      "token_acc": 0.4761092150170648
+    },
+    {
+      "epoch": 0.43618851049191604,
+      "grad_norm": 0.3438267409801483,
+      "learning_rate": 0.0006267173289718079,
+      "loss": 2.391000270843506,
+      "step": 951,
+      "token_acc": 0.48737808376362596
+    },
+    {
+      "epoch": 0.43664717348927873,
+      "grad_norm": 0.35862720012664795,
+      "learning_rate": 0.000625998743218189,
+      "loss": 2.4072818756103516,
+      "step": 952,
+      "token_acc": 0.4763646595385481
+    },
+    {
+      "epoch": 0.4371058364866414,
+      "grad_norm": 0.35209861397743225,
+      "learning_rate": 0.000625279879464353,
+      "loss": 2.496858835220337,
+      "step": 953,
+      "token_acc": 0.4773413897280967
+    },
+    {
+      "epoch": 0.4375644994840041,
+      "grad_norm": 0.35770609974861145,
+      "learning_rate": 0.000624560739296381,
+      "loss": 2.38735294342041,
+      "step": 954,
+      "token_acc": 0.48483947681331746
+    },
+    {
+      "epoch": 0.4380231624813668,
+      "grad_norm": 0.362027645111084,
+      "learning_rate": 0.0006238413243009648,
+      "loss": 2.4642162322998047,
+      "step": 955,
+      "token_acc": 0.4769592016436748
+    },
+    {
+      "epoch": 0.4384818254787295,
+      "grad_norm": 0.31088146567344666,
+      "learning_rate": 0.000623121636065402,
+      "loss": 2.4101524353027344,
+      "step": 956,
+      "token_acc": 0.4839443023586246
+    },
+    {
+      "epoch": 0.4389404884760922,
+      "grad_norm": 0.34831270575523376,
+      "learning_rate": 0.0006224016761775933,
+      "loss": 2.3885061740875244,
+      "step": 957,
+      "token_acc": 0.48254504504504503
+    },
+    {
+      "epoch": 0.4393991514734549,
+      "grad_norm": 0.33243533968925476,
+      "learning_rate": 0.0006216814462260386,
+      "loss": 2.401345729827881,
+      "step": 958,
+      "token_acc": 0.49347883949960075
+    },
+    {
+      "epoch": 0.43985781447081757,
+      "grad_norm": 0.33555805683135986,
+      "learning_rate": 0.0006209609477998338,
+      "loss": 2.449944019317627,
+      "step": 959,
+      "token_acc": 0.47324646520654284
+    },
+    {
+      "epoch": 0.44031647746818026,
+      "grad_norm": 0.3364394009113312,
+      "learning_rate": 0.0006202401824886674,
+      "loss": 2.4184885025024414,
+      "step": 960,
+      "token_acc": 0.4748303167420814
+    },
+    {
+      "epoch": 0.44077514046554295,
+      "grad_norm": 0.33988484740257263,
+      "learning_rate": 0.0006195191518828162,
+      "loss": 2.359002113342285,
+      "step": 961,
+      "token_acc": 0.48904109589041095
+    },
+    {
+      "epoch": 0.44123380346290564,
+      "grad_norm": 0.34133222699165344,
+      "learning_rate": 0.0006187978575731427,
+      "loss": 2.333381414413452,
+      "step": 962,
+      "token_acc": 0.5050761421319797
+    },
+    {
+      "epoch": 0.44169246646026833,
+      "grad_norm": 0.3267521858215332,
+      "learning_rate": 0.0006180763011510911,
+      "loss": 2.4179508686065674,
+      "step": 963,
+      "token_acc": 0.4887029288702929
+    },
+    {
+      "epoch": 0.442151129457631,
+      "grad_norm": 0.3586190342903137,
+      "learning_rate": 0.000617354484208684,
+      "loss": 2.4548840522766113,
+      "step": 964,
+      "token_acc": 0.4765886287625418
+    },
+    {
+      "epoch": 0.4426097924549937,
+      "grad_norm": 0.3419138789176941,
+      "learning_rate": 0.0006166324083385189,
+      "loss": 2.396864414215088,
+      "step": 965,
+      "token_acc": 0.4757532281205165
+    },
+    {
+      "epoch": 0.4430684554523564,
+      "grad_norm": 0.33298784494400024,
+      "learning_rate": 0.0006159100751337642,
+      "loss": 2.4908924102783203,
+      "step": 966,
+      "token_acc": 0.47154946016924426
+    },
+    {
+      "epoch": 0.4435271184497191,
+      "grad_norm": 0.3202367424964905,
+      "learning_rate": 0.0006151874861881565,
+      "loss": 2.306973457336426,
+      "step": 967,
+      "token_acc": 0.49004329004329006
+    },
+    {
+      "epoch": 0.4439857814470818,
+      "grad_norm": 0.33593282103538513,
+      "learning_rate": 0.0006144646430959964,
+      "loss": 2.4656834602355957,
+      "step": 968,
+      "token_acc": 0.4763363028953229
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 0.34052330255508423,
+      "learning_rate": 0.0006137415474521454,
+      "loss": 2.4953203201293945,
+      "step": 969,
+      "token_acc": 0.4698586674358235
+    },
+    {
+      "epoch": 0.4449031074418071,
+      "grad_norm": 0.328667014837265,
+      "learning_rate": 0.0006130182008520222,
+      "loss": 2.3609280586242676,
+      "step": 970,
+      "token_acc": 0.5035082795397138
+    },
+    {
+      "epoch": 0.4453617704391698,
+      "grad_norm": 0.329279363155365,
+      "learning_rate": 0.000612294604891599,
+      "loss": 2.425253391265869,
+      "step": 971,
+      "token_acc": 0.48001126126126126
+    },
+    {
+      "epoch": 0.4458204334365325,
+      "grad_norm": 0.34138333797454834,
+      "learning_rate": 0.0006115707611673986,
+      "loss": 2.507331132888794,
+      "step": 972,
+      "token_acc": 0.46867167919799496
+    },
+    {
+      "epoch": 0.4462790964338952,
+      "grad_norm": 0.357669860124588,
+      "learning_rate": 0.0006108466712764902,
+      "loss": 2.5542449951171875,
+      "step": 973,
+      "token_acc": 0.46636167922497307
+    },
+    {
+      "epoch": 0.4467377594312579,
+      "grad_norm": 0.3691292107105255,
+      "learning_rate": 0.0006101223368164858,
+      "loss": 2.432164192199707,
+      "step": 974,
+      "token_acc": 0.49555491826785203
+    },
+    {
+      "epoch": 0.44719642242862057,
+      "grad_norm": 0.3149251639842987,
+      "learning_rate": 0.0006093977593855375,
+      "loss": 2.363558292388916,
+      "step": 975,
+      "token_acc": 0.48337388483373883
+    },
+    {
+      "epoch": 0.44765508542598326,
+      "grad_norm": 0.32556718587875366,
+      "learning_rate": 0.0006086729405823335,
+      "loss": 2.4077835083007812,
+      "step": 976,
+      "token_acc": 0.4911392405063291
+    },
+    {
+      "epoch": 0.44811374842334595,
+      "grad_norm": 0.31064191460609436,
+      "learning_rate": 0.0006079478820060943,
+      "loss": 2.4025559425354004,
+      "step": 977,
+      "token_acc": 0.4872881355932203
+    },
+    {
+      "epoch": 0.44857241142070864,
+      "grad_norm": 0.33454564213752747,
+      "learning_rate": 0.0006072225852565695,
+      "loss": 2.344836711883545,
+      "step": 978,
+      "token_acc": 0.50377411238468
+    },
+    {
+      "epoch": 0.44903107441807133,
+      "grad_norm": 0.3250851333141327,
+      "learning_rate": 0.0006064970519340341,
+      "loss": 2.468132257461548,
+      "step": 979,
+      "token_acc": 0.47481636935991606
+    },
+    {
+      "epoch": 0.449489737415434,
+      "grad_norm": 0.3377173840999603,
+      "learning_rate": 0.0006057712836392856,
+      "loss": 2.4750680923461914,
+      "step": 980,
+      "token_acc": 0.4884053821929573
+    },
+    {
+      "epoch": 0.4499484004127967,
+      "grad_norm": 0.3356623947620392,
+      "learning_rate": 0.0006050452819736389,
+      "loss": 2.4662275314331055,
+      "step": 981,
+      "token_acc": 0.47956929872998344
+    },
+    {
+      "epoch": 0.4504070634101594,
+      "grad_norm": 0.3308337330818176,
+      "learning_rate": 0.000604319048538925,
+      "loss": 2.328805446624756,
+      "step": 982,
+      "token_acc": 0.5009968669894617
+    },
+    {
+      "epoch": 0.4508657264075221,
+      "grad_norm": 0.3601084351539612,
+      "learning_rate": 0.0006035925849374855,
+      "loss": 2.4731593132019043,
+      "step": 983,
+      "token_acc": 0.47119398831060394
+    },
+    {
+      "epoch": 0.4513243894048848,
+      "grad_norm": 0.34020325541496277,
+      "learning_rate": 0.0006028658927721697,
+      "loss": 2.4580349922180176,
+      "step": 984,
+      "token_acc": 0.4854759850445787
+    },
+    {
+      "epoch": 0.4517830524022475,
+      "grad_norm": 0.3302370309829712,
+      "learning_rate": 0.0006021389736463321,
+      "loss": 2.463129997253418,
+      "step": 985,
+      "token_acc": 0.4669282511210762
+    },
+    {
+      "epoch": 0.4522417153996101,
+      "grad_norm": 0.3398115932941437,
+      "learning_rate": 0.0006014118291638271,
+      "loss": 2.3027663230895996,
+      "step": 986,
+      "token_acc": 0.5001387732445185
+    },
+    {
+      "epoch": 0.4527003783969728,
+      "grad_norm": 0.3611450493335724,
+      "learning_rate": 0.0006006844609290065,
+      "loss": 2.3438522815704346,
+      "step": 987,
+      "token_acc": 0.4896611143021252
+    },
+    {
+      "epoch": 0.4531590413943355,
+      "grad_norm": 0.3473367393016815,
+      "learning_rate": 0.0005999568705467161,
+      "loss": 2.5061607360839844,
+      "step": 988,
+      "token_acc": 0.4757011941127465
+    },
+    {
+      "epoch": 0.4536177043916982,
+      "grad_norm": 0.35125091671943665,
+      "learning_rate": 0.0005992290596222915,
+      "loss": 2.491511106491089,
+      "step": 989,
+      "token_acc": 0.47276874821785003
+    },
+    {
+      "epoch": 0.4540763673890609,
+      "grad_norm": 0.3731937110424042,
+      "learning_rate": 0.0005985010297615551,
+      "loss": 2.439743995666504,
+      "step": 990,
+      "token_acc": 0.47817571348628984
+    },
+    {
+      "epoch": 0.45453503038642357,
+      "grad_norm": 0.3528503179550171,
+      "learning_rate": 0.0005977727825708123,
+      "loss": 2.454152822494507,
+      "step": 991,
+      "token_acc": 0.4892241379310345
+    },
+    {
+      "epoch": 0.45499369338378626,
+      "grad_norm": 0.3317166864871979,
+      "learning_rate": 0.0005970443196568478,
+      "loss": 2.450331211090088,
+      "step": 992,
+      "token_acc": 0.47843028110214303
+    },
+    {
+      "epoch": 0.45545235638114895,
+      "grad_norm": 0.3358785808086395,
+      "learning_rate": 0.0005963156426269227,
+      "loss": 2.3701581954956055,
+      "step": 993,
+      "token_acc": 0.49142857142857144
+    },
+    {
+      "epoch": 0.45591101937851164,
+      "grad_norm": 0.3694034516811371,
+      "learning_rate": 0.0005955867530887702,
+      "loss": 2.3658673763275146,
+      "step": 994,
+      "token_acc": 0.48593570608495984
+    },
+    {
+      "epoch": 0.45636968237587433,
+      "grad_norm": 0.34595945477485657,
+      "learning_rate": 0.0005948576526505923,
+      "loss": 2.5859975814819336,
+      "step": 995,
+      "token_acc": 0.45198998051767325
+    },
+    {
+      "epoch": 0.456828345373237,
+      "grad_norm": 0.31480926275253296,
+      "learning_rate": 0.0005941283429210568,
+      "loss": 2.3866028785705566,
+      "step": 996,
+      "token_acc": 0.48652365236523654
+    },
+    {
+      "epoch": 0.4572870083705997,
+      "grad_norm": 0.3421134352684021,
+      "learning_rate": 0.0005933988255092926,
+      "loss": 2.4394278526306152,
+      "step": 997,
+      "token_acc": 0.4851016429963798
+    },
+    {
+      "epoch": 0.4577456713679624,
+      "grad_norm": 0.3342604339122772,
+      "learning_rate": 0.0005926691020248874,
+      "loss": 2.404801607131958,
+      "step": 998,
+      "token_acc": 0.4924078091106291
+    },
+    {
+      "epoch": 0.4582043343653251,
+      "grad_norm": 0.3156786561012268,
+      "learning_rate": 0.0005919391740778833,
+      "loss": 2.479769706726074,
+      "step": 999,
+      "token_acc": 0.4885089686098655
+    },
+    {
+      "epoch": 0.4586629973626878,
+      "grad_norm": 0.29661825299263,
+      "learning_rate": 0.0005912090432787736,
+      "loss": 2.445432186126709,
+      "step": 1000,
+      "token_acc": 0.48003237992444686
+    },
+    {
+      "epoch": 0.4591216603600505,
+      "grad_norm": 0.3442749083042145,
+      "learning_rate": 0.000590478711238499,
+      "loss": 2.41615891456604,
+      "step": 1001,
+      "token_acc": 0.4875105248386191
+    },
+    {
+      "epoch": 0.45958032335741317,
+      "grad_norm": 0.3256503641605377,
+      "learning_rate": 0.0005897481795684446,
+      "loss": 2.3316497802734375,
+      "step": 1002,
+      "token_acc": 0.49168710820387024
+    },
+    {
+      "epoch": 0.4600389863547758,
+      "grad_norm": 0.3349616825580597,
+      "learning_rate": 0.0005890174498804355,
+      "loss": 2.4228224754333496,
+      "step": 1003,
+      "token_acc": 0.4831654676258993
+    },
+    {
+      "epoch": 0.4604976493521385,
+      "grad_norm": 0.34556734561920166,
+      "learning_rate": 0.0005882865237867339,
+      "loss": 2.423893690109253,
+      "step": 1004,
+      "token_acc": 0.48902644907146875
+    },
+    {
+      "epoch": 0.4609563123495012,
+      "grad_norm": 0.4137331247329712,
+      "learning_rate": 0.0005875554029000353,
+      "loss": 2.452030897140503,
+      "step": 1005,
+      "token_acc": 0.47690058479532166
+    },
+    {
+      "epoch": 0.4614149753468639,
+      "grad_norm": 0.3454006314277649,
+      "learning_rate": 0.0005868240888334653,
+      "loss": 2.373958110809326,
+      "step": 1006,
+      "token_acc": 0.4797374429223744
+    },
+    {
+      "epoch": 0.46187363834422657,
+      "grad_norm": 0.329140841960907,
+      "learning_rate": 0.0005860925832005753,
+      "loss": 2.4558422565460205,
+      "step": 1007,
+      "token_acc": 0.47763666482606293
+    },
+    {
+      "epoch": 0.46233230134158926,
+      "grad_norm": 0.3699704706668854,
+      "learning_rate": 0.0005853608876153395,
+      "loss": 2.577507972717285,
+      "step": 1008,
+      "token_acc": 0.46685393258426966
+    },
+    {
+      "epoch": 0.46279096433895195,
+      "grad_norm": 0.34477072954177856,
+      "learning_rate": 0.0005846290036921512,
+      "loss": 2.482990264892578,
+      "step": 1009,
+      "token_acc": 0.4793506123611507
+    },
+    {
+      "epoch": 0.46324962733631464,
+      "grad_norm": 0.31239402294158936,
+      "learning_rate": 0.0005838969330458195,
+      "loss": 2.3712563514709473,
+      "step": 1010,
+      "token_acc": 0.495656894679696
+    },
+    {
+      "epoch": 0.46370829033367733,
+      "grad_norm": 0.33874261379241943,
+      "learning_rate": 0.0005831646772915651,
+      "loss": 2.3803796768188477,
+      "step": 1011,
+      "token_acc": 0.49074864787930544
+    },
+    {
+      "epoch": 0.46416695333104,
+      "grad_norm": 0.33902624249458313,
+      "learning_rate": 0.0005824322380450173,
+      "loss": 2.4005751609802246,
+      "step": 1012,
+      "token_acc": 0.49415121255349503
+    },
+    {
+      "epoch": 0.4646256163284027,
+      "grad_norm": 0.3395114541053772,
+      "learning_rate": 0.0005816996169222102,
+      "loss": 2.4865212440490723,
+      "step": 1013,
+      "token_acc": 0.4753103448275862
+    },
+    {
+      "epoch": 0.4650842793257654,
+      "grad_norm": 0.33902034163475037,
+      "learning_rate": 0.0005809668155395793,
+      "loss": 2.3996636867523193,
+      "step": 1014,
+      "token_acc": 0.4727223131478451
+    },
+    {
+      "epoch": 0.4655429423231281,
+      "grad_norm": 0.33806946873664856,
+      "learning_rate": 0.0005802338355139578,
+      "loss": 2.455397844314575,
+      "step": 1015,
+      "token_acc": 0.4745621351125938
+    },
+    {
+      "epoch": 0.4660016053204908,
+      "grad_norm": 0.34738317131996155,
+      "learning_rate": 0.0005795006784625728,
+      "loss": 2.458098888397217,
+      "step": 1016,
+      "token_acc": 0.47207409486387875
+    },
+    {
+      "epoch": 0.4664602683178535,
+      "grad_norm": 0.3442336618900299,
+      "learning_rate": 0.0005787673460030423,
+      "loss": 2.3759074211120605,
+      "step": 1017,
+      "token_acc": 0.4923830250272035
+    },
+    {
+      "epoch": 0.46691893131521617,
+      "grad_norm": 0.3158933222293854,
+      "learning_rate": 0.000578033839753371,
+      "loss": 2.360297679901123,
+      "step": 1018,
+      "token_acc": 0.49403275048570633
+    },
+    {
+      "epoch": 0.46737759431257886,
+      "grad_norm": 0.32228654623031616,
+      "learning_rate": 0.0005773001613319476,
+      "loss": 2.3978331089019775,
+      "step": 1019,
+      "token_acc": 0.4909040022390148
+    },
+    {
+      "epoch": 0.4678362573099415,
+      "grad_norm": 0.33429211378097534,
+      "learning_rate": 0.00057656631235754,
+      "loss": 2.371523857116699,
+      "step": 1020,
+      "token_acc": 0.49258160237388726
+    },
+    {
+      "epoch": 0.4682949203073042,
+      "grad_norm": 0.3515044152736664,
+      "learning_rate": 0.0005758322944492929,
+      "loss": 2.347036361694336,
+      "step": 1021,
+      "token_acc": 0.49098360655737705
+    },
+    {
+      "epoch": 0.4687535833046669,
+      "grad_norm": 0.357808917760849,
+      "learning_rate": 0.0005750981092267237,
+      "loss": 2.444075107574463,
+      "step": 1022,
+      "token_acc": 0.4902459711620017
+    },
+    {
+      "epoch": 0.46921224630202957,
+      "grad_norm": 0.3392980098724365,
+      "learning_rate": 0.0005743637583097183,
+      "loss": 2.449713706970215,
+      "step": 1023,
+      "token_acc": 0.4752099701977784
+    },
+    {
+      "epoch": 0.46967090929939226,
+      "grad_norm": 0.3264814019203186,
+      "learning_rate": 0.0005736292433185291,
+      "loss": 2.4923369884490967,
+      "step": 1024,
+      "token_acc": 0.4732989970181621
+    },
+    {
+      "epoch": 0.47012957229675495,
+      "grad_norm": 0.33561939001083374,
+      "learning_rate": 0.0005728945658737699,
+      "loss": 2.4607090950012207,
+      "step": 1025,
+      "token_acc": 0.48709315375982043
+    },
+    {
+      "epoch": 0.47058823529411764,
+      "grad_norm": 0.3192346394062042,
+      "learning_rate": 0.0005721597275964133,
+      "loss": 2.440065860748291,
+      "step": 1026,
+      "token_acc": 0.4822558459422283
+    },
+    {
+      "epoch": 0.47104689829148033,
+      "grad_norm": 0.3238941431045532,
+      "learning_rate": 0.0005714247301077865,
+      "loss": 2.3831427097320557,
+      "step": 1027,
+      "token_acc": 0.4832466782206817
+    },
+    {
+      "epoch": 0.471505561288843,
+      "grad_norm": 0.33817458152770996,
+      "learning_rate": 0.0005706895750295682,
+      "loss": 2.368861198425293,
+      "step": 1028,
+      "token_acc": 0.49564032697547683
+    },
+    {
+      "epoch": 0.4719642242862057,
+      "grad_norm": 0.3244694471359253,
+      "learning_rate": 0.0005699542639837844,
+      "loss": 2.407780170440674,
+      "step": 1029,
+      "token_acc": 0.48732394366197185
+    },
+    {
+      "epoch": 0.4724228872835684,
+      "grad_norm": 0.3364354372024536,
+      "learning_rate": 0.0005692187985928055,
+      "loss": 2.399700164794922,
+      "step": 1030,
+      "token_acc": 0.4833948339483395
+    },
+    {
+      "epoch": 0.4728815502809311,
+      "grad_norm": 0.33582353591918945,
+      "learning_rate": 0.0005684831804793427,
+      "loss": 2.411986827850342,
+      "step": 1031,
+      "token_acc": 0.47955801104972373
+    },
+    {
+      "epoch": 0.4733402132782938,
+      "grad_norm": 0.3348402976989746,
+      "learning_rate": 0.0005677474112664438,
+      "loss": 2.3370702266693115,
+      "step": 1032,
+      "token_acc": 0.493181185638742
+    },
+    {
+      "epoch": 0.4737988762756565,
+      "grad_norm": 0.3559878468513489,
+      "learning_rate": 0.0005670114925774899,
+      "loss": 2.3192803859710693,
+      "step": 1033,
+      "token_acc": 0.4977077363896848
+    },
+    {
+      "epoch": 0.47425753927301917,
+      "grad_norm": 0.34823668003082275,
+      "learning_rate": 0.0005662754260361924,
+      "loss": 2.3438594341278076,
+      "step": 1034,
+      "token_acc": 0.4914219249781913
+    },
+    {
+      "epoch": 0.47471620227038186,
+      "grad_norm": 0.3399074077606201,
+      "learning_rate": 0.0005655392132665884,
+      "loss": 2.5112931728363037,
+      "step": 1035,
+      "token_acc": 0.46277331857182397
+    },
+    {
+      "epoch": 0.47517486526774455,
+      "grad_norm": 0.3259490132331848,
+      "learning_rate": 0.000564802855893038,
+      "loss": 2.3919918537139893,
+      "step": 1036,
+      "token_acc": 0.49186307519640854
+    },
+    {
+      "epoch": 0.4756335282651072,
+      "grad_norm": 0.3413908779621124,
+      "learning_rate": 0.0005640663555402198,
+      "loss": 2.3987250328063965,
+      "step": 1037,
+      "token_acc": 0.48070965925091524
+    },
+    {
+      "epoch": 0.4760921912624699,
+      "grad_norm": 0.3317534029483795,
+      "learning_rate": 0.0005633297138331285,
+      "loss": 2.5099992752075195,
+      "step": 1038,
+      "token_acc": 0.4763363028953229
+    },
+    {
+      "epoch": 0.47655085425983257,
+      "grad_norm": 0.3492196202278137,
+      "learning_rate": 0.0005625929323970705,
+      "loss": 2.38262677192688,
+      "step": 1039,
+      "token_acc": 0.4851598173515982
+    },
+    {
+      "epoch": 0.47700951725719526,
+      "grad_norm": 0.36115118861198425,
+      "learning_rate": 0.0005618560128576603,
+      "loss": 2.393599271774292,
+      "step": 1040,
+      "token_acc": 0.49730861244019137
+    },
+    {
+      "epoch": 0.47746818025455795,
+      "grad_norm": 0.32989412546157837,
+      "learning_rate": 0.0005611189568408173,
+      "loss": 2.4507246017456055,
+      "step": 1041,
+      "token_acc": 0.4850516904163174
+    },
+    {
+      "epoch": 0.47792684325192064,
+      "grad_norm": 0.33683207631111145,
+      "learning_rate": 0.0005603817659727619,
+      "loss": 2.359201431274414,
+      "step": 1042,
+      "token_acc": 0.5025787965616045
+    },
+    {
+      "epoch": 0.47838550624928333,
+      "grad_norm": 0.3617542088031769,
+      "learning_rate": 0.0005596444418800121,
+      "loss": 2.4225053787231445,
+      "step": 1043,
+      "token_acc": 0.48343023255813955
+    },
+    {
+      "epoch": 0.478844169246646,
+      "grad_norm": 0.3595106899738312,
+      "learning_rate": 0.0005589069861893798,
+      "loss": 2.425480365753174,
+      "step": 1044,
+      "token_acc": 0.47615062761506277
+    },
+    {
+      "epoch": 0.4793028322440087,
+      "grad_norm": 0.34402987360954285,
+      "learning_rate": 0.0005581694005279673,
+      "loss": 2.360713005065918,
+      "step": 1045,
+      "token_acc": 0.4936708860759494
+    },
+    {
+      "epoch": 0.4797614952413714,
+      "grad_norm": 0.3361959755420685,
+      "learning_rate": 0.0005574316865231637,
+      "loss": 2.438472032546997,
+      "step": 1046,
+      "token_acc": 0.48027210884353744
+    },
+    {
+      "epoch": 0.4802201582387341,
+      "grad_norm": 0.32732275128364563,
+      "learning_rate": 0.0005566938458026411,
+      "loss": 2.4174818992614746,
+      "step": 1047,
+      "token_acc": 0.4888399007991182
+    },
+    {
+      "epoch": 0.4806788212360968,
+      "grad_norm": 0.34317103028297424,
+      "learning_rate": 0.0005559558799943514,
+      "loss": 2.6050045490264893,
+      "step": 1048,
+      "token_acc": 0.4473832301631964
+    },
+    {
+      "epoch": 0.4811374842334595,
+      "grad_norm": 0.32789745926856995,
+      "learning_rate": 0.0005552177907265223,
+      "loss": 2.4361064434051514,
+      "step": 1049,
+      "token_acc": 0.47862029646522236
+    },
+    {
+      "epoch": 0.48159614723082217,
+      "grad_norm": 0.3215622007846832,
+      "learning_rate": 0.000554479579627654,
+      "loss": 2.5022668838500977,
+      "step": 1050,
+      "token_acc": 0.47944459569833925
+    },
+    {
+      "epoch": 0.48205481022818486,
+      "grad_norm": 0.33123335242271423,
+      "learning_rate": 0.0005537412483265157,
+      "loss": 2.4255118370056152,
+      "step": 1051,
+      "token_acc": 0.4737283398546674
+    },
+    {
+      "epoch": 0.48251347322554755,
+      "grad_norm": 0.32435300946235657,
+      "learning_rate": 0.0005530027984521413,
+      "loss": 2.346541404724121,
+      "step": 1052,
+      "token_acc": 0.4908675799086758
+    },
+    {
+      "epoch": 0.48297213622291024,
+      "grad_norm": 0.3296109139919281,
+      "learning_rate": 0.0005522642316338268,
+      "loss": 2.412287712097168,
+      "step": 1053,
+      "token_acc": 0.49831365935919053
+    },
+    {
+      "epoch": 0.4834307992202729,
+      "grad_norm": 0.3388538956642151,
+      "learning_rate": 0.0005515255495011259,
+      "loss": 2.5202436447143555,
+      "step": 1054,
+      "token_acc": 0.4656225112821874
+    },
+    {
+      "epoch": 0.48388946221763557,
+      "grad_norm": 0.3018677532672882,
+      "learning_rate": 0.0005507867536838472,
+      "loss": 2.3805348873138428,
+      "step": 1055,
+      "token_acc": 0.4826637314254265
+    },
+    {
+      "epoch": 0.48434812521499826,
+      "grad_norm": 0.32990387082099915,
+      "learning_rate": 0.0005500478458120492,
+      "loss": 2.4735240936279297,
+      "step": 1056,
+      "token_acc": 0.4664042732639865
+    },
+    {
+      "epoch": 0.48480678821236095,
+      "grad_norm": 0.3313564956188202,
+      "learning_rate": 0.0005493088275160387,
+      "loss": 2.407567262649536,
+      "step": 1057,
+      "token_acc": 0.48750343312276845
+    },
+    {
+      "epoch": 0.48526545120972364,
+      "grad_norm": 0.3240385055541992,
+      "learning_rate": 0.0005485697004263657,
+      "loss": 2.290937900543213,
+      "step": 1058,
+      "token_acc": 0.5081788440567067
+    },
+    {
+      "epoch": 0.48572411420708633,
+      "grad_norm": 0.33478209376335144,
+      "learning_rate": 0.0005478304661738199,
+      "loss": 2.42073392868042,
+      "step": 1059,
+      "token_acc": 0.4802594472645234
+    },
+    {
+      "epoch": 0.486182777204449,
+      "grad_norm": 0.32933369278907776,
+      "learning_rate": 0.0005470911263894279,
+      "loss": 2.5758726596832275,
+      "step": 1060,
+      "token_acc": 0.4616797900262467
+    },
+    {
+      "epoch": 0.4866414402018117,
+      "grad_norm": 0.3320506513118744,
+      "learning_rate": 0.0005463516827044491,
+      "loss": 2.4362080097198486,
+      "step": 1061,
+      "token_acc": 0.4764872521246459
+    },
+    {
+      "epoch": 0.4871001031991744,
+      "grad_norm": 0.335260272026062,
+      "learning_rate": 0.000545612136750372,
+      "loss": 2.511855125427246,
+      "step": 1062,
+      "token_acc": 0.46317777178311303
+    },
+    {
+      "epoch": 0.4875587661965371,
+      "grad_norm": 0.37047451734542847,
+      "learning_rate": 0.0005448724901589107,
+      "loss": 2.398721218109131,
+      "step": 1063,
+      "token_acc": 0.49843616718794426
+    },
+    {
+      "epoch": 0.4880174291938998,
+      "grad_norm": 0.324935644865036,
+      "learning_rate": 0.0005441327445620014,
+      "loss": 2.425210475921631,
+      "step": 1064,
+      "token_acc": 0.47744565217391305
+    },
+    {
+      "epoch": 0.4884760921912625,
+      "grad_norm": 0.3297592103481293,
+      "learning_rate": 0.0005433929015917988,
+      "loss": 2.3968043327331543,
+      "step": 1065,
+      "token_acc": 0.5012427506213754
+    },
+    {
+      "epoch": 0.48893475518862517,
+      "grad_norm": 0.3302333950996399,
+      "learning_rate": 0.0005426529628806724,
+      "loss": 2.4790163040161133,
+      "step": 1066,
+      "token_acc": 0.47749787715822245
+    },
+    {
+      "epoch": 0.48939341818598786,
+      "grad_norm": 0.3386436402797699,
+      "learning_rate": 0.0005419129300612029,
+      "loss": 2.4709956645965576,
+      "step": 1067,
+      "token_acc": 0.4834307992202729
+    },
+    {
+      "epoch": 0.48985208118335055,
+      "grad_norm": 0.34865912795066833,
+      "learning_rate": 0.000541172804766179,
+      "loss": 2.3381505012512207,
+      "step": 1068,
+      "token_acc": 0.4957836580401279
+    },
+    {
+      "epoch": 0.49031074418071324,
+      "grad_norm": 0.35883861780166626,
+      "learning_rate": 0.0005404325886285927,
+      "loss": 2.4133496284484863,
+      "step": 1069,
+      "token_acc": 0.4812849162011173
+    },
+    {
+      "epoch": 0.49076940717807593,
+      "grad_norm": 0.3391292691230774,
+      "learning_rate": 0.000539692283281637,
+      "loss": 2.5826239585876465,
+      "step": 1070,
+      "token_acc": 0.4725149530048419
+    },
+    {
+      "epoch": 0.49122807017543857,
+      "grad_norm": 0.336113303899765,
+      "learning_rate": 0.0005389518903587017,
+      "loss": 2.361985206604004,
+      "step": 1071,
+      "token_acc": 0.487510293713972
+    },
+    {
+      "epoch": 0.49168673317280126,
+      "grad_norm": 0.3300612270832062,
+      "learning_rate": 0.0005382114114933695,
+      "loss": 2.427905559539795,
+      "step": 1072,
+      "token_acc": 0.48468271334792123
+    },
+    {
+      "epoch": 0.49214539617016395,
+      "grad_norm": 0.3479423522949219,
+      "learning_rate": 0.0005374708483194132,
+      "loss": 2.4896979331970215,
+      "step": 1073,
+      "token_acc": 0.474931129476584
+    },
+    {
+      "epoch": 0.49260405916752664,
+      "grad_norm": 0.329458624124527,
+      "learning_rate": 0.000536730202470791,
+      "loss": 2.4164018630981445,
+      "step": 1074,
+      "token_acc": 0.4799335732078605
+    },
+    {
+      "epoch": 0.49306272216488933,
+      "grad_norm": 0.3301466107368469,
+      "learning_rate": 0.0005359894755816443,
+      "loss": 2.445589065551758,
+      "step": 1075,
+      "token_acc": 0.4860766473669699
+    },
+    {
+      "epoch": 0.493521385162252,
+      "grad_norm": 0.3187168538570404,
+      "learning_rate": 0.0005352486692862926,
+      "loss": 2.2914156913757324,
+      "step": 1076,
+      "token_acc": 0.5083262771662433
+    },
+    {
+      "epoch": 0.4939800481596147,
+      "grad_norm": 0.31797054409980774,
+      "learning_rate": 0.0005345077852192307,
+      "loss": 2.4282703399658203,
+      "step": 1077,
+      "token_acc": 0.4802103515084417
+    },
+    {
+      "epoch": 0.4944387111569774,
+      "grad_norm": 0.3418867290019989,
+      "learning_rate": 0.0005337668250151254,
+      "loss": 2.4379050731658936,
+      "step": 1078,
+      "token_acc": 0.4807121661721068
+    },
+    {
+      "epoch": 0.4948973741543401,
+      "grad_norm": 0.32624971866607666,
+      "learning_rate": 0.0005330257903088111,
+      "loss": 2.3572804927825928,
+      "step": 1079,
+      "token_acc": 0.48368953880764903
+    },
+    {
+      "epoch": 0.4953560371517028,
+      "grad_norm": 0.3312455713748932,
+      "learning_rate": 0.000532284682735287,
+      "loss": 2.529306411743164,
+      "step": 1080,
+      "token_acc": 0.4656319290465632
+    },
+    {
+      "epoch": 0.4958147001490655,
+      "grad_norm": 0.32542479038238525,
+      "learning_rate": 0.0005315435039297124,
+      "loss": 2.324214458465576,
+      "step": 1081,
+      "token_acc": 0.49691358024691357
+    },
+    {
+      "epoch": 0.49627336314642817,
+      "grad_norm": 0.3355901837348938,
+      "learning_rate": 0.0005308022555274046,
+      "loss": 2.4528372287750244,
+      "step": 1082,
+      "token_acc": 0.482236298540347
+    },
+    {
+      "epoch": 0.49673202614379086,
+      "grad_norm": 0.3346751034259796,
+      "learning_rate": 0.0005300609391638336,
+      "loss": 2.360931396484375,
+      "step": 1083,
+      "token_acc": 0.488988012266518
+    },
+    {
+      "epoch": 0.49719068914115355,
+      "grad_norm": 0.35198917984962463,
+      "learning_rate": 0.0005293195564746201,
+      "loss": 2.3942272663116455,
+      "step": 1084,
+      "token_acc": 0.4949467358645179
+    },
+    {
+      "epoch": 0.49764935213851624,
+      "grad_norm": 0.34621474146842957,
+      "learning_rate": 0.0005285781090955304,
+      "loss": 2.3291893005371094,
+      "step": 1085,
+      "token_acc": 0.5066371681415929
+    },
+    {
+      "epoch": 0.49810801513587893,
+      "grad_norm": 0.33755236864089966,
+      "learning_rate": 0.0005278365986624743,
+      "loss": 2.439788818359375,
+      "step": 1086,
+      "token_acc": 0.47704918032786886
+    },
+    {
+      "epoch": 0.4985666781332416,
+      "grad_norm": 0.35278841853141785,
+      "learning_rate": 0.0005270950268115001,
+      "loss": 2.593384027481079,
+      "step": 1087,
+      "token_acc": 0.4671951886276654
+    },
+    {
+      "epoch": 0.49902534113060426,
+      "grad_norm": 0.3408758342266083,
+      "learning_rate": 0.0005263533951787919,
+      "loss": 2.4258551597595215,
+      "step": 1088,
+      "token_acc": 0.4835042971998891
+    },
+    {
+      "epoch": 0.49948400412796695,
+      "grad_norm": 0.3320996165275574,
+      "learning_rate": 0.000525611705400666,
+      "loss": 2.4968271255493164,
+      "step": 1089,
+      "token_acc": 0.4768802228412256
+    },
+    {
+      "epoch": 0.49994266712532964,
+      "grad_norm": 0.3367486894130707,
+      "learning_rate": 0.0005248699591135664,
+      "loss": 2.286149501800537,
+      "step": 1090,
+      "token_acc": 0.5071649339702163
+    },
+    {
+      "epoch": 0.5004013301226924,
+      "grad_norm": 0.3450912833213806,
+      "learning_rate": 0.0005241281579540618,
+      "loss": 2.4291186332702637,
+      "step": 1091,
+      "token_acc": 0.4733405875952122
+    },
+    {
+      "epoch": 0.500859993120055,
+      "grad_norm": 0.3453631103038788,
+      "learning_rate": 0.0005233863035588427,
+      "loss": 2.4479312896728516,
+      "step": 1092,
+      "token_acc": 0.48976109215017066
+    },
+    {
+      "epoch": 0.5013186561174178,
+      "grad_norm": 0.3599177896976471,
+      "learning_rate": 0.0005226443975647161,
+      "loss": 2.4232516288757324,
+      "step": 1093,
+      "token_acc": 0.47461430575035063
+    },
+    {
+      "epoch": 0.5017773191147804,
+      "grad_norm": 0.32832807302474976,
+      "learning_rate": 0.0005219024416086036,
+      "loss": 2.433030843734741,
+      "step": 1094,
+      "token_acc": 0.49158249158249157
+    },
+    {
+      "epoch": 0.5022359821121432,
+      "grad_norm": 0.3214716613292694,
+      "learning_rate": 0.0005211604373275366,
+      "loss": 2.339202642440796,
+      "step": 1095,
+      "token_acc": 0.4827113062568606
+    },
+    {
+      "epoch": 0.5026946451095058,
+      "grad_norm": 0.35019397735595703,
+      "learning_rate": 0.0005204183863586533,
+      "loss": 2.3227591514587402,
+      "step": 1096,
+      "token_acc": 0.5
+    },
+    {
+      "epoch": 0.5031533081068684,
+      "grad_norm": 0.3759554326534271,
+      "learning_rate": 0.0005196762903391951,
+      "loss": 2.4995455741882324,
+      "step": 1097,
+      "token_acc": 0.49015748031496065
+    },
+    {
+      "epoch": 0.5036119711042312,
+      "grad_norm": 0.3440718948841095,
+      "learning_rate": 0.0005189341509065023,
+      "loss": 2.416973114013672,
+      "step": 1098,
+      "token_acc": 0.4879416713404375
+    },
+    {
+      "epoch": 0.5040706341015938,
+      "grad_norm": 0.34332475066185,
+      "learning_rate": 0.0005181919696980112,
+      "loss": 2.380890369415283,
+      "step": 1099,
+      "token_acc": 0.49177180471749865
+    },
+    {
+      "epoch": 0.5045292970989566,
+      "grad_norm": 0.3551151752471924,
+      "learning_rate": 0.0005174497483512506,
+      "loss": 2.435117721557617,
+      "step": 1100,
+      "token_acc": 0.4823855755894591
+    },
+    {
+      "epoch": 0.5049879600963192,
+      "grad_norm": 0.33621078729629517,
+      "learning_rate": 0.0005167074885038374,
+      "loss": 2.4811482429504395,
+      "step": 1101,
+      "token_acc": 0.4754477180820335
+    },
+    {
+      "epoch": 0.5054466230936819,
+      "grad_norm": 0.3153240978717804,
+      "learning_rate": 0.0005159651917934735,
+      "loss": 2.4260976314544678,
+      "step": 1102,
+      "token_acc": 0.48425509394019584
+    },
+    {
+      "epoch": 0.5059052860910446,
+      "grad_norm": 0.3622584640979767,
+      "learning_rate": 0.0005152228598579428,
+      "loss": 2.5205609798431396,
+      "step": 1103,
+      "token_acc": 0.4617493830545654
+    },
+    {
+      "epoch": 0.5063639490884073,
+      "grad_norm": 0.3550475537776947,
+      "learning_rate": 0.000514480494335106,
+      "loss": 2.5086865425109863,
+      "step": 1104,
+      "token_acc": 0.47497971328103866
+    },
+    {
+      "epoch": 0.50682261208577,
+      "grad_norm": 0.35856547951698303,
+      "learning_rate": 0.0005137380968628983,
+      "loss": 2.3257954120635986,
+      "step": 1105,
+      "token_acc": 0.5087719298245614
+    },
+    {
+      "epoch": 0.5072812750831327,
+      "grad_norm": 0.30771002173423767,
+      "learning_rate": 0.0005129956690793255,
+      "loss": 2.2821130752563477,
+      "step": 1106,
+      "token_acc": 0.5070232306861157
+    },
+    {
+      "epoch": 0.5077399380804953,
+      "grad_norm": 0.3454776704311371,
+      "learning_rate": 0.0005122532126224601,
+      "loss": 2.390139102935791,
+      "step": 1107,
+      "token_acc": 0.4982311320754717
+    },
+    {
+      "epoch": 0.5081986010778581,
+      "grad_norm": 0.3795795738697052,
+      "learning_rate": 0.0005115107291304378,
+      "loss": 2.451512336730957,
+      "step": 1108,
+      "token_acc": 0.4879500992344769
+    },
+    {
+      "epoch": 0.5086572640752207,
+      "grad_norm": 0.39156875014305115,
+      "learning_rate": 0.0005107682202414544,
+      "loss": 2.408329486846924,
+      "step": 1109,
+      "token_acc": 0.4911000875401226
+    },
+    {
+      "epoch": 0.5091159270725835,
+      "grad_norm": 0.3682164251804352,
+      "learning_rate": 0.0005100256875937613,
+      "loss": 2.4317450523376465,
+      "step": 1110,
+      "token_acc": 0.478105205177637
+    },
+    {
+      "epoch": 0.5095745900699461,
+      "grad_norm": 0.3569280505180359,
+      "learning_rate": 0.0005092831328256625,
+      "loss": 2.524905204772949,
+      "step": 1111,
+      "token_acc": 0.47758171825282036
+    },
+    {
+      "epoch": 0.5100332530673088,
+      "grad_norm": 0.34403684735298157,
+      "learning_rate": 0.0005085405575755105,
+      "loss": 2.4356486797332764,
+      "step": 1112,
+      "token_acc": 0.47552836484983313
+    },
+    {
+      "epoch": 0.5104919160646715,
+      "grad_norm": 0.3341377079486847,
+      "learning_rate": 0.0005077979634817034,
+      "loss": 2.4401259422302246,
+      "step": 1113,
+      "token_acc": 0.4722521551724138
+    },
+    {
+      "epoch": 0.5109505790620341,
+      "grad_norm": 0.333383172750473,
+      "learning_rate": 0.0005070553521826808,
+      "loss": 2.410233736038208,
+      "step": 1114,
+      "token_acc": 0.4910061832490163
+    },
+    {
+      "epoch": 0.5114092420593969,
+      "grad_norm": 0.3366769850254059,
+      "learning_rate": 0.00050631272531692,
+      "loss": 2.4345555305480957,
+      "step": 1115,
+      "token_acc": 0.48586956521739133
+    },
+    {
+      "epoch": 0.5118679050567595,
+      "grad_norm": 0.3316477835178375,
+      "learning_rate": 0.0005055700845229327,
+      "loss": 2.316999673843384,
+      "step": 1116,
+      "token_acc": 0.5039498774175973
+    },
+    {
+      "epoch": 0.5123265680541222,
+      "grad_norm": 0.3418847322463989,
+      "learning_rate": 0.000504827431439262,
+      "loss": 2.3524749279022217,
+      "step": 1117,
+      "token_acc": 0.4833150984682713
+    },
+    {
+      "epoch": 0.5127852310514849,
+      "grad_norm": 0.3334941565990448,
+      "learning_rate": 0.000504084767704477,
+      "loss": 2.406768798828125,
+      "step": 1118,
+      "token_acc": 0.4909240924092409
+    },
+    {
+      "epoch": 0.5132438940488476,
+      "grad_norm": 0.3574877083301544,
+      "learning_rate": 0.0005033420949571712,
+      "loss": 2.3923702239990234,
+      "step": 1119,
+      "token_acc": 0.4919148936170213
+    },
+    {
+      "epoch": 0.5137025570462103,
+      "grad_norm": 0.3600635826587677,
+      "learning_rate": 0.0005025994148359574,
+      "loss": 2.413276195526123,
+      "step": 1120,
+      "token_acc": 0.4940689655172414
+    },
+    {
+      "epoch": 0.514161220043573,
+      "grad_norm": 0.40777724981307983,
+      "learning_rate": 0.0005018567289794651,
+      "loss": 2.3796286582946777,
+      "step": 1121,
+      "token_acc": 0.4880517289850998
+    },
+    {
+      "epoch": 0.5146198830409356,
+      "grad_norm": 0.3608115017414093,
+      "learning_rate": 0.0005011140390263362,
+      "loss": 2.5886900424957275,
+      "step": 1122,
+      "token_acc": 0.46668556847178905
+    },
+    {
+      "epoch": 0.5150785460382984,
+      "grad_norm": 0.3360042870044708,
+      "learning_rate": 0.0005003713466152218,
+      "loss": 2.4352781772613525,
+      "step": 1123,
+      "token_acc": 0.48703494926719276
+    },
+    {
+      "epoch": 0.515537209035661,
+      "grad_norm": 0.340364933013916,
+      "learning_rate": 0.0004996286533847783,
+      "loss": 2.4607863426208496,
+      "step": 1124,
+      "token_acc": 0.4779286926994907
+    },
+    {
+      "epoch": 0.5159958720330238,
+      "grad_norm": 0.33719268441200256,
+      "learning_rate": 0.000498885960973664,
+      "loss": 2.445991039276123,
+      "step": 1125,
+      "token_acc": 0.4788051209103841
+    },
+    {
+      "epoch": 0.5164545350303864,
+      "grad_norm": 0.3265194594860077,
+      "learning_rate": 0.000498143271020535,
+      "loss": 2.3077054023742676,
+      "step": 1126,
+      "token_acc": 0.5016816143497758
+    },
+    {
+      "epoch": 0.5169131980277492,
+      "grad_norm": 0.32916203141212463,
+      "learning_rate": 0.0004974005851640428,
+      "loss": 2.390383720397949,
+      "step": 1127,
+      "token_acc": 0.48333333333333334
+    },
+    {
+      "epoch": 0.5173718610251118,
+      "grad_norm": 0.32733115553855896,
+      "learning_rate": 0.000496657905042829,
+      "loss": 2.315228223800659,
+      "step": 1128,
+      "token_acc": 0.49757412398921835
+    },
+    {
+      "epoch": 0.5178305240224745,
+      "grad_norm": 0.32467636466026306,
+      "learning_rate": 0.0004959152322955232,
+      "loss": 2.3158915042877197,
+      "step": 1129,
+      "token_acc": 0.5045558086560364
+    },
+    {
+      "epoch": 0.5182891870198372,
+      "grad_norm": 0.34765079617500305,
+      "learning_rate": 0.0004951725685607382,
+      "loss": 2.3778843879699707,
+      "step": 1130,
+      "token_acc": 0.5017311021350259
+    },
+    {
+      "epoch": 0.5187478500171998,
+      "grad_norm": 0.34203100204467773,
+      "learning_rate": 0.0004944299154770673,
+      "loss": 2.4137463569641113,
+      "step": 1131,
+      "token_acc": 0.4881384314819983
+    },
+    {
+      "epoch": 0.5192065130145626,
+      "grad_norm": 0.3279170095920563,
+      "learning_rate": 0.0004936872746830802,
+      "loss": 2.362159252166748,
+      "step": 1132,
+      "token_acc": 0.4963235294117647
+    },
+    {
+      "epoch": 0.5196651760119252,
+      "grad_norm": 0.3384300470352173,
+      "learning_rate": 0.0004929446478173195,
+      "loss": 2.4761362075805664,
+      "step": 1133,
+      "token_acc": 0.4739538855678907
+    },
+    {
+      "epoch": 0.5201238390092879,
+      "grad_norm": 0.36615675687789917,
+      "learning_rate": 0.0004922020365182968,
+      "loss": 2.4490060806274414,
+      "step": 1134,
+      "token_acc": 0.48009814612868046
+    },
+    {
+      "epoch": 0.5205825020066506,
+      "grad_norm": 0.3447256088256836,
+      "learning_rate": 0.0004914594424244897,
+      "loss": 2.303192615509033,
+      "step": 1135,
+      "token_acc": 0.49168577981651373
+    },
+    {
+      "epoch": 0.5210411650040133,
+      "grad_norm": 0.3317548334598541,
+      "learning_rate": 0.0004907168671743376,
+      "loss": 2.352898597717285,
+      "step": 1136,
+      "token_acc": 0.4829592684954281
+    },
+    {
+      "epoch": 0.521499828001376,
+      "grad_norm": 0.3226662278175354,
+      "learning_rate": 0.0004899743124062387,
+      "loss": 2.3910703659057617,
+      "step": 1137,
+      "token_acc": 0.4963439602222872
+    },
+    {
+      "epoch": 0.5219584909987387,
+      "grad_norm": 0.35412389039993286,
+      "learning_rate": 0.0004892317797585456,
+      "loss": 2.3865818977355957,
+      "step": 1138,
+      "token_acc": 0.47891477440283103
+    },
+    {
+      "epoch": 0.5224171539961013,
+      "grad_norm": 0.3400334119796753,
+      "learning_rate": 0.0004884892708695623,
+      "loss": 2.402967929840088,
+      "step": 1139,
+      "token_acc": 0.4840571742715778
+    },
+    {
+      "epoch": 0.5228758169934641,
+      "grad_norm": 0.35869327187538147,
+      "learning_rate": 0.0004877467873775402,
+      "loss": 2.3753623962402344,
+      "step": 1140,
+      "token_acc": 0.4805194805194805
+    },
+    {
+      "epoch": 0.5233344799908267,
+      "grad_norm": 0.3550738990306854,
+      "learning_rate": 0.00048700433092067473,
+      "loss": 2.461761713027954,
+      "step": 1141,
+      "token_acc": 0.4692799555184876
+    },
+    {
+      "epoch": 0.5237931429881895,
+      "grad_norm": 0.3442990481853485,
+      "learning_rate": 0.0004862619031371019,
+      "loss": 2.5074462890625,
+      "step": 1142,
+      "token_acc": 0.4722601803771522
+    },
+    {
+      "epoch": 0.5242518059855521,
+      "grad_norm": 0.33896327018737793,
+      "learning_rate": 0.0004855195056648942,
+      "loss": 2.4313061237335205,
+      "step": 1143,
+      "token_acc": 0.47838452787258245
+    },
+    {
+      "epoch": 0.5247104689829148,
+      "grad_norm": 0.35044485330581665,
+      "learning_rate": 0.00048477714014205734,
+      "loss": 2.3428125381469727,
+      "step": 1144,
+      "token_acc": 0.502405887347863
+    },
+    {
+      "epoch": 0.5251691319802775,
+      "grad_norm": 0.3287457227706909,
+      "learning_rate": 0.00048403480820652644,
+      "loss": 2.534541368484497,
+      "step": 1145,
+      "token_acc": 0.473627265350284
+    },
+    {
+      "epoch": 0.5256277949776402,
+      "grad_norm": 0.3308694660663605,
+      "learning_rate": 0.0004832925114961629,
+      "loss": 2.4820892810821533,
+      "step": 1146,
+      "token_acc": 0.4688763136620857
+    },
+    {
+      "epoch": 0.5260864579750029,
+      "grad_norm": 0.3306020200252533,
+      "learning_rate": 0.0004825502516487497,
+      "loss": 2.4575061798095703,
+      "step": 1147,
+      "token_acc": 0.48015122873345933
+    },
+    {
+      "epoch": 0.5265451209723655,
+      "grad_norm": 0.34184855222702026,
+      "learning_rate": 0.00048180803030198896,
+      "loss": 2.327465534210205,
+      "step": 1148,
+      "token_acc": 0.49110218140068884
+    },
+    {
+      "epoch": 0.5270037839697282,
+      "grad_norm": 0.34381648898124695,
+      "learning_rate": 0.0004810658490934979,
+      "loss": 2.501997470855713,
+      "step": 1149,
+      "token_acc": 0.4646520654283338
+    },
+    {
+      "epoch": 0.5274624469670909,
+      "grad_norm": 0.3188355267047882,
+      "learning_rate": 0.000480323709660805,
+      "loss": 2.3701171875,
+      "step": 1150,
+      "token_acc": 0.4954545454545455
+    },
+    {
+      "epoch": 0.5279211099644536,
+      "grad_norm": 0.33658087253570557,
+      "learning_rate": 0.0004795816136413467,
+      "loss": 2.4738900661468506,
+      "step": 1151,
+      "token_acc": 0.4801214798453893
+    },
+    {
+      "epoch": 0.5283797729618163,
+      "grad_norm": 0.31893256306648254,
+      "learning_rate": 0.00047883956267246353,
+      "loss": 2.3847813606262207,
+      "step": 1152,
+      "token_acc": 0.48894416804864566
+    },
+    {
+      "epoch": 0.528838435959179,
+      "grad_norm": 0.3229241371154785,
+      "learning_rate": 0.00047809755839139657,
+      "loss": 2.472221612930298,
+      "step": 1153,
+      "token_acc": 0.47794117647058826
+    },
+    {
+      "epoch": 0.5292970989565416,
+      "grad_norm": 0.32646888494491577,
+      "learning_rate": 0.0004773556024352841,
+      "loss": 2.3489205837249756,
+      "step": 1154,
+      "token_acc": 0.4976237070170534
+    },
+    {
+      "epoch": 0.5297557619539044,
+      "grad_norm": 0.33190491795539856,
+      "learning_rate": 0.00047661369644115754,
+      "loss": 2.475804090499878,
+      "step": 1155,
+      "token_acc": 0.48379825302902224
+    },
+    {
+      "epoch": 0.530214424951267,
+      "grad_norm": 0.3360702395439148,
+      "learning_rate": 0.0004758718420459383,
+      "loss": 2.386568546295166,
+      "step": 1156,
+      "token_acc": 0.4808970099667774
+    },
+    {
+      "epoch": 0.5306730879486298,
+      "grad_norm": 0.3379148244857788,
+      "learning_rate": 0.0004751300408864339,
+      "loss": 2.473959445953369,
+      "step": 1157,
+      "token_acc": 0.461453133666112
+    },
+    {
+      "epoch": 0.5311317509459924,
+      "grad_norm": 0.33049795031547546,
+      "learning_rate": 0.00047438829459933414,
+      "loss": 2.4235637187957764,
+      "step": 1158,
+      "token_acc": 0.4767378215654078
+    },
+    {
+      "epoch": 0.5315904139433552,
+      "grad_norm": 0.34790948033332825,
+      "learning_rate": 0.0004736466048212082,
+      "loss": 2.379197597503662,
+      "step": 1159,
+      "token_acc": 0.4871350101185314
+    },
+    {
+      "epoch": 0.5320490769407178,
+      "grad_norm": 0.33067309856414795,
+      "learning_rate": 0.0004729049731885002,
+      "loss": 2.411355495452881,
+      "step": 1160,
+      "token_acc": 0.48043906557838445
+    },
+    {
+      "epoch": 0.5325077399380805,
+      "grad_norm": 0.3278982937335968,
+      "learning_rate": 0.000472163401337526,
+      "loss": 2.3604488372802734,
+      "step": 1161,
+      "token_acc": 0.48992725237828766
+    },
+    {
+      "epoch": 0.5329664029354432,
+      "grad_norm": 0.3469405472278595,
+      "learning_rate": 0.00047142189090446985,
+      "loss": 2.4109301567077637,
+      "step": 1162,
+      "token_acc": 0.48941647597254007
+    },
+    {
+      "epoch": 0.5334250659328059,
+      "grad_norm": 0.32905158400535583,
+      "learning_rate": 0.0004706804435253802,
+      "loss": 2.294856071472168,
+      "step": 1163,
+      "token_acc": 0.4949021769082392
+    },
+    {
+      "epoch": 0.5338837289301686,
+      "grad_norm": 0.33145490288734436,
+      "learning_rate": 0.0004699390608361665,
+      "loss": 2.317436456680298,
+      "step": 1164,
+      "token_acc": 0.49502487562189057
+    },
+    {
+      "epoch": 0.5343423919275313,
+      "grad_norm": 0.35744139552116394,
+      "learning_rate": 0.0004691977444725955,
+      "loss": 2.3859448432922363,
+      "step": 1165,
+      "token_acc": 0.4833709131905299
+    },
+    {
+      "epoch": 0.5348010549248939,
+      "grad_norm": 0.3372769057750702,
+      "learning_rate": 0.0004684564960702877,
+      "loss": 2.368591070175171,
+      "step": 1166,
+      "token_acc": 0.489532549469458
+    },
+    {
+      "epoch": 0.5352597179222566,
+      "grad_norm": 0.3186121881008148,
+      "learning_rate": 0.0004677153172647131,
+      "loss": 2.4302520751953125,
+      "step": 1167,
+      "token_acc": 0.4760366182014001
+    },
+    {
+      "epoch": 0.5357183809196193,
+      "grad_norm": 0.33439403772354126,
+      "learning_rate": 0.00046697420969118894,
+      "loss": 2.466879367828369,
+      "step": 1168,
+      "token_acc": 0.47239597497960295
+    },
+    {
+      "epoch": 0.536177043916982,
+      "grad_norm": 0.31994086503982544,
+      "learning_rate": 0.00046623317498487466,
+      "loss": 2.380794048309326,
+      "step": 1169,
+      "token_acc": 0.48732394366197185
+    },
+    {
+      "epoch": 0.5366357069143447,
+      "grad_norm": 0.32965800166130066,
+      "learning_rate": 0.0004654922147807694,
+      "loss": 2.400881767272949,
+      "step": 1170,
+      "token_acc": 0.48006785411365566
+    },
+    {
+      "epoch": 0.5370943699117073,
+      "grad_norm": 0.3274883031845093,
+      "learning_rate": 0.00046475133071370757,
+      "loss": 2.3854472637176514,
+      "step": 1171,
+      "token_acc": 0.4783422459893048
+    },
+    {
+      "epoch": 0.5375530329090701,
+      "grad_norm": 0.3407370448112488,
+      "learning_rate": 0.00046401052441835574,
+      "loss": 2.379990816116333,
+      "step": 1172,
+      "token_acc": 0.497196261682243
+    },
+    {
+      "epoch": 0.5380116959064327,
+      "grad_norm": 0.34296369552612305,
+      "learning_rate": 0.000463269797529209,
+      "loss": 2.3752121925354004,
+      "step": 1173,
+      "token_acc": 0.47820965842167257
+    },
+    {
+      "epoch": 0.5384703589037955,
+      "grad_norm": 0.33161836862564087,
+      "learning_rate": 0.00046252915168058697,
+      "loss": 2.3046469688415527,
+      "step": 1174,
+      "token_acc": 0.5061153174140943
+    },
+    {
+      "epoch": 0.5389290219011581,
+      "grad_norm": 0.32786694169044495,
+      "learning_rate": 0.0004617885885066305,
+      "loss": 2.363800525665283,
+      "step": 1175,
+      "token_acc": 0.495693248124479
+    },
+    {
+      "epoch": 0.5393876848985208,
+      "grad_norm": 0.3195815086364746,
+      "learning_rate": 0.0004610481096412984,
+      "loss": 2.4256789684295654,
+      "step": 1176,
+      "token_acc": 0.4854394870424793
+    },
+    {
+      "epoch": 0.5398463478958835,
+      "grad_norm": 0.3374330699443817,
+      "learning_rate": 0.000460307716718363,
+      "loss": 2.370356559753418,
+      "step": 1177,
+      "token_acc": 0.5075134675361497
+    },
+    {
+      "epoch": 0.5403050108932462,
+      "grad_norm": 0.3149530291557312,
+      "learning_rate": 0.0004595674113714074,
+      "loss": 2.416278600692749,
+      "step": 1178,
+      "token_acc": 0.4718566227947354
+    },
+    {
+      "epoch": 0.5407636738906089,
+      "grad_norm": 0.3265056610107422,
+      "learning_rate": 0.0004588271952338212,
+      "loss": 2.404783010482788,
+      "step": 1179,
+      "token_acc": 0.4904548006737788
+    },
+    {
+      "epoch": 0.5412223368879716,
+      "grad_norm": 0.3221311867237091,
+      "learning_rate": 0.00045808706993879714,
+      "loss": 2.475677013397217,
+      "step": 1180,
+      "token_acc": 0.47053895559899467
+    },
+    {
+      "epoch": 0.5416809998853342,
+      "grad_norm": 0.3284562826156616,
+      "learning_rate": 0.00045734703711932767,
+      "loss": 2.419527292251587,
+      "step": 1181,
+      "token_acc": 0.48367868294067556
+    },
+    {
+      "epoch": 0.542139662882697,
+      "grad_norm": 0.3440361022949219,
+      "learning_rate": 0.0004566070984082013,
+      "loss": 2.3523144721984863,
+      "step": 1182,
+      "token_acc": 0.4979792147806005
+    },
+    {
+      "epoch": 0.5425983258800596,
+      "grad_norm": 0.3393910527229309,
+      "learning_rate": 0.00045586725543799865,
+      "loss": 2.4763576984405518,
+      "step": 1183,
+      "token_acc": 0.4828918322295806
+    },
+    {
+      "epoch": 0.5430569888774223,
+      "grad_norm": 0.345430850982666,
+      "learning_rate": 0.00045512750984108937,
+      "loss": 2.383568525314331,
+      "step": 1184,
+      "token_acc": 0.4874020156774916
+    },
+    {
+      "epoch": 0.543515651874785,
+      "grad_norm": 0.33511584997177124,
+      "learning_rate": 0.000454387863249628,
+      "loss": 2.4082822799682617,
+      "step": 1185,
+      "token_acc": 0.49108683151236343
+    },
+    {
+      "epoch": 0.5439743148721476,
+      "grad_norm": 0.3304150700569153,
+      "learning_rate": 0.00045364831729555096,
+      "loss": 2.357126235961914,
+      "step": 1186,
+      "token_acc": 0.49819092680211524
+    },
+    {
+      "epoch": 0.5444329778695104,
+      "grad_norm": 0.3438422977924347,
+      "learning_rate": 0.0004529088736105721,
+      "loss": 2.368241786956787,
+      "step": 1187,
+      "token_acc": 0.5026874115983027
+    },
+    {
+      "epoch": 0.544891640866873,
+      "grad_norm": 0.328216016292572,
+      "learning_rate": 0.0004521695338261802,
+      "loss": 2.449075937271118,
+      "step": 1188,
+      "token_acc": 0.48609198567887635
+    },
+    {
+      "epoch": 0.5453503038642358,
+      "grad_norm": 0.3344208598136902,
+      "learning_rate": 0.0004514302995736344,
+      "loss": 2.351963996887207,
+      "step": 1189,
+      "token_acc": 0.49407550289335905
+    },
+    {
+      "epoch": 0.5458089668615984,
+      "grad_norm": 0.343511700630188,
+      "learning_rate": 0.0004506911724839613,
+      "loss": 2.436291217803955,
+      "step": 1190,
+      "token_acc": 0.48068181818181815
+    },
+    {
+      "epoch": 0.5462676298589612,
+      "grad_norm": 0.32576438784599304,
+      "learning_rate": 0.0004499521541879508,
+      "loss": 2.3687691688537598,
+      "step": 1191,
+      "token_acc": 0.4792358803986711
+    },
+    {
+      "epoch": 0.5467262928563238,
+      "grad_norm": 0.33563125133514404,
+      "learning_rate": 0.00044921324631615303,
+      "loss": 2.3122730255126953,
+      "step": 1192,
+      "token_acc": 0.49754831266224403
+    },
+    {
+      "epoch": 0.5471849558536865,
+      "grad_norm": 0.340992271900177,
+      "learning_rate": 0.0004484744504988742,
+      "loss": 2.397444248199463,
+      "step": 1193,
+      "token_acc": 0.4862914862914863
+    },
+    {
+      "epoch": 0.5476436188510492,
+      "grad_norm": 0.34597668051719666,
+      "learning_rate": 0.00044773576836617336,
+      "loss": 2.4072422981262207,
+      "step": 1194,
+      "token_acc": 0.48477886272257326
+    },
+    {
+      "epoch": 0.5481022818484119,
+      "grad_norm": 0.31964075565338135,
+      "learning_rate": 0.0004469972015478588,
+      "loss": 2.404254913330078,
+      "step": 1195,
+      "token_acc": 0.49026063100137174
+    },
+    {
+      "epoch": 0.5485609448457746,
+      "grad_norm": 0.31169629096984863,
+      "learning_rate": 0.0004462587516734844,
+      "loss": 2.485556125640869,
+      "step": 1196,
+      "token_acc": 0.47184623714131024
+    },
+    {
+      "epoch": 0.5490196078431373,
+      "grad_norm": 0.3283757269382477,
+      "learning_rate": 0.00044552042037234596,
+      "loss": 2.4858906269073486,
+      "step": 1197,
+      "token_acc": 0.47494239631336405
+    },
+    {
+      "epoch": 0.5494782708404999,
+      "grad_norm": 0.33134961128234863,
+      "learning_rate": 0.00044478220927347774,
+      "loss": 2.3355555534362793,
+      "step": 1198,
+      "token_acc": 0.4806371875858281
+    },
+    {
+      "epoch": 0.5499369338378627,
+      "grad_norm": 0.3389824628829956,
+      "learning_rate": 0.00044404412000564875,
+      "loss": 2.440321445465088,
+      "step": 1199,
+      "token_acc": 0.49220742419948993
+    },
+    {
+      "epoch": 0.5503955968352253,
+      "grad_norm": 0.3425561785697937,
+      "learning_rate": 0.000443306154197359,
+      "loss": 2.5323190689086914,
+      "step": 1200,
+      "token_acc": 0.46542324246771877
+    },
+    {
+      "epoch": 0.550854259832588,
+      "grad_norm": 0.3538571894168854,
+      "learning_rate": 0.00044256831347683646,
+      "loss": 2.4835643768310547,
+      "step": 1201,
+      "token_acc": 0.47285067873303166
+    },
+    {
+      "epoch": 0.5513129228299507,
+      "grad_norm": 0.3112059533596039,
+      "learning_rate": 0.0004418305994720328,
+      "loss": 2.286160945892334,
+      "step": 1202,
+      "token_acc": 0.5158533223049352
+    },
+    {
+      "epoch": 0.5517715858273133,
+      "grad_norm": 0.32723918557167053,
+      "learning_rate": 0.0004410930138106203,
+      "loss": 2.3868699073791504,
+      "step": 1203,
+      "token_acc": 0.4959720730397422
+    },
+    {
+      "epoch": 0.5522302488246761,
+      "grad_norm": 0.32817670702934265,
+      "learning_rate": 0.000440355558119988,
+      "loss": 2.2926995754241943,
+      "step": 1204,
+      "token_acc": 0.4978050921861282
+    },
+    {
+      "epoch": 0.5526889118220387,
+      "grad_norm": 0.331314355134964,
+      "learning_rate": 0.00043961823402723814,
+      "loss": 2.2755377292633057,
+      "step": 1205,
+      "token_acc": 0.50169779286927
+    },
+    {
+      "epoch": 0.5531475748194015,
+      "grad_norm": 0.3287051320075989,
+      "learning_rate": 0.0004388810431591829,
+      "loss": 2.3041505813598633,
+      "step": 1206,
+      "token_acc": 0.5005558643690939
+    },
+    {
+      "epoch": 0.5536062378167641,
+      "grad_norm": 0.3475499153137207,
+      "learning_rate": 0.0004381439871423398,
+      "loss": 2.481767177581787,
+      "step": 1207,
+      "token_acc": 0.4770246984491672
+    },
+    {
+      "epoch": 0.5540649008141268,
+      "grad_norm": 0.3394912779331207,
+      "learning_rate": 0.00043740706760292966,
+      "loss": 2.328268051147461,
+      "step": 1208,
+      "token_acc": 0.4944126464976833
+    },
+    {
+      "epoch": 0.5545235638114895,
+      "grad_norm": 0.3594644367694855,
+      "learning_rate": 0.0004366702861668716,
+      "loss": 2.440275192260742,
+      "step": 1209,
+      "token_acc": 0.47631205673758864
+    },
+    {
+      "epoch": 0.5549822268088522,
+      "grad_norm": 0.34651413559913635,
+      "learning_rate": 0.00043593364445978036,
+      "loss": 2.4451394081115723,
+      "step": 1210,
+      "token_acc": 0.47500706015249927
+    },
+    {
+      "epoch": 0.5554408898062149,
+      "grad_norm": 0.3344196677207947,
+      "learning_rate": 0.0004351971441069622,
+      "loss": 2.3106343746185303,
+      "step": 1211,
+      "token_acc": 0.4906989853438557
+    },
+    {
+      "epoch": 0.5558995528035776,
+      "grad_norm": 0.34688499569892883,
+      "learning_rate": 0.0004344607867334116,
+      "loss": 2.3936924934387207,
+      "step": 1212,
+      "token_acc": 0.48639551192145863
+    },
+    {
+      "epoch": 0.5563582158009402,
+      "grad_norm": 0.33408495783805847,
+      "learning_rate": 0.00043372457396380766,
+      "loss": 2.4188308715820312,
+      "step": 1213,
+      "token_acc": 0.4883459702330806
+    },
+    {
+      "epoch": 0.556816878798303,
+      "grad_norm": 0.37232357263565063,
+      "learning_rate": 0.00043298850742251013,
+      "loss": 2.318387269973755,
+      "step": 1214,
+      "token_acc": 0.49273711193392195
+    },
+    {
+      "epoch": 0.5572755417956656,
+      "grad_norm": 0.32914647459983826,
+      "learning_rate": 0.0004322525887335563,
+      "loss": 2.3129100799560547,
+      "step": 1215,
+      "token_acc": 0.5013520822065982
+    },
+    {
+      "epoch": 0.5577342047930284,
+      "grad_norm": 0.32913053035736084,
+      "learning_rate": 0.00043151681952065734,
+      "loss": 2.348127841949463,
+      "step": 1216,
+      "token_acc": 0.4944743553414565
+    },
+    {
+      "epoch": 0.558192867790391,
+      "grad_norm": 0.34666576981544495,
+      "learning_rate": 0.00043078120140719456,
+      "loss": 2.4081196784973145,
+      "step": 1217,
+      "token_acc": 0.48874133949191684
+    },
+    {
+      "epoch": 0.5586515307877536,
+      "grad_norm": 0.32372456789016724,
+      "learning_rate": 0.0004300457360162158,
+      "loss": 2.4483871459960938,
+      "step": 1218,
+      "token_acc": 0.4693481276005548
+    },
+    {
+      "epoch": 0.5591101937851164,
+      "grad_norm": 0.34390881657600403,
+      "learning_rate": 0.0004293104249704319,
+      "loss": 2.4345483779907227,
+      "step": 1219,
+      "token_acc": 0.4818132464712269
+    },
+    {
+      "epoch": 0.559568856782479,
+      "grad_norm": 0.3545990288257599,
+      "learning_rate": 0.00042857526989221355,
+      "loss": 2.4466018676757812,
+      "step": 1220,
+      "token_acc": 0.4760898282694848
+    },
+    {
+      "epoch": 0.5600275197798418,
+      "grad_norm": 0.33733758330345154,
+      "learning_rate": 0.00042784027240358674,
+      "loss": 2.3660106658935547,
+      "step": 1221,
+      "token_acc": 0.48605921241736133
+    },
+    {
+      "epoch": 0.5604861827772044,
+      "grad_norm": 0.32617852091789246,
+      "learning_rate": 0.0004271054341262301,
+      "loss": 2.4787588119506836,
+      "step": 1222,
+      "token_acc": 0.4811657959857025
+    },
+    {
+      "epoch": 0.5609448457745672,
+      "grad_norm": 0.32000041007995605,
+      "learning_rate": 0.000426370756681471,
+      "loss": 2.4197468757629395,
+      "step": 1223,
+      "token_acc": 0.4804241435562806
+    },
+    {
+      "epoch": 0.5614035087719298,
+      "grad_norm": 0.333675742149353,
+      "learning_rate": 0.0004256362416902817,
+      "loss": 2.3936476707458496,
+      "step": 1224,
+      "token_acc": 0.47599531615925056
+    },
+    {
+      "epoch": 0.5618621717692925,
+      "grad_norm": 0.33793601393699646,
+      "learning_rate": 0.00042490189077327637,
+      "loss": 2.339996576309204,
+      "step": 1225,
+      "token_acc": 0.4877771461057419
+    },
+    {
+      "epoch": 0.5623208347666552,
+      "grad_norm": 0.3211178183555603,
+      "learning_rate": 0.00042416770555070703,
+      "loss": 2.477755546569824,
+      "step": 1226,
+      "token_acc": 0.48440065681444994
+    },
+    {
+      "epoch": 0.5627794977640179,
+      "grad_norm": 0.3442017734050751,
+      "learning_rate": 0.00042343368764246,
+      "loss": 2.3506226539611816,
+      "step": 1227,
+      "token_acc": 0.48245868367642797
+    },
+    {
+      "epoch": 0.5632381607613806,
+      "grad_norm": 0.3554806411266327,
+      "learning_rate": 0.0004226998386680524,
+      "loss": 2.4184913635253906,
+      "step": 1228,
+      "token_acc": 0.48822733423545334
+    },
+    {
+      "epoch": 0.5636968237587433,
+      "grad_norm": 0.3359168767929077,
+      "learning_rate": 0.000421966160246629,
+      "loss": 2.328129291534424,
+      "step": 1229,
+      "token_acc": 0.49019058295964124
+    },
+    {
+      "epoch": 0.5641554867561059,
+      "grad_norm": 0.3443622589111328,
+      "learning_rate": 0.00042123265399695783,
+      "loss": 2.3625025749206543,
+      "step": 1230,
+      "token_acc": 0.4944333428489866
+    },
+    {
+      "epoch": 0.5646141497534687,
+      "grad_norm": 0.34090185165405273,
+      "learning_rate": 0.0004204993215374273,
+      "loss": 2.5054771900177,
+      "step": 1231,
+      "token_acc": 0.4713203463203463
+    },
+    {
+      "epoch": 0.5650728127508313,
+      "grad_norm": 0.34598684310913086,
+      "learning_rate": 0.00041976616448604226,
+      "loss": 2.5186641216278076,
+      "step": 1232,
+      "token_acc": 0.4666849465313957
+    },
+    {
+      "epoch": 0.5655314757481941,
+      "grad_norm": 0.3255317509174347,
+      "learning_rate": 0.00041903318446042076,
+      "loss": 2.3030948638916016,
+      "step": 1233,
+      "token_acc": 0.48515406162464986
+    },
+    {
+      "epoch": 0.5659901387455567,
+      "grad_norm": 0.33572426438331604,
+      "learning_rate": 0.00041830038307778984,
+      "loss": 2.560073137283325,
+      "step": 1234,
+      "token_acc": 0.45712663259511643
+    },
+    {
+      "epoch": 0.5664488017429193,
+      "grad_norm": 0.3159019649028778,
+      "learning_rate": 0.0004175677619549828,
+      "loss": 2.3413145542144775,
+      "step": 1235,
+      "token_acc": 0.4988870339454647
+    },
+    {
+      "epoch": 0.5669074647402821,
+      "grad_norm": 0.33941614627838135,
+      "learning_rate": 0.000416835322708435,
+      "loss": 2.42108154296875,
+      "step": 1236,
+      "token_acc": 0.48903156768325307
+    },
+    {
+      "epoch": 0.5673661277376447,
+      "grad_norm": 0.3211330473423004,
+      "learning_rate": 0.00041610306695418056,
+      "loss": 2.402815818786621,
+      "step": 1237,
+      "token_acc": 0.48370019504040124
+    },
+    {
+      "epoch": 0.5678247907350075,
+      "grad_norm": 0.3443274199962616,
+      "learning_rate": 0.0004153709963078488,
+      "loss": 2.436002016067505,
+      "step": 1238,
+      "token_acc": 0.4869226488592098
+    },
+    {
+      "epoch": 0.5682834537323701,
+      "grad_norm": 0.34885191917419434,
+      "learning_rate": 0.0004146391123846606,
+      "loss": 2.4409127235412598,
+      "step": 1239,
+      "token_acc": 0.48285553681843735
+    },
+    {
+      "epoch": 0.5687421167297328,
+      "grad_norm": 0.34614840149879456,
+      "learning_rate": 0.0004139074167994249,
+      "loss": 2.4201903343200684,
+      "step": 1240,
+      "token_acc": 0.4834983498349835
+    },
+    {
+      "epoch": 0.5692007797270955,
+      "grad_norm": 0.331919401884079,
+      "learning_rate": 0.00041317591116653486,
+      "loss": 2.3994216918945312,
+      "step": 1241,
+      "token_acc": 0.4881665240946678
+    },
+    {
+      "epoch": 0.5696594427244582,
+      "grad_norm": 0.3240911364555359,
+      "learning_rate": 0.0004124445970999648,
+      "loss": 2.2819631099700928,
+      "step": 1242,
+      "token_acc": 0.5019230769230769
+    },
+    {
+      "epoch": 0.5701181057218209,
+      "grad_norm": 0.3376796841621399,
+      "learning_rate": 0.00041171347621326627,
+      "loss": 2.4925808906555176,
+      "step": 1243,
+      "token_acc": 0.47007586400674345
+    },
+    {
+      "epoch": 0.5705767687191836,
+      "grad_norm": 0.33301636576652527,
+      "learning_rate": 0.00041098255011956465,
+      "loss": 2.3698883056640625,
+      "step": 1244,
+      "token_acc": 0.49698795180722893
+    },
+    {
+      "epoch": 0.5710354317165462,
+      "grad_norm": 0.35458892583847046,
+      "learning_rate": 0.00041025182043155547,
+      "loss": 2.2901546955108643,
+      "step": 1245,
+      "token_acc": 0.5039908779931584
+    },
+    {
+      "epoch": 0.571494094713909,
+      "grad_norm": 0.33268123865127563,
+      "learning_rate": 0.000409521288761501,
+      "loss": 2.3650991916656494,
+      "step": 1246,
+      "token_acc": 0.4916281755196305
+    },
+    {
+      "epoch": 0.5719527577112716,
+      "grad_norm": 0.3476988673210144,
+      "learning_rate": 0.00040879095672122646,
+      "loss": 2.46368408203125,
+      "step": 1247,
+      "token_acc": 0.47098782904047554
+    },
+    {
+      "epoch": 0.5724114207086344,
+      "grad_norm": 0.3208668828010559,
+      "learning_rate": 0.0004080608259221167,
+      "loss": 2.351609706878662,
+      "step": 1248,
+      "token_acc": 0.48567674113009196
+    },
+    {
+      "epoch": 0.572870083705997,
+      "grad_norm": 0.33837610483169556,
+      "learning_rate": 0.0004073308979751126,
+      "loss": 2.42510986328125,
+      "step": 1249,
+      "token_acc": 0.482837528604119
+    },
+    {
+      "epoch": 0.5733287467033598,
+      "grad_norm": 0.3475898504257202,
+      "learning_rate": 0.0004066011744907074,
+      "loss": 2.327911853790283,
+      "step": 1250,
+      "token_acc": 0.4988801791713326
+    },
+    {
+      "epoch": 0.5737874097007224,
+      "grad_norm": 0.31971225142478943,
+      "learning_rate": 0.00040587165707894326,
+      "loss": 2.480320453643799,
+      "step": 1251,
+      "token_acc": 0.46329658510352245
+    },
+    {
+      "epoch": 0.574246072698085,
+      "grad_norm": 0.3156541585922241,
+      "learning_rate": 0.0004051423473494076,
+      "loss": 2.4188902378082275,
+      "step": 1252,
+      "token_acc": 0.4813881891967534
+    },
+    {
+      "epoch": 0.5747047356954478,
+      "grad_norm": 0.3291691243648529,
+      "learning_rate": 0.0004044132469112299,
+      "loss": 2.3880271911621094,
+      "step": 1253,
+      "token_acc": 0.49214517876489705
+    },
+    {
+      "epoch": 0.5751633986928104,
+      "grad_norm": 0.3401661217212677,
+      "learning_rate": 0.00040368435737307733,
+      "loss": 2.4230124950408936,
+      "step": 1254,
+      "token_acc": 0.47578425976884975
+    },
+    {
+      "epoch": 0.5756220616901732,
+      "grad_norm": 0.34469103813171387,
+      "learning_rate": 0.00040295568034315224,
+      "loss": 2.387690544128418,
+      "step": 1255,
+      "token_acc": 0.4900277008310249
+    },
+    {
+      "epoch": 0.5760807246875358,
+      "grad_norm": 0.3351454436779022,
+      "learning_rate": 0.0004022272174291878,
+      "loss": 2.360827922821045,
+      "step": 1256,
+      "token_acc": 0.491933278643697
+    },
+    {
+      "epoch": 0.5765393876848985,
+      "grad_norm": 0.33321672677993774,
+      "learning_rate": 0.0004014989702384449,
+      "loss": 2.4882776737213135,
+      "step": 1257,
+      "token_acc": 0.45794392523364486
+    },
+    {
+      "epoch": 0.5769980506822612,
+      "grad_norm": 0.34439513087272644,
+      "learning_rate": 0.00040077094037770843,
+      "loss": 2.5004217624664307,
+      "step": 1258,
+      "token_acc": 0.4855635757912271
+    },
+    {
+      "epoch": 0.5774567136796239,
+      "grad_norm": 0.320482462644577,
+      "learning_rate": 0.0004000431294532838,
+      "loss": 2.43469500541687,
+      "step": 1259,
+      "token_acc": 0.47989347536617843
+    },
+    {
+      "epoch": 0.5779153766769866,
+      "grad_norm": 0.3228101134300232,
+      "learning_rate": 0.0003993155390709935,
+      "loss": 2.2579996585845947,
+      "step": 1260,
+      "token_acc": 0.5012264922322158
+    },
+    {
+      "epoch": 0.5783740396743493,
+      "grad_norm": 0.3554765284061432,
+      "learning_rate": 0.0003985881708361729,
+      "loss": 2.4069061279296875,
+      "step": 1261,
+      "token_acc": 0.4835320840431573
+    },
+    {
+      "epoch": 0.5788327026717119,
+      "grad_norm": 0.3248046338558197,
+      "learning_rate": 0.00039786102635366784,
+      "loss": 2.3240976333618164,
+      "step": 1262,
+      "token_acc": 0.49567160011170064
+    },
+    {
+      "epoch": 0.5792913656690747,
+      "grad_norm": 0.3355124294757843,
+      "learning_rate": 0.0003971341072278302,
+      "loss": 2.358372688293457,
+      "step": 1263,
+      "token_acc": 0.48574417996337954
+    },
+    {
+      "epoch": 0.5797500286664373,
+      "grad_norm": 0.3375208079814911,
+      "learning_rate": 0.00039640741506251457,
+      "loss": 2.2823896408081055,
+      "step": 1264,
+      "token_acc": 0.5098442550690567
+    },
+    {
+      "epoch": 0.5802086916638001,
+      "grad_norm": 0.3746131360530853,
+      "learning_rate": 0.00039568095146107495,
+      "loss": 2.4372541904449463,
+      "step": 1265,
+      "token_acc": 0.4886657101865136
+    },
+    {
+      "epoch": 0.5806673546611627,
+      "grad_norm": 0.34838199615478516,
+      "learning_rate": 0.00039495471802636096,
+      "loss": 2.484485149383545,
+      "step": 1266,
+      "token_acc": 0.47902869757174393
+    },
+    {
+      "epoch": 0.5811260176585255,
+      "grad_norm": 0.34635233879089355,
+      "learning_rate": 0.0003942287163607145,
+      "loss": 2.3821139335632324,
+      "step": 1267,
+      "token_acc": 0.47875816993464054
+    },
+    {
+      "epoch": 0.5815846806558881,
+      "grad_norm": 0.349904865026474,
+      "learning_rate": 0.0003935029480659658,
+      "loss": 2.40873646736145,
+      "step": 1268,
+      "token_acc": 0.4906918588496805
+    },
+    {
+      "epoch": 0.5820433436532507,
+      "grad_norm": 0.3482176661491394,
+      "learning_rate": 0.00039277741474343054,
+      "loss": 2.3673319816589355,
+      "step": 1269,
+      "token_acc": 0.49348534201954397
+    },
+    {
+      "epoch": 0.5825020066506135,
+      "grad_norm": 0.324079692363739,
+      "learning_rate": 0.0003920521179939057,
+      "loss": 2.341050624847412,
+      "step": 1270,
+      "token_acc": 0.48408564814814814
+    },
+    {
+      "epoch": 0.5829606696479761,
+      "grad_norm": 0.3405047655105591,
+      "learning_rate": 0.00039132705941766644,
+      "loss": 2.397528648376465,
+      "step": 1271,
+      "token_acc": 0.4828651685393258
+    },
+    {
+      "epoch": 0.5834193326453389,
+      "grad_norm": 0.33491912484169006,
+      "learning_rate": 0.0003906022406144624,
+      "loss": 2.4042017459869385,
+      "step": 1272,
+      "token_acc": 0.48731241473396997
+    },
+    {
+      "epoch": 0.5838779956427015,
+      "grad_norm": 0.33675655722618103,
+      "learning_rate": 0.0003898776631835143,
+      "loss": 2.3883543014526367,
+      "step": 1273,
+      "token_acc": 0.4955898566703418
+    },
+    {
+      "epoch": 0.5843366586400642,
+      "grad_norm": 0.33834969997406006,
+      "learning_rate": 0.00038915332872350994,
+      "loss": 2.439603805541992,
+      "step": 1274,
+      "token_acc": 0.48196448390677027
+    },
+    {
+      "epoch": 0.5847953216374269,
+      "grad_norm": 0.35871055722236633,
+      "learning_rate": 0.00038842923883260135,
+      "loss": 2.492771625518799,
+      "step": 1275,
+      "token_acc": 0.48759124087591244
+    },
+    {
+      "epoch": 0.5852539846347896,
+      "grad_norm": 0.3426671624183655,
+      "learning_rate": 0.00038770539510840093,
+      "loss": 2.401170015335083,
+      "step": 1276,
+      "token_acc": 0.48406040268456374
+    },
+    {
+      "epoch": 0.5857126476321523,
+      "grad_norm": 0.3409467339515686,
+      "learning_rate": 0.00038698179914797783,
+      "loss": 2.40999698638916,
+      "step": 1277,
+      "token_acc": 0.49328859060402686
+    },
+    {
+      "epoch": 0.586171310629515,
+      "grad_norm": 0.34552034735679626,
+      "learning_rate": 0.0003862584525478545,
+      "loss": 2.456834316253662,
+      "step": 1278,
+      "token_acc": 0.48484848484848486
+    },
+    {
+      "epoch": 0.5866299736268776,
+      "grad_norm": 0.344443678855896,
+      "learning_rate": 0.00038553535690400353,
+      "loss": 2.4125397205352783,
+      "step": 1279,
+      "token_acc": 0.4818910699474703
+    },
+    {
+      "epoch": 0.5870886366242404,
+      "grad_norm": 0.330518901348114,
+      "learning_rate": 0.00038481251381184355,
+      "loss": 2.3883519172668457,
+      "step": 1280,
+      "token_acc": 0.4854155200880572
+    },
+    {
+      "epoch": 0.587547299621603,
+      "grad_norm": 0.34492021799087524,
+      "learning_rate": 0.00038408992486623584,
+      "loss": 2.400785446166992,
+      "step": 1281,
+      "token_acc": 0.4885739080127278
+    },
+    {
+      "epoch": 0.5880059626189658,
+      "grad_norm": 0.3304204046726227,
+      "learning_rate": 0.00038336759166148117,
+      "loss": 2.3912506103515625,
+      "step": 1282,
+      "token_acc": 0.4826233183856502
+    },
+    {
+      "epoch": 0.5884646256163284,
+      "grad_norm": 0.3564055562019348,
+      "learning_rate": 0.0003826455157913159,
+      "loss": 2.3989624977111816,
+      "step": 1283,
+      "token_acc": 0.48273910582908885
+    },
+    {
+      "epoch": 0.5889232886136911,
+      "grad_norm": 0.34016719460487366,
+      "learning_rate": 0.00038192369884890886,
+      "loss": 2.4132046699523926,
+      "step": 1284,
+      "token_acc": 0.48526959421901056
+    },
+    {
+      "epoch": 0.5893819516110538,
+      "grad_norm": 0.33444005250930786,
+      "learning_rate": 0.00038120214242685723,
+      "loss": 2.417942523956299,
+      "step": 1285,
+      "token_acc": 0.490403895731882
+    },
+    {
+      "epoch": 0.5898406146084164,
+      "grad_norm": 0.32987749576568604,
+      "learning_rate": 0.00038048084811718373,
+      "loss": 2.36061429977417,
+      "step": 1286,
+      "token_acc": 0.4845984598459846
+    },
+    {
+      "epoch": 0.5902992776057792,
+      "grad_norm": 0.3290899097919464,
+      "learning_rate": 0.0003797598175113327,
+      "loss": 2.4467458724975586,
+      "step": 1287,
+      "token_acc": 0.4758269720101781
+    },
+    {
+      "epoch": 0.5907579406031418,
+      "grad_norm": 0.3392254114151001,
+      "learning_rate": 0.0003790390522001662,
+      "loss": 2.302490711212158,
+      "step": 1288,
+      "token_acc": 0.5062146892655367
+    },
+    {
+      "epoch": 0.5912166036005045,
+      "grad_norm": 0.3305123746395111,
+      "learning_rate": 0.0003783185537739615,
+      "loss": 2.289241313934326,
+      "step": 1289,
+      "token_acc": 0.500690798563139
+    },
+    {
+      "epoch": 0.5916752665978672,
+      "grad_norm": 0.3308006227016449,
+      "learning_rate": 0.00037759832382240697,
+      "loss": 2.246800422668457,
+      "step": 1290,
+      "token_acc": 0.49689791314156795
+    },
+    {
+      "epoch": 0.5921339295952299,
+      "grad_norm": 0.32767626643180847,
+      "learning_rate": 0.00037687836393459826,
+      "loss": 2.3175716400146484,
+      "step": 1291,
+      "token_acc": 0.5015673981191222
+    },
+    {
+      "epoch": 0.5925925925925926,
+      "grad_norm": 0.3325299918651581,
+      "learning_rate": 0.0003761586756990354,
+      "loss": 2.4247419834136963,
+      "step": 1292,
+      "token_acc": 0.4716401229393685
+    },
+    {
+      "epoch": 0.5930512555899553,
+      "grad_norm": 0.34397822618484497,
+      "learning_rate": 0.0003754392607036191,
+      "loss": 2.4305343627929688,
+      "step": 1293,
+      "token_acc": 0.4767408263507657
+    },
+    {
+      "epoch": 0.5935099185873179,
+      "grad_norm": 0.3454072177410126,
+      "learning_rate": 0.0003747201205356472,
+      "loss": 2.416828155517578,
+      "step": 1294,
+      "token_acc": 0.49480369515011546
+    },
+    {
+      "epoch": 0.5939685815846807,
+      "grad_norm": 0.33437836170196533,
+      "learning_rate": 0.0003740012567818111,
+      "loss": 2.3844399452209473,
+      "step": 1295,
+      "token_acc": 0.4994305239179954
+    },
+    {
+      "epoch": 0.5944272445820433,
+      "grad_norm": 0.3223138451576233,
+      "learning_rate": 0.0003732826710281922,
+      "loss": 2.4136807918548584,
+      "step": 1296,
+      "token_acc": 0.4908243518788232
+    },
+    {
+      "epoch": 0.5948859075794061,
+      "grad_norm": 0.3140416741371155,
+      "learning_rate": 0.0003725643648602588,
+      "loss": 2.3260746002197266,
+      "step": 1297,
+      "token_acc": 0.49703975190301664
+    },
+    {
+      "epoch": 0.5953445705767687,
+      "grad_norm": 0.3444945514202118,
+      "learning_rate": 0.0003718463398628621,
+      "loss": 2.330179452896118,
+      "step": 1298,
+      "token_acc": 0.4974152785755313
+    },
+    {
+      "epoch": 0.5958032335741315,
+      "grad_norm": 0.3519197404384613,
+      "learning_rate": 0.0003711285976202331,
+      "loss": 2.42614483833313,
+      "step": 1299,
+      "token_acc": 0.4791961505802434
+    },
+    {
+      "epoch": 0.5962618965714941,
+      "grad_norm": 0.3358364403247833,
+      "learning_rate": 0.0003704111397159787,
+      "loss": 2.409801721572876,
+      "step": 1300,
+      "token_acc": 0.48670062252405205
+    },
+    {
+      "epoch": 0.5967205595688568,
+      "grad_norm": 0.34896978735923767,
+      "learning_rate": 0.0003696939677330788,
+      "loss": 2.508028030395508,
+      "step": 1301,
+      "token_acc": 0.4680105170902717
+    },
+    {
+      "epoch": 0.5971792225662195,
+      "grad_norm": 0.35777485370635986,
+      "learning_rate": 0.00036897708325388213,
+      "loss": 2.3242506980895996,
+      "step": 1302,
+      "token_acc": 0.4981705600900647
+    },
+    {
+      "epoch": 0.5976378855635821,
+      "grad_norm": 0.3417137563228607,
+      "learning_rate": 0.0003682604878601034,
+      "loss": 2.3854708671569824,
+      "step": 1303,
+      "token_acc": 0.5074370709382151
+    },
+    {
+      "epoch": 0.5980965485609449,
+      "grad_norm": 0.3396136164665222,
+      "learning_rate": 0.000367544183132819,
+      "loss": 2.3356847763061523,
+      "step": 1304,
+      "token_acc": 0.5043139437795714
+    },
+    {
+      "epoch": 0.5985552115583075,
+      "grad_norm": 0.34940797090530396,
+      "learning_rate": 0.0003668281706524645,
+      "loss": 2.315471649169922,
+      "step": 1305,
+      "token_acc": 0.5189393939393939
+    },
+    {
+      "epoch": 0.5990138745556702,
+      "grad_norm": 0.33320578932762146,
+      "learning_rate": 0.0003661124519988304,
+      "loss": 2.342496871948242,
+      "step": 1306,
+      "token_acc": 0.4995773457311919
+    },
+    {
+      "epoch": 0.5994725375530329,
+      "grad_norm": 0.33597850799560547,
+      "learning_rate": 0.00036539702875105893,
+      "loss": 2.483700752258301,
+      "step": 1307,
+      "token_acc": 0.47426784191071936
+    },
+    {
+      "epoch": 0.5999312005503956,
+      "grad_norm": 0.3359525799751282,
+      "learning_rate": 0.0003646819024876406,
+      "loss": 2.294806957244873,
+      "step": 1308,
+      "token_acc": 0.5038926174496644
+    },
+    {
+      "epoch": 0.6003898635477583,
+      "grad_norm": 0.33808475732803345,
+      "learning_rate": 0.0003639670747864107,
+      "loss": 2.3861141204833984,
+      "step": 1309,
+      "token_acc": 0.4862134862134862
+    },
+    {
+      "epoch": 0.600848526545121,
+      "grad_norm": 0.3495483100414276,
+      "learning_rate": 0.00036325254722454584,
+      "loss": 2.391299247741699,
+      "step": 1310,
+      "token_acc": 0.4876265466816648
+    },
+    {
+      "epoch": 0.6013071895424836,
+      "grad_norm": 0.30669280886650085,
+      "learning_rate": 0.00036253832137855997,
+      "loss": 2.283001184463501,
+      "step": 1311,
+      "token_acc": 0.5
+    },
+    {
+      "epoch": 0.6017658525398464,
+      "grad_norm": 0.33734989166259766,
+      "learning_rate": 0.00036182439882430183,
+      "loss": 2.318142890930176,
+      "step": 1312,
+      "token_acc": 0.5120137299771167
+    },
+    {
+      "epoch": 0.602224515537209,
+      "grad_norm": 0.35226139426231384,
+      "learning_rate": 0.00036111078113695096,
+      "loss": 2.4190421104431152,
+      "step": 1313,
+      "token_acc": 0.4964255075779239
+    },
+    {
+      "epoch": 0.6026831785345718,
+      "grad_norm": 0.35402336716651917,
+      "learning_rate": 0.0003603974698910139,
+      "loss": 2.4486522674560547,
+      "step": 1314,
+      "token_acc": 0.48428571428571426
+    },
+    {
+      "epoch": 0.6031418415319344,
+      "grad_norm": 0.3527601361274719,
+      "learning_rate": 0.0003596844666603214,
+      "loss": 2.3939948081970215,
+      "step": 1315,
+      "token_acc": 0.4853510226644555
+    },
+    {
+      "epoch": 0.6036005045292971,
+      "grad_norm": 0.3480856418609619,
+      "learning_rate": 0.0003589717730180245,
+      "loss": 2.496617555618286,
+      "step": 1316,
+      "token_acc": 0.46768275472763193
+    },
+    {
+      "epoch": 0.6040591675266598,
+      "grad_norm": 0.35495853424072266,
+      "learning_rate": 0.00035825939053659117,
+      "loss": 2.397785186767578,
+      "step": 1317,
+      "token_acc": 0.4888888888888889
+    },
+    {
+      "epoch": 0.6045178305240225,
+      "grad_norm": 0.32361191511154175,
+      "learning_rate": 0.00035754732078780273,
+      "loss": 2.418009042739868,
+      "step": 1318,
+      "token_acc": 0.48278711098870836
+    },
+    {
+      "epoch": 0.6049764935213852,
+      "grad_norm": 0.36219972372055054,
+      "learning_rate": 0.00035683556534275076,
+      "loss": 2.413954496383667,
+      "step": 1319,
+      "token_acc": 0.4881820834549168
+    },
+    {
+      "epoch": 0.6054351565187478,
+      "grad_norm": 0.33185145258903503,
+      "learning_rate": 0.00035612412577183303,
+      "loss": 2.3483667373657227,
+      "step": 1320,
+      "token_acc": 0.48593280524446875
+    },
+    {
+      "epoch": 0.6058938195161105,
+      "grad_norm": 0.3282735347747803,
+      "learning_rate": 0.00035541300364475063,
+      "loss": 2.4144420623779297,
+      "step": 1321,
+      "token_acc": 0.46903409090909093
+    },
+    {
+      "epoch": 0.6063524825134732,
+      "grad_norm": 0.3466692864894867,
+      "learning_rate": 0.0003547022005305043,
+      "loss": 2.3624067306518555,
+      "step": 1322,
+      "token_acc": 0.4798432250839866
+    },
+    {
+      "epoch": 0.6068111455108359,
+      "grad_norm": 0.3218834400177002,
+      "learning_rate": 0.0003539917179973907,
+      "loss": 2.361252784729004,
+      "step": 1323,
+      "token_acc": 0.4857142857142857
+    },
+    {
+      "epoch": 0.6072698085081986,
+      "grad_norm": 0.317954957485199,
+      "learning_rate": 0.00035328155761299917,
+      "loss": 2.2355566024780273,
+      "step": 1324,
+      "token_acc": 0.5137811078405138
+    },
+    {
+      "epoch": 0.6077284715055613,
+      "grad_norm": 0.3475446105003357,
+      "learning_rate": 0.0003525717209442085,
+      "loss": 2.3140103816986084,
+      "step": 1325,
+      "token_acc": 0.47944819819819817
+    },
+    {
+      "epoch": 0.6081871345029239,
+      "grad_norm": 0.3397582173347473,
+      "learning_rate": 0.00035186220955718306,
+      "loss": 2.3482189178466797,
+      "step": 1326,
+      "token_acc": 0.4961748633879781
+    },
+    {
+      "epoch": 0.6086457975002867,
+      "grad_norm": 0.3549669682979584,
+      "learning_rate": 0.0003511530250173696,
+      "loss": 2.2505135536193848,
+      "step": 1327,
+      "token_acc": 0.5008620689655172
+    },
+    {
+      "epoch": 0.6091044604976493,
+      "grad_norm": 0.3382364809513092,
+      "learning_rate": 0.00035044416888949364,
+      "loss": 2.332581043243408,
+      "step": 1328,
+      "token_acc": 0.49637276785714285
+    },
+    {
+      "epoch": 0.6095631234950121,
+      "grad_norm": 0.36244484782218933,
+      "learning_rate": 0.0003497356427375562,
+      "loss": 2.3235809803009033,
+      "step": 1329,
+      "token_acc": 0.5053946621237932
+    },
+    {
+      "epoch": 0.6100217864923747,
+      "grad_norm": 0.34174370765686035,
+      "learning_rate": 0.00034902744812483034,
+      "loss": 2.3119142055511475,
+      "step": 1330,
+      "token_acc": 0.49216300940438873
+    },
+    {
+      "epoch": 0.6104804494897375,
+      "grad_norm": 0.36694225668907166,
+      "learning_rate": 0.00034831958661385714,
+      "loss": 2.401324987411499,
+      "step": 1331,
+      "token_acc": 0.4838709677419355
+    },
+    {
+      "epoch": 0.6109391124871001,
+      "grad_norm": 0.347665935754776,
+      "learning_rate": 0.0003476120597664434,
+      "loss": 2.417351245880127,
+      "step": 1332,
+      "token_acc": 0.4870601919162547
+    },
+    {
+      "epoch": 0.6113977754844628,
+      "grad_norm": 0.3318571448326111,
+      "learning_rate": 0.00034690486914365704,
+      "loss": 2.3711981773376465,
+      "step": 1333,
+      "token_acc": 0.5007190106413575
+    },
+    {
+      "epoch": 0.6118564384818255,
+      "grad_norm": 0.32068905234336853,
+      "learning_rate": 0.00034619801630582435,
+      "loss": 2.3228840827941895,
+      "step": 1334,
+      "token_acc": 0.4998631261976458
+    },
+    {
+      "epoch": 0.6123151014791882,
+      "grad_norm": 0.346225768327713,
+      "learning_rate": 0.00034549150281252633,
+      "loss": 2.353450298309326,
+      "step": 1335,
+      "token_acc": 0.4933257597273502
+    },
+    {
+      "epoch": 0.6127737644765509,
+      "grad_norm": 0.32835492491722107,
+      "learning_rate": 0.0003447853302225952,
+      "loss": 2.396827220916748,
+      "step": 1336,
+      "token_acc": 0.48786473956913007
+    },
+    {
+      "epoch": 0.6132324274739135,
+      "grad_norm": 0.33355408906936646,
+      "learning_rate": 0.00034407950009411126,
+      "loss": 2.401613235473633,
+      "step": 1337,
+      "token_acc": 0.48171059709521247
+    },
+    {
+      "epoch": 0.6136910904712762,
+      "grad_norm": 0.3314051032066345,
+      "learning_rate": 0.00034337401398439873,
+      "loss": 2.337472438812256,
+      "step": 1338,
+      "token_acc": 0.4964858026426764
+    },
+    {
+      "epoch": 0.6141497534686389,
+      "grad_norm": 0.32379621267318726,
+      "learning_rate": 0.00034266887345002305,
+      "loss": 2.3952951431274414,
+      "step": 1339,
+      "token_acc": 0.4955604883462819
+    },
+    {
+      "epoch": 0.6146084164660016,
+      "grad_norm": 0.31511518359184265,
+      "learning_rate": 0.0003419640800467874,
+      "loss": 2.2989983558654785,
+      "step": 1340,
+      "token_acc": 0.49776161163961946
+    },
+    {
+      "epoch": 0.6150670794633643,
+      "grad_norm": 0.3427899479866028,
+      "learning_rate": 0.0003412596353297288,
+      "loss": 2.2804627418518066,
+      "step": 1341,
+      "token_acc": 0.5141973573235873
+    },
+    {
+      "epoch": 0.615525742460727,
+      "grad_norm": 0.34014198184013367,
+      "learning_rate": 0.00034055554085311493,
+      "loss": 2.3680307865142822,
+      "step": 1342,
+      "token_acc": 0.4785772029102668
+    },
+    {
+      "epoch": 0.6159844054580896,
+      "grad_norm": 0.33515748381614685,
+      "learning_rate": 0.00033985179817044105,
+      "loss": 2.378547191619873,
+      "step": 1343,
+      "token_acc": 0.47745071563597086
+    },
+    {
+      "epoch": 0.6164430684554524,
+      "grad_norm": 0.3379366993904114,
+      "learning_rate": 0.0003391484088344257,
+      "loss": 2.4104394912719727,
+      "step": 1344,
+      "token_acc": 0.4923033067274801
+    },
+    {
+      "epoch": 0.616901731452815,
+      "grad_norm": 0.3303073048591614,
+      "learning_rate": 0.00033844537439700807,
+      "loss": 2.2939507961273193,
+      "step": 1345,
+      "token_acc": 0.4899365867107803
+    },
+    {
+      "epoch": 0.6173603944501778,
+      "grad_norm": 0.340492844581604,
+      "learning_rate": 0.00033774269640934445,
+      "loss": 2.413130283355713,
+      "step": 1346,
+      "token_acc": 0.475273990911521
+    },
+    {
+      "epoch": 0.6178190574475404,
+      "grad_norm": 0.33295580744743347,
+      "learning_rate": 0.0003370403764218045,
+      "loss": 2.2369489669799805,
+      "step": 1347,
+      "token_acc": 0.5087274774774775
+    },
+    {
+      "epoch": 0.6182777204449031,
+      "grad_norm": 0.3448663055896759,
+      "learning_rate": 0.000336338415983968,
+      "loss": 2.328295946121216,
+      "step": 1348,
+      "token_acc": 0.49618991793669404
+    },
+    {
+      "epoch": 0.6187363834422658,
+      "grad_norm": 0.3231273591518402,
+      "learning_rate": 0.00033563681664462155,
+      "loss": 2.3706722259521484,
+      "step": 1349,
+      "token_acc": 0.48806584362139915
+    },
+    {
+      "epoch": 0.6191950464396285,
+      "grad_norm": 0.35387349128723145,
+      "learning_rate": 0.000334935579951755,
+      "loss": 2.399789810180664,
+      "step": 1350,
+      "token_acc": 0.4929343308395677
+    },
+    {
+      "epoch": 0.6196537094369912,
+      "grad_norm": 0.3376743197441101,
+      "learning_rate": 0.0003342347074525578,
+      "loss": 2.3810834884643555,
+      "step": 1351,
+      "token_acc": 0.489027363858033
+    },
+    {
+      "epoch": 0.6201123724343539,
+      "grad_norm": 0.3492054343223572,
+      "learning_rate": 0.0003335342006934161,
+      "loss": 2.4144954681396484,
+      "step": 1352,
+      "token_acc": 0.49943788645306353
+    },
+    {
+      "epoch": 0.6205710354317165,
+      "grad_norm": 0.31851106882095337,
+      "learning_rate": 0.00033283406121990914,
+      "loss": 2.3154895305633545,
+      "step": 1353,
+      "token_acc": 0.5009565455042362
+    },
+    {
+      "epoch": 0.6210296984290792,
+      "grad_norm": 0.33761394023895264,
+      "learning_rate": 0.0003321342905768057,
+      "loss": 2.4008822441101074,
+      "step": 1354,
+      "token_acc": 0.478687605159843
+    },
+    {
+      "epoch": 0.6214883614264419,
+      "grad_norm": 0.33304908871650696,
+      "learning_rate": 0.00033143489030806086,
+      "loss": 2.308924436569214,
+      "step": 1355,
+      "token_acc": 0.4907688068338385
+    },
+    {
+      "epoch": 0.6219470244238046,
+      "grad_norm": 0.37085628509521484,
+      "learning_rate": 0.00033073586195681227,
+      "loss": 2.515778064727783,
+      "step": 1356,
+      "token_acc": 0.47674418604651164
+    },
+    {
+      "epoch": 0.6224056874211673,
+      "grad_norm": 0.3530430793762207,
+      "learning_rate": 0.00033003720706537736,
+      "loss": 2.344749927520752,
+      "step": 1357,
+      "token_acc": 0.49557522123893805
+    },
+    {
+      "epoch": 0.6228643504185299,
+      "grad_norm": 0.37262749671936035,
+      "learning_rate": 0.0003293389271752492,
+      "loss": 2.384697675704956,
+      "step": 1358,
+      "token_acc": 0.4795353982300885
+    },
+    {
+      "epoch": 0.6233230134158927,
+      "grad_norm": 0.3245235085487366,
+      "learning_rate": 0.00032864102382709374,
+      "loss": 2.345730781555176,
+      "step": 1359,
+      "token_acc": 0.48370927318295737
+    },
+    {
+      "epoch": 0.6237816764132553,
+      "grad_norm": 0.36223724484443665,
+      "learning_rate": 0.000327943498560746,
+      "loss": 2.3580193519592285,
+      "step": 1360,
+      "token_acc": 0.4995610184372256
+    },
+    {
+      "epoch": 0.6242403394106181,
+      "grad_norm": 0.3300418555736542,
+      "learning_rate": 0.00032724635291520694,
+      "loss": 2.3559913635253906,
+      "step": 1361,
+      "token_acc": 0.4861419068736142
+    },
+    {
+      "epoch": 0.6246990024079807,
+      "grad_norm": 0.34241145849227905,
+      "learning_rate": 0.00032654958842863967,
+      "loss": 2.3577990531921387,
+      "step": 1362,
+      "token_acc": 0.48336594911937375
+    },
+    {
+      "epoch": 0.6251576654053435,
+      "grad_norm": 0.35038670897483826,
+      "learning_rate": 0.0003258532066383667,
+      "loss": 2.3318145275115967,
+      "step": 1363,
+      "token_acc": 0.49414389291689903
+    },
+    {
+      "epoch": 0.6256163284027061,
+      "grad_norm": 0.3182967007160187,
+      "learning_rate": 0.000325157209080866,
+      "loss": 2.375368595123291,
+      "step": 1364,
+      "token_acc": 0.5019230769230769
+    },
+    {
+      "epoch": 0.6260749914000688,
+      "grad_norm": 0.32574236392974854,
+      "learning_rate": 0.00032446159729176743,
+      "loss": 2.222464084625244,
+      "step": 1365,
+      "token_acc": 0.4959051115504095
+    },
+    {
+      "epoch": 0.6265336543974315,
+      "grad_norm": 0.33192455768585205,
+      "learning_rate": 0.0003237663728058502,
+      "loss": 2.299189567565918,
+      "step": 1366,
+      "token_acc": 0.4987226795344877
+    },
+    {
+      "epoch": 0.6269923173947942,
+      "grad_norm": 0.3664180636405945,
+      "learning_rate": 0.0003230715371570389,
+      "loss": 2.426185131072998,
+      "step": 1367,
+      "token_acc": 0.47751724137931034
+    },
+    {
+      "epoch": 0.6274509803921569,
+      "grad_norm": 0.33789846301078796,
+      "learning_rate": 0.00032237709187839996,
+      "loss": 2.3265540599823,
+      "step": 1368,
+      "token_acc": 0.498744069215741
+    },
+    {
+      "epoch": 0.6279096433895196,
+      "grad_norm": 0.3376023769378662,
+      "learning_rate": 0.0003216830385021388,
+      "loss": 2.3690009117126465,
+      "step": 1369,
+      "token_acc": 0.4743660418963616
+    },
+    {
+      "epoch": 0.6283683063868822,
+      "grad_norm": 0.34567922353744507,
+      "learning_rate": 0.0003209893785595959,
+      "loss": 2.4277138710021973,
+      "step": 1370,
+      "token_acc": 0.4861425339366516
+    },
+    {
+      "epoch": 0.6288269693842449,
+      "grad_norm": 0.34094834327697754,
+      "learning_rate": 0.00032029611358124366,
+      "loss": 2.3326363563537598,
+      "step": 1371,
+      "token_acc": 0.49130074565037285
+    },
+    {
+      "epoch": 0.6292856323816076,
+      "grad_norm": 0.34554293751716614,
+      "learning_rate": 0.00031960324509668336,
+      "loss": 2.3637142181396484,
+      "step": 1372,
+      "token_acc": 0.4899216125419933
+    },
+    {
+      "epoch": 0.6297442953789703,
+      "grad_norm": 0.32639217376708984,
+      "learning_rate": 0.0003189107746346412,
+      "loss": 2.377622127532959,
+      "step": 1373,
+      "token_acc": 0.5043149946062567
+    },
+    {
+      "epoch": 0.630202958376333,
+      "grad_norm": 0.3317423164844513,
+      "learning_rate": 0.0003182187037229653,
+      "loss": 2.2900407314300537,
+      "step": 1374,
+      "token_acc": 0.5031958163858222
+    },
+    {
+      "epoch": 0.6306616213736956,
+      "grad_norm": 0.35199400782585144,
+      "learning_rate": 0.0003175270338886221,
+      "loss": 2.403184413909912,
+      "step": 1375,
+      "token_acc": 0.4911174785100286
+    },
+    {
+      "epoch": 0.6311202843710584,
+      "grad_norm": 0.34216514229774475,
+      "learning_rate": 0.00031683576665769345,
+      "loss": 2.3706088066101074,
+      "step": 1376,
+      "token_acc": 0.493941955480417
+    },
+    {
+      "epoch": 0.631578947368421,
+      "grad_norm": 0.32496407628059387,
+      "learning_rate": 0.0003161449035553724,
+      "loss": 2.330216884613037,
+      "step": 1377,
+      "token_acc": 0.5021288674425206
+    },
+    {
+      "epoch": 0.6320376103657838,
+      "grad_norm": 0.3287331759929657,
+      "learning_rate": 0.00031545444610596077,
+      "loss": 2.413376808166504,
+      "step": 1378,
+      "token_acc": 0.4879534754915536
+    },
+    {
+      "epoch": 0.6324962733631464,
+      "grad_norm": 0.32665443420410156,
+      "learning_rate": 0.000314764395832865,
+      "loss": 2.450493812561035,
+      "step": 1379,
+      "token_acc": 0.4717138103161398
+    },
+    {
+      "epoch": 0.6329549363605091,
+      "grad_norm": 0.3706531822681427,
+      "learning_rate": 0.0003140747542585934,
+      "loss": 2.2770814895629883,
+      "step": 1380,
+      "token_acc": 0.4989611160581775
+    },
+    {
+      "epoch": 0.6334135993578718,
+      "grad_norm": 0.33608463406562805,
+      "learning_rate": 0.00031338552290475266,
+      "loss": 2.52781343460083,
+      "step": 1381,
+      "token_acc": 0.4714924538848519
+    },
+    {
+      "epoch": 0.6338722623552345,
+      "grad_norm": 0.33147764205932617,
+      "learning_rate": 0.00031269670329204396,
+      "loss": 2.4183778762817383,
+      "step": 1382,
+      "token_acc": 0.4899310344827586
+    },
+    {
+      "epoch": 0.6343309253525972,
+      "grad_norm": 0.34890851378440857,
+      "learning_rate": 0.0003120082969402604,
+      "loss": 2.3450608253479004,
+      "step": 1383,
+      "token_acc": 0.4890570116184815
+    },
+    {
+      "epoch": 0.6347895883499599,
+      "grad_norm": 0.3423956036567688,
+      "learning_rate": 0.00031132030536828314,
+      "loss": 2.375576972961426,
+      "step": 1384,
+      "token_acc": 0.49559032716927454
+    },
+    {
+      "epoch": 0.6352482513473225,
+      "grad_norm": 0.32465860247612,
+      "learning_rate": 0.00031063273009407805,
+      "loss": 2.3391873836517334,
+      "step": 1385,
+      "token_acc": 0.5037406483790524
+    },
+    {
+      "epoch": 0.6357069143446853,
+      "grad_norm": 0.33762699365615845,
+      "learning_rate": 0.00030994557263469265,
+      "loss": 2.402210235595703,
+      "step": 1386,
+      "token_acc": 0.4907637165701682
+    },
+    {
+      "epoch": 0.6361655773420479,
+      "grad_norm": 0.35522574186325073,
+      "learning_rate": 0.0003092588345062526,
+      "loss": 2.517825126647949,
+      "step": 1387,
+      "token_acc": 0.4687413935554944
+    },
+    {
+      "epoch": 0.6366242403394106,
+      "grad_norm": 0.3508312404155731,
+      "learning_rate": 0.0003085725172239582,
+      "loss": 2.3497841358184814,
+      "step": 1388,
+      "token_acc": 0.48286262681656156
+    },
+    {
+      "epoch": 0.6370829033367733,
+      "grad_norm": 0.33374521136283875,
+      "learning_rate": 0.0003078866223020815,
+      "loss": 2.5023722648620605,
+      "step": 1389,
+      "token_acc": 0.4741166803615448
+    },
+    {
+      "epoch": 0.637541566334136,
+      "grad_norm": 0.3327741324901581,
+      "learning_rate": 0.0003072011512539624,
+      "loss": 2.41453218460083,
+      "step": 1390,
+      "token_acc": 0.4848651623555311
+    },
+    {
+      "epoch": 0.6380002293314987,
+      "grad_norm": 0.3334726095199585,
+      "learning_rate": 0.00030651610559200574,
+      "loss": 2.3685004711151123,
+      "step": 1391,
+      "token_acc": 0.5015031429352282
+    },
+    {
+      "epoch": 0.6384588923288613,
+      "grad_norm": 0.3255791664123535,
+      "learning_rate": 0.00030583148682767757,
+      "loss": 2.3137755393981934,
+      "step": 1392,
+      "token_acc": 0.49302844394868933
+    },
+    {
+      "epoch": 0.6389175553262241,
+      "grad_norm": 0.32301777601242065,
+      "learning_rate": 0.00030514729647150243,
+      "loss": 2.4287872314453125,
+      "step": 1393,
+      "token_acc": 0.4854045037531276
+    },
+    {
+      "epoch": 0.6393762183235867,
+      "grad_norm": 0.3421832025051117,
+      "learning_rate": 0.0003044635360330592,
+      "loss": 2.369800567626953,
+      "step": 1394,
+      "token_acc": 0.49274148520379674
+    },
+    {
+      "epoch": 0.6398348813209495,
+      "grad_norm": 0.33747848868370056,
+      "learning_rate": 0.00030378020702097845,
+      "loss": 2.4112589359283447,
+      "step": 1395,
+      "token_acc": 0.4802405498281787
+    },
+    {
+      "epoch": 0.6402935443183121,
+      "grad_norm": 0.340278297662735,
+      "learning_rate": 0.000303097310942939,
+      "loss": 2.4044671058654785,
+      "step": 1396,
+      "token_acc": 0.48033946251768034
+    },
+    {
+      "epoch": 0.6407522073156748,
+      "grad_norm": 0.33371883630752563,
+      "learning_rate": 0.0003024148493056641,
+      "loss": 2.29628849029541,
+      "step": 1397,
+      "token_acc": 0.49114791547687037
+    },
+    {
+      "epoch": 0.6412108703130375,
+      "grad_norm": 0.33794447779655457,
+      "learning_rate": 0.00030173282361491865,
+      "loss": 2.390509605407715,
+      "step": 1398,
+      "token_acc": 0.4851123595505618
+    },
+    {
+      "epoch": 0.6416695333104002,
+      "grad_norm": 0.32746073603630066,
+      "learning_rate": 0.0003010512353755057,
+      "loss": 2.311551332473755,
+      "step": 1399,
+      "token_acc": 0.482943332393572
+    },
+    {
+      "epoch": 0.6421281963077629,
+      "grad_norm": 0.36006367206573486,
+      "learning_rate": 0.00030037008609126313,
+      "loss": 2.3887128829956055,
+      "step": 1400,
+      "token_acc": 0.4834892680242157
+    },
+    {
+      "epoch": 0.6425868593051256,
+      "grad_norm": 0.34520983695983887,
+      "learning_rate": 0.0002996893772650602,
+      "loss": 2.4541525840759277,
+      "step": 1401,
+      "token_acc": 0.46988280185336606
+    },
+    {
+      "epoch": 0.6430455223024882,
+      "grad_norm": 0.33551645278930664,
+      "learning_rate": 0.0002990091103987945,
+      "loss": 2.357340097427368,
+      "step": 1402,
+      "token_acc": 0.49310441880101324
+    },
+    {
+      "epoch": 0.643504185299851,
+      "grad_norm": 0.3306700885295868,
+      "learning_rate": 0.0002983292869933886,
+      "loss": 2.351029872894287,
+      "step": 1403,
+      "token_acc": 0.49360400444938823
+    },
+    {
+      "epoch": 0.6439628482972136,
+      "grad_norm": 0.3356305658817291,
+      "learning_rate": 0.0002976499085487862,
+      "loss": 2.353363513946533,
+      "step": 1404,
+      "token_acc": 0.4901907356948229
+    },
+    {
+      "epoch": 0.6444215112945763,
+      "grad_norm": 0.3439108431339264,
+      "learning_rate": 0.00029697097656394963,
+      "loss": 2.378523826599121,
+      "step": 1405,
+      "token_acc": 0.4991735537190083
+    },
+    {
+      "epoch": 0.644880174291939,
+      "grad_norm": 0.33045876026153564,
+      "learning_rate": 0.00029629249253685595,
+      "loss": 2.325188636779785,
+      "step": 1406,
+      "token_acc": 0.5019815059445178
+    },
+    {
+      "epoch": 0.6453388372893016,
+      "grad_norm": 0.3326583802700043,
+      "learning_rate": 0.00029561445796449416,
+      "loss": 2.203885555267334,
+      "step": 1407,
+      "token_acc": 0.5239697224558453
+    },
+    {
+      "epoch": 0.6457975002866644,
+      "grad_norm": 0.3416604995727539,
+      "learning_rate": 0.0002949368743428612,
+      "loss": 2.3953402042388916,
+      "step": 1408,
+      "token_acc": 0.4830508474576271
+    },
+    {
+      "epoch": 0.646256163284027,
+      "grad_norm": 0.3421464264392853,
+      "learning_rate": 0.0002942597431669593,
+      "loss": 2.373331308364868,
+      "step": 1409,
+      "token_acc": 0.48441108545034645
+    },
+    {
+      "epoch": 0.6467148262813898,
+      "grad_norm": 0.3544997572898865,
+      "learning_rate": 0.0002935830659307924,
+      "loss": 2.2875571250915527,
+      "step": 1410,
+      "token_acc": 0.4987190435525192
+    },
+    {
+      "epoch": 0.6471734892787524,
+      "grad_norm": 0.3543693423271179,
+      "learning_rate": 0.0002929068441273629,
+      "loss": 2.4100089073181152,
+      "step": 1411,
+      "token_acc": 0.4802836879432624
+    },
+    {
+      "epoch": 0.6476321522761151,
+      "grad_norm": 0.36088916659355164,
+      "learning_rate": 0.0002922310792486681,
+      "loss": 2.2865395545959473,
+      "step": 1412,
+      "token_acc": 0.5026192445547284
+    },
+    {
+      "epoch": 0.6480908152734778,
+      "grad_norm": 0.3670096695423126,
+      "learning_rate": 0.00029155577278569745,
+      "loss": 2.382117986679077,
+      "step": 1413,
+      "token_acc": 0.4872086412734508
+    },
+    {
+      "epoch": 0.6485494782708405,
+      "grad_norm": 0.37471479177474976,
+      "learning_rate": 0.00029088092622842895,
+      "loss": 2.317728042602539,
+      "step": 1414,
+      "token_acc": 0.49408783783783783
+    },
+    {
+      "epoch": 0.6490081412682032,
+      "grad_norm": 0.35377511382102966,
+      "learning_rate": 0.00029020654106582544,
+      "loss": 2.335371971130371,
+      "step": 1415,
+      "token_acc": 0.49740184757505773
+    },
+    {
+      "epoch": 0.6494668042655659,
+      "grad_norm": 0.3380454182624817,
+      "learning_rate": 0.0002895326187858326,
+      "loss": 2.3080310821533203,
+      "step": 1416,
+      "token_acc": 0.5053370786516854
+    },
+    {
+      "epoch": 0.6499254672629285,
+      "grad_norm": 0.3290717303752899,
+      "learning_rate": 0.00028885916087537377,
+      "loss": 2.3871777057647705,
+      "step": 1417,
+      "token_acc": 0.47679209008514145
+    },
+    {
+      "epoch": 0.6503841302602913,
+      "grad_norm": 0.3459347188472748,
+      "learning_rate": 0.00028818616882034877,
+      "loss": 2.3598389625549316,
+      "step": 1418,
+      "token_acc": 0.48246844319775595
+    },
+    {
+      "epoch": 0.6508427932576539,
+      "grad_norm": 0.3583964705467224,
+      "learning_rate": 0.0002875136441056286,
+      "loss": 2.366239309310913,
+      "step": 1419,
+      "token_acc": 0.49719258843346437
+    },
+    {
+      "epoch": 0.6513014562550167,
+      "grad_norm": 0.33667388558387756,
+      "learning_rate": 0.000286841588215054,
+      "loss": 2.4071407318115234,
+      "step": 1420,
+      "token_acc": 0.4757975797579758
+    },
+    {
+      "epoch": 0.6517601192523793,
+      "grad_norm": 0.36943763494491577,
+      "learning_rate": 0.0002861700026314308,
+      "loss": 2.4373979568481445,
+      "step": 1421,
+      "token_acc": 0.4858323494687131
+    },
+    {
+      "epoch": 0.6522187822497421,
+      "grad_norm": 0.31827855110168457,
+      "learning_rate": 0.00028549888883652686,
+      "loss": 2.321516275405884,
+      "step": 1422,
+      "token_acc": 0.49874476987447697
+    },
+    {
+      "epoch": 0.6526774452471047,
+      "grad_norm": 0.350901335477829,
+      "learning_rate": 0.00028482824831107,
+      "loss": 2.3648133277893066,
+      "step": 1423,
+      "token_acc": 0.4972129319955407
+    },
+    {
+      "epoch": 0.6531361082444673,
+      "grad_norm": 0.3690221607685089,
+      "learning_rate": 0.000284158082534743,
+      "loss": 2.440328359603882,
+      "step": 1424,
+      "token_acc": 0.4840514829322888
+    },
+    {
+      "epoch": 0.6535947712418301,
+      "grad_norm": 0.32961729168891907,
+      "learning_rate": 0.00028348839298618177,
+      "loss": 2.409961223602295,
+      "step": 1425,
+      "token_acc": 0.4923033865099356
+    },
+    {
+      "epoch": 0.6540534342391927,
+      "grad_norm": 0.36671754717826843,
+      "learning_rate": 0.0002828191811429709,
+      "loss": 2.3331186771392822,
+      "step": 1426,
+      "token_acc": 0.48568220101066817
+    },
+    {
+      "epoch": 0.6545120972365555,
+      "grad_norm": 0.3420977294445038,
+      "learning_rate": 0.00028215044848164164,
+      "loss": 2.3296186923980713,
+      "step": 1427,
+      "token_acc": 0.4990285872883708
+    },
+    {
+      "epoch": 0.6549707602339181,
+      "grad_norm": 0.366384357213974,
+      "learning_rate": 0.00028148219647766747,
+      "loss": 2.3316245079040527,
+      "step": 1428,
+      "token_acc": 0.4860879243183083
+    },
+    {
+      "epoch": 0.6554294232312808,
+      "grad_norm": 0.3466300964355469,
+      "learning_rate": 0.00028081442660546124,
+      "loss": 2.351372718811035,
+      "step": 1429,
+      "token_acc": 0.48840885142255
+    },
+    {
+      "epoch": 0.6558880862286435,
+      "grad_norm": 0.35693174600601196,
+      "learning_rate": 0.0002801471403383728,
+      "loss": 2.2421576976776123,
+      "step": 1430,
+      "token_acc": 0.5137666761282997
+    },
+    {
+      "epoch": 0.6563467492260062,
+      "grad_norm": 0.3414236605167389,
+      "learning_rate": 0.00027948033914868415,
+      "loss": 2.4301934242248535,
+      "step": 1431,
+      "token_acc": 0.4856265699134803
+    },
+    {
+      "epoch": 0.6568054122233689,
+      "grad_norm": 0.35659992694854736,
+      "learning_rate": 0.00027881402450760775,
+      "loss": 2.3740975856781006,
+      "step": 1432,
+      "token_acc": 0.47794316644113666
+    },
+    {
+      "epoch": 0.6572640752207316,
+      "grad_norm": 0.343971312046051,
+      "learning_rate": 0.00027814819788528165,
+      "loss": 2.3557310104370117,
+      "step": 1433,
+      "token_acc": 0.4925671812464265
+    },
+    {
+      "epoch": 0.6577227382180942,
+      "grad_norm": 0.3552509546279907,
+      "learning_rate": 0.00027748286075076836,
+      "loss": 2.341397762298584,
+      "step": 1434,
+      "token_acc": 0.48632218844984804
+    },
+    {
+      "epoch": 0.658181401215457,
+      "grad_norm": 0.3441976308822632,
+      "learning_rate": 0.00027681801457204937,
+      "loss": 2.49971866607666,
+      "step": 1435,
+      "token_acc": 0.4703081232492997
+    },
+    {
+      "epoch": 0.6586400642128196,
+      "grad_norm": 0.3290027379989624,
+      "learning_rate": 0.00027615366081602306,
+      "loss": 2.3934743404388428,
+      "step": 1436,
+      "token_acc": 0.4864714086471409
+    },
+    {
+      "epoch": 0.6590987272101824,
+      "grad_norm": 0.34579387307167053,
+      "learning_rate": 0.0002754898009485021,
+      "loss": 2.2465310096740723,
+      "step": 1437,
+      "token_acc": 0.5097265294615168
+    },
+    {
+      "epoch": 0.659557390207545,
+      "grad_norm": 0.35806840658187866,
+      "learning_rate": 0.0002748264364342085,
+      "loss": 2.311438798904419,
+      "step": 1438,
+      "token_acc": 0.49018492176386913
+    },
+    {
+      "epoch": 0.6600160532049077,
+      "grad_norm": 0.3430219888687134,
+      "learning_rate": 0.00027416356873677204,
+      "loss": 2.428553581237793,
+      "step": 1439,
+      "token_acc": 0.48353169111541655
+    },
+    {
+      "epoch": 0.6604747162022704,
+      "grad_norm": 0.3332395851612091,
+      "learning_rate": 0.0002735011993187258,
+      "loss": 2.3328959941864014,
+      "step": 1440,
+      "token_acc": 0.4924487594390507
+    },
+    {
+      "epoch": 0.660933379199633,
+      "grad_norm": 0.3400273323059082,
+      "learning_rate": 0.0002728393296415042,
+      "loss": 2.4805774688720703,
+      "step": 1441,
+      "token_acc": 0.4797752808988764
+    },
+    {
+      "epoch": 0.6613920421969958,
+      "grad_norm": 0.3502805829048157,
+      "learning_rate": 0.00027217796116543817,
+      "loss": 2.3786067962646484,
+      "step": 1442,
+      "token_acc": 0.48995756718528993
+    },
+    {
+      "epoch": 0.6618507051943584,
+      "grad_norm": 0.34918177127838135,
+      "learning_rate": 0.0002715170953497532,
+      "loss": 2.3213648796081543,
+      "step": 1443,
+      "token_acc": 0.49514563106796117
+    },
+    {
+      "epoch": 0.6623093681917211,
+      "grad_norm": 0.33220669627189636,
+      "learning_rate": 0.00027085673365256614,
+      "loss": 2.2478604316711426,
+      "step": 1444,
+      "token_acc": 0.5077363896848137
+    },
+    {
+      "epoch": 0.6627680311890838,
+      "grad_norm": 0.3283640444278717,
+      "learning_rate": 0.00027019687753088075,
+      "loss": 2.320185422897339,
+      "step": 1445,
+      "token_acc": 0.49673024523160764
+    },
+    {
+      "epoch": 0.6632266941864465,
+      "grad_norm": 0.3232027590274811,
+      "learning_rate": 0.00026953752844058597,
+      "loss": 2.4039063453674316,
+      "step": 1446,
+      "token_acc": 0.4829763866007688
+    },
+    {
+      "epoch": 0.6636853571838092,
+      "grad_norm": 0.33459722995758057,
+      "learning_rate": 0.0002688786878364516,
+      "loss": 2.453993320465088,
+      "step": 1447,
+      "token_acc": 0.481709019826864
+    },
+    {
+      "epoch": 0.6641440201811719,
+      "grad_norm": 0.36151182651519775,
+      "learning_rate": 0.00026822035717212597,
+      "loss": 2.2776594161987305,
+      "step": 1448,
+      "token_acc": 0.4980737479361585
+    },
+    {
+      "epoch": 0.6646026831785345,
+      "grad_norm": 0.32229289412498474,
+      "learning_rate": 0.00026756253790013193,
+      "loss": 2.382157802581787,
+      "step": 1449,
+      "token_acc": 0.48841698841698844
+    },
+    {
+      "epoch": 0.6650613461758973,
+      "grad_norm": 0.33439067006111145,
+      "learning_rate": 0.0002669052314718641,
+      "loss": 2.245457649230957,
+      "step": 1450,
+      "token_acc": 0.5142615080485738
+    },
+    {
+      "epoch": 0.6655200091732599,
+      "grad_norm": 0.3386085033416748,
+      "learning_rate": 0.0002662484393375855,
+      "loss": 2.3664112091064453,
+      "step": 1451,
+      "token_acc": 0.4907563025210084
+    },
+    {
+      "epoch": 0.6659786721706227,
+      "grad_norm": 0.3545595109462738,
+      "learning_rate": 0.00026559216294642446,
+      "loss": 2.3397302627563477,
+      "step": 1452,
+      "token_acc": 0.4932001110185956
+    },
+    {
+      "epoch": 0.6664373351679853,
+      "grad_norm": 0.32552570104599,
+      "learning_rate": 0.0002649364037463718,
+      "loss": 2.4264748096466064,
+      "step": 1453,
+      "token_acc": 0.48099829835507657
+    },
+    {
+      "epoch": 0.6668959981653481,
+      "grad_norm": 0.3284744918346405,
+      "learning_rate": 0.0002642811631842764,
+      "loss": 2.4170119762420654,
+      "step": 1454,
+      "token_acc": 0.48072051787222064
+    },
+    {
+      "epoch": 0.6673546611627107,
+      "grad_norm": 0.32984036207199097,
+      "learning_rate": 0.0002636264427058439,
+      "loss": 2.377608299255371,
+      "step": 1455,
+      "token_acc": 0.49892066918510525
+    },
+    {
+      "epoch": 0.6678133241600734,
+      "grad_norm": 0.34834277629852295,
+      "learning_rate": 0.00026297224375563123,
+      "loss": 2.2463531494140625,
+      "step": 1456,
+      "token_acc": 0.5002875215641173
+    },
+    {
+      "epoch": 0.6682719871574361,
+      "grad_norm": 0.3299846053123474,
+      "learning_rate": 0.00026231856777704575,
+      "loss": 2.4062135219573975,
+      "step": 1457,
+      "token_acc": 0.4804088586030664
+    },
+    {
+      "epoch": 0.6687306501547987,
+      "grad_norm": 0.36206936836242676,
+      "learning_rate": 0.00026166541621234026,
+      "loss": 2.3280835151672363,
+      "step": 1458,
+      "token_acc": 0.5056147422977253
+    },
+    {
+      "epoch": 0.6691893131521615,
+      "grad_norm": 0.3462112247943878,
+      "learning_rate": 0.00026101279050261045,
+      "loss": 2.3709912300109863,
+      "step": 1459,
+      "token_acc": 0.4866876610363584
+    },
+    {
+      "epoch": 0.6696479761495241,
+      "grad_norm": 0.3350227177143097,
+      "learning_rate": 0.00026036069208779247,
+      "loss": 2.3098535537719727,
+      "step": 1460,
+      "token_acc": 0.5071488645920942
+    },
+    {
+      "epoch": 0.6701066391468868,
+      "grad_norm": 0.35411742329597473,
+      "learning_rate": 0.0002597091224066581,
+      "loss": 2.4417033195495605,
+      "step": 1461,
+      "token_acc": 0.47085806799784136
+    },
+    {
+      "epoch": 0.6705653021442495,
+      "grad_norm": 0.3361799120903015,
+      "learning_rate": 0.00025905808289681365,
+      "loss": 2.261319160461426,
+      "step": 1462,
+      "token_acc": 0.507722549845549
+    },
+    {
+      "epoch": 0.6710239651416122,
+      "grad_norm": 0.36045587062835693,
+      "learning_rate": 0.0002584075749946946,
+      "loss": 2.4379801750183105,
+      "step": 1463,
+      "token_acc": 0.48335183129855713
+    },
+    {
+      "epoch": 0.6714826281389749,
+      "grad_norm": 0.3445369303226471,
+      "learning_rate": 0.00025775760013556424,
+      "loss": 2.475827217102051,
+      "step": 1464,
+      "token_acc": 0.47835926449787836
+    },
+    {
+      "epoch": 0.6719412911363376,
+      "grad_norm": 0.3342587947845459,
+      "learning_rate": 0.0002571081597535095,
+      "loss": 2.498302936553955,
+      "step": 1465,
+      "token_acc": 0.46957708049113234
+    },
+    {
+      "epoch": 0.6723999541337002,
+      "grad_norm": 0.32142579555511475,
+      "learning_rate": 0.00025645925528143776,
+      "loss": 2.397772789001465,
+      "step": 1466,
+      "token_acc": 0.4822791712104689
+    },
+    {
+      "epoch": 0.672858617131063,
+      "grad_norm": 0.3359048068523407,
+      "learning_rate": 0.0002558108881510747,
+      "loss": 2.501614809036255,
+      "step": 1467,
+      "token_acc": 0.46936008676789587
+    },
+    {
+      "epoch": 0.6733172801284256,
+      "grad_norm": 0.328414648771286,
+      "learning_rate": 0.00025516305979295963,
+      "loss": 2.350132942199707,
+      "step": 1468,
+      "token_acc": 0.49167349167349167
+    },
+    {
+      "epoch": 0.6737759431257884,
+      "grad_norm": 0.327379435300827,
+      "learning_rate": 0.0002545157716364439,
+      "loss": 2.3491439819335938,
+      "step": 1469,
+      "token_acc": 0.5065075921908894
+    },
+    {
+      "epoch": 0.674234606123151,
+      "grad_norm": 0.34349262714385986,
+      "learning_rate": 0.00025386902510968624,
+      "loss": 2.3576996326446533,
+      "step": 1470,
+      "token_acc": 0.4818005001389275
+    },
+    {
+      "epoch": 0.6746932691205138,
+      "grad_norm": 0.3329917788505554,
+      "learning_rate": 0.00025322282163965095,
+      "loss": 2.302304744720459,
+      "step": 1471,
+      "token_acc": 0.5014269406392694
+    },
+    {
+      "epoch": 0.6751519321178764,
+      "grad_norm": 0.3439604640007019,
+      "learning_rate": 0.00025257716265210384,
+      "loss": 2.515772581100464,
+      "step": 1472,
+      "token_acc": 0.4589358799454297
+    },
+    {
+      "epoch": 0.6756105951152391,
+      "grad_norm": 0.34442853927612305,
+      "learning_rate": 0.0002519320495716091,
+      "loss": 2.254587173461914,
+      "step": 1473,
+      "token_acc": 0.514854260089686
+    },
+    {
+      "epoch": 0.6760692581126018,
+      "grad_norm": 0.33922451734542847,
+      "learning_rate": 0.00025128748382152716,
+      "loss": 2.350156784057617,
+      "step": 1474,
+      "token_acc": 0.475619949846754
+    },
+    {
+      "epoch": 0.6765279211099644,
+      "grad_norm": 0.3449372947216034,
+      "learning_rate": 0.00025064346682401016,
+      "loss": 2.2954864501953125,
+      "step": 1475,
+      "token_acc": 0.4883116883116883
+    },
+    {
+      "epoch": 0.6769865841073271,
+      "grad_norm": 0.33519020676612854,
+      "learning_rate": 0.0002500000000000001,
+      "loss": 2.285968065261841,
+      "step": 1476,
+      "token_acc": 0.49436348638988176
+    },
+    {
+      "epoch": 0.6774452471046898,
+      "grad_norm": 0.366726279258728,
+      "learning_rate": 0.0002493570847692246,
+      "loss": 2.3989076614379883,
+      "step": 1477,
+      "token_acc": 0.48774795799299886
+    },
+    {
+      "epoch": 0.6779039101020525,
+      "grad_norm": 0.35372060537338257,
+      "learning_rate": 0.00024871472255019424,
+      "loss": 2.466765880584717,
+      "step": 1478,
+      "token_acc": 0.46937590711175614
+    },
+    {
+      "epoch": 0.6783625730994152,
+      "grad_norm": 0.35887521505355835,
+      "learning_rate": 0.00024807291476019994,
+      "loss": 2.4246630668640137,
+      "step": 1479,
+      "token_acc": 0.48754951895868703
+    },
+    {
+      "epoch": 0.6788212360967779,
+      "grad_norm": 0.3558376431465149,
+      "learning_rate": 0.00024743166281530877,
+      "loss": 2.2123970985412598,
+      "step": 1480,
+      "token_acc": 0.5213283710277699
+    },
+    {
+      "epoch": 0.6792798990941405,
+      "grad_norm": 0.3533353805541992,
+      "learning_rate": 0.000246790968130362,
+      "loss": 2.412726640701294,
+      "step": 1481,
+      "token_acc": 0.47968430283542823
+    },
+    {
+      "epoch": 0.6797385620915033,
+      "grad_norm": 0.338015615940094,
+      "learning_rate": 0.0002461508321189706,
+      "loss": 2.3070504665374756,
+      "step": 1482,
+      "token_acc": 0.4854341736694678
+    },
+    {
+      "epoch": 0.6801972250888659,
+      "grad_norm": 0.3468375504016876,
+      "learning_rate": 0.00024551125619351385,
+      "loss": 2.454956531524658,
+      "step": 1483,
+      "token_acc": 0.4814106068890104
+    },
+    {
+      "epoch": 0.6806558880862287,
+      "grad_norm": 0.31844574213027954,
+      "learning_rate": 0.00024487224176513453,
+      "loss": 2.303147315979004,
+      "step": 1484,
+      "token_acc": 0.48534385569334837
+    },
+    {
+      "epoch": 0.6811145510835913,
+      "grad_norm": 0.313986599445343,
+      "learning_rate": 0.0002442337902437365,
+      "loss": 2.339278221130371,
+      "step": 1485,
+      "token_acc": 0.5069817400644469
+    },
+    {
+      "epoch": 0.6815732140809541,
+      "grad_norm": 0.3568921685218811,
+      "learning_rate": 0.0002435959030379824,
+      "loss": 2.229948043823242,
+      "step": 1486,
+      "token_acc": 0.5117331071529545
+    },
+    {
+      "epoch": 0.6820318770783167,
+      "grad_norm": 0.34503602981567383,
+      "learning_rate": 0.00024295858155528888,
+      "loss": 2.3662681579589844,
+      "step": 1487,
+      "token_acc": 0.4761251372118551
+    },
+    {
+      "epoch": 0.6824905400756794,
+      "grad_norm": 0.35981976985931396,
+      "learning_rate": 0.00024232182720182523,
+      "loss": 2.429936408996582,
+      "step": 1488,
+      "token_acc": 0.479343520090549
+    },
+    {
+      "epoch": 0.6829492030730421,
+      "grad_norm": 0.35146617889404297,
+      "learning_rate": 0.00024168564138250855,
+      "loss": 2.4169921875,
+      "step": 1489,
+      "token_acc": 0.48028477546549836
+    },
+    {
+      "epoch": 0.6834078660704048,
+      "grad_norm": 0.338421106338501,
+      "learning_rate": 0.00024105002550100246,
+      "loss": 2.2379231452941895,
+      "step": 1490,
+      "token_acc": 0.5088534107402032
+    },
+    {
+      "epoch": 0.6838665290677675,
+      "grad_norm": 0.3549973964691162,
+      "learning_rate": 0.00024041498095971254,
+      "loss": 2.387535333633423,
+      "step": 1491,
+      "token_acc": 0.4848569046957488
+    },
+    {
+      "epoch": 0.6843251920651301,
+      "grad_norm": 0.3511679768562317,
+      "learning_rate": 0.0002397805091597835,
+      "loss": 2.4333364963531494,
+      "step": 1492,
+      "token_acc": 0.48010973936899864
+    },
+    {
+      "epoch": 0.6847838550624928,
+      "grad_norm": 0.355552077293396,
+      "learning_rate": 0.0002391466115010973,
+      "loss": 2.326216697692871,
+      "step": 1493,
+      "token_acc": 0.48661731207289294
+    },
+    {
+      "epoch": 0.6852425180598555,
+      "grad_norm": 0.3562723994255066,
+      "learning_rate": 0.00023851328938226808,
+      "loss": 2.3644156455993652,
+      "step": 1494,
+      "token_acc": 0.497971328103868
+    },
+    {
+      "epoch": 0.6857011810572182,
+      "grad_norm": 0.32964444160461426,
+      "learning_rate": 0.00023788054420064109,
+      "loss": 2.3610994815826416,
+      "step": 1495,
+      "token_acc": 0.4924565898092798
+    },
+    {
+      "epoch": 0.6861598440545809,
+      "grad_norm": 0.37209513783454895,
+      "learning_rate": 0.00023724837735228773,
+      "loss": 2.3160383701324463,
+      "step": 1496,
+      "token_acc": 0.49870354364736386
+    },
+    {
+      "epoch": 0.6866185070519436,
+      "grad_norm": 0.32344546914100647,
+      "learning_rate": 0.00023661679023200422,
+      "loss": 2.201646327972412,
+      "step": 1497,
+      "token_acc": 0.5107933837959069
+    },
+    {
+      "epoch": 0.6870771700493062,
+      "grad_norm": 0.32305777072906494,
+      "learning_rate": 0.00023598578423330714,
+      "loss": 2.4933509826660156,
+      "step": 1498,
+      "token_acc": 0.46548004314994607
+    },
+    {
+      "epoch": 0.687535833046669,
+      "grad_norm": 0.3323233723640442,
+      "learning_rate": 0.00023535536074843083,
+      "loss": 2.3102240562438965,
+      "step": 1499,
+      "token_acc": 0.49496872450367146
+    },
+    {
+      "epoch": 0.6879944960440316,
+      "grad_norm": 0.334379106760025,
+      "learning_rate": 0.00023472552116832502,
+      "loss": 2.514124870300293,
+      "step": 1500,
+      "token_acc": 0.4649545211342964
+    },
+    {
+      "epoch": 0.6884531590413944,
+      "grad_norm": 0.32077348232269287,
+      "learning_rate": 0.0002340962668826503,
+      "loss": 2.369551181793213,
+      "step": 1501,
+      "token_acc": 0.48006833712984054
+    },
+    {
+      "epoch": 0.688911822038757,
+      "grad_norm": 0.3339844346046448,
+      "learning_rate": 0.00023346759927977663,
+      "loss": 2.363593578338623,
+      "step": 1502,
+      "token_acc": 0.4962901896125309
+    },
+    {
+      "epoch": 0.6893704850361198,
+      "grad_norm": 0.33760666847229004,
+      "learning_rate": 0.0002328395197467789,
+      "loss": 2.3581886291503906,
+      "step": 1503,
+      "token_acc": 0.490862364363221
+    },
+    {
+      "epoch": 0.6898291480334824,
+      "grad_norm": 0.3430006504058838,
+      "learning_rate": 0.00023221202966943515,
+      "loss": 2.400117874145508,
+      "step": 1504,
+      "token_acc": 0.48106591865357645
+    },
+    {
+      "epoch": 0.6902878110308451,
+      "grad_norm": 0.31739991903305054,
+      "learning_rate": 0.0002315851304322223,
+      "loss": 2.3944246768951416,
+      "step": 1505,
+      "token_acc": 0.49172642029784885
+    },
+    {
+      "epoch": 0.6907464740282078,
+      "grad_norm": 0.3356907367706299,
+      "learning_rate": 0.0002309588234183137,
+      "loss": 2.327662467956543,
+      "step": 1506,
+      "token_acc": 0.4897959183673469
+    },
+    {
+      "epoch": 0.6912051370255705,
+      "grad_norm": 0.337432324886322,
+      "learning_rate": 0.00023033311000957653,
+      "loss": 2.3485326766967773,
+      "step": 1507,
+      "token_acc": 0.4802213001383126
+    },
+    {
+      "epoch": 0.6916638000229332,
+      "grad_norm": 0.35430288314819336,
+      "learning_rate": 0.00022970799158656758,
+      "loss": 2.3862409591674805,
+      "step": 1508,
+      "token_acc": 0.4883788495061011
+    },
+    {
+      "epoch": 0.6921224630202958,
+      "grad_norm": 0.3189259469509125,
+      "learning_rate": 0.0002290834695285316,
+      "loss": 2.318734884262085,
+      "step": 1509,
+      "token_acc": 0.5015641293013556
+    },
+    {
+      "epoch": 0.6925811260176585,
+      "grad_norm": 0.3486538529396057,
+      "learning_rate": 0.00022845954521339678,
+      "loss": 2.3482823371887207,
+      "step": 1510,
+      "token_acc": 0.48900789177001125
+    },
+    {
+      "epoch": 0.6930397890150212,
+      "grad_norm": 0.35996153950691223,
+      "learning_rate": 0.0002278362200177732,
+      "loss": 2.417691230773926,
+      "step": 1511,
+      "token_acc": 0.48901569186875893
+    },
+    {
+      "epoch": 0.6934984520123839,
+      "grad_norm": 0.3472958207130432,
+      "learning_rate": 0.00022721349531694852,
+      "loss": 2.315305709838867,
+      "step": 1512,
+      "token_acc": 0.49136008918617613
+    },
+    {
+      "epoch": 0.6939571150097466,
+      "grad_norm": 0.3579290509223938,
+      "learning_rate": 0.0002265913724848855,
+      "loss": 2.3845529556274414,
+      "step": 1513,
+      "token_acc": 0.4862791383889053
+    },
+    {
+      "epoch": 0.6944157780071093,
+      "grad_norm": 0.3245769739151001,
+      "learning_rate": 0.00022596985289421946,
+      "loss": 2.4838666915893555,
+      "step": 1514,
+      "token_acc": 0.4803063457330416
+    },
+    {
+      "epoch": 0.6948744410044719,
+      "grad_norm": 0.3510947823524475,
+      "learning_rate": 0.00022534893791625405,
+      "loss": 2.355891466140747,
+      "step": 1515,
+      "token_acc": 0.49679397825480903
+    },
+    {
+      "epoch": 0.6953331040018347,
+      "grad_norm": 0.327653169631958,
+      "learning_rate": 0.00022472862892095968,
+      "loss": 2.4002974033355713,
+      "step": 1516,
+      "token_acc": 0.4853392907009215
+    },
+    {
+      "epoch": 0.6957917669991973,
+      "grad_norm": 0.32736408710479736,
+      "learning_rate": 0.00022410892727696896,
+      "loss": 2.4073326587677,
+      "step": 1517,
+      "token_acc": 0.4921304103428893
+    },
+    {
+      "epoch": 0.6962504299965601,
+      "grad_norm": 0.3398886024951935,
+      "learning_rate": 0.0002234898343515751,
+      "loss": 2.4565858840942383,
+      "step": 1518,
+      "token_acc": 0.4765854963874766
+    },
+    {
+      "epoch": 0.6967090929939227,
+      "grad_norm": 0.3381604552268982,
+      "learning_rate": 0.00022287135151072792,
+      "loss": 2.3410589694976807,
+      "step": 1519,
+      "token_acc": 0.4873125720876586
+    },
+    {
+      "epoch": 0.6971677559912854,
+      "grad_norm": 0.34329554438591003,
+      "learning_rate": 0.00022225348011903096,
+      "loss": 2.3413262367248535,
+      "step": 1520,
+      "token_acc": 0.49366375668825685
+    },
+    {
+      "epoch": 0.6976264189886481,
+      "grad_norm": 0.32418933510780334,
+      "learning_rate": 0.0002216362215397393,
+      "loss": 2.3659088611602783,
+      "step": 1521,
+      "token_acc": 0.4886082898709854
+    },
+    {
+      "epoch": 0.6980850819860108,
+      "grad_norm": 0.3371358811855316,
+      "learning_rate": 0.00022101957713475522,
+      "loss": 2.352426290512085,
+      "step": 1522,
+      "token_acc": 0.4858125537403267
+    },
+    {
+      "epoch": 0.6985437449833735,
+      "grad_norm": 0.33461418747901917,
+      "learning_rate": 0.00022040354826462666,
+      "loss": 2.4209957122802734,
+      "step": 1523,
+      "token_acc": 0.4801223241590214
+    },
+    {
+      "epoch": 0.6990024079807362,
+      "grad_norm": 0.33934280276298523,
+      "learning_rate": 0.0002197881362885426,
+      "loss": 2.3614234924316406,
+      "step": 1524,
+      "token_acc": 0.49208515283842796
+    },
+    {
+      "epoch": 0.6994610709780988,
+      "grad_norm": 0.3302291929721832,
+      "learning_rate": 0.0002191733425643318,
+      "loss": 2.3257555961608887,
+      "step": 1525,
+      "token_acc": 0.5002832861189802
+    },
+    {
+      "epoch": 0.6999197339754615,
+      "grad_norm": 0.3377806842327118,
+      "learning_rate": 0.00021855916844845826,
+      "loss": 2.3069403171539307,
+      "step": 1526,
+      "token_acc": 0.49720982142857145
+    },
+    {
+      "epoch": 0.7003783969728242,
+      "grad_norm": 0.3423719108104706,
+      "learning_rate": 0.00021794561529601898,
+      "loss": 2.3746275901794434,
+      "step": 1527,
+      "token_acc": 0.48451576576576577
+    },
+    {
+      "epoch": 0.7008370599701869,
+      "grad_norm": 0.35406455397605896,
+      "learning_rate": 0.00021733268446074138,
+      "loss": 2.2250373363494873,
+      "step": 1528,
+      "token_acc": 0.5114893617021277
+    },
+    {
+      "epoch": 0.7012957229675496,
+      "grad_norm": 0.3499007225036621,
+      "learning_rate": 0.00021672037729497917,
+      "loss": 2.437242269515991,
+      "step": 1529,
+      "token_acc": 0.48740658732355385
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "grad_norm": 0.3445296585559845,
+      "learning_rate": 0.0002161086951497106,
+      "loss": 2.425785541534424,
+      "step": 1530,
+      "token_acc": 0.4908503767491927
+    },
+    {
+      "epoch": 0.702213048962275,
+      "grad_norm": 0.3611782193183899,
+      "learning_rate": 0.00021549763937453442,
+      "loss": 2.3834478855133057,
+      "step": 1531,
+      "token_acc": 0.4848153214774282
+    },
+    {
+      "epoch": 0.7026717119596376,
+      "grad_norm": 0.3537669777870178,
+      "learning_rate": 0.00021488721131766736,
+      "loss": 2.257786273956299,
+      "step": 1532,
+      "token_acc": 0.5002805836139169
+    },
+    {
+      "epoch": 0.7031303749570004,
+      "grad_norm": 0.343782901763916,
+      "learning_rate": 0.00021427741232594183,
+      "loss": 2.386030912399292,
+      "step": 1533,
+      "token_acc": 0.47651195499296767
+    },
+    {
+      "epoch": 0.703589037954363,
+      "grad_norm": 0.3596150875091553,
+      "learning_rate": 0.0002136682437448013,
+      "loss": 2.3823487758636475,
+      "step": 1534,
+      "token_acc": 0.4835408022130014
+    },
+    {
+      "epoch": 0.7040477009517258,
+      "grad_norm": 0.35633689165115356,
+      "learning_rate": 0.0002130597069182994,
+      "loss": 2.4964325428009033,
+      "step": 1535,
+      "token_acc": 0.4711348915798367
+    },
+    {
+      "epoch": 0.7045063639490884,
+      "grad_norm": 0.35173147916793823,
+      "learning_rate": 0.0002124518031890948,
+      "loss": 2.4514927864074707,
+      "step": 1536,
+      "token_acc": 0.47945945945945945
+    },
+    {
+      "epoch": 0.7049650269464511,
+      "grad_norm": 0.316037654876709,
+      "learning_rate": 0.0002118445338984502,
+      "loss": 2.3340044021606445,
+      "step": 1537,
+      "token_acc": 0.48456449834619625
+    },
+    {
+      "epoch": 0.7054236899438138,
+      "grad_norm": 0.3303672969341278,
+      "learning_rate": 0.00021123790038622808,
+      "loss": 2.297034978866577,
+      "step": 1538,
+      "token_acc": 0.5033670033670034
+    },
+    {
+      "epoch": 0.7058823529411765,
+      "grad_norm": 0.34590238332748413,
+      "learning_rate": 0.0002106319039908879,
+      "loss": 2.3945984840393066,
+      "step": 1539,
+      "token_acc": 0.49217002237136465
+    },
+    {
+      "epoch": 0.7063410159385392,
+      "grad_norm": 0.3515450060367584,
+      "learning_rate": 0.00021002654604948412,
+      "loss": 2.2335052490234375,
+      "step": 1540,
+      "token_acc": 0.5028216704288939
+    },
+    {
+      "epoch": 0.7067996789359019,
+      "grad_norm": 0.35775527358055115,
+      "learning_rate": 0.00020942182789766172,
+      "loss": 2.2620928287506104,
+      "step": 1541,
+      "token_acc": 0.5074879909578978
+    },
+    {
+      "epoch": 0.7072583419332645,
+      "grad_norm": 0.3592069745063782,
+      "learning_rate": 0.00020881775086965492,
+      "loss": 2.3670907020568848,
+      "step": 1542,
+      "token_acc": 0.4849072279147051
+    },
+    {
+      "epoch": 0.7077170049306272,
+      "grad_norm": 0.32948219776153564,
+      "learning_rate": 0.00020821431629828246,
+      "loss": 2.398244857788086,
+      "step": 1543,
+      "token_acc": 0.4889253486464315
+    },
+    {
+      "epoch": 0.7081756679279899,
+      "grad_norm": 0.3307759463787079,
+      "learning_rate": 0.00020761152551494643,
+      "loss": 2.2044475078582764,
+      "step": 1544,
+      "token_acc": 0.5060406370126305
+    },
+    {
+      "epoch": 0.7086343309253526,
+      "grad_norm": 0.3441196084022522,
+      "learning_rate": 0.00020700937984962798,
+      "loss": 2.3607406616210938,
+      "step": 1545,
+      "token_acc": 0.49596437517394937
+    },
+    {
+      "epoch": 0.7090929939227153,
+      "grad_norm": 0.3729856610298157,
+      "learning_rate": 0.0002064078806308848,
+      "loss": 2.3864150047302246,
+      "step": 1546,
+      "token_acc": 0.49802594472645234
+    },
+    {
+      "epoch": 0.7095516569200779,
+      "grad_norm": 0.3341358006000519,
+      "learning_rate": 0.00020580702918584882,
+      "loss": 2.330585479736328,
+      "step": 1547,
+      "token_acc": 0.49930843706777317
+    },
+    {
+      "epoch": 0.7100103199174407,
+      "grad_norm": 0.35409462451934814,
+      "learning_rate": 0.000205206826840222,
+      "loss": 2.2961018085479736,
+      "step": 1548,
+      "token_acc": 0.503919372900336
+    },
+    {
+      "epoch": 0.7104689829148033,
+      "grad_norm": 0.3554162085056305,
+      "learning_rate": 0.0002046072749182751,
+      "loss": 2.4137563705444336,
+      "step": 1549,
+      "token_acc": 0.47774979009235935
+    },
+    {
+      "epoch": 0.7109276459121661,
+      "grad_norm": 0.34207361936569214,
+      "learning_rate": 0.00020400837474284273,
+      "loss": 2.280057191848755,
+      "step": 1550,
+      "token_acc": 0.49105080831408776
+    },
+    {
+      "epoch": 0.7113863089095287,
+      "grad_norm": 0.33347874879837036,
+      "learning_rate": 0.0002034101276353224,
+      "loss": 2.4710445404052734,
+      "step": 1551,
+      "token_acc": 0.483665799363978
+    },
+    {
+      "epoch": 0.7118449719068914,
+      "grad_norm": 0.3239796459674835,
+      "learning_rate": 0.00020281253491567027,
+      "loss": 2.452528476715088,
+      "step": 1552,
+      "token_acc": 0.4867584745762712
+    },
+    {
+      "epoch": 0.7123036349042541,
+      "grad_norm": 0.3422119915485382,
+      "learning_rate": 0.0002022155979023984,
+      "loss": 2.2803030014038086,
+      "step": 1553,
+      "token_acc": 0.5076380728554641
+    },
+    {
+      "epoch": 0.7127622979016168,
+      "grad_norm": 0.3353760242462158,
+      "learning_rate": 0.000201619317912573,
+      "loss": 2.3245232105255127,
+      "step": 1554,
+      "token_acc": 0.4958768554150632
+    },
+    {
+      "epoch": 0.7132209608989795,
+      "grad_norm": 0.3413839638233185,
+      "learning_rate": 0.00020102369626180962,
+      "loss": 2.4467058181762695,
+      "step": 1555,
+      "token_acc": 0.4770065695515567
+    },
+    {
+      "epoch": 0.7136796238963422,
+      "grad_norm": 0.33466485142707825,
+      "learning_rate": 0.0002004287342642721,
+      "loss": 2.2656667232513428,
+      "step": 1556,
+      "token_acc": 0.5104052573932092
+    },
+    {
+      "epoch": 0.7141382868937048,
+      "grad_norm": 0.3264230489730835,
+      "learning_rate": 0.00019983443323266824,
+      "loss": 2.381321668624878,
+      "step": 1557,
+      "token_acc": 0.47438063063063063
+    },
+    {
+      "epoch": 0.7145969498910676,
+      "grad_norm": 0.3395976424217224,
+      "learning_rate": 0.00019924079447824805,
+      "loss": 2.3830809593200684,
+      "step": 1558,
+      "token_acc": 0.5017064846416383
+    },
+    {
+      "epoch": 0.7150556128884302,
+      "grad_norm": 0.3445148766040802,
+      "learning_rate": 0.00019864781931079977,
+      "loss": 2.341043710708618,
+      "step": 1559,
+      "token_acc": 0.4858106209609441
+    },
+    {
+      "epoch": 0.7155142758857929,
+      "grad_norm": 0.35488107800483704,
+      "learning_rate": 0.00019805550903864773,
+      "loss": 2.412588596343994,
+      "step": 1560,
+      "token_acc": 0.504206393718452
+    },
+    {
+      "epoch": 0.7159729388831556,
+      "grad_norm": 0.3293531835079193,
+      "learning_rate": 0.00019746386496864948,
+      "loss": 2.461543321609497,
+      "step": 1561,
+      "token_acc": 0.47377232142857145
+    },
+    {
+      "epoch": 0.7164316018805182,
+      "grad_norm": 0.3348361849784851,
+      "learning_rate": 0.00019687288840619226,
+      "loss": 2.372575283050537,
+      "step": 1562,
+      "token_acc": 0.49392265193370166
+    },
+    {
+      "epoch": 0.716890264877881,
+      "grad_norm": 0.3561291992664337,
+      "learning_rate": 0.0001962825806551911,
+      "loss": 2.3713603019714355,
+      "step": 1563,
+      "token_acc": 0.4826606026151222
+    },
+    {
+      "epoch": 0.7173489278752436,
+      "grad_norm": 0.3244268596172333,
+      "learning_rate": 0.0001956929430180846,
+      "loss": 2.372830390930176,
+      "step": 1564,
+      "token_acc": 0.5014140271493213
+    },
+    {
+      "epoch": 0.7178075908726064,
+      "grad_norm": 0.34590813517570496,
+      "learning_rate": 0.00019510397679583374,
+      "loss": 2.3227691650390625,
+      "step": 1565,
+      "token_acc": 0.49501566505269157
+    },
+    {
+      "epoch": 0.718266253869969,
+      "grad_norm": 0.3508793115615845,
+      "learning_rate": 0.0001945156832879174,
+      "loss": 2.3720040321350098,
+      "step": 1566,
+      "token_acc": 0.49654178674351584
+    },
+    {
+      "epoch": 0.7187249168673318,
+      "grad_norm": 0.3506203293800354,
+      "learning_rate": 0.00019392806379233036,
+      "loss": 2.276287078857422,
+      "step": 1567,
+      "token_acc": 0.5031500572737686
+    },
+    {
+      "epoch": 0.7191835798646944,
+      "grad_norm": 0.33903056383132935,
+      "learning_rate": 0.00019334111960558065,
+      "loss": 2.350778102874756,
+      "step": 1568,
+      "token_acc": 0.49257567104511707
+    },
+    {
+      "epoch": 0.7196422428620571,
+      "grad_norm": 0.3471570611000061,
+      "learning_rate": 0.00019275485202268573,
+      "loss": 2.421555519104004,
+      "step": 1569,
+      "token_acc": 0.4855332047395977
+    },
+    {
+      "epoch": 0.7201009058594198,
+      "grad_norm": 0.3496105968952179,
+      "learning_rate": 0.00019216926233717085,
+      "loss": 2.3653883934020996,
+      "step": 1570,
+      "token_acc": 0.5016602102933038
+    },
+    {
+      "epoch": 0.7205595688567825,
+      "grad_norm": 0.33393850922584534,
+      "learning_rate": 0.00019158435184106498,
+      "loss": 2.3865904808044434,
+      "step": 1571,
+      "token_acc": 0.48361581920903957
+    },
+    {
+      "epoch": 0.7210182318541452,
+      "grad_norm": 0.3244492709636688,
+      "learning_rate": 0.00019100012182489905,
+      "loss": 2.3554043769836426,
+      "step": 1572,
+      "token_acc": 0.5023842917251052
+    },
+    {
+      "epoch": 0.7214768948515079,
+      "grad_norm": 0.3523988425731659,
+      "learning_rate": 0.00019041657357770226,
+      "loss": 2.2677834033966064,
+      "step": 1573,
+      "token_acc": 0.49451754385964913
+    },
+    {
+      "epoch": 0.7219355578488705,
+      "grad_norm": 0.34086042642593384,
+      "learning_rate": 0.00018983370838699943,
+      "loss": 2.3781309127807617,
+      "step": 1574,
+      "token_acc": 0.4931506849315068
+    },
+    {
+      "epoch": 0.7223942208462333,
+      "grad_norm": 0.34232792258262634,
+      "learning_rate": 0.00018925152753880892,
+      "loss": 2.3204708099365234,
+      "step": 1575,
+      "token_acc": 0.4876875176903481
+    },
+    {
+      "epoch": 0.7228528838435959,
+      "grad_norm": 0.3605189025402069,
+      "learning_rate": 0.00018867003231763847,
+      "loss": 2.368988513946533,
+      "step": 1576,
+      "token_acc": 0.4879089615931721
+    },
+    {
+      "epoch": 0.7233115468409586,
+      "grad_norm": 0.3460288643836975,
+      "learning_rate": 0.00018808922400648375,
+      "loss": 2.3541975021362305,
+      "step": 1577,
+      "token_acc": 0.4983277591973244
+    },
+    {
+      "epoch": 0.7237702098383213,
+      "grad_norm": 0.353070467710495,
+      "learning_rate": 0.00018750910388682428,
+      "loss": 2.3728508949279785,
+      "step": 1578,
+      "token_acc": 0.4813867576015914
+    },
+    {
+      "epoch": 0.7242288728356839,
+      "grad_norm": 0.33050358295440674,
+      "learning_rate": 0.00018692967323862125,
+      "loss": 2.3066554069519043,
+      "step": 1579,
+      "token_acc": 0.4960254372019078
+    },
+    {
+      "epoch": 0.7246875358330467,
+      "grad_norm": 0.3250425457954407,
+      "learning_rate": 0.00018635093334031517,
+      "loss": 2.3048601150512695,
+      "step": 1580,
+      "token_acc": 0.5002715915263444
+    },
+    {
+      "epoch": 0.7251461988304093,
+      "grad_norm": 0.3314255475997925,
+      "learning_rate": 0.00018577288546882165,
+      "loss": 2.3339643478393555,
+      "step": 1581,
+      "token_acc": 0.4863146253801493
+    },
+    {
+      "epoch": 0.7256048618277721,
+      "grad_norm": 0.3297326862812042,
+      "learning_rate": 0.00018519553089953023,
+      "loss": 2.338585615158081,
+      "step": 1582,
+      "token_acc": 0.4910414333706607
+    },
+    {
+      "epoch": 0.7260635248251347,
+      "grad_norm": 0.32463183999061584,
+      "learning_rate": 0.0001846188709063001,
+      "loss": 2.3846006393432617,
+      "step": 1583,
+      "token_acc": 0.4976705946834749
+    },
+    {
+      "epoch": 0.7265221878224974,
+      "grad_norm": 0.3435765206813812,
+      "learning_rate": 0.00018404290676145857,
+      "loss": 2.3555126190185547,
+      "step": 1584,
+      "token_acc": 0.4963687150837989
+    },
+    {
+      "epoch": 0.7269808508198601,
+      "grad_norm": 0.34066885709762573,
+      "learning_rate": 0.00018346763973579722,
+      "loss": 2.3701300621032715,
+      "step": 1585,
+      "token_acc": 0.48135964912280704
+    },
+    {
+      "epoch": 0.7274395138172228,
+      "grad_norm": 0.3243306875228882,
+      "learning_rate": 0.00018289307109856939,
+      "loss": 2.4006075859069824,
+      "step": 1586,
+      "token_acc": 0.4846322722283205
+    },
+    {
+      "epoch": 0.7278981768145855,
+      "grad_norm": 0.33059221506118774,
+      "learning_rate": 0.0001823192021174882,
+      "loss": 2.216521739959717,
+      "step": 1587,
+      "token_acc": 0.5285921625544268
+    },
+    {
+      "epoch": 0.7283568398119482,
+      "grad_norm": 0.33596155047416687,
+      "learning_rate": 0.0001817460340587223,
+      "loss": 2.277677059173584,
+      "step": 1588,
+      "token_acc": 0.4951130969003072
+    },
+    {
+      "epoch": 0.7288155028093108,
+      "grad_norm": 0.336929589509964,
+      "learning_rate": 0.00018117356818689445,
+      "loss": 2.3130226135253906,
+      "step": 1589,
+      "token_acc": 0.48497380755445274
+    },
+    {
+      "epoch": 0.7292741658066736,
+      "grad_norm": 0.3248392939567566,
+      "learning_rate": 0.00018060180576507756,
+      "loss": 2.337327241897583,
+      "step": 1590,
+      "token_acc": 0.4871099050203528
+    },
+    {
+      "epoch": 0.7297328288040362,
+      "grad_norm": 0.3442942798137665,
+      "learning_rate": 0.00018003074805479313,
+      "loss": 2.3693339824676514,
+      "step": 1591,
+      "token_acc": 0.49700598802395207
+    },
+    {
+      "epoch": 0.730191491801399,
+      "grad_norm": 0.33692827820777893,
+      "learning_rate": 0.00017946039631600724,
+      "loss": 2.255974769592285,
+      "step": 1592,
+      "token_acc": 0.5011148272017837
+    },
+    {
+      "epoch": 0.7306501547987616,
+      "grad_norm": 0.3444417715072632,
+      "learning_rate": 0.00017889075180712837,
+      "loss": 2.3173365592956543,
+      "step": 1593,
+      "token_acc": 0.48885172798216275
+    },
+    {
+      "epoch": 0.7311088177961242,
+      "grad_norm": 0.33369556069374084,
+      "learning_rate": 0.00017832181578500512,
+      "loss": 2.346073627471924,
+      "step": 1594,
+      "token_acc": 0.4939385396109388
+    },
+    {
+      "epoch": 0.731567480793487,
+      "grad_norm": 0.33577340841293335,
+      "learning_rate": 0.0001777535895049221,
+      "loss": 2.3433032035827637,
+      "step": 1595,
+      "token_acc": 0.48551724137931035
+    },
+    {
+      "epoch": 0.7320261437908496,
+      "grad_norm": 0.3291725516319275,
+      "learning_rate": 0.0001771860742205988,
+      "loss": 2.2765822410583496,
+      "step": 1596,
+      "token_acc": 0.5020990764063812
+    },
+    {
+      "epoch": 0.7324848067882124,
+      "grad_norm": 0.376070111989975,
+      "learning_rate": 0.00017661927118418525,
+      "loss": 2.312075138092041,
+      "step": 1597,
+      "token_acc": 0.4989974219421369
+    },
+    {
+      "epoch": 0.732943469785575,
+      "grad_norm": 0.3297310173511505,
+      "learning_rate": 0.00017605318164626066,
+      "loss": 2.277297019958496,
+      "step": 1598,
+      "token_acc": 0.49313533202577753
+    },
+    {
+      "epoch": 0.7334021327829378,
+      "grad_norm": 0.3394879698753357,
+      "learning_rate": 0.00017548780685582949,
+      "loss": 2.226576328277588,
+      "step": 1599,
+      "token_acc": 0.5138967668746455
+    },
+    {
+      "epoch": 0.7338607957803004,
+      "grad_norm": 0.34047818183898926,
+      "learning_rate": 0.00017492314806031922,
+      "loss": 2.3251333236694336,
+      "step": 1600,
+      "token_acc": 0.5018471156578573
+    },
+    {
+      "epoch": 0.7343194587776631,
+      "grad_norm": 0.3686220645904541,
+      "learning_rate": 0.00017435920650557806,
+      "loss": 2.4146299362182617,
+      "step": 1601,
+      "token_acc": 0.48309583682592905
+    },
+    {
+      "epoch": 0.7347781217750258,
+      "grad_norm": 0.358632892370224,
+      "learning_rate": 0.00017379598343587112,
+      "loss": 2.2951266765594482,
+      "step": 1602,
+      "token_acc": 0.491167101071532
+    },
+    {
+      "epoch": 0.7352367847723885,
+      "grad_norm": 0.34073421359062195,
+      "learning_rate": 0.00017323348009387878,
+      "loss": 2.3231122493743896,
+      "step": 1603,
+      "token_acc": 0.5013269639065817
+    },
+    {
+      "epoch": 0.7356954477697512,
+      "grad_norm": 0.3511035442352295,
+      "learning_rate": 0.0001726716977206929,
+      "loss": 2.3894424438476562,
+      "step": 1604,
+      "token_acc": 0.4972482113373693
+    },
+    {
+      "epoch": 0.7361541107671139,
+      "grad_norm": 0.3712899386882782,
+      "learning_rate": 0.00017211063755581525,
+      "loss": 2.395988941192627,
+      "step": 1605,
+      "token_acc": 0.48674080410607357
+    },
+    {
+      "epoch": 0.7366127737644765,
+      "grad_norm": 0.36385780572891235,
+      "learning_rate": 0.0001715503008371536,
+      "loss": 2.4531800746917725,
+      "step": 1606,
+      "token_acc": 0.4788051209103841
+    },
+    {
+      "epoch": 0.7370714367618393,
+      "grad_norm": 0.33243218064308167,
+      "learning_rate": 0.0001709906888010196,
+      "loss": 2.358290672302246,
+      "step": 1607,
+      "token_acc": 0.4898346435348333
+    },
+    {
+      "epoch": 0.7375300997592019,
+      "grad_norm": 0.3312876522541046,
+      "learning_rate": 0.00017043180268212638,
+      "loss": 2.4274001121520996,
+      "step": 1608,
+      "token_acc": 0.48547149122807015
+    },
+    {
+      "epoch": 0.7379887627565647,
+      "grad_norm": 0.3236379027366638,
+      "learning_rate": 0.00016987364371358481,
+      "loss": 2.2879250049591064,
+      "step": 1609,
+      "token_acc": 0.5026484527460273
+    },
+    {
+      "epoch": 0.7384474257539273,
+      "grad_norm": 0.33778122067451477,
+      "learning_rate": 0.00016931621312690214,
+      "loss": 2.365924596786499,
+      "step": 1610,
+      "token_acc": 0.4877202349172451
+    },
+    {
+      "epoch": 0.7389060887512899,
+      "grad_norm": 0.3536229133605957,
+      "learning_rate": 0.00016875951215197777,
+      "loss": 2.430210590362549,
+      "step": 1611,
+      "token_acc": 0.4781292984869326
+    },
+    {
+      "epoch": 0.7393647517486527,
+      "grad_norm": 0.3440890908241272,
+      "learning_rate": 0.00016820354201710214,
+      "loss": 2.354444980621338,
+      "step": 1612,
+      "token_acc": 0.4990160247399494
+    },
+    {
+      "epoch": 0.7398234147460153,
+      "grad_norm": 0.3411904275417328,
+      "learning_rate": 0.00016764830394895203,
+      "loss": 2.356900215148926,
+      "step": 1613,
+      "token_acc": 0.5098039215686274
+    },
+    {
+      "epoch": 0.7402820777433781,
+      "grad_norm": 0.3271668255329132,
+      "learning_rate": 0.00016709379917259027,
+      "loss": 2.4466404914855957,
+      "step": 1614,
+      "token_acc": 0.4740494032750486
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 0.33035361766815186,
+      "learning_rate": 0.00016654002891146091,
+      "loss": 2.3966317176818848,
+      "step": 1615,
+      "token_acc": 0.4772117962466488
+    },
+    {
+      "epoch": 0.7411994037381034,
+      "grad_norm": 0.3406640589237213,
+      "learning_rate": 0.00016598699438738764,
+      "loss": 2.3563101291656494,
+      "step": 1616,
+      "token_acc": 0.49260943718021605
+    },
+    {
+      "epoch": 0.7416580667354661,
+      "grad_norm": 0.3380766808986664,
+      "learning_rate": 0.00016543469682057105,
+      "loss": 2.2576003074645996,
+      "step": 1617,
+      "token_acc": 0.5047806524184477
+    },
+    {
+      "epoch": 0.7421167297328288,
+      "grad_norm": 0.3740149736404419,
+      "learning_rate": 0.00016488313742958526,
+      "loss": 2.4218525886535645,
+      "step": 1618,
+      "token_acc": 0.48518518518518516
+    },
+    {
+      "epoch": 0.7425753927301915,
+      "grad_norm": 0.34136340022087097,
+      "learning_rate": 0.00016433231743137646,
+      "loss": 2.1876931190490723,
+      "step": 1619,
+      "token_acc": 0.5144557823129252
+    },
+    {
+      "epoch": 0.7430340557275542,
+      "grad_norm": 0.34627437591552734,
+      "learning_rate": 0.0001637822380412584,
+      "loss": 2.3639187812805176,
+      "step": 1620,
+      "token_acc": 0.48645690834473326
+    },
+    {
+      "epoch": 0.7434927187249168,
+      "grad_norm": 0.3551805913448334,
+      "learning_rate": 0.00016323290047291195,
+      "loss": 2.3327231407165527,
+      "step": 1621,
+      "token_acc": 0.49930996411813416
+    },
+    {
+      "epoch": 0.7439513817222796,
+      "grad_norm": 0.34675735235214233,
+      "learning_rate": 0.0001626843059383803,
+      "loss": 2.324911117553711,
+      "step": 1622,
+      "token_acc": 0.5029077817779009
+    },
+    {
+      "epoch": 0.7444100447196422,
+      "grad_norm": 0.3591375946998596,
+      "learning_rate": 0.00016213645564806752,
+      "loss": 2.391982078552246,
+      "step": 1623,
+      "token_acc": 0.48901569186875893
+    },
+    {
+      "epoch": 0.744868707717005,
+      "grad_norm": 0.3699428141117096,
+      "learning_rate": 0.0001615893508107359,
+      "loss": 2.393920421600342,
+      "step": 1624,
+      "token_acc": 0.4906636024130997
+    },
+    {
+      "epoch": 0.7453273707143676,
+      "grad_norm": 0.3355953097343445,
+      "learning_rate": 0.00016104299263350252,
+      "loss": 2.2541823387145996,
+      "step": 1625,
+      "token_acc": 0.5008547008547009
+    },
+    {
+      "epoch": 0.7457860337117304,
+      "grad_norm": 0.3346434235572815,
+      "learning_rate": 0.00016049738232183758,
+      "loss": 2.348360776901245,
+      "step": 1626,
+      "token_acc": 0.4935100800883734
+    },
+    {
+      "epoch": 0.746244696709093,
+      "grad_norm": 0.3336450755596161,
+      "learning_rate": 0.0001599525210795606,
+      "loss": 2.309814929962158,
+      "step": 1627,
+      "token_acc": 0.5
+    },
+    {
+      "epoch": 0.7467033597064556,
+      "grad_norm": 0.35335713624954224,
+      "learning_rate": 0.00015940841010883889,
+      "loss": 2.431572914123535,
+      "step": 1628,
+      "token_acc": 0.4797516996748448
+    },
+    {
+      "epoch": 0.7471620227038184,
+      "grad_norm": 0.34837087988853455,
+      "learning_rate": 0.00015886505061018413,
+      "loss": 2.192800998687744,
+      "step": 1629,
+      "token_acc": 0.5162764134780126
+    },
+    {
+      "epoch": 0.747620685701181,
+      "grad_norm": 0.34289252758026123,
+      "learning_rate": 0.0001583224437824498,
+      "loss": 2.3121328353881836,
+      "step": 1630,
+      "token_acc": 0.4976905311778291
+    },
+    {
+      "epoch": 0.7480793486985438,
+      "grad_norm": 0.35652846097946167,
+      "learning_rate": 0.0001577805908228293,
+      "loss": 2.348264694213867,
+      "step": 1631,
+      "token_acc": 0.500277932184547
+    },
+    {
+      "epoch": 0.7485380116959064,
+      "grad_norm": 0.3318858742713928,
+      "learning_rate": 0.00015723949292685191,
+      "loss": 2.397118091583252,
+      "step": 1632,
+      "token_acc": 0.4778809393773894
+    },
+    {
+      "epoch": 0.7489966746932691,
+      "grad_norm": 0.33221501111984253,
+      "learning_rate": 0.0001566991512883818,
+      "loss": 2.4133496284484863,
+      "step": 1633,
+      "token_acc": 0.4824134199134199
+    },
+    {
+      "epoch": 0.7494553376906318,
+      "grad_norm": 0.32519495487213135,
+      "learning_rate": 0.00015615956709961378,
+      "loss": 2.4071388244628906,
+      "step": 1634,
+      "token_acc": 0.4678346564467561
+    },
+    {
+      "epoch": 0.7499140006879945,
+      "grad_norm": 0.32279929518699646,
+      "learning_rate": 0.00015562074155107215,
+      "loss": 2.4226675033569336,
+      "step": 1635,
+      "token_acc": 0.4772550038991422
+    },
+    {
+      "epoch": 0.7503726636853572,
+      "grad_norm": 0.3303390145301819,
+      "learning_rate": 0.0001550826758316068,
+      "loss": 2.331573963165283,
+      "step": 1636,
+      "token_acc": 0.49709762532981533
+    },
+    {
+      "epoch": 0.7508313266827199,
+      "grad_norm": 0.32371798157691956,
+      "learning_rate": 0.00015454537112839122,
+      "loss": 2.3231453895568848,
+      "step": 1637,
+      "token_acc": 0.4886677722498618
+    },
+    {
+      "epoch": 0.7512899896800825,
+      "grad_norm": 0.3316543400287628,
+      "learning_rate": 0.00015400882862692033,
+      "loss": 2.4417612552642822,
+      "step": 1638,
+      "token_acc": 0.4853057982525814
+    },
+    {
+      "epoch": 0.7517486526774453,
+      "grad_norm": 0.3375518023967743,
+      "learning_rate": 0.00015347304951100665,
+      "loss": 2.2937893867492676,
+      "step": 1639,
+      "token_acc": 0.5012773204655123
+    },
+    {
+      "epoch": 0.7522073156748079,
+      "grad_norm": 0.3432401120662689,
+      "learning_rate": 0.00015293803496277907,
+      "loss": 2.42484450340271,
+      "step": 1640,
+      "token_acc": 0.4713467048710602
+    },
+    {
+      "epoch": 0.7526659786721707,
+      "grad_norm": 0.319578617811203,
+      "learning_rate": 0.00015240378616267886,
+      "loss": 2.2832694053649902,
+      "step": 1641,
+      "token_acc": 0.5053983075576306
+    },
+    {
+      "epoch": 0.7531246416695333,
+      "grad_norm": 0.3443111777305603,
+      "learning_rate": 0.00015187030428945843,
+      "loss": 2.1909384727478027,
+      "step": 1642,
+      "token_acc": 0.5245529378370707
+    },
+    {
+      "epoch": 0.753583304666896,
+      "grad_norm": 0.3458714783191681,
+      "learning_rate": 0.0001513375905201776,
+      "loss": 2.3498029708862305,
+      "step": 1643,
+      "token_acc": 0.4933481152993348
+    },
+    {
+      "epoch": 0.7540419676642587,
+      "grad_norm": 0.33867815136909485,
+      "learning_rate": 0.00015080564603020142,
+      "loss": 2.2973504066467285,
+      "step": 1644,
+      "token_acc": 0.48797939324556383
+    },
+    {
+      "epoch": 0.7545006306616213,
+      "grad_norm": 0.3546656370162964,
+      "learning_rate": 0.0001502744719931982,
+      "loss": 2.2942771911621094,
+      "step": 1645,
+      "token_acc": 0.5083926031294452
+    },
+    {
+      "epoch": 0.7549592936589841,
+      "grad_norm": 0.35301673412323,
+      "learning_rate": 0.00014974406958113558,
+      "loss": 2.418250560760498,
+      "step": 1646,
+      "token_acc": 0.4848998024273215
+    },
+    {
+      "epoch": 0.7554179566563467,
+      "grad_norm": 0.3369089961051941,
+      "learning_rate": 0.00014921443996427947,
+      "loss": 2.3584914207458496,
+      "step": 1647,
+      "token_acc": 0.48730684326710816
+    },
+    {
+      "epoch": 0.7558766196537094,
+      "grad_norm": 0.3427674174308777,
+      "learning_rate": 0.0001486855843111901,
+      "loss": 2.363612651824951,
+      "step": 1648,
+      "token_acc": 0.4835812517541398
+    },
+    {
+      "epoch": 0.7563352826510721,
+      "grad_norm": 0.3486386835575104,
+      "learning_rate": 0.0001481575037887201,
+      "loss": 2.3772430419921875,
+      "step": 1649,
+      "token_acc": 0.4865539229276407
+    },
+    {
+      "epoch": 0.7567939456484348,
+      "grad_norm": 0.3668610751628876,
+      "learning_rate": 0.00014763019956201253,
+      "loss": 2.3746743202209473,
+      "step": 1650,
+      "token_acc": 0.47448394495412843
+    },
+    {
+      "epoch": 0.7572526086457975,
+      "grad_norm": 0.33974599838256836,
+      "learning_rate": 0.0001471036727944966,
+      "loss": 2.320089340209961,
+      "step": 1651,
+      "token_acc": 0.4979056129572745
+    },
+    {
+      "epoch": 0.7577112716431602,
+      "grad_norm": 0.35869884490966797,
+      "learning_rate": 0.0001465779246478872,
+      "loss": 2.3279049396514893,
+      "step": 1652,
+      "token_acc": 0.5121255349500713
+    },
+    {
+      "epoch": 0.7581699346405228,
+      "grad_norm": 0.338882178068161,
+      "learning_rate": 0.00014605295628218045,
+      "loss": 2.339691638946533,
+      "step": 1653,
+      "token_acc": 0.5038932146829811
+    },
+    {
+      "epoch": 0.7586285976378856,
+      "grad_norm": 0.33764392137527466,
+      "learning_rate": 0.0001455287688556527,
+      "loss": 2.4369864463806152,
+      "step": 1654,
+      "token_acc": 0.48389806776813216
+    },
+    {
+      "epoch": 0.7590872606352482,
+      "grad_norm": 0.3276992738246918,
+      "learning_rate": 0.00014500536352485673,
+      "loss": 2.3020424842834473,
+      "step": 1655,
+      "token_acc": 0.5056863263686855
+    },
+    {
+      "epoch": 0.759545923632611,
+      "grad_norm": 0.33636221289634705,
+      "learning_rate": 0.00014448274144461965,
+      "loss": 2.2966909408569336,
+      "step": 1656,
+      "token_acc": 0.49840595111583424
+    },
+    {
+      "epoch": 0.7600045866299736,
+      "grad_norm": 0.3568006455898285,
+      "learning_rate": 0.00014396090376804112,
+      "loss": 2.2886438369750977,
+      "step": 1657,
+      "token_acc": 0.5066512434933488
+    },
+    {
+      "epoch": 0.7604632496273364,
+      "grad_norm": 0.34005752205848694,
+      "learning_rate": 0.00014343985164648926,
+      "loss": 2.286372661590576,
+      "step": 1658,
+      "token_acc": 0.505859375
+    },
+    {
+      "epoch": 0.760921912624699,
+      "grad_norm": 0.34000974893569946,
+      "learning_rate": 0.00014291958622959973,
+      "loss": 2.2969794273376465,
+      "step": 1659,
+      "token_acc": 0.4973396807616914
+    },
+    {
+      "epoch": 0.7613805756220617,
+      "grad_norm": 0.3271826505661011,
+      "learning_rate": 0.00014240010866527176,
+      "loss": 2.3477232456207275,
+      "step": 1660,
+      "token_acc": 0.48610339077265147
+    },
+    {
+      "epoch": 0.7618392386194244,
+      "grad_norm": 0.35196706652641296,
+      "learning_rate": 0.00014188142009966686,
+      "loss": 2.3699700832366943,
+      "step": 1661,
+      "token_acc": 0.5031935573451819
+    },
+    {
+      "epoch": 0.762297901616787,
+      "grad_norm": 0.3321390450000763,
+      "learning_rate": 0.0001413635216772053,
+      "loss": 2.358823776245117,
+      "step": 1662,
+      "token_acc": 0.4862359550561798
+    },
+    {
+      "epoch": 0.7627565646141498,
+      "grad_norm": 0.34531083703041077,
+      "learning_rate": 0.000140846414540564,
+      "loss": 2.335993766784668,
+      "step": 1663,
+      "token_acc": 0.49904397705544934
+    },
+    {
+      "epoch": 0.7632152276115124,
+      "grad_norm": 0.33894023299217224,
+      "learning_rate": 0.00014033009983067452,
+      "loss": 2.29191255569458,
+      "step": 1664,
+      "token_acc": 0.49839509775313684
+    },
+    {
+      "epoch": 0.7636738906088751,
+      "grad_norm": 0.35586610436439514,
+      "learning_rate": 0.00013981457868671927,
+      "loss": 2.3417396545410156,
+      "step": 1665,
+      "token_acc": 0.5037698966769059
+    },
+    {
+      "epoch": 0.7641325536062378,
+      "grad_norm": 0.3516406714916229,
+      "learning_rate": 0.0001392998522461305,
+      "loss": 2.3881053924560547,
+      "step": 1666,
+      "token_acc": 0.48619841486745013
+    },
+    {
+      "epoch": 0.7645912166036005,
+      "grad_norm": 0.3469773530960083,
+      "learning_rate": 0.00013878592164458635,
+      "loss": 2.3837761878967285,
+      "step": 1667,
+      "token_acc": 0.4947986129634569
+    },
+    {
+      "epoch": 0.7650498796009632,
+      "grad_norm": 0.3341671824455261,
+      "learning_rate": 0.00013827278801600978,
+      "loss": 2.206620693206787,
+      "step": 1668,
+      "token_acc": 0.5029804144195288
+    },
+    {
+      "epoch": 0.7655085425983259,
+      "grad_norm": 0.3586134910583496,
+      "learning_rate": 0.0001377604524925647,
+      "loss": 2.3467369079589844,
+      "step": 1669,
+      "token_acc": 0.493844049247606
+    },
+    {
+      "epoch": 0.7659672055956885,
+      "grad_norm": 0.36412379145622253,
+      "learning_rate": 0.00013724891620465424,
+      "loss": 2.3643879890441895,
+      "step": 1670,
+      "token_acc": 0.4979615608619686
+    },
+    {
+      "epoch": 0.7664258685930513,
+      "grad_norm": 0.3632110059261322,
+      "learning_rate": 0.0001367381802809185,
+      "loss": 2.387087345123291,
+      "step": 1671,
+      "token_acc": 0.4905117883841288
+    },
+    {
+      "epoch": 0.7668845315904139,
+      "grad_norm": 0.3365231156349182,
+      "learning_rate": 0.00013622824584823113,
+      "loss": 2.2920303344726562,
+      "step": 1672,
+      "token_acc": 0.4906409529211571
+    },
+    {
+      "epoch": 0.7673431945877767,
+      "grad_norm": 0.34381651878356934,
+      "learning_rate": 0.00013571911403169795,
+      "loss": 2.3355979919433594,
+      "step": 1673,
+      "token_acc": 0.48356279853891543
+    },
+    {
+      "epoch": 0.7678018575851393,
+      "grad_norm": 0.34178438782691956,
+      "learning_rate": 0.0001352107859546533,
+      "loss": 2.3413867950439453,
+      "step": 1674,
+      "token_acc": 0.4876543209876543
+    },
+    {
+      "epoch": 0.768260520582502,
+      "grad_norm": 0.33297041058540344,
+      "learning_rate": 0.00013470326273865886,
+      "loss": 2.281527519226074,
+      "step": 1675,
+      "token_acc": 0.5114698385726423
+    },
+    {
+      "epoch": 0.7687191835798647,
+      "grad_norm": 0.35832756757736206,
+      "learning_rate": 0.00013419654550349985,
+      "loss": 2.2990834712982178,
+      "step": 1676,
+      "token_acc": 0.4957241379310345
+    },
+    {
+      "epoch": 0.7691778465772274,
+      "grad_norm": 0.3447275757789612,
+      "learning_rate": 0.00013369063536718346,
+      "loss": 2.503087282180786,
+      "step": 1677,
+      "token_acc": 0.48016643550624133
+    },
+    {
+      "epoch": 0.7696365095745901,
+      "grad_norm": 0.3484703302383423,
+      "learning_rate": 0.00013318553344593632,
+      "loss": 2.3847875595092773,
+      "step": 1678,
+      "token_acc": 0.4852005532503458
+    },
+    {
+      "epoch": 0.7700951725719528,
+      "grad_norm": 0.35201093554496765,
+      "learning_rate": 0.00013268124085420136,
+      "loss": 2.257429599761963,
+      "step": 1679,
+      "token_acc": 0.5042114435085681
+    },
+    {
+      "epoch": 0.7705538355693154,
+      "grad_norm": 0.34060394763946533,
+      "learning_rate": 0.0001321777587046364,
+      "loss": 2.3270423412323,
+      "step": 1680,
+      "token_acc": 0.5045871559633027
+    },
+    {
+      "epoch": 0.7710124985666781,
+      "grad_norm": 0.3446199297904968,
+      "learning_rate": 0.00013167508810811059,
+      "loss": 2.4161674976348877,
+      "step": 1681,
+      "token_acc": 0.4771714922048998
+    },
+    {
+      "epoch": 0.7714711615640408,
+      "grad_norm": 0.3483222723007202,
+      "learning_rate": 0.0001311732301737029,
+      "loss": 2.374894857406616,
+      "step": 1682,
+      "token_acc": 0.4916851441241685
+    },
+    {
+      "epoch": 0.7719298245614035,
+      "grad_norm": 0.3286564350128174,
+      "learning_rate": 0.0001306721860086991,
+      "loss": 2.2757842540740967,
+      "step": 1683,
+      "token_acc": 0.49526643224235867
+    },
+    {
+      "epoch": 0.7723884875587662,
+      "grad_norm": 0.3671477735042572,
+      "learning_rate": 0.00013017195671858928,
+      "loss": 2.3948426246643066,
+      "step": 1684,
+      "token_acc": 0.4852036331673015
+    },
+    {
+      "epoch": 0.7728471505561288,
+      "grad_norm": 0.3347415328025818,
+      "learning_rate": 0.0001296725434070661,
+      "loss": 2.3400464057922363,
+      "step": 1685,
+      "token_acc": 0.4920417124039517
+    },
+    {
+      "epoch": 0.7733058135534916,
+      "grad_norm": 0.342963308095932,
+      "learning_rate": 0.00012917394717602121,
+      "loss": 2.3526370525360107,
+      "step": 1686,
+      "token_acc": 0.5030042918454936
+    },
+    {
+      "epoch": 0.7737644765508542,
+      "grad_norm": 0.34412896633148193,
+      "learning_rate": 0.00012867616912554426,
+      "loss": 2.28363299369812,
+      "step": 1687,
+      "token_acc": 0.5008469791078487
+    },
+    {
+      "epoch": 0.774223139548217,
+      "grad_norm": 0.34296438097953796,
+      "learning_rate": 0.00012817921035391882,
+      "loss": 2.4127960205078125,
+      "step": 1688,
+      "token_acc": 0.4781767955801105
+    },
+    {
+      "epoch": 0.7746818025455796,
+      "grad_norm": 0.3372040390968323,
+      "learning_rate": 0.00012768307195762168,
+      "loss": 2.3115837574005127,
+      "step": 1689,
+      "token_acc": 0.49806629834254146
+    },
+    {
+      "epoch": 0.7751404655429424,
+      "grad_norm": 0.3432585895061493,
+      "learning_rate": 0.00012718775503131908,
+      "loss": 2.322422504425049,
+      "step": 1690,
+      "token_acc": 0.48609534619750283
+    },
+    {
+      "epoch": 0.775599128540305,
+      "grad_norm": 0.34192076325416565,
+      "learning_rate": 0.0001266932606678646,
+      "loss": 2.339813232421875,
+      "step": 1691,
+      "token_acc": 0.49014162732574285
+    },
+    {
+      "epoch": 0.7760577915376677,
+      "grad_norm": 0.3507980406284332,
+      "learning_rate": 0.00012619958995829756,
+      "loss": 2.350595474243164,
+      "step": 1692,
+      "token_acc": 0.5005668934240363
+    },
+    {
+      "epoch": 0.7765164545350304,
+      "grad_norm": 0.3457689583301544,
+      "learning_rate": 0.0001257067439918394,
+      "loss": 2.4148173332214355,
+      "step": 1693,
+      "token_acc": 0.4861605919429981
+    },
+    {
+      "epoch": 0.7769751175323931,
+      "grad_norm": 0.34666144847869873,
+      "learning_rate": 0.00012521472385589234,
+      "loss": 2.3451433181762695,
+      "step": 1694,
+      "token_acc": 0.4931082981715893
+    },
+    {
+      "epoch": 0.7774337805297558,
+      "grad_norm": 0.35866957902908325,
+      "learning_rate": 0.00012472353063603626,
+      "loss": 2.4169321060180664,
+      "step": 1695,
+      "token_acc": 0.4840620592383639
+    },
+    {
+      "epoch": 0.7778924435271185,
+      "grad_norm": 0.3436647653579712,
+      "learning_rate": 0.0001242331654160263,
+      "loss": 2.3810629844665527,
+      "step": 1696,
+      "token_acc": 0.4892005610098177
+    },
+    {
+      "epoch": 0.7783511065244811,
+      "grad_norm": 0.3269905745983124,
+      "learning_rate": 0.0001237436292777914,
+      "loss": 2.253495693206787,
+      "step": 1697,
+      "token_acc": 0.5070035704476792
+    },
+    {
+      "epoch": 0.7788097695218438,
+      "grad_norm": 0.3635874390602112,
+      "learning_rate": 0.00012325492330143061,
+      "loss": 2.31325626373291,
+      "step": 1698,
+      "token_acc": 0.4897119341563786
+    },
+    {
+      "epoch": 0.7792684325192065,
+      "grad_norm": 0.35077953338623047,
+      "learning_rate": 0.00012276704856521175,
+      "loss": 2.426875114440918,
+      "step": 1699,
+      "token_acc": 0.4936111111111111
+    },
+    {
+      "epoch": 0.7797270955165692,
+      "grad_norm": 0.3359808027744293,
+      "learning_rate": 0.00012228000614556816,
+      "loss": 2.3770997524261475,
+      "step": 1700,
+      "token_acc": 0.4906427990235964
+    },
+    {
+      "epoch": 0.7801857585139319,
+      "grad_norm": 0.3486747443675995,
+      "learning_rate": 0.00012179379711709738,
+      "loss": 2.449178457260132,
+      "step": 1701,
+      "token_acc": 0.48500428449014565
+    },
+    {
+      "epoch": 0.7806444215112945,
+      "grad_norm": 0.33946412801742554,
+      "learning_rate": 0.0001213084225525577,
+      "loss": 2.387899160385132,
+      "step": 1702,
+      "token_acc": 0.48739495798319327
+    },
+    {
+      "epoch": 0.7811030845086573,
+      "grad_norm": 0.3201528787612915,
+      "learning_rate": 0.00012082388352286627,
+      "loss": 2.310896396636963,
+      "step": 1703,
+      "token_acc": 0.49347659247889486
+    },
+    {
+      "epoch": 0.7815617475060199,
+      "grad_norm": 0.33396804332733154,
+      "learning_rate": 0.00012034018109709716,
+      "loss": 2.34926700592041,
+      "step": 1704,
+      "token_acc": 0.488264192139738
+    },
+    {
+      "epoch": 0.7820204105033827,
+      "grad_norm": 0.3473016023635864,
+      "learning_rate": 0.00011985731634247809,
+      "loss": 2.287855386734009,
+      "step": 1705,
+      "token_acc": 0.4994266055045872
+    },
+    {
+      "epoch": 0.7824790735007453,
+      "grad_norm": 0.34904786944389343,
+      "learning_rate": 0.00011937529032438904,
+      "loss": 2.3916831016540527,
+      "step": 1706,
+      "token_acc": 0.4788009721847151
+    },
+    {
+      "epoch": 0.782937736498108,
+      "grad_norm": 0.3430524170398712,
+      "learning_rate": 0.00011889410410635887,
+      "loss": 2.364654064178467,
+      "step": 1707,
+      "token_acc": 0.4905233380480905
+    },
+    {
+      "epoch": 0.7833963994954707,
+      "grad_norm": 0.34083792567253113,
+      "learning_rate": 0.0001184137587500641,
+      "loss": 2.3570656776428223,
+      "step": 1708,
+      "token_acc": 0.49571673329525984
+    },
+    {
+      "epoch": 0.7838550624928334,
+      "grad_norm": 0.35375866293907166,
+      "learning_rate": 0.00011793425531532564,
+      "loss": 2.3988406658172607,
+      "step": 1709,
+      "token_acc": 0.4834792431516521
+    },
+    {
+      "epoch": 0.7843137254901961,
+      "grad_norm": 0.34956881403923035,
+      "learning_rate": 0.00011745559486010671,
+      "loss": 2.3135619163513184,
+      "step": 1710,
+      "token_acc": 0.5061391541609823
+    },
+    {
+      "epoch": 0.7847723884875588,
+      "grad_norm": 0.3417733907699585,
+      "learning_rate": 0.00011697777844051105,
+      "loss": 2.2443103790283203,
+      "step": 1711,
+      "token_acc": 0.5126003877042371
+    },
+    {
+      "epoch": 0.7852310514849214,
+      "grad_norm": 0.34329482913017273,
+      "learning_rate": 0.00011650080711077964,
+      "loss": 2.246236801147461,
+      "step": 1712,
+      "token_acc": 0.5015299026425591
+    },
+    {
+      "epoch": 0.7856897144822842,
+      "grad_norm": 0.34837251901626587,
+      "learning_rate": 0.00011602468192328936,
+      "loss": 2.3212029933929443,
+      "step": 1713,
+      "token_acc": 0.489900426742532
+    },
+    {
+      "epoch": 0.7861483774796468,
+      "grad_norm": 0.3719780147075653,
+      "learning_rate": 0.00011554940392854973,
+      "loss": 2.414048671722412,
+      "step": 1714,
+      "token_acc": 0.4816236972024136
+    },
+    {
+      "epoch": 0.7866070404770095,
+      "grad_norm": 0.3476426601409912,
+      "learning_rate": 0.00011507497417520146,
+      "loss": 2.2529282569885254,
+      "step": 1715,
+      "token_acc": 0.49886169607285147
+    },
+    {
+      "epoch": 0.7870657034743722,
+      "grad_norm": 0.3599509596824646,
+      "learning_rate": 0.00011460139371001339,
+      "loss": 2.354111433029175,
+      "step": 1716,
+      "token_acc": 0.49056603773584906
+    },
+    {
+      "epoch": 0.7875243664717348,
+      "grad_norm": 0.3389667570590973,
+      "learning_rate": 0.00011412866357788049,
+      "loss": 2.470759153366089,
+      "step": 1717,
+      "token_acc": 0.4695817490494297
+    },
+    {
+      "epoch": 0.7879830294690976,
+      "grad_norm": 0.3486955165863037,
+      "learning_rate": 0.00011365678482182207,
+      "loss": 2.301211357116699,
+      "step": 1718,
+      "token_acc": 0.5047701647875108
+    },
+    {
+      "epoch": 0.7884416924664602,
+      "grad_norm": 0.3415502905845642,
+      "learning_rate": 0.0001131857584829783,
+      "loss": 2.472989082336426,
+      "step": 1719,
+      "token_acc": 0.4710104914411927
+    },
+    {
+      "epoch": 0.788900355463823,
+      "grad_norm": 0.34041544795036316,
+      "learning_rate": 0.0001127155856006093,
+      "loss": 2.392775058746338,
+      "step": 1720,
+      "token_acc": 0.48413344182262
+    },
+    {
+      "epoch": 0.7893590184611856,
+      "grad_norm": 0.33902794122695923,
+      "learning_rate": 0.00011224626721209141,
+      "loss": 2.418940782546997,
+      "step": 1721,
+      "token_acc": 0.4759898904802022
+    },
+    {
+      "epoch": 0.7898176814585484,
+      "grad_norm": 0.3443155586719513,
+      "learning_rate": 0.0001117778043529164,
+      "loss": 2.402000904083252,
+      "step": 1722,
+      "token_acc": 0.4922237380627558
+    },
+    {
+      "epoch": 0.790276344455911,
+      "grad_norm": 0.3544413447380066,
+      "learning_rate": 0.0001113101980566879,
+      "loss": 2.2933928966522217,
+      "step": 1723,
+      "token_acc": 0.5071826443858106
+    },
+    {
+      "epoch": 0.7907350074532737,
+      "grad_norm": 0.3424176573753357,
+      "learning_rate": 0.00011084344935511958,
+      "loss": 2.3634321689605713,
+      "step": 1724,
+      "token_acc": 0.4850462207721588
+    },
+    {
+      "epoch": 0.7911936704506364,
+      "grad_norm": 0.3441798985004425,
+      "learning_rate": 0.00011037755927803345,
+      "loss": 2.347646713256836,
+      "step": 1725,
+      "token_acc": 0.4846867097499298
+    },
+    {
+      "epoch": 0.7916523334479991,
+      "grad_norm": 0.3441164493560791,
+      "learning_rate": 0.00010991252885335651,
+      "loss": 2.211894989013672,
+      "step": 1726,
+      "token_acc": 0.5045325779036827
+    },
+    {
+      "epoch": 0.7921109964453618,
+      "grad_norm": 0.3579557240009308,
+      "learning_rate": 0.00010944835910711958,
+      "loss": 2.359849214553833,
+      "step": 1727,
+      "token_acc": 0.48921266461193613
+    },
+    {
+      "epoch": 0.7925696594427245,
+      "grad_norm": 0.34293675422668457,
+      "learning_rate": 0.00010898505106345396,
+      "loss": 2.211099863052368,
+      "step": 1728,
+      "token_acc": 0.515036496350365
+    },
+    {
+      "epoch": 0.7930283224400871,
+      "grad_norm": 0.3516233563423157,
+      "learning_rate": 0.00010852260574459022,
+      "loss": 2.4274301528930664,
+      "step": 1729,
+      "token_acc": 0.4854368932038835
+    },
+    {
+      "epoch": 0.7934869854374499,
+      "grad_norm": 0.3459794223308563,
+      "learning_rate": 0.00010806102417085512,
+      "loss": 2.386627197265625,
+      "step": 1730,
+      "token_acc": 0.49475772173420235
+    },
+    {
+      "epoch": 0.7939456484348125,
+      "grad_norm": 0.3457988500595093,
+      "learning_rate": 0.00010760030736066951,
+      "loss": 2.354804277420044,
+      "step": 1731,
+      "token_acc": 0.49616858237547895
+    },
+    {
+      "epoch": 0.7944043114321752,
+      "grad_norm": 0.3403247892856598,
+      "learning_rate": 0.00010714045633054687,
+      "loss": 2.2822365760803223,
+      "step": 1732,
+      "token_acc": 0.5103236607142857
+    },
+    {
+      "epoch": 0.7948629744295379,
+      "grad_norm": 0.3442862331867218,
+      "learning_rate": 0.00010668147209508971,
+      "loss": 2.257420063018799,
+      "step": 1733,
+      "token_acc": 0.4980641592920354
+    },
+    {
+      "epoch": 0.7953216374269005,
+      "grad_norm": 0.348183274269104,
+      "learning_rate": 0.00010622335566698877,
+      "loss": 2.4369754791259766,
+      "step": 1734,
+      "token_acc": 0.4763768521107073
+    },
+    {
+      "epoch": 0.7957803004242633,
+      "grad_norm": 0.34758955240249634,
+      "learning_rate": 0.00010576610805701942,
+      "loss": 2.313093900680542,
+      "step": 1735,
+      "token_acc": 0.486039886039886
+    },
+    {
+      "epoch": 0.7962389634216259,
+      "grad_norm": 0.35387471318244934,
+      "learning_rate": 0.00010530973027404073,
+      "loss": 2.3149375915527344,
+      "step": 1736,
+      "token_acc": 0.4936562860438293
+    },
+    {
+      "epoch": 0.7966976264189887,
+      "grad_norm": 0.3525843322277069,
+      "learning_rate": 0.00010485422332499212,
+      "loss": 2.3726234436035156,
+      "step": 1737,
+      "token_acc": 0.48789414414414417
+    },
+    {
+      "epoch": 0.7971562894163513,
+      "grad_norm": 0.3315074145793915,
+      "learning_rate": 0.00010439958821489165,
+      "loss": 2.353853702545166,
+      "step": 1738,
+      "token_acc": 0.4895862260483199
+    },
+    {
+      "epoch": 0.797614952413714,
+      "grad_norm": 0.34124287962913513,
+      "learning_rate": 0.00010394582594683428,
+      "loss": 2.271850824356079,
+      "step": 1739,
+      "token_acc": 0.5018769852728848
+    },
+    {
+      "epoch": 0.7980736154110767,
+      "grad_norm": 0.3388957381248474,
+      "learning_rate": 0.0001034929375219884,
+      "loss": 2.3460793495178223,
+      "step": 1740,
+      "token_acc": 0.501085776330076
+    },
+    {
+      "epoch": 0.7985322784084394,
+      "grad_norm": 0.34356969594955444,
+      "learning_rate": 0.00010304092393959514,
+      "loss": 2.2740139961242676,
+      "step": 1741,
+      "token_acc": 0.4963285286918684
+    },
+    {
+      "epoch": 0.7989909414058021,
+      "grad_norm": 0.34700387716293335,
+      "learning_rate": 0.00010258978619696468,
+      "loss": 2.248873233795166,
+      "step": 1742,
+      "token_acc": 0.5040787623066104
+    },
+    {
+      "epoch": 0.7994496044031648,
+      "grad_norm": 0.36148402094841003,
+      "learning_rate": 0.00010213952528947551,
+      "loss": 2.3197827339172363,
+      "step": 1743,
+      "token_acc": 0.5
+    },
+    {
+      "epoch": 0.7999082674005275,
+      "grad_norm": 0.34262707829475403,
+      "learning_rate": 0.00010169014221057089,
+      "loss": 2.3066887855529785,
+      "step": 1744,
+      "token_acc": 0.48982516480366867
+    },
+    {
+      "epoch": 0.8003669303978902,
+      "grad_norm": 0.3393036425113678,
+      "learning_rate": 0.00010124163795175734,
+      "loss": 2.3216748237609863,
+      "step": 1745,
+      "token_acc": 0.5049032600053008
+    },
+    {
+      "epoch": 0.8008255933952528,
+      "grad_norm": 0.335234671831131,
+      "learning_rate": 0.00010079401350260287,
+      "loss": 2.419403314590454,
+      "step": 1746,
+      "token_acc": 0.4815214459131373
+    },
+    {
+      "epoch": 0.8012842563926156,
+      "grad_norm": 0.3517586886882782,
+      "learning_rate": 0.00010034726985073362,
+      "loss": 2.3094987869262695,
+      "step": 1747,
+      "token_acc": 0.4896041013956138
+    },
+    {
+      "epoch": 0.8017429193899782,
+      "grad_norm": 0.3397800922393799,
+      "learning_rate": 9.9901407981833e-05,
+      "loss": 2.4074645042419434,
+      "step": 1748,
+      "token_acc": 0.48476454293628807
+    },
+    {
+      "epoch": 0.8022015823873409,
+      "grad_norm": 0.33755776286125183,
+      "learning_rate": 9.94564288796384e-05,
+      "loss": 2.292478084564209,
+      "step": 1749,
+      "token_acc": 0.5008152173913043
+    },
+    {
+      "epoch": 0.8026602453847036,
+      "grad_norm": 0.34281429648399353,
+      "learning_rate": 9.901233352593953e-05,
+      "loss": 2.264887809753418,
+      "step": 1750,
+      "token_acc": 0.5062076749435666
+    },
+    {
+      "epoch": 0.8031189083820662,
+      "grad_norm": 0.3368517756462097,
+      "learning_rate": 9.856912290057668e-05,
+      "loss": 2.3124756813049316,
+      "step": 1751,
+      "token_acc": 0.4959598774031764
+    },
+    {
+      "epoch": 0.803577571379429,
+      "grad_norm": 0.35408881306648254,
+      "learning_rate": 9.812679798143748e-05,
+      "loss": 2.342602252960205,
+      "step": 1752,
+      "token_acc": 0.5062041737168641
+    },
+    {
+      "epoch": 0.8040362343767916,
+      "grad_norm": 0.33654269576072693,
+      "learning_rate": 9.768535974445586e-05,
+      "loss": 2.499549150466919,
+      "step": 1753,
+      "token_acc": 0.4706044714325145
+    },
+    {
+      "epoch": 0.8044948973741544,
+      "grad_norm": 0.3582037091255188,
+      "learning_rate": 9.724480916360906e-05,
+      "loss": 2.2592642307281494,
+      "step": 1754,
+      "token_acc": 0.5065430752453653
+    },
+    {
+      "epoch": 0.804953560371517,
+      "grad_norm": 0.3626381754875183,
+      "learning_rate": 9.68051472109162e-05,
+      "loss": 2.2006468772888184,
+      "step": 1755,
+      "token_acc": 0.5034216007140732
+    },
+    {
+      "epoch": 0.8054122233688797,
+      "grad_norm": 0.34863486886024475,
+      "learning_rate": 9.636637485643529e-05,
+      "loss": 2.221928596496582,
+      "step": 1756,
+      "token_acc": 0.5139275766016713
+    },
+    {
+      "epoch": 0.8058708863662424,
+      "grad_norm": 0.3548058271408081,
+      "learning_rate": 9.592849306826174e-05,
+      "loss": 2.392080307006836,
+      "step": 1757,
+      "token_acc": 0.4966405375139978
+    },
+    {
+      "epoch": 0.8063295493636051,
+      "grad_norm": 0.341632604598999,
+      "learning_rate": 9.549150281252633e-05,
+      "loss": 2.4025678634643555,
+      "step": 1758,
+      "token_acc": 0.4782728272827283
+    },
+    {
+      "epoch": 0.8067882123609678,
+      "grad_norm": 0.35458868741989136,
+      "learning_rate": 9.505540505339223e-05,
+      "loss": 2.313371181488037,
+      "step": 1759,
+      "token_acc": 0.49603933351543295
+    },
+    {
+      "epoch": 0.8072468753583305,
+      "grad_norm": 0.35544851422309875,
+      "learning_rate": 9.4620200753054e-05,
+      "loss": 2.3278379440307617,
+      "step": 1760,
+      "token_acc": 0.4923419660261765
+    },
+    {
+      "epoch": 0.8077055383556931,
+      "grad_norm": 0.34659430384635925,
+      "learning_rate": 9.418589087173441e-05,
+      "loss": 2.3084402084350586,
+      "step": 1761,
+      "token_acc": 0.5024278777492145
+    },
+    {
+      "epoch": 0.8081642013530559,
+      "grad_norm": 0.34321826696395874,
+      "learning_rate": 9.375247636768325e-05,
+      "loss": 2.410942554473877,
+      "step": 1762,
+      "token_acc": 0.4873926295372679
+    },
+    {
+      "epoch": 0.8086228643504185,
+      "grad_norm": 0.3223225772380829,
+      "learning_rate": 9.331995819717443e-05,
+      "loss": 2.4444189071655273,
+      "step": 1763,
+      "token_acc": 0.4836836283185841
+    },
+    {
+      "epoch": 0.8090815273477813,
+      "grad_norm": 0.3400341272354126,
+      "learning_rate": 9.288833731450419e-05,
+      "loss": 2.3730380535125732,
+      "step": 1764,
+      "token_acc": 0.488065150238697
+    },
+    {
+      "epoch": 0.8095401903451439,
+      "grad_norm": 0.36031097173690796,
+      "learning_rate": 9.245761467198948e-05,
+      "loss": 2.300055503845215,
+      "step": 1765,
+      "token_acc": 0.48789414414414417
+    },
+    {
+      "epoch": 0.8099988533425065,
+      "grad_norm": 0.33209577202796936,
+      "learning_rate": 9.20277912199648e-05,
+      "loss": 2.216284990310669,
+      "step": 1766,
+      "token_acc": 0.5098152424942263
+    },
+    {
+      "epoch": 0.8104575163398693,
+      "grad_norm": 0.34907469153404236,
+      "learning_rate": 9.159886790678123e-05,
+      "loss": 2.3763904571533203,
+      "step": 1767,
+      "token_acc": 0.4782370654256775
+    },
+    {
+      "epoch": 0.8109161793372319,
+      "grad_norm": 0.3510114252567291,
+      "learning_rate": 9.11708456788033e-05,
+      "loss": 2.3726978302001953,
+      "step": 1768,
+      "token_acc": 0.48896956157497906
+    },
+    {
+      "epoch": 0.8113748423345947,
+      "grad_norm": 0.3518482446670532,
+      "learning_rate": 9.074372548040793e-05,
+      "loss": 2.418327808380127,
+      "step": 1769,
+      "token_acc": 0.4745809288266007
+    },
+    {
+      "epoch": 0.8118335053319573,
+      "grad_norm": 0.3328094780445099,
+      "learning_rate": 9.031750825398145e-05,
+      "loss": 2.3276824951171875,
+      "step": 1770,
+      "token_acc": 0.4934404283801874
+    },
+    {
+      "epoch": 0.81229216832932,
+      "grad_norm": 0.3379485607147217,
+      "learning_rate": 8.98921949399179e-05,
+      "loss": 2.305774211883545,
+      "step": 1771,
+      "token_acc": 0.5029207232267038
+    },
+    {
+      "epoch": 0.8127508313266827,
+      "grad_norm": 0.3578743636608124,
+      "learning_rate": 8.94677864766173e-05,
+      "loss": 2.3304247856140137,
+      "step": 1772,
+      "token_acc": 0.49603065973172733
+    },
+    {
+      "epoch": 0.8132094943240454,
+      "grad_norm": 0.3515740931034088,
+      "learning_rate": 8.904428380048269e-05,
+      "loss": 2.305543899536133,
+      "step": 1773,
+      "token_acc": 0.4939007092198582
+    },
+    {
+      "epoch": 0.8136681573214081,
+      "grad_norm": 0.34503498673439026,
+      "learning_rate": 8.862168784591929e-05,
+      "loss": 2.3719353675842285,
+      "step": 1774,
+      "token_acc": 0.48676511563109504
+    },
+    {
+      "epoch": 0.8141268203187708,
+      "grad_norm": 0.34058043360710144,
+      "learning_rate": 8.819999954533115e-05,
+      "loss": 2.2761733531951904,
+      "step": 1775,
+      "token_acc": 0.49605656785422897
+    },
+    {
+      "epoch": 0.8145854833161335,
+      "grad_norm": 0.358213871717453,
+      "learning_rate": 8.777921982911996e-05,
+      "loss": 2.439089775085449,
+      "step": 1776,
+      "token_acc": 0.47804878048780486
+    },
+    {
+      "epoch": 0.8150441463134962,
+      "grad_norm": 0.3591679632663727,
+      "learning_rate": 8.735934962568253e-05,
+      "loss": 2.3598287105560303,
+      "step": 1777,
+      "token_acc": 0.4911414464130119
+    },
+    {
+      "epoch": 0.8155028093108588,
+      "grad_norm": 0.3337683081626892,
+      "learning_rate": 8.694038986140945e-05,
+      "loss": 2.3531246185302734,
+      "step": 1778,
+      "token_acc": 0.47716150081566067
+    },
+    {
+      "epoch": 0.8159614723082216,
+      "grad_norm": 0.3378220200538635,
+      "learning_rate": 8.652234146068206e-05,
+      "loss": 2.257934093475342,
+      "step": 1779,
+      "token_acc": 0.5015273535129131
+    },
+    {
+      "epoch": 0.8164201353055842,
+      "grad_norm": 0.3594716191291809,
+      "learning_rate": 8.610520534587086e-05,
+      "loss": 2.4477319717407227,
+      "step": 1780,
+      "token_acc": 0.48177311169437154
+    },
+    {
+      "epoch": 0.816878798302947,
+      "grad_norm": 0.31936123967170715,
+      "learning_rate": 8.568898243733397e-05,
+      "loss": 2.275913953781128,
+      "step": 1781,
+      "token_acc": 0.4952561669829222
+    },
+    {
+      "epoch": 0.8173374613003096,
+      "grad_norm": 0.3394831418991089,
+      "learning_rate": 8.527367365341409e-05,
+      "loss": 2.424553394317627,
+      "step": 1782,
+      "token_acc": 0.4979768006474238
+    },
+    {
+      "epoch": 0.8177961242976722,
+      "grad_norm": 0.3558088541030884,
+      "learning_rate": 8.485927991043757e-05,
+      "loss": 2.3555076122283936,
+      "step": 1783,
+      "token_acc": 0.4939521800281294
+    },
+    {
+      "epoch": 0.818254787295035,
+      "grad_norm": 0.3543827533721924,
+      "learning_rate": 8.444580212271125e-05,
+      "loss": 2.3409714698791504,
+      "step": 1784,
+      "token_acc": 0.4885783391561408
+    },
+    {
+      "epoch": 0.8187134502923976,
+      "grad_norm": 0.3317083716392517,
+      "learning_rate": 8.403324120252159e-05,
+      "loss": 2.2420296669006348,
+      "step": 1785,
+      "token_acc": 0.5049723756906077
+    },
+    {
+      "epoch": 0.8191721132897604,
+      "grad_norm": 0.3390710949897766,
+      "learning_rate": 8.362159806013175e-05,
+      "loss": 2.3413565158843994,
+      "step": 1786,
+      "token_acc": 0.4966367713004484
+    },
+    {
+      "epoch": 0.819630776287123,
+      "grad_norm": 0.3424408435821533,
+      "learning_rate": 8.321087360377988e-05,
+      "loss": 2.3762011528015137,
+      "step": 1787,
+      "token_acc": 0.4915059026778002
+    },
+    {
+      "epoch": 0.8200894392844857,
+      "grad_norm": 0.34307608008384705,
+      "learning_rate": 8.280106873967752e-05,
+      "loss": 2.2308573722839355,
+      "step": 1788,
+      "token_acc": 0.5072305593451569
+    },
+    {
+      "epoch": 0.8205481022818484,
+      "grad_norm": 0.33436816930770874,
+      "learning_rate": 8.239218437200679e-05,
+      "loss": 2.329380512237549,
+      "step": 1789,
+      "token_acc": 0.49440459110473456
+    },
+    {
+      "epoch": 0.8210067652792111,
+      "grad_norm": 0.34022000432014465,
+      "learning_rate": 8.198422140291939e-05,
+      "loss": 2.331752300262451,
+      "step": 1790,
+      "token_acc": 0.4933602771362587
+    },
+    {
+      "epoch": 0.8214654282765738,
+      "grad_norm": 0.3502206802368164,
+      "learning_rate": 8.157718073253351e-05,
+      "loss": 2.361274242401123,
+      "step": 1791,
+      "token_acc": 0.4926719278466742
+    },
+    {
+      "epoch": 0.8219240912739365,
+      "grad_norm": 0.3464970588684082,
+      "learning_rate": 8.117106325893287e-05,
+      "loss": 2.3629298210144043,
+      "step": 1792,
+      "token_acc": 0.49233342626149984
+    },
+    {
+      "epoch": 0.8223827542712991,
+      "grad_norm": 0.3418751358985901,
+      "learning_rate": 8.076586987816404e-05,
+      "loss": 2.2871475219726562,
+      "step": 1793,
+      "token_acc": 0.4903244166192373
+    },
+    {
+      "epoch": 0.8228414172686619,
+      "grad_norm": 0.340283066034317,
+      "learning_rate": 8.036160148423449e-05,
+      "loss": 2.343477249145508,
+      "step": 1794,
+      "token_acc": 0.49188445667125175
+    },
+    {
+      "epoch": 0.8233000802660245,
+      "grad_norm": 0.3409213125705719,
+      "learning_rate": 7.995825896911141e-05,
+      "loss": 2.318657875061035,
+      "step": 1795,
+      "token_acc": 0.4931506849315068
+    },
+    {
+      "epoch": 0.8237587432633873,
+      "grad_norm": 0.3603390157222748,
+      "learning_rate": 7.955584322271853e-05,
+      "loss": 2.428893566131592,
+      "step": 1796,
+      "token_acc": 0.48214285714285715
+    },
+    {
+      "epoch": 0.8242174062607499,
+      "grad_norm": 0.33327364921569824,
+      "learning_rate": 7.915435513293523e-05,
+      "loss": 2.297451972961426,
+      "step": 1797,
+      "token_acc": 0.4987482614742698
+    },
+    {
+      "epoch": 0.8246760692581127,
+      "grad_norm": 0.34232065081596375,
+      "learning_rate": 7.875379558559387e-05,
+      "loss": 2.3540124893188477,
+      "step": 1798,
+      "token_acc": 0.4886677722498618
+    },
+    {
+      "epoch": 0.8251347322554753,
+      "grad_norm": 0.34872034192085266,
+      "learning_rate": 7.835416546447838e-05,
+      "loss": 2.39192533493042,
+      "step": 1799,
+      "token_acc": 0.4842454394693201
+    },
+    {
+      "epoch": 0.8255933952528379,
+      "grad_norm": 0.3498040735721588,
+      "learning_rate": 7.795546565132167e-05,
+      "loss": 2.266745090484619,
+      "step": 1800,
+      "token_acc": 0.5089574155653451
+    },
+    {
+      "epoch": 0.8260520582502007,
+      "grad_norm": 0.3337041437625885,
+      "learning_rate": 7.755769702580412e-05,
+      "loss": 2.400848388671875,
+      "step": 1801,
+      "token_acc": 0.48549742477636215
+    },
+    {
+      "epoch": 0.8265107212475633,
+      "grad_norm": 0.3630457818508148,
+      "learning_rate": 7.716086046555193e-05,
+      "loss": 2.401732921600342,
+      "step": 1802,
+      "token_acc": 0.48444811450591796
+    },
+    {
+      "epoch": 0.826969384244926,
+      "grad_norm": 0.3487928807735443,
+      "learning_rate": 7.676495684613432e-05,
+      "loss": 2.419093608856201,
+      "step": 1803,
+      "token_acc": 0.4818473037907101
+    },
+    {
+      "epoch": 0.8274280472422887,
+      "grad_norm": 0.36501890420913696,
+      "learning_rate": 7.636998704106252e-05,
+      "loss": 2.4333009719848633,
+      "step": 1804,
+      "token_acc": 0.48029850746268654
+    },
+    {
+      "epoch": 0.8278867102396514,
+      "grad_norm": 0.3434891402721405,
+      "learning_rate": 7.597595192178702e-05,
+      "loss": 2.3298959732055664,
+      "step": 1805,
+      "token_acc": 0.4896159317211949
+    },
+    {
+      "epoch": 0.8283453732370141,
+      "grad_norm": 0.33230915665626526,
+      "learning_rate": 7.558285235769646e-05,
+      "loss": 2.2461471557617188,
+      "step": 1806,
+      "token_acc": 0.507242260721386
+    },
+    {
+      "epoch": 0.8288040362343768,
+      "grad_norm": 0.3450563848018646,
+      "learning_rate": 7.519068921611494e-05,
+      "loss": 2.285722255706787,
+      "step": 1807,
+      "token_acc": 0.49399563318777295
+    },
+    {
+      "epoch": 0.8292626992317395,
+      "grad_norm": 0.3387637436389923,
+      "learning_rate": 7.479946336230047e-05,
+      "loss": 2.2607688903808594,
+      "step": 1808,
+      "token_acc": 0.5032904148783978
+    },
+    {
+      "epoch": 0.8297213622291022,
+      "grad_norm": 0.33623597025871277,
+      "learning_rate": 7.440917565944349e-05,
+      "loss": 2.396404266357422,
+      "step": 1809,
+      "token_acc": 0.48954558126568165
+    },
+    {
+      "epoch": 0.8301800252264648,
+      "grad_norm": 0.32811683416366577,
+      "learning_rate": 7.4019826968664e-05,
+      "loss": 2.29229736328125,
+      "step": 1810,
+      "token_acc": 0.5072869955156951
+    },
+    {
+      "epoch": 0.8306386882238276,
+      "grad_norm": 0.36723440885543823,
+      "learning_rate": 7.363141814901053e-05,
+      "loss": 2.208789348602295,
+      "step": 1811,
+      "token_acc": 0.5168442268931759
+    },
+    {
+      "epoch": 0.8310973512211902,
+      "grad_norm": 0.35072678327560425,
+      "learning_rate": 7.32439500574577e-05,
+      "loss": 2.3367838859558105,
+      "step": 1812,
+      "token_acc": 0.493727348759409
+    },
+    {
+      "epoch": 0.831556014218553,
+      "grad_norm": 0.3695262670516968,
+      "learning_rate": 7.285742354890473e-05,
+      "loss": 2.423921823501587,
+      "step": 1813,
+      "token_acc": 0.47554806070826305
+    },
+    {
+      "epoch": 0.8320146772159156,
+      "grad_norm": 0.33562231063842773,
+      "learning_rate": 7.247183947617325e-05,
+      "loss": 2.3366260528564453,
+      "step": 1814,
+      "token_acc": 0.4861072902338377
+    },
+    {
+      "epoch": 0.8324733402132783,
+      "grad_norm": 0.33905190229415894,
+      "learning_rate": 7.20871986900053e-05,
+      "loss": 2.2422585487365723,
+      "step": 1815,
+      "token_acc": 0.5131022823330516
+    },
+    {
+      "epoch": 0.832932003210641,
+      "grad_norm": 0.35481420159339905,
+      "learning_rate": 7.170350203906218e-05,
+      "loss": 2.23815655708313,
+      "step": 1816,
+      "token_acc": 0.5128132118451025
+    },
+    {
+      "epoch": 0.8333906662080036,
+      "grad_norm": 0.32230162620544434,
+      "learning_rate": 7.132075036992158e-05,
+      "loss": 2.222874164581299,
+      "step": 1817,
+      "token_acc": 0.5170880800222284
+    },
+    {
+      "epoch": 0.8338493292053664,
+      "grad_norm": 0.35030126571655273,
+      "learning_rate": 7.093894452707666e-05,
+      "loss": 2.3593881130218506,
+      "step": 1818,
+      "token_acc": 0.4998578333807222
+    },
+    {
+      "epoch": 0.834307992202729,
+      "grad_norm": 0.33856189250946045,
+      "learning_rate": 7.055808535293334e-05,
+      "loss": 2.2329001426696777,
+      "step": 1819,
+      "token_acc": 0.5110242813284956
+    },
+    {
+      "epoch": 0.8347666552000917,
+      "grad_norm": 0.34818097949028015,
+      "learning_rate": 7.017817368780888e-05,
+      "loss": 2.289492607116699,
+      "step": 1820,
+      "token_acc": 0.4970970417473044
+    },
+    {
+      "epoch": 0.8352253181974544,
+      "grad_norm": 0.35232019424438477,
+      "learning_rate": 6.979921036993042e-05,
+      "loss": 2.2610228061676025,
+      "step": 1821,
+      "token_acc": 0.5155799192152337
+    },
+    {
+      "epoch": 0.8356839811948171,
+      "grad_norm": 0.352506548166275,
+      "learning_rate": 6.942119623543202e-05,
+      "loss": 2.3382887840270996,
+      "step": 1822,
+      "token_acc": 0.47894137734775183
+    },
+    {
+      "epoch": 0.8361426441921798,
+      "grad_norm": 0.3640366196632385,
+      "learning_rate": 6.904413211835414e-05,
+      "loss": 2.2654311656951904,
+      "step": 1823,
+      "token_acc": 0.5015873015873016
+    },
+    {
+      "epoch": 0.8366013071895425,
+      "grad_norm": 0.35429322719573975,
+      "learning_rate": 6.866801885064056e-05,
+      "loss": 2.4645442962646484,
+      "step": 1824,
+      "token_acc": 0.472991499862901
+    },
+    {
+      "epoch": 0.8370599701869051,
+      "grad_norm": 0.3328467905521393,
+      "learning_rate": 6.829285726213769e-05,
+      "loss": 2.3245797157287598,
+      "step": 1825,
+      "token_acc": 0.48559670781893005
+    },
+    {
+      "epoch": 0.8375186331842679,
+      "grad_norm": 0.3477995693683624,
+      "learning_rate": 6.79186481805918e-05,
+      "loss": 2.407137632369995,
+      "step": 1826,
+      "token_acc": 0.48557826939232707
+    },
+    {
+      "epoch": 0.8379772961816305,
+      "grad_norm": 0.35213300585746765,
+      "learning_rate": 6.754539243164754e-05,
+      "loss": 2.4133996963500977,
+      "step": 1827,
+      "token_acc": 0.4775993237531699
+    },
+    {
+      "epoch": 0.8384359591789933,
+      "grad_norm": 0.3198488652706146,
+      "learning_rate": 6.717309083884654e-05,
+      "loss": 2.225069046020508,
+      "step": 1828,
+      "token_acc": 0.5148327939590076
+    },
+    {
+      "epoch": 0.8388946221763559,
+      "grad_norm": 0.3491551876068115,
+      "learning_rate": 6.680174422362468e-05,
+      "loss": 2.374579429626465,
+      "step": 1829,
+      "token_acc": 0.48704663212435234
+    },
+    {
+      "epoch": 0.8393532851737187,
+      "grad_norm": 0.34302401542663574,
+      "learning_rate": 6.643135340531136e-05,
+      "loss": 2.3658361434936523,
+      "step": 1830,
+      "token_acc": 0.4896611143021252
+    },
+    {
+      "epoch": 0.8398119481710813,
+      "grad_norm": 0.3504773676395416,
+      "learning_rate": 6.606191920112664e-05,
+      "loss": 2.3634157180786133,
+      "step": 1831,
+      "token_acc": 0.4838255977496484
+    },
+    {
+      "epoch": 0.840270611168444,
+      "grad_norm": 0.3321126103401184,
+      "learning_rate": 6.569344242618036e-05,
+      "loss": 2.418583869934082,
+      "step": 1832,
+      "token_acc": 0.48396989127404516
+    },
+    {
+      "epoch": 0.8407292741658067,
+      "grad_norm": 0.3415120840072632,
+      "learning_rate": 6.532592389346958e-05,
+      "loss": 2.2718896865844727,
+      "step": 1833,
+      "token_acc": 0.5028312570781427
+    },
+    {
+      "epoch": 0.8411879371631693,
+      "grad_norm": 0.3444622755050659,
+      "learning_rate": 6.495936441387713e-05,
+      "loss": 2.425118923187256,
+      "step": 1834,
+      "token_acc": 0.49213161659513593
+    },
+    {
+      "epoch": 0.841646600160532,
+      "grad_norm": 0.3446201980113983,
+      "learning_rate": 6.459376479617013e-05,
+      "loss": 2.2019405364990234,
+      "step": 1835,
+      "token_acc": 0.5289139633286318
+    },
+    {
+      "epoch": 0.8421052631578947,
+      "grad_norm": 0.3397805094718933,
+      "learning_rate": 6.422912584699752e-05,
+      "loss": 2.3888111114501953,
+      "step": 1836,
+      "token_acc": 0.4637720488466757
+    },
+    {
+      "epoch": 0.8425639261552574,
+      "grad_norm": 0.3445199131965637,
+      "learning_rate": 6.386544837088904e-05,
+      "loss": 2.367321014404297,
+      "step": 1837,
+      "token_acc": 0.4887531241321855
+    },
+    {
+      "epoch": 0.8430225891526201,
+      "grad_norm": 0.3242432475090027,
+      "learning_rate": 6.350273317025251e-05,
+      "loss": 2.2981600761413574,
+      "step": 1838,
+      "token_acc": 0.48403679653679654
+    },
+    {
+      "epoch": 0.8434812521499828,
+      "grad_norm": 0.3712983727455139,
+      "learning_rate": 6.314098104537324e-05,
+      "loss": 2.4504237174987793,
+      "step": 1839,
+      "token_acc": 0.4797129450731438
+    },
+    {
+      "epoch": 0.8439399151473455,
+      "grad_norm": 0.34935036301612854,
+      "learning_rate": 6.278019279441122e-05,
+      "loss": 2.3853797912597656,
+      "step": 1840,
+      "token_acc": 0.49142053445850914
+    },
+    {
+      "epoch": 0.8443985781447082,
+      "grad_norm": 0.3467150330543518,
+      "learning_rate": 6.242036921339972e-05,
+      "loss": 2.3663580417633057,
+      "step": 1841,
+      "token_acc": 0.4843792447704428
+    },
+    {
+      "epoch": 0.8448572411420708,
+      "grad_norm": 0.3489900529384613,
+      "learning_rate": 6.206151109624402e-05,
+      "loss": 2.290548324584961,
+      "step": 1842,
+      "token_acc": 0.48709315375982043
+    },
+    {
+      "epoch": 0.8453159041394336,
+      "grad_norm": 0.3285813629627228,
+      "learning_rate": 6.170361923471868e-05,
+      "loss": 2.3327503204345703,
+      "step": 1843,
+      "token_acc": 0.4983342587451416
+    },
+    {
+      "epoch": 0.8457745671367962,
+      "grad_norm": 0.3364870846271515,
+      "learning_rate": 6.134669441846691e-05,
+      "loss": 2.2853431701660156,
+      "step": 1844,
+      "token_acc": 0.4971720980339348
+    },
+    {
+      "epoch": 0.846233230134159,
+      "grad_norm": 0.36086997389793396,
+      "learning_rate": 6.099073743499772e-05,
+      "loss": 2.320000171661377,
+      "step": 1845,
+      "token_acc": 0.4813137032842582
+    },
+    {
+      "epoch": 0.8466918931315216,
+      "grad_norm": 0.3391818702220917,
+      "learning_rate": 6.063574906968511e-05,
+      "loss": 2.4259033203125,
+      "step": 1846,
+      "token_acc": 0.49590048063330505
+    },
+    {
+      "epoch": 0.8471505561288843,
+      "grad_norm": 0.3332633078098297,
+      "learning_rate": 6.028173010576582e-05,
+      "loss": 2.2239861488342285,
+      "step": 1847,
+      "token_acc": 0.5103267973856209
+    },
+    {
+      "epoch": 0.847609219126247,
+      "grad_norm": 0.3539312779903412,
+      "learning_rate": 5.9928681324337544e-05,
+      "loss": 2.4211838245391846,
+      "step": 1848,
+      "token_acc": 0.4695410292072323
+    },
+    {
+      "epoch": 0.8480678821236097,
+      "grad_norm": 0.35303995013237,
+      "learning_rate": 5.957660350435773e-05,
+      "loss": 2.3063368797302246,
+      "step": 1849,
+      "token_acc": 0.49941211052322165
+    },
+    {
+      "epoch": 0.8485265451209724,
+      "grad_norm": 0.37126395106315613,
+      "learning_rate": 5.922549742264122e-05,
+      "loss": 2.287405490875244,
+      "step": 1850,
+      "token_acc": 0.514947245017585
+    },
+    {
+      "epoch": 0.848985208118335,
+      "grad_norm": 0.33842793107032776,
+      "learning_rate": 5.8875363853859166e-05,
+      "loss": 2.306096315383911,
+      "step": 1851,
+      "token_acc": 0.4830674503218584
+    },
+    {
+      "epoch": 0.8494438711156977,
+      "grad_norm": 0.3437037467956543,
+      "learning_rate": 5.852620357053651e-05,
+      "loss": 2.406630516052246,
+      "step": 1852,
+      "token_acc": 0.4858369098712446
+    },
+    {
+      "epoch": 0.8499025341130604,
+      "grad_norm": 0.36516106128692627,
+      "learning_rate": 5.8178017343051336e-05,
+      "loss": 2.2084522247314453,
+      "step": 1853,
+      "token_acc": 0.5140213934663197
+    },
+    {
+      "epoch": 0.8503611971104231,
+      "grad_norm": 0.3502216339111328,
+      "learning_rate": 5.783080593963219e-05,
+      "loss": 2.410921335220337,
+      "step": 1854,
+      "token_acc": 0.4751203852327448
+    },
+    {
+      "epoch": 0.8508198601077858,
+      "grad_norm": 0.35774680972099304,
+      "learning_rate": 5.748457012635683e-05,
+      "loss": 2.3605763912200928,
+      "step": 1855,
+      "token_acc": 0.4853868194842407
+    },
+    {
+      "epoch": 0.8512785231051485,
+      "grad_norm": 0.3453747034072876,
+      "learning_rate": 5.713931066715078e-05,
+      "loss": 2.328455686569214,
+      "step": 1856,
+      "token_acc": 0.4953804347826087
+    },
+    {
+      "epoch": 0.8517371861025111,
+      "grad_norm": 0.33495602011680603,
+      "learning_rate": 5.679502832378497e-05,
+      "loss": 2.283583402633667,
+      "step": 1857,
+      "token_acc": 0.5017754711827369
+    },
+    {
+      "epoch": 0.8521958490998739,
+      "grad_norm": 0.35302430391311646,
+      "learning_rate": 5.645172385587482e-05,
+      "loss": 2.279367446899414,
+      "step": 1858,
+      "token_acc": 0.519564577817005
+    },
+    {
+      "epoch": 0.8526545120972365,
+      "grad_norm": 0.3320028781890869,
+      "learning_rate": 5.6109398020877834e-05,
+      "loss": 2.349329710006714,
+      "step": 1859,
+      "token_acc": 0.48308525033829497
+    },
+    {
+      "epoch": 0.8531131750945993,
+      "grad_norm": 0.33842575550079346,
+      "learning_rate": 5.576805157409265e-05,
+      "loss": 2.2674448490142822,
+      "step": 1860,
+      "token_acc": 0.4995834490419328
+    },
+    {
+      "epoch": 0.8535718380919619,
+      "grad_norm": 0.3376774787902832,
+      "learning_rate": 5.542768526865677e-05,
+      "loss": 2.2889039516448975,
+      "step": 1861,
+      "token_acc": 0.511437908496732
+    },
+    {
+      "epoch": 0.8540305010893247,
+      "grad_norm": 0.33881503343582153,
+      "learning_rate": 5.508829985554509e-05,
+      "loss": 2.3306570053100586,
+      "step": 1862,
+      "token_acc": 0.5035635964912281
+    },
+    {
+      "epoch": 0.8544891640866873,
+      "grad_norm": 0.35851868987083435,
+      "learning_rate": 5.474989608356856e-05,
+      "loss": 2.4704151153564453,
+      "step": 1863,
+      "token_acc": 0.47432357813362785
+    },
+    {
+      "epoch": 0.85494782708405,
+      "grad_norm": 0.3571590781211853,
+      "learning_rate": 5.441247469937194e-05,
+      "loss": 2.447523355484009,
+      "step": 1864,
+      "token_acc": 0.47535596933187296
+    },
+    {
+      "epoch": 0.8554064900814127,
+      "grad_norm": 0.35217204689979553,
+      "learning_rate": 5.407603644743286e-05,
+      "loss": 2.356210470199585,
+      "step": 1865,
+      "token_acc": 0.478869297509096
+    },
+    {
+      "epoch": 0.8558651530787754,
+      "grad_norm": 0.34812772274017334,
+      "learning_rate": 5.374058207005944e-05,
+      "loss": 2.3331105709075928,
+      "step": 1866,
+      "token_acc": 0.48961180973209406
+    },
+    {
+      "epoch": 0.8563238160761381,
+      "grad_norm": 0.3494341969490051,
+      "learning_rate": 5.3406112307389066e-05,
+      "loss": 2.2922322750091553,
+      "step": 1867,
+      "token_acc": 0.49543899657924745
+    },
+    {
+      "epoch": 0.8567824790735007,
+      "grad_norm": 0.3395400941371918,
+      "learning_rate": 5.3072627897386926e-05,
+      "loss": 2.303804636001587,
+      "step": 1868,
+      "token_acc": 0.48835904628330995
+    },
+    {
+      "epoch": 0.8572411420708634,
+      "grad_norm": 0.3350875675678253,
+      "learning_rate": 5.27401295758439e-05,
+      "loss": 2.312012195587158,
+      "step": 1869,
+      "token_acc": 0.49352438688343897
+    },
+    {
+      "epoch": 0.8576998050682261,
+      "grad_norm": 0.35094091296195984,
+      "learning_rate": 5.2408618076375315e-05,
+      "loss": 2.3872923851013184,
+      "step": 1870,
+      "token_acc": 0.4983277591973244
+    },
+    {
+      "epoch": 0.8581584680655888,
+      "grad_norm": 0.3341224491596222,
+      "learning_rate": 5.207809413041914e-05,
+      "loss": 2.2888574600219727,
+      "step": 1871,
+      "token_acc": 0.4964959568733154
+    },
+    {
+      "epoch": 0.8586171310629515,
+      "grad_norm": 0.3481275737285614,
+      "learning_rate": 5.174855846723459e-05,
+      "loss": 2.377129554748535,
+      "step": 1872,
+      "token_acc": 0.4875175315568022
+    },
+    {
+      "epoch": 0.8590757940603142,
+      "grad_norm": 0.3524986505508423,
+      "learning_rate": 5.1420011813900104e-05,
+      "loss": 2.2634849548339844,
+      "step": 1873,
+      "token_acc": 0.48402466367713004
+    },
+    {
+      "epoch": 0.8595344570576768,
+      "grad_norm": 0.3380487859249115,
+      "learning_rate": 5.109245489531211e-05,
+      "loss": 2.3169209957122803,
+      "step": 1874,
+      "token_acc": 0.49119956674790144
+    },
+    {
+      "epoch": 0.8599931200550396,
+      "grad_norm": 0.3424326777458191,
+      "learning_rate": 5.0765888434183446e-05,
+      "loss": 2.2887237071990967,
+      "step": 1875,
+      "token_acc": 0.5113604488078541
+    },
+    {
+      "epoch": 0.8604517830524022,
+      "grad_norm": 0.34902942180633545,
+      "learning_rate": 5.0440313151041364e-05,
+      "loss": 2.238100528717041,
+      "step": 1876,
+      "token_acc": 0.5175563802455039
+    },
+    {
+      "epoch": 0.860910446049765,
+      "grad_norm": 0.35631975531578064,
+      "learning_rate": 5.011572976422657e-05,
+      "loss": 2.353519916534424,
+      "step": 1877,
+      "token_acc": 0.4959560947429232
+    },
+    {
+      "epoch": 0.8613691090471276,
+      "grad_norm": 0.37275317311286926,
+      "learning_rate": 4.9792138989890825e-05,
+      "loss": 2.4014832973480225,
+      "step": 1878,
+      "token_acc": 0.4813402342685917
+    },
+    {
+      "epoch": 0.8618277720444903,
+      "grad_norm": 0.3564111292362213,
+      "learning_rate": 4.9469541541996234e-05,
+      "loss": 2.2729721069335938,
+      "step": 1879,
+      "token_acc": 0.5171312427409989
+    },
+    {
+      "epoch": 0.862286435041853,
+      "grad_norm": 0.3527158498764038,
+      "learning_rate": 4.914793813231305e-05,
+      "loss": 2.260648727416992,
+      "step": 1880,
+      "token_acc": 0.4970178926441352
+    },
+    {
+      "epoch": 0.8627450980392157,
+      "grad_norm": 0.34461072087287903,
+      "learning_rate": 4.882732947041818e-05,
+      "loss": 2.195263624191284,
+      "step": 1881,
+      "token_acc": 0.5156337241764377
+    },
+    {
+      "epoch": 0.8632037610365784,
+      "grad_norm": 0.3604516088962555,
+      "learning_rate": 4.850771626369416e-05,
+      "loss": 2.3481085300445557,
+      "step": 1882,
+      "token_acc": 0.49060965039006066
+    },
+    {
+      "epoch": 0.8636624240339411,
+      "grad_norm": 0.3438739478588104,
+      "learning_rate": 4.818909921732662e-05,
+      "loss": 2.3260040283203125,
+      "step": 1883,
+      "token_acc": 0.49624494511842865
+    },
+    {
+      "epoch": 0.8641210870313037,
+      "grad_norm": 0.3481057286262512,
+      "learning_rate": 4.787147903430383e-05,
+      "loss": 2.35025691986084,
+      "step": 1884,
+      "token_acc": 0.5023319615912208
+    },
+    {
+      "epoch": 0.8645797500286664,
+      "grad_norm": 0.3431238830089569,
+      "learning_rate": 4.755485641541424e-05,
+      "loss": 2.2724039554595947,
+      "step": 1885,
+      "token_acc": 0.49873132224415
+    },
+    {
+      "epoch": 0.8650384130260291,
+      "grad_norm": 0.3499290943145752,
+      "learning_rate": 4.723923205924557e-05,
+      "loss": 2.3354969024658203,
+      "step": 1886,
+      "token_acc": 0.5083309799491669
+    },
+    {
+      "epoch": 0.8654970760233918,
+      "grad_norm": 0.356599360704422,
+      "learning_rate": 4.6924606662182736e-05,
+      "loss": 2.3091864585876465,
+      "step": 1887,
+      "token_acc": 0.49985823646158206
+    },
+    {
+      "epoch": 0.8659557390207545,
+      "grad_norm": 0.34929320216178894,
+      "learning_rate": 4.6610980918406596e-05,
+      "loss": 2.3585987091064453,
+      "step": 1888,
+      "token_acc": 0.4893857911123691
+    },
+    {
+      "epoch": 0.8664144020181171,
+      "grad_norm": 0.34878596663475037,
+      "learning_rate": 4.629835551989276e-05,
+      "loss": 2.2558937072753906,
+      "step": 1889,
+      "token_acc": 0.4980192416525184
+    },
+    {
+      "epoch": 0.8668730650154799,
+      "grad_norm": 0.3565264344215393,
+      "learning_rate": 4.5986731156409224e-05,
+      "loss": 2.496164321899414,
+      "step": 1890,
+      "token_acc": 0.46900420757363254
+    },
+    {
+      "epoch": 0.8673317280128425,
+      "grad_norm": 0.3931976556777954,
+      "learning_rate": 4.567610851551568e-05,
+      "loss": 2.234647035598755,
+      "step": 1891,
+      "token_acc": 0.5165637282425604
+    },
+    {
+      "epoch": 0.8677903910102053,
+      "grad_norm": 0.35193535685539246,
+      "learning_rate": 4.536648828256146e-05,
+      "loss": 2.4563851356506348,
+      "step": 1892,
+      "token_acc": 0.4760312151616499
+    },
+    {
+      "epoch": 0.8682490540075679,
+      "grad_norm": 0.3495912551879883,
+      "learning_rate": 4.505787114068433e-05,
+      "loss": 2.360513210296631,
+      "step": 1893,
+      "token_acc": 0.4904494382022472
+    },
+    {
+      "epoch": 0.8687077170049307,
+      "grad_norm": 0.3591647446155548,
+      "learning_rate": 4.4750257770808764e-05,
+      "loss": 2.3418056964874268,
+      "step": 1894,
+      "token_acc": 0.48559077809798273
+    },
+    {
+      "epoch": 0.8691663800022933,
+      "grad_norm": 0.34019190073013306,
+      "learning_rate": 4.444364885164448e-05,
+      "loss": 2.387608528137207,
+      "step": 1895,
+      "token_acc": 0.4825272574783338
+    },
+    {
+      "epoch": 0.869625042999656,
+      "grad_norm": 0.3473565876483917,
+      "learning_rate": 4.413804505968533e-05,
+      "loss": 2.3120670318603516,
+      "step": 1896,
+      "token_acc": 0.5047117516629712
+    },
+    {
+      "epoch": 0.8700837059970187,
+      "grad_norm": 0.3564021587371826,
+      "learning_rate": 4.3833447069206944e-05,
+      "loss": 2.4210891723632812,
+      "step": 1897,
+      "token_acc": 0.4893078221722003
+    },
+    {
+      "epoch": 0.8705423689943814,
+      "grad_norm": 0.34622690081596375,
+      "learning_rate": 4.352985555226635e-05,
+      "loss": 2.386613368988037,
+      "step": 1898,
+      "token_acc": 0.4785395763656633
+    },
+    {
+      "epoch": 0.8710010319917441,
+      "grad_norm": 0.349586546421051,
+      "learning_rate": 4.322727117869951e-05,
+      "loss": 2.2411556243896484,
+      "step": 1899,
+      "token_acc": 0.5109953703703703
+    },
+    {
+      "epoch": 0.8714596949891068,
+      "grad_norm": 0.3576890528202057,
+      "learning_rate": 4.29256946161205e-05,
+      "loss": 2.3328495025634766,
+      "step": 1900,
+      "token_acc": 0.4946297343131713
+    },
+    {
+      "epoch": 0.8719183579864694,
+      "grad_norm": 0.3405376076698303,
+      "learning_rate": 4.262512652991968e-05,
+      "loss": 2.282243251800537,
+      "step": 1901,
+      "token_acc": 0.5084745762711864
+    },
+    {
+      "epoch": 0.8723770209838321,
+      "grad_norm": 0.346627414226532,
+      "learning_rate": 4.2325567583262113e-05,
+      "loss": 2.3239049911499023,
+      "step": 1902,
+      "token_acc": 0.4968873797396718
+    },
+    {
+      "epoch": 0.8728356839811948,
+      "grad_norm": 0.35646572709083557,
+      "learning_rate": 4.2027018437086895e-05,
+      "loss": 2.2903809547424316,
+      "step": 1903,
+      "token_acc": 0.5112391930835735
+    },
+    {
+      "epoch": 0.8732943469785575,
+      "grad_norm": 0.3371918797492981,
+      "learning_rate": 4.172947975010449e-05,
+      "loss": 2.331043243408203,
+      "step": 1904,
+      "token_acc": 0.4977900552486188
+    },
+    {
+      "epoch": 0.8737530099759202,
+      "grad_norm": 0.32650047540664673,
+      "learning_rate": 4.143295217879645e-05,
+      "loss": 2.3226513862609863,
+      "step": 1905,
+      "token_acc": 0.4959598774031764
+    },
+    {
+      "epoch": 0.8742116729732828,
+      "grad_norm": 0.34066784381866455,
+      "learning_rate": 4.113743637741296e-05,
+      "loss": 2.224803924560547,
+      "step": 1906,
+      "token_acc": 0.5123111359820929
+    },
+    {
+      "epoch": 0.8746703359706456,
+      "grad_norm": 0.3336503505706787,
+      "learning_rate": 4.084293299797226e-05,
+      "loss": 2.3969545364379883,
+      "step": 1907,
+      "token_acc": 0.4816326530612245
+    },
+    {
+      "epoch": 0.8751289989680082,
+      "grad_norm": 0.34670203924179077,
+      "learning_rate": 4.054944269025862e-05,
+      "loss": 2.338252067565918,
+      "step": 1908,
+      "token_acc": 0.4933078393881453
+    },
+    {
+      "epoch": 0.875587661965371,
+      "grad_norm": 0.3452502191066742,
+      "learning_rate": 4.025696610182095e-05,
+      "loss": 2.326305627822876,
+      "step": 1909,
+      "token_acc": 0.4902349278233796
+    },
+    {
+      "epoch": 0.8760463249627336,
+      "grad_norm": 0.33914950489997864,
+      "learning_rate": 3.996550387797187e-05,
+      "loss": 2.225217819213867,
+      "step": 1910,
+      "token_acc": 0.5201556852932999
+    },
+    {
+      "epoch": 0.8765049879600963,
+      "grad_norm": 0.3784179389476776,
+      "learning_rate": 3.9675056661785556e-05,
+      "loss": 2.32301664352417,
+      "step": 1911,
+      "token_acc": 0.49154969922658265
+    },
+    {
+      "epoch": 0.876963650957459,
+      "grad_norm": 0.34889161586761475,
+      "learning_rate": 3.9385625094097154e-05,
+      "loss": 2.432009696960449,
+      "step": 1912,
+      "token_acc": 0.47560627674750355
+    },
+    {
+      "epoch": 0.8774223139548217,
+      "grad_norm": 0.348724901676178,
+      "learning_rate": 3.909720981350034e-05,
+      "loss": 2.3155713081359863,
+      "step": 1913,
+      "token_acc": 0.48368200836820086
+    },
+    {
+      "epoch": 0.8778809769521844,
+      "grad_norm": 0.33795198798179626,
+      "learning_rate": 3.880981145634704e-05,
+      "loss": 2.3566064834594727,
+      "step": 1914,
+      "token_acc": 0.5001373249107388
+    },
+    {
+      "epoch": 0.8783396399495471,
+      "grad_norm": 0.33012568950653076,
+      "learning_rate": 3.852343065674507e-05,
+      "loss": 2.400451421737671,
+      "step": 1915,
+      "token_acc": 0.4868165417707466
+    },
+    {
+      "epoch": 0.8787983029469097,
+      "grad_norm": 0.3260754346847534,
+      "learning_rate": 3.8238068046557276e-05,
+      "loss": 2.2927944660186768,
+      "step": 1916,
+      "token_acc": 0.4871099050203528
+    },
+    {
+      "epoch": 0.8792569659442725,
+      "grad_norm": 0.3363783657550812,
+      "learning_rate": 3.795372425540006e-05,
+      "loss": 2.3306884765625,
+      "step": 1917,
+      "token_acc": 0.49074329925393756
+    },
+    {
+      "epoch": 0.8797156289416351,
+      "grad_norm": 0.32986387610435486,
+      "learning_rate": 3.76703999106418e-05,
+      "loss": 2.3431873321533203,
+      "step": 1918,
+      "token_acc": 0.48668885191347755
+    },
+    {
+      "epoch": 0.8801742919389978,
+      "grad_norm": 0.3526691496372223,
+      "learning_rate": 3.7388095637401754e-05,
+      "loss": 2.241054058074951,
+      "step": 1919,
+      "token_acc": 0.50748459054887
+    },
+    {
+      "epoch": 0.8806329549363605,
+      "grad_norm": 0.3382164239883423,
+      "learning_rate": 3.7106812058548376e-05,
+      "loss": 2.4098222255706787,
+      "step": 1920,
+      "token_acc": 0.5007235890014472
+    },
+    {
+      "epoch": 0.8810916179337231,
+      "grad_norm": 0.3539363443851471,
+      "learning_rate": 3.682654979469807e-05,
+      "loss": 2.3490705490112305,
+      "step": 1921,
+      "token_acc": 0.48076383038472337
+    },
+    {
+      "epoch": 0.8815502809310859,
+      "grad_norm": 0.3289749026298523,
+      "learning_rate": 3.654730946421403e-05,
+      "loss": 2.3809146881103516,
+      "step": 1922,
+      "token_acc": 0.4833715596330275
+    },
+    {
+      "epoch": 0.8820089439284485,
+      "grad_norm": 0.35224565863609314,
+      "learning_rate": 3.6269091683204466e-05,
+      "loss": 2.3809540271759033,
+      "step": 1923,
+      "token_acc": 0.5006961849067112
+    },
+    {
+      "epoch": 0.8824676069258113,
+      "grad_norm": 0.34404832124710083,
+      "learning_rate": 3.5991897065521693e-05,
+      "loss": 2.434966564178467,
+      "step": 1924,
+      "token_acc": 0.48721511951083935
+    },
+    {
+      "epoch": 0.8829262699231739,
+      "grad_norm": 0.36163192987442017,
+      "learning_rate": 3.571572622276026e-05,
+      "loss": 2.3249623775482178,
+      "step": 1925,
+      "token_acc": 0.5135212888377445
+    },
+    {
+      "epoch": 0.8833849329205367,
+      "grad_norm": 0.3366922438144684,
+      "learning_rate": 3.544057976425619e-05,
+      "loss": 2.263253688812256,
+      "step": 1926,
+      "token_acc": 0.49521465682253213
+    },
+    {
+      "epoch": 0.8838435959178993,
+      "grad_norm": 0.3323342204093933,
+      "learning_rate": 3.5166458297085146e-05,
+      "loss": 2.2945990562438965,
+      "step": 1927,
+      "token_acc": 0.5084840055632823
+    },
+    {
+      "epoch": 0.884302258915262,
+      "grad_norm": 0.35745319724082947,
+      "learning_rate": 3.489336242606111e-05,
+      "loss": 2.3411989212036133,
+      "step": 1928,
+      "token_acc": 0.49016203703703703
+    },
+    {
+      "epoch": 0.8847609219126247,
+      "grad_norm": 0.34900030493736267,
+      "learning_rate": 3.462129275373577e-05,
+      "loss": 2.3102035522460938,
+      "step": 1929,
+      "token_acc": 0.4896004378762999
+    },
+    {
+      "epoch": 0.8852195849099874,
+      "grad_norm": 0.3383863866329193,
+      "learning_rate": 3.4350249880395924e-05,
+      "loss": 2.283487558364868,
+      "step": 1930,
+      "token_acc": 0.5040401225968236
+    },
+    {
+      "epoch": 0.8856782479073501,
+      "grad_norm": 0.32288071513175964,
+      "learning_rate": 3.408023440406355e-05,
+      "loss": 2.2258594036102295,
+      "step": 1931,
+      "token_acc": 0.5165745856353591
+    },
+    {
+      "epoch": 0.8861369109047128,
+      "grad_norm": 0.36917999386787415,
+      "learning_rate": 3.381124692049331e-05,
+      "loss": 2.3541009426116943,
+      "step": 1932,
+      "token_acc": 0.4850182021842621
+    },
+    {
+      "epoch": 0.8865955739020754,
+      "grad_norm": 0.33864521980285645,
+      "learning_rate": 3.354328802317197e-05,
+      "loss": 2.418692111968994,
+      "step": 1933,
+      "token_acc": 0.4846473029045643
+    },
+    {
+      "epoch": 0.8870542368994382,
+      "grad_norm": 0.33407339453697205,
+      "learning_rate": 3.327635830331677e-05,
+      "loss": 2.3102731704711914,
+      "step": 1934,
+      "token_acc": 0.4883398112159911
+    },
+    {
+      "epoch": 0.8875128998968008,
+      "grad_norm": 0.3547273278236389,
+      "learning_rate": 3.3010458349874206e-05,
+      "loss": 2.3274271488189697,
+      "step": 1935,
+      "token_acc": 0.5056850483229107
+    },
+    {
+      "epoch": 0.8879715628941636,
+      "grad_norm": 0.3932439982891083,
+      "learning_rate": 3.2745588749518775e-05,
+      "loss": 2.3530149459838867,
+      "step": 1936,
+      "token_acc": 0.49493243243243246
+    },
+    {
+      "epoch": 0.8884302258915262,
+      "grad_norm": 0.3504945635795593,
+      "learning_rate": 3.248175008665161e-05,
+      "loss": 2.286787986755371,
+      "step": 1937,
+      "token_acc": 0.4957313602731929
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.3506946861743927,
+      "learning_rate": 3.221894294339911e-05,
+      "loss": 2.3112597465515137,
+      "step": 1938,
+      "token_acc": 0.5051399200456882
+    },
+    {
+      "epoch": 0.8893475518862516,
+      "grad_norm": 0.3374845087528229,
+      "learning_rate": 3.1957167899611836e-05,
+      "loss": 2.3393359184265137,
+      "step": 1939,
+      "token_acc": 0.4937466014138119
+    },
+    {
+      "epoch": 0.8898062148836142,
+      "grad_norm": 0.34044623374938965,
+      "learning_rate": 3.169642553286334e-05,
+      "loss": 2.4234485626220703,
+      "step": 1940,
+      "token_acc": 0.47452407614781633
+    },
+    {
+      "epoch": 0.890264877880977,
+      "grad_norm": 0.34031492471694946,
+      "learning_rate": 3.143671641844831e-05,
+      "loss": 2.317091464996338,
+      "step": 1941,
+      "token_acc": 0.5057565789473685
+    },
+    {
+      "epoch": 0.8907235408783396,
+      "grad_norm": 0.37146690487861633,
+      "learning_rate": 3.117804112938205e-05,
+      "loss": 2.295835018157959,
+      "step": 1942,
+      "token_acc": 0.5030538589672404
+    },
+    {
+      "epoch": 0.8911822038757024,
+      "grad_norm": 0.34840840101242065,
+      "learning_rate": 3.092040023639869e-05,
+      "loss": 2.332411766052246,
+      "step": 1943,
+      "token_acc": 0.4861816130851664
+    },
+    {
+      "epoch": 0.891640866873065,
+      "grad_norm": 0.34565091133117676,
+      "learning_rate": 3.066379430795002e-05,
+      "loss": 2.327288866043091,
+      "step": 1944,
+      "token_acc": 0.5061077179344808
+    },
+    {
+      "epoch": 0.8920995298704277,
+      "grad_norm": 0.3513728678226471,
+      "learning_rate": 3.040822391020459e-05,
+      "loss": 2.373246192932129,
+      "step": 1945,
+      "token_acc": 0.49233769852326553
+    },
+    {
+      "epoch": 0.8925581928677904,
+      "grad_norm": 0.34450462460517883,
+      "learning_rate": 3.0153689607045842e-05,
+      "loss": 2.340646266937256,
+      "step": 1946,
+      "token_acc": 0.49351000540832884
+    },
+    {
+      "epoch": 0.8930168558651531,
+      "grad_norm": 0.3527611792087555,
+      "learning_rate": 2.9900191960071545e-05,
+      "loss": 2.323350429534912,
+      "step": 1947,
+      "token_acc": 0.48221786614393725
+    },
+    {
+      "epoch": 0.8934755188625157,
+      "grad_norm": 0.32077494263648987,
+      "learning_rate": 2.9647731528591848e-05,
+      "loss": 2.3266754150390625,
+      "step": 1948,
+      "token_acc": 0.4935704514363885
+    },
+    {
+      "epoch": 0.8939341818598785,
+      "grad_norm": 0.35171034932136536,
+      "learning_rate": 2.9396308869628795e-05,
+      "loss": 2.3253722190856934,
+      "step": 1949,
+      "token_acc": 0.49752611324903795
+    },
+    {
+      "epoch": 0.8943928448572411,
+      "grad_norm": 0.35658660531044006,
+      "learning_rate": 2.914592453791448e-05,
+      "loss": 2.2291510105133057,
+      "step": 1950,
+      "token_acc": 0.5065844774446624
+    },
+    {
+      "epoch": 0.8948515078546039,
+      "grad_norm": 0.3288397789001465,
+      "learning_rate": 2.8896579085889994e-05,
+      "loss": 2.298976421356201,
+      "step": 1951,
+      "token_acc": 0.49466484268125854
+    },
+    {
+      "epoch": 0.8953101708519665,
+      "grad_norm": 0.3537818491458893,
+      "learning_rate": 2.86482730637046e-05,
+      "loss": 2.241769313812256,
+      "step": 1952,
+      "token_acc": 0.4859839816933638
+    },
+    {
+      "epoch": 0.8957688338493293,
+      "grad_norm": 0.3319143056869507,
+      "learning_rate": 2.840100701921383e-05,
+      "loss": 2.3408279418945312,
+      "step": 1953,
+      "token_acc": 0.4912179671753527
+    },
+    {
+      "epoch": 0.8962274968466919,
+      "grad_norm": 0.3537519574165344,
+      "learning_rate": 2.8154781497978898e-05,
+      "loss": 2.398258686065674,
+      "step": 1954,
+      "token_acc": 0.48768606224627875
+    },
+    {
+      "epoch": 0.8966861598440545,
+      "grad_norm": 0.35952675342559814,
+      "learning_rate": 2.7909597043265013e-05,
+      "loss": 2.2318286895751953,
+      "step": 1955,
+      "token_acc": 0.5102330869812394
+    },
+    {
+      "epoch": 0.8971448228414173,
+      "grad_norm": 0.3568873107433319,
+      "learning_rate": 2.7665454196040662e-05,
+      "loss": 2.447822093963623,
+      "step": 1956,
+      "token_acc": 0.4745945945945946
+    },
+    {
+      "epoch": 0.8976034858387799,
+      "grad_norm": 0.3545272946357727,
+      "learning_rate": 2.7422353494975905e-05,
+      "loss": 2.2397472858428955,
+      "step": 1957,
+      "token_acc": 0.5025
+    },
+    {
+      "epoch": 0.8980621488361427,
+      "grad_norm": 0.33152303099632263,
+      "learning_rate": 2.7180295476441573e-05,
+      "loss": 2.2786643505096436,
+      "step": 1958,
+      "token_acc": 0.5153407548194406
+    },
+    {
+      "epoch": 0.8985208118335053,
+      "grad_norm": 0.34092867374420166,
+      "learning_rate": 2.6939280674508016e-05,
+      "loss": 2.3911585807800293,
+      "step": 1959,
+      "token_acc": 0.4718826405867971
+    },
+    {
+      "epoch": 0.898979474830868,
+      "grad_norm": 0.34896132349967957,
+      "learning_rate": 2.669930962094358e-05,
+      "loss": 2.31127667427063,
+      "step": 1960,
+      "token_acc": 0.5040401225968236
+    },
+    {
+      "epoch": 0.8994381378282307,
+      "grad_norm": 0.3546248972415924,
+      "learning_rate": 2.6460382845214126e-05,
+      "loss": 2.380032539367676,
+      "step": 1961,
+      "token_acc": 0.4902122966639096
+    },
+    {
+      "epoch": 0.8998968008255934,
+      "grad_norm": 0.3504306375980377,
+      "learning_rate": 2.6222500874481025e-05,
+      "loss": 2.3645501136779785,
+      "step": 1962,
+      "token_acc": 0.4916810097532989
+    },
+    {
+      "epoch": 0.9003554638229561,
+      "grad_norm": 0.3660736680030823,
+      "learning_rate": 2.5985664233600827e-05,
+      "loss": 2.263450860977173,
+      "step": 1963,
+      "token_acc": 0.5102681118083285
+    },
+    {
+      "epoch": 0.9008141268203188,
+      "grad_norm": 0.3365185856819153,
+      "learning_rate": 2.574987344512336e-05,
+      "loss": 2.3248138427734375,
+      "step": 1964,
+      "token_acc": 0.49672084402623323
+    },
+    {
+      "epoch": 0.9012727898176814,
+      "grad_norm": 0.34839728474617004,
+      "learning_rate": 2.5515129029290984e-05,
+      "loss": 2.3102612495422363,
+      "step": 1965,
+      "token_acc": 0.5005727376861397
+    },
+    {
+      "epoch": 0.9017314528150442,
+      "grad_norm": 0.34304359555244446,
+      "learning_rate": 2.5281431504037556e-05,
+      "loss": 2.2776575088500977,
+      "step": 1966,
+      "token_acc": 0.5128792215226102
+    },
+    {
+      "epoch": 0.9021901158124068,
+      "grad_norm": 0.3406859338283539,
+      "learning_rate": 2.504878138498684e-05,
+      "loss": 2.281919479370117,
+      "step": 1967,
+      "token_acc": 0.5009644530173601
+    },
+    {
+      "epoch": 0.9026487788097696,
+      "grad_norm": 0.3376754820346832,
+      "learning_rate": 2.48171791854519e-05,
+      "loss": 2.324916362762451,
+      "step": 1968,
+      "token_acc": 0.4943374858437146
+    },
+    {
+      "epoch": 0.9031074418071322,
+      "grad_norm": 0.3408062160015106,
+      "learning_rate": 2.4586625416433473e-05,
+      "loss": 2.3978116512298584,
+      "step": 1969,
+      "token_acc": 0.4809536859413538
+    },
+    {
+      "epoch": 0.903566104804495,
+      "grad_norm": 0.3415771424770355,
+      "learning_rate": 2.435712058661921e-05,
+      "loss": 2.31131911277771,
+      "step": 1970,
+      "token_acc": 0.48966480446927374
+    },
+    {
+      "epoch": 0.9040247678018576,
+      "grad_norm": 0.3390965163707733,
+      "learning_rate": 2.4128665202382327e-05,
+      "loss": 2.278390645980835,
+      "step": 1971,
+      "token_acc": 0.5093081411503195
+    },
+    {
+      "epoch": 0.9044834307992202,
+      "grad_norm": 0.3491651117801666,
+      "learning_rate": 2.3901259767780515e-05,
+      "loss": 2.2257015705108643,
+      "step": 1972,
+      "token_acc": 0.5162647223780146
+    },
+    {
+      "epoch": 0.904942093796583,
+      "grad_norm": 0.36659112572669983,
+      "learning_rate": 2.367490478455514e-05,
+      "loss": 2.389982223510742,
+      "step": 1973,
+      "token_acc": 0.4817056396148556
+    },
+    {
+      "epoch": 0.9054007567939456,
+      "grad_norm": 0.34485214948654175,
+      "learning_rate": 2.3449600752129597e-05,
+      "loss": 2.40696382522583,
+      "step": 1974,
+      "token_acc": 0.4791957553755934
+    },
+    {
+      "epoch": 0.9058594197913084,
+      "grad_norm": 0.34363695979118347,
+      "learning_rate": 2.3225348167608685e-05,
+      "loss": 2.3907063007354736,
+      "step": 1975,
+      "token_acc": 0.4834187112429226
+    },
+    {
+      "epoch": 0.906318082788671,
+      "grad_norm": 0.36876770853996277,
+      "learning_rate": 2.3002147525777118e-05,
+      "loss": 2.33627986907959,
+      "step": 1976,
+      "token_acc": 0.496875
+    },
+    {
+      "epoch": 0.9067767457860337,
+      "grad_norm": 0.3767753541469574,
+      "learning_rate": 2.2779999319098856e-05,
+      "loss": 2.406512975692749,
+      "step": 1977,
+      "token_acc": 0.48400352216025827
+    },
+    {
+      "epoch": 0.9072354087833964,
+      "grad_norm": 0.35412389039993286,
+      "learning_rate": 2.255890403771571e-05,
+      "loss": 2.4416961669921875,
+      "step": 1978,
+      "token_acc": 0.4797058022337238
+    },
+    {
+      "epoch": 0.9076940717807591,
+      "grad_norm": 0.35427266359329224,
+      "learning_rate": 2.233886216944614e-05,
+      "loss": 2.257330894470215,
+      "step": 1979,
+      "token_acc": 0.5059017293439473
+    },
+    {
+      "epoch": 0.9081527347781218,
+      "grad_norm": 0.3480878472328186,
+      "learning_rate": 2.211987419978484e-05,
+      "loss": 2.4038097858428955,
+      "step": 1980,
+      "token_acc": 0.4867798497077651
+    },
+    {
+      "epoch": 0.9086113977754845,
+      "grad_norm": 0.3471308648586273,
+      "learning_rate": 2.1901940611900705e-05,
+      "loss": 2.3939414024353027,
+      "step": 1981,
+      "token_acc": 0.4843110504774898
+    },
+    {
+      "epoch": 0.9090700607728471,
+      "grad_norm": 0.34885460138320923,
+      "learning_rate": 2.168506188663666e-05,
+      "loss": 2.367527484893799,
+      "step": 1982,
+      "token_acc": 0.4946384382733022
+    },
+    {
+      "epoch": 0.9095287237702099,
+      "grad_norm": 0.3513716459274292,
+      "learning_rate": 2.1469238502507925e-05,
+      "loss": 2.3397727012634277,
+      "step": 1983,
+      "token_acc": 0.490473441108545
+    },
+    {
+      "epoch": 0.9099873867675725,
+      "grad_norm": 0.35325193405151367,
+      "learning_rate": 2.125447093570154e-05,
+      "loss": 2.3433427810668945,
+      "step": 1984,
+      "token_acc": 0.4988642816581488
+    },
+    {
+      "epoch": 0.9104460497649353,
+      "grad_norm": 0.3568861186504364,
+      "learning_rate": 2.1040759660074793e-05,
+      "loss": 2.2619080543518066,
+      "step": 1985,
+      "token_acc": 0.49764428739693756
+    },
+    {
+      "epoch": 0.9109047127622979,
+      "grad_norm": 0.33976322412490845,
+      "learning_rate": 2.0828105147154273e-05,
+      "loss": 2.2690229415893555,
+      "step": 1986,
+      "token_acc": 0.5021881838074398
+    },
+    {
+      "epoch": 0.9113633757596606,
+      "grad_norm": 0.337329238653183,
+      "learning_rate": 2.061650786613545e-05,
+      "loss": 2.262986660003662,
+      "step": 1987,
+      "token_acc": 0.49471046770601335
+    },
+    {
+      "epoch": 0.9118220387570233,
+      "grad_norm": 0.3602612316608429,
+      "learning_rate": 2.040596828388058e-05,
+      "loss": 2.340639591217041,
+      "step": 1988,
+      "token_acc": 0.49459084604715675
+    },
+    {
+      "epoch": 0.9122807017543859,
+      "grad_norm": 0.3446958363056183,
+      "learning_rate": 2.019648686491865e-05,
+      "loss": 2.3168845176696777,
+      "step": 1989,
+      "token_acc": 0.498486099642169
+    },
+    {
+      "epoch": 0.9127393647517487,
+      "grad_norm": 0.3297688663005829,
+      "learning_rate": 1.9988064071443767e-05,
+      "loss": 2.285585641860962,
+      "step": 1990,
+      "token_acc": 0.49986029617211514
+    },
+    {
+      "epoch": 0.9131980277491113,
+      "grad_norm": 0.36058929562568665,
+      "learning_rate": 1.9780700363314253e-05,
+      "loss": 2.2517731189727783,
+      "step": 1991,
+      "token_acc": 0.5017103762827823
+    },
+    {
+      "epoch": 0.913656690746474,
+      "grad_norm": 0.35496366024017334,
+      "learning_rate": 1.957439619805196e-05,
+      "loss": 2.2948570251464844,
+      "step": 1992,
+      "token_acc": 0.49843971631205675
+    },
+    {
+      "epoch": 0.9141153537438367,
+      "grad_norm": 0.33351022005081177,
+      "learning_rate": 1.9369152030840554e-05,
+      "loss": 2.3222427368164062,
+      "step": 1993,
+      "token_acc": 0.5050223214285714
+    },
+    {
+      "epoch": 0.9145740167411994,
+      "grad_norm": 0.33928194642066956,
+      "learning_rate": 1.916496831452552e-05,
+      "loss": 2.30348539352417,
+      "step": 1994,
+      "token_acc": 0.49781181619256015
+    },
+    {
+      "epoch": 0.9150326797385621,
+      "grad_norm": 0.3465850055217743,
+      "learning_rate": 1.8961845499611998e-05,
+      "loss": 2.2647271156311035,
+      "step": 1995,
+      "token_acc": 0.5027042413891261
+    },
+    {
+      "epoch": 0.9154913427359248,
+      "grad_norm": 0.33816853165626526,
+      "learning_rate": 1.8759784034264925e-05,
+      "loss": 2.2912468910217285,
+      "step": 1996,
+      "token_acc": 0.49342481417953116
+    },
+    {
+      "epoch": 0.9159500057332874,
+      "grad_norm": 0.35156700015068054,
+      "learning_rate": 1.855878436430708e-05,
+      "loss": 2.423896312713623,
+      "step": 1997,
+      "token_acc": 0.5009812167087188
+    },
+    {
+      "epoch": 0.9164086687306502,
+      "grad_norm": 0.33435505628585815,
+      "learning_rate": 1.835884693321871e-05,
+      "loss": 2.2609198093414307,
+      "step": 1998,
+      "token_acc": 0.5063254744105808
+    },
+    {
+      "epoch": 0.9168673317280128,
+      "grad_norm": 0.3435823917388916,
+      "learning_rate": 1.8159972182136386e-05,
+      "loss": 2.3326003551483154,
+      "step": 1999,
+      "token_acc": 0.4881845982763414
+    },
+    {
+      "epoch": 0.9173259947253756,
+      "grad_norm": 0.33998167514801025,
+      "learning_rate": 1.7962160549851945e-05,
+      "loss": 2.3448486328125,
+      "step": 2000,
+      "token_acc": 0.4971799210377891
+    },
+    {
+      "epoch": 0.9177846577227382,
+      "grad_norm": 0.34659314155578613,
+      "learning_rate": 1.776541247281177e-05,
+      "loss": 2.3072729110717773,
+      "step": 2001,
+      "token_acc": 0.4933297032398584
+    },
+    {
+      "epoch": 0.918243320720101,
+      "grad_norm": 0.34643375873565674,
+      "learning_rate": 1.7569728385115224e-05,
+      "loss": 2.3381524085998535,
+      "step": 2002,
+      "token_acc": 0.4984272233342865
+    },
+    {
+      "epoch": 0.9187019837174636,
+      "grad_norm": 0.3384282886981964,
+      "learning_rate": 1.7375108718514665e-05,
+      "loss": 2.318788528442383,
+      "step": 2003,
+      "token_acc": 0.501779359430605
+    },
+    {
+      "epoch": 0.9191606467148263,
+      "grad_norm": 0.34796348214149475,
+      "learning_rate": 1.7181553902413438e-05,
+      "loss": 2.266413688659668,
+      "step": 2004,
+      "token_acc": 0.4995775837792171
+    },
+    {
+      "epoch": 0.919619309712189,
+      "grad_norm": 0.35491958260536194,
+      "learning_rate": 1.698906436386577e-05,
+      "loss": 2.2758729457855225,
+      "step": 2005,
+      "token_acc": 0.495458298926507
+    },
+    {
+      "epoch": 0.9200779727095516,
+      "grad_norm": 0.36139991879463196,
+      "learning_rate": 1.679764052757532e-05,
+      "loss": 2.3720903396606445,
+      "step": 2006,
+      "token_acc": 0.48465729853742473
+    },
+    {
+      "epoch": 0.9205366357069144,
+      "grad_norm": 0.34324124455451965,
+      "learning_rate": 1.6607282815894464e-05,
+      "loss": 2.392813205718994,
+      "step": 2007,
+      "token_acc": 0.4852203011712214
+    },
+    {
+      "epoch": 0.920995298704277,
+      "grad_norm": 0.3480576276779175,
+      "learning_rate": 1.6417991648823405e-05,
+      "loss": 2.2737932205200195,
+      "step": 2008,
+      "token_acc": 0.5043527099129458
+    },
+    {
+      "epoch": 0.9214539617016397,
+      "grad_norm": 0.3392677903175354,
+      "learning_rate": 1.6229767444008835e-05,
+      "loss": 2.3466947078704834,
+      "step": 2009,
+      "token_acc": 0.5034751181540172
+    },
+    {
+      "epoch": 0.9219126246990024,
+      "grad_norm": 0.34907811880111694,
+      "learning_rate": 1.604261061674378e-05,
+      "loss": 2.4845330715179443,
+      "step": 2010,
+      "token_acc": 0.4798973481608212
+    },
+    {
+      "epoch": 0.9223712876963651,
+      "grad_norm": 0.345039039850235,
+      "learning_rate": 1.5856521579965865e-05,
+      "loss": 2.2969608306884766,
+      "step": 2011,
+      "token_acc": 0.5039520305260289
+    },
+    {
+      "epoch": 0.9228299506937278,
+      "grad_norm": 0.3604145050048828,
+      "learning_rate": 1.5671500744256938e-05,
+      "loss": 2.465947389602661,
+      "step": 2012,
+      "token_acc": 0.4702835332606325
+    },
+    {
+      "epoch": 0.9232886136910905,
+      "grad_norm": 0.341515451669693,
+      "learning_rate": 1.5487548517841953e-05,
+      "loss": 2.320117473602295,
+      "step": 2013,
+      "token_acc": 0.49585406301824214
+    },
+    {
+      "epoch": 0.9237472766884531,
+      "grad_norm": 0.35139694809913635,
+      "learning_rate": 1.530466530658814e-05,
+      "loss": 2.438481569290161,
+      "step": 2014,
+      "token_acc": 0.4845565315953528
+    },
+    {
+      "epoch": 0.9242059396858159,
+      "grad_norm": 0.3533616364002228,
+      "learning_rate": 1.5122851514004054e-05,
+      "loss": 2.3411712646484375,
+      "step": 2015,
+      "token_acc": 0.4884931506849315
+    },
+    {
+      "epoch": 0.9246646026831785,
+      "grad_norm": 0.33342835307121277,
+      "learning_rate": 1.4942107541238703e-05,
+      "loss": 2.2957887649536133,
+      "step": 2016,
+      "token_acc": 0.4964902807775378
+    },
+    {
+      "epoch": 0.9251232656805413,
+      "grad_norm": 0.3418954312801361,
+      "learning_rate": 1.4762433787080809e-05,
+      "loss": 2.3501577377319336,
+      "step": 2017,
+      "token_acc": 0.49530315969257044
+    },
+    {
+      "epoch": 0.9255819286779039,
+      "grad_norm": 0.3409854471683502,
+      "learning_rate": 1.4583830647957541e-05,
+      "loss": 2.341806650161743,
+      "step": 2018,
+      "token_acc": 0.5015532335498447
+    },
+    {
+      "epoch": 0.9260405916752666,
+      "grad_norm": 0.3436015248298645,
+      "learning_rate": 1.4406298517934068e-05,
+      "loss": 2.2648634910583496,
+      "step": 2019,
+      "token_acc": 0.5108077360637088
+    },
+    {
+      "epoch": 0.9264992546726293,
+      "grad_norm": 0.3518248200416565,
+      "learning_rate": 1.4229837788712562e-05,
+      "loss": 2.421537160873413,
+      "step": 2020,
+      "token_acc": 0.48645660585959094
+    },
+    {
+      "epoch": 0.926957917669992,
+      "grad_norm": 0.3443833291530609,
+      "learning_rate": 1.4054448849631085e-05,
+      "loss": 2.3856124877929688,
+      "step": 2021,
+      "token_acc": 0.47927979422692196
+    },
+    {
+      "epoch": 0.9274165806673547,
+      "grad_norm": 0.338298499584198,
+      "learning_rate": 1.3880132087663145e-05,
+      "loss": 2.281203031539917,
+      "step": 2022,
+      "token_acc": 0.487292817679558
+    },
+    {
+      "epoch": 0.9278752436647173,
+      "grad_norm": 0.35015931725502014,
+      "learning_rate": 1.3706887887416419e-05,
+      "loss": 2.3371479511260986,
+      "step": 2023,
+      "token_acc": 0.48771057718862193
+    },
+    {
+      "epoch": 0.92833390666208,
+      "grad_norm": 0.3410496413707733,
+      "learning_rate": 1.3534716631132316e-05,
+      "loss": 2.315218448638916,
+      "step": 2024,
+      "token_acc": 0.49594907407407407
+    },
+    {
+      "epoch": 0.9287925696594427,
+      "grad_norm": 0.35189807415008545,
+      "learning_rate": 1.3363618698684853e-05,
+      "loss": 2.247438907623291,
+      "step": 2025,
+      "token_acc": 0.509032634032634
+    },
+    {
+      "epoch": 0.9292512326568054,
+      "grad_norm": 0.35277318954467773,
+      "learning_rate": 1.3193594467579728e-05,
+      "loss": 2.239839792251587,
+      "step": 2026,
+      "token_acc": 0.5105146651909241
+    },
+    {
+      "epoch": 0.9297098956541681,
+      "grad_norm": 0.3435315787792206,
+      "learning_rate": 1.3024644312954026e-05,
+      "loss": 2.4409332275390625,
+      "step": 2027,
+      "token_acc": 0.4703611800385994
+    },
+    {
+      "epoch": 0.9301685586515308,
+      "grad_norm": 0.3435937464237213,
+      "learning_rate": 1.2856768607574564e-05,
+      "loss": 2.3659956455230713,
+      "step": 2028,
+      "token_acc": 0.48815566835871405
+    },
+    {
+      "epoch": 0.9306272216488934,
+      "grad_norm": 0.3456394076347351,
+      "learning_rate": 1.2689967721837947e-05,
+      "loss": 2.302403450012207,
+      "step": 2029,
+      "token_acc": 0.5039795338260376
+    },
+    {
+      "epoch": 0.9310858846462562,
+      "grad_norm": 0.34674084186553955,
+      "learning_rate": 1.2524242023769006e-05,
+      "loss": 2.3951568603515625,
+      "step": 2030,
+      "token_acc": 0.4766853184119371
+    },
+    {
+      "epoch": 0.9315445476436188,
+      "grad_norm": 0.3473178744316101,
+      "learning_rate": 1.2359591879020526e-05,
+      "loss": 2.2192769050598145,
+      "step": 2031,
+      "token_acc": 0.5094082356149441
+    },
+    {
+      "epoch": 0.9320032106409816,
+      "grad_norm": 0.3381739556789398,
+      "learning_rate": 1.2196017650872081e-05,
+      "loss": 2.432046413421631,
+      "step": 2032,
+      "token_acc": 0.4826533444351929
+    },
+    {
+      "epoch": 0.9324618736383442,
+      "grad_norm": 0.33930835127830505,
+      "learning_rate": 1.2033519700229367e-05,
+      "loss": 2.365118980407715,
+      "step": 2033,
+      "token_acc": 0.48892626857303056
+    },
+    {
+      "epoch": 0.932920536635707,
+      "grad_norm": 0.35070154070854187,
+      "learning_rate": 1.1872098385623586e-05,
+      "loss": 2.3834500312805176,
+      "step": 2034,
+      "token_acc": 0.48995756718528993
+    },
+    {
+      "epoch": 0.9333791996330696,
+      "grad_norm": 0.35847169160842896,
+      "learning_rate": 1.1711754063210289e-05,
+      "loss": 2.2536823749542236,
+      "step": 2035,
+      "token_acc": 0.5080691642651297
+    },
+    {
+      "epoch": 0.9338378626304323,
+      "grad_norm": 0.335553914308548,
+      "learning_rate": 1.155248708676887e-05,
+      "loss": 2.2835161685943604,
+      "step": 2036,
+      "token_acc": 0.5076704545454546
+    },
+    {
+      "epoch": 0.934296525627795,
+      "grad_norm": 0.37388238310813904,
+      "learning_rate": 1.1394297807701737e-05,
+      "loss": 2.2880544662475586,
+      "step": 2037,
+      "token_acc": 0.505370421371523
+    },
+    {
+      "epoch": 0.9347551886251577,
+      "grad_norm": 0.3484659790992737,
+      "learning_rate": 1.1237186575033254e-05,
+      "loss": 2.345843553543091,
+      "step": 2038,
+      "token_acc": 0.4920504385964912
+    },
+    {
+      "epoch": 0.9352138516225204,
+      "grad_norm": 0.3438500463962555,
+      "learning_rate": 1.1081153735409522e-05,
+      "loss": 2.296954393386841,
+      "step": 2039,
+      "token_acc": 0.4915842906759284
+    },
+    {
+      "epoch": 0.935672514619883,
+      "grad_norm": 0.38374483585357666,
+      "learning_rate": 1.0926199633097156e-05,
+      "loss": 2.3498778343200684,
+      "step": 2040,
+      "token_acc": 0.49286936679977184
+    },
+    {
+      "epoch": 0.9361311776172457,
+      "grad_norm": 0.35035616159439087,
+      "learning_rate": 1.0772324609982787e-05,
+      "loss": 2.305691719055176,
+      "step": 2041,
+      "token_acc": 0.49038461538461536
+    },
+    {
+      "epoch": 0.9365898406146084,
+      "grad_norm": 0.354679137468338,
+      "learning_rate": 1.0619529005571893e-05,
+      "loss": 2.3142271041870117,
+      "step": 2042,
+      "token_acc": 0.49916013437849943
+    },
+    {
+      "epoch": 0.9370485036119711,
+      "grad_norm": 0.35288292169570923,
+      "learning_rate": 1.0467813156988748e-05,
+      "loss": 2.4606692790985107,
+      "step": 2043,
+      "token_acc": 0.4806551821519345
+    },
+    {
+      "epoch": 0.9375071666093338,
+      "grad_norm": 0.3501777648925781,
+      "learning_rate": 1.0317177398975031e-05,
+      "loss": 2.3089842796325684,
+      "step": 2044,
+      "token_acc": 0.49214365881032546
+    },
+    {
+      "epoch": 0.9379658296066965,
+      "grad_norm": 0.35698404908180237,
+      "learning_rate": 1.0167622063889326e-05,
+      "loss": 2.3087873458862305,
+      "step": 2045,
+      "token_acc": 0.488988012266518
+    },
+    {
+      "epoch": 0.9384244926040591,
+      "grad_norm": 0.3369910717010498,
+      "learning_rate": 1.0019147481706625e-05,
+      "loss": 2.38759446144104,
+      "step": 2046,
+      "token_acc": 0.48082676094642374
+    },
+    {
+      "epoch": 0.9388831556014219,
+      "grad_norm": 0.32841262221336365,
+      "learning_rate": 9.871753980017051e-06,
+      "loss": 2.3229198455810547,
+      "step": 2047,
+      "token_acc": 0.4954423592493298
+    },
+    {
+      "epoch": 0.9393418185987845,
+      "grad_norm": 0.34372687339782715,
+      "learning_rate": 9.725441884025855e-06,
+      "loss": 2.361814022064209,
+      "step": 2048,
+      "token_acc": 0.48622852467957456
+    },
+    {
+      "epoch": 0.9398004815961473,
+      "grad_norm": 0.34878838062286377,
+      "learning_rate": 9.580211516551862e-06,
+      "loss": 2.3079724311828613,
+      "step": 2049,
+      "token_acc": 0.5056303213402912
+    },
+    {
+      "epoch": 0.9402591445935099,
+      "grad_norm": 0.36684298515319824,
+      "learning_rate": 9.436063198027589e-06,
+      "loss": 2.3592705726623535,
+      "step": 2050,
+      "token_acc": 0.49142535844813046
+    },
+    {
+      "epoch": 0.9407178075908726,
+      "grad_norm": 0.34837597608566284,
+      "learning_rate": 9.292997246497959e-06,
+      "loss": 2.3012423515319824,
+      "step": 2051,
+      "token_acc": 0.4933920704845815
+    },
+    {
+      "epoch": 0.9411764705882353,
+      "grad_norm": 0.34060338139533997,
+      "learning_rate": 9.151013977619693e-06,
+      "loss": 2.295048952102661,
+      "step": 2052,
+      "token_acc": 0.4927657206455203
+    },
+    {
+      "epoch": 0.941635133585598,
+      "grad_norm": 0.34118080139160156,
+      "learning_rate": 9.010113704661038e-06,
+      "loss": 2.3969879150390625,
+      "step": 2053,
+      "token_acc": 0.47378327507394463
+    },
+    {
+      "epoch": 0.9420937965829607,
+      "grad_norm": 0.35070735216140747,
+      "learning_rate": 8.870296738500316e-06,
+      "loss": 2.4100542068481445,
+      "step": 2054,
+      "token_acc": 0.48577740955537146
+    },
+    {
+      "epoch": 0.9425524595803234,
+      "grad_norm": 0.3478294312953949,
+      "learning_rate": 8.731563387626095e-06,
+      "loss": 2.3623621463775635,
+      "step": 2055,
+      "token_acc": 0.4850415512465374
+    },
+    {
+      "epoch": 0.943011122577686,
+      "grad_norm": 0.34612318873405457,
+      "learning_rate": 8.59391395813569e-06,
+      "loss": 2.311115264892578,
+      "step": 2056,
+      "token_acc": 0.49594405594405594
+    },
+    {
+      "epoch": 0.9434697855750487,
+      "grad_norm": 0.3302360475063324,
+      "learning_rate": 8.457348753735328e-06,
+      "loss": 2.2877466678619385,
+      "step": 2057,
+      "token_acc": 0.5027716186252772
+    },
+    {
+      "epoch": 0.9439284485724114,
+      "grad_norm": 0.33415380120277405,
+      "learning_rate": 8.321868075738593e-06,
+      "loss": 2.29952335357666,
+      "step": 2058,
+      "token_acc": 0.5063469675599436
+    },
+    {
+      "epoch": 0.9443871115697741,
+      "grad_norm": 0.35393401980400085,
+      "learning_rate": 8.187472223066371e-06,
+      "loss": 2.259887933731079,
+      "step": 2059,
+      "token_acc": 0.4948717948717949
+    },
+    {
+      "epoch": 0.9448457745671368,
+      "grad_norm": 0.3527378737926483,
+      "learning_rate": 8.054161492246136e-06,
+      "loss": 2.300767183303833,
+      "step": 2060,
+      "token_acc": 0.4979472140762463
+    },
+    {
+      "epoch": 0.9453044375644994,
+      "grad_norm": 0.35494062304496765,
+      "learning_rate": 7.921936177411049e-06,
+      "loss": 2.329751491546631,
+      "step": 2061,
+      "token_acc": 0.4918548156616176
+    },
+    {
+      "epoch": 0.9457631005618622,
+      "grad_norm": 0.36960625648498535,
+      "learning_rate": 7.790796570299463e-06,
+      "loss": 2.331101894378662,
+      "step": 2062,
+      "token_acc": 0.4909947353837628
+    },
+    {
+      "epoch": 0.9462217635592248,
+      "grad_norm": 0.34583020210266113,
+      "learning_rate": 7.660742960254207e-06,
+      "loss": 2.3163328170776367,
+      "step": 2063,
+      "token_acc": 0.4974902398215282
+    },
+    {
+      "epoch": 0.9466804265565876,
+      "grad_norm": 0.3352227509021759,
+      "learning_rate": 7.531775634222138e-06,
+      "loss": 2.3450987339019775,
+      "step": 2064,
+      "token_acc": 0.48942598187311176
+    },
+    {
+      "epoch": 0.9471390895539502,
+      "grad_norm": 0.3486025631427765,
+      "learning_rate": 7.403894876753192e-06,
+      "loss": 2.2198140621185303,
+      "step": 2065,
+      "token_acc": 0.49872195399034364
+    },
+    {
+      "epoch": 0.947597752551313,
+      "grad_norm": 0.36947572231292725,
+      "learning_rate": 7.277100970000061e-06,
+      "loss": 2.369945526123047,
+      "step": 2066,
+      "token_acc": 0.503393665158371
+    },
+    {
+      "epoch": 0.9480564155486756,
+      "grad_norm": 0.35285070538520813,
+      "learning_rate": 7.151394193717408e-06,
+      "loss": 2.346325397491455,
+      "step": 2067,
+      "token_acc": 0.5022296544035675
+    },
+    {
+      "epoch": 0.9485150785460383,
+      "grad_norm": 0.3495651185512543,
+      "learning_rate": 7.026774825261151e-06,
+      "loss": 2.427640438079834,
+      "step": 2068,
+      "token_acc": 0.4856985698569857
+    },
+    {
+      "epoch": 0.948973741543401,
+      "grad_norm": 0.3602946400642395,
+      "learning_rate": 6.903243139588233e-06,
+      "loss": 2.427027940750122,
+      "step": 2069,
+      "token_acc": 0.48182070496808216
+    },
+    {
+      "epoch": 0.9494324045407637,
+      "grad_norm": 0.3443445861339569,
+      "learning_rate": 6.780799409255522e-06,
+      "loss": 2.285564422607422,
+      "step": 2070,
+      "token_acc": 0.5093856655290102
+    },
+    {
+      "epoch": 0.9498910675381264,
+      "grad_norm": 0.33286967873573303,
+      "learning_rate": 6.659443904419637e-06,
+      "loss": 2.343486785888672,
+      "step": 2071,
+      "token_acc": 0.4902964959568733
+    },
+    {
+      "epoch": 0.9503497305354891,
+      "grad_norm": 0.3475978970527649,
+      "learning_rate": 6.539176892836008e-06,
+      "loss": 2.349055767059326,
+      "step": 2072,
+      "token_acc": 0.4945240101095198
+    },
+    {
+      "epoch": 0.9508083935328517,
+      "grad_norm": 0.3581259250640869,
+      "learning_rate": 6.4199986398585375e-06,
+      "loss": 2.330740451812744,
+      "step": 2073,
+      "token_acc": 0.4864161849710983
+    },
+    {
+      "epoch": 0.9512670565302144,
+      "grad_norm": 0.3362613916397095,
+      "learning_rate": 6.3019094084388884e-06,
+      "loss": 2.3202738761901855,
+      "step": 2074,
+      "token_acc": 0.49296962879640044
+    },
+    {
+      "epoch": 0.9517257195275771,
+      "grad_norm": 0.3607742488384247,
+      "learning_rate": 6.18490945912592e-06,
+      "loss": 2.417773962020874,
+      "step": 2075,
+      "token_acc": 0.49106382978723406
+    },
+    {
+      "epoch": 0.9521843825249398,
+      "grad_norm": 0.33522072434425354,
+      "learning_rate": 6.068999050065249e-06,
+      "loss": 2.324309825897217,
+      "step": 2076,
+      "token_acc": 0.4927652733118971
+    },
+    {
+      "epoch": 0.9526430455223025,
+      "grad_norm": 0.34251394867897034,
+      "learning_rate": 5.9541784369983586e-06,
+      "loss": 2.3325560092926025,
+      "step": 2077,
+      "token_acc": 0.4962899543378995
+    },
+    {
+      "epoch": 0.9531017085196651,
+      "grad_norm": 0.344497412443161,
+      "learning_rate": 5.840447873262433e-06,
+      "loss": 2.317004680633545,
+      "step": 2078,
+      "token_acc": 0.4877121123464014
+    },
+    {
+      "epoch": 0.9535603715170279,
+      "grad_norm": 0.3498692512512207,
+      "learning_rate": 5.727807609789471e-06,
+      "loss": 2.336134433746338,
+      "step": 2079,
+      "token_acc": 0.4989130434782609
+    },
+    {
+      "epoch": 0.9540190345143905,
+      "grad_norm": 0.343220978975296,
+      "learning_rate": 5.616257895105892e-06,
+      "loss": 2.37536883354187,
+      "step": 2080,
+      "token_acc": 0.477521613832853
+    },
+    {
+      "epoch": 0.9544776975117533,
+      "grad_norm": 0.357441246509552,
+      "learning_rate": 5.505798975331933e-06,
+      "loss": 2.4757080078125,
+      "step": 2081,
+      "token_acc": 0.4705394190871369
+    },
+    {
+      "epoch": 0.9549363605091159,
+      "grad_norm": 0.3436932861804962,
+      "learning_rate": 5.396431094181198e-06,
+      "loss": 2.3946328163146973,
+      "step": 2082,
+      "token_acc": 0.4920863309352518
+    },
+    {
+      "epoch": 0.9553950235064786,
+      "grad_norm": 0.36705952882766724,
+      "learning_rate": 5.288154492960107e-06,
+      "loss": 2.36915922164917,
+      "step": 2083,
+      "token_acc": 0.4801924165251839
+    },
+    {
+      "epoch": 0.9558536865038413,
+      "grad_norm": 0.33941003680229187,
+      "learning_rate": 5.1809694105671155e-06,
+      "loss": 2.388136625289917,
+      "step": 2084,
+      "token_acc": 0.48072625698324023
+    },
+    {
+      "epoch": 0.956312349501204,
+      "grad_norm": 0.34288838505744934,
+      "learning_rate": 5.074876083492441e-06,
+      "loss": 2.3478050231933594,
+      "step": 2085,
+      "token_acc": 0.49706666666666666
+    },
+    {
+      "epoch": 0.9567710124985667,
+      "grad_norm": 0.3461489975452423,
+      "learning_rate": 4.96987474581767e-06,
+      "loss": 2.3436312675476074,
+      "step": 2086,
+      "token_acc": 0.5040221914008322
+    },
+    {
+      "epoch": 0.9572296754959294,
+      "grad_norm": 0.3312769830226898,
+      "learning_rate": 4.865965629214819e-06,
+      "loss": 2.2568278312683105,
+      "step": 2087,
+      "token_acc": 0.5177170678928861
+    },
+    {
+      "epoch": 0.957688338493292,
+      "grad_norm": 0.3349217176437378,
+      "learning_rate": 4.763148962946218e-06,
+      "loss": 2.3043558597564697,
+      "step": 2088,
+      "token_acc": 0.49508012369974697
+    },
+    {
+      "epoch": 0.9581470014906548,
+      "grad_norm": 0.35276052355766296,
+      "learning_rate": 4.661424973863681e-06,
+      "loss": 2.303548812866211,
+      "step": 2089,
+      "token_acc": 0.5035230352303524
+    },
+    {
+      "epoch": 0.9586056644880174,
+      "grad_norm": 0.3526037931442261,
+      "learning_rate": 4.560793886408398e-06,
+      "loss": 2.309507369995117,
+      "step": 2090,
+      "token_acc": 0.492978786973409
+    },
+    {
+      "epoch": 0.9590643274853801,
+      "grad_norm": 0.3461745083332062,
+      "learning_rate": 4.461255922609986e-06,
+      "loss": 2.3805932998657227,
+      "step": 2091,
+      "token_acc": 0.4813673297842533
+    },
+    {
+      "epoch": 0.9595229904827428,
+      "grad_norm": 0.3288447856903076,
+      "learning_rate": 4.362811302086267e-06,
+      "loss": 2.3725688457489014,
+      "step": 2092,
+      "token_acc": 0.48534201954397393
+    },
+    {
+      "epoch": 0.9599816534801054,
+      "grad_norm": 0.35582271218299866,
+      "learning_rate": 4.265460242042885e-06,
+      "loss": 2.482666015625,
+      "step": 2093,
+      "token_acc": 0.47776601376389627
+    },
+    {
+      "epoch": 0.9604403164774682,
+      "grad_norm": 0.3361198902130127,
+      "learning_rate": 4.169202957272522e-06,
+      "loss": 2.4092788696289062,
+      "step": 2094,
+      "token_acc": 0.4747393744987971
+    },
+    {
+      "epoch": 0.9608989794748308,
+      "grad_norm": 0.3461763858795166,
+      "learning_rate": 4.074039660154738e-06,
+      "loss": 2.376309871673584,
+      "step": 2095,
+      "token_acc": 0.48392652123995405
+    },
+    {
+      "epoch": 0.9613576424721936,
+      "grad_norm": 0.3521893322467804,
+      "learning_rate": 3.9799705606551325e-06,
+      "loss": 2.2746388912200928,
+      "step": 2096,
+      "token_acc": 0.49874196253844005
+    },
+    {
+      "epoch": 0.9618163054695562,
+      "grad_norm": 0.34621161222457886,
+      "learning_rate": 3.886995866325294e-06,
+      "loss": 2.3309364318847656,
+      "step": 2097,
+      "token_acc": 0.48595744680851066
+    },
+    {
+      "epoch": 0.962274968466919,
+      "grad_norm": 0.36330753564834595,
+      "learning_rate": 3.795115782302072e-06,
+      "loss": 2.451709747314453,
+      "step": 2098,
+      "token_acc": 0.4867785044071652
+    },
+    {
+      "epoch": 0.9627336314642816,
+      "grad_norm": 0.35589903593063354,
+      "learning_rate": 3.704330511307197e-06,
+      "loss": 2.312084674835205,
+      "step": 2099,
+      "token_acc": 0.4879500992344769
+    },
+    {
+      "epoch": 0.9631922944616443,
+      "grad_norm": 0.3442920446395874,
+      "learning_rate": 3.614640253646828e-06,
+      "loss": 2.324641704559326,
+      "step": 2100,
+      "token_acc": 0.4929088277858177
+    },
+    {
+      "epoch": 0.963650957459007,
+      "grad_norm": 0.338853657245636,
+      "learning_rate": 3.5260452072110594e-06,
+      "loss": 2.3187952041625977,
+      "step": 2101,
+      "token_acc": 0.4950966657326982
+    },
+    {
+      "epoch": 0.9641096204563697,
+      "grad_norm": 0.34419336915016174,
+      "learning_rate": 3.4385455674737498e-06,
+      "loss": 2.4029808044433594,
+      "step": 2102,
+      "token_acc": 0.4951045250066155
+    },
+    {
+      "epoch": 0.9645682834537324,
+      "grad_norm": 0.3454667031764984,
+      "learning_rate": 3.3521415274915256e-06,
+      "loss": 2.272096872329712,
+      "step": 2103,
+      "token_acc": 0.5004207573632539
+    },
+    {
+      "epoch": 0.9650269464510951,
+      "grad_norm": 0.3377895951271057,
+      "learning_rate": 3.2668332779041133e-06,
+      "loss": 2.312227725982666,
+      "step": 2104,
+      "token_acc": 0.5037164093767867
+    },
+    {
+      "epoch": 0.9654856094484577,
+      "grad_norm": 0.36478370428085327,
+      "learning_rate": 3.1826210069332838e-06,
+      "loss": 2.399421215057373,
+      "step": 2105,
+      "token_acc": 0.47199317600227464
+    },
+    {
+      "epoch": 0.9659442724458205,
+      "grad_norm": 0.34614917635917664,
+      "learning_rate": 3.0995049003826324e-06,
+      "loss": 2.403590679168701,
+      "step": 2106,
+      "token_acc": 0.485660680782632
+    },
+    {
+      "epoch": 0.9664029354431831,
+      "grad_norm": 0.34825897216796875,
+      "learning_rate": 3.017485141637355e-06,
+      "loss": 2.3826632499694824,
+      "step": 2107,
+      "token_acc": 0.49985384390529086
+    },
+    {
+      "epoch": 0.9668615984405458,
+      "grad_norm": 0.34063586592674255,
+      "learning_rate": 2.9365619116636376e-06,
+      "loss": 2.4315128326416016,
+      "step": 2108,
+      "token_acc": 0.4859255046914984
+    },
+    {
+      "epoch": 0.9673202614379085,
+      "grad_norm": 0.34777477383613586,
+      "learning_rate": 2.856735389008269e-06,
+      "loss": 2.304276466369629,
+      "step": 2109,
+      "token_acc": 0.5005783689994217
+    },
+    {
+      "epoch": 0.9677789244352711,
+      "grad_norm": 0.35110941529273987,
+      "learning_rate": 2.778005749798307e-06,
+      "loss": 2.3057405948638916,
+      "step": 2110,
+      "token_acc": 0.5093856655290102
+    },
+    {
+      "epoch": 0.9682375874326339,
+      "grad_norm": 0.3587294816970825,
+      "learning_rate": 2.700373167740744e-06,
+      "loss": 2.2957663536071777,
+      "step": 2111,
+      "token_acc": 0.5036754696433433
+    },
+    {
+      "epoch": 0.9686962504299965,
+      "grad_norm": 0.35531795024871826,
+      "learning_rate": 2.62383781412201e-06,
+      "loss": 2.412799835205078,
+      "step": 2112,
+      "token_acc": 0.49580741141466056
+    },
+    {
+      "epoch": 0.9691549134273593,
+      "grad_norm": 0.33816346526145935,
+      "learning_rate": 2.5483998578076373e-06,
+      "loss": 2.209771156311035,
+      "step": 2113,
+      "token_acc": 0.5078280671790493
+    },
+    {
+      "epoch": 0.9696135764247219,
+      "grad_norm": 0.36287111043930054,
+      "learning_rate": 2.4740594652418736e-06,
+      "loss": 2.340085506439209,
+      "step": 2114,
+      "token_acc": 0.48778479275322534
+    },
+    {
+      "epoch": 0.9700722394220846,
+      "grad_norm": 0.34613534808158875,
+      "learning_rate": 2.4008168004472917e-06,
+      "loss": 2.3083102703094482,
+      "step": 2115,
+      "token_acc": 0.49528301886792453
+    },
+    {
+      "epoch": 0.9705309024194473,
+      "grad_norm": 0.34003522992134094,
+      "learning_rate": 2.3286720250246253e-06,
+      "loss": 2.253849744796753,
+      "step": 2116,
+      "token_acc": 0.5006832467887401
+    },
+    {
+      "epoch": 0.97098956541681,
+      "grad_norm": 0.3391777276992798,
+      "learning_rate": 2.2576252981520994e-06,
+      "loss": 2.389080047607422,
+      "step": 2117,
+      "token_acc": 0.48610368786745056
+    },
+    {
+      "epoch": 0.9714482284141727,
+      "grad_norm": 0.3536958694458008,
+      "learning_rate": 2.1876767765853233e-06,
+      "loss": 2.347074270248413,
+      "step": 2118,
+      "token_acc": 0.49451453647833243
+    },
+    {
+      "epoch": 0.9719068914115354,
+      "grad_norm": 0.30987951159477234,
+      "learning_rate": 2.118826614656788e-06,
+      "loss": 2.291904926300049,
+      "step": 2119,
+      "token_acc": 0.4960254372019078
+    },
+    {
+      "epoch": 0.972365554408898,
+      "grad_norm": 0.34704503417015076,
+      "learning_rate": 2.051074964275701e-06,
+      "loss": 2.3055026531219482,
+      "step": 2120,
+      "token_acc": 0.5011080332409972
+    },
+    {
+      "epoch": 0.9728242174062608,
+      "grad_norm": 0.3424822688102722,
+      "learning_rate": 1.984421974927375e-06,
+      "loss": 2.2895889282226562,
+      "step": 2121,
+      "token_acc": 0.49986297615785147
+    },
+    {
+      "epoch": 0.9732828804036234,
+      "grad_norm": 0.3444738984107971,
+      "learning_rate": 1.9188677936731734e-06,
+      "loss": 2.39070987701416,
+      "step": 2122,
+      "token_acc": 0.48350111856823264
+    },
+    {
+      "epoch": 0.9737415434009862,
+      "grad_norm": 0.3446108400821686,
+      "learning_rate": 1.8544125651501208e-06,
+      "loss": 2.355583667755127,
+      "step": 2123,
+      "token_acc": 0.49427480916030536
+    },
+    {
+      "epoch": 0.9742002063983488,
+      "grad_norm": 0.4043484926223755,
+      "learning_rate": 1.7910564315704035e-06,
+      "loss": 2.3478498458862305,
+      "step": 2124,
+      "token_acc": 0.4992042440318302
+    },
+    {
+      "epoch": 0.9746588693957114,
+      "grad_norm": 0.34436845779418945,
+      "learning_rate": 1.7287995327214257e-06,
+      "loss": 2.346301317214966,
+      "step": 2125,
+      "token_acc": 0.5019618834080718
+    },
+    {
+      "epoch": 0.9751175323930742,
+      "grad_norm": 0.3456486761569977,
+      "learning_rate": 1.6676420059649754e-06,
+      "loss": 2.2942404747009277,
+      "step": 2126,
+      "token_acc": 0.4998601398601399
+    },
+    {
+      "epoch": 0.9755761953904368,
+      "grad_norm": 0.3459480106830597,
+      "learning_rate": 1.6075839862374485e-06,
+      "loss": 2.4731900691986084,
+      "step": 2127,
+      "token_acc": 0.4661713982488724
+    },
+    {
+      "epoch": 0.9760348583877996,
+      "grad_norm": 0.34236493706703186,
+      "learning_rate": 1.5486256060492366e-06,
+      "loss": 2.3529610633850098,
+      "step": 2128,
+      "token_acc": 0.48340832395950506
+    },
+    {
+      "epoch": 0.9764935213851622,
+      "grad_norm": 0.3432407081127167,
+      "learning_rate": 1.4907669954844495e-06,
+      "loss": 2.3539376258850098,
+      "step": 2129,
+      "token_acc": 0.4880849842090152
+    },
+    {
+      "epoch": 0.976952184382525,
+      "grad_norm": 0.3485792279243469,
+      "learning_rate": 1.434008282200805e-06,
+      "loss": 2.342651844024658,
+      "step": 2130,
+      "token_acc": 0.49384443200895356
+    },
+    {
+      "epoch": 0.9774108473798876,
+      "grad_norm": 0.34099340438842773,
+      "learning_rate": 1.3783495914291844e-06,
+      "loss": 2.243961811065674,
+      "step": 2131,
+      "token_acc": 0.5085794655414908
+    },
+    {
+      "epoch": 0.9778695103772503,
+      "grad_norm": 0.3355376124382019,
+      "learning_rate": 1.3237910459734104e-06,
+      "loss": 2.430598497390747,
+      "step": 2132,
+      "token_acc": 0.4907199100112486
+    },
+    {
+      "epoch": 0.978328173374613,
+      "grad_norm": 0.35558032989501953,
+      "learning_rate": 1.270332766210025e-06,
+      "loss": 2.3512024879455566,
+      "step": 2133,
+      "token_acc": 0.48360655737704916
+    },
+    {
+      "epoch": 0.9787868363719757,
+      "grad_norm": 0.3598702847957611,
+      "learning_rate": 1.2179748700879012e-06,
+      "loss": 2.3027899265289307,
+      "step": 2134,
+      "token_acc": 0.5050391937290034
+    },
+    {
+      "epoch": 0.9792454993693384,
+      "grad_norm": 0.35917016863822937,
+      "learning_rate": 1.1667174731280205e-06,
+      "loss": 2.305792808532715,
+      "step": 2135,
+      "token_acc": 0.4931701764371087
+    },
+    {
+      "epoch": 0.9797041623667011,
+      "grad_norm": 0.34038177132606506,
+      "learning_rate": 1.1165606884234182e-06,
+      "loss": 2.2619519233703613,
+      "step": 2136,
+      "token_acc": 0.5013579576317219
+    },
+    {
+      "epoch": 0.9801628253640637,
+      "grad_norm": 0.33247238397598267,
+      "learning_rate": 1.0675046266386268e-06,
+      "loss": 2.357814311981201,
+      "step": 2137,
+      "token_acc": 0.4932903918411165
+    },
+    {
+      "epoch": 0.9806214883614265,
+      "grad_norm": 0.3416377007961273,
+      "learning_rate": 1.019549396009567e-06,
+      "loss": 2.38024640083313,
+      "step": 2138,
+      "token_acc": 0.48860203240867894
+    },
+    {
+      "epoch": 0.9810801513587891,
+      "grad_norm": 0.3372955322265625,
+      "learning_rate": 9.726951023434348e-07,
+      "loss": 2.2469849586486816,
+      "step": 2139,
+      "token_acc": 0.5101369863013698
+    },
+    {
+      "epoch": 0.9815388143561519,
+      "grad_norm": 0.36407020688056946,
+      "learning_rate": 9.269418490182591e-07,
+      "loss": 2.218817710876465,
+      "step": 2140,
+      "token_acc": 0.5054254711593376
+    },
+    {
+      "epoch": 0.9819974773535145,
+      "grad_norm": 0.358676552772522,
+      "learning_rate": 8.822897369827332e-07,
+      "loss": 2.493196725845337,
+      "step": 2141,
+      "token_acc": 0.4787292817679558
+    },
+    {
+      "epoch": 0.9824561403508771,
+      "grad_norm": 0.3322162926197052,
+      "learning_rate": 8.387388647561611e-07,
+      "loss": 2.346320390701294,
+      "step": 2142,
+      "token_acc": 0.4861816130851664
+    },
+    {
+      "epoch": 0.9829148033482399,
+      "grad_norm": 0.35808783769607544,
+      "learning_rate": 7.962893284279016e-07,
+      "loss": 2.346327543258667,
+      "step": 2143,
+      "token_acc": 0.5023161551823973
+    },
+    {
+      "epoch": 0.9833734663456025,
+      "grad_norm": 0.35277286171913147,
+      "learning_rate": 7.549412216574791e-07,
+      "loss": 2.3903708457946777,
+      "step": 2144,
+      "token_acc": 0.4838971583220568
+    },
+    {
+      "epoch": 0.9838321293429653,
+      "grad_norm": 0.3429495096206665,
+      "learning_rate": 7.146946356743067e-07,
+      "loss": 2.3555829524993896,
+      "step": 2145,
+      "token_acc": 0.4890570116184815
+    },
+    {
+      "epoch": 0.9842907923403279,
+      "grad_norm": 0.3217772841453552,
+      "learning_rate": 6.755496592773524e-07,
+      "loss": 2.1532931327819824,
+      "step": 2146,
+      "token_acc": 0.5160317895313785
+    },
+    {
+      "epoch": 0.9847494553376906,
+      "grad_norm": 0.3396526277065277,
+      "learning_rate": 6.375063788349733e-07,
+      "loss": 2.3004696369171143,
+      "step": 2147,
+      "token_acc": 0.4987599889776798
+    },
+    {
+      "epoch": 0.9852081183350533,
+      "grad_norm": 0.35137200355529785,
+      "learning_rate": 6.005648782848594e-07,
+      "loss": 2.379272699356079,
+      "step": 2148,
+      "token_acc": 0.49546329392356336
+    },
+    {
+      "epoch": 0.985666781332416,
+      "grad_norm": 0.33664414286613464,
+      "learning_rate": 5.647252391337565e-07,
+      "loss": 2.2693474292755127,
+      "step": 2149,
+      "token_acc": 0.4998575904300769
+    },
+    {
+      "epoch": 0.9861254443297787,
+      "grad_norm": 0.3488859534263611,
+      "learning_rate": 5.299875404572441e-07,
+      "loss": 2.3551697731018066,
+      "step": 2150,
+      "token_acc": 0.497906782026235
+    },
+    {
+      "epoch": 0.9865841073271414,
+      "grad_norm": 0.32513248920440674,
+      "learning_rate": 4.963518588996796e-07,
+      "loss": 2.337803363800049,
+      "step": 2151,
+      "token_acc": 0.49259569712210116
+    },
+    {
+      "epoch": 0.987042770324504,
+      "grad_norm": 0.34210142493247986,
+      "learning_rate": 4.638182686738657e-07,
+      "loss": 2.2983903884887695,
+      "step": 2152,
+      "token_acc": 0.4870641169853768
+    },
+    {
+      "epoch": 0.9875014333218668,
+      "grad_norm": 0.32570120692253113,
+      "learning_rate": 4.3238684156110543e-07,
+      "loss": 2.3379669189453125,
+      "step": 2153,
+      "token_acc": 0.49122807017543857
+    },
+    {
+      "epoch": 0.9879600963192294,
+      "grad_norm": 0.34904760122299194,
+      "learning_rate": 4.020576469108139e-07,
+      "loss": 2.371443271636963,
+      "step": 2154,
+      "token_acc": 0.4790657932213045
+    },
+    {
+      "epoch": 0.9884187593165922,
+      "grad_norm": 0.34138429164886475,
+      "learning_rate": 3.7283075164046274e-07,
+      "loss": 2.3019542694091797,
+      "step": 2155,
+      "token_acc": 0.5030203185063152
+    },
+    {
+      "epoch": 0.9888774223139548,
+      "grad_norm": 0.3612538278102875,
+      "learning_rate": 3.4470622023557995e-07,
+      "loss": 2.37115478515625,
+      "step": 2156,
+      "token_acc": 0.49312714776632305
+    },
+    {
+      "epoch": 0.9893360853113176,
+      "grad_norm": 0.3485041558742523,
+      "learning_rate": 3.176841147492504e-07,
+      "loss": 2.314802408218384,
+      "step": 2157,
+      "token_acc": 0.49721758486366163
+    },
+    {
+      "epoch": 0.9897947483086802,
+      "grad_norm": 0.3381381034851074,
+      "learning_rate": 2.9176449480244895e-07,
+      "loss": 2.3384337425231934,
+      "step": 2158,
+      "token_acc": 0.4946058091286307
+    },
+    {
+      "epoch": 0.9902534113060428,
+      "grad_norm": 0.3664429783821106,
+      "learning_rate": 2.6694741758342967e-07,
+      "loss": 2.3529911041259766,
+      "step": 2159,
+      "token_acc": 0.49725195256002314
+    },
+    {
+      "epoch": 0.9907120743034056,
+      "grad_norm": 0.3663409948348999,
+      "learning_rate": 2.432329378478926e-07,
+      "loss": 2.2667489051818848,
+      "step": 2160,
+      "token_acc": 0.503448275862069
+    },
+    {
+      "epoch": 0.9911707373007682,
+      "grad_norm": 0.3534823954105377,
+      "learning_rate": 2.2062110791892798e-07,
+      "loss": 2.31801700592041,
+      "step": 2161,
+      "token_acc": 0.4991587212563096
+    },
+    {
+      "epoch": 0.991629400298131,
+      "grad_norm": 0.3397652208805084,
+      "learning_rate": 1.9911197768662792e-07,
+      "loss": 2.391312599182129,
+      "step": 2162,
+      "token_acc": 0.48697068403908794
+    },
+    {
+      "epoch": 0.9920880632954936,
+      "grad_norm": 0.3474685847759247,
+      "learning_rate": 1.7870559460814173e-07,
+      "loss": 2.306285858154297,
+      "step": 2163,
+      "token_acc": 0.4863325740318907
+    },
+    {
+      "epoch": 0.9925467262928563,
+      "grad_norm": 0.35820624232292175,
+      "learning_rate": 1.5940200370750947e-07,
+      "loss": 2.431553840637207,
+      "step": 2164,
+      "token_acc": 0.48907181379506104
+    },
+    {
+      "epoch": 0.993005389290219,
+      "grad_norm": 0.3474024832248688,
+      "learning_rate": 1.4120124757577291e-07,
+      "loss": 2.382267713546753,
+      "step": 2165,
+      "token_acc": 0.4979691307879773
+    },
+    {
+      "epoch": 0.9934640522875817,
+      "grad_norm": 0.3577353060245514,
+      "learning_rate": 1.2410336637047603e-07,
+      "loss": 2.3803296089172363,
+      "step": 2166,
+      "token_acc": 0.4924114671163575
+    },
+    {
+      "epoch": 0.9939227152849444,
+      "grad_norm": 0.32953691482543945,
+      "learning_rate": 1.081083978159425e-07,
+      "loss": 2.3340916633605957,
+      "step": 2167,
+      "token_acc": 0.4901031502648453
+    },
+    {
+      "epoch": 0.9943813782823071,
+      "grad_norm": 0.35062897205352783,
+      "learning_rate": 9.321637720310915e-08,
+      "loss": 2.3349223136901855,
+      "step": 2168,
+      "token_acc": 0.4902349278233796
+    },
+    {
+      "epoch": 0.9948400412796697,
+      "grad_norm": 0.33525335788726807,
+      "learning_rate": 7.942733738924845e-08,
+      "loss": 2.295199394226074,
+      "step": 2169,
+      "token_acc": 0.48787878787878786
+    },
+    {
+      "epoch": 0.9952987042770325,
+      "grad_norm": 0.3400014340877533,
+      "learning_rate": 6.6741308798135e-08,
+      "loss": 2.329634428024292,
+      "step": 2170,
+      "token_acc": 0.49232058084333985
+    },
+    {
+      "epoch": 0.9957573672743951,
+      "grad_norm": 0.32701554894447327,
+      "learning_rate": 5.5158319419934546e-08,
+      "loss": 2.3438572883605957,
+      "step": 2171,
+      "token_acc": 0.49247606019151846
+    },
+    {
+      "epoch": 0.9962160302717579,
+      "grad_norm": 0.32788389921188354,
+      "learning_rate": 4.4678394810981906e-08,
+      "loss": 2.2928342819213867,
+      "step": 2172,
+      "token_acc": 0.48693923906871095
+    },
+    {
+      "epoch": 0.9966746932691205,
+      "grad_norm": 0.36217525601387024,
+      "learning_rate": 3.5301558093947527e-08,
+      "loss": 2.44382905960083,
+      "step": 2173,
+      "token_acc": 0.4796392456955452
+    },
+    {
+      "epoch": 0.9971333562664833,
+      "grad_norm": 0.35162824392318726,
+      "learning_rate": 2.7027829957559925e-08,
+      "loss": 2.367338180541992,
+      "step": 2174,
+      "token_acc": 0.49713631156930127
+    },
+    {
+      "epoch": 0.9975920192638459,
+      "grad_norm": 0.36451447010040283,
+      "learning_rate": 1.985722865682771e-08,
+      "loss": 2.4811959266662598,
+      "step": 2175,
+      "token_acc": 0.47302558398220246
+    },
+    {
+      "epoch": 0.9980506822612085,
+      "grad_norm": 0.34427523612976074,
+      "learning_rate": 1.3789770012762048e-08,
+      "loss": 2.340498447418213,
+      "step": 2176,
+      "token_acc": 0.49373433583959897
+    },
+    {
+      "epoch": 0.9985093452585713,
+      "grad_norm": 0.3395884037017822,
+      "learning_rate": 8.825467412376665e-09,
+      "loss": 2.273221492767334,
+      "step": 2177,
+      "token_acc": 0.5054131054131055
+    },
+    {
+      "epoch": 0.9989680082559339,
+      "grad_norm": 0.3469321131706238,
+      "learning_rate": 4.96433180879885e-09,
+      "loss": 2.4204373359680176,
+      "step": 2178,
+      "token_acc": 0.4801405025668738
+    },
+    {
+      "epoch": 0.9994266712532967,
+      "grad_norm": 0.35077184438705444,
+      "learning_rate": 2.206371721158451e-09,
+      "loss": 2.291797161102295,
+      "step": 2179,
+      "token_acc": 0.49503311258278143
+    },
+    {
+      "epoch": 0.9998853342506593,
+      "grad_norm": 0.3882806897163391,
+      "learning_rate": 5.515932345323549e-10,
+      "loss": 2.260057210922241,
+      "step": 2180,
+      "token_acc": 0.5005586592178771
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.7854276895523071,
+      "learning_rate": 0.0,
+      "loss": 2.1832385063171387,
+      "step": 2181,
+      "token_acc": 0.5133136094674556
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 2181,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.265836048789799e+19,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/training_args.bin b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/training_args.bin
new file mode 100644
index 0000000000000000000000000000000000000000..aafd89a8edd3c38f59f8dee28044cb9acd741e72
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/training_args.bin
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:200d346876ba234fd0173cd966223e4da8153079cadd47fac8343ec67a256e4b
+size 8913
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/zero_to_fp32.py b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/zero_to_fp32.py
new file mode 100644
index 0000000000000000000000000000000000000000..5995d6e6f04e43b989587aa9022a3aef0c66d694
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181/zero_to_fp32.py
@@ -0,0 +1,760 @@
+#!/usr/bin/env python
+
+# Copyright (c) Microsoft Corporation.
+# SPDX-License-Identifier: Apache-2.0
+
+# DeepSpeed Team
+
+# This script extracts fp32 consolidated weights from a zero 1, 2 and 3 DeepSpeed checkpoints. It gets
+# copied into the top level checkpoint dir, so the user can easily do the conversion at any point in
+# the future. Once extracted, the weights don't require DeepSpeed and can be used in any
+# application.
+#
+# example:
+#   python zero_to_fp32.py . output_dir/
+#   or
+#   python zero_to_fp32.py . output_dir/ --safe_serialization
+
+import argparse
+import torch
+import glob
+import math
+import os
+import re
+import gc
+import json
+import numpy as np
+from tqdm import tqdm
+from collections import OrderedDict
+from dataclasses import dataclass
+
+# while this script doesn't use deepspeed to recover data, since the checkpoints are pickled with
+# DeepSpeed data structures it has to be available in the current python environment.
+from deepspeed.utils import logger
+from deepspeed.checkpoint.constants import (DS_VERSION, OPTIMIZER_STATE_DICT, SINGLE_PARTITION_OF_FP32_GROUPS,
+                                            FP32_FLAT_GROUPS, ZERO_STAGE, PARTITION_COUNT, PARAM_SHAPES, BUFFER_NAMES,
+                                            FROZEN_PARAM_SHAPES, FROZEN_PARAM_FRAGMENTS)
+
+
+@dataclass
+class zero_model_state:
+    buffers: dict()
+    param_shapes: dict()
+    shared_params: list
+    ds_version: int
+    frozen_param_shapes: dict()
+    frozen_param_fragments: dict()
+
+
+debug = 0
+
+# load to cpu
+device = torch.device('cpu')
+
+
+def atoi(text):
+    return int(text) if text.isdigit() else text
+
+
+def natural_keys(text):
+    '''
+    alist.sort(key=natural_keys) sorts in human order
+    http://nedbatchelder.com/blog/200712/human_sorting.html
+    (See Toothy's implementation in the comments)
+    '''
+    return [atoi(c) for c in re.split(r'(\d+)', text)]
+
+
+def get_model_state_file(checkpoint_dir, zero_stage):
+    if not os.path.isdir(checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{checkpoint_dir}' doesn't exist")
+
+    # there should be only one file
+    if zero_stage <= 2:
+        file = os.path.join(checkpoint_dir, "mp_rank_00_model_states.pt")
+    elif zero_stage == 3:
+        file = os.path.join(checkpoint_dir, "zero_pp_rank_0_mp_rank_00_model_states.pt")
+
+    if not os.path.exists(file):
+        raise FileNotFoundError(f"can't find model states file at '{file}'")
+
+    return file
+
+
+def get_checkpoint_files(checkpoint_dir, glob_pattern):
+    # XXX: need to test that this simple glob rule works for multi-node setup too
+    ckpt_files = sorted(glob.glob(os.path.join(checkpoint_dir, glob_pattern)), key=natural_keys)
+
+    if len(ckpt_files) == 0:
+        raise FileNotFoundError(f"can't find {glob_pattern} files in directory '{checkpoint_dir}'")
+
+    return ckpt_files
+
+
+def get_optim_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_optim_states.pt")
+
+
+def get_model_state_files(checkpoint_dir):
+    return get_checkpoint_files(checkpoint_dir, "*_model_states.pt")
+
+
+def parse_model_states(files):
+    zero_model_states = []
+    for file in files:
+        state_dict = torch.load(file, map_location=device, weights_only=False)
+
+        if BUFFER_NAMES not in state_dict:
+            raise ValueError(f"{file} is not a model state checkpoint")
+        buffer_names = state_dict[BUFFER_NAMES]
+        if debug:
+            print("Found buffers:", buffer_names)
+
+        # recover just the buffers while restoring them to fp32 if they were saved in fp16
+        buffers = {k: v.float() for k, v in state_dict["module"].items() if k in buffer_names}
+        param_shapes = state_dict[PARAM_SHAPES]
+
+        # collect parameters that are included in param_shapes
+        param_names = []
+        for s in param_shapes:
+            for name in s.keys():
+                param_names.append(name)
+
+        # update with frozen parameters
+        frozen_param_shapes = state_dict.get(FROZEN_PARAM_SHAPES, None)
+        if frozen_param_shapes is not None:
+            if debug:
+                print(f"Found frozen_param_shapes: {frozen_param_shapes}")
+            param_names += list(frozen_param_shapes.keys())
+
+        # handle shared params
+        shared_params = [[k, v] for k, v in state_dict["shared_params"].items()]
+
+        ds_version = state_dict.get(DS_VERSION, None)
+
+        frozen_param_fragments = state_dict.get(FROZEN_PARAM_FRAGMENTS, None)
+
+        z_model_state = zero_model_state(buffers=buffers,
+                                         param_shapes=param_shapes,
+                                         shared_params=shared_params,
+                                         ds_version=ds_version,
+                                         frozen_param_shapes=frozen_param_shapes,
+                                         frozen_param_fragments=frozen_param_fragments)
+        zero_model_states.append(z_model_state)
+
+    return zero_model_states
+
+
+def parse_optim_states(files, ds_checkpoint_dir):
+    total_files = len(files)
+    state_dicts = []
+    for f in tqdm(files, desc='Loading checkpoint shards'):
+        state_dict = torch.load(f, map_location=device, mmap=True, weights_only=False)
+        # immediately discard the potentially huge 2 optimizer states as we only care for fp32 master weights
+        # and also handle the case where it was already removed by another helper script
+        state_dict["optimizer_state_dict"].pop("optimizer_state_dict", None)
+        state_dicts.append(state_dict)
+
+    if ZERO_STAGE not in state_dicts[0][OPTIMIZER_STATE_DICT]:
+        raise ValueError(f"{files[0]} is not a zero checkpoint")
+    zero_stage = state_dicts[0][OPTIMIZER_STATE_DICT][ZERO_STAGE]
+    world_size = state_dicts[0][OPTIMIZER_STATE_DICT][PARTITION_COUNT]
+
+    # For ZeRO-2 each param group can have different partition_count as data parallelism for expert
+    # parameters can be different from data parallelism for non-expert parameters. So we can just
+    # use the max of the partition_count to get the dp world_size.
+
+    if type(world_size) is list:
+        world_size = max(world_size)
+
+    if world_size != total_files:
+        raise ValueError(
+            f"Expected {world_size} of '*_optim_states.pt' under '{ds_checkpoint_dir}' but found {total_files} files. "
+            "Possibly due to an overwrite of an old checkpoint, or a checkpoint didn't get saved by one or more processes."
+        )
+
+    # the groups are named differently in each stage
+    if zero_stage <= 2:
+        fp32_groups_key = SINGLE_PARTITION_OF_FP32_GROUPS
+    elif zero_stage == 3:
+        fp32_groups_key = FP32_FLAT_GROUPS
+    else:
+        raise ValueError(f"unknown zero stage {zero_stage}")
+
+    fp32_flat_groups = [state_dicts[i][OPTIMIZER_STATE_DICT][fp32_groups_key] for i in range(len(state_dicts))]
+    return zero_stage, world_size, fp32_flat_groups
+
+
+def _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters):
+    """
+    Returns fp32 state_dict reconstructed from ds checkpoint
+
+    Args:
+        - ``ds_checkpoint_dir``: path to the deepspeed checkpoint folder (where the optimizer files are)
+
+    """
+    print(f"Processing zero checkpoint '{ds_checkpoint_dir}'")
+
+    optim_files = get_optim_files(ds_checkpoint_dir)
+    zero_stage, world_size, fp32_flat_groups = parse_optim_states(optim_files, ds_checkpoint_dir)
+    print(f"Detected checkpoint of type zero stage {zero_stage}, world_size: {world_size}")
+
+    model_files = get_model_state_files(ds_checkpoint_dir)
+
+    zero_model_states = parse_model_states(model_files)
+    print(f'Parsing checkpoint created by deepspeed=={zero_model_states[0].ds_version}')
+
+    if zero_stage <= 2:
+        return _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+    elif zero_stage == 3:
+        return _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                                          exclude_frozen_parameters)
+
+
+def _zero2_merge_frozen_params(state_dict, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+
+    frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+    frozen_param_fragments = zero_model_states[0].frozen_param_fragments
+
+    if debug:
+        num_elem = sum(s.numel() for s in frozen_param_shapes.values())
+        print(f'rank 0: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in frozen_param_fragments.values()])
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+
+    total_params = 0
+    total_numel = 0
+    for name, shape in frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+
+        state_dict[name] = frozen_param_fragments[name]
+
+        if debug:
+            print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _has_callable(obj, fn):
+    attr = getattr(obj, fn, None)
+    return callable(attr)
+
+
+def _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+
+    # Reconstruction protocol:
+    #
+    # XXX: document this
+
+    if debug:
+        for i in range(world_size):
+            for j in range(len(fp32_flat_groups[0])):
+                print(f"{FP32_FLAT_GROUPS}[{i}][{j}].shape={fp32_flat_groups[i][j].shape}")
+
+    # XXX: memory usage doubles here (zero2)
+    num_param_groups = len(fp32_flat_groups[0])
+    merged_single_partition_of_fp32_groups = []
+    for i in range(num_param_groups):
+        merged_partitions = [sd[i] for sd in fp32_flat_groups]
+        full_single_fp32_vector = torch.cat(merged_partitions, 0)
+        merged_single_partition_of_fp32_groups.append(full_single_fp32_vector)
+    avail_numel = sum(
+        [full_single_fp32_vector.numel() for full_single_fp32_vector in merged_single_partition_of_fp32_groups])
+
+    if debug:
+        wanted_params = sum([len(shapes) for shapes in param_shapes])
+        wanted_numel = sum([sum(shape.numel() for shape in shapes.values()) for shapes in param_shapes])
+        # not asserting if there is a mismatch due to possible padding
+        print(f"Have {avail_numel} numels to process.")
+        print(f"Need {wanted_numel} numels in {wanted_params} params.")
+
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    total_numel = 0
+    total_params = 0
+    for shapes, full_single_fp32_vector in zip(param_shapes, merged_single_partition_of_fp32_groups):
+        offset = 0
+        avail_numel = full_single_fp32_vector.numel()
+        for name, shape in shapes.items():
+
+            unpartitioned_numel = shape.numel() if _has_callable(shape, 'numel') else math.prod(shape)
+            total_numel += unpartitioned_numel
+            total_params += 1
+
+            if debug:
+                print(f"{name} full shape: {shape} unpartitioned numel {unpartitioned_numel} ")
+            state_dict[name] = full_single_fp32_vector.narrow(0, offset, unpartitioned_numel).view(shape)
+            offset += unpartitioned_numel
+
+        # Z2 started to align to 2*world_size to improve nccl performance. Therefore both offset and
+        # avail_numel can differ by anywhere between 0..2*world_size. Due to two unrelated complex
+        # paddings performed in the code it's almost impossible to predict the exact numbers w/o the
+        # live optimizer object, so we are checking that the numbers are within the right range
+        align_to = 2 * world_size
+
+        def zero2_align(x):
+            return align_to * math.ceil(x / align_to)
+
+        if debug:
+            print(f"original offset={offset}, avail_numel={avail_numel}")
+
+        offset = zero2_align(offset)
+        avail_numel = zero2_align(avail_numel)
+
+        if debug:
+            print(f"aligned  offset={offset}, avail_numel={avail_numel}")
+
+        # Sanity check
+        if offset != avail_numel:
+            raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+
+    print(f"Reconstructed fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _get_fp32_state_dict_from_zero2_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+
+    if not exclude_frozen_parameters:
+        _zero2_merge_frozen_params(state_dict, zero_model_states)
+
+    _zero2_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+
+    return state_dict
+
+
+def zero3_partitioned_param_info(unpartitioned_numel, world_size):
+    remainder = unpartitioned_numel % world_size
+    padding_numel = (world_size - remainder) if remainder else 0
+    partitioned_numel = math.ceil(unpartitioned_numel / world_size)
+    return partitioned_numel, padding_numel
+
+
+def _zero3_merge_frozen_params(state_dict, world_size, zero_model_states):
+    if zero_model_states[0].frozen_param_shapes is None or len(zero_model_states[0].frozen_param_shapes) == 0:
+        return
+
+    if debug:
+        for i in range(world_size):
+            num_elem = sum(s.numel() for s in zero_model_states[i].frozen_param_fragments.values())
+            print(f'rank {i}: {FROZEN_PARAM_SHAPES}.numel = {num_elem}')
+
+        frozen_param_shapes = zero_model_states[0].frozen_param_shapes
+        wanted_params = len(frozen_param_shapes)
+        wanted_numel = sum(s.numel() for s in frozen_param_shapes.values())
+        avail_numel = sum([p.numel() for p in zero_model_states[0].frozen_param_fragments.values()]) * world_size
+        print(f'Frozen params: Have {avail_numel} numels to process.')
+        print(f'Frozen params: Need {wanted_numel} numels in {wanted_params} params')
+
+    total_params = 0
+    total_numel = 0
+    for name, shape in zero_model_states[0].frozen_param_shapes.items():
+        total_params += 1
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+
+        param_frags = tuple(model_state.frozen_param_fragments[name] for model_state in zero_model_states)
+        state_dict[name] = torch.cat(param_frags, 0).narrow(0, 0, unpartitioned_numel).view(shape)
+
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+
+        if debug:
+            print(
+                f"Frozen params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+
+    print(f"Reconstructed Frozen fp32 state dict with {total_params} params {total_numel} elements")
+
+
+class GatheredTensor:
+    """
+    A pseudo tensor that collects partitioned weights.
+    It is more memory efficient when there are multiple groups.
+    """
+
+    def __init__(self, flat_groups, flat_groups_offset, offset, partitioned_numel, shape):
+        self.flat_groups = flat_groups
+        self.flat_groups_offset = flat_groups_offset
+        self.offset = offset
+        self.partitioned_numel = partitioned_numel
+        self.shape = shape
+        self.dtype = self.flat_groups[0][0].dtype
+
+    def contiguous(self):
+        """
+        Merge partitioned weights from flat_groups into a single tensor.
+        """
+        end_idx = self.offset + self.partitioned_numel
+        world_size = len(self.flat_groups)
+        pad_flat_param_chunks = []
+
+        for rank_i in range(world_size):
+            # for each rank, we need to collect weights from related group/groups
+            flat_groups_at_rank_i = self.flat_groups[rank_i]
+            start_group_id = None
+            end_group_id = None
+            for group_id in range(len(self.flat_groups_offset)):
+                if self.flat_groups_offset[group_id] <= self.offset < self.flat_groups_offset[group_id + 1]:
+                    start_group_id = group_id
+                if self.flat_groups_offset[group_id] < end_idx <= self.flat_groups_offset[group_id + 1]:
+                    end_group_id = group_id
+                    break
+            # collect weights from related group/groups
+            for group_id in range(start_group_id, end_group_id + 1):
+                flat_tensor = flat_groups_at_rank_i[group_id]
+                start_offset = self.offset - self.flat_groups_offset[group_id]
+                end_offset = min(end_idx, self.flat_groups_offset[group_id + 1]) - self.flat_groups_offset[group_id]
+                pad_flat_param_chunks.append(flat_tensor[start_offset:end_offset])
+
+        # collect weights from all ranks
+        pad_flat_param = torch.cat(pad_flat_param_chunks, dim=0)
+        param = pad_flat_param[:self.shape.numel()].view(self.shape).contiguous()
+        return param
+
+
+def _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states):
+    param_shapes = zero_model_states[0].param_shapes
+    avail_numel = sum([flat_group.numel() for flat_group in fp32_flat_groups[0]]) * world_size
+
+    # Reconstruction protocol: For zero3 we need to zip the partitions together at boundary of each
+    # param, re-consolidating each param, while dealing with padding if any
+
+    # merge list of dicts, preserving order
+    param_shapes = {k: v for d in param_shapes for k, v in d.items()}
+
+    if debug:
+        for i in range(world_size):
+            print(f"{FP32_FLAT_GROUPS}[{i}].shape={fp32_flat_groups[i].shape}")
+
+        wanted_params = len(param_shapes)
+        wanted_numel = sum(shape.numel() for shape in param_shapes.values())
+        # not asserting if there is a mismatch due to possible padding
+        avail_numel = fp32_flat_groups[0].numel() * world_size
+        print(f"Trainable params: Have {avail_numel} numels to process.")
+        print(f"Trainable params: Need {wanted_numel} numels in {wanted_params} params.")
+
+    # params
+    # XXX: for huge models that can't fit into the host's RAM we will have to recode this to support
+    # out-of-core computing solution
+    offset = 0
+    total_numel = 0
+    total_params = 0
+    flat_groups_offset = [0] + list(np.cumsum([flat_tensor.numel() for flat_tensor in fp32_flat_groups[0]]))
+    for name, shape in tqdm(param_shapes.items(), desc='Gathering sharded weights'):
+        unpartitioned_numel = shape.numel()
+        total_numel += unpartitioned_numel
+        total_params += 1
+        partitioned_numel, partitioned_padding_numel = zero3_partitioned_param_info(unpartitioned_numel, world_size)
+
+        if debug:
+            print(
+                f"Trainable params: {total_params} {name} full shape: {shape} partition0 numel={partitioned_numel} partitioned_padding_numel={partitioned_padding_numel}"
+            )
+
+        # memory efficient tensor
+        tensor = GatheredTensor(fp32_flat_groups, flat_groups_offset, offset, partitioned_numel, shape)
+        state_dict[name] = tensor
+        offset += partitioned_numel
+
+    offset *= world_size
+
+    # Sanity check
+    if offset != avail_numel:
+        raise ValueError(f"consumed {offset} numels out of {avail_numel} - something is wrong")
+
+    print(f"Reconstructed Trainable fp32 state dict with {total_params} params {total_numel} elements")
+
+
+def _get_fp32_state_dict_from_zero3_checkpoint(world_size, fp32_flat_groups, zero_model_states,
+                                               exclude_frozen_parameters):
+    state_dict = OrderedDict()
+
+    # buffers
+    buffers = zero_model_states[0].buffers
+    state_dict.update(buffers)
+    if debug:
+        print(f"added {len(buffers)} buffers")
+
+    if not exclude_frozen_parameters:
+        _zero3_merge_frozen_params(state_dict, world_size, zero_model_states)
+
+    _zero3_merge_trainable_params(state_dict, world_size, fp32_flat_groups, zero_model_states)
+
+    # recover shared parameters
+    for pair in zero_model_states[0].shared_params:
+        if pair[1] in state_dict:
+            state_dict[pair[0]] = state_dict[pair[1]]
+
+    return state_dict
+
+
+def to_torch_tensor(state_dict, return_empty_tensor=False):
+    """
+    Convert state_dict of GatheredTensor to torch tensor
+    """
+    torch_state_dict = {}
+    converted_tensors = {}
+    for name, tensor in state_dict.items():
+        tensor_id = id(tensor)
+        if tensor_id in converted_tensors:  # shared tensors
+            shared_tensor = torch_state_dict[converted_tensors[tensor_id]]
+            torch_state_dict[name] = shared_tensor
+        else:
+            converted_tensors[tensor_id] = name
+            if return_empty_tensor:
+                torch_state_dict[name] = torch.empty(tensor.shape, dtype=tensor.dtype)
+            else:
+                torch_state_dict[name] = tensor.contiguous()
+    return torch_state_dict
+
+
+def get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir,
+                                             tag=None,
+                                             exclude_frozen_parameters=False,
+                                             lazy_mode=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated state_dict that can be loaded with
+    ``load_state_dict()`` and used for training without DeepSpeed or shared with others, for example
+    via a model hub.
+
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in 'latest' file. e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+        - ``lazy_mode``: get state_dict in lazy mode. It returns a dict of pesduo tensor instead of torch tensor, which is more memory efficient.
+          Convert the pesduo tensor to torch tensor by ``.contiguous()``
+
+    Returns:
+        - pytorch ``state_dict``
+
+    A typical usage might be ::
+
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        # do the training and checkpoint saving
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir) # already on cpu
+        model = model.cpu() # move to cpu
+        model.load_state_dict(state_dict)
+        # submit to model hub or save the model to share with others
+
+    In this example the ``model`` will no longer be usable in the deepspeed context of the same
+    application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+
+    If you want it all done for you, use ``load_state_dict_from_zero_checkpoint`` instead.
+
+    Note: the above usage may not work if your application doesn't have sufficient free CPU memory.
+    You may need to use the offline approach using the ``zero_to_fp32.py`` script that is saved with
+    the checkpoint. Or you can load state_dict in lazy mode ::
+
+        from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint
+        state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, lazy_mode=True) # not on cpu
+        for name, lazy_tensor in state_dict.item():
+            tensor = lazy_tensor.contiguous()  # to cpu
+            print(name, tensor)
+            # del tensor to release memory if it no longer in use
+    """
+    if tag is None:
+        latest_path = os.path.join(checkpoint_dir, 'latest')
+        if os.path.isfile(latest_path):
+            with open(latest_path, 'r') as fd:
+                tag = fd.read().strip()
+        else:
+            raise ValueError(f"Unable to find 'latest' file at {latest_path}")
+
+    ds_checkpoint_dir = os.path.join(checkpoint_dir, tag)
+
+    if not os.path.isdir(ds_checkpoint_dir):
+        raise FileNotFoundError(f"Directory '{ds_checkpoint_dir}' doesn't exist")
+
+    state_dict = _get_fp32_state_dict_from_zero_checkpoint(ds_checkpoint_dir, exclude_frozen_parameters)
+    if lazy_mode:
+        return state_dict
+    else:
+        return to_torch_tensor(state_dict)
+
+
+def convert_zero_checkpoint_to_fp32_state_dict(checkpoint_dir,
+                                               output_dir,
+                                               max_shard_size="5GB",
+                                               safe_serialization=False,
+                                               tag=None,
+                                               exclude_frozen_parameters=False):
+    """
+    Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict`` file that can be
+    loaded with ``torch.load(file)`` + ``load_state_dict()`` and used for training without DeepSpeed.
+
+    Args:
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``output_dir``: directory to the pytorch fp32 state_dict output files
+        - ``max_shard_size``: the maximum size for a checkpoint before being sharded, default value is 5GB
+        - ``safe_serialization``:  whether to save the model using `safetensors` or the traditional PyTorch way (that uses `pickle`).
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+        - ``exclude_frozen_parameters``: exclude frozen parameters
+    """
+
+    # Dependency pre-check
+    if safe_serialization:
+        try:
+            from safetensors.torch import save_file
+        except ImportError:
+            print('If you want to use `safe_serialization`, please `pip install safetensors`')
+            raise
+    if max_shard_size is not None:
+        try:
+            from huggingface_hub import split_torch_state_dict_into_shards
+        except ImportError:
+            print('If you want to use `max_shard_size`, please `pip install huggingface_hub`')
+            raise
+
+    # Convert zero checkpoint to state_dict
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir,
+                                                          tag,
+                                                          exclude_frozen_parameters,
+                                                          lazy_mode=True)
+
+    # Shard the model if it is too big.
+    weights_name = "model.safetensors" if safe_serialization else "pytorch_model.bin"
+    if max_shard_size is not None:
+        filename_pattern = weights_name.replace(".bin", "{suffix}.bin").replace(".safetensors", "{suffix}.safetensors")
+        # an memory-efficient approach for sharding
+        empty_state_dict = to_torch_tensor(state_dict, return_empty_tensor=True)
+        state_dict_split = split_torch_state_dict_into_shards(empty_state_dict,
+                                                              filename_pattern=filename_pattern,
+                                                              max_shard_size=max_shard_size)
+    else:
+        from collections import namedtuple
+        StateDictSplit = namedtuple("StateDictSplit", ["is_sharded", "filename_to_tensors"])
+        state_dict_split = StateDictSplit(is_sharded=False,
+                                          filename_to_tensors={weights_name: list(state_dict.keys())})
+
+    # Save the model by shard
+    os.makedirs(output_dir, exist_ok=True)
+    filename_to_tensors = state_dict_split.filename_to_tensors.items()
+    for shard_file, tensors in tqdm(filename_to_tensors, desc="Saving checkpoint shards"):
+        shard_state_dict = {tensor_name: state_dict[tensor_name] for tensor_name in tensors}
+        shard_state_dict = to_torch_tensor(shard_state_dict)
+        output_path = os.path.join(output_dir, shard_file)
+        if safe_serialization:
+            save_file(shard_state_dict, output_path, metadata={"format": "pt"})
+        else:
+            torch.save(shard_state_dict, output_path)
+        # release the memory of current shard
+        for tensor_name in list(shard_state_dict.keys()):
+            del state_dict[tensor_name]
+            del shard_state_dict[tensor_name]
+        del shard_state_dict
+        gc.collect()
+
+    # Save index if sharded
+    if state_dict_split.is_sharded:
+        index = {
+            "metadata": state_dict_split.metadata,
+            "weight_map": state_dict_split.tensor_to_filename,
+        }
+        save_index_file = "model.safetensors.index.json" if safe_serialization else "pytorch_model.bin.index.json"
+        save_index_file = os.path.join(output_dir, save_index_file)
+        with open(save_index_file, "w", encoding="utf-8") as f:
+            content = json.dumps(index, indent=2, sort_keys=True) + "\n"
+            f.write(content)
+
+
+def load_state_dict_from_zero_checkpoint(model, checkpoint_dir, tag=None):
+    """
+    1. Put the provided model to cpu
+    2. Convert ZeRO 2 or 3 checkpoint into a single fp32 consolidated ``state_dict``
+    3. Load it into the provided model
+
+    Args:
+        - ``model``: the model object to update
+        - ``checkpoint_dir``: path to the desired checkpoint folder. (one that contains the tag-folder, like ``global_step14``)
+        - ``tag``: checkpoint tag used as a unique identifier for checkpoint. If not provided will attempt to load tag in the file named ``latest`` in the checkpoint folder, e.g., ``global_step14``
+
+    Returns:
+        - ``model`: modified model
+
+    Make sure you have plenty of CPU memory available before you call this function. If you don't
+    have enough use the ``zero_to_fp32.py`` utility to do the conversion. You will find it
+    conveniently placed for you in the checkpoint folder.
+
+    A typical usage might be ::
+
+        from deepspeed.utils.zero_to_fp32 import load_state_dict_from_zero_checkpoint
+        model = load_state_dict_from_zero_checkpoint(trainer.model, checkpoint_dir)
+        # submit to model hub or save the model to share with others
+
+    Note, that once this was run, the ``model`` will no longer be usable in the deepspeed context
+    of the same application. i.e. you will need to re-initialize the deepspeed engine, since
+    ``model.load_state_dict(state_dict)`` will remove all the deepspeed magic from it.
+
+    """
+    logger.info("Extracting fp32 weights")
+    state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir, tag)
+
+    logger.info("Overwriting model with fp32 weights")
+    model = model.cpu()
+    model.load_state_dict(state_dict, strict=False)
+
+    return model
+
+
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("checkpoint_dir",
+                        type=str,
+                        help="path to the desired checkpoint folder, e.g., path/checkpoint-12")
+    parser.add_argument("output_dir",
+                        type=str,
+                        help="directory to the pytorch fp32 state_dict output files"
+                        "(e.g. path/checkpoint-12-output/)")
+    parser.add_argument(
+        "--max_shard_size",
+        type=str,
+        default="5GB",
+        help="The maximum size for a checkpoint before being sharded. Checkpoints shard will then be each of size"
+        "lower than this size. If expressed as a string, needs to be digits followed by a unit (like `5MB`"
+        "We default it to 5GB in order for models to be able to run easily on free-tier google colab instances"
+        "without CPU OOM issues.")
+    parser.add_argument(
+        "--safe_serialization",
+        default=False,
+        action='store_true',
+        help="Whether to save the model using `safetensors` or the traditional PyTorch way (that uses `pickle`).")
+    parser.add_argument("-t",
+                        "--tag",
+                        type=str,
+                        default=None,
+                        help="checkpoint tag used as a unique identifier for checkpoint. e.g., global_step1")
+    parser.add_argument("--exclude_frozen_parameters", action='store_true', help="exclude frozen parameters")
+    parser.add_argument("-d", "--debug", action='store_true', help="enable debug")
+    args = parser.parse_args()
+
+    debug = args.debug
+
+    convert_zero_checkpoint_to_fp32_state_dict(args.checkpoint_dir,
+                                               args.output_dir,
+                                               max_shard_size=args.max_shard_size,
+                                               safe_serialization=args.safe_serialization,
+                                               tag=args.tag,
+                                               exclude_frozen_parameters=args.exclude_frozen_parameters)
diff --git a/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/logging.jsonl b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/logging.jsonl
new file mode 100644
index 0000000000000000000000000000000000000000..e14a3d43e2fc14765dd7becee99f4db7fdfb68ec
--- /dev/null
+++ b/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/logging.jsonl
@@ -0,0 +1,2183 @@
+{"loss": 10.53115559, "grad_norm": 163.7677002, "learning_rate": 1.515e-05, "token_acc": 0.09404563, "epoch": 0.00045866, "global_step/max_steps": "1/2181", "elapsed_time": "8s", "remaining_time": "5h 0m 28s", "memory(GiB)": 67.86, "train_speed(s/it)": 8.269673}
+{"loss": 10.44479179, "grad_norm": 138.49777222, "learning_rate": 3.03e-05, "token_acc": 0.09786629, "epoch": 0.00091733, "global_step/max_steps": "2/2181", "elapsed_time": "14s", "remaining_time": "4h 21m 21s", "memory(GiB)": 67.86, "train_speed(s/it)": 7.196574}
+{"loss": 10.01309681, "grad_norm": 118.87862396, "learning_rate": 4.545e-05, "token_acc": 0.09296482, "epoch": 0.00137599, "global_step/max_steps": "3/2181", "elapsed_time": "20s", "remaining_time": "4h 2m 56s", "memory(GiB)": 67.86, "train_speed(s/it)": 6.692374}
+{"loss": 9.0200119, "grad_norm": 72.25511169, "learning_rate": 6.061e-05, "token_acc": 0.09770115, "epoch": 0.00183465, "global_step/max_steps": "4/2181", "elapsed_time": "25s", "remaining_time": "3h 46m 9s", "memory(GiB)": 67.86, "train_speed(s/it)": 6.233067}
+{"loss": 9.09886742, "grad_norm": 83.0216217, "learning_rate": 7.576e-05, "token_acc": 0.08465753, "epoch": 0.00229331, "global_step/max_steps": "5/2181", "elapsed_time": "31s", "remaining_time": "3h 44m 18s", "memory(GiB)": 72.16, "train_speed(s/it)": 6.184972}
+{"loss": 7.65930939, "grad_norm": 22.3565197, "learning_rate": 9.091e-05, "token_acc": 0.07787325, "epoch": 0.00275198, "global_step/max_steps": "6/2181", "elapsed_time": "36s", "remaining_time": "3h 39m 28s", "memory(GiB)": 72.16, "train_speed(s/it)": 6.054467}
+{"loss": 7.81517029, "grad_norm": 33.81536102, "learning_rate": 0.00010606, "token_acc": 0.06806998, "epoch": 0.00321064, "global_step/max_steps": "7/2181", "elapsed_time": "42s", "remaining_time": "3h 37m 33s", "memory(GiB)": 76.57, "train_speed(s/it)": 6.004089}
+{"loss": 7.72854328, "grad_norm": 31.71108627, "learning_rate": 0.00012121, "token_acc": 0.07960742, "epoch": 0.0036693, "global_step/max_steps": "8/2181", "elapsed_time": "47s", "remaining_time": "3h 32m 30s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.867561}
+{"loss": 6.97025204, "grad_norm": 32.62741089, "learning_rate": 0.00013636, "token_acc": 0.11186633, "epoch": 0.00412797, "global_step/max_steps": "9/2181", "elapsed_time": "53s", "remaining_time": "3h 32m 39s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.874204}
+{"loss": 6.0301075, "grad_norm": 10.52796173, "learning_rate": 0.00015152, "token_acc": 0.17089872, "epoch": 0.00458663, "global_step/max_steps": "10/2181", "elapsed_time": "59s", "remaining_time": "3h 32m 2s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.859788}
+{"loss": 7.38698101, "grad_norm": 159.68701172, "learning_rate": 0.00016667, "token_acc": 0.16736636, "epoch": 0.00504529, "global_step/max_steps": "11/2181", "elapsed_time": "1m 3s", "remaining_time": "3h 28m 39s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.769184}
+{"loss": 7.93517113, "grad_norm": 131.26353455, "learning_rate": 0.00018182, "token_acc": 0.15159129, "epoch": 0.00550396, "global_step/max_steps": "12/2181", "elapsed_time": "1m 9s", "remaining_time": "3h 28m 37s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.771086}
+{"loss": 5.75329494, "grad_norm": 73.06459808, "learning_rate": 0.00019697, "token_acc": 0.19318801, "epoch": 0.00596262, "global_step/max_steps": "13/2181", "elapsed_time": "1m 15s", "remaining_time": "3h 27m 37s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.746049}
+{"loss": 5.65188503, "grad_norm": 11.48024368, "learning_rate": 0.00021212, "token_acc": 0.20216007, "epoch": 0.00642128, "global_step/max_steps": "14/2181", "elapsed_time": "1m 20s", "remaining_time": "3h 25m 20s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.685392}
+{"loss": 5.54745102, "grad_norm": 15.90438557, "learning_rate": 0.00022727, "token_acc": 0.22640433, "epoch": 0.00687994, "global_step/max_steps": "15/2181", "elapsed_time": "1m 25s", "remaining_time": "3h 23m 32s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.638111}
+{"loss": 5.11993408, "grad_norm": 7.91846418, "learning_rate": 0.00024242, "token_acc": 0.24526749, "epoch": 0.00733861, "global_step/max_steps": "16/2181", "elapsed_time": "1m 29s", "remaining_time": "3h 21m 42s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.590004}
+{"loss": 5.04308796, "grad_norm": 4.62365055, "learning_rate": 0.00025758, "token_acc": 0.23001677, "epoch": 0.00779727, "global_step/max_steps": "17/2181", "elapsed_time": "1m 35s", "remaining_time": "3h 21m 24s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.584094}
+{"loss": 4.81586218, "grad_norm": 3.6584065, "learning_rate": 0.00027273, "token_acc": 0.26924169, "epoch": 0.00825593, "global_step/max_steps": "18/2181", "elapsed_time": "1m 40s", "remaining_time": "3h 20m 0s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.547945}
+{"loss": 4.79081821, "grad_norm": 2.08346128, "learning_rate": 0.00028788, "token_acc": 0.2828341, "epoch": 0.0087146, "global_step/max_steps": "19/2181", "elapsed_time": "1m 45s", "remaining_time": "3h 18m 41s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.513845}
+{"loss": 4.6161623, "grad_norm": 2.36640811, "learning_rate": 0.00030303, "token_acc": 0.29432918, "epoch": 0.00917326, "global_step/max_steps": "20/2181", "elapsed_time": "1m 50s", "remaining_time": "3h 18m 5s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.499673}
+{"loss": 4.53040409, "grad_norm": 2.68779635, "learning_rate": 0.00031818, "token_acc": 0.29698312, "epoch": 0.00963192, "global_step/max_steps": "21/2181", "elapsed_time": "1m 55s", "remaining_time": "3h 17m 44s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.492381}
+{"loss": 4.6117115, "grad_norm": 15.40699482, "learning_rate": 0.00033333, "token_acc": 0.29226041, "epoch": 0.01009059, "global_step/max_steps": "22/2181", "elapsed_time": "2m 0s", "remaining_time": "3h 16m 27s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.459532}
+{"loss": 4.45528698, "grad_norm": 2.10577893, "learning_rate": 0.00034848, "token_acc": 0.30852797, "epoch": 0.01054925, "global_step/max_steps": "23/2181", "elapsed_time": "2m 6s", "remaining_time": "3h 16m 34s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.465385}
+{"loss": 4.49081421, "grad_norm": 2.74991226, "learning_rate": 0.00036364, "token_acc": 0.30042433, "epoch": 0.01100791, "global_step/max_steps": "24/2181", "elapsed_time": "2m 11s", "remaining_time": "3h 16m 2s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.452815}
+{"loss": 4.32394695, "grad_norm": 2.1527164, "learning_rate": 0.00037879, "token_acc": 0.32578397, "epoch": 0.01146657, "global_step/max_steps": "25/2181", "elapsed_time": "2m 16s", "remaining_time": "3h 15m 33s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.442014}
+{"loss": 4.3409729, "grad_norm": 1.44355941, "learning_rate": 0.00039394, "token_acc": 0.31891433, "epoch": 0.01192524, "global_step/max_steps": "26/2181", "elapsed_time": "2m 22s", "remaining_time": "3h 15m 32s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.444093}
+{"loss": 4.31039906, "grad_norm": 1.07011652, "learning_rate": 0.00040909, "token_acc": 0.30843976, "epoch": 0.0123839, "global_step/max_steps": "27/2181", "elapsed_time": "2m 26s", "remaining_time": "3h 14m 28s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.41704}
+{"loss": 4.25188923, "grad_norm": 1.67452455, "learning_rate": 0.00042424, "token_acc": 0.31632936, "epoch": 0.01284256, "global_step/max_steps": "28/2181", "elapsed_time": "2m 32s", "remaining_time": "3h 14m 28s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.419328}
+{"loss": 4.20471191, "grad_norm": 1.59717715, "learning_rate": 0.00043939, "token_acc": 0.33600886, "epoch": 0.01330123, "global_step/max_steps": "29/2181", "elapsed_time": "2m 37s", "remaining_time": "3h 14m 1s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.409368}
+{"loss": 4.26219082, "grad_norm": 1.36869335, "learning_rate": 0.00045455, "token_acc": 0.32445317, "epoch": 0.01375989, "global_step/max_steps": "30/2181", "elapsed_time": "2m 42s", "remaining_time": "3h 13m 12s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.389292}
+{"loss": 4.31459808, "grad_norm": 1.10920846, "learning_rate": 0.0004697, "token_acc": 0.31965382, "epoch": 0.01421855, "global_step/max_steps": "31/2181", "elapsed_time": "2m 46s", "remaining_time": "3h 12m 25s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.369927}
+{"loss": 4.09642935, "grad_norm": 1.34892762, "learning_rate": 0.00048485, "token_acc": 0.33142694, "epoch": 0.01467722, "global_step/max_steps": "32/2181", "elapsed_time": "2m 52s", "remaining_time": "3h 12m 20s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.370061}
+{"loss": 4.31367922, "grad_norm": 1.76297045, "learning_rate": 0.0005, "token_acc": 0.31673542, "epoch": 0.01513588, "global_step/max_steps": "33/2181", "elapsed_time": "2m 57s", "remaining_time": "3h 12m 4s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.364779}
+{"loss": 4.06680346, "grad_norm": 1.6258837, "learning_rate": 0.00051515, "token_acc": 0.33750979, "epoch": 0.01559454, "global_step/max_steps": "34/2181", "elapsed_time": "3m 3s", "remaining_time": "3h 12m 10s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.370512}
+{"loss": 4.22233057, "grad_norm": 1.33458316, "learning_rate": 0.0005303, "token_acc": 0.32342857, "epoch": 0.0160532, "global_step/max_steps": "35/2181", "elapsed_time": "3m 8s", "remaining_time": "3h 11m 51s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.363904}
+{"loss": 4.14799547, "grad_norm": 1.21539509, "learning_rate": 0.00054545, "token_acc": 0.33260692, "epoch": 0.01651187, "global_step/max_steps": "36/2181", "elapsed_time": "3m 13s", "remaining_time": "3h 11m 32s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.357381}
+{"loss": 4.12119055, "grad_norm": 1.06297803, "learning_rate": 0.00056061, "token_acc": 0.32419089, "epoch": 0.01697053, "global_step/max_steps": "37/2181", "elapsed_time": "3m 18s", "remaining_time": "3h 11m 25s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.356736}
+{"loss": 4.16463566, "grad_norm": 2.03443146, "learning_rate": 0.00057576, "token_acc": 0.3374111, "epoch": 0.01742919, "global_step/max_steps": "38/2181", "elapsed_time": "3m 23s", "remaining_time": "3h 10m 58s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.346564}
+{"loss": 4.21152496, "grad_norm": 1.33448017, "learning_rate": 0.00059091, "token_acc": 0.3259653, "epoch": 0.01788786, "global_step/max_steps": "39/2181", "elapsed_time": "3m 29s", "remaining_time": "3h 11m 10s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.354981}
+{"loss": 4.2741766, "grad_norm": 1.68786931, "learning_rate": 0.00060606, "token_acc": 0.3195301, "epoch": 0.01834652, "global_step/max_steps": "40/2181", "elapsed_time": "3m 34s", "remaining_time": "3h 11m 11s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.357983}
+{"loss": 4.19749832, "grad_norm": 1.50345981, "learning_rate": 0.00062121, "token_acc": 0.32129863, "epoch": 0.01880518, "global_step/max_steps": "41/2181", "elapsed_time": "3m 39s", "remaining_time": "3h 10m 49s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.350103}
+{"loss": 4.15272427, "grad_norm": 0.78705597, "learning_rate": 0.00063636, "token_acc": 0.33125355, "epoch": 0.01926385, "global_step/max_steps": "42/2181", "elapsed_time": "3m 44s", "remaining_time": "3h 10m 26s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.341743}
+{"loss": 4.08373022, "grad_norm": 0.59716457, "learning_rate": 0.00065152, "token_acc": 0.32858317, "epoch": 0.01972251, "global_step/max_steps": "43/2181", "elapsed_time": "3m 49s", "remaining_time": "3h 10m 0s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.332319}
+{"loss": 4.14211464, "grad_norm": 1.33851218, "learning_rate": 0.00066667, "token_acc": 0.32073277, "epoch": 0.02018117, "global_step/max_steps": "44/2181", "elapsed_time": "3m 54s", "remaining_time": "3h 9m 36s", "memory(GiB)": 76.57, "train_speed(s/it)": 5.32332}
+{"loss": 3.94180036, "grad_norm": 1.30264378, "learning_rate": 0.00068182, "token_acc": 0.34519573, "epoch": 0.02063983, "global_step/max_steps": "45/2181", "elapsed_time": "3m 60s", "remaining_time": "3h 9m 46s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.330438}
+{"loss": 4.07650471, "grad_norm": 0.80309993, "learning_rate": 0.00069697, "token_acc": 0.33389168, "epoch": 0.0210985, "global_step/max_steps": "46/2181", "elapsed_time": "4m 5s", "remaining_time": "3h 9m 20s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.32101}
+{"loss": 4.07177877, "grad_norm": 1.36949539, "learning_rate": 0.00071212, "token_acc": 0.34139237, "epoch": 0.02155716, "global_step/max_steps": "47/2181", "elapsed_time": "4m 10s", "remaining_time": "3h 8m 57s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.312559}
+{"loss": 4.04958725, "grad_norm": 1.07411027, "learning_rate": 0.00072727, "token_acc": 0.33285136, "epoch": 0.02201582, "global_step/max_steps": "48/2181", "elapsed_time": "4m 14s", "remaining_time": "3h 8m 26s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.300548}
+{"loss": 3.99624157, "grad_norm": 1.07500327, "learning_rate": 0.00074242, "token_acc": 0.33243243, "epoch": 0.02247449, "global_step/max_steps": "49/2181", "elapsed_time": "4m 20s", "remaining_time": "3h 8m 25s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.302303}
+{"loss": 4.07380199, "grad_norm": 0.80696124, "learning_rate": 0.00075758, "token_acc": 0.32842865, "epoch": 0.02293315, "global_step/max_steps": "50/2181", "elapsed_time": "4m 24s", "remaining_time": "3h 7m 53s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.289875}
+{"loss": 4.00853682, "grad_norm": 1.18577051, "learning_rate": 0.00077273, "token_acc": 0.32693935, "epoch": 0.02339181, "global_step/max_steps": "51/2181", "elapsed_time": "4m 30s", "remaining_time": "3h 7m 38s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.285242}
+{"loss": 3.97095585, "grad_norm": 1.0924046, "learning_rate": 0.00078788, "token_acc": 0.3371494, "epoch": 0.02385048, "global_step/max_steps": "52/2181", "elapsed_time": "4m 35s", "remaining_time": "3h 7m 26s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.282373}
+{"loss": 3.92206001, "grad_norm": 1.13456345, "learning_rate": 0.00080303, "token_acc": 0.35385484, "epoch": 0.02430914, "global_step/max_steps": "53/2181", "elapsed_time": "4m 40s", "remaining_time": "3h 7m 37s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.289864}
+{"loss": 3.99897194, "grad_norm": 1.23117113, "learning_rate": 0.00081818, "token_acc": 0.34308584, "epoch": 0.0247678, "global_step/max_steps": "54/2181", "elapsed_time": "4m 45s", "remaining_time": "3h 7m 6s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.277787}
+{"loss": 3.78054094, "grad_norm": 0.75735331, "learning_rate": 0.00083333, "token_acc": 0.34600551, "epoch": 0.02522646, "global_step/max_steps": "55/2181", "elapsed_time": "4m 50s", "remaining_time": "3h 7m 5s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.280078}
+{"loss": 3.82984829, "grad_norm": 1.1019491, "learning_rate": 0.00084848, "token_acc": 0.35271842, "epoch": 0.02568513, "global_step/max_steps": "56/2181", "elapsed_time": "4m 55s", "remaining_time": "3h 6m 45s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.273143}
+{"loss": 3.91169, "grad_norm": 0.87402105, "learning_rate": 0.00086364, "token_acc": 0.33174559, "epoch": 0.02614379, "global_step/max_steps": "57/2181", "elapsed_time": "5m 1s", "remaining_time": "3h 6m 41s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.273309}
+{"loss": 3.85061026, "grad_norm": 0.86548901, "learning_rate": 0.00087879, "token_acc": 0.33902506, "epoch": 0.02660245, "global_step/max_steps": "58/2181", "elapsed_time": "5m 6s", "remaining_time": "3h 6m 28s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.26974}
+{"loss": 3.88743043, "grad_norm": 0.67432052, "learning_rate": 0.00089394, "token_acc": 0.3433296, "epoch": 0.02706112, "global_step/max_steps": "59/2181", "elapsed_time": "5m 11s", "remaining_time": "3h 6m 10s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.263961}
+{"loss": 3.97009087, "grad_norm": 1.16317642, "learning_rate": 0.00090909, "token_acc": 0.33518735, "epoch": 0.02751978, "global_step/max_steps": "60/2181", "elapsed_time": "5m 16s", "remaining_time": "3h 6m 7s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.265126}
+{"loss": 3.99975538, "grad_norm": 1.5899272, "learning_rate": 0.00092424, "token_acc": 0.34097817, "epoch": 0.02797844, "global_step/max_steps": "61/2181", "elapsed_time": "5m 21s", "remaining_time": "3h 6m 0s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.264223}
+{"loss": 3.83863139, "grad_norm": 0.84113187, "learning_rate": 0.00093939, "token_acc": 0.3296579, "epoch": 0.02843711, "global_step/max_steps": "62/2181", "elapsed_time": "5m 26s", "remaining_time": "3h 5m 49s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.261446}
+{"loss": 3.79947519, "grad_norm": 0.92640293, "learning_rate": 0.00095455, "token_acc": 0.3433526, "epoch": 0.02889577, "global_step/max_steps": "63/2181", "elapsed_time": "5m 31s", "remaining_time": "3h 5m 36s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.25766}
+{"loss": 3.85088539, "grad_norm": 0.92366797, "learning_rate": 0.0009697, "token_acc": 0.34577829, "epoch": 0.02935443, "global_step/max_steps": "64/2181", "elapsed_time": "5m 36s", "remaining_time": "3h 5m 14s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.250032}
+{"loss": 3.83156013, "grad_norm": 0.71682572, "learning_rate": 0.00098485, "token_acc": 0.34408602, "epoch": 0.02981309, "global_step/max_steps": "65/2181", "elapsed_time": "5m 41s", "remaining_time": "3h 5m 0s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.245815}
+{"loss": 3.72811556, "grad_norm": 0.58587617, "learning_rate": 0.001, "token_acc": 0.35544897, "epoch": 0.03027176, "global_step/max_steps": "66/2181", "elapsed_time": "5m 46s", "remaining_time": "3h 4m 38s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.237879}
+{"loss": 3.76943731, "grad_norm": 0.89733368, "learning_rate": 0.001, "token_acc": 0.34383202, "epoch": 0.03073042, "global_step/max_steps": "67/2181", "elapsed_time": "5m 51s", "remaining_time": "3h 4m 31s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.237154}
+{"loss": 3.78848076, "grad_norm": 1.17020333, "learning_rate": 0.001, "token_acc": 0.35482047, "epoch": 0.03118908, "global_step/max_steps": "68/2181", "elapsed_time": "5m 56s", "remaining_time": "3h 4m 9s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.228997}
+{"loss": 3.84996986, "grad_norm": 1.50601101, "learning_rate": 0.001, "token_acc": 0.34008884, "epoch": 0.03164775, "global_step/max_steps": "69/2181", "elapsed_time": "6m 0s", "remaining_time": "3h 3m 52s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.223661}
+{"loss": 3.71520567, "grad_norm": 0.74007422, "learning_rate": 0.00099999, "token_acc": 0.34644778, "epoch": 0.03210641, "global_step/max_steps": "70/2181", "elapsed_time": "6m 6s", "remaining_time": "3h 3m 54s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.227052}
+{"loss": 3.70408154, "grad_norm": 1.19934654, "learning_rate": 0.00099999, "token_acc": 0.35746606, "epoch": 0.03256507, "global_step/max_steps": "71/2181", "elapsed_time": "6m 11s", "remaining_time": "3h 3m 58s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.231164}
+{"loss": 3.7833755, "grad_norm": 1.12485588, "learning_rate": 0.00099998, "token_acc": 0.34718759, "epoch": 0.03302374, "global_step/max_steps": "72/2181", "elapsed_time": "6m 16s", "remaining_time": "3h 3m 43s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.226686}
+{"loss": 3.66470003, "grad_norm": 0.72484064, "learning_rate": 0.00099997, "token_acc": 0.35466591, "epoch": 0.0334824, "global_step/max_steps": "73/2181", "elapsed_time": "6m 21s", "remaining_time": "3h 3m 26s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.221193}
+{"loss": 3.58733606, "grad_norm": 0.64942801, "learning_rate": 0.00099996, "token_acc": 0.36829067, "epoch": 0.03394106, "global_step/max_steps": "74/2181", "elapsed_time": "6m 26s", "remaining_time": "3h 3m 9s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.215626}
+{"loss": 3.5806551, "grad_norm": 0.70834672, "learning_rate": 0.00099996, "token_acc": 0.36991404, "epoch": 0.03439972, "global_step/max_steps": "75/2181", "elapsed_time": "6m 31s", "remaining_time": "3h 2m 54s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.210663}
+{"loss": 3.6629498, "grad_norm": 0.77510518, "learning_rate": 0.00099994, "token_acc": 0.35649203, "epoch": 0.03485839, "global_step/max_steps": "76/2181", "elapsed_time": "6m 36s", "remaining_time": "3h 2m 39s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.206023}
+{"loss": 3.61080861, "grad_norm": 0.78219849, "learning_rate": 0.00099993, "token_acc": 0.35789766, "epoch": 0.03531705, "global_step/max_steps": "77/2181", "elapsed_time": "6m 41s", "remaining_time": "3h 2m 35s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.206539}
+{"loss": 3.71644449, "grad_norm": 0.92512429, "learning_rate": 0.00099992, "token_acc": 0.36063259, "epoch": 0.03577571, "global_step/max_steps": "78/2181", "elapsed_time": "6m 46s", "remaining_time": "3h 2m 21s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.202513}
+{"loss": 3.58942318, "grad_norm": 0.64593279, "learning_rate": 0.00099991, "token_acc": 0.36491325, "epoch": 0.03623438, "global_step/max_steps": "79/2181", "elapsed_time": "6m 51s", "remaining_time": "3h 2m 7s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.198186}
+{"loss": 3.58149505, "grad_norm": 0.66070336, "learning_rate": 0.00099989, "token_acc": 0.37221604, "epoch": 0.03669304, "global_step/max_steps": "80/2181", "elapsed_time": "6m 55s", "remaining_time": "3h 1m 51s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.193398}
+{"loss": 3.67815518, "grad_norm": 0.71723729, "learning_rate": 0.00099988, "token_acc": 0.35435268, "epoch": 0.0371517, "global_step/max_steps": "81/2181", "elapsed_time": "7m 0s", "remaining_time": "3h 1m 39s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.190074}
+{"loss": 3.51100016, "grad_norm": 0.67906058, "learning_rate": 0.00099986, "token_acc": 0.36692223, "epoch": 0.03761037, "global_step/max_steps": "82/2181", "elapsed_time": "7m 5s", "remaining_time": "3h 1m 29s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.187713}
+{"loss": 3.56558633, "grad_norm": 0.65760297, "learning_rate": 0.00099984, "token_acc": 0.36376687, "epoch": 0.03806903, "global_step/max_steps": "83/2181", "elapsed_time": "7m 11s", "remaining_time": "3h 1m 29s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.190203}
+{"loss": 3.64924812, "grad_norm": 0.65791517, "learning_rate": 0.00099982, "token_acc": 0.3598234, "epoch": 0.03852769, "global_step/max_steps": "84/2181", "elapsed_time": "7m 16s", "remaining_time": "3h 1m 28s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.192116}
+{"loss": 3.53093743, "grad_norm": 0.64510244, "learning_rate": 0.0009998, "token_acc": 0.36975028, "epoch": 0.03898635, "global_step/max_steps": "85/2181", "elapsed_time": "7m 21s", "remaining_time": "3h 1m 20s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.190647}
+{"loss": 3.48888898, "grad_norm": 0.58632177, "learning_rate": 0.00099978, "token_acc": 0.38053597, "epoch": 0.03944502, "global_step/max_steps": "86/2181", "elapsed_time": "7m 26s", "remaining_time": "3h 1m 13s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.189783}
+{"loss": 3.55001593, "grad_norm": 0.59686565, "learning_rate": 0.00099976, "token_acc": 0.36673949, "epoch": 0.03990368, "global_step/max_steps": "87/2181", "elapsed_time": "7m 32s", "remaining_time": "3h 1m 10s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.19124}
+{"loss": 3.46874571, "grad_norm": 0.60713571, "learning_rate": 0.00099973, "token_acc": 0.36957131, "epoch": 0.04036234, "global_step/max_steps": "88/2181", "elapsed_time": "7m 36s", "remaining_time": "3h 0m 57s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.187346}
+{"loss": 3.60536861, "grad_norm": 0.71140534, "learning_rate": 0.00099971, "token_acc": 0.35436759, "epoch": 0.04082101, "global_step/max_steps": "89/2181", "elapsed_time": "7m 42s", "remaining_time": "3h 0m 48s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.185699}
+{"loss": 3.4660399, "grad_norm": 0.63498205, "learning_rate": 0.00099968, "token_acc": 0.37423991, "epoch": 0.04127967, "global_step/max_steps": "90/2181", "elapsed_time": "7m 47s", "remaining_time": "3h 0m 49s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.188514}
+{"loss": 3.44043469, "grad_norm": 0.60235023, "learning_rate": 0.00099966, "token_acc": 0.36031478, "epoch": 0.04173833, "global_step/max_steps": "91/2181", "elapsed_time": "7m 52s", "remaining_time": "3h 0m 39s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.186358}
+{"loss": 3.57072926, "grad_norm": 0.54993349, "learning_rate": 0.00099963, "token_acc": 0.36810155, "epoch": 0.042197, "global_step/max_steps": "92/2181", "elapsed_time": "7m 57s", "remaining_time": "3h 0m 31s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.185006}
+{"loss": 3.31189609, "grad_norm": 0.82049268, "learning_rate": 0.0009996, "token_acc": 0.38876404, "epoch": 0.04265566, "global_step/max_steps": "93/2181", "elapsed_time": "8m 2s", "remaining_time": "3h 0m 24s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.183825}
+{"loss": 3.46114397, "grad_norm": 0.68045253, "learning_rate": 0.00099957, "token_acc": 0.36863824, "epoch": 0.04311432, "global_step/max_steps": "94/2181", "elapsed_time": "8m 7s", "remaining_time": "3h 0m 13s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.18095}
+{"loss": 3.49005175, "grad_norm": 0.62879282, "learning_rate": 0.00099954, "token_acc": 0.3720353, "epoch": 0.04357298, "global_step/max_steps": "95/2181", "elapsed_time": "8m 12s", "remaining_time": "2h 59m 57s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.175988}
+{"loss": 3.46170378, "grad_norm": 0.73250896, "learning_rate": 0.0009995, "token_acc": 0.37773982, "epoch": 0.04403165, "global_step/max_steps": "96/2181", "elapsed_time": "8m 16s", "remaining_time": "2h 59m 43s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.171593}
+{"loss": 3.50853872, "grad_norm": 0.61228549, "learning_rate": 0.00099947, "token_acc": 0.37241764, "epoch": 0.04449031, "global_step/max_steps": "97/2181", "elapsed_time": "8m 21s", "remaining_time": "2h 59m 32s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.169081}
+{"loss": 3.48718452, "grad_norm": 0.60387808, "learning_rate": 0.00099944, "token_acc": 0.37226075, "epoch": 0.04494897, "global_step/max_steps": "98/2181", "elapsed_time": "8m 26s", "remaining_time": "2h 59m 23s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.16717}
+{"loss": 3.42322969, "grad_norm": 0.61640924, "learning_rate": 0.0009994, "token_acc": 0.3768037, "epoch": 0.04540764, "global_step/max_steps": "99/2181", "elapsed_time": "8m 31s", "remaining_time": "2h 59m 12s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.164358}
+{"loss": 3.42725134, "grad_norm": 0.60255343, "learning_rate": 0.00099936, "token_acc": 0.38130129, "epoch": 0.0458663, "global_step/max_steps": "100/2181", "elapsed_time": "8m 36s", "remaining_time": "2h 58m 56s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.158927}
+{"loss": 3.44208908, "grad_norm": 0.58707607, "learning_rate": 0.00099932, "token_acc": 0.370671, "epoch": 0.04632496, "global_step/max_steps": "101/2181", "elapsed_time": "8m 41s", "remaining_time": "2h 58m 56s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.161399}
+{"loss": 3.46613979, "grad_norm": 0.6258719, "learning_rate": 0.00099929, "token_acc": 0.36257957, "epoch": 0.04678363, "global_step/max_steps": "102/2181", "elapsed_time": "8m 46s", "remaining_time": "2h 58m 45s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.158736}
+{"loss": 3.3844378, "grad_norm": 0.73677391, "learning_rate": 0.00099925, "token_acc": 0.38203191, "epoch": 0.04724229, "global_step/max_steps": "103/2181", "elapsed_time": "8m 51s", "remaining_time": "2h 58m 39s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.158239}
+{"loss": 3.36300373, "grad_norm": 0.52017254, "learning_rate": 0.0009992, "token_acc": 0.38677686, "epoch": 0.04770095, "global_step/max_steps": "104/2181", "elapsed_time": "8m 56s", "remaining_time": "2h 58m 34s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.158252}
+{"loss": 3.40049386, "grad_norm": 0.73098052, "learning_rate": 0.00099916, "token_acc": 0.38008924, "epoch": 0.04815961, "global_step/max_steps": "105/2181", "elapsed_time": "9m 2s", "remaining_time": "2h 58m 31s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.159524}
+{"loss": 3.36340523, "grad_norm": 0.75962079, "learning_rate": 0.00099912, "token_acc": 0.37980636, "epoch": 0.04861828, "global_step/max_steps": "106/2181", "elapsed_time": "9m 7s", "remaining_time": "2h 58m 29s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.161033}
+{"loss": 3.4120779, "grad_norm": 0.5382477, "learning_rate": 0.00099907, "token_acc": 0.37915619, "epoch": 0.04907694, "global_step/max_steps": "107/2181", "elapsed_time": "9m 12s", "remaining_time": "2h 58m 21s", "memory(GiB)": 76.72, "train_speed(s/it)": 5.159563}
+{"loss": 3.358325, "grad_norm": 0.57308286, "learning_rate": 0.00099903, "token_acc": 0.38283828, "epoch": 0.0495356, "global_step/max_steps": "108/2181", "elapsed_time": "9m 18s", "remaining_time": "2h 58m 37s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.17}
+{"loss": 3.38393068, "grad_norm": 0.58071065, "learning_rate": 0.00099898, "token_acc": 0.38688801, "epoch": 0.04999427, "global_step/max_steps": "109/2181", "elapsed_time": "9m 23s", "remaining_time": "2h 58m 32s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.169652}
+{"loss": 3.36126041, "grad_norm": 0.57369387, "learning_rate": 0.00099893, "token_acc": 0.37236404, "epoch": 0.05045293, "global_step/max_steps": "110/2181", "elapsed_time": "9m 28s", "remaining_time": "2h 58m 23s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.16795}
+{"loss": 3.37252784, "grad_norm": 0.58741325, "learning_rate": 0.00099888, "token_acc": 0.37150917, "epoch": 0.05091159, "global_step/max_steps": "111/2181", "elapsed_time": "9m 33s", "remaining_time": "2h 58m 14s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.165995}
+{"loss": 3.39515257, "grad_norm": 0.57674468, "learning_rate": 0.00099883, "token_acc": 0.36950395, "epoch": 0.05137026, "global_step/max_steps": "112/2181", "elapsed_time": "9m 38s", "remaining_time": "2h 58m 5s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.164376}
+{"loss": 3.39126325, "grad_norm": 0.48997122, "learning_rate": 0.00099878, "token_acc": 0.37534097, "epoch": 0.05182892, "global_step/max_steps": "113/2181", "elapsed_time": "9m 44s", "remaining_time": "2h 57m 59s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.163849}
+{"loss": 3.39598298, "grad_norm": 0.54704767, "learning_rate": 0.00099873, "token_acc": 0.37472284, "epoch": 0.05228758, "global_step/max_steps": "114/2181", "elapsed_time": "9m 48s", "remaining_time": "2h 57m 47s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.160688}
+{"loss": 3.21711898, "grad_norm": 0.61918837, "learning_rate": 0.00099868, "token_acc": 0.40249787, "epoch": 0.05274624, "global_step/max_steps": "115/2181", "elapsed_time": "9m 53s", "remaining_time": "2h 57m 39s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.159382}
+{"loss": 3.31298923, "grad_norm": 0.49316704, "learning_rate": 0.00099862, "token_acc": 0.39786156, "epoch": 0.05320491, "global_step/max_steps": "116/2181", "elapsed_time": "9m 58s", "remaining_time": "2h 57m 33s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.158676}
+{"loss": 3.32804489, "grad_norm": 0.76006222, "learning_rate": 0.00099857, "token_acc": 0.38677686, "epoch": 0.05366357, "global_step/max_steps": "117/2181", "elapsed_time": "10m 3s", "remaining_time": "2h 57m 23s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.15655}
+{"loss": 3.21375704, "grad_norm": 0.57925344, "learning_rate": 0.00099851, "token_acc": 0.39055331, "epoch": 0.05412223, "global_step/max_steps": "118/2181", "elapsed_time": "10m 8s", "remaining_time": "2h 57m 16s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.155772}
+{"loss": 3.38345909, "grad_norm": 0.64566934, "learning_rate": 0.00099845, "token_acc": 0.37679558, "epoch": 0.0545809, "global_step/max_steps": "119/2181", "elapsed_time": "10m 13s", "remaining_time": "2h 57m 6s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.153302}
+{"loss": 3.38593197, "grad_norm": 0.49333259, "learning_rate": 0.00099839, "token_acc": 0.37689805, "epoch": 0.05503956, "global_step/max_steps": "120/2181", "elapsed_time": "10m 18s", "remaining_time": "2h 56m 57s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.151447}
+{"loss": 3.24572563, "grad_norm": 0.62879878, "learning_rate": 0.00099833, "token_acc": 0.4, "epoch": 0.05549822, "global_step/max_steps": "121/2181", "elapsed_time": "10m 23s", "remaining_time": "2h 56m 43s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.146993}
+{"loss": 3.35887575, "grad_norm": 0.48477134, "learning_rate": 0.00099827, "token_acc": 0.38017429, "epoch": 0.05595689, "global_step/max_steps": "122/2181", "elapsed_time": "10m 28s", "remaining_time": "2h 56m 35s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.145881}
+{"loss": 3.38987017, "grad_norm": 0.69094414, "learning_rate": 0.00099821, "token_acc": 0.3759186, "epoch": 0.05641555, "global_step/max_steps": "123/2181", "elapsed_time": "10m 33s", "remaining_time": "2h 56m 30s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.145818}
+{"loss": 3.25659513, "grad_norm": 0.51822317, "learning_rate": 0.00099815, "token_acc": 0.39622101, "epoch": 0.05687421, "global_step/max_steps": "124/2181", "elapsed_time": "10m 38s", "remaining_time": "2h 56m 23s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.144738}
+{"loss": 3.30913115, "grad_norm": 0.72236353, "learning_rate": 0.00099808, "token_acc": 0.39253688, "epoch": 0.05733287, "global_step/max_steps": "125/2181", "elapsed_time": "10m 43s", "remaining_time": "2h 56m 12s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.141799}
+{"loss": 3.22911739, "grad_norm": 0.59498268, "learning_rate": 0.00099802, "token_acc": 0.3980057, "epoch": 0.05779154, "global_step/max_steps": "126/2181", "elapsed_time": "10m 48s", "remaining_time": "2h 56m 7s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.142215}
+{"loss": 3.22598696, "grad_norm": 0.54598838, "learning_rate": 0.00099795, "token_acc": 0.39673147, "epoch": 0.0582502, "global_step/max_steps": "127/2181", "elapsed_time": "10m 53s", "remaining_time": "2h 56m 1s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.141673}
+{"loss": 3.37513971, "grad_norm": 0.59949982, "learning_rate": 0.00099788, "token_acc": 0.37531987, "epoch": 0.05870886, "global_step/max_steps": "128/2181", "elapsed_time": "10m 58s", "remaining_time": "2h 55m 59s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.143402}
+{"loss": 3.30046368, "grad_norm": 0.55324107, "learning_rate": 0.00099781, "token_acc": 0.39311643, "epoch": 0.05916753, "global_step/max_steps": "129/2181", "elapsed_time": "11m 4s", "remaining_time": "2h 55m 58s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.145184}
+{"loss": 3.20833731, "grad_norm": 0.49590704, "learning_rate": 0.00099774, "token_acc": 0.39251571, "epoch": 0.05962619, "global_step/max_steps": "130/2181", "elapsed_time": "11m 9s", "remaining_time": "2h 55m 52s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.145043}
+{"loss": 3.25782442, "grad_norm": 0.45832115, "learning_rate": 0.00099767, "token_acc": 0.39028523, "epoch": 0.06008485, "global_step/max_steps": "131/2181", "elapsed_time": "11m 14s", "remaining_time": "2h 55m 47s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.144724}
+{"loss": 3.27045727, "grad_norm": 0.62885016, "learning_rate": 0.0009976, "token_acc": 0.39786457, "epoch": 0.06054352, "global_step/max_steps": "132/2181", "elapsed_time": "11m 19s", "remaining_time": "2h 55m 39s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.143724}
+{"loss": 3.17976499, "grad_norm": 0.5479359, "learning_rate": 0.00099753, "token_acc": 0.38742731, "epoch": 0.06100218, "global_step/max_steps": "133/2181", "elapsed_time": "11m 24s", "remaining_time": "2h 55m 29s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.141106}
+{"loss": 3.15499687, "grad_norm": 0.50859326, "learning_rate": 0.00099745, "token_acc": 0.39730547, "epoch": 0.06146084, "global_step/max_steps": "134/2181", "elapsed_time": "11m 28s", "remaining_time": "2h 55m 16s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.137411}
+{"loss": 3.23308802, "grad_norm": 0.55361652, "learning_rate": 0.00099738, "token_acc": 0.39125529, "epoch": 0.0619195, "global_step/max_steps": "135/2181", "elapsed_time": "11m 33s", "remaining_time": "2h 55m 6s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.134824}
+{"loss": 3.27908826, "grad_norm": 0.51581907, "learning_rate": 0.0009973, "token_acc": 0.39088129, "epoch": 0.06237817, "global_step/max_steps": "136/2181", "elapsed_time": "11m 39s", "remaining_time": "2h 55m 13s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.141003}
+{"loss": 3.19848871, "grad_norm": 0.52505898, "learning_rate": 0.00099722, "token_acc": 0.39732752, "epoch": 0.06283683, "global_step/max_steps": "137/2181", "elapsed_time": "11m 44s", "remaining_time": "2h 55m 3s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.138588}
+{"loss": 3.23512578, "grad_norm": 0.49341109, "learning_rate": 0.00099714, "token_acc": 0.38868866, "epoch": 0.06329549, "global_step/max_steps": "138/2181", "elapsed_time": "11m 49s", "remaining_time": "2h 55m 1s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.140047}
+{"loss": 3.11595726, "grad_norm": 0.49702287, "learning_rate": 0.00099706, "token_acc": 0.40145985, "epoch": 0.06375416, "global_step/max_steps": "139/2181", "elapsed_time": "11m 54s", "remaining_time": "2h 54m 51s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.137838}
+{"loss": 3.20031214, "grad_norm": 0.55101645, "learning_rate": 0.00099698, "token_acc": 0.39255841, "epoch": 0.06421282, "global_step/max_steps": "140/2181", "elapsed_time": "11m 59s", "remaining_time": "2h 54m 49s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.13903}
+{"loss": 3.2779355, "grad_norm": 0.56864673, "learning_rate": 0.0009969, "token_acc": 0.39740333, "epoch": 0.06467148, "global_step/max_steps": "141/2181", "elapsed_time": "12m 5s", "remaining_time": "2h 54m 43s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.138778}
+{"loss": 3.1479764, "grad_norm": 0.49592948, "learning_rate": 0.00099682, "token_acc": 0.39972145, "epoch": 0.06513015, "global_step/max_steps": "142/2181", "elapsed_time": "12m 10s", "remaining_time": "2h 54m 43s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.141144}
+{"loss": 3.15524864, "grad_norm": 0.53126037, "learning_rate": 0.00099673, "token_acc": 0.40129177, "epoch": 0.06558881, "global_step/max_steps": "143/2181", "elapsed_time": "12m 15s", "remaining_time": "2h 54m 31s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.137832}
+{"loss": 3.19860458, "grad_norm": 0.47585377, "learning_rate": 0.00099665, "token_acc": 0.3884017, "epoch": 0.06604747, "global_step/max_steps": "144/2181", "elapsed_time": "12m 20s", "remaining_time": "2h 54m 25s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.137454}
+{"loss": 3.19728255, "grad_norm": 0.47298938, "learning_rate": 0.00099656, "token_acc": 0.40279682, "epoch": 0.06650613, "global_step/max_steps": "145/2181", "elapsed_time": "12m 25s", "remaining_time": "2h 54m 16s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.135437}
+{"loss": 3.13094521, "grad_norm": 0.47355562, "learning_rate": 0.00099647, "token_acc": 0.39803505, "epoch": 0.0669648, "global_step/max_steps": "146/2181", "elapsed_time": "12m 30s", "remaining_time": "2h 54m 10s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.134997}
+{"loss": 3.19809914, "grad_norm": 0.62710786, "learning_rate": 0.00099639, "token_acc": 0.39842382, "epoch": 0.06742346, "global_step/max_steps": "147/2181", "elapsed_time": "12m 35s", "remaining_time": "2h 54m 0s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.132814}
+{"loss": 3.16506338, "grad_norm": 0.51674706, "learning_rate": 0.0009963, "token_acc": 0.3801249, "epoch": 0.06788212, "global_step/max_steps": "148/2181", "elapsed_time": "12m 39s", "remaining_time": "2h 53m 49s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.129843}
+{"loss": 3.02132654, "grad_norm": 0.48250827, "learning_rate": 0.0009962, "token_acc": 0.40751121, "epoch": 0.06834079, "global_step/max_steps": "149/2181", "elapsed_time": "12m 44s", "remaining_time": "2h 53m 39s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.127679}
+{"loss": 3.09981489, "grad_norm": 0.48821074, "learning_rate": 0.00099611, "token_acc": 0.39832636, "epoch": 0.06879945, "global_step/max_steps": "150/2181", "elapsed_time": "12m 49s", "remaining_time": "2h 53m 31s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.126207}
+{"loss": 3.13339162, "grad_norm": 0.49396941, "learning_rate": 0.00099602, "token_acc": 0.40798898, "epoch": 0.06925811, "global_step/max_steps": "151/2181", "elapsed_time": "12m 54s", "remaining_time": "2h 53m 26s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.126184}
+{"loss": 3.18385744, "grad_norm": 0.65288693, "learning_rate": 0.00099593, "token_acc": 0.39456522, "epoch": 0.06971678, "global_step/max_steps": "152/2181", "elapsed_time": "12m 59s", "remaining_time": "2h 53m 23s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.127273}
+{"loss": 3.13331556, "grad_norm": 0.51980728, "learning_rate": 0.00099583, "token_acc": 0.40326975, "epoch": 0.07017544, "global_step/max_steps": "153/2181", "elapsed_time": "13m 5s", "remaining_time": "2h 53m 19s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.12753}
+{"loss": 3.07838988, "grad_norm": 0.5131498, "learning_rate": 0.00099573, "token_acc": 0.4047619, "epoch": 0.0706341, "global_step/max_steps": "154/2181", "elapsed_time": "13m 9s", "remaining_time": "2h 53m 10s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.125613}
+{"loss": 3.23264909, "grad_norm": 0.4980078, "learning_rate": 0.00099564, "token_acc": 0.3868257, "epoch": 0.07109276, "global_step/max_steps": "155/2181", "elapsed_time": "13m 15s", "remaining_time": "2h 53m 6s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.12625}
+{"loss": 3.27691507, "grad_norm": 0.54952323, "learning_rate": 0.00099554, "token_acc": 0.3810164, "epoch": 0.07155143, "global_step/max_steps": "156/2181", "elapsed_time": "13m 19s", "remaining_time": "2h 52m 58s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.124724}
+{"loss": 3.14673615, "grad_norm": 0.54737461, "learning_rate": 0.00099544, "token_acc": 0.39038622, "epoch": 0.07201009, "global_step/max_steps": "157/2181", "elapsed_time": "13m 25s", "remaining_time": "2h 52m 54s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.125473}
+{"loss": 3.0797925, "grad_norm": 0.56444931, "learning_rate": 0.00099534, "token_acc": 0.40763274, "epoch": 0.07246875, "global_step/max_steps": "158/2181", "elapsed_time": "13m 30s", "remaining_time": "2h 52m 46s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.123916}
+{"loss": 3.19256711, "grad_norm": 0.55987912, "learning_rate": 0.00099524, "token_acc": 0.38829053, "epoch": 0.07292742, "global_step/max_steps": "159/2181", "elapsed_time": "13m 35s", "remaining_time": "2h 52m 42s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.124858}
+{"loss": 3.09036875, "grad_norm": 0.58481103, "learning_rate": 0.00099513, "token_acc": 0.39804676, "epoch": 0.07338608, "global_step/max_steps": "160/2181", "elapsed_time": "13m 40s", "remaining_time": "2h 52m 32s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.122454}
+{"loss": 3.16378784, "grad_norm": 0.50315833, "learning_rate": 0.00099503, "token_acc": 0.40628604, "epoch": 0.07384474, "global_step/max_steps": "161/2181", "elapsed_time": "13m 45s", "remaining_time": "2h 52m 25s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.121344}
+{"loss": 3.13171649, "grad_norm": 0.64832634, "learning_rate": 0.00099493, "token_acc": 0.39026998, "epoch": 0.07430341, "global_step/max_steps": "162/2181", "elapsed_time": "13m 50s", "remaining_time": "2h 52m 19s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.121001}
+{"loss": 3.140131, "grad_norm": 0.66551167, "learning_rate": 0.00099482, "token_acc": 0.39890867, "epoch": 0.07476207, "global_step/max_steps": "163/2181", "elapsed_time": "13m 54s", "remaining_time": "2h 52m 11s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.119363}
+{"loss": 3.1234417, "grad_norm": 0.52821672, "learning_rate": 0.00099471, "token_acc": 0.4055325, "epoch": 0.07522073, "global_step/max_steps": "164/2181", "elapsed_time": "13m 60s", "remaining_time": "2h 52m 7s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.120088}
+{"loss": 3.14457273, "grad_norm": 0.58693618, "learning_rate": 0.0009946, "token_acc": 0.39865772, "epoch": 0.07567939, "global_step/max_steps": "165/2181", "elapsed_time": "14m 5s", "remaining_time": "2h 52m 2s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.119831}
+{"loss": 3.2017684, "grad_norm": 0.51849693, "learning_rate": 0.00099449, "token_acc": 0.37908497, "epoch": 0.07613806, "global_step/max_steps": "166/2181", "elapsed_time": "14m 10s", "remaining_time": "2h 51m 53s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.118315}
+{"loss": 3.07010841, "grad_norm": 0.56238896, "learning_rate": 0.00099438, "token_acc": 0.40323909, "epoch": 0.07659672, "global_step/max_steps": "167/2181", "elapsed_time": "14m 15s", "remaining_time": "2h 51m 48s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.118194}
+{"loss": 3.09919882, "grad_norm": 0.46002713, "learning_rate": 0.00099427, "token_acc": 0.40895105, "epoch": 0.07705538, "global_step/max_steps": "168/2181", "elapsed_time": "14m 19s", "remaining_time": "2h 51m 39s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.116037}
+{"loss": 3.00902462, "grad_norm": 0.52607304, "learning_rate": 0.00099416, "token_acc": 0.40828571, "epoch": 0.07751405, "global_step/max_steps": "169/2181", "elapsed_time": "14m 24s", "remaining_time": "2h 51m 31s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.115006}
+{"loss": 3.07244825, "grad_norm": 0.49301243, "learning_rate": 0.00099405, "token_acc": 0.40625, "epoch": 0.07797271, "global_step/max_steps": "170/2181", "elapsed_time": "14m 29s", "remaining_time": "2h 51m 24s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.113991}
+{"loss": 3.05813551, "grad_norm": 0.55495179, "learning_rate": 0.00099393, "token_acc": 0.40429089, "epoch": 0.07843137, "global_step/max_steps": "171/2181", "elapsed_time": "14m 34s", "remaining_time": "2h 51m 17s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.112783}
+{"loss": 3.00562978, "grad_norm": 0.59907413, "learning_rate": 0.00099382, "token_acc": 0.41917503, "epoch": 0.07889004, "global_step/max_steps": "172/2181", "elapsed_time": "14m 39s", "remaining_time": "2h 51m 11s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.11269}
+{"loss": 3.11628294, "grad_norm": 0.58490318, "learning_rate": 0.0009937, "token_acc": 0.41834205, "epoch": 0.0793487, "global_step/max_steps": "173/2181", "elapsed_time": "14m 44s", "remaining_time": "2h 51m 1s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.109856}
+{"loss": 2.99235582, "grad_norm": 0.51869428, "learning_rate": 0.00099358, "token_acc": 0.42321781, "epoch": 0.07980736, "global_step/max_steps": "174/2181", "elapsed_time": "14m 49s", "remaining_time": "2h 50m 55s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.109747}
+{"loss": 3.07164311, "grad_norm": 0.62149853, "learning_rate": 0.00099346, "token_acc": 0.40509518, "epoch": 0.08026602, "global_step/max_steps": "175/2181", "elapsed_time": "14m 54s", "remaining_time": "2h 50m 48s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.10865}
+{"loss": 3.02211189, "grad_norm": 0.5082798, "learning_rate": 0.00099334, "token_acc": 0.41281241, "epoch": 0.08072469, "global_step/max_steps": "176/2181", "elapsed_time": "14m 60s", "remaining_time": "2h 50m 48s", "memory(GiB)": 76.75, "train_speed(s/it)": 5.11113}
+{"loss": 3.02431917, "grad_norm": 0.50890517, "learning_rate": 0.00099322, "token_acc": 0.4164823, "epoch": 0.08118335, "global_step/max_steps": "177/2181", "elapsed_time": "15m 6s", "remaining_time": "2h 51m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.120142}
+{"loss": 3.08224273, "grad_norm": 0.52264249, "learning_rate": 0.0009931, "token_acc": 0.40386254, "epoch": 0.08164201, "global_step/max_steps": "178/2181", "elapsed_time": "15m 12s", "remaining_time": "2h 50m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.120966}
+{"loss": 3.00465107, "grad_norm": 0.5430575, "learning_rate": 0.00099297, "token_acc": 0.41055718, "epoch": 0.08210068, "global_step/max_steps": "179/2181", "elapsed_time": "15m 17s", "remaining_time": "2h 50m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.121576}
+{"loss": 3.02431202, "grad_norm": 0.55732441, "learning_rate": 0.00099285, "token_acc": 0.4271086, "epoch": 0.08255934, "global_step/max_steps": "180/2181", "elapsed_time": "15m 22s", "remaining_time": "2h 50m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119853}
+{"loss": 2.98543072, "grad_norm": 0.536847, "learning_rate": 0.00099272, "token_acc": 0.41652324, "epoch": 0.083018, "global_step/max_steps": "181/2181", "elapsed_time": "15m 27s", "remaining_time": "2h 50m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119511}
+{"loss": 3.01189494, "grad_norm": 0.50157154, "learning_rate": 0.0009926, "token_acc": 0.42169704, "epoch": 0.08347667, "global_step/max_steps": "182/2181", "elapsed_time": "15m 32s", "remaining_time": "2h 50m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119115}
+{"loss": 3.03760624, "grad_norm": 0.57494396, "learning_rate": 0.00099247, "token_acc": 0.41257966, "epoch": 0.08393533, "global_step/max_steps": "183/2181", "elapsed_time": "15m 37s", "remaining_time": "2h 50m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.117805}
+{"loss": 2.96680546, "grad_norm": 0.49282742, "learning_rate": 0.00099234, "token_acc": 0.42006803, "epoch": 0.08439399, "global_step/max_steps": "184/2181", "elapsed_time": "15m 41s", "remaining_time": "2h 50m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.116223}
+{"loss": 3.01909518, "grad_norm": 0.53790289, "learning_rate": 0.00099221, "token_acc": 0.4170088, "epoch": 0.08485265, "global_step/max_steps": "185/2181", "elapsed_time": "15m 46s", "remaining_time": "2h 50m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115083}
+{"loss": 3.0155673, "grad_norm": 0.56583387, "learning_rate": 0.00099208, "token_acc": 0.41138531, "epoch": 0.08531132, "global_step/max_steps": "186/2181", "elapsed_time": "15m 51s", "remaining_time": "2h 50m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114956}
+{"loss": 2.87394762, "grad_norm": 0.56914288, "learning_rate": 0.00099195, "token_acc": 0.42468443, "epoch": 0.08576998, "global_step/max_steps": "187/2181", "elapsed_time": "15m 56s", "remaining_time": "2h 49m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11485}
+{"loss": 2.9403615, "grad_norm": 0.62679863, "learning_rate": 0.00099181, "token_acc": 0.41960784, "epoch": 0.08622864, "global_step/max_steps": "188/2181", "elapsed_time": "16m 2s", "remaining_time": "2h 49m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.116691}
+{"loss": 2.99006367, "grad_norm": 0.57091349, "learning_rate": 0.00099168, "token_acc": 0.41562064, "epoch": 0.08668731, "global_step/max_steps": "189/2181", "elapsed_time": "16m 7s", "remaining_time": "2h 49m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114729}
+{"loss": 3.02596498, "grad_norm": 0.75659323, "learning_rate": 0.00099154, "token_acc": 0.40775623, "epoch": 0.08714597, "global_step/max_steps": "190/2181", "elapsed_time": "16m 12s", "remaining_time": "2h 49m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114145}
+{"loss": 2.98956847, "grad_norm": 0.56256449, "learning_rate": 0.00099141, "token_acc": 0.40831705, "epoch": 0.08760463, "global_step/max_steps": "191/2181", "elapsed_time": "16m 17s", "remaining_time": "2h 49m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.116609}
+{"loss": 2.9440012, "grad_norm": 0.7307089, "learning_rate": 0.00099127, "token_acc": 0.41392758, "epoch": 0.0880633, "global_step/max_steps": "192/2181", "elapsed_time": "16m 22s", "remaining_time": "2h 49m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115276}
+{"loss": 3.04622602, "grad_norm": 0.58049434, "learning_rate": 0.00099113, "token_acc": 0.40542035, "epoch": 0.08852196, "global_step/max_steps": "193/2181", "elapsed_time": "16m 27s", "remaining_time": "2h 49m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114266}
+{"loss": 3.03582668, "grad_norm": 0.57282931, "learning_rate": 0.00099099, "token_acc": 0.41822828, "epoch": 0.08898062, "global_step/max_steps": "194/2181", "elapsed_time": "16m 32s", "remaining_time": "2h 49m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112784}
+{"loss": 3.09809923, "grad_norm": 0.67889303, "learning_rate": 0.00099085, "token_acc": 0.40238704, "epoch": 0.08943928, "global_step/max_steps": "195/2181", "elapsed_time": "16m 37s", "remaining_time": "2h 49m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112205}
+{"loss": 2.90039968, "grad_norm": 0.57909483, "learning_rate": 0.00099071, "token_acc": 0.42435219, "epoch": 0.08989795, "global_step/max_steps": "196/2181", "elapsed_time": "16m 42s", "remaining_time": "2h 49m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111574}
+{"loss": 2.83894777, "grad_norm": 0.6170215, "learning_rate": 0.00099056, "token_acc": 0.4261284, "epoch": 0.09035661, "global_step/max_steps": "197/2181", "elapsed_time": "16m 47s", "remaining_time": "2h 48m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109221}
+{"loss": 2.79089832, "grad_norm": 0.57074559, "learning_rate": 0.00099042, "token_acc": 0.43789942, "epoch": 0.09081527, "global_step/max_steps": "198/2181", "elapsed_time": "16m 52s", "remaining_time": "2h 48m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10915}
+{"loss": 2.98082399, "grad_norm": 0.59699821, "learning_rate": 0.00099027, "token_acc": 0.42574786, "epoch": 0.09127394, "global_step/max_steps": "199/2181", "elapsed_time": "16m 56s", "remaining_time": "2h 48m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107485}
+{"loss": 2.90013695, "grad_norm": 0.55696684, "learning_rate": 0.00099013, "token_acc": 0.42305556, "epoch": 0.0917326, "global_step/max_steps": "200/2181", "elapsed_time": "17m 1s", "remaining_time": "2h 48m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10684}
+{"loss": 2.93131828, "grad_norm": 0.54050797, "learning_rate": 0.00098998, "token_acc": 0.43059019, "epoch": 0.09219126, "global_step/max_steps": "201/2181", "elapsed_time": "17m 6s", "remaining_time": "2h 48m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106392}
+{"loss": 2.92658949, "grad_norm": 0.59353346, "learning_rate": 0.00098983, "token_acc": 0.42214043, "epoch": 0.09264993, "global_step/max_steps": "202/2181", "elapsed_time": "17m 11s", "remaining_time": "2h 48m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104617}
+{"loss": 2.87990499, "grad_norm": 0.51013142, "learning_rate": 0.00098968, "token_acc": 0.42078133, "epoch": 0.09310859, "global_step/max_steps": "203/2181", "elapsed_time": "17m 17s", "remaining_time": "2h 48m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106252}
+{"loss": 2.83170414, "grad_norm": 0.54946846, "learning_rate": 0.00098953, "token_acc": 0.44077511, "epoch": 0.09356725, "global_step/max_steps": "204/2181", "elapsed_time": "17m 21s", "remaining_time": "2h 48m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104801}
+{"loss": 2.91625237, "grad_norm": 0.62613541, "learning_rate": 0.00098938, "token_acc": 0.43227092, "epoch": 0.09402591, "global_step/max_steps": "205/2181", "elapsed_time": "17m 26s", "remaining_time": "2h 48m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10272}
+{"loss": 2.81979418, "grad_norm": 0.61332166, "learning_rate": 0.00098923, "token_acc": 0.44962943, "epoch": 0.09448458, "global_step/max_steps": "206/2181", "elapsed_time": "17m 31s", "remaining_time": "2h 48m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104267}
+{"loss": 2.94112253, "grad_norm": 0.56857938, "learning_rate": 0.00098907, "token_acc": 0.4137741, "epoch": 0.09494324, "global_step/max_steps": "207/2181", "elapsed_time": "17m 36s", "remaining_time": "2h 47m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102166}
+{"loss": 2.79939079, "grad_norm": 0.62690496, "learning_rate": 0.00098892, "token_acc": 0.43831439, "epoch": 0.0954019, "global_step/max_steps": "208/2181", "elapsed_time": "17m 42s", "remaining_time": "2h 47m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104362}
+{"loss": 2.90749097, "grad_norm": 0.56755, "learning_rate": 0.00098876, "token_acc": 0.42607004, "epoch": 0.09586057, "global_step/max_steps": "209/2181", "elapsed_time": "17m 47s", "remaining_time": "2h 47m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103352}
+{"loss": 2.91789079, "grad_norm": 0.56964445, "learning_rate": 0.00098861, "token_acc": 0.42285714, "epoch": 0.09631923, "global_step/max_steps": "210/2181", "elapsed_time": "17m 52s", "remaining_time": "2h 47m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102781}
+{"loss": 2.87129927, "grad_norm": 0.55490458, "learning_rate": 0.00098845, "token_acc": 0.43743017, "epoch": 0.09677789, "global_step/max_steps": "211/2181", "elapsed_time": "17m 57s", "remaining_time": "2h 47m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102482}
+{"loss": 2.73972893, "grad_norm": 0.54447746, "learning_rate": 0.00098829, "token_acc": 0.45252908, "epoch": 0.09723656, "global_step/max_steps": "212/2181", "elapsed_time": "18m 3s", "remaining_time": "2h 47m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106134}
+{"loss": 2.78512979, "grad_norm": 0.55483878, "learning_rate": 0.00098813, "token_acc": 0.43364738, "epoch": 0.09769522, "global_step/max_steps": "213/2181", "elapsed_time": "18m 7s", "remaining_time": "2h 47m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104439}
+{"loss": 2.88067508, "grad_norm": 0.54987854, "learning_rate": 0.00098797, "token_acc": 0.42422535, "epoch": 0.09815388, "global_step/max_steps": "214/2181", "elapsed_time": "18m 12s", "remaining_time": "2h 47m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10239}
+{"loss": 2.88947964, "grad_norm": 0.55034781, "learning_rate": 0.0009878, "token_acc": 0.43131548, "epoch": 0.09861254, "global_step/max_steps": "215/2181", "elapsed_time": "18m 17s", "remaining_time": "2h 47m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103658}
+{"loss": 2.83796096, "grad_norm": 0.55299741, "learning_rate": 0.00098764, "token_acc": 0.44634703, "epoch": 0.09907121, "global_step/max_steps": "216/2181", "elapsed_time": "18m 22s", "remaining_time": "2h 47m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1024}
+{"loss": 2.78988171, "grad_norm": 0.55625373, "learning_rate": 0.00098748, "token_acc": 0.45216179, "epoch": 0.09952987, "global_step/max_steps": "217/2181", "elapsed_time": "18m 27s", "remaining_time": "2h 46m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101007}
+{"loss": 2.83913207, "grad_norm": 0.55843252, "learning_rate": 0.00098731, "token_acc": 0.44037479, "epoch": 0.09998853, "global_step/max_steps": "218/2181", "elapsed_time": "18m 32s", "remaining_time": "2h 46m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10109}
+{"loss": 2.88847351, "grad_norm": 0.52022558, "learning_rate": 0.00098714, "token_acc": 0.43307087, "epoch": 0.1004472, "global_step/max_steps": "219/2181", "elapsed_time": "18m 37s", "remaining_time": "2h 46m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101927}
+{"loss": 2.84685135, "grad_norm": 0.53535026, "learning_rate": 0.00098698, "token_acc": 0.42773552, "epoch": 0.10090586, "global_step/max_steps": "220/2181", "elapsed_time": "18m 42s", "remaining_time": "2h 46m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10058}
+{"loss": 2.8871181, "grad_norm": 0.48032418, "learning_rate": 0.00098681, "token_acc": 0.42552602, "epoch": 0.10136452, "global_step/max_steps": "221/2181", "elapsed_time": "18m 47s", "remaining_time": "2h 46m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100084}
+{"loss": 2.74033308, "grad_norm": 0.47489586, "learning_rate": 0.00098664, "token_acc": 0.45094235, "epoch": 0.10182319, "global_step/max_steps": "222/2181", "elapsed_time": "18m 52s", "remaining_time": "2h 46m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100928}
+{"loss": 2.80594301, "grad_norm": 0.50049984, "learning_rate": 0.00098647, "token_acc": 0.43505266, "epoch": 0.10228185, "global_step/max_steps": "223/2181", "elapsed_time": "18m 57s", "remaining_time": "2h 46m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098991}
+{"loss": 2.7935462, "grad_norm": 0.50537652, "learning_rate": 0.00098629, "token_acc": 0.43488556, "epoch": 0.10274051, "global_step/max_steps": "224/2181", "elapsed_time": "19m 2s", "remaining_time": "2h 46m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098802}
+{"loss": 2.82703114, "grad_norm": 0.5838753, "learning_rate": 0.00098612, "token_acc": 0.44812925, "epoch": 0.10319917, "global_step/max_steps": "225/2181", "elapsed_time": "19m 7s", "remaining_time": "2h 46m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097243}
+{"loss": 2.76232672, "grad_norm": 0.54198599, "learning_rate": 0.00098595, "token_acc": 0.44920235, "epoch": 0.10365784, "global_step/max_steps": "226/2181", "elapsed_time": "19m 12s", "remaining_time": "2h 46m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097726}
+{"loss": 2.61754823, "grad_norm": 0.55140889, "learning_rate": 0.00098577, "token_acc": 0.45556177, "epoch": 0.1041165, "global_step/max_steps": "227/2181", "elapsed_time": "19m 18s", "remaining_time": "2h 46m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099194}
+{"loss": 2.81456399, "grad_norm": 0.56516874, "learning_rate": 0.00098559, "token_acc": 0.4372133, "epoch": 0.10457516, "global_step/max_steps": "228/2181", "elapsed_time": "19m 23s", "remaining_time": "2h 45m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099446}
+{"loss": 2.78290319, "grad_norm": 0.57081085, "learning_rate": 0.00098542, "token_acc": 0.44024289, "epoch": 0.10503383, "global_step/max_steps": "229/2181", "elapsed_time": "19m 28s", "remaining_time": "2h 45m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098827}
+{"loss": 2.75136328, "grad_norm": 0.52284503, "learning_rate": 0.00098524, "token_acc": 0.4459225, "epoch": 0.10549249, "global_step/max_steps": "230/2181", "elapsed_time": "19m 33s", "remaining_time": "2h 45m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099598}
+{"loss": 2.83607101, "grad_norm": 0.55866063, "learning_rate": 0.00098506, "token_acc": 0.44099021, "epoch": 0.10595115, "global_step/max_steps": "231/2181", "elapsed_time": "19m 38s", "remaining_time": "2h 45m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099095}
+{"loss": 2.8618927, "grad_norm": 0.4837777, "learning_rate": 0.00098488, "token_acc": 0.43264871, "epoch": 0.10640982, "global_step/max_steps": "232/2181", "elapsed_time": "19m 43s", "remaining_time": "2h 45m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097274}
+{"loss": 2.68480039, "grad_norm": 0.59525454, "learning_rate": 0.0009847, "token_acc": 0.45030426, "epoch": 0.10686848, "global_step/max_steps": "233/2181", "elapsed_time": "19m 47s", "remaining_time": "2h 45m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096329}
+{"loss": 2.83601952, "grad_norm": 0.53012562, "learning_rate": 0.00098451, "token_acc": 0.4338594, "epoch": 0.10732714, "global_step/max_steps": "234/2181", "elapsed_time": "19m 52s", "remaining_time": "2h 45m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095652}
+{"loss": 2.63701296, "grad_norm": 0.55327541, "learning_rate": 0.00098433, "token_acc": 0.45446711, "epoch": 0.1077858, "global_step/max_steps": "235/2181", "elapsed_time": "19m 58s", "remaining_time": "2h 45m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095841}
+{"loss": 2.74891615, "grad_norm": 0.56054908, "learning_rate": 0.00098414, "token_acc": 0.43981117, "epoch": 0.10824447, "global_step/max_steps": "236/2181", "elapsed_time": "20m 3s", "remaining_time": "2h 45m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096813}
+{"loss": 2.77106047, "grad_norm": 0.61632192, "learning_rate": 0.00098396, "token_acc": 0.43271106, "epoch": 0.10870313, "global_step/max_steps": "237/2181", "elapsed_time": "20m 8s", "remaining_time": "2h 45m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095672}
+{"loss": 2.65446234, "grad_norm": 0.55786723, "learning_rate": 0.00098377, "token_acc": 0.46181818, "epoch": 0.10916179, "global_step/max_steps": "238/2181", "elapsed_time": "20m 13s", "remaining_time": "2h 45m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095567}
+{"loss": 2.66886187, "grad_norm": 0.51249462, "learning_rate": 0.00098358, "token_acc": 0.45277619, "epoch": 0.10962046, "global_step/max_steps": "239/2181", "elapsed_time": "20m 18s", "remaining_time": "2h 44m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094254}
+{"loss": 2.86444998, "grad_norm": 0.56717128, "learning_rate": 0.00098339, "token_acc": 0.43731464, "epoch": 0.11007912, "global_step/max_steps": "240/2181", "elapsed_time": "20m 23s", "remaining_time": "2h 44m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094417}
+{"loss": 2.76734114, "grad_norm": 0.57410491, "learning_rate": 0.0009832, "token_acc": 0.44297753, "epoch": 0.11053778, "global_step/max_steps": "241/2181", "elapsed_time": "20m 27s", "remaining_time": "2h 44m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093346}
+{"loss": 2.74761891, "grad_norm": 0.48603529, "learning_rate": 0.00098301, "token_acc": 0.43783329, "epoch": 0.11099645, "global_step/max_steps": "242/2181", "elapsed_time": "20m 32s", "remaining_time": "2h 44m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092794}
+{"loss": 2.7171278, "grad_norm": 0.46077159, "learning_rate": 0.00098282, "token_acc": 0.45174594, "epoch": 0.11145511, "global_step/max_steps": "243/2181", "elapsed_time": "20m 38s", "remaining_time": "2h 44m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092699}
+{"loss": 2.84323263, "grad_norm": 0.4885717, "learning_rate": 0.00098262, "token_acc": 0.43477067, "epoch": 0.11191377, "global_step/max_steps": "244/2181", "elapsed_time": "20m 43s", "remaining_time": "2h 44m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092606}
+{"loss": 2.73391104, "grad_norm": 0.49770957, "learning_rate": 0.00098243, "token_acc": 0.45615538, "epoch": 0.11237243, "global_step/max_steps": "245/2181", "elapsed_time": "20m 48s", "remaining_time": "2h 44m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092204}
+{"loss": 2.80329084, "grad_norm": 0.48586538, "learning_rate": 0.00098223, "token_acc": 0.43729904, "epoch": 0.1128311, "global_step/max_steps": "246/2181", "elapsed_time": "20m 52s", "remaining_time": "2h 44m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.090663}
+{"loss": 2.71588206, "grad_norm": 0.47004837, "learning_rate": 0.00098204, "token_acc": 0.44130008, "epoch": 0.11328976, "global_step/max_steps": "247/2181", "elapsed_time": "20m 57s", "remaining_time": "2h 44m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.090984}
+{"loss": 2.7092905, "grad_norm": 0.48640445, "learning_rate": 0.00098184, "token_acc": 0.44888889, "epoch": 0.11374842, "global_step/max_steps": "248/2181", "elapsed_time": "21m 3s", "remaining_time": "2h 44m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093024}
+{"loss": 2.6776576, "grad_norm": 0.48333031, "learning_rate": 0.00098164, "token_acc": 0.44512878, "epoch": 0.11420709, "global_step/max_steps": "249/2181", "elapsed_time": "21m 8s", "remaining_time": "2h 43m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.091261}
+{"loss": 2.66931319, "grad_norm": 0.53946346, "learning_rate": 0.00098144, "token_acc": 0.46711826, "epoch": 0.11466575, "global_step/max_steps": "250/2181", "elapsed_time": "21m 13s", "remaining_time": "2h 43m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092357}
+{"loss": 2.7404952, "grad_norm": 0.50631183, "learning_rate": 0.00098124, "token_acc": 0.45564738, "epoch": 0.11512441, "global_step/max_steps": "251/2181", "elapsed_time": "21m 18s", "remaining_time": "2h 43m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092053}
+{"loss": 2.62419796, "grad_norm": 0.47453138, "learning_rate": 0.00098104, "token_acc": 0.45307355, "epoch": 0.11558308, "global_step/max_steps": "252/2181", "elapsed_time": "21m 23s", "remaining_time": "2h 43m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092187}
+{"loss": 2.68793869, "grad_norm": 0.50773704, "learning_rate": 0.00098084, "token_acc": 0.44967394, "epoch": 0.11604174, "global_step/max_steps": "253/2181", "elapsed_time": "21m 29s", "remaining_time": "2h 43m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093751}
+{"loss": 2.66576982, "grad_norm": 0.46989638, "learning_rate": 0.00098063, "token_acc": 0.46312849, "epoch": 0.1165004, "global_step/max_steps": "254/2181", "elapsed_time": "21m 34s", "remaining_time": "2h 43m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09302}
+{"loss": 2.70795441, "grad_norm": 0.48045701, "learning_rate": 0.00098043, "token_acc": 0.45550319, "epoch": 0.11695906, "global_step/max_steps": "255/2181", "elapsed_time": "21m 39s", "remaining_time": "2h 43m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093282}
+{"loss": 2.80197287, "grad_norm": 0.47158867, "learning_rate": 0.00098022, "token_acc": 0.42849051, "epoch": 0.11741773, "global_step/max_steps": "256/2181", "elapsed_time": "21m 44s", "remaining_time": "2h 43m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092144}
+{"loss": 2.71999693, "grad_norm": 0.43739027, "learning_rate": 0.00098001, "token_acc": 0.4490566, "epoch": 0.11787639, "global_step/max_steps": "257/2181", "elapsed_time": "21m 49s", "remaining_time": "2h 43m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092068}
+{"loss": 2.75048637, "grad_norm": 0.44190088, "learning_rate": 0.0009798, "token_acc": 0.44698206, "epoch": 0.11833505, "global_step/max_steps": "258/2181", "elapsed_time": "21m 54s", "remaining_time": "2h 43m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092968}
+{"loss": 2.69233227, "grad_norm": 0.45689577, "learning_rate": 0.00097959, "token_acc": 0.46832263, "epoch": 0.11879372, "global_step/max_steps": "259/2181", "elapsed_time": "21m 59s", "remaining_time": "2h 43m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093965}
+{"loss": 2.67048454, "grad_norm": 0.46784806, "learning_rate": 0.00097938, "token_acc": 0.44615824, "epoch": 0.11925238, "global_step/max_steps": "260/2181", "elapsed_time": "22m 4s", "remaining_time": "2h 43m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093876}
+{"loss": 2.69250846, "grad_norm": 0.46039131, "learning_rate": 0.00097917, "token_acc": 0.4499453, "epoch": 0.11971104, "global_step/max_steps": "261/2181", "elapsed_time": "22m 9s", "remaining_time": "2h 42m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092868}
+{"loss": 2.77916241, "grad_norm": 0.48764804, "learning_rate": 0.00097896, "token_acc": 0.43768748, "epoch": 0.12016971, "global_step/max_steps": "262/2181", "elapsed_time": "22m 14s", "remaining_time": "2h 42m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.091469}
+{"loss": 2.6090641, "grad_norm": 0.50747102, "learning_rate": 0.00097875, "token_acc": 0.45748054, "epoch": 0.12062837, "global_step/max_steps": "263/2181", "elapsed_time": "22m 19s", "remaining_time": "2h 42m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09141}
+{"loss": 2.79323769, "grad_norm": 0.49795079, "learning_rate": 0.00097853, "token_acc": 0.44228055, "epoch": 0.12108703, "global_step/max_steps": "264/2181", "elapsed_time": "22m 24s", "remaining_time": "2h 42m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.089885}
+{"loss": 2.75313807, "grad_norm": 0.5155558, "learning_rate": 0.00097831, "token_acc": 0.4394198, "epoch": 0.12154569, "global_step/max_steps": "265/2181", "elapsed_time": "22m 29s", "remaining_time": "2h 42m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.089952}
+{"loss": 2.80066109, "grad_norm": 0.45454428, "learning_rate": 0.0009781, "token_acc": 0.4386452, "epoch": 0.12200436, "global_step/max_steps": "266/2181", "elapsed_time": "22m 34s", "remaining_time": "2h 42m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.089529}
+{"loss": 2.89591837, "grad_norm": 0.46605521, "learning_rate": 0.00097788, "token_acc": 0.4375, "epoch": 0.12246302, "global_step/max_steps": "267/2181", "elapsed_time": "22m 39s", "remaining_time": "2h 42m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.088138}
+{"loss": 2.78729916, "grad_norm": 0.47203076, "learning_rate": 0.00097766, "token_acc": 0.4434558, "epoch": 0.12292168, "global_step/max_steps": "268/2181", "elapsed_time": "22m 43s", "remaining_time": "2h 42m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.086783}
+{"loss": 2.74252152, "grad_norm": 0.48214567, "learning_rate": 0.00097744, "token_acc": 0.45405251, "epoch": 0.12338035, "global_step/max_steps": "269/2181", "elapsed_time": "22m 48s", "remaining_time": "2h 42m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.086561}
+{"loss": 2.61468339, "grad_norm": 0.48100299, "learning_rate": 0.00097722, "token_acc": 0.46930693, "epoch": 0.12383901, "global_step/max_steps": "270/2181", "elapsed_time": "22m 53s", "remaining_time": "2h 41m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.085571}
+{"loss": 2.64298272, "grad_norm": 0.49819162, "learning_rate": 0.000977, "token_acc": 0.45541491, "epoch": 0.12429767, "global_step/max_steps": "271/2181", "elapsed_time": "22m 58s", "remaining_time": "2h 41m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.084766}
+{"loss": 2.6018157, "grad_norm": 0.48519695, "learning_rate": 0.00097677, "token_acc": 0.4614711, "epoch": 0.12475634, "global_step/max_steps": "272/2181", "elapsed_time": "23m 3s", "remaining_time": "2h 41m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.085087}
+{"loss": 2.75517893, "grad_norm": 0.46265468, "learning_rate": 0.00097655, "token_acc": 0.4522844, "epoch": 0.125215, "global_step/max_steps": "273/2181", "elapsed_time": "23m 8s", "remaining_time": "2h 41m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.085027}
+{"loss": 2.61686659, "grad_norm": 0.44029468, "learning_rate": 0.00097633, "token_acc": 0.46082446, "epoch": 0.12567366, "global_step/max_steps": "274/2181", "elapsed_time": "23m 13s", "remaining_time": "2h 41m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.083976}
+{"loss": 2.73886156, "grad_norm": 0.49189872, "learning_rate": 0.0009761, "token_acc": 0.43494749, "epoch": 0.12613232, "global_step/max_steps": "275/2181", "elapsed_time": "23m 18s", "remaining_time": "2h 41m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.083451}
+{"loss": 2.72339869, "grad_norm": 0.47118366, "learning_rate": 0.00097587, "token_acc": 0.44700855, "epoch": 0.12659099, "global_step/max_steps": "276/2181", "elapsed_time": "23m 23s", "remaining_time": "2h 41m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.082881}
+{"loss": 2.72501373, "grad_norm": 0.4686552, "learning_rate": 0.00097564, "token_acc": 0.44698828, "epoch": 0.12704965, "global_step/max_steps": "277/2181", "elapsed_time": "23m 28s", "remaining_time": "2h 41m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.082799}
+{"loss": 2.63162708, "grad_norm": 0.48860496, "learning_rate": 0.00097541, "token_acc": 0.45107604, "epoch": 0.12750831, "global_step/max_steps": "278/2181", "elapsed_time": "23m 33s", "remaining_time": "2h 41m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.082606}
+{"loss": 2.71157408, "grad_norm": 0.47162887, "learning_rate": 0.00097518, "token_acc": 0.4500846, "epoch": 0.12796698, "global_step/max_steps": "279/2181", "elapsed_time": "23m 38s", "remaining_time": "2h 41m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.082001}
+{"loss": 2.66594458, "grad_norm": 0.4410567, "learning_rate": 0.00097495, "token_acc": 0.45608011, "epoch": 0.12842564, "global_step/max_steps": "280/2181", "elapsed_time": "23m 43s", "remaining_time": "2h 40m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.081532}
+{"loss": 2.57652855, "grad_norm": 0.45986241, "learning_rate": 0.00097472, "token_acc": 0.46822093, "epoch": 0.1288843, "global_step/max_steps": "281/2181", "elapsed_time": "23m 48s", "remaining_time": "2h 40m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.080674}
+{"loss": 2.60367489, "grad_norm": 0.45316327, "learning_rate": 0.00097448, "token_acc": 0.46158145, "epoch": 0.12934297, "global_step/max_steps": "282/2181", "elapsed_time": "23m 53s", "remaining_time": "2h 40m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.080336}
+{"loss": 2.70143318, "grad_norm": 0.48766837, "learning_rate": 0.00097425, "token_acc": 0.45675676, "epoch": 0.12980163, "global_step/max_steps": "283/2181", "elapsed_time": "23m 58s", "remaining_time": "2h 40m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.080119}
+{"loss": 2.74396896, "grad_norm": 0.45787862, "learning_rate": 0.00097401, "token_acc": 0.43813273, "epoch": 0.13026029, "global_step/max_steps": "284/2181", "elapsed_time": "24m 3s", "remaining_time": "2h 40m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.082084}
+{"loss": 2.58002853, "grad_norm": 0.44475332, "learning_rate": 0.00097378, "token_acc": 0.4640931, "epoch": 0.13071895, "global_step/max_steps": "285/2181", "elapsed_time": "24m 8s", "remaining_time": "2h 40m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.081286}
+{"loss": 2.7090497, "grad_norm": 0.42102018, "learning_rate": 0.00097354, "token_acc": 0.46093539, "epoch": 0.13117762, "global_step/max_steps": "286/2181", "elapsed_time": "24m 13s", "remaining_time": "2h 40m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.081523}
+{"loss": 2.6660018, "grad_norm": 0.45203435, "learning_rate": 0.0009733, "token_acc": 0.4589022, "epoch": 0.13163628, "global_step/max_steps": "287/2181", "elapsed_time": "24m 18s", "remaining_time": "2h 40m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.081167}
+{"loss": 2.649333, "grad_norm": 0.45855415, "learning_rate": 0.00097306, "token_acc": 0.44741822, "epoch": 0.13209494, "global_step/max_steps": "288/2181", "elapsed_time": "24m 23s", "remaining_time": "2h 40m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.080992}
+{"loss": 2.73426294, "grad_norm": 0.45884007, "learning_rate": 0.00097282, "token_acc": 0.46117841, "epoch": 0.13255361, "global_step/max_steps": "289/2181", "elapsed_time": "24m 28s", "remaining_time": "2h 40m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.079395}
+{"loss": 2.70044971, "grad_norm": 0.4426915, "learning_rate": 0.00097258, "token_acc": 0.45189665, "epoch": 0.13301227, "global_step/max_steps": "290/2181", "elapsed_time": "24m 33s", "remaining_time": "2h 40m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078839}
+{"loss": 2.82112646, "grad_norm": 0.42865708, "learning_rate": 0.00097233, "token_acc": 0.44969764, "epoch": 0.13347093, "global_step/max_steps": "291/2181", "elapsed_time": "24m 38s", "remaining_time": "2h 39m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078788}
+{"loss": 2.72771478, "grad_norm": 0.45931283, "learning_rate": 0.00097209, "token_acc": 0.44590727, "epoch": 0.1339296, "global_step/max_steps": "292/2181", "elapsed_time": "24m 43s", "remaining_time": "2h 39m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.077905}
+{"loss": 2.58631659, "grad_norm": 0.47486088, "learning_rate": 0.00097185, "token_acc": 0.46486928, "epoch": 0.13438826, "global_step/max_steps": "293/2181", "elapsed_time": "24m 47s", "remaining_time": "2h 39m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076554}
+{"loss": 2.67978096, "grad_norm": 0.46855611, "learning_rate": 0.0009716, "token_acc": 0.45475307, "epoch": 0.13484692, "global_step/max_steps": "294/2181", "elapsed_time": "24m 54s", "remaining_time": "2h 39m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.080209}
+{"loss": 2.51029778, "grad_norm": 0.47376725, "learning_rate": 0.00097135, "token_acc": 0.48124655, "epoch": 0.13530558, "global_step/max_steps": "295/2181", "elapsed_time": "24m 58s", "remaining_time": "2h 39m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.079351}
+{"loss": 2.68291712, "grad_norm": 0.45392647, "learning_rate": 0.0009711, "token_acc": 0.4556962, "epoch": 0.13576425, "global_step/max_steps": "296/2181", "elapsed_time": "25m 3s", "remaining_time": "2h 39m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.079066}
+{"loss": 2.63027906, "grad_norm": 0.45092779, "learning_rate": 0.00097085, "token_acc": 0.46277778, "epoch": 0.13622291, "global_step/max_steps": "297/2181", "elapsed_time": "25m 8s", "remaining_time": "2h 39m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078003}
+{"loss": 2.71098328, "grad_norm": 0.45156825, "learning_rate": 0.0009706, "token_acc": 0.45323342, "epoch": 0.13668157, "global_step/max_steps": "298/2181", "elapsed_time": "25m 13s", "remaining_time": "2h 39m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076956}
+{"loss": 2.6831007, "grad_norm": 0.46372184, "learning_rate": 0.00097035, "token_acc": 0.45432563, "epoch": 0.13714024, "global_step/max_steps": "299/2181", "elapsed_time": "25m 18s", "remaining_time": "2h 39m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.077344}
+{"loss": 2.62599516, "grad_norm": 0.49487841, "learning_rate": 0.0009701, "token_acc": 0.47627119, "epoch": 0.1375989, "global_step/max_steps": "300/2181", "elapsed_time": "25m 23s", "remaining_time": "2h 39m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.077929}
+{"loss": 2.60457325, "grad_norm": 0.49047145, "learning_rate": 0.00096985, "token_acc": 0.45304496, "epoch": 0.13805756, "global_step/max_steps": "301/2181", "elapsed_time": "25m 28s", "remaining_time": "2h 39m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.077514}
+{"loss": 2.67248201, "grad_norm": 0.48575768, "learning_rate": 0.00096959, "token_acc": 0.44682583, "epoch": 0.13851623, "global_step/max_steps": "302/2181", "elapsed_time": "25m 34s", "remaining_time": "2h 39m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078506}
+{"loss": 2.69451809, "grad_norm": 0.49053732, "learning_rate": 0.00096934, "token_acc": 0.45143019, "epoch": 0.13897489, "global_step/max_steps": "303/2181", "elapsed_time": "25m 39s", "remaining_time": "2h 38m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07817}
+{"loss": 2.60730004, "grad_norm": 0.46052867, "learning_rate": 0.00096908, "token_acc": 0.45805556, "epoch": 0.13943355, "global_step/max_steps": "304/2181", "elapsed_time": "25m 44s", "remaining_time": "2h 38m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078372}
+{"loss": 2.65243387, "grad_norm": 0.44077626, "learning_rate": 0.00096882, "token_acc": 0.44611885, "epoch": 0.13989221, "global_step/max_steps": "305/2181", "elapsed_time": "25m 49s", "remaining_time": "2h 38m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07771}
+{"loss": 2.73550034, "grad_norm": 0.49506307, "learning_rate": 0.00096856, "token_acc": 0.45829775, "epoch": 0.14035088, "global_step/max_steps": "306/2181", "elapsed_time": "25m 54s", "remaining_time": "2h 38m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.077972}
+{"loss": 2.66876578, "grad_norm": 0.45858341, "learning_rate": 0.0009683, "token_acc": 0.46675712, "epoch": 0.14080954, "global_step/max_steps": "307/2181", "elapsed_time": "25m 59s", "remaining_time": "2h 38m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076856}
+{"loss": 2.59581518, "grad_norm": 0.45298895, "learning_rate": 0.00096804, "token_acc": 0.45830937, "epoch": 0.1412682, "global_step/max_steps": "308/2181", "elapsed_time": "26m 4s", "remaining_time": "2h 38m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076626}
+{"loss": 2.76587105, "grad_norm": 0.47553375, "learning_rate": 0.00096778, "token_acc": 0.44115204, "epoch": 0.14172687, "global_step/max_steps": "309/2181", "elapsed_time": "26m 8s", "remaining_time": "2h 38m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075797}
+{"loss": 2.58992434, "grad_norm": 0.46626383, "learning_rate": 0.00096752, "token_acc": 0.47034368, "epoch": 0.14218553, "global_step/max_steps": "310/2181", "elapsed_time": "26m 14s", "remaining_time": "2h 38m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076194}
+{"loss": 2.74562263, "grad_norm": 0.45140105, "learning_rate": 0.00096725, "token_acc": 0.43640351, "epoch": 0.14264419, "global_step/max_steps": "311/2181", "elapsed_time": "26m 19s", "remaining_time": "2h 38m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075904}
+{"loss": 2.65846896, "grad_norm": 0.44404852, "learning_rate": 0.00096699, "token_acc": 0.45790049, "epoch": 0.14310286, "global_step/max_steps": "312/2181", "elapsed_time": "26m 24s", "remaining_time": "2h 38m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075978}
+{"loss": 2.66334224, "grad_norm": 0.41799837, "learning_rate": 0.00096672, "token_acc": 0.4572238, "epoch": 0.14356152, "global_step/max_steps": "313/2181", "elapsed_time": "26m 29s", "remaining_time": "2h 38m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075332}
+{"loss": 2.71683455, "grad_norm": 0.46077636, "learning_rate": 0.00096646, "token_acc": 0.45047923, "epoch": 0.14402018, "global_step/max_steps": "314/2181", "elapsed_time": "26m 34s", "remaining_time": "2h 37m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076873}
+{"loss": 2.64136457, "grad_norm": 0.44072956, "learning_rate": 0.00096619, "token_acc": 0.45750747, "epoch": 0.14447884, "global_step/max_steps": "315/2181", "elapsed_time": "26m 40s", "remaining_time": "2h 37m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07804}
+{"loss": 2.5541904, "grad_norm": 0.40212211, "learning_rate": 0.00096592, "token_acc": 0.46541585, "epoch": 0.14493751, "global_step/max_steps": "316/2181", "elapsed_time": "26m 45s", "remaining_time": "2h 37m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.077689}
+{"loss": 2.62943029, "grad_norm": 0.41290542, "learning_rate": 0.00096565, "token_acc": 0.46222607, "epoch": 0.14539617, "global_step/max_steps": "317/2181", "elapsed_time": "26m 50s", "remaining_time": "2h 37m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078906}
+{"loss": 2.60955763, "grad_norm": 0.49133044, "learning_rate": 0.00096538, "token_acc": 0.46184063, "epoch": 0.14585483, "global_step/max_steps": "318/2181", "elapsed_time": "26m 55s", "remaining_time": "2h 37m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078239}
+{"loss": 2.64652181, "grad_norm": 0.42811245, "learning_rate": 0.00096511, "token_acc": 0.45244565, "epoch": 0.1463135, "global_step/max_steps": "319/2181", "elapsed_time": "26m 60s", "remaining_time": "2h 37m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07823}
+{"loss": 2.6465106, "grad_norm": 0.45125592, "learning_rate": 0.00096483, "token_acc": 0.45919256, "epoch": 0.14677216, "global_step/max_steps": "320/2181", "elapsed_time": "27m 5s", "remaining_time": "2h 37m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.077021}
+{"loss": 2.61950135, "grad_norm": 0.48132291, "learning_rate": 0.00096456, "token_acc": 0.46012961, "epoch": 0.14723082, "global_step/max_steps": "321/2181", "elapsed_time": "27m 10s", "remaining_time": "2h 37m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076855}
+{"loss": 2.68276167, "grad_norm": 0.42257589, "learning_rate": 0.00096428, "token_acc": 0.45924453, "epoch": 0.14768949, "global_step/max_steps": "322/2181", "elapsed_time": "27m 15s", "remaining_time": "2h 37m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076649}
+{"loss": 2.70566893, "grad_norm": 0.47147265, "learning_rate": 0.00096401, "token_acc": 0.44720327, "epoch": 0.14814815, "global_step/max_steps": "323/2181", "elapsed_time": "27m 20s", "remaining_time": "2h 37m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076007}
+{"loss": 2.61956501, "grad_norm": 0.44620776, "learning_rate": 0.00096373, "token_acc": 0.45176278, "epoch": 0.14860681, "global_step/max_steps": "324/2181", "elapsed_time": "27m 25s", "remaining_time": "2h 37m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075942}
+{"loss": 2.54782867, "grad_norm": 0.45049191, "learning_rate": 0.00096345, "token_acc": 0.48008789, "epoch": 0.14906547, "global_step/max_steps": "325/2181", "elapsed_time": "27m 29s", "remaining_time": "2h 36m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074852}
+{"loss": 2.70479774, "grad_norm": 0.46520853, "learning_rate": 0.00096317, "token_acc": 0.45706999, "epoch": 0.14952414, "global_step/max_steps": "326/2181", "elapsed_time": "27m 34s", "remaining_time": "2h 36m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074103}
+{"loss": 2.61215019, "grad_norm": 0.4410255, "learning_rate": 0.00096289, "token_acc": 0.46864595, "epoch": 0.1499828, "global_step/max_steps": "327/2181", "elapsed_time": "27m 39s", "remaining_time": "2h 36m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073874}
+{"loss": 2.65669632, "grad_norm": 0.43390861, "learning_rate": 0.00096261, "token_acc": 0.45651028, "epoch": 0.15044146, "global_step/max_steps": "328/2181", "elapsed_time": "27m 45s", "remaining_time": "2h 36m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075654}
+{"loss": 2.72836018, "grad_norm": 0.40781534, "learning_rate": 0.00096233, "token_acc": 0.44916622, "epoch": 0.15090013, "global_step/max_steps": "329/2181", "elapsed_time": "27m 51s", "remaining_time": "2h 36m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078099}
+{"loss": 2.65277696, "grad_norm": 0.43105572, "learning_rate": 0.00096205, "token_acc": 0.4591386, "epoch": 0.15135879, "global_step/max_steps": "330/2181", "elapsed_time": "27m 56s", "remaining_time": "2h 36m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.077611}
+{"loss": 2.5204649, "grad_norm": 0.44758525, "learning_rate": 0.00096176, "token_acc": 0.47711512, "epoch": 0.15181745, "global_step/max_steps": "331/2181", "elapsed_time": "28m 0s", "remaining_time": "2h 36m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076472}
+{"loss": 2.62521696, "grad_norm": 0.42729256, "learning_rate": 0.00096148, "token_acc": 0.46164575, "epoch": 0.15227612, "global_step/max_steps": "332/2181", "elapsed_time": "28m 5s", "remaining_time": "2h 36m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075912}
+{"loss": 2.67568064, "grad_norm": 0.43220475, "learning_rate": 0.00096119, "token_acc": 0.45530565, "epoch": 0.15273478, "global_step/max_steps": "333/2181", "elapsed_time": "28m 10s", "remaining_time": "2h 36m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075229}
+{"loss": 2.54049921, "grad_norm": 0.41309264, "learning_rate": 0.0009609, "token_acc": 0.46470261, "epoch": 0.15319344, "global_step/max_steps": "334/2181", "elapsed_time": "28m 15s", "remaining_time": "2h 36m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07453}
+{"loss": 2.54610229, "grad_norm": 0.40576604, "learning_rate": 0.00096061, "token_acc": 0.46954532, "epoch": 0.1536521, "global_step/max_steps": "335/2181", "elapsed_time": "28m 20s", "remaining_time": "2h 36m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075231}
+{"loss": 2.51362729, "grad_norm": 0.43747833, "learning_rate": 0.00096032, "token_acc": 0.47656691, "epoch": 0.15411077, "global_step/max_steps": "336/2181", "elapsed_time": "28m 25s", "remaining_time": "2h 36m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074129}
+{"loss": 2.5630908, "grad_norm": 0.42677709, "learning_rate": 0.00096003, "token_acc": 0.46733805, "epoch": 0.15456943, "global_step/max_steps": "337/2181", "elapsed_time": "28m 30s", "remaining_time": "2h 35m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07401}
+{"loss": 2.68962622, "grad_norm": 0.42010242, "learning_rate": 0.00095974, "token_acc": 0.45832195, "epoch": 0.15502809, "global_step/max_steps": "338/2181", "elapsed_time": "28m 35s", "remaining_time": "2h 35m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074796}
+{"loss": 2.55053473, "grad_norm": 0.41951594, "learning_rate": 0.00095945, "token_acc": 0.47623019, "epoch": 0.15548676, "global_step/max_steps": "339/2181", "elapsed_time": "28m 40s", "remaining_time": "2h 35m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074799}
+{"loss": 2.61446762, "grad_norm": 0.91458941, "learning_rate": 0.00095916, "token_acc": 0.46376812, "epoch": 0.15594542, "global_step/max_steps": "340/2181", "elapsed_time": "28m 45s", "remaining_time": "2h 35m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074911}
+{"loss": 2.59327197, "grad_norm": 0.41407856, "learning_rate": 0.00095886, "token_acc": 0.4684432, "epoch": 0.15640408, "global_step/max_steps": "341/2181", "elapsed_time": "28m 50s", "remaining_time": "2h 35m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07459}
+{"loss": 2.52190399, "grad_norm": 0.39919391, "learning_rate": 0.00095857, "token_acc": 0.48428207, "epoch": 0.15686275, "global_step/max_steps": "342/2181", "elapsed_time": "28m 56s", "remaining_time": "2h 35m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075288}
+{"loss": 2.74053741, "grad_norm": 0.39798871, "learning_rate": 0.00095827, "token_acc": 0.44368601, "epoch": 0.15732141, "global_step/max_steps": "343/2181", "elapsed_time": "29m 0s", "remaining_time": "2h 35m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074176}
+{"loss": 2.64555001, "grad_norm": 0.40859473, "learning_rate": 0.00095797, "token_acc": 0.44542936, "epoch": 0.15778007, "global_step/max_steps": "344/2181", "elapsed_time": "29m 6s", "remaining_time": "2h 35m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076735}
+{"loss": 2.66782904, "grad_norm": 0.3952935, "learning_rate": 0.00095767, "token_acc": 0.45360247, "epoch": 0.15823873, "global_step/max_steps": "345/2181", "elapsed_time": "29m 11s", "remaining_time": "2h 35m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076473}
+{"loss": 2.6653161, "grad_norm": 0.40132824, "learning_rate": 0.00095737, "token_acc": 0.4549803, "epoch": 0.1586974, "global_step/max_steps": "346/2181", "elapsed_time": "29m 17s", "remaining_time": "2h 35m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076591}
+{"loss": 2.65180016, "grad_norm": 0.43184564, "learning_rate": 0.00095707, "token_acc": 0.45272779, "epoch": 0.15915606, "global_step/max_steps": "347/2181", "elapsed_time": "29m 22s", "remaining_time": "2h 35m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076596}
+{"loss": 2.61039448, "grad_norm": 0.43059587, "learning_rate": 0.00095677, "token_acc": 0.46839827, "epoch": 0.15961472, "global_step/max_steps": "348/2181", "elapsed_time": "29m 27s", "remaining_time": "2h 35m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076819}
+{"loss": 2.53963065, "grad_norm": 0.39773428, "learning_rate": 0.00095647, "token_acc": 0.47005742, "epoch": 0.16007339, "global_step/max_steps": "349/2181", "elapsed_time": "29m 32s", "remaining_time": "2h 35m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076833}
+{"loss": 2.59524894, "grad_norm": 0.40030614, "learning_rate": 0.00095617, "token_acc": 0.46498371, "epoch": 0.16053205, "global_step/max_steps": "350/2181", "elapsed_time": "29m 37s", "remaining_time": "2h 34m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075758}
+{"loss": 2.68018413, "grad_norm": 0.41031358, "learning_rate": 0.00095586, "token_acc": 0.45951139, "epoch": 0.16099071, "global_step/max_steps": "351/2181", "elapsed_time": "29m 43s", "remaining_time": "2h 34m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078357}
+{"loss": 2.58927703, "grad_norm": 0.43163407, "learning_rate": 0.00095556, "token_acc": 0.46635018, "epoch": 0.16144938, "global_step/max_steps": "352/2181", "elapsed_time": "29m 47s", "remaining_time": "2h 34m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078052}
+{"loss": 2.64811754, "grad_norm": 0.42446685, "learning_rate": 0.00095525, "token_acc": 0.45383952, "epoch": 0.16190804, "global_step/max_steps": "353/2181", "elapsed_time": "29m 53s", "remaining_time": "2h 34m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.079186}
+{"loss": 2.60028887, "grad_norm": 0.43733329, "learning_rate": 0.00095494, "token_acc": 0.46376007, "epoch": 0.1623667, "global_step/max_steps": "354/2181", "elapsed_time": "29m 58s", "remaining_time": "2h 34m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078628}
+{"loss": 2.64657164, "grad_norm": 0.42245471, "learning_rate": 0.00095463, "token_acc": 0.47450658, "epoch": 0.16282536, "global_step/max_steps": "355/2181", "elapsed_time": "30m 3s", "remaining_time": "2h 34m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078058}
+{"loss": 2.68941593, "grad_norm": 0.47052485, "learning_rate": 0.00095432, "token_acc": 0.45159469, "epoch": 0.16328403, "global_step/max_steps": "356/2181", "elapsed_time": "30m 8s", "remaining_time": "2h 34m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.078043}
+{"loss": 2.59462881, "grad_norm": 0.42907077, "learning_rate": 0.00095401, "token_acc": 0.46524664, "epoch": 0.16374269, "global_step/max_steps": "357/2181", "elapsed_time": "30m 13s", "remaining_time": "2h 34m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.077052}
+{"loss": 2.59383154, "grad_norm": 0.44306937, "learning_rate": 0.0009537, "token_acc": 0.46258315, "epoch": 0.16420135, "global_step/max_steps": "358/2181", "elapsed_time": "30m 17s", "remaining_time": "2h 34m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075773}
+{"loss": 2.64040041, "grad_norm": 0.45394963, "learning_rate": 0.00095339, "token_acc": 0.46140845, "epoch": 0.16466002, "global_step/max_steps": "359/2181", "elapsed_time": "30m 22s", "remaining_time": "2h 34m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075696}
+{"loss": 2.5607574, "grad_norm": 0.39559039, "learning_rate": 0.00095308, "token_acc": 0.47087777, "epoch": 0.16511868, "global_step/max_steps": "360/2181", "elapsed_time": "30m 27s", "remaining_time": "2h 34m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075741}
+{"loss": 2.59984875, "grad_norm": 0.49025381, "learning_rate": 0.00095276, "token_acc": 0.46202882, "epoch": 0.16557734, "global_step/max_steps": "361/2181", "elapsed_time": "30m 32s", "remaining_time": "2h 33m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075336}
+{"loss": 2.51808167, "grad_norm": 0.45067576, "learning_rate": 0.00095245, "token_acc": 0.47864974, "epoch": 0.16603601, "global_step/max_steps": "362/2181", "elapsed_time": "30m 37s", "remaining_time": "2h 33m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07496}
+{"loss": 2.60170412, "grad_norm": 0.4821496, "learning_rate": 0.00095213, "token_acc": 0.45644796, "epoch": 0.16649467, "global_step/max_steps": "363/2181", "elapsed_time": "30m 43s", "remaining_time": "2h 33m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075821}
+{"loss": 2.59943414, "grad_norm": 0.45174971, "learning_rate": 0.00095181, "token_acc": 0.47328459, "epoch": 0.16695333, "global_step/max_steps": "364/2181", "elapsed_time": "30m 47s", "remaining_time": "2h 33m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075326}
+{"loss": 2.63695812, "grad_norm": 0.42110059, "learning_rate": 0.00095149, "token_acc": 0.47013908, "epoch": 0.16741199, "global_step/max_steps": "365/2181", "elapsed_time": "30m 52s", "remaining_time": "2h 33m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07495}
+{"loss": 2.59425783, "grad_norm": 0.44847873, "learning_rate": 0.00095117, "token_acc": 0.46029573, "epoch": 0.16787066, "global_step/max_steps": "366/2181", "elapsed_time": "30m 57s", "remaining_time": "2h 33m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074633}
+{"loss": 2.65346551, "grad_norm": 0.42123497, "learning_rate": 0.00095085, "token_acc": 0.44511859, "epoch": 0.16832932, "global_step/max_steps": "367/2181", "elapsed_time": "31m 3s", "remaining_time": "2h 33m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075088}
+{"loss": 2.67464066, "grad_norm": 0.42160952, "learning_rate": 0.00095053, "token_acc": 0.44946111, "epoch": 0.16878798, "global_step/max_steps": "368/2181", "elapsed_time": "31m 8s", "remaining_time": "2h 33m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075306}
+{"loss": 2.61378527, "grad_norm": 0.44167531, "learning_rate": 0.00095021, "token_acc": 0.47271201, "epoch": 0.16924665, "global_step/max_steps": "369/2181", "elapsed_time": "31m 12s", "remaining_time": "2h 33m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074504}
+{"loss": 2.50976992, "grad_norm": 0.41216612, "learning_rate": 0.00094988, "token_acc": 0.46772429, "epoch": 0.16970531, "global_step/max_steps": "370/2181", "elapsed_time": "31m 17s", "remaining_time": "2h 33m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073836}
+{"loss": 2.58864737, "grad_norm": 0.4165962, "learning_rate": 0.00094956, "token_acc": 0.46437695, "epoch": 0.17016397, "global_step/max_steps": "371/2181", "elapsed_time": "31m 22s", "remaining_time": "2h 33m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073336}
+{"loss": 2.63897896, "grad_norm": 0.39617935, "learning_rate": 0.00094923, "token_acc": 0.45785753, "epoch": 0.17062264, "global_step/max_steps": "372/2181", "elapsed_time": "31m 27s", "remaining_time": "2h 32m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073829}
+{"loss": 2.62952805, "grad_norm": 0.41385168, "learning_rate": 0.00094891, "token_acc": 0.4488145, "epoch": 0.1710813, "global_step/max_steps": "373/2181", "elapsed_time": "31m 33s", "remaining_time": "2h 32m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073823}
+{"loss": 2.52034807, "grad_norm": 0.43028575, "learning_rate": 0.00094858, "token_acc": 0.46902902, "epoch": 0.17153996, "global_step/max_steps": "374/2181", "elapsed_time": "31m 38s", "remaining_time": "2h 32m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074726}
+{"loss": 2.65102863, "grad_norm": 0.45588449, "learning_rate": 0.00094825, "token_acc": 0.45060706, "epoch": 0.17199862, "global_step/max_steps": "375/2181", "elapsed_time": "31m 43s", "remaining_time": "2h 32m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075667}
+{"loss": 2.57366633, "grad_norm": 0.45055526, "learning_rate": 0.00094792, "token_acc": 0.47363636, "epoch": 0.17245729, "global_step/max_steps": "376/2181", "elapsed_time": "31m 48s", "remaining_time": "2h 32m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075724}
+{"loss": 2.59576941, "grad_norm": 0.40757641, "learning_rate": 0.00094759, "token_acc": 0.47420417, "epoch": 0.17291595, "global_step/max_steps": "377/2181", "elapsed_time": "31m 54s", "remaining_time": "2h 32m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076321}
+{"loss": 2.48854518, "grad_norm": 0.4351325, "learning_rate": 0.00094726, "token_acc": 0.47076585, "epoch": 0.17337461, "global_step/max_steps": "378/2181", "elapsed_time": "31m 59s", "remaining_time": "2h 32m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076189}
+{"loss": 2.5353477, "grad_norm": 0.40504733, "learning_rate": 0.00094693, "token_acc": 0.47211591, "epoch": 0.17383328, "global_step/max_steps": "379/2181", "elapsed_time": "32m 4s", "remaining_time": "2h 32m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076044}
+{"loss": 2.64057469, "grad_norm": 0.38353148, "learning_rate": 0.00094659, "token_acc": 0.4698895, "epoch": 0.17429194, "global_step/max_steps": "380/2181", "elapsed_time": "32m 9s", "remaining_time": "2h 32m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.076262}
+{"loss": 2.56856656, "grad_norm": 0.39082888, "learning_rate": 0.00094626, "token_acc": 0.47017045, "epoch": 0.1747506, "global_step/max_steps": "381/2181", "elapsed_time": "32m 14s", "remaining_time": "2h 32m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075525}
+{"loss": 2.61595726, "grad_norm": 0.41922635, "learning_rate": 0.00094592, "token_acc": 0.46454495, "epoch": 0.17520926, "global_step/max_steps": "382/2181", "elapsed_time": "32m 19s", "remaining_time": "2h 32m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075558}
+{"loss": 2.59330654, "grad_norm": 0.44853142, "learning_rate": 0.00094559, "token_acc": 0.46047431, "epoch": 0.17566793, "global_step/max_steps": "383/2181", "elapsed_time": "32m 24s", "remaining_time": "2h 32m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075224}
+{"loss": 2.63632131, "grad_norm": 0.39782065, "learning_rate": 0.00094525, "token_acc": 0.4570466, "epoch": 0.17612659, "global_step/max_steps": "384/2181", "elapsed_time": "32m 29s", "remaining_time": "2h 31m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.075058}
+{"loss": 2.48631716, "grad_norm": 0.4241364, "learning_rate": 0.00094491, "token_acc": 0.48446328, "epoch": 0.17658525, "global_step/max_steps": "385/2181", "elapsed_time": "32m 34s", "remaining_time": "2h 31m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.074171}
+{"loss": 2.69848776, "grad_norm": 0.45109606, "learning_rate": 0.00094457, "token_acc": 0.44801774, "epoch": 0.17704392, "global_step/max_steps": "386/2181", "elapsed_time": "32m 38s", "remaining_time": "2h 31m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073088}
+{"loss": 2.48406935, "grad_norm": 0.43443918, "learning_rate": 0.00094423, "token_acc": 0.48188194, "epoch": 0.17750258, "global_step/max_steps": "387/2181", "elapsed_time": "32m 43s", "remaining_time": "2h 31m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073374}
+{"loss": 2.60511255, "grad_norm": 0.41515538, "learning_rate": 0.00094389, "token_acc": 0.45906114, "epoch": 0.17796124, "global_step/max_steps": "388/2181", "elapsed_time": "32m 48s", "remaining_time": "2h 31m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072874}
+{"loss": 2.51419353, "grad_norm": 0.39656067, "learning_rate": 0.00094355, "token_acc": 0.4791901, "epoch": 0.17841991, "global_step/max_steps": "389/2181", "elapsed_time": "32m 53s", "remaining_time": "2h 31m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073253}
+{"loss": 2.55951524, "grad_norm": 0.43322673, "learning_rate": 0.0009432, "token_acc": 0.45848476, "epoch": 0.17887857, "global_step/max_steps": "390/2181", "elapsed_time": "32m 59s", "remaining_time": "2h 31m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07322}
+{"loss": 2.54092574, "grad_norm": 0.40551865, "learning_rate": 0.00094286, "token_acc": 0.46350469, "epoch": 0.17933723, "global_step/max_steps": "391/2181", "elapsed_time": "33m 3s", "remaining_time": "2h 31m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072463}
+{"loss": 2.57203531, "grad_norm": 0.40159047, "learning_rate": 0.00094252, "token_acc": 0.46819634, "epoch": 0.17979589, "global_step/max_steps": "392/2181", "elapsed_time": "33m 8s", "remaining_time": "2h 31m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072515}
+{"loss": 2.64742661, "grad_norm": 0.40258712, "learning_rate": 0.00094217, "token_acc": 0.46271139, "epoch": 0.18025456, "global_step/max_steps": "393/2181", "elapsed_time": "33m 14s", "remaining_time": "2h 31m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072704}
+{"loss": 2.70184302, "grad_norm": 0.41928372, "learning_rate": 0.00094182, "token_acc": 0.45130979, "epoch": 0.18071322, "global_step/max_steps": "394/2181", "elapsed_time": "33m 19s", "remaining_time": "2h 31m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073115}
+{"loss": 2.57042789, "grad_norm": 0.38373637, "learning_rate": 0.00094147, "token_acc": 0.44816146, "epoch": 0.18117188, "global_step/max_steps": "395/2181", "elapsed_time": "33m 24s", "remaining_time": "2h 31m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073047}
+{"loss": 2.58256149, "grad_norm": 0.40573502, "learning_rate": 0.00094112, "token_acc": 0.47123045, "epoch": 0.18163055, "global_step/max_steps": "396/2181", "elapsed_time": "33m 29s", "remaining_time": "2h 30m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072608}
+{"loss": 2.54677796, "grad_norm": 0.41325906, "learning_rate": 0.00094077, "token_acc": 0.46948739, "epoch": 0.18208921, "global_step/max_steps": "397/2181", "elapsed_time": "33m 34s", "remaining_time": "2h 30m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072283}
+{"loss": 2.730829, "grad_norm": 0.39825675, "learning_rate": 0.00094042, "token_acc": 0.44674808, "epoch": 0.18254787, "global_step/max_steps": "398/2181", "elapsed_time": "33m 39s", "remaining_time": "2h 30m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072805}
+{"loss": 2.61938453, "grad_norm": 0.40705514, "learning_rate": 0.00094007, "token_acc": 0.46014996, "epoch": 0.18300654, "global_step/max_steps": "399/2181", "elapsed_time": "33m 44s", "remaining_time": "2h 30m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072406}
+{"loss": 2.57308197, "grad_norm": 0.41727844, "learning_rate": 0.00093972, "token_acc": 0.45263739, "epoch": 0.1834652, "global_step/max_steps": "400/2181", "elapsed_time": "33m 49s", "remaining_time": "2h 30m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071783}
+{"loss": 2.66885924, "grad_norm": 0.4333351, "learning_rate": 0.00093936, "token_acc": 0.47411139, "epoch": 0.18392386, "global_step/max_steps": "401/2181", "elapsed_time": "33m 53s", "remaining_time": "2h 30m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070804}
+{"loss": 2.65740538, "grad_norm": 0.39475119, "learning_rate": 0.00093901, "token_acc": 0.45810364, "epoch": 0.18438252, "global_step/max_steps": "402/2181", "elapsed_time": "33m 58s", "remaining_time": "2h 30m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070702}
+{"loss": 2.68128872, "grad_norm": 0.43391493, "learning_rate": 0.00093865, "token_acc": 0.45652174, "epoch": 0.18484119, "global_step/max_steps": "403/2181", "elapsed_time": "34m 3s", "remaining_time": "2h 30m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070326}
+{"loss": 2.58376908, "grad_norm": 0.3941651, "learning_rate": 0.0009383, "token_acc": 0.47146335, "epoch": 0.18529985, "global_step/max_steps": "404/2181", "elapsed_time": "34m 9s", "remaining_time": "2h 30m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070935}
+{"loss": 2.66276145, "grad_norm": 0.4603819, "learning_rate": 0.00093794, "token_acc": 0.46695157, "epoch": 0.18575851, "global_step/max_steps": "405/2181", "elapsed_time": "34m 13s", "remaining_time": "2h 30m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070275}
+{"loss": 2.58717132, "grad_norm": 0.38656807, "learning_rate": 0.00093758, "token_acc": 0.46537162, "epoch": 0.18621718, "global_step/max_steps": "406/2181", "elapsed_time": "34m 18s", "remaining_time": "2h 29m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070136}
+{"loss": 2.5773263, "grad_norm": 0.41417626, "learning_rate": 0.00093722, "token_acc": 0.45640594, "epoch": 0.18667584, "global_step/max_steps": "407/2181", "elapsed_time": "34m 24s", "remaining_time": "2h 29m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070901}
+{"loss": 2.53313613, "grad_norm": 0.36353213, "learning_rate": 0.00093686, "token_acc": 0.46761769, "epoch": 0.1871345, "global_step/max_steps": "408/2181", "elapsed_time": "34m 30s", "remaining_time": "2h 29m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072801}
+{"loss": 2.55230474, "grad_norm": 0.3896268, "learning_rate": 0.0009365, "token_acc": 0.46537321, "epoch": 0.18759317, "global_step/max_steps": "409/2181", "elapsed_time": "34m 35s", "remaining_time": "2h 29m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072163}
+{"loss": 2.55041003, "grad_norm": 0.41582212, "learning_rate": 0.00093613, "token_acc": 0.45315965, "epoch": 0.18805183, "global_step/max_steps": "410/2181", "elapsed_time": "34m 40s", "remaining_time": "2h 29m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07242}
+{"loss": 2.70727777, "grad_norm": 0.409953, "learning_rate": 0.00093577, "token_acc": 0.43328592, "epoch": 0.18851049, "global_step/max_steps": "411/2181", "elapsed_time": "34m 45s", "remaining_time": "2h 29m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07215}
+{"loss": 2.55372715, "grad_norm": 0.41067618, "learning_rate": 0.00093541, "token_acc": 0.47304885, "epoch": 0.18896915, "global_step/max_steps": "412/2181", "elapsed_time": "34m 50s", "remaining_time": "2h 29m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072291}
+{"loss": 2.57317567, "grad_norm": 0.38499942, "learning_rate": 0.00093504, "token_acc": 0.47158303, "epoch": 0.18942782, "global_step/max_steps": "413/2181", "elapsed_time": "34m 55s", "remaining_time": "2h 29m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07257}
+{"loss": 2.68897557, "grad_norm": 0.37907168, "learning_rate": 0.00093467, "token_acc": 0.45875862, "epoch": 0.18988648, "global_step/max_steps": "414/2181", "elapsed_time": "34m 60s", "remaining_time": "2h 29m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071817}
+{"loss": 2.6290853, "grad_norm": 0.39538693, "learning_rate": 0.00093431, "token_acc": 0.46551258, "epoch": 0.19034514, "global_step/max_steps": "415/2181", "elapsed_time": "35m 5s", "remaining_time": "2h 29m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071132}
+{"loss": 2.64204359, "grad_norm": 0.40422353, "learning_rate": 0.00093394, "token_acc": 0.45647321, "epoch": 0.19080381, "global_step/max_steps": "416/2181", "elapsed_time": "35m 10s", "remaining_time": "2h 29m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07093}
+{"loss": 2.64114714, "grad_norm": 0.37957886, "learning_rate": 0.00093357, "token_acc": 0.45731707, "epoch": 0.19126247, "global_step/max_steps": "417/2181", "elapsed_time": "35m 14s", "remaining_time": "2h 29m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070451}
+{"loss": 2.71124172, "grad_norm": 0.3952778, "learning_rate": 0.0009332, "token_acc": 0.44758177, "epoch": 0.19172113, "global_step/max_steps": "418/2181", "elapsed_time": "35m 20s", "remaining_time": "2h 28m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070825}
+{"loss": 2.48080039, "grad_norm": 0.40379483, "learning_rate": 0.00093283, "token_acc": 0.49159305, "epoch": 0.1921798, "global_step/max_steps": "419/2181", "elapsed_time": "35m 24s", "remaining_time": "2h 28m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070394}
+{"loss": 2.57950711, "grad_norm": 0.4012737, "learning_rate": 0.00093245, "token_acc": 0.45902563, "epoch": 0.19263846, "global_step/max_steps": "420/2181", "elapsed_time": "35m 29s", "remaining_time": "2h 28m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070034}
+{"loss": 2.43808126, "grad_norm": 0.41823134, "learning_rate": 0.00093208, "token_acc": 0.47409255, "epoch": 0.19309712, "global_step/max_steps": "421/2181", "elapsed_time": "35m 34s", "remaining_time": "2h 28m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.069579}
+{"loss": 2.52270269, "grad_norm": 0.42139879, "learning_rate": 0.00093171, "token_acc": 0.45930724, "epoch": 0.19355578, "global_step/max_steps": "422/2181", "elapsed_time": "35m 39s", "remaining_time": "2h 28m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.06864}
+{"loss": 2.61903667, "grad_norm": 0.39327559, "learning_rate": 0.00093133, "token_acc": 0.45896919, "epoch": 0.19401445, "global_step/max_steps": "423/2181", "elapsed_time": "35m 44s", "remaining_time": "2h 28m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068287}
+{"loss": 2.60706973, "grad_norm": 0.40502116, "learning_rate": 0.00093096, "token_acc": 0.47392682, "epoch": 0.19447311, "global_step/max_steps": "424/2181", "elapsed_time": "35m 49s", "remaining_time": "2h 28m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068243}
+{"loss": 2.50362539, "grad_norm": 0.38943532, "learning_rate": 0.00093058, "token_acc": 0.46952084, "epoch": 0.19493177, "global_step/max_steps": "425/2181", "elapsed_time": "35m 54s", "remaining_time": "2h 28m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.067724}
+{"loss": 2.61753416, "grad_norm": 0.38276064, "learning_rate": 0.0009302, "token_acc": 0.45206635, "epoch": 0.19539044, "global_step/max_steps": "426/2181", "elapsed_time": "35m 59s", "remaining_time": "2h 28m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068767}
+{"loss": 2.65578079, "grad_norm": 0.40213633, "learning_rate": 0.00092982, "token_acc": 0.4506689, "epoch": 0.1958491, "global_step/max_steps": "427/2181", "elapsed_time": "36m 5s", "remaining_time": "2h 28m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.069145}
+{"loss": 2.56384659, "grad_norm": 0.41433522, "learning_rate": 0.00092944, "token_acc": 0.46851531, "epoch": 0.19630776, "global_step/max_steps": "428/2181", "elapsed_time": "36m 10s", "remaining_time": "2h 28m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.069072}
+{"loss": 2.5924089, "grad_norm": 0.38488567, "learning_rate": 0.00092906, "token_acc": 0.47608002, "epoch": 0.19676643, "global_step/max_steps": "429/2181", "elapsed_time": "36m 14s", "remaining_time": "2h 27m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068253}
+{"loss": 2.63982153, "grad_norm": 0.39620793, "learning_rate": 0.00092868, "token_acc": 0.46383774, "epoch": 0.19722509, "global_step/max_steps": "430/2181", "elapsed_time": "36m 20s", "remaining_time": "2h 27m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.06885}
+{"loss": 2.60809779, "grad_norm": 0.40524068, "learning_rate": 0.0009283, "token_acc": 0.46197664, "epoch": 0.19768375, "global_step/max_steps": "431/2181", "elapsed_time": "36m 25s", "remaining_time": "2h 27m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068797}
+{"loss": 2.64729071, "grad_norm": 0.38303396, "learning_rate": 0.00092791, "token_acc": 0.45981661, "epoch": 0.19814241, "global_step/max_steps": "432/2181", "elapsed_time": "36m 30s", "remaining_time": "2h 27m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068978}
+{"loss": 2.49266911, "grad_norm": 0.40610388, "learning_rate": 0.00092753, "token_acc": 0.47534517, "epoch": 0.19860108, "global_step/max_steps": "433/2181", "elapsed_time": "36m 35s", "remaining_time": "2h 27m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.069091}
+{"loss": 2.63136816, "grad_norm": 0.39528891, "learning_rate": 0.00092714, "token_acc": 0.46994688, "epoch": 0.19905974, "global_step/max_steps": "434/2181", "elapsed_time": "36m 40s", "remaining_time": "2h 27m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068747}
+{"loss": 2.59549809, "grad_norm": 0.41193047, "learning_rate": 0.00092676, "token_acc": 0.46956769, "epoch": 0.1995184, "global_step/max_steps": "435/2181", "elapsed_time": "36m 45s", "remaining_time": "2h 27m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068504}
+{"loss": 2.48550034, "grad_norm": 0.38796055, "learning_rate": 0.00092637, "token_acc": 0.47355093, "epoch": 0.19997707, "global_step/max_steps": "436/2181", "elapsed_time": "36m 50s", "remaining_time": "2h 27m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068605}
+{"loss": 2.54591179, "grad_norm": 0.38758653, "learning_rate": 0.00092598, "token_acc": 0.47536394, "epoch": 0.20043573, "global_step/max_steps": "437/2181", "elapsed_time": "36m 55s", "remaining_time": "2h 27m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068238}
+{"loss": 2.59119868, "grad_norm": 0.39099923, "learning_rate": 0.00092559, "token_acc": 0.46885054, "epoch": 0.20089439, "global_step/max_steps": "438/2181", "elapsed_time": "37m 0s", "remaining_time": "2h 27m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068559}
+{"loss": 2.48567224, "grad_norm": 0.39276612, "learning_rate": 0.0009252, "token_acc": 0.48118985, "epoch": 0.20135306, "global_step/max_steps": "439/2181", "elapsed_time": "37m 6s", "remaining_time": "2h 27m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.06948}
+{"loss": 2.53209448, "grad_norm": 0.37015328, "learning_rate": 0.00092481, "token_acc": 0.4796317, "epoch": 0.20181172, "global_step/max_steps": "440/2181", "elapsed_time": "37m 10s", "remaining_time": "2h 27m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.069173}
+{"loss": 2.51740265, "grad_norm": 0.37630865, "learning_rate": 0.00092442, "token_acc": 0.46622915, "epoch": 0.20227038, "global_step/max_steps": "441/2181", "elapsed_time": "37m 15s", "remaining_time": "2h 26m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.06859}
+{"loss": 2.55285811, "grad_norm": 0.37395141, "learning_rate": 0.00092402, "token_acc": 0.4646861, "epoch": 0.20272904, "global_step/max_steps": "442/2181", "elapsed_time": "37m 20s", "remaining_time": "2h 26m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.06869}
+{"loss": 2.5438807, "grad_norm": 0.37830347, "learning_rate": 0.00092363, "token_acc": 0.47744257, "epoch": 0.20318771, "global_step/max_steps": "443/2181", "elapsed_time": "37m 25s", "remaining_time": "2h 26m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068169}
+{"loss": 2.56563306, "grad_norm": 0.388266, "learning_rate": 0.00092324, "token_acc": 0.46824104, "epoch": 0.20364637, "global_step/max_steps": "444/2181", "elapsed_time": "37m 30s", "remaining_time": "2h 26m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.068409}
+{"loss": 2.64594722, "grad_norm": 0.40323275, "learning_rate": 0.00092284, "token_acc": 0.44911504, "epoch": 0.20410503, "global_step/max_steps": "445/2181", "elapsed_time": "37m 36s", "remaining_time": "2h 26m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.069612}
+{"loss": 2.527318, "grad_norm": 0.40900236, "learning_rate": 0.00092244, "token_acc": 0.46495726, "epoch": 0.2045637, "global_step/max_steps": "446/2181", "elapsed_time": "37m 41s", "remaining_time": "2h 26m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070088}
+{"loss": 2.63728118, "grad_norm": 0.40271682, "learning_rate": 0.00092204, "token_acc": 0.45970901, "epoch": 0.20502236, "global_step/max_steps": "447/2181", "elapsed_time": "37m 46s", "remaining_time": "2h 26m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.06953}
+{"loss": 2.49731517, "grad_norm": 0.38126534, "learning_rate": 0.00092165, "token_acc": 0.47851894, "epoch": 0.20548102, "global_step/max_steps": "448/2181", "elapsed_time": "37m 52s", "remaining_time": "2h 26m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070639}
+{"loss": 2.52083683, "grad_norm": 0.4018206, "learning_rate": 0.00092125, "token_acc": 0.46308908, "epoch": 0.20593969, "global_step/max_steps": "449/2181", "elapsed_time": "37m 57s", "remaining_time": "2h 26m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071647}
+{"loss": 2.67490673, "grad_norm": 0.3783035, "learning_rate": 0.00092085, "token_acc": 0.44304506, "epoch": 0.20639835, "global_step/max_steps": "450/2181", "elapsed_time": "38m 2s", "remaining_time": "2h 26m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070917}
+{"loss": 2.58984327, "grad_norm": 0.4397307, "learning_rate": 0.00092044, "token_acc": 0.46452169, "epoch": 0.20685701, "global_step/max_steps": "451/2181", "elapsed_time": "38m 7s", "remaining_time": "2h 26m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070283}
+{"loss": 2.54342175, "grad_norm": 0.40967104, "learning_rate": 0.00092004, "token_acc": 0.46950875, "epoch": 0.20731567, "global_step/max_steps": "452/2181", "elapsed_time": "38m 12s", "remaining_time": "2h 26m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070384}
+{"loss": 2.63831043, "grad_norm": 0.40374354, "learning_rate": 0.00091964, "token_acc": 0.44987641, "epoch": 0.20777434, "global_step/max_steps": "453/2181", "elapsed_time": "38m 17s", "remaining_time": "2h 26m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070229}
+{"loss": 2.59558272, "grad_norm": 0.41058737, "learning_rate": 0.00091923, "token_acc": 0.47307256, "epoch": 0.208233, "global_step/max_steps": "454/2181", "elapsed_time": "38m 22s", "remaining_time": "2h 25m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070455}
+{"loss": 2.48787284, "grad_norm": 0.37560272, "learning_rate": 0.00091883, "token_acc": 0.46722872, "epoch": 0.20869166, "global_step/max_steps": "455/2181", "elapsed_time": "38m 27s", "remaining_time": "2h 25m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070959}
+{"loss": 2.50667906, "grad_norm": 0.38842866, "learning_rate": 0.00091842, "token_acc": 0.47288913, "epoch": 0.20915033, "global_step/max_steps": "456/2181", "elapsed_time": "38m 33s", "remaining_time": "2h 25m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071317}
+{"loss": 2.58673906, "grad_norm": 0.39311606, "learning_rate": 0.00091802, "token_acc": 0.44998652, "epoch": 0.20960899, "global_step/max_steps": "457/2181", "elapsed_time": "38m 38s", "remaining_time": "2h 25m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072007}
+{"loss": 2.5872972, "grad_norm": 0.41282862, "learning_rate": 0.00091761, "token_acc": 0.4700734, "epoch": 0.21006765, "global_step/max_steps": "458/2181", "elapsed_time": "38m 43s", "remaining_time": "2h 25m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071368}
+{"loss": 2.55024886, "grad_norm": 0.39998892, "learning_rate": 0.0009172, "token_acc": 0.48544233, "epoch": 0.21052632, "global_step/max_steps": "459/2181", "elapsed_time": "38m 47s", "remaining_time": "2h 25m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070734}
+{"loss": 2.6032691, "grad_norm": 0.4225024, "learning_rate": 0.00091679, "token_acc": 0.46368243, "epoch": 0.21098498, "global_step/max_steps": "460/2181", "elapsed_time": "38m 53s", "remaining_time": "2h 25m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070686}
+{"loss": 2.69077516, "grad_norm": 0.4170748, "learning_rate": 0.00091638, "token_acc": 0.45497368, "epoch": 0.21144364, "global_step/max_steps": "461/2181", "elapsed_time": "38m 58s", "remaining_time": "2h 25m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072129}
+{"loss": 2.61680317, "grad_norm": 0.37248564, "learning_rate": 0.00091597, "token_acc": 0.45827519, "epoch": 0.2119023, "global_step/max_steps": "462/2181", "elapsed_time": "39m 3s", "remaining_time": "2h 25m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071495}
+{"loss": 2.50241256, "grad_norm": 0.41370907, "learning_rate": 0.00091555, "token_acc": 0.47983193, "epoch": 0.21236097, "global_step/max_steps": "463/2181", "elapsed_time": "39m 8s", "remaining_time": "2h 25m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071525}
+{"loss": 2.52192402, "grad_norm": 0.38396579, "learning_rate": 0.00091514, "token_acc": 0.46881346, "epoch": 0.21281963, "global_step/max_steps": "464/2181", "elapsed_time": "39m 13s", "remaining_time": "2h 25m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070799}
+{"loss": 2.4753499, "grad_norm": 0.39594194, "learning_rate": 0.00091473, "token_acc": 0.49034216, "epoch": 0.21327829, "global_step/max_steps": "465/2181", "elapsed_time": "39m 18s", "remaining_time": "2h 25m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071147}
+{"loss": 2.55612993, "grad_norm": 0.37247622, "learning_rate": 0.00091431, "token_acc": 0.46510981, "epoch": 0.21373696, "global_step/max_steps": "466/2181", "elapsed_time": "39m 23s", "remaining_time": "2h 24m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07072}
+{"loss": 2.49642229, "grad_norm": 0.37519979, "learning_rate": 0.00091389, "token_acc": 0.47304544, "epoch": 0.21419562, "global_step/max_steps": "467/2181", "elapsed_time": "39m 29s", "remaining_time": "2h 24m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072313}
+{"loss": 2.60457039, "grad_norm": 0.40059486, "learning_rate": 0.00091348, "token_acc": 0.46394634, "epoch": 0.21465428, "global_step/max_steps": "468/2181", "elapsed_time": "39m 34s", "remaining_time": "2h 24m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072096}
+{"loss": 2.50339341, "grad_norm": 0.40457994, "learning_rate": 0.00091306, "token_acc": 0.47127087, "epoch": 0.21511295, "global_step/max_steps": "469/2181", "elapsed_time": "39m 38s", "remaining_time": "2h 24m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071235}
+{"loss": 2.536937, "grad_norm": 0.39451906, "learning_rate": 0.00091264, "token_acc": 0.45927117, "epoch": 0.21557161, "global_step/max_steps": "470/2181", "elapsed_time": "39m 44s", "remaining_time": "2h 24m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072551}
+{"loss": 2.56728649, "grad_norm": 0.40967715, "learning_rate": 0.00091222, "token_acc": 0.46807902, "epoch": 0.21603027, "global_step/max_steps": "471/2181", "elapsed_time": "39m 49s", "remaining_time": "2h 24m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072514}
+{"loss": 2.69490337, "grad_norm": 0.4372741, "learning_rate": 0.0009118, "token_acc": 0.44697834, "epoch": 0.21648893, "global_step/max_steps": "472/2181", "elapsed_time": "39m 54s", "remaining_time": "2h 24m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072383}
+{"loss": 2.52006698, "grad_norm": 0.36102235, "learning_rate": 0.00091138, "token_acc": 0.4741988, "epoch": 0.2169476, "global_step/max_steps": "473/2181", "elapsed_time": "39m 59s", "remaining_time": "2h 24m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072511}
+{"loss": 2.48642731, "grad_norm": 0.37215966, "learning_rate": 0.00091096, "token_acc": 0.48077463, "epoch": 0.21740626, "global_step/max_steps": "474/2181", "elapsed_time": "40m 4s", "remaining_time": "2h 24m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071746}
+{"loss": 2.72774243, "grad_norm": 0.42098984, "learning_rate": 0.00091053, "token_acc": 0.45479603, "epoch": 0.21786492, "global_step/max_steps": "475/2181", "elapsed_time": "40m 9s", "remaining_time": "2h 24m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072161}
+{"loss": 2.47724843, "grad_norm": 0.41538456, "learning_rate": 0.00091011, "token_acc": 0.48614319, "epoch": 0.21832359, "global_step/max_steps": "476/2181", "elapsed_time": "40m 15s", "remaining_time": "2h 24m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072494}
+{"loss": 2.50660706, "grad_norm": 0.41074193, "learning_rate": 0.00090968, "token_acc": 0.47518355, "epoch": 0.21878225, "global_step/max_steps": "477/2181", "elapsed_time": "40m 20s", "remaining_time": "2h 24m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07234}
+{"loss": 2.50290394, "grad_norm": 0.40741479, "learning_rate": 0.00090926, "token_acc": 0.46361862, "epoch": 0.21924091, "global_step/max_steps": "478/2181", "elapsed_time": "40m 24s", "remaining_time": "2h 23m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071921}
+{"loss": 2.51852822, "grad_norm": 0.40847734, "learning_rate": 0.00090883, "token_acc": 0.46970978, "epoch": 0.21969958, "global_step/max_steps": "479/2181", "elapsed_time": "40m 29s", "remaining_time": "2h 23m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071165}
+{"loss": 2.64271688, "grad_norm": 0.38761747, "learning_rate": 0.0009084, "token_acc": 0.4406682, "epoch": 0.22015824, "global_step/max_steps": "480/2181", "elapsed_time": "40m 34s", "remaining_time": "2h 23m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070836}
+{"loss": 2.65343237, "grad_norm": 0.35659921, "learning_rate": 0.00090797, "token_acc": 0.46255388, "epoch": 0.2206169, "global_step/max_steps": "481/2181", "elapsed_time": "40m 40s", "remaining_time": "2h 23m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072003}
+{"loss": 2.58541489, "grad_norm": 0.37812802, "learning_rate": 0.00090754, "token_acc": 0.45847554, "epoch": 0.22107556, "global_step/max_steps": "482/2181", "elapsed_time": "40m 44s", "remaining_time": "2h 23m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071428}
+{"loss": 2.53713942, "grad_norm": 0.38186547, "learning_rate": 0.00090711, "token_acc": 0.4754289, "epoch": 0.22153423, "global_step/max_steps": "483/2181", "elapsed_time": "40m 49s", "remaining_time": "2h 23m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071218}
+{"loss": 2.66229868, "grad_norm": 0.36289218, "learning_rate": 0.00090668, "token_acc": 0.45236123, "epoch": 0.22199289, "global_step/max_steps": "484/2181", "elapsed_time": "40m 54s", "remaining_time": "2h 23m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070974}
+{"loss": 2.46626973, "grad_norm": 0.35686016, "learning_rate": 0.00090625, "token_acc": 0.47190083, "epoch": 0.22245155, "global_step/max_steps": "485/2181", "elapsed_time": "40m 59s", "remaining_time": "2h 23m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070904}
+{"loss": 2.57779217, "grad_norm": 0.40332249, "learning_rate": 0.00090581, "token_acc": 0.47014493, "epoch": 0.22291022, "global_step/max_steps": "486/2181", "elapsed_time": "41m 4s", "remaining_time": "2h 23m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070338}
+{"loss": 2.51785088, "grad_norm": 0.413957, "learning_rate": 0.00090538, "token_acc": 0.47286822, "epoch": 0.22336888, "global_step/max_steps": "487/2181", "elapsed_time": "41m 10s", "remaining_time": "2h 23m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070941}
+{"loss": 2.56631517, "grad_norm": 0.39748469, "learning_rate": 0.00090494, "token_acc": 0.46067416, "epoch": 0.22382754, "global_step/max_steps": "488/2181", "elapsed_time": "41m 14s", "remaining_time": "2h 23m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070419}
+{"loss": 2.46694016, "grad_norm": 0.42345956, "learning_rate": 0.00090451, "token_acc": 0.48572261, "epoch": 0.22428621, "global_step/max_steps": "489/2181", "elapsed_time": "41m 20s", "remaining_time": "2h 22m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070865}
+{"loss": 2.54627204, "grad_norm": 0.36652598, "learning_rate": 0.00090407, "token_acc": 0.47050562, "epoch": 0.22474487, "global_step/max_steps": "490/2181", "elapsed_time": "41m 25s", "remaining_time": "2h 22m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071177}
+{"loss": 2.53145313, "grad_norm": 0.37157562, "learning_rate": 0.00090363, "token_acc": 0.47218378, "epoch": 0.22520353, "global_step/max_steps": "491/2181", "elapsed_time": "41m 30s", "remaining_time": "2h 22m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.070751}
+{"loss": 2.65904474, "grad_norm": 0.3927708, "learning_rate": 0.00090319, "token_acc": 0.4602533, "epoch": 0.22566219, "global_step/max_steps": "492/2181", "elapsed_time": "41m 35s", "remaining_time": "2h 22m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.071681}
+{"loss": 2.54257822, "grad_norm": 0.3616809, "learning_rate": 0.00090276, "token_acc": 0.45703015, "epoch": 0.22612086, "global_step/max_steps": "493/2181", "elapsed_time": "41m 41s", "remaining_time": "2h 22m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072261}
+{"loss": 2.59124732, "grad_norm": 0.37716666, "learning_rate": 0.00090231, "token_acc": 0.46091569, "epoch": 0.22657952, "global_step/max_steps": "494/2181", "elapsed_time": "41m 46s", "remaining_time": "2h 22m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072035}
+{"loss": 2.52838111, "grad_norm": 0.38520414, "learning_rate": 0.00090187, "token_acc": 0.47557552, "epoch": 0.22703818, "global_step/max_steps": "495/2181", "elapsed_time": "41m 51s", "remaining_time": "2h 22m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073204}
+{"loss": 2.68462324, "grad_norm": 0.39335096, "learning_rate": 0.00090143, "token_acc": 0.45652782, "epoch": 0.22749685, "global_step/max_steps": "496/2181", "elapsed_time": "41m 56s", "remaining_time": "2h 22m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.072816}
+{"loss": 2.55084038, "grad_norm": 0.33525667, "learning_rate": 0.00090099, "token_acc": 0.46401719, "epoch": 0.22795551, "global_step/max_steps": "497/2181", "elapsed_time": "42m 1s", "remaining_time": "2h 22m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073241}
+{"loss": 2.55629396, "grad_norm": 0.39495301, "learning_rate": 0.00090054, "token_acc": 0.47326049, "epoch": 0.22841417, "global_step/max_steps": "498/2181", "elapsed_time": "42m 6s", "remaining_time": "2h 22m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073037}
+{"loss": 2.53153086, "grad_norm": 0.35019556, "learning_rate": 0.0009001, "token_acc": 0.46990291, "epoch": 0.22887284, "global_step/max_steps": "499/2181", "elapsed_time": "42m 12s", "remaining_time": "2h 22m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.073551}
+{"loss": 2.61581564, "grad_norm": 0.39436436, "learning_rate": 0.00089965, "token_acc": 0.45334458, "epoch": 0.2293315, "global_step/max_steps": "500/2181", "elapsed_time": "42m 17s", "remaining_time": "2h 22m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.07348}
+{"loss": 2.60095978, "grad_norm": 0.36251503, "learning_rate": 0.00089921, "token_acc": 0.46227477, "epoch": 0.22979016, "global_step/max_steps": "501/2181", "elapsed_time": "42m 49s", "remaining_time": "2h 23m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128549}
+{"loss": 2.46051645, "grad_norm": 0.37933078, "learning_rate": 0.00089876, "token_acc": 0.48740659, "epoch": 0.23024882, "global_step/max_steps": "502/2181", "elapsed_time": "42m 54s", "remaining_time": "2h 23m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128352}
+{"loss": 2.53932762, "grad_norm": 0.43456909, "learning_rate": 0.00089831, "token_acc": 0.4740762, "epoch": 0.23070749, "global_step/max_steps": "503/2181", "elapsed_time": "42m 60s", "remaining_time": "2h 23m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128929}
+{"loss": 2.65598536, "grad_norm": 0.39616418, "learning_rate": 0.00089786, "token_acc": 0.45963616, "epoch": 0.23116615, "global_step/max_steps": "504/2181", "elapsed_time": "43m 4s", "remaining_time": "2h 23m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.127949}
+{"loss": 2.65285873, "grad_norm": 0.41494393, "learning_rate": 0.00089741, "token_acc": 0.44761905, "epoch": 0.23162481, "global_step/max_steps": "505/2181", "elapsed_time": "43m 10s", "remaining_time": "2h 23m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1278}
+{"loss": 2.57191992, "grad_norm": 0.37394023, "learning_rate": 0.00089696, "token_acc": 0.45697897, "epoch": 0.23208348, "global_step/max_steps": "506/2181", "elapsed_time": "43m 15s", "remaining_time": "2h 23m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.127512}
+{"loss": 2.5865469, "grad_norm": 0.36243469, "learning_rate": 0.00089651, "token_acc": 0.45115502, "epoch": 0.23254214, "global_step/max_steps": "507/2181", "elapsed_time": "43m 20s", "remaining_time": "2h 23m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.127759}
+{"loss": 2.49934053, "grad_norm": 0.38855037, "learning_rate": 0.00089605, "token_acc": 0.47812761, "epoch": 0.2330008, "global_step/max_steps": "508/2181", "elapsed_time": "43m 25s", "remaining_time": "2h 22m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.127607}
+{"loss": 2.57938957, "grad_norm": 0.38627622, "learning_rate": 0.0008956, "token_acc": 0.46044394, "epoch": 0.23345947, "global_step/max_steps": "509/2181", "elapsed_time": "43m 30s", "remaining_time": "2h 22m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128054}
+{"loss": 2.52667522, "grad_norm": 0.37715065, "learning_rate": 0.00089515, "token_acc": 0.47380346, "epoch": 0.23391813, "global_step/max_steps": "510/2181", "elapsed_time": "43m 35s", "remaining_time": "2h 22m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128202}
+{"loss": 2.64495611, "grad_norm": 0.36625645, "learning_rate": 0.00089469, "token_acc": 0.4614522, "epoch": 0.23437679, "global_step/max_steps": "511/2181", "elapsed_time": "43m 40s", "remaining_time": "2h 22m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128147}
+{"loss": 2.60667086, "grad_norm": 0.38322479, "learning_rate": 0.00089423, "token_acc": 0.46387727, "epoch": 0.23483545, "global_step/max_steps": "512/2181", "elapsed_time": "43m 45s", "remaining_time": "2h 22m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.127165}
+{"loss": 2.44125271, "grad_norm": 0.37095985, "learning_rate": 0.00089378, "token_acc": 0.48018458, "epoch": 0.23529412, "global_step/max_steps": "513/2181", "elapsed_time": "43m 51s", "remaining_time": "2h 22m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.127738}
+{"loss": 2.56494975, "grad_norm": 0.38569653, "learning_rate": 0.00089332, "token_acc": 0.46852749, "epoch": 0.23575278, "global_step/max_steps": "514/2181", "elapsed_time": "43m 56s", "remaining_time": "2h 22m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128921}
+{"loss": 2.57009244, "grad_norm": 0.35009164, "learning_rate": 0.00089286, "token_acc": 0.46950393, "epoch": 0.23621144, "global_step/max_steps": "515/2181", "elapsed_time": "44m 1s", "remaining_time": "2h 22m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128512}
+{"loss": 2.52071619, "grad_norm": 0.3781985, "learning_rate": 0.0008924, "token_acc": 0.48725762, "epoch": 0.23667011, "global_step/max_steps": "516/2181", "elapsed_time": "44m 6s", "remaining_time": "2h 22m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.127896}
+{"loss": 2.50102329, "grad_norm": 0.35876727, "learning_rate": 0.00089194, "token_acc": 0.47589336, "epoch": 0.23712877, "global_step/max_steps": "517/2181", "elapsed_time": "44m 11s", "remaining_time": "2h 22m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.127638}
+{"loss": 2.51909709, "grad_norm": 0.3881554, "learning_rate": 0.00089148, "token_acc": 0.47036824, "epoch": 0.23758743, "global_step/max_steps": "518/2181", "elapsed_time": "44m 17s", "remaining_time": "2h 22m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128598}
+{"loss": 2.65484953, "grad_norm": 0.37011689, "learning_rate": 0.00089101, "token_acc": 0.44730425, "epoch": 0.2380461, "global_step/max_steps": "519/2181", "elapsed_time": "44m 22s", "remaining_time": "2h 22m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1286}
+{"loss": 2.53547525, "grad_norm": 0.36297929, "learning_rate": 0.00089055, "token_acc": 0.45658642, "epoch": 0.23850476, "global_step/max_steps": "520/2181", "elapsed_time": "44m 27s", "remaining_time": "2h 21m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.129041}
+{"loss": 2.5720911, "grad_norm": 0.36301696, "learning_rate": 0.00089009, "token_acc": 0.46868251, "epoch": 0.23896342, "global_step/max_steps": "521/2181", "elapsed_time": "44m 32s", "remaining_time": "2h 21m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128935}
+{"loss": 2.56395626, "grad_norm": 0.39043733, "learning_rate": 0.00088962, "token_acc": 0.46942857, "epoch": 0.23942208, "global_step/max_steps": "522/2181", "elapsed_time": "44m 38s", "remaining_time": "2h 21m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.129695}
+{"loss": 2.49636483, "grad_norm": 0.36818987, "learning_rate": 0.00088916, "token_acc": 0.49330675, "epoch": 0.23988075, "global_step/max_steps": "523/2181", "elapsed_time": "44m 43s", "remaining_time": "2h 21m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.130029}
+{"loss": 2.6094718, "grad_norm": 0.36865079, "learning_rate": 0.00088869, "token_acc": 0.46915939, "epoch": 0.24033941, "global_step/max_steps": "524/2181", "elapsed_time": "44m 48s", "remaining_time": "2h 21m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.130073}
+{"loss": 2.60311007, "grad_norm": 0.37248772, "learning_rate": 0.00088822, "token_acc": 0.45375972, "epoch": 0.24079807, "global_step/max_steps": "525/2181", "elapsed_time": "44m 53s", "remaining_time": "2h 21m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.129855}
+{"loss": 2.5074625, "grad_norm": 0.36860356, "learning_rate": 0.00088775, "token_acc": 0.47426869, "epoch": 0.24125674, "global_step/max_steps": "526/2181", "elapsed_time": "44m 58s", "remaining_time": "2h 21m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.129798}
+{"loss": 2.56071472, "grad_norm": 0.37370732, "learning_rate": 0.00088728, "token_acc": 0.47272727, "epoch": 0.2417154, "global_step/max_steps": "527/2181", "elapsed_time": "45m 3s", "remaining_time": "2h 21m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128961}
+{"loss": 2.53151369, "grad_norm": 0.38415617, "learning_rate": 0.00088681, "token_acc": 0.46878515, "epoch": 0.24217406, "global_step/max_steps": "528/2181", "elapsed_time": "45m 8s", "remaining_time": "2h 21m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.128457}
+{"loss": 2.55188918, "grad_norm": 0.36869848, "learning_rate": 0.00088634, "token_acc": 0.46661031, "epoch": 0.24263273, "global_step/max_steps": "529/2181", "elapsed_time": "45m 13s", "remaining_time": "2h 21m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.127868}
+{"loss": 2.49533367, "grad_norm": 0.39339513, "learning_rate": 0.00088587, "token_acc": 0.4820921, "epoch": 0.24309139, "global_step/max_steps": "530/2181", "elapsed_time": "45m 17s", "remaining_time": "2h 21m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.12697}
+{"loss": 2.59977102, "grad_norm": 0.40007684, "learning_rate": 0.0008854, "token_acc": 0.46636896, "epoch": 0.24355005, "global_step/max_steps": "531/2181", "elapsed_time": "45m 22s", "remaining_time": "2h 20m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.126672}
+{"loss": 2.59647918, "grad_norm": 0.39639094, "learning_rate": 0.00088493, "token_acc": 0.46296834, "epoch": 0.24400871, "global_step/max_steps": "532/2181", "elapsed_time": "45m 27s", "remaining_time": "2h 20m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.126492}
+{"loss": 2.49264288, "grad_norm": 0.36057886, "learning_rate": 0.00088445, "token_acc": 0.4758133, "epoch": 0.24446738, "global_step/max_steps": "533/2181", "elapsed_time": "45m 32s", "remaining_time": "2h 20m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.126071}
+{"loss": 2.66298866, "grad_norm": 0.36214277, "learning_rate": 0.00088398, "token_acc": 0.44728171, "epoch": 0.24492604, "global_step/max_steps": "534/2181", "elapsed_time": "45m 37s", "remaining_time": "2h 20m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.125177}
+{"loss": 2.55001283, "grad_norm": 0.37312353, "learning_rate": 0.0008835, "token_acc": 0.46436588, "epoch": 0.2453847, "global_step/max_steps": "535/2181", "elapsed_time": "45m 42s", "remaining_time": "2h 20m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.125417}
+{"loss": 2.49340487, "grad_norm": 0.36593518, "learning_rate": 0.00088302, "token_acc": 0.48173713, "epoch": 0.24584337, "global_step/max_steps": "536/2181", "elapsed_time": "45m 47s", "remaining_time": "2h 20m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.125315}
+{"loss": 2.57529354, "grad_norm": 0.36594492, "learning_rate": 0.00088254, "token_acc": 0.46644389, "epoch": 0.24630203, "global_step/max_steps": "537/2181", "elapsed_time": "45m 52s", "remaining_time": "2h 20m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.124715}
+{"loss": 2.57977915, "grad_norm": 0.40934575, "learning_rate": 0.00088207, "token_acc": 0.47110078, "epoch": 0.24676069, "global_step/max_steps": "538/2181", "elapsed_time": "45m 57s", "remaining_time": "2h 20m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.124454}
+{"loss": 2.41391516, "grad_norm": 0.37808394, "learning_rate": 0.00088159, "token_acc": 0.49858357, "epoch": 0.24721936, "global_step/max_steps": "539/2181", "elapsed_time": "46m 2s", "remaining_time": "2h 20m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.124034}
+{"loss": 2.60561585, "grad_norm": 0.37160841, "learning_rate": 0.00088111, "token_acc": 0.46659483, "epoch": 0.24767802, "global_step/max_steps": "540/2181", "elapsed_time": "46m 7s", "remaining_time": "2h 20m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.123945}
+{"loss": 2.50867629, "grad_norm": 0.35736153, "learning_rate": 0.00088062, "token_acc": 0.47943262, "epoch": 0.24813668, "global_step/max_steps": "541/2181", "elapsed_time": "46m 12s", "remaining_time": "2h 20m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.124103}
+{"loss": 2.45621586, "grad_norm": 0.34393007, "learning_rate": 0.00088014, "token_acc": 0.4846091, "epoch": 0.24859534, "global_step/max_steps": "542/2181", "elapsed_time": "46m 17s", "remaining_time": "2h 19m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.123874}
+{"loss": 2.52110171, "grad_norm": 0.33539706, "learning_rate": 0.00087966, "token_acc": 0.46258685, "epoch": 0.24905401, "global_step/max_steps": "543/2181", "elapsed_time": "46m 23s", "remaining_time": "2h 19m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.124726}
+{"loss": 2.52155161, "grad_norm": 0.34639949, "learning_rate": 0.00087918, "token_acc": 0.46896178, "epoch": 0.24951267, "global_step/max_steps": "544/2181", "elapsed_time": "46m 28s", "remaining_time": "2h 19m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.124522}
+{"loss": 2.48661041, "grad_norm": 0.35912296, "learning_rate": 0.00087869, "token_acc": 0.45982659, "epoch": 0.24997133, "global_step/max_steps": "545/2181", "elapsed_time": "46m 33s", "remaining_time": "2h 19m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.124105}
+{"loss": 2.72449589, "grad_norm": 0.43533388, "learning_rate": 0.00087821, "token_acc": 0.45994318, "epoch": 0.25043, "global_step/max_steps": "546/2181", "elapsed_time": "46m 37s", "remaining_time": "2h 19m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.12344}
+{"loss": 2.54464149, "grad_norm": 0.35860515, "learning_rate": 0.00087772, "token_acc": 0.4735399, "epoch": 0.25088866, "global_step/max_steps": "547/2181", "elapsed_time": "46m 43s", "remaining_time": "2h 19m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.123606}
+{"loss": 2.45957279, "grad_norm": 0.37407002, "learning_rate": 0.00087723, "token_acc": 0.48616491, "epoch": 0.25134732, "global_step/max_steps": "548/2181", "elapsed_time": "46m 47s", "remaining_time": "2h 19m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.123014}
+{"loss": 2.58609486, "grad_norm": 0.37593338, "learning_rate": 0.00087675, "token_acc": 0.4653857, "epoch": 0.25180599, "global_step/max_steps": "549/2181", "elapsed_time": "46m 52s", "remaining_time": "2h 19m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.122526}
+{"loss": 2.63877749, "grad_norm": 0.38401994, "learning_rate": 0.00087626, "token_acc": 0.46176952, "epoch": 0.25226465, "global_step/max_steps": "550/2181", "elapsed_time": "46m 57s", "remaining_time": "2h 19m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.121732}
+{"loss": 2.58305621, "grad_norm": 0.40009695, "learning_rate": 0.00087577, "token_acc": 0.46976211, "epoch": 0.25272331, "global_step/max_steps": "551/2181", "elapsed_time": "47m 2s", "remaining_time": "2h 19m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.120744}
+{"loss": 2.47789288, "grad_norm": 0.38633624, "learning_rate": 0.00087528, "token_acc": 0.47528409, "epoch": 0.25318197, "global_step/max_steps": "552/2181", "elapsed_time": "47m 7s", "remaining_time": "2h 19m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.120478}
+{"loss": 2.53223133, "grad_norm": 0.37375119, "learning_rate": 0.00087479, "token_acc": 0.46778174, "epoch": 0.25364064, "global_step/max_steps": "553/2181", "elapsed_time": "47m 11s", "remaining_time": "2h 18m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.120024}
+{"loss": 2.50194883, "grad_norm": 0.38238892, "learning_rate": 0.00087429, "token_acc": 0.47587899, "epoch": 0.2540993, "global_step/max_steps": "554/2181", "elapsed_time": "47m 17s", "remaining_time": "2h 18m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.120445}
+{"loss": 2.39180374, "grad_norm": 0.39181137, "learning_rate": 0.0008738, "token_acc": 0.48859749, "epoch": 0.25455796, "global_step/max_steps": "555/2181", "elapsed_time": "47m 22s", "remaining_time": "2h 18m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119959}
+{"loss": 2.5768404, "grad_norm": 0.50726098, "learning_rate": 0.00087331, "token_acc": 0.47632235, "epoch": 0.25501663, "global_step/max_steps": "556/2181", "elapsed_time": "47m 27s", "remaining_time": "2h 18m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.120236}
+{"loss": 2.54676294, "grad_norm": 0.38675588, "learning_rate": 0.00087281, "token_acc": 0.47323634, "epoch": 0.25547529, "global_step/max_steps": "557/2181", "elapsed_time": "47m 32s", "remaining_time": "2h 18m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119785}
+{"loss": 2.56024408, "grad_norm": 0.36466345, "learning_rate": 0.00087232, "token_acc": 0.45951359, "epoch": 0.25593395, "global_step/max_steps": "558/2181", "elapsed_time": "47m 37s", "remaining_time": "2h 18m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119471}
+{"loss": 2.47810054, "grad_norm": 0.35234162, "learning_rate": 0.00087182, "token_acc": 0.47984212, "epoch": 0.25639262, "global_step/max_steps": "559/2181", "elapsed_time": "47m 42s", "remaining_time": "2h 18m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119712}
+{"loss": 2.5952363, "grad_norm": 0.37327385, "learning_rate": 0.00087132, "token_acc": 0.45897001, "epoch": 0.25685128, "global_step/max_steps": "560/2181", "elapsed_time": "47m 47s", "remaining_time": "2h 18m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119374}
+{"loss": 2.56616831, "grad_norm": 0.35195071, "learning_rate": 0.00087083, "token_acc": 0.46342158, "epoch": 0.25730994, "global_step/max_steps": "561/2181", "elapsed_time": "47m 52s", "remaining_time": "2h 18m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118939}
+{"loss": 2.48651648, "grad_norm": 0.40047842, "learning_rate": 0.00087033, "token_acc": 0.48754652, "epoch": 0.2577686, "global_step/max_steps": "562/2181", "elapsed_time": "47m 57s", "remaining_time": "2h 18m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119307}
+{"loss": 2.57398582, "grad_norm": 0.35627815, "learning_rate": 0.00086983, "token_acc": 0.47561995, "epoch": 0.25822727, "global_step/max_steps": "563/2181", "elapsed_time": "48m 2s", "remaining_time": "2h 18m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118819}
+{"loss": 2.57031059, "grad_norm": 0.38454264, "learning_rate": 0.00086933, "token_acc": 0.46702068, "epoch": 0.25868593, "global_step/max_steps": "564/2181", "elapsed_time": "48m 7s", "remaining_time": "2h 17m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118506}
+{"loss": 2.52306271, "grad_norm": 0.39642453, "learning_rate": 0.00086883, "token_acc": 0.46742762, "epoch": 0.25914459, "global_step/max_steps": "565/2181", "elapsed_time": "48m 12s", "remaining_time": "2h 17m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118172}
+{"loss": 2.50241351, "grad_norm": 0.37170696, "learning_rate": 0.00086832, "token_acc": 0.47140094, "epoch": 0.25960326, "global_step/max_steps": "566/2181", "elapsed_time": "48m 17s", "remaining_time": "2h 17m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118476}
+{"loss": 2.56876397, "grad_norm": 0.34935045, "learning_rate": 0.00086782, "token_acc": 0.46895075, "epoch": 0.26006192, "global_step/max_steps": "567/2181", "elapsed_time": "48m 22s", "remaining_time": "2h 17m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118576}
+{"loss": 2.52121711, "grad_norm": 0.36008641, "learning_rate": 0.00086732, "token_acc": 0.46177628, "epoch": 0.26052058, "global_step/max_steps": "568/2181", "elapsed_time": "48m 27s", "remaining_time": "2h 17m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118627}
+{"loss": 2.44964695, "grad_norm": 0.36888656, "learning_rate": 0.00086681, "token_acc": 0.48809865, "epoch": 0.26097925, "global_step/max_steps": "569/2181", "elapsed_time": "48m 33s", "remaining_time": "2h 17m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118751}
+{"loss": 2.57804966, "grad_norm": 0.42657521, "learning_rate": 0.00086631, "token_acc": 0.47192588, "epoch": 0.26143791, "global_step/max_steps": "570/2181", "elapsed_time": "48m 38s", "remaining_time": "2h 17m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11878}
+{"loss": 2.71644139, "grad_norm": 0.38386947, "learning_rate": 0.0008658, "token_acc": 0.44920545, "epoch": 0.26189657, "global_step/max_steps": "571/2181", "elapsed_time": "48m 43s", "remaining_time": "2h 17m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118919}
+{"loss": 2.38936663, "grad_norm": 0.35093525, "learning_rate": 0.0008653, "token_acc": 0.49279304, "epoch": 0.26235523, "global_step/max_steps": "572/2181", "elapsed_time": "48m 48s", "remaining_time": "2h 17m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118861}
+{"loss": 2.52335548, "grad_norm": 0.34432763, "learning_rate": 0.00086479, "token_acc": 0.47925142, "epoch": 0.2628139, "global_step/max_steps": "573/2181", "elapsed_time": "48m 53s", "remaining_time": "2h 17m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.119089}
+{"loss": 2.54301739, "grad_norm": 0.3562158, "learning_rate": 0.00086428, "token_acc": 0.47475334, "epoch": 0.26327256, "global_step/max_steps": "574/2181", "elapsed_time": "48m 58s", "remaining_time": "2h 17m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118689}
+{"loss": 2.57665038, "grad_norm": 0.35683677, "learning_rate": 0.00086377, "token_acc": 0.46353007, "epoch": 0.26373122, "global_step/max_steps": "575/2181", "elapsed_time": "49m 3s", "remaining_time": "2h 17m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.118375}
+{"loss": 2.60445571, "grad_norm": 0.36328745, "learning_rate": 0.00086326, "token_acc": 0.4483674, "epoch": 0.26418989, "global_step/max_steps": "576/2181", "elapsed_time": "49m 8s", "remaining_time": "2h 16m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.117725}
+{"loss": 2.54628086, "grad_norm": 0.35811988, "learning_rate": 0.00086275, "token_acc": 0.46860433, "epoch": 0.26464855, "global_step/max_steps": "577/2181", "elapsed_time": "49m 13s", "remaining_time": "2h 16m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.117287}
+{"loss": 2.48450708, "grad_norm": 0.36019573, "learning_rate": 0.00086224, "token_acc": 0.48318482, "epoch": 0.26510721, "global_step/max_steps": "578/2181", "elapsed_time": "49m 18s", "remaining_time": "2h 16m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.116976}
+{"loss": 2.51499248, "grad_norm": 0.37171996, "learning_rate": 0.00086173, "token_acc": 0.46863873, "epoch": 0.26556588, "global_step/max_steps": "579/2181", "elapsed_time": "49m 23s", "remaining_time": "2h 16m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.116841}
+{"loss": 2.61363935, "grad_norm": 0.36536881, "learning_rate": 0.00086121, "token_acc": 0.45684695, "epoch": 0.26602454, "global_step/max_steps": "580/2181", "elapsed_time": "49m 28s", "remaining_time": "2h 16m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.116483}
+{"loss": 2.43186951, "grad_norm": 0.3474707, "learning_rate": 0.0008607, "token_acc": 0.49131379, "epoch": 0.2664832, "global_step/max_steps": "581/2181", "elapsed_time": "49m 32s", "remaining_time": "2h 16m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115953}
+{"loss": 2.55742836, "grad_norm": 0.36851779, "learning_rate": 0.00086019, "token_acc": 0.46121298, "epoch": 0.26694186, "global_step/max_steps": "582/2181", "elapsed_time": "49m 37s", "remaining_time": "2h 16m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115355}
+{"loss": 2.51869226, "grad_norm": 0.33940929, "learning_rate": 0.00085967, "token_acc": 0.47249276, "epoch": 0.26740053, "global_step/max_steps": "583/2181", "elapsed_time": "49m 42s", "remaining_time": "2h 16m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11488}
+{"loss": 2.53470135, "grad_norm": 0.329864, "learning_rate": 0.00085915, "token_acc": 0.48434469, "epoch": 0.26785919, "global_step/max_steps": "584/2181", "elapsed_time": "49m 47s", "remaining_time": "2h 16m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114519}
+{"loss": 2.47927284, "grad_norm": 0.36513618, "learning_rate": 0.00085864, "token_acc": 0.48560948, "epoch": 0.26831785, "global_step/max_steps": "585/2181", "elapsed_time": "49m 52s", "remaining_time": "2h 16m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114421}
+{"loss": 2.4867909, "grad_norm": 0.36081195, "learning_rate": 0.00085812, "token_acc": 0.4785832, "epoch": 0.26877652, "global_step/max_steps": "586/2181", "elapsed_time": "49m 57s", "remaining_time": "2h 15m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114236}
+{"loss": 2.51245022, "grad_norm": 0.36476165, "learning_rate": 0.0008576, "token_acc": 0.47991009, "epoch": 0.26923518, "global_step/max_steps": "587/2181", "elapsed_time": "50m 2s", "remaining_time": "2h 15m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114783}
+{"loss": 2.4567337, "grad_norm": 0.37836653, "learning_rate": 0.00085708, "token_acc": 0.47277228, "epoch": 0.26969384, "global_step/max_steps": "588/2181", "elapsed_time": "50m 8s", "remaining_time": "2h 15m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115125}
+{"loss": 2.62001371, "grad_norm": 0.37878144, "learning_rate": 0.00085656, "token_acc": 0.45960849, "epoch": 0.27015251, "global_step/max_steps": "589/2181", "elapsed_time": "50m 13s", "remaining_time": "2h 15m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115071}
+{"loss": 2.47686529, "grad_norm": 0.37872931, "learning_rate": 0.00085604, "token_acc": 0.4625794, "epoch": 0.27061117, "global_step/max_steps": "590/2181", "elapsed_time": "50m 18s", "remaining_time": "2h 15m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114902}
+{"loss": 2.50465131, "grad_norm": 0.36183515, "learning_rate": 0.00085552, "token_acc": 0.47784633, "epoch": 0.27106983, "global_step/max_steps": "591/2181", "elapsed_time": "50m 23s", "remaining_time": "2h 15m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114716}
+{"loss": 2.47344875, "grad_norm": 0.36415809, "learning_rate": 0.00085499, "token_acc": 0.48833286, "epoch": 0.27152849, "global_step/max_steps": "592/2181", "elapsed_time": "50m 28s", "remaining_time": "2h 15m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114085}
+{"loss": 2.43893194, "grad_norm": 0.33988369, "learning_rate": 0.00085447, "token_acc": 0.47353914, "epoch": 0.27198716, "global_step/max_steps": "593/2181", "elapsed_time": "50m 33s", "remaining_time": "2h 15m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113828}
+{"loss": 2.57259965, "grad_norm": 0.37989005, "learning_rate": 0.00085395, "token_acc": 0.4646608, "epoch": 0.27244582, "global_step/max_steps": "594/2181", "elapsed_time": "50m 37s", "remaining_time": "2h 15m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113056}
+{"loss": 2.42769718, "grad_norm": 0.37606263, "learning_rate": 0.00085342, "token_acc": 0.48568925, "epoch": 0.27290448, "global_step/max_steps": "595/2181", "elapsed_time": "50m 42s", "remaining_time": "2h 15m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113071}
+{"loss": 2.55163956, "grad_norm": 0.38067842, "learning_rate": 0.0008529, "token_acc": 0.47102041, "epoch": 0.27336315, "global_step/max_steps": "596/2181", "elapsed_time": "50m 47s", "remaining_time": "2h 15m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112698}
+{"loss": 2.50472331, "grad_norm": 0.40173066, "learning_rate": 0.00085237, "token_acc": 0.47251823, "epoch": 0.27382181, "global_step/max_steps": "597/2181", "elapsed_time": "50m 53s", "remaining_time": "2h 15m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114726}
+{"loss": 2.58300734, "grad_norm": 0.38688999, "learning_rate": 0.00085184, "token_acc": 0.45726375, "epoch": 0.27428047, "global_step/max_steps": "598/2181", "elapsed_time": "50m 58s", "remaining_time": "2h 14m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114511}
+{"loss": 2.53239584, "grad_norm": 0.34571108, "learning_rate": 0.00085131, "token_acc": 0.48110624, "epoch": 0.27473914, "global_step/max_steps": "599/2181", "elapsed_time": "51m 4s", "remaining_time": "2h 14m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115195}
+{"loss": 2.58548641, "grad_norm": 0.34768799, "learning_rate": 0.00085079, "token_acc": 0.4608282, "epoch": 0.2751978, "global_step/max_steps": "600/2181", "elapsed_time": "51m 9s", "remaining_time": "2h 14m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115312}
+{"loss": 2.56364202, "grad_norm": 0.37860507, "learning_rate": 0.00085026, "token_acc": 0.45589041, "epoch": 0.27565646, "global_step/max_steps": "601/2181", "elapsed_time": "51m 15s", "remaining_time": "2h 14m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115876}
+{"loss": 2.48888373, "grad_norm": 0.34449375, "learning_rate": 0.00084973, "token_acc": 0.48190789, "epoch": 0.27611512, "global_step/max_steps": "602/2181", "elapsed_time": "51m 20s", "remaining_time": "2h 14m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11598}
+{"loss": 2.40913343, "grad_norm": 0.39608127, "learning_rate": 0.00084919, "token_acc": 0.48154506, "epoch": 0.27657379, "global_step/max_steps": "603/2181", "elapsed_time": "51m 25s", "remaining_time": "2h 14m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.116495}
+{"loss": 2.58776855, "grad_norm": 0.38607439, "learning_rate": 0.00084866, "token_acc": 0.46847345, "epoch": 0.27703245, "global_step/max_steps": "604/2181", "elapsed_time": "51m 30s", "remaining_time": "2h 14m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.116492}
+{"loss": 2.47495198, "grad_norm": 0.39865559, "learning_rate": 0.00084813, "token_acc": 0.47434119, "epoch": 0.27749111, "global_step/max_steps": "605/2181", "elapsed_time": "51m 35s", "remaining_time": "2h 14m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.116132}
+{"loss": 2.54029822, "grad_norm": 0.37226728, "learning_rate": 0.0008476, "token_acc": 0.47111239, "epoch": 0.27794978, "global_step/max_steps": "606/2181", "elapsed_time": "51m 40s", "remaining_time": "2h 14m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115924}
+{"loss": 2.5135498, "grad_norm": 0.35624295, "learning_rate": 0.00084706, "token_acc": 0.47160565, "epoch": 0.27840844, "global_step/max_steps": "607/2181", "elapsed_time": "51m 45s", "remaining_time": "2h 14m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115911}
+{"loss": 2.44957638, "grad_norm": 0.37125245, "learning_rate": 0.00084653, "token_acc": 0.48418757, "epoch": 0.2788671, "global_step/max_steps": "608/2181", "elapsed_time": "51m 50s", "remaining_time": "2h 14m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11535}
+{"loss": 2.36589193, "grad_norm": 0.3522526, "learning_rate": 0.00084599, "token_acc": 0.48143852, "epoch": 0.27932577, "global_step/max_steps": "609/2181", "elapsed_time": "51m 55s", "remaining_time": "2h 14m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114936}
+{"loss": 2.52074337, "grad_norm": 0.34159529, "learning_rate": 0.00084545, "token_acc": 0.47121419, "epoch": 0.27978443, "global_step/max_steps": "610/2181", "elapsed_time": "52m 0s", "remaining_time": "2h 13m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115136}
+{"loss": 2.56441998, "grad_norm": 0.351601, "learning_rate": 0.00084492, "token_acc": 0.47694007, "epoch": 0.28024309, "global_step/max_steps": "611/2181", "elapsed_time": "52m 5s", "remaining_time": "2h 13m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114853}
+{"loss": 2.46110368, "grad_norm": 0.35510162, "learning_rate": 0.00084438, "token_acc": 0.49391929, "epoch": 0.28070175, "global_step/max_steps": "612/2181", "elapsed_time": "52m 10s", "remaining_time": "2h 13m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114535}
+{"loss": 2.56512618, "grad_norm": 0.3677679, "learning_rate": 0.00084384, "token_acc": 0.47025334, "epoch": 0.28116042, "global_step/max_steps": "613/2181", "elapsed_time": "52m 15s", "remaining_time": "2h 13m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113975}
+{"loss": 2.55196309, "grad_norm": 0.35956949, "learning_rate": 0.0008433, "token_acc": 0.46220536, "epoch": 0.28161908, "global_step/max_steps": "614/2181", "elapsed_time": "52m 20s", "remaining_time": "2h 13m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114449}
+{"loss": 2.51312232, "grad_norm": 0.36444125, "learning_rate": 0.00084276, "token_acc": 0.48751793, "epoch": 0.28207774, "global_step/max_steps": "615/2181", "elapsed_time": "52m 25s", "remaining_time": "2h 13m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11435}
+{"loss": 2.41458035, "grad_norm": 0.34829789, "learning_rate": 0.00084222, "token_acc": 0.47286405, "epoch": 0.28253641, "global_step/max_steps": "616/2181", "elapsed_time": "52m 31s", "remaining_time": "2h 13m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114631}
+{"loss": 2.43275237, "grad_norm": 0.34840551, "learning_rate": 0.00084168, "token_acc": 0.4784345, "epoch": 0.28299507, "global_step/max_steps": "617/2181", "elapsed_time": "52m 36s", "remaining_time": "2h 13m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114888}
+{"loss": 2.49769115, "grad_norm": 0.40639031, "learning_rate": 0.00084113, "token_acc": 0.47955929, "epoch": 0.28345373, "global_step/max_steps": "618/2181", "elapsed_time": "52m 41s", "remaining_time": "2h 13m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115467}
+{"loss": 2.43297338, "grad_norm": 0.35331431, "learning_rate": 0.00084059, "token_acc": 0.48481471, "epoch": 0.2839124, "global_step/max_steps": "619/2181", "elapsed_time": "52m 46s", "remaining_time": "2h 13m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114981}
+{"loss": 2.52534699, "grad_norm": 0.37188423, "learning_rate": 0.00084005, "token_acc": 0.47501373, "epoch": 0.28437106, "global_step/max_steps": "620/2181", "elapsed_time": "52m 51s", "remaining_time": "2h 13m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115211}
+{"loss": 2.57183242, "grad_norm": 0.39061281, "learning_rate": 0.0008395, "token_acc": 0.46888646, "epoch": 0.28482972, "global_step/max_steps": "621/2181", "elapsed_time": "52m 56s", "remaining_time": "2h 12m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114587}
+{"loss": 2.43928981, "grad_norm": 0.35360941, "learning_rate": 0.00083896, "token_acc": 0.48772227, "epoch": 0.28528838, "global_step/max_steps": "622/2181", "elapsed_time": "53m 1s", "remaining_time": "2h 12m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114123}
+{"loss": 2.48155594, "grad_norm": 0.37119883, "learning_rate": 0.00083841, "token_acc": 0.46749576, "epoch": 0.28574705, "global_step/max_steps": "623/2181", "elapsed_time": "53m 6s", "remaining_time": "2h 12m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113671}
+{"loss": 2.52298164, "grad_norm": 0.35640448, "learning_rate": 0.00083786, "token_acc": 0.47097625, "epoch": 0.28620571, "global_step/max_steps": "624/2181", "elapsed_time": "53m 11s", "remaining_time": "2h 12m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11388}
+{"loss": 2.43548965, "grad_norm": 0.35955322, "learning_rate": 0.00083732, "token_acc": 0.48381696, "epoch": 0.28666437, "global_step/max_steps": "625/2181", "elapsed_time": "53m 16s", "remaining_time": "2h 12m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113797}
+{"loss": 2.54819345, "grad_norm": 0.36091501, "learning_rate": 0.00083677, "token_acc": 0.47063782, "epoch": 0.28712304, "global_step/max_steps": "626/2181", "elapsed_time": "53m 21s", "remaining_time": "2h 12m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113306}
+{"loss": 2.52753925, "grad_norm": 0.34244829, "learning_rate": 0.00083622, "token_acc": 0.47137671, "epoch": 0.2875817, "global_step/max_steps": "627/2181", "elapsed_time": "53m 26s", "remaining_time": "2h 12m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113075}
+{"loss": 2.56038594, "grad_norm": 0.33013561, "learning_rate": 0.00083567, "token_acc": 0.46066196, "epoch": 0.28804036, "global_step/max_steps": "628/2181", "elapsed_time": "53m 31s", "remaining_time": "2h 12m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112947}
+{"loss": 2.56132317, "grad_norm": 0.34252033, "learning_rate": 0.00083512, "token_acc": 0.45910931, "epoch": 0.28849903, "global_step/max_steps": "629/2181", "elapsed_time": "53m 36s", "remaining_time": "2h 12m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11289}
+{"loss": 2.48357511, "grad_norm": 0.38410261, "learning_rate": 0.00083457, "token_acc": 0.47559591, "epoch": 0.28895769, "global_step/max_steps": "630/2181", "elapsed_time": "53m 41s", "remaining_time": "2h 12m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113017}
+{"loss": 2.55520964, "grad_norm": 0.35216826, "learning_rate": 0.00083401, "token_acc": 0.46420705, "epoch": 0.28941635, "global_step/max_steps": "631/2181", "elapsed_time": "53m 46s", "remaining_time": "2h 12m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112661}
+{"loss": 2.5078702, "grad_norm": 0.37958083, "learning_rate": 0.00083346, "token_acc": 0.47815055, "epoch": 0.28987501, "global_step/max_steps": "632/2181", "elapsed_time": "53m 51s", "remaining_time": "2h 11m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112642}
+{"loss": 2.43472028, "grad_norm": 0.32778287, "learning_rate": 0.00083291, "token_acc": 0.47572545, "epoch": 0.29033368, "global_step/max_steps": "633/2181", "elapsed_time": "53m 57s", "remaining_time": "2h 11m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113042}
+{"loss": 2.52817392, "grad_norm": 0.38708726, "learning_rate": 0.00083235, "token_acc": 0.46855806, "epoch": 0.29079234, "global_step/max_steps": "634/2181", "elapsed_time": "54m 2s", "remaining_time": "2h 11m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112812}
+{"loss": 2.59446645, "grad_norm": 0.35527894, "learning_rate": 0.0008318, "token_acc": 0.45863846, "epoch": 0.291251, "global_step/max_steps": "635/2181", "elapsed_time": "54m 6s", "remaining_time": "2h 11m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11234}
+{"loss": 2.48027062, "grad_norm": 0.34660515, "learning_rate": 0.00083124, "token_acc": 0.47627024, "epoch": 0.29170967, "global_step/max_steps": "636/2181", "elapsed_time": "54m 11s", "remaining_time": "2h 11m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111627}
+{"loss": 2.52867746, "grad_norm": 0.38533422, "learning_rate": 0.00083068, "token_acc": 0.47042488, "epoch": 0.29216833, "global_step/max_steps": "637/2181", "elapsed_time": "54m 17s", "remaining_time": "2h 11m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112253}
+{"loss": 2.51285124, "grad_norm": 0.37411717, "learning_rate": 0.00083013, "token_acc": 0.46878681, "epoch": 0.29262699, "global_step/max_steps": "638/2181", "elapsed_time": "54m 21s", "remaining_time": "2h 11m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111686}
+{"loss": 2.46858835, "grad_norm": 0.37365016, "learning_rate": 0.00082957, "token_acc": 0.47298444, "epoch": 0.29308566, "global_step/max_steps": "639/2181", "elapsed_time": "54m 26s", "remaining_time": "2h 11m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11176}
+{"loss": 2.49026608, "grad_norm": 0.37486586, "learning_rate": 0.00082901, "token_acc": 0.47573633, "epoch": 0.29354432, "global_step/max_steps": "640/2181", "elapsed_time": "54m 31s", "remaining_time": "2h 11m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111608}
+{"loss": 2.60007715, "grad_norm": 0.36957672, "learning_rate": 0.00082845, "token_acc": 0.45921938, "epoch": 0.29400298, "global_step/max_steps": "641/2181", "elapsed_time": "54m 37s", "remaining_time": "2h 11m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11216}
+{"loss": 2.59877825, "grad_norm": 0.38185966, "learning_rate": 0.00082789, "token_acc": 0.45560166, "epoch": 0.29446164, "global_step/max_steps": "642/2181", "elapsed_time": "54m 42s", "remaining_time": "2h 11m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111892}
+{"loss": 2.61084652, "grad_norm": 0.35935286, "learning_rate": 0.00082733, "token_acc": 0.46155966, "epoch": 0.29492031, "global_step/max_steps": "643/2181", "elapsed_time": "54m 47s", "remaining_time": "2h 11m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112149}
+{"loss": 2.45486546, "grad_norm": 0.35136023, "learning_rate": 0.00082677, "token_acc": 0.48196448, "epoch": 0.29537897, "global_step/max_steps": "644/2181", "elapsed_time": "54m 52s", "remaining_time": "2h 10m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112159}
+{"loss": 2.5366497, "grad_norm": 0.34735331, "learning_rate": 0.0008262, "token_acc": 0.47482615, "epoch": 0.29583763, "global_step/max_steps": "645/2181", "elapsed_time": "54m 58s", "remaining_time": "2h 10m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112636}
+{"loss": 2.50523615, "grad_norm": 0.34129301, "learning_rate": 0.00082564, "token_acc": 0.46640647, "epoch": 0.2962963, "global_step/max_steps": "646/2181", "elapsed_time": "55m 2s", "remaining_time": "2h 10m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112096}
+{"loss": 2.45573568, "grad_norm": 0.3682518, "learning_rate": 0.00082508, "token_acc": 0.48364888, "epoch": 0.29675496, "global_step/max_steps": "647/2181", "elapsed_time": "55m 7s", "remaining_time": "2h 10m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111808}
+{"loss": 2.49445629, "grad_norm": 0.38161287, "learning_rate": 0.00082451, "token_acc": 0.47874465, "epoch": 0.29721362, "global_step/max_steps": "648/2181", "elapsed_time": "55m 13s", "remaining_time": "2h 10m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112192}
+{"loss": 2.53915739, "grad_norm": 0.3876209, "learning_rate": 0.00082395, "token_acc": 0.48002267, "epoch": 0.29767229, "global_step/max_steps": "649/2181", "elapsed_time": "55m 18s", "remaining_time": "2h 10m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111865}
+{"loss": 2.45956707, "grad_norm": 0.36932454, "learning_rate": 0.00082338, "token_acc": 0.48169717, "epoch": 0.29813095, "global_step/max_steps": "650/2181", "elapsed_time": "55m 22s", "remaining_time": "2h 10m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111504}
+{"loss": 2.48205948, "grad_norm": 0.34249792, "learning_rate": 0.00082281, "token_acc": 0.49097575, "epoch": 0.29858961, "global_step/max_steps": "651/2181", "elapsed_time": "55m 28s", "remaining_time": "2h 10m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111413}
+{"loss": 2.54322529, "grad_norm": 0.34778953, "learning_rate": 0.00082225, "token_acc": 0.47225305, "epoch": 0.29904827, "global_step/max_steps": "652/2181", "elapsed_time": "55m 32s", "remaining_time": "2h 10m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110987}
+{"loss": 2.39416695, "grad_norm": 0.3589634, "learning_rate": 0.00082168, "token_acc": 0.4869756, "epoch": 0.29950694, "global_step/max_steps": "653/2181", "elapsed_time": "55m 37s", "remaining_time": "2h 10m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110898}
+{"loss": 2.39366317, "grad_norm": 0.35171008, "learning_rate": 0.00082111, "token_acc": 0.48587106, "epoch": 0.2999656, "global_step/max_steps": "654/2181", "elapsed_time": "55m 43s", "remaining_time": "2h 10m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111307}
+{"loss": 2.54892564, "grad_norm": 0.35666531, "learning_rate": 0.00082054, "token_acc": 0.46926579, "epoch": 0.30042426, "global_step/max_steps": "655/2181", "elapsed_time": "55m 48s", "remaining_time": "2h 9m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110697}
+{"loss": 2.48727465, "grad_norm": 0.34596869, "learning_rate": 0.00081997, "token_acc": 0.46792035, "epoch": 0.30088293, "global_step/max_steps": "656/2181", "elapsed_time": "55m 52s", "remaining_time": "2h 9m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109909}
+{"loss": 2.45355415, "grad_norm": 0.37479064, "learning_rate": 0.0008194, "token_acc": 0.47555948, "epoch": 0.30134159, "global_step/max_steps": "657/2181", "elapsed_time": "55m 57s", "remaining_time": "2h 9m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109458}
+{"loss": 2.4288044, "grad_norm": 0.34790608, "learning_rate": 0.00081883, "token_acc": 0.4944618, "epoch": 0.30180025, "global_step/max_steps": "658/2181", "elapsed_time": "56m 2s", "remaining_time": "2h 9m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109423}
+{"loss": 2.45443964, "grad_norm": 0.34123179, "learning_rate": 0.00081825, "token_acc": 0.48569857, "epoch": 0.30225892, "global_step/max_steps": "659/2181", "elapsed_time": "56m 7s", "remaining_time": "2h 9m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109064}
+{"loss": 2.56623054, "grad_norm": 0.34814453, "learning_rate": 0.00081768, "token_acc": 0.46972629, "epoch": 0.30271758, "global_step/max_steps": "660/2181", "elapsed_time": "56m 12s", "remaining_time": "2h 9m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108971}
+{"loss": 2.4501965, "grad_norm": 0.37712863, "learning_rate": 0.00081711, "token_acc": 0.47543761, "epoch": 0.30317624, "global_step/max_steps": "661/2181", "elapsed_time": "56m 17s", "remaining_time": "2h 9m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108734}
+{"loss": 2.5973134, "grad_norm": 0.33920538, "learning_rate": 0.00081653, "token_acc": 0.45736643, "epoch": 0.3036349, "global_step/max_steps": "662/2181", "elapsed_time": "56m 22s", "remaining_time": "2h 9m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108582}
+{"loss": 2.45519781, "grad_norm": 0.34968132, "learning_rate": 0.00081596, "token_acc": 0.48709409, "epoch": 0.30409357, "global_step/max_steps": "663/2181", "elapsed_time": "56m 27s", "remaining_time": "2h 9m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108772}
+{"loss": 2.50072193, "grad_norm": 0.36241719, "learning_rate": 0.00081538, "token_acc": 0.47898449, "epoch": 0.30455223, "global_step/max_steps": "664/2181", "elapsed_time": "56m 33s", "remaining_time": "2h 9m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110094}
+{"loss": 2.51222968, "grad_norm": 0.35108995, "learning_rate": 0.0008148, "token_acc": 0.48020362, "epoch": 0.30501089, "global_step/max_steps": "665/2181", "elapsed_time": "56m 39s", "remaining_time": "2h 9m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110863}
+{"loss": 2.48291469, "grad_norm": 0.35074559, "learning_rate": 0.00081423, "token_acc": 0.47938719, "epoch": 0.30546956, "global_step/max_steps": "666/2181", "elapsed_time": "56m 44s", "remaining_time": "2h 9m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11065}
+{"loss": 2.43509316, "grad_norm": 0.33687422, "learning_rate": 0.00081365, "token_acc": 0.48329191, "epoch": 0.30592822, "global_step/max_steps": "667/2181", "elapsed_time": "56m 48s", "remaining_time": "2h 8m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110155}
+{"loss": 2.49994516, "grad_norm": 0.35945454, "learning_rate": 0.00081307, "token_acc": 0.47235476, "epoch": 0.30638688, "global_step/max_steps": "668/2181", "elapsed_time": "56m 54s", "remaining_time": "2h 8m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110034}
+{"loss": 2.40439415, "grad_norm": 0.35542104, "learning_rate": 0.00081249, "token_acc": 0.4827985, "epoch": 0.30684555, "global_step/max_steps": "669/2181", "elapsed_time": "56m 58s", "remaining_time": "2h 8m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109447}
+{"loss": 2.5107069, "grad_norm": 0.35209042, "learning_rate": 0.00081191, "token_acc": 0.48232611, "epoch": 0.30730421, "global_step/max_steps": "670/2181", "elapsed_time": "57m 3s", "remaining_time": "2h 8m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109233}
+{"loss": 2.50892115, "grad_norm": 0.37155393, "learning_rate": 0.00081133, "token_acc": 0.4684108, "epoch": 0.30776287, "global_step/max_steps": "671/2181", "elapsed_time": "57m 8s", "remaining_time": "2h 8m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108861}
+{"loss": 2.46245813, "grad_norm": 0.35757408, "learning_rate": 0.00081075, "token_acc": 0.47487576, "epoch": 0.30822153, "global_step/max_steps": "672/2181", "elapsed_time": "57m 13s", "remaining_time": "2h 8m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1082}
+{"loss": 2.43283582, "grad_norm": 0.36112997, "learning_rate": 0.00081017, "token_acc": 0.4772141, "epoch": 0.3086802, "global_step/max_steps": "673/2181", "elapsed_time": "57m 18s", "remaining_time": "2h 8m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108573}
+{"loss": 2.41357279, "grad_norm": 0.34858435, "learning_rate": 0.00080958, "token_acc": 0.4912759, "epoch": 0.30913886, "global_step/max_steps": "674/2181", "elapsed_time": "57m 23s", "remaining_time": "2h 8m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108603}
+{"loss": 2.61350775, "grad_norm": 0.37126485, "learning_rate": 0.000809, "token_acc": 0.46744868, "epoch": 0.30959752, "global_step/max_steps": "675/2181", "elapsed_time": "57m 28s", "remaining_time": "2h 8m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108088}
+{"loss": 2.46393251, "grad_norm": 0.3804155, "learning_rate": 0.00080842, "token_acc": 0.47038043, "epoch": 0.31005619, "global_step/max_steps": "676/2181", "elapsed_time": "57m 33s", "remaining_time": "2h 8m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107639}
+{"loss": 2.45137668, "grad_norm": 0.34299806, "learning_rate": 0.00080783, "token_acc": 0.48502496, "epoch": 0.31051485, "global_step/max_steps": "677/2181", "elapsed_time": "57m 38s", "remaining_time": "2h 8m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107646}
+{"loss": 2.50571299, "grad_norm": 0.35079178, "learning_rate": 0.00080725, "token_acc": 0.46892497, "epoch": 0.31097351, "global_step/max_steps": "678/2181", "elapsed_time": "57m 43s", "remaining_time": "2h 7m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10703}
+{"loss": 2.53274059, "grad_norm": 0.36286208, "learning_rate": 0.00080666, "token_acc": 0.4686641, "epoch": 0.31143218, "global_step/max_steps": "679/2181", "elapsed_time": "57m 48s", "remaining_time": "2h 7m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107588}
+{"loss": 2.59403968, "grad_norm": 0.34104753, "learning_rate": 0.00080607, "token_acc": 0.45865922, "epoch": 0.31189084, "global_step/max_steps": "680/2181", "elapsed_time": "57m 54s", "remaining_time": "2h 7m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108171}
+{"loss": 2.52634478, "grad_norm": 0.34983689, "learning_rate": 0.00080548, "token_acc": 0.47437617, "epoch": 0.3123495, "global_step/max_steps": "681/2181", "elapsed_time": "57m 59s", "remaining_time": "2h 7m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108307}
+{"loss": 2.48218155, "grad_norm": 0.35717347, "learning_rate": 0.0008049, "token_acc": 0.49011744, "epoch": 0.31280816, "global_step/max_steps": "682/2181", "elapsed_time": "58m 4s", "remaining_time": "2h 7m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108314}
+{"loss": 2.60464239, "grad_norm": 0.3514379, "learning_rate": 0.00080431, "token_acc": 0.46350975, "epoch": 0.31326683, "global_step/max_steps": "683/2181", "elapsed_time": "58m 9s", "remaining_time": "2h 7m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108048}
+{"loss": 2.50036764, "grad_norm": 0.35014611, "learning_rate": 0.00080372, "token_acc": 0.46522204, "epoch": 0.31372549, "global_step/max_steps": "684/2181", "elapsed_time": "58m 14s", "remaining_time": "2h 7m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107935}
+{"loss": 2.39524293, "grad_norm": 0.3894231, "learning_rate": 0.00080313, "token_acc": 0.48788829, "epoch": 0.31418415, "global_step/max_steps": "685/2181", "elapsed_time": "58m 19s", "remaining_time": "2h 7m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107415}
+{"loss": 2.41176081, "grad_norm": 0.3649236, "learning_rate": 0.00080254, "token_acc": 0.48143091, "epoch": 0.31464282, "global_step/max_steps": "686/2181", "elapsed_time": "58m 23s", "remaining_time": "2h 7m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106821}
+{"loss": 2.51899719, "grad_norm": 0.35251844, "learning_rate": 0.00080194, "token_acc": 0.46713681, "epoch": 0.31510148, "global_step/max_steps": "687/2181", "elapsed_time": "58m 28s", "remaining_time": "2h 7m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106896}
+{"loss": 2.52809548, "grad_norm": 0.38877764, "learning_rate": 0.00080135, "token_acc": 0.4622871, "epoch": 0.31556014, "global_step/max_steps": "688/2181", "elapsed_time": "58m 34s", "remaining_time": "2h 7m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106906}
+{"loss": 2.48253489, "grad_norm": 0.36088315, "learning_rate": 0.00080076, "token_acc": 0.4800222, "epoch": 0.31601881, "global_step/max_steps": "689/2181", "elapsed_time": "58m 39s", "remaining_time": "2h 7m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107703}
+{"loss": 2.49824166, "grad_norm": 0.33392149, "learning_rate": 0.00080017, "token_acc": 0.473187, "epoch": 0.31647747, "global_step/max_steps": "690/2181", "elapsed_time": "58m 44s", "remaining_time": "2h 6m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107241}
+{"loss": 2.46229362, "grad_norm": 0.34608817, "learning_rate": 0.00079957, "token_acc": 0.46913244, "epoch": 0.31693613, "global_step/max_steps": "691/2181", "elapsed_time": "58m 49s", "remaining_time": "2h 6m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107274}
+{"loss": 2.50378418, "grad_norm": 0.40866694, "learning_rate": 0.00079898, "token_acc": 0.47834646, "epoch": 0.31739479, "global_step/max_steps": "692/2181", "elapsed_time": "58m 54s", "remaining_time": "2h 6m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107435}
+{"loss": 2.44387484, "grad_norm": 0.35320818, "learning_rate": 0.00079838, "token_acc": 0.48568312, "epoch": 0.31785346, "global_step/max_steps": "693/2181", "elapsed_time": "58m 59s", "remaining_time": "2h 6m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107041}
+{"loss": 2.50025296, "grad_norm": 0.37517613, "learning_rate": 0.00079778, "token_acc": 0.46684043, "epoch": 0.31831212, "global_step/max_steps": "694/2181", "elapsed_time": "59m 4s", "remaining_time": "2h 6m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107013}
+{"loss": 2.50191569, "grad_norm": 0.36811194, "learning_rate": 0.00079719, "token_acc": 0.46986948, "epoch": 0.31877078, "global_step/max_steps": "695/2181", "elapsed_time": "59m 10s", "remaining_time": "2h 6m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108121}
+{"loss": 2.51110554, "grad_norm": 0.34130019, "learning_rate": 0.00079659, "token_acc": 0.47148818, "epoch": 0.31922945, "global_step/max_steps": "696/2181", "elapsed_time": "59m 15s", "remaining_time": "2h 6m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107772}
+{"loss": 2.58450985, "grad_norm": 0.34937865, "learning_rate": 0.00079599, "token_acc": 0.4687586, "epoch": 0.31968811, "global_step/max_steps": "697/2181", "elapsed_time": "59m 20s", "remaining_time": "2h 6m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108188}
+{"loss": 2.4765451, "grad_norm": 0.3709456, "learning_rate": 0.00079539, "token_acc": 0.48780488, "epoch": 0.32014677, "global_step/max_steps": "698/2181", "elapsed_time": "59m 26s", "remaining_time": "2h 6m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108254}
+{"loss": 2.58090019, "grad_norm": 0.33710065, "learning_rate": 0.00079479, "token_acc": 0.47442632, "epoch": 0.32060544, "global_step/max_steps": "699/2181", "elapsed_time": "59m 31s", "remaining_time": "2h 6m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108037}
+{"loss": 2.56729388, "grad_norm": 0.35903034, "learning_rate": 0.00079419, "token_acc": 0.47200878, "epoch": 0.3210641, "global_step/max_steps": "700/2181", "elapsed_time": "59m 36s", "remaining_time": "2h 6m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108861}
+{"loss": 2.59559655, "grad_norm": 0.36723387, "learning_rate": 0.00079359, "token_acc": 0.45725212, "epoch": 0.32152276, "global_step/max_steps": "701/2181", "elapsed_time": "59m 42s", "remaining_time": "2h 6m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109434}
+{"loss": 2.41920233, "grad_norm": 0.34601256, "learning_rate": 0.00079299, "token_acc": 0.48301574, "epoch": 0.32198142, "global_step/max_steps": "702/2181", "elapsed_time": "59m 46s", "remaining_time": "2h 5m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108885}
+{"loss": 2.40314436, "grad_norm": 0.39228749, "learning_rate": 0.00079239, "token_acc": 0.48594816, "epoch": 0.32244009, "global_step/max_steps": "703/2181", "elapsed_time": "59m 51s", "remaining_time": "2h 5m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108402}
+{"loss": 2.53534603, "grad_norm": 0.37906432, "learning_rate": 0.00079179, "token_acc": 0.46719013, "epoch": 0.32289875, "global_step/max_steps": "704/2181", "elapsed_time": "59m 56s", "remaining_time": "2h 5m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108662}
+{"loss": 2.50457501, "grad_norm": 0.35322419, "learning_rate": 0.00079118, "token_acc": 0.47845063, "epoch": 0.32335741, "global_step/max_steps": "705/2181", "elapsed_time": "1h 0m 1s", "remaining_time": "2h 5m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108235}
+{"loss": 2.5387888, "grad_norm": 0.37003663, "learning_rate": 0.00079058, "token_acc": 0.46717172, "epoch": 0.32381608, "global_step/max_steps": "706/2181", "elapsed_time": "1h 0m 6s", "remaining_time": "2h 5m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108265}
+{"loss": 2.46926498, "grad_norm": 0.35475308, "learning_rate": 0.00078997, "token_acc": 0.4727469, "epoch": 0.32427474, "global_step/max_steps": "707/2181", "elapsed_time": "1h 0m 11s", "remaining_time": "2h 5m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107958}
+{"loss": 2.49229383, "grad_norm": 0.32707575, "learning_rate": 0.00078937, "token_acc": 0.47232267, "epoch": 0.3247334, "global_step/max_steps": "708/2181", "elapsed_time": "1h 0m 17s", "remaining_time": "2h 5m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108219}
+{"loss": 2.45050216, "grad_norm": 0.34030849, "learning_rate": 0.00078876, "token_acc": 0.4862259, "epoch": 0.32519207, "global_step/max_steps": "709/2181", "elapsed_time": "1h 0m 21s", "remaining_time": "2h 5m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107897}
+{"loss": 2.56042266, "grad_norm": 0.32993734, "learning_rate": 0.00078816, "token_acc": 0.47546437, "epoch": 0.32565073, "global_step/max_steps": "710/2181", "elapsed_time": "1h 0m 27s", "remaining_time": "2h 5m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108621}
+{"loss": 2.53035736, "grad_norm": 0.34264335, "learning_rate": 0.00078755, "token_acc": 0.47509147, "epoch": 0.32610939, "global_step/max_steps": "711/2181", "elapsed_time": "1h 0m 33s", "remaining_time": "2h 5m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109075}
+{"loss": 2.4995153, "grad_norm": 0.31577286, "learning_rate": 0.00078694, "token_acc": 0.46668451, "epoch": 0.32656805, "global_step/max_steps": "712/2181", "elapsed_time": "1h 0m 38s", "remaining_time": "2h 5m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109333}
+{"loss": 2.47504759, "grad_norm": 0.35545886, "learning_rate": 0.00078633, "token_acc": 0.47036224, "epoch": 0.32702672, "global_step/max_steps": "713/2181", "elapsed_time": "1h 0m 42s", "remaining_time": "2h 4m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108686}
+{"loss": 2.57158637, "grad_norm": 0.3609353, "learning_rate": 0.00078572, "token_acc": 0.4743833, "epoch": 0.32748538, "global_step/max_steps": "714/2181", "elapsed_time": "1h 0m 47s", "remaining_time": "2h 4m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108489}
+{"loss": 2.45227647, "grad_norm": 0.38942811, "learning_rate": 0.00078511, "token_acc": 0.46699945, "epoch": 0.32794404, "global_step/max_steps": "715/2181", "elapsed_time": "1h 0m 53s", "remaining_time": "2h 4m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108477}
+{"loss": 2.3915801, "grad_norm": 0.36380461, "learning_rate": 0.0007845, "token_acc": 0.47144426, "epoch": 0.32840271, "global_step/max_steps": "716/2181", "elapsed_time": "1h 0m 58s", "remaining_time": "2h 4m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108633}
+{"loss": 2.50136518, "grad_norm": 0.37281668, "learning_rate": 0.00078389, "token_acc": 0.47758669, "epoch": 0.32886137, "global_step/max_steps": "717/2181", "elapsed_time": "1h 1m 3s", "remaining_time": "2h 4m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108556}
+{"loss": 2.45346022, "grad_norm": 0.35957518, "learning_rate": 0.00078328, "token_acc": 0.49227745, "epoch": 0.32932003, "global_step/max_steps": "718/2181", "elapsed_time": "1h 1m 8s", "remaining_time": "2h 4m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108532}
+{"loss": 2.44347787, "grad_norm": 0.39589009, "learning_rate": 0.00078267, "token_acc": 0.48399666, "epoch": 0.3297787, "global_step/max_steps": "719/2181", "elapsed_time": "1h 1m 13s", "remaining_time": "2h 4m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108328}
+{"loss": 2.56406116, "grad_norm": 0.35665429, "learning_rate": 0.00078205, "token_acc": 0.46494573, "epoch": 0.33023736, "global_step/max_steps": "720/2181", "elapsed_time": "1h 1m 18s", "remaining_time": "2h 4m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108245}
+{"loss": 2.44588327, "grad_norm": 0.35493654, "learning_rate": 0.00078144, "token_acc": 0.48, "epoch": 0.33069602, "global_step/max_steps": "721/2181", "elapsed_time": "1h 1m 23s", "remaining_time": "2h 4m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108169}
+{"loss": 2.57191491, "grad_norm": 0.36415589, "learning_rate": 0.00078083, "token_acc": 0.45585786, "epoch": 0.33115468, "global_step/max_steps": "722/2181", "elapsed_time": "1h 1m 28s", "remaining_time": "2h 4m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108289}
+{"loss": 2.59672451, "grad_norm": 0.34119558, "learning_rate": 0.00078021, "token_acc": 0.46394366, "epoch": 0.33161335, "global_step/max_steps": "723/2181", "elapsed_time": "1h 1m 33s", "remaining_time": "2h 4m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107688}
+{"loss": 2.50660181, "grad_norm": 0.36047563, "learning_rate": 0.0007796, "token_acc": 0.4833471, "epoch": 0.33207201, "global_step/max_steps": "724/2181", "elapsed_time": "1h 1m 38s", "remaining_time": "2h 4m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107582}
+{"loss": 2.63507795, "grad_norm": 0.35032856, "learning_rate": 0.00077898, "token_acc": 0.43892807, "epoch": 0.33253067, "global_step/max_steps": "725/2181", "elapsed_time": "1h 1m 43s", "remaining_time": "2h 3m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107642}
+{"loss": 2.44359112, "grad_norm": 0.36541563, "learning_rate": 0.00077836, "token_acc": 0.4874512, "epoch": 0.33298934, "global_step/max_steps": "726/2181", "elapsed_time": "1h 1m 48s", "remaining_time": "2h 3m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107444}
+{"loss": 2.4607625, "grad_norm": 0.36065584, "learning_rate": 0.00077775, "token_acc": 0.48314286, "epoch": 0.333448, "global_step/max_steps": "727/2181", "elapsed_time": "1h 1m 53s", "remaining_time": "2h 3m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107044}
+{"loss": 2.51269174, "grad_norm": 0.33385569, "learning_rate": 0.00077713, "token_acc": 0.47974649, "epoch": 0.33390666, "global_step/max_steps": "728/2181", "elapsed_time": "1h 1m 58s", "remaining_time": "2h 3m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10679}
+{"loss": 2.51134062, "grad_norm": 0.3635478, "learning_rate": 0.00077651, "token_acc": 0.47344633, "epoch": 0.33436533, "global_step/max_steps": "729/2181", "elapsed_time": "1h 2m 3s", "remaining_time": "2h 3m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106726}
+{"loss": 2.49948001, "grad_norm": 0.35159248, "learning_rate": 0.00077589, "token_acc": 0.46477638, "epoch": 0.33482399, "global_step/max_steps": "730/2181", "elapsed_time": "1h 2m 8s", "remaining_time": "2h 3m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106395}
+{"loss": 2.52479911, "grad_norm": 0.35496935, "learning_rate": 0.00077527, "token_acc": 0.48202661, "epoch": 0.33528265, "global_step/max_steps": "731/2181", "elapsed_time": "1h 2m 13s", "remaining_time": "2h 3m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107152}
+{"loss": 2.49360991, "grad_norm": 0.35759497, "learning_rate": 0.00077465, "token_acc": 0.48623348, "epoch": 0.33574131, "global_step/max_steps": "732/2181", "elapsed_time": "1h 2m 18s", "remaining_time": "2h 3m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107064}
+{"loss": 2.37573767, "grad_norm": 0.34335133, "learning_rate": 0.00077403, "token_acc": 0.4890553, "epoch": 0.33619998, "global_step/max_steps": "733/2181", "elapsed_time": "1h 2m 23s", "remaining_time": "2h 3m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107031}
+{"loss": 2.50703382, "grad_norm": 0.36216784, "learning_rate": 0.00077341, "token_acc": 0.48040314, "epoch": 0.33665864, "global_step/max_steps": "734/2181", "elapsed_time": "1h 2m 28s", "remaining_time": "2h 3m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106537}
+{"loss": 2.51048779, "grad_norm": 0.38165352, "learning_rate": 0.00077279, "token_acc": 0.46885617, "epoch": 0.3371173, "global_step/max_steps": "735/2181", "elapsed_time": "1h 2m 34s", "remaining_time": "2h 3m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106842}
+{"loss": 2.46822786, "grad_norm": 0.37210813, "learning_rate": 0.00077216, "token_acc": 0.48641837, "epoch": 0.33757597, "global_step/max_steps": "736/2181", "elapsed_time": "1h 2m 39s", "remaining_time": "2h 2m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10683}
+{"loss": 2.59086823, "grad_norm": 0.43332851, "learning_rate": 0.00077154, "token_acc": 0.46633482, "epoch": 0.33803463, "global_step/max_steps": "737/2181", "elapsed_time": "1h 2m 43s", "remaining_time": "2h 2m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106503}
+{"loss": 2.55229521, "grad_norm": 0.33668563, "learning_rate": 0.00077092, "token_acc": 0.47695391, "epoch": 0.33849329, "global_step/max_steps": "738/2181", "elapsed_time": "1h 2m 49s", "remaining_time": "2h 2m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106799}
+{"loss": 2.51790452, "grad_norm": 0.33232382, "learning_rate": 0.00077029, "token_acc": 0.46814482, "epoch": 0.33895196, "global_step/max_steps": "739/2181", "elapsed_time": "1h 2m 54s", "remaining_time": "2h 2m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10717}
+{"loss": 2.57844257, "grad_norm": 0.32367307, "learning_rate": 0.00076967, "token_acc": 0.45520386, "epoch": 0.33941062, "global_step/max_steps": "740/2181", "elapsed_time": "1h 2m 59s", "remaining_time": "2h 2m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106749}
+{"loss": 2.51367426, "grad_norm": 0.35585675, "learning_rate": 0.00076904, "token_acc": 0.47733711, "epoch": 0.33986928, "global_step/max_steps": "741/2181", "elapsed_time": "1h 3m 4s", "remaining_time": "2h 2m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107241}
+{"loss": 2.53029513, "grad_norm": 0.35149062, "learning_rate": 0.00076841, "token_acc": 0.47486339, "epoch": 0.34032794, "global_step/max_steps": "742/2181", "elapsed_time": "1h 3m 10s", "remaining_time": "2h 2m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10739}
+{"loss": 2.52421427, "grad_norm": 0.34525764, "learning_rate": 0.00076779, "token_acc": 0.47536877, "epoch": 0.34078661, "global_step/max_steps": "743/2181", "elapsed_time": "1h 3m 15s", "remaining_time": "2h 2m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107019}
+{"loss": 2.46722078, "grad_norm": 0.33909494, "learning_rate": 0.00076716, "token_acc": 0.48171075, "epoch": 0.34124527, "global_step/max_steps": "744/2181", "elapsed_time": "1h 3m 20s", "remaining_time": "2h 2m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1069}
+{"loss": 2.524261, "grad_norm": 0.34997573, "learning_rate": 0.00076653, "token_acc": 0.48261238, "epoch": 0.34170393, "global_step/max_steps": "745/2181", "elapsed_time": "1h 3m 25s", "remaining_time": "2h 2m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106737}
+{"loss": 2.55290079, "grad_norm": 0.36363962, "learning_rate": 0.0007659, "token_acc": 0.4626703, "epoch": 0.3421626, "global_step/max_steps": "746/2181", "elapsed_time": "1h 3m 29s", "remaining_time": "2h 2m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1065}
+{"loss": 2.48688674, "grad_norm": 0.33898002, "learning_rate": 0.00076527, "token_acc": 0.46920395, "epoch": 0.34262126, "global_step/max_steps": "747/2181", "elapsed_time": "1h 3m 34s", "remaining_time": "2h 2m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106366}
+{"loss": 2.54971123, "grad_norm": 0.33301494, "learning_rate": 0.00076464, "token_acc": 0.46619916, "epoch": 0.34307992, "global_step/max_steps": "748/2181", "elapsed_time": "1h 3m 39s", "remaining_time": "2h 1m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106275}
+{"loss": 2.48070049, "grad_norm": 0.33019558, "learning_rate": 0.00076401, "token_acc": 0.47566252, "epoch": 0.34353859, "global_step/max_steps": "749/2181", "elapsed_time": "1h 3m 44s", "remaining_time": "2h 1m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106087}
+{"loss": 2.43646097, "grad_norm": 0.33102623, "learning_rate": 0.00076338, "token_acc": 0.48858575, "epoch": 0.34399725, "global_step/max_steps": "750/2181", "elapsed_time": "1h 3m 50s", "remaining_time": "2h 1m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106482}
+{"loss": 2.52032542, "grad_norm": 0.34175965, "learning_rate": 0.00076275, "token_acc": 0.4673578, "epoch": 0.34445591, "global_step/max_steps": "751/2181", "elapsed_time": "1h 3m 55s", "remaining_time": "2h 1m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106107}
+{"loss": 2.45823002, "grad_norm": 0.33683842, "learning_rate": 0.00076212, "token_acc": 0.47496503, "epoch": 0.34491457, "global_step/max_steps": "752/2181", "elapsed_time": "1h 3m 60s", "remaining_time": "2h 1m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106009}
+{"loss": 2.55614948, "grad_norm": 0.3197113, "learning_rate": 0.00076149, "token_acc": 0.47034931, "epoch": 0.34537324, "global_step/max_steps": "753/2181", "elapsed_time": "1h 4m 5s", "remaining_time": "2h 1m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105935}
+{"loss": 2.42832255, "grad_norm": 0.36632195, "learning_rate": 0.00076085, "token_acc": 0.48971908, "epoch": 0.3458319, "global_step/max_steps": "754/2181", "elapsed_time": "1h 4m 9s", "remaining_time": "2h 1m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1054}
+{"loss": 2.54573441, "grad_norm": 0.34834445, "learning_rate": 0.00076022, "token_acc": 0.45743146, "epoch": 0.34629056, "global_step/max_steps": "755/2181", "elapsed_time": "1h 4m 15s", "remaining_time": "2h 1m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105323}
+{"loss": 2.54326129, "grad_norm": 0.37647846, "learning_rate": 0.00075959, "token_acc": 0.463359, "epoch": 0.34674923, "global_step/max_steps": "756/2181", "elapsed_time": "1h 4m 20s", "remaining_time": "2h 1m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105161}
+{"loss": 2.43726444, "grad_norm": 0.3312099, "learning_rate": 0.00075895, "token_acc": 0.48803828, "epoch": 0.34720789, "global_step/max_steps": "757/2181", "elapsed_time": "1h 4m 24s", "remaining_time": "2h 1m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104703}
+{"loss": 2.40611124, "grad_norm": 0.32887852, "learning_rate": 0.00075831, "token_acc": 0.47542764, "epoch": 0.34766655, "global_step/max_steps": "758/2181", "elapsed_time": "1h 4m 29s", "remaining_time": "2h 1m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104376}
+{"loss": 2.4573884, "grad_norm": 0.33525792, "learning_rate": 0.00075768, "token_acc": 0.47185526, "epoch": 0.34812521, "global_step/max_steps": "759/2181", "elapsed_time": "1h 4m 35s", "remaining_time": "2h 0m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104873}
+{"loss": 2.585145, "grad_norm": 0.34130901, "learning_rate": 0.00075704, "token_acc": 0.46243266, "epoch": 0.34858388, "global_step/max_steps": "760/2181", "elapsed_time": "1h 4m 39s", "remaining_time": "2h 0m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10459}
+{"loss": 2.41943192, "grad_norm": 0.32497779, "learning_rate": 0.0007564, "token_acc": 0.4798066, "epoch": 0.34904254, "global_step/max_steps": "761/2181", "elapsed_time": "1h 4m 44s", "remaining_time": "2h 0m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104219}
+{"loss": 2.51272035, "grad_norm": 0.35352358, "learning_rate": 0.00075577, "token_acc": 0.4727955, "epoch": 0.3495012, "global_step/max_steps": "762/2181", "elapsed_time": "1h 4m 50s", "remaining_time": "2h 0m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104586}
+{"loss": 2.4849, "grad_norm": 0.32305014, "learning_rate": 0.00075513, "token_acc": 0.47396566, "epoch": 0.34995987, "global_step/max_steps": "763/2181", "elapsed_time": "1h 4m 55s", "remaining_time": "2h 0m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104629}
+{"loss": 2.4135983, "grad_norm": 0.33247882, "learning_rate": 0.00075449, "token_acc": 0.47573348, "epoch": 0.35041853, "global_step/max_steps": "764/2181", "elapsed_time": "1h 4m 60s", "remaining_time": "2h 0m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104102}
+{"loss": 2.49699354, "grad_norm": 0.36489218, "learning_rate": 0.00075385, "token_acc": 0.47896996, "epoch": 0.35087719, "global_step/max_steps": "765/2181", "elapsed_time": "1h 5m 4s", "remaining_time": "2h 0m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10386}
+{"loss": 2.4739778, "grad_norm": 0.36089343, "learning_rate": 0.00075321, "token_acc": 0.48470255, "epoch": 0.35133586, "global_step/max_steps": "766/2181", "elapsed_time": "1h 5m 10s", "remaining_time": "2h 0m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103853}
+{"loss": 2.56322575, "grad_norm": 0.35839248, "learning_rate": 0.00075257, "token_acc": 0.46428571, "epoch": 0.35179452, "global_step/max_steps": "767/2181", "elapsed_time": "1h 5m 15s", "remaining_time": "2h 0m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103835}
+{"loss": 2.489604, "grad_norm": 0.35109156, "learning_rate": 0.00075193, "token_acc": 0.47200909, "epoch": 0.35225318, "global_step/max_steps": "768/2181", "elapsed_time": "1h 5m 20s", "remaining_time": "2h 0m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103842}
+{"loss": 2.48270416, "grad_norm": 0.3396439, "learning_rate": 0.00075129, "token_acc": 0.47461109, "epoch": 0.35271184, "global_step/max_steps": "769/2181", "elapsed_time": "1h 5m 25s", "remaining_time": "2h 0m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103553}
+{"loss": 2.39962912, "grad_norm": 0.32917967, "learning_rate": 0.00075064, "token_acc": 0.49016893, "epoch": 0.35317051, "global_step/max_steps": "770/2181", "elapsed_time": "1h 5m 30s", "remaining_time": "2h 0m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103617}
+{"loss": 2.42400837, "grad_norm": 0.35253039, "learning_rate": 0.00075, "token_acc": 0.48319328, "epoch": 0.35362917, "global_step/max_steps": "771/2181", "elapsed_time": "1h 5m 35s", "remaining_time": "1h 59m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103818}
+{"loss": 2.56456447, "grad_norm": 0.35485935, "learning_rate": 0.00074936, "token_acc": 0.46440043, "epoch": 0.35408783, "global_step/max_steps": "772/2181", "elapsed_time": "1h 5m 40s", "remaining_time": "1h 59m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103639}
+{"loss": 2.47724628, "grad_norm": 0.35358906, "learning_rate": 0.00074871, "token_acc": 0.48592138, "epoch": 0.3545465, "global_step/max_steps": "773/2181", "elapsed_time": "1h 5m 45s", "remaining_time": "1h 59m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103558}
+{"loss": 2.4619813, "grad_norm": 0.341811, "learning_rate": 0.00074807, "token_acc": 0.47187587, "epoch": 0.35500516, "global_step/max_steps": "774/2181", "elapsed_time": "1h 5m 50s", "remaining_time": "1h 59m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103451}
+{"loss": 2.51745582, "grad_norm": 0.33529705, "learning_rate": 0.00074742, "token_acc": 0.47394817, "epoch": 0.35546382, "global_step/max_steps": "775/2181", "elapsed_time": "1h 5m 55s", "remaining_time": "1h 59m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103722}
+{"loss": 2.4946897, "grad_norm": 0.32859755, "learning_rate": 0.00074678, "token_acc": 0.47428097, "epoch": 0.35592249, "global_step/max_steps": "776/2181", "elapsed_time": "1h 6m 1s", "remaining_time": "1h 59m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104164}
+{"loss": 2.36530638, "grad_norm": 0.3505978, "learning_rate": 0.00074613, "token_acc": 0.49294582, "epoch": 0.35638115, "global_step/max_steps": "777/2181", "elapsed_time": "1h 6m 6s", "remaining_time": "1h 59m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104291}
+{"loss": 2.4750514, "grad_norm": 0.33956569, "learning_rate": 0.00074548, "token_acc": 0.4721987, "epoch": 0.35683981, "global_step/max_steps": "778/2181", "elapsed_time": "1h 6m 11s", "remaining_time": "1h 59m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104029}
+{"loss": 2.41328382, "grad_norm": 0.34542128, "learning_rate": 0.00074484, "token_acc": 0.48042805, "epoch": 0.35729847, "global_step/max_steps": "779/2181", "elapsed_time": "1h 6m 16s", "remaining_time": "1h 59m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10377}
+{"loss": 2.43112898, "grad_norm": 0.3556239, "learning_rate": 0.00074419, "token_acc": 0.49094567, "epoch": 0.35775714, "global_step/max_steps": "780/2181", "elapsed_time": "1h 6m 21s", "remaining_time": "1h 59m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103576}
+{"loss": 2.39571333, "grad_norm": 0.3337965, "learning_rate": 0.00074354, "token_acc": 0.49889012, "epoch": 0.3582158, "global_step/max_steps": "781/2181", "elapsed_time": "1h 6m 26s", "remaining_time": "1h 59m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103831}
+{"loss": 2.28890824, "grad_norm": 0.33352318, "learning_rate": 0.00074289, "token_acc": 0.5097931, "epoch": 0.35867446, "global_step/max_steps": "782/2181", "elapsed_time": "1h 6m 31s", "remaining_time": "1h 58m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103409}
+{"loss": 2.4042244, "grad_norm": 0.333507, "learning_rate": 0.00074224, "token_acc": 0.4846804, "epoch": 0.35913313, "global_step/max_steps": "783/2181", "elapsed_time": "1h 6m 36s", "remaining_time": "1h 58m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103376}
+{"loss": 2.42915821, "grad_norm": 0.36291772, "learning_rate": 0.00074159, "token_acc": 0.48651717, "epoch": 0.35959179, "global_step/max_steps": "784/2181", "elapsed_time": "1h 6m 41s", "remaining_time": "1h 58m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10343}
+{"loss": 2.55529737, "grad_norm": 0.3430506, "learning_rate": 0.00074094, "token_acc": 0.46711074, "epoch": 0.36005045, "global_step/max_steps": "785/2181", "elapsed_time": "1h 6m 46s", "remaining_time": "1h 58m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102817}
+{"loss": 2.4327302, "grad_norm": 0.33129901, "learning_rate": 0.00074029, "token_acc": 0.47728563, "epoch": 0.36050912, "global_step/max_steps": "786/2181", "elapsed_time": "1h 6m 51s", "remaining_time": "1h 58m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102531}
+{"loss": 2.49529815, "grad_norm": 0.34715322, "learning_rate": 0.00073964, "token_acc": 0.47733333, "epoch": 0.36096778, "global_step/max_steps": "787/2181", "elapsed_time": "1h 6m 56s", "remaining_time": "1h 58m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102368}
+{"loss": 2.44475961, "grad_norm": 0.32896346, "learning_rate": 0.00073899, "token_acc": 0.48094425, "epoch": 0.36142644, "global_step/max_steps": "788/2181", "elapsed_time": "1h 7m 1s", "remaining_time": "1h 58m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102519}
+{"loss": 2.39923, "grad_norm": 0.33326054, "learning_rate": 0.00073833, "token_acc": 0.47897727, "epoch": 0.3618851, "global_step/max_steps": "789/2181", "elapsed_time": "1h 7m 6s", "remaining_time": "1h 58m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1028}
+{"loss": 2.5227263, "grad_norm": 0.33359361, "learning_rate": 0.00073768, "token_acc": 0.48142031, "epoch": 0.36234377, "global_step/max_steps": "790/2181", "elapsed_time": "1h 7m 11s", "remaining_time": "1h 58m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102825}
+{"loss": 2.511199, "grad_norm": 0.30910125, "learning_rate": 0.00073703, "token_acc": 0.46598905, "epoch": 0.36280243, "global_step/max_steps": "791/2181", "elapsed_time": "1h 7m 16s", "remaining_time": "1h 58m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102534}
+{"loss": 2.44741774, "grad_norm": 0.34560606, "learning_rate": 0.00073637, "token_acc": 0.47259508, "epoch": 0.36326109, "global_step/max_steps": "792/2181", "elapsed_time": "1h 7m 21s", "remaining_time": "1h 58m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102564}
+{"loss": 2.40651703, "grad_norm": 0.33549306, "learning_rate": 0.00073572, "token_acc": 0.48429613, "epoch": 0.36371976, "global_step/max_steps": "793/2181", "elapsed_time": "1h 7m 26s", "remaining_time": "1h 58m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102752}
+{"loss": 2.46753645, "grad_norm": 0.36798707, "learning_rate": 0.00073506, "token_acc": 0.48321002, "epoch": 0.36417842, "global_step/max_steps": "794/2181", "elapsed_time": "1h 7m 32s", "remaining_time": "1h 57m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10364}
+{"loss": 2.48075342, "grad_norm": 0.32621476, "learning_rate": 0.00073441, "token_acc": 0.47024286, "epoch": 0.36463708, "global_step/max_steps": "795/2181", "elapsed_time": "1h 7m 37s", "remaining_time": "1h 57m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10363}
+{"loss": 2.49588585, "grad_norm": 0.35158411, "learning_rate": 0.00073375, "token_acc": 0.46664814, "epoch": 0.36509575, "global_step/max_steps": "796/2181", "elapsed_time": "1h 7m 42s", "remaining_time": "1h 57m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103497}
+{"loss": 2.3792963, "grad_norm": 0.36349595, "learning_rate": 0.00073309, "token_acc": 0.50246171, "epoch": 0.36555441, "global_step/max_steps": "797/2181", "elapsed_time": "1h 7m 47s", "remaining_time": "1h 57m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10322}
+{"loss": 2.41754007, "grad_norm": 0.3746019, "learning_rate": 0.00073244, "token_acc": 0.48044853, "epoch": 0.36601307, "global_step/max_steps": "798/2181", "elapsed_time": "1h 7m 52s", "remaining_time": "1h 57m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103218}
+{"loss": 2.38469982, "grad_norm": 0.34051451, "learning_rate": 0.00073178, "token_acc": 0.49243506, "epoch": 0.36647173, "global_step/max_steps": "799/2181", "elapsed_time": "1h 7m 57s", "remaining_time": "1h 57m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10301}
+{"loss": 2.46416616, "grad_norm": 0.35937047, "learning_rate": 0.00073112, "token_acc": 0.47732558, "epoch": 0.3669304, "global_step/max_steps": "800/2181", "elapsed_time": "1h 8m 3s", "remaining_time": "1h 57m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103144}
+{"loss": 2.49499202, "grad_norm": 0.35380581, "learning_rate": 0.00073046, "token_acc": 0.47866777, "epoch": 0.36738906, "global_step/max_steps": "801/2181", "elapsed_time": "1h 8m 7s", "remaining_time": "1h 57m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102691}
+{"loss": 2.4123919, "grad_norm": 0.33087713, "learning_rate": 0.0007298, "token_acc": 0.47576849, "epoch": 0.36784772, "global_step/max_steps": "802/2181", "elapsed_time": "1h 8m 13s", "remaining_time": "1h 57m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103154}
+{"loss": 2.47537947, "grad_norm": 0.34768853, "learning_rate": 0.00072914, "token_acc": 0.47018222, "epoch": 0.36830639, "global_step/max_steps": "803/2181", "elapsed_time": "1h 8m 18s", "remaining_time": "1h 57m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102805}
+{"loss": 2.51709938, "grad_norm": 0.36175618, "learning_rate": 0.00072848, "token_acc": 0.46815287, "epoch": 0.36876505, "global_step/max_steps": "804/2181", "elapsed_time": "1h 8m 23s", "remaining_time": "1h 57m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10285}
+{"loss": 2.58043981, "grad_norm": 0.34956565, "learning_rate": 0.00072782, "token_acc": 0.46145027, "epoch": 0.36922371, "global_step/max_steps": "805/2181", "elapsed_time": "1h 8m 28s", "remaining_time": "1h 57m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103069}
+{"loss": 2.34982657, "grad_norm": 0.36770332, "learning_rate": 0.00072716, "token_acc": 0.48791331, "epoch": 0.36968238, "global_step/max_steps": "806/2181", "elapsed_time": "1h 8m 33s", "remaining_time": "1h 56m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102966}
+{"loss": 2.46491623, "grad_norm": 0.35276127, "learning_rate": 0.0007265, "token_acc": 0.4831813, "epoch": 0.37014104, "global_step/max_steps": "807/2181", "elapsed_time": "1h 8m 38s", "remaining_time": "1h 56m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103111}
+{"loss": 2.59204197, "grad_norm": 0.34930542, "learning_rate": 0.00072584, "token_acc": 0.4601042, "epoch": 0.3705997, "global_step/max_steps": "808/2181", "elapsed_time": "1h 8m 43s", "remaining_time": "1h 56m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102895}
+{"loss": 2.43854713, "grad_norm": 0.38424358, "learning_rate": 0.00072517, "token_acc": 0.48090692, "epoch": 0.37105836, "global_step/max_steps": "809/2181", "elapsed_time": "1h 8m 48s", "remaining_time": "1h 56m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102597}
+{"loss": 2.39286375, "grad_norm": 0.35258961, "learning_rate": 0.00072451, "token_acc": 0.48171227, "epoch": 0.37151703, "global_step/max_steps": "810/2181", "elapsed_time": "1h 8m 53s", "remaining_time": "1h 56m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102321}
+{"loss": 2.54845285, "grad_norm": 0.37012959, "learning_rate": 0.00072385, "token_acc": 0.47529813, "epoch": 0.37197569, "global_step/max_steps": "811/2181", "elapsed_time": "1h 8m 58s", "remaining_time": "1h 56m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102642}
+{"loss": 2.55403566, "grad_norm": 0.34005725, "learning_rate": 0.00072318, "token_acc": 0.4784839, "epoch": 0.37243435, "global_step/max_steps": "812/2181", "elapsed_time": "1h 9m 3s", "remaining_time": "1h 56m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102811}
+{"loss": 2.4485302, "grad_norm": 0.34729236, "learning_rate": 0.00072252, "token_acc": 0.47530688, "epoch": 0.37289302, "global_step/max_steps": "813/2181", "elapsed_time": "1h 9m 9s", "remaining_time": "1h 56m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102806}
+{"loss": 2.56111813, "grad_norm": 0.34363571, "learning_rate": 0.00072185, "token_acc": 0.46751451, "epoch": 0.37335168, "global_step/max_steps": "814/2181", "elapsed_time": "1h 9m 13s", "remaining_time": "1h 56m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102579}
+{"loss": 2.49059987, "grad_norm": 0.34150574, "learning_rate": 0.00072119, "token_acc": 0.48021634, "epoch": 0.37381034, "global_step/max_steps": "815/2181", "elapsed_time": "1h 9m 18s", "remaining_time": "1h 56m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102138}
+{"loss": 2.48866224, "grad_norm": 0.32244098, "learning_rate": 0.00072052, "token_acc": 0.47033087, "epoch": 0.37426901, "global_step/max_steps": "816/2181", "elapsed_time": "1h 9m 24s", "remaining_time": "1h 56m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102607}
+{"loss": 2.34667921, "grad_norm": 0.33436024, "learning_rate": 0.00071985, "token_acc": 0.49929637, "epoch": 0.37472767, "global_step/max_steps": "817/2181", "elapsed_time": "1h 9m 28s", "remaining_time": "1h 55m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102191}
+{"loss": 2.42710447, "grad_norm": 0.35451475, "learning_rate": 0.00071919, "token_acc": 0.48335214, "epoch": 0.37518633, "global_step/max_steps": "818/2181", "elapsed_time": "1h 9m 34s", "remaining_time": "1h 55m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102192}
+{"loss": 2.4105792, "grad_norm": 0.3391993, "learning_rate": 0.00071852, "token_acc": 0.49044238, "epoch": 0.37564499, "global_step/max_steps": "819/2181", "elapsed_time": "1h 9m 39s", "remaining_time": "1h 55m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102222}
+{"loss": 2.51840496, "grad_norm": 0.36033088, "learning_rate": 0.00071785, "token_acc": 0.47841727, "epoch": 0.37610366, "global_step/max_steps": "820/2181", "elapsed_time": "1h 9m 44s", "remaining_time": "1h 55m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102371}
+{"loss": 2.47871184, "grad_norm": 0.37622544, "learning_rate": 0.00071718, "token_acc": 0.47202895, "epoch": 0.37656232, "global_step/max_steps": "821/2181", "elapsed_time": "1h 9m 49s", "remaining_time": "1h 55m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102571}
+{"loss": 2.51218224, "grad_norm": 0.35045674, "learning_rate": 0.00071651, "token_acc": 0.46369637, "epoch": 0.37702098, "global_step/max_steps": "822/2181", "elapsed_time": "1h 9m 54s", "remaining_time": "1h 55m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102028}
+{"loss": 2.51154661, "grad_norm": 0.3700496, "learning_rate": 0.00071584, "token_acc": 0.46317512, "epoch": 0.37747965, "global_step/max_steps": "823/2181", "elapsed_time": "1h 9m 59s", "remaining_time": "1h 55m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10162}
+{"loss": 2.49138927, "grad_norm": 0.38144851, "learning_rate": 0.00071517, "token_acc": 0.47219894, "epoch": 0.37793831, "global_step/max_steps": "824/2181", "elapsed_time": "1h 10m 4s", "remaining_time": "1h 55m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101343}
+{"loss": 2.4309535, "grad_norm": 0.33497784, "learning_rate": 0.0007145, "token_acc": 0.48610354, "epoch": 0.37839697, "global_step/max_steps": "825/2181", "elapsed_time": "1h 10m 8s", "remaining_time": "1h 55m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100888}
+{"loss": 2.54157019, "grad_norm": 0.36388379, "learning_rate": 0.00071383, "token_acc": 0.46145464, "epoch": 0.37885564, "global_step/max_steps": "826/2181", "elapsed_time": "1h 10m 13s", "remaining_time": "1h 55m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100641}
+{"loss": 2.53936815, "grad_norm": 0.39956376, "learning_rate": 0.00071316, "token_acc": 0.47080499, "epoch": 0.3793143, "global_step/max_steps": "827/2181", "elapsed_time": "1h 10m 18s", "remaining_time": "1h 55m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100697}
+{"loss": 2.52398753, "grad_norm": 0.33401424, "learning_rate": 0.00071249, "token_acc": 0.47542327, "epoch": 0.37977296, "global_step/max_steps": "828/2181", "elapsed_time": "1h 10m 23s", "remaining_time": "1h 55m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100435}
+{"loss": 2.54559708, "grad_norm": 0.35995504, "learning_rate": 0.00071181, "token_acc": 0.46755556, "epoch": 0.38023162, "global_step/max_steps": "829/2181", "elapsed_time": "1h 10m 28s", "remaining_time": "1h 54m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099865}
+{"loss": 2.51352811, "grad_norm": 0.34945256, "learning_rate": 0.00071114, "token_acc": 0.46258693, "epoch": 0.38069029, "global_step/max_steps": "830/2181", "elapsed_time": "1h 10m 33s", "remaining_time": "1h 54m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099507}
+{"loss": 2.49628687, "grad_norm": 0.34327561, "learning_rate": 0.00071047, "token_acc": 0.47706171, "epoch": 0.38114895, "global_step/max_steps": "831/2181", "elapsed_time": "1h 10m 38s", "remaining_time": "1h 54m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099689}
+{"loss": 2.46451855, "grad_norm": 0.36182398, "learning_rate": 0.00070979, "token_acc": 0.48679868, "epoch": 0.38160761, "global_step/max_steps": "832/2181", "elapsed_time": "1h 10m 43s", "remaining_time": "1h 54m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099639}
+{"loss": 2.56407309, "grad_norm": 0.33237511, "learning_rate": 0.00070912, "token_acc": 0.46027027, "epoch": 0.38206628, "global_step/max_steps": "833/2181", "elapsed_time": "1h 10m 48s", "remaining_time": "1h 54m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099386}
+{"loss": 2.48854232, "grad_norm": 0.33254516, "learning_rate": 0.00070844, "token_acc": 0.47088895, "epoch": 0.38252494, "global_step/max_steps": "834/2181", "elapsed_time": "1h 10m 53s", "remaining_time": "1h 54m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099208}
+{"loss": 2.37434077, "grad_norm": 0.3296065, "learning_rate": 0.00070777, "token_acc": 0.49011644, "epoch": 0.3829836, "global_step/max_steps": "835/2181", "elapsed_time": "1h 10m 58s", "remaining_time": "1h 54m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099003}
+{"loss": 2.55886412, "grad_norm": 0.32573697, "learning_rate": 0.00070709, "token_acc": 0.46733668, "epoch": 0.38344227, "global_step/max_steps": "836/2181", "elapsed_time": "1h 11m 3s", "remaining_time": "1h 54m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099397}
+{"loss": 2.40581512, "grad_norm": 0.32956293, "learning_rate": 0.00070642, "token_acc": 0.4703159, "epoch": 0.38390093, "global_step/max_steps": "837/2181", "elapsed_time": "1h 11m 8s", "remaining_time": "1h 54m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099271}
+{"loss": 2.45424032, "grad_norm": 0.33827689, "learning_rate": 0.00070574, "token_acc": 0.47263682, "epoch": 0.38435959, "global_step/max_steps": "838/2181", "elapsed_time": "1h 11m 13s", "remaining_time": "1h 54m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099162}
+{"loss": 2.45158792, "grad_norm": 0.36211002, "learning_rate": 0.00070506, "token_acc": 0.48202473, "epoch": 0.38481825, "global_step/max_steps": "839/2181", "elapsed_time": "1h 11m 18s", "remaining_time": "1h 54m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09934}
+{"loss": 2.47622204, "grad_norm": 0.34998384, "learning_rate": 0.00070439, "token_acc": 0.47248908, "epoch": 0.38527692, "global_step/max_steps": "840/2181", "elapsed_time": "1h 11m 23s", "remaining_time": "1h 53m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09936}
+{"loss": 2.41792822, "grad_norm": 0.34161198, "learning_rate": 0.00070371, "token_acc": 0.47489598, "epoch": 0.38573558, "global_step/max_steps": "841/2181", "elapsed_time": "1h 11m 28s", "remaining_time": "1h 53m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099051}
+{"loss": 2.42313433, "grad_norm": 0.35813764, "learning_rate": 0.00070303, "token_acc": 0.48804379, "epoch": 0.38619424, "global_step/max_steps": "842/2181", "elapsed_time": "1h 11m 33s", "remaining_time": "1h 53m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099049}
+{"loss": 2.38751745, "grad_norm": 0.31148633, "learning_rate": 0.00070235, "token_acc": 0.48638988, "epoch": 0.38665291, "global_step/max_steps": "843/2181", "elapsed_time": "1h 11m 39s", "remaining_time": "1h 53m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09922}
+{"loss": 2.3906877, "grad_norm": 0.36698824, "learning_rate": 0.00070167, "token_acc": 0.4820557, "epoch": 0.38711157, "global_step/max_steps": "844/2181", "elapsed_time": "1h 11m 44s", "remaining_time": "1h 53m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099596}
+{"loss": 2.4574132, "grad_norm": 0.34246001, "learning_rate": 0.00070099, "token_acc": 0.47254902, "epoch": 0.38757023, "global_step/max_steps": "845/2181", "elapsed_time": "1h 11m 49s", "remaining_time": "1h 53m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099567}
+{"loss": 2.36553097, "grad_norm": 0.33145285, "learning_rate": 0.00070031, "token_acc": 0.49505766, "epoch": 0.3880289, "global_step/max_steps": "846/2181", "elapsed_time": "1h 11m 54s", "remaining_time": "1h 53m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099417}
+{"loss": 2.57064676, "grad_norm": 0.35074988, "learning_rate": 0.00069963, "token_acc": 0.4544711, "epoch": 0.38848756, "global_step/max_steps": "847/2181", "elapsed_time": "1h 11m 59s", "remaining_time": "1h 53m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099032}
+{"loss": 2.54213095, "grad_norm": 0.35580704, "learning_rate": 0.00069895, "token_acc": 0.45558816, "epoch": 0.38894622, "global_step/max_steps": "848/2181", "elapsed_time": "1h 12m 4s", "remaining_time": "1h 53m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098606}
+{"loss": 2.48277235, "grad_norm": 0.32969716, "learning_rate": 0.00069827, "token_acc": 0.47841105, "epoch": 0.38940488, "global_step/max_steps": "849/2181", "elapsed_time": "1h 12m 9s", "remaining_time": "1h 53m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099073}
+{"loss": 2.44181633, "grad_norm": 0.33235902, "learning_rate": 0.00069759, "token_acc": 0.47895177, "epoch": 0.38986355, "global_step/max_steps": "850/2181", "elapsed_time": "1h 12m 15s", "remaining_time": "1h 53m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099443}
+{"loss": 2.44647503, "grad_norm": 0.31797385, "learning_rate": 0.0006969, "token_acc": 0.47172904, "epoch": 0.39032221, "global_step/max_steps": "851/2181", "elapsed_time": "1h 12m 19s", "remaining_time": "1h 53m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099082}
+{"loss": 2.55093908, "grad_norm": 0.34864169, "learning_rate": 0.00069622, "token_acc": 0.46135003, "epoch": 0.39078087, "global_step/max_steps": "852/2181", "elapsed_time": "1h 12m 24s", "remaining_time": "1h 52m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098896}
+{"loss": 2.43782854, "grad_norm": 0.35785609, "learning_rate": 0.00069554, "token_acc": 0.4782126, "epoch": 0.39123954, "global_step/max_steps": "853/2181", "elapsed_time": "1h 12m 30s", "remaining_time": "1h 52m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099115}
+{"loss": 2.41850042, "grad_norm": 0.33879054, "learning_rate": 0.00069485, "token_acc": 0.47908309, "epoch": 0.3916982, "global_step/max_steps": "854/2181", "elapsed_time": "1h 12m 34s", "remaining_time": "1h 52m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098691}
+{"loss": 2.55277252, "grad_norm": 0.35762784, "learning_rate": 0.00069417, "token_acc": 0.4581749, "epoch": 0.39215686, "global_step/max_steps": "855/2181", "elapsed_time": "1h 12m 39s", "remaining_time": "1h 52m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09851}
+{"loss": 2.38723326, "grad_norm": 0.36173674, "learning_rate": 0.00069348, "token_acc": 0.49721448, "epoch": 0.39261553, "global_step/max_steps": "856/2181", "elapsed_time": "1h 12m 44s", "remaining_time": "1h 52m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098111}
+{"loss": 2.48953366, "grad_norm": 0.37259686, "learning_rate": 0.0006928, "token_acc": 0.47327394, "epoch": 0.39307419, "global_step/max_steps": "857/2181", "elapsed_time": "1h 12m 49s", "remaining_time": "1h 52m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097686}
+{"loss": 2.46920323, "grad_norm": 0.35217392, "learning_rate": 0.00069211, "token_acc": 0.48589779, "epoch": 0.39353285, "global_step/max_steps": "858/2181", "elapsed_time": "1h 12m 53s", "remaining_time": "1h 52m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09725}
+{"loss": 2.4380343, "grad_norm": 0.31820574, "learning_rate": 0.00069143, "token_acc": 0.48578526, "epoch": 0.39399151, "global_step/max_steps": "859/2181", "elapsed_time": "1h 12m 59s", "remaining_time": "1h 52m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09768}
+{"loss": 2.41368961, "grad_norm": 0.33736086, "learning_rate": 0.00069074, "token_acc": 0.48776418, "epoch": 0.39445018, "global_step/max_steps": "860/2181", "elapsed_time": "1h 13m 4s", "remaining_time": "1h 52m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097243}
+{"loss": 2.46102118, "grad_norm": 0.31831533, "learning_rate": 0.00069005, "token_acc": 0.47523136, "epoch": 0.39490884, "global_step/max_steps": "861/2181", "elapsed_time": "1h 13m 9s", "remaining_time": "1h 52m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097386}
+{"loss": 2.47148204, "grad_norm": 0.33929315, "learning_rate": 0.00068937, "token_acc": 0.4803759, "epoch": 0.3953675, "global_step/max_steps": "862/2181", "elapsed_time": "1h 13m 14s", "remaining_time": "1h 52m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097023}
+{"loss": 2.50932169, "grad_norm": 0.33733329, "learning_rate": 0.00068868, "token_acc": 0.47908423, "epoch": 0.39582617, "global_step/max_steps": "863/2181", "elapsed_time": "1h 13m 19s", "remaining_time": "1h 51m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096792}
+{"loss": 2.53047752, "grad_norm": 0.32101324, "learning_rate": 0.00068799, "token_acc": 0.46609227, "epoch": 0.39628483, "global_step/max_steps": "864/2181", "elapsed_time": "1h 13m 24s", "remaining_time": "1h 51m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096904}
+{"loss": 2.39329386, "grad_norm": 0.32578906, "learning_rate": 0.0006873, "token_acc": 0.4833854, "epoch": 0.39674349, "global_step/max_steps": "865/2181", "elapsed_time": "1h 13m 29s", "remaining_time": "1h 51m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097466}
+{"loss": 2.42112279, "grad_norm": 0.34614992, "learning_rate": 0.00068661, "token_acc": 0.46991174, "epoch": 0.39720216, "global_step/max_steps": "866/2181", "elapsed_time": "1h 13m 34s", "remaining_time": "1h 51m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097366}
+{"loss": 2.49572325, "grad_norm": 0.36215365, "learning_rate": 0.00068593, "token_acc": 0.46153846, "epoch": 0.39766082, "global_step/max_steps": "867/2181", "elapsed_time": "1h 13m 40s", "remaining_time": "1h 51m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097708}
+{"loss": 2.49892116, "grad_norm": 0.35101947, "learning_rate": 0.00068524, "token_acc": 0.47461929, "epoch": 0.39811948, "global_step/max_steps": "868/2181", "elapsed_time": "1h 13m 45s", "remaining_time": "1h 51m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097651}
+{"loss": 2.46385002, "grad_norm": 0.33138022, "learning_rate": 0.00068455, "token_acc": 0.46782377, "epoch": 0.39857814, "global_step/max_steps": "869/2181", "elapsed_time": "1h 13m 50s", "remaining_time": "1h 51m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097568}
+{"loss": 2.52763367, "grad_norm": 0.33593845, "learning_rate": 0.00068386, "token_acc": 0.46591223, "epoch": 0.39903681, "global_step/max_steps": "870/2181", "elapsed_time": "1h 13m 55s", "remaining_time": "1h 51m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097568}
+{"loss": 2.52584124, "grad_norm": 0.33474427, "learning_rate": 0.00068316, "token_acc": 0.4630596, "epoch": 0.39949547, "global_step/max_steps": "871/2181", "elapsed_time": "1h 14m 0s", "remaining_time": "1h 51m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097653}
+{"loss": 2.35780835, "grad_norm": 0.33878329, "learning_rate": 0.00068247, "token_acc": 0.49681344, "epoch": 0.39995413, "global_step/max_steps": "872/2181", "elapsed_time": "1h 14m 5s", "remaining_time": "1h 51m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097346}
+{"loss": 2.50749016, "grad_norm": 0.33555046, "learning_rate": 0.00068178, "token_acc": 0.46256831, "epoch": 0.4004128, "global_step/max_steps": "873/2181", "elapsed_time": "1h 14m 10s", "remaining_time": "1h 51m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097618}
+{"loss": 2.45799971, "grad_norm": 0.32225114, "learning_rate": 0.00068109, "token_acc": 0.47377094, "epoch": 0.40087146, "global_step/max_steps": "874/2181", "elapsed_time": "1h 14m 16s", "remaining_time": "1h 51m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098168}
+{"loss": 2.50055909, "grad_norm": 0.40958118, "learning_rate": 0.0006804, "token_acc": 0.47086969, "epoch": 0.40133012, "global_step/max_steps": "875/2181", "elapsed_time": "1h 14m 20s", "remaining_time": "1h 50m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097611}
+{"loss": 2.46174717, "grad_norm": 0.34221536, "learning_rate": 0.0006797, "token_acc": 0.4695122, "epoch": 0.40178879, "global_step/max_steps": "876/2181", "elapsed_time": "1h 14m 25s", "remaining_time": "1h 50m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097133}
+{"loss": 2.43944025, "grad_norm": 0.37586331, "learning_rate": 0.00067901, "token_acc": 0.48199065, "epoch": 0.40224745, "global_step/max_steps": "877/2181", "elapsed_time": "1h 14m 30s", "remaining_time": "1h 50m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097011}
+{"loss": 2.4620204, "grad_norm": 0.34012622, "learning_rate": 0.00067832, "token_acc": 0.4674221, "epoch": 0.40270611, "global_step/max_steps": "878/2181", "elapsed_time": "1h 14m 35s", "remaining_time": "1h 50m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096914}
+{"loss": 2.49172306, "grad_norm": 0.34702912, "learning_rate": 0.00067762, "token_acc": 0.46695035, "epoch": 0.40316477, "global_step/max_steps": "879/2181", "elapsed_time": "1h 14m 40s", "remaining_time": "1h 50m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096671}
+{"loss": 2.46116543, "grad_norm": 0.33893594, "learning_rate": 0.00067693, "token_acc": 0.47615016, "epoch": 0.40362344, "global_step/max_steps": "880/2181", "elapsed_time": "1h 14m 45s", "remaining_time": "1h 50m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096512}
+{"loss": 2.44110107, "grad_norm": 0.33084273, "learning_rate": 0.00067623, "token_acc": 0.48130174, "epoch": 0.4040821, "global_step/max_steps": "881/2181", "elapsed_time": "1h 14m 50s", "remaining_time": "1h 50m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096302}
+{"loss": 2.48162317, "grad_norm": 0.32150578, "learning_rate": 0.00067554, "token_acc": 0.46984572, "epoch": 0.40454076, "global_step/max_steps": "882/2181", "elapsed_time": "1h 14m 55s", "remaining_time": "1h 50m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096143}
+{"loss": 2.54220319, "grad_norm": 0.33226046, "learning_rate": 0.00067484, "token_acc": 0.46240395, "epoch": 0.40499943, "global_step/max_steps": "883/2181", "elapsed_time": "1h 14m 60s", "remaining_time": "1h 50m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095962}
+{"loss": 2.4750824, "grad_norm": 0.34170505, "learning_rate": 0.00067415, "token_acc": 0.4783338, "epoch": 0.40545809, "global_step/max_steps": "884/2181", "elapsed_time": "1h 15m 5s", "remaining_time": "1h 50m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096101}
+{"loss": 2.47166371, "grad_norm": 0.36942837, "learning_rate": 0.00067345, "token_acc": 0.47437358, "epoch": 0.40591675, "global_step/max_steps": "885/2181", "elapsed_time": "1h 15m 10s", "remaining_time": "1h 50m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096189}
+{"loss": 2.46749878, "grad_norm": 0.3408249, "learning_rate": 0.00067275, "token_acc": 0.48575342, "epoch": 0.40637542, "global_step/max_steps": "886/2181", "elapsed_time": "1h 15m 15s", "remaining_time": "1h 49m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096423}
+{"loss": 2.52584147, "grad_norm": 0.37064597, "learning_rate": 0.00067206, "token_acc": 0.47793481, "epoch": 0.40683408, "global_step/max_steps": "887/2181", "elapsed_time": "1h 15m 21s", "remaining_time": "1h 49m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096638}
+{"loss": 2.42702413, "grad_norm": 0.33338824, "learning_rate": 0.00067136, "token_acc": 0.48518726, "epoch": 0.40729274, "global_step/max_steps": "888/2181", "elapsed_time": "1h 15m 26s", "remaining_time": "1h 49m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096905}
+{"loss": 2.51374149, "grad_norm": 0.34808499, "learning_rate": 0.00067066, "token_acc": 0.46549276, "epoch": 0.4077514, "global_step/max_steps": "889/2181", "elapsed_time": "1h 15m 31s", "remaining_time": "1h 49m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097116}
+{"loss": 2.41268015, "grad_norm": 0.33851409, "learning_rate": 0.00066996, "token_acc": 0.48586772, "epoch": 0.40821007, "global_step/max_steps": "890/2181", "elapsed_time": "1h 15m 36s", "remaining_time": "1h 49m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097012}
+{"loss": 2.35713172, "grad_norm": 0.32687926, "learning_rate": 0.00066926, "token_acc": 0.49587232, "epoch": 0.40866873, "global_step/max_steps": "891/2181", "elapsed_time": "1h 15m 41s", "remaining_time": "1h 49m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096798}
+{"loss": 2.38927436, "grad_norm": 0.34469566, "learning_rate": 0.00066857, "token_acc": 0.48179038, "epoch": 0.40912739, "global_step/max_steps": "892/2181", "elapsed_time": "1h 15m 46s", "remaining_time": "1h 49m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096719}
+{"loss": 2.47666669, "grad_norm": 0.33755696, "learning_rate": 0.00066787, "token_acc": 0.48666483, "epoch": 0.40958606, "global_step/max_steps": "893/2181", "elapsed_time": "1h 15m 51s", "remaining_time": "1h 49m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096573}
+{"loss": 2.56293464, "grad_norm": 0.32727566, "learning_rate": 0.00066717, "token_acc": 0.46840465, "epoch": 0.41004472, "global_step/max_steps": "894/2181", "elapsed_time": "1h 15m 56s", "remaining_time": "1h 49m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096473}
+{"loss": 2.4236083, "grad_norm": 0.36177248, "learning_rate": 0.00066647, "token_acc": 0.46989639, "epoch": 0.41050338, "global_step/max_steps": "895/2181", "elapsed_time": "1h 16m 1s", "remaining_time": "1h 49m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096425}
+{"loss": 2.41028905, "grad_norm": 0.32118985, "learning_rate": 0.00066577, "token_acc": 0.48795181, "epoch": 0.41096205, "global_step/max_steps": "896/2181", "elapsed_time": "1h 16m 6s", "remaining_time": "1h 49m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096434}
+{"loss": 2.43224621, "grad_norm": 0.329283, "learning_rate": 0.00066506, "token_acc": 0.49015856, "epoch": 0.41142071, "global_step/max_steps": "897/2181", "elapsed_time": "1h 16m 12s", "remaining_time": "1h 49m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096515}
+{"loss": 2.38623357, "grad_norm": 0.34543675, "learning_rate": 0.00066436, "token_acc": 0.49201904, "epoch": 0.41187937, "global_step/max_steps": "898/2181", "elapsed_time": "1h 16m 16s", "remaining_time": "1h 48m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096241}
+{"loss": 2.40451717, "grad_norm": 0.32504639, "learning_rate": 0.00066366, "token_acc": 0.47412854, "epoch": 0.41233803, "global_step/max_steps": "899/2181", "elapsed_time": "1h 16m 21s", "remaining_time": "1h 48m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096101}
+{"loss": 2.41348314, "grad_norm": 0.33107975, "learning_rate": 0.00066296, "token_acc": 0.47971631, "epoch": 0.4127967, "global_step/max_steps": "900/2181", "elapsed_time": "1h 16m 26s", "remaining_time": "1h 48m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095799}
+{"loss": 2.42311096, "grad_norm": 0.32989579, "learning_rate": 0.00066226, "token_acc": 0.48236259, "epoch": 0.41325536, "global_step/max_steps": "901/2181", "elapsed_time": "1h 16m 31s", "remaining_time": "1h 48m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.0956}
+{"loss": 2.52278566, "grad_norm": 0.34051639, "learning_rate": 0.00066155, "token_acc": 0.4665026, "epoch": 0.41371402, "global_step/max_steps": "902/2181", "elapsed_time": "1h 16m 36s", "remaining_time": "1h 48m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095468}
+{"loss": 2.40774155, "grad_norm": 0.33980957, "learning_rate": 0.00066085, "token_acc": 0.49686252, "epoch": 0.41417269, "global_step/max_steps": "903/2181", "elapsed_time": "1h 16m 41s", "remaining_time": "1h 48m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095396}
+{"loss": 2.50730705, "grad_norm": 0.31940085, "learning_rate": 0.00066015, "token_acc": 0.49060202, "epoch": 0.41463135, "global_step/max_steps": "904/2181", "elapsed_time": "1h 16m 46s", "remaining_time": "1h 48m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095461}
+{"loss": 2.41957855, "grad_norm": 0.32090759, "learning_rate": 0.00065944, "token_acc": 0.48060754, "epoch": 0.41509001, "global_step/max_steps": "905/2181", "elapsed_time": "1h 16m 52s", "remaining_time": "1h 48m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09561}
+{"loss": 2.40446353, "grad_norm": 0.34620383, "learning_rate": 0.00065874, "token_acc": 0.48699502, "epoch": 0.41554868, "global_step/max_steps": "906/2181", "elapsed_time": "1h 16m 57s", "remaining_time": "1h 48m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095823}
+{"loss": 2.47337508, "grad_norm": 0.33298105, "learning_rate": 0.00065804, "token_acc": 0.47184774, "epoch": 0.41600734, "global_step/max_steps": "907/2181", "elapsed_time": "1h 17m 2s", "remaining_time": "1h 48m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095932}
+{"loss": 2.38097525, "grad_norm": 0.33963081, "learning_rate": 0.00065733, "token_acc": 0.50139587, "epoch": 0.416466, "global_step/max_steps": "908/2181", "elapsed_time": "1h 17m 7s", "remaining_time": "1h 48m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096015}
+{"loss": 2.43605733, "grad_norm": 0.32496148, "learning_rate": 0.00065663, "token_acc": 0.47646104, "epoch": 0.41692466, "global_step/max_steps": "909/2181", "elapsed_time": "1h 17m 12s", "remaining_time": "1h 48m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095732}
+{"loss": 2.46483374, "grad_norm": 0.35692403, "learning_rate": 0.00065592, "token_acc": 0.47885364, "epoch": 0.41738333, "global_step/max_steps": "910/2181", "elapsed_time": "1h 17m 17s", "remaining_time": "1h 47m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095733}
+{"loss": 2.41117239, "grad_norm": 0.33814788, "learning_rate": 0.00065521, "token_acc": 0.4821727, "epoch": 0.41784199, "global_step/max_steps": "911/2181", "elapsed_time": "1h 17m 22s", "remaining_time": "1h 47m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095474}
+{"loss": 2.47949314, "grad_norm": 0.32509705, "learning_rate": 0.00065451, "token_acc": 0.46895604, "epoch": 0.41830065, "global_step/max_steps": "912/2181", "elapsed_time": "1h 17m 27s", "remaining_time": "1h 47m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095535}
+{"loss": 2.40643549, "grad_norm": 0.3304854, "learning_rate": 0.0006538, "token_acc": 0.48427498, "epoch": 0.41875932, "global_step/max_steps": "913/2181", "elapsed_time": "1h 17m 32s", "remaining_time": "1h 47m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095541}
+{"loss": 2.4972496, "grad_norm": 0.33755782, "learning_rate": 0.0006531, "token_acc": 0.48014541, "epoch": 0.41921798, "global_step/max_steps": "914/2181", "elapsed_time": "1h 17m 37s", "remaining_time": "1h 47m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095615}
+{"loss": 2.47193146, "grad_norm": 0.3390238, "learning_rate": 0.00065239, "token_acc": 0.47727906, "epoch": 0.41967664, "global_step/max_steps": "915/2181", "elapsed_time": "1h 17m 42s", "remaining_time": "1h 47m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095264}
+{"loss": 2.40436578, "grad_norm": 0.3327705, "learning_rate": 0.00065168, "token_acc": 0.48295927, "epoch": 0.42013531, "global_step/max_steps": "916/2181", "elapsed_time": "1h 17m 47s", "remaining_time": "1h 47m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095207}
+{"loss": 2.43640065, "grad_norm": 0.33349776, "learning_rate": 0.00065097, "token_acc": 0.4734476, "epoch": 0.42059397, "global_step/max_steps": "917/2181", "elapsed_time": "1h 17m 52s", "remaining_time": "1h 47m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095317}
+{"loss": 2.34199548, "grad_norm": 0.33737165, "learning_rate": 0.00065026, "token_acc": 0.49555309, "epoch": 0.42105263, "global_step/max_steps": "918/2181", "elapsed_time": "1h 17m 58s", "remaining_time": "1h 47m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095653}
+{"loss": 2.49827385, "grad_norm": 0.34129131, "learning_rate": 0.00064956, "token_acc": 0.47366962, "epoch": 0.42151129, "global_step/max_steps": "919/2181", "elapsed_time": "1h 18m 3s", "remaining_time": "1h 47m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095386}
+{"loss": 2.44787383, "grad_norm": 0.31151426, "learning_rate": 0.00064885, "token_acc": 0.48550917, "epoch": 0.42196996, "global_step/max_steps": "920/2181", "elapsed_time": "1h 18m 7s", "remaining_time": "1h 47m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095073}
+{"loss": 2.47565222, "grad_norm": 0.31772652, "learning_rate": 0.00064814, "token_acc": 0.48343292, "epoch": 0.42242862, "global_step/max_steps": "921/2181", "elapsed_time": "1h 18m 13s", "remaining_time": "1h 47m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095526}
+{"loss": 2.43079376, "grad_norm": 0.3632026, "learning_rate": 0.00064743, "token_acc": 0.49757766, "epoch": 0.42288728, "global_step/max_steps": "922/2181", "elapsed_time": "1h 18m 18s", "remaining_time": "1h 46m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095694}
+{"loss": 2.37102389, "grad_norm": 0.32924753, "learning_rate": 0.00064672, "token_acc": 0.49713662, "epoch": 0.42334595, "global_step/max_steps": "923/2181", "elapsed_time": "1h 18m 23s", "remaining_time": "1h 46m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095864}
+{"loss": 2.57200408, "grad_norm": 0.34935984, "learning_rate": 0.00064601, "token_acc": 0.46083333, "epoch": 0.42380461, "global_step/max_steps": "924/2181", "elapsed_time": "1h 18m 28s", "remaining_time": "1h 46m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095741}
+{"loss": 2.45325136, "grad_norm": 0.35568714, "learning_rate": 0.0006453, "token_acc": 0.48622101, "epoch": 0.42426327, "global_step/max_steps": "925/2181", "elapsed_time": "1h 18m 33s", "remaining_time": "1h 46m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095447}
+{"loss": 2.39481544, "grad_norm": 0.32208541, "learning_rate": 0.00064459, "token_acc": 0.47585071, "epoch": 0.42472194, "global_step/max_steps": "926/2181", "elapsed_time": "1h 18m 38s", "remaining_time": "1h 46m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.0953}
+{"loss": 2.42246985, "grad_norm": 0.33448139, "learning_rate": 0.00064388, "token_acc": 0.49603283, "epoch": 0.4251806, "global_step/max_steps": "927/2181", "elapsed_time": "1h 18m 43s", "remaining_time": "1h 46m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095128}
+{"loss": 2.52009177, "grad_norm": 0.39103878, "learning_rate": 0.00064316, "token_acc": 0.45892907, "epoch": 0.42563926, "global_step/max_steps": "928/2181", "elapsed_time": "1h 18m 48s", "remaining_time": "1h 46m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095185}
+{"loss": 2.5275228, "grad_norm": 0.33404374, "learning_rate": 0.00064245, "token_acc": 0.46451433, "epoch": 0.42609792, "global_step/max_steps": "929/2181", "elapsed_time": "1h 18m 53s", "remaining_time": "1h 46m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094949}
+{"loss": 2.44138813, "grad_norm": 0.35578507, "learning_rate": 0.00064174, "token_acc": 0.48657718, "epoch": 0.42655659, "global_step/max_steps": "930/2181", "elapsed_time": "1h 18m 58s", "remaining_time": "1h 46m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09482}
+{"loss": 2.57583475, "grad_norm": 0.36327165, "learning_rate": 0.00064103, "token_acc": 0.47629861, "epoch": 0.42701525, "global_step/max_steps": "931/2181", "elapsed_time": "1h 19m 3s", "remaining_time": "1h 46m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094876}
+{"loss": 2.44309235, "grad_norm": 0.32997391, "learning_rate": 0.00064032, "token_acc": 0.48471734, "epoch": 0.42747391, "global_step/max_steps": "932/2181", "elapsed_time": "1h 19m 8s", "remaining_time": "1h 46m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094693}
+{"loss": 2.42148542, "grad_norm": 0.36614543, "learning_rate": 0.0006396, "token_acc": 0.47456214, "epoch": 0.42793258, "global_step/max_steps": "933/2181", "elapsed_time": "1h 19m 13s", "remaining_time": "1h 45m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094602}
+{"loss": 2.46130753, "grad_norm": 0.33559284, "learning_rate": 0.00063889, "token_acc": 0.46845124, "epoch": 0.42839124, "global_step/max_steps": "934/2181", "elapsed_time": "1h 19m 19s", "remaining_time": "1h 45m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094918}
+{"loss": 2.52186537, "grad_norm": 0.33424264, "learning_rate": 0.00063818, "token_acc": 0.47038043, "epoch": 0.4288499, "global_step/max_steps": "935/2181", "elapsed_time": "1h 19m 23s", "remaining_time": "1h 45m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094578}
+{"loss": 2.46964288, "grad_norm": 0.33530554, "learning_rate": 0.00063746, "token_acc": 0.48337029, "epoch": 0.42930857, "global_step/max_steps": "936/2181", "elapsed_time": "1h 19m 28s", "remaining_time": "1h 45m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094455}
+{"loss": 2.50123549, "grad_norm": 0.36095113, "learning_rate": 0.00063675, "token_acc": 0.47456166, "epoch": 0.42976723, "global_step/max_steps": "937/2181", "elapsed_time": "1h 19m 34s", "remaining_time": "1h 45m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094844}
+{"loss": 2.30563903, "grad_norm": 0.35927728, "learning_rate": 0.00063603, "token_acc": 0.51388499, "epoch": 0.43022589, "global_step/max_steps": "938/2181", "elapsed_time": "1h 19m 39s", "remaining_time": "1h 45m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094613}
+{"loss": 2.46853399, "grad_norm": 0.33771291, "learning_rate": 0.00063532, "token_acc": 0.47898921, "epoch": 0.43068455, "global_step/max_steps": "939/2181", "elapsed_time": "1h 19m 44s", "remaining_time": "1h 45m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094359}
+{"loss": 2.53181648, "grad_norm": 0.34502244, "learning_rate": 0.0006346, "token_acc": 0.46023359, "epoch": 0.43114322, "global_step/max_steps": "940/2181", "elapsed_time": "1h 19m 49s", "remaining_time": "1h 45m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094552}
+{"loss": 2.40761781, "grad_norm": 0.34611687, "learning_rate": 0.00063389, "token_acc": 0.47704428, "epoch": 0.43160188, "global_step/max_steps": "941/2181", "elapsed_time": "1h 19m 54s", "remaining_time": "1h 45m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094432}
+{"loss": 2.47367644, "grad_norm": 0.33494419, "learning_rate": 0.00063317, "token_acc": 0.47488204, "epoch": 0.43206054, "global_step/max_steps": "942/2181", "elapsed_time": "1h 19m 59s", "remaining_time": "1h 45m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094416}
+{"loss": 2.44581652, "grad_norm": 0.3354679, "learning_rate": 0.00063246, "token_acc": 0.48556582, "epoch": 0.43251921, "global_step/max_steps": "943/2181", "elapsed_time": "1h 20m 4s", "remaining_time": "1h 45m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094889}
+{"loss": 2.53075099, "grad_norm": 0.32944968, "learning_rate": 0.00063174, "token_acc": 0.46499859, "epoch": 0.43297787, "global_step/max_steps": "944/2181", "elapsed_time": "1h 20m 10s", "remaining_time": "1h 45m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094815}
+{"loss": 2.38180876, "grad_norm": 0.33127132, "learning_rate": 0.00063102, "token_acc": 0.47858796, "epoch": 0.43343653, "global_step/max_steps": "945/2181", "elapsed_time": "1h 20m 14s", "remaining_time": "1h 44m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09458}
+{"loss": 2.34397697, "grad_norm": 0.34572375, "learning_rate": 0.00063031, "token_acc": 0.49524342, "epoch": 0.4338952, "global_step/max_steps": "946/2181", "elapsed_time": "1h 20m 20s", "remaining_time": "1h 44m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09488}
+{"loss": 2.37011337, "grad_norm": 0.31463847, "learning_rate": 0.00062959, "token_acc": 0.49254555, "epoch": 0.43435386, "global_step/max_steps": "947/2181", "elapsed_time": "1h 20m 25s", "remaining_time": "1h 44m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094673}
+{"loss": 2.41373301, "grad_norm": 0.34507278, "learning_rate": 0.00062887, "token_acc": 0.48926081, "epoch": 0.43481252, "global_step/max_steps": "948/2181", "elapsed_time": "1h 20m 29s", "remaining_time": "1h 44m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094373}
+{"loss": 2.4413805, "grad_norm": 0.34911203, "learning_rate": 0.00062815, "token_acc": 0.48540965, "epoch": 0.43527118, "global_step/max_steps": "949/2181", "elapsed_time": "1h 20m 35s", "remaining_time": "1h 44m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094481}
+{"loss": 2.41643953, "grad_norm": 0.34188983, "learning_rate": 0.00062744, "token_acc": 0.47610922, "epoch": 0.43572985, "global_step/max_steps": "950/2181", "elapsed_time": "1h 20m 40s", "remaining_time": "1h 44m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094867}
+{"loss": 2.39100027, "grad_norm": 0.34382674, "learning_rate": 0.00062672, "token_acc": 0.48737808, "epoch": 0.43618851, "global_step/max_steps": "951/2181", "elapsed_time": "1h 20m 46s", "remaining_time": "1h 44m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095371}
+{"loss": 2.40728188, "grad_norm": 0.3586272, "learning_rate": 0.000626, "token_acc": 0.47636466, "epoch": 0.43664717, "global_step/max_steps": "952/2181", "elapsed_time": "1h 20m 51s", "remaining_time": "1h 44m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095108}
+{"loss": 2.49685884, "grad_norm": 0.35209861, "learning_rate": 0.00062528, "token_acc": 0.47734139, "epoch": 0.43710584, "global_step/max_steps": "953/2181", "elapsed_time": "1h 20m 56s", "remaining_time": "1h 44m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095053}
+{"loss": 2.38735294, "grad_norm": 0.3577061, "learning_rate": 0.00062456, "token_acc": 0.48483948, "epoch": 0.4375645, "global_step/max_steps": "954/2181", "elapsed_time": "1h 21m 0s", "remaining_time": "1h 44m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094749}
+{"loss": 2.46421623, "grad_norm": 0.36202765, "learning_rate": 0.00062384, "token_acc": 0.4769592, "epoch": 0.43802316, "global_step/max_steps": "955/2181", "elapsed_time": "1h 21m 6s", "remaining_time": "1h 44m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094939}
+{"loss": 2.41015244, "grad_norm": 0.31088147, "learning_rate": 0.00062312, "token_acc": 0.4839443, "epoch": 0.43848183, "global_step/max_steps": "956/2181", "elapsed_time": "1h 21m 11s", "remaining_time": "1h 44m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095315}
+{"loss": 2.38850617, "grad_norm": 0.34831271, "learning_rate": 0.0006224, "token_acc": 0.48254505, "epoch": 0.43894049, "global_step/max_steps": "957/2181", "elapsed_time": "1h 21m 16s", "remaining_time": "1h 43m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094942}
+{"loss": 2.40134573, "grad_norm": 0.33243534, "learning_rate": 0.00062168, "token_acc": 0.49347884, "epoch": 0.43939915, "global_step/max_steps": "958/2181", "elapsed_time": "1h 21m 21s", "remaining_time": "1h 43m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094864}
+{"loss": 2.44994402, "grad_norm": 0.33555806, "learning_rate": 0.00062096, "token_acc": 0.47324647, "epoch": 0.43985781, "global_step/max_steps": "959/2181", "elapsed_time": "1h 21m 26s", "remaining_time": "1h 43m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09498}
+{"loss": 2.4184885, "grad_norm": 0.3364394, "learning_rate": 0.00062024, "token_acc": 0.47483032, "epoch": 0.44031648, "global_step/max_steps": "960/2181", "elapsed_time": "1h 21m 32s", "remaining_time": "1h 43m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095457}
+{"loss": 2.35900211, "grad_norm": 0.33988485, "learning_rate": 0.00061952, "token_acc": 0.4890411, "epoch": 0.44077514, "global_step/max_steps": "961/2181", "elapsed_time": "1h 21m 36s", "remaining_time": "1h 43m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095122}
+{"loss": 2.33338141, "grad_norm": 0.34133223, "learning_rate": 0.0006188, "token_acc": 0.50507614, "epoch": 0.4412338, "global_step/max_steps": "962/2181", "elapsed_time": "1h 21m 41s", "remaining_time": "1h 43m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094916}
+{"loss": 2.41795087, "grad_norm": 0.32675219, "learning_rate": 0.00061808, "token_acc": 0.48870293, "epoch": 0.44169247, "global_step/max_steps": "963/2181", "elapsed_time": "1h 21m 46s", "remaining_time": "1h 43m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094811}
+{"loss": 2.45488405, "grad_norm": 0.35861903, "learning_rate": 0.00061735, "token_acc": 0.47658863, "epoch": 0.44215113, "global_step/max_steps": "964/2181", "elapsed_time": "1h 21m 51s", "remaining_time": "1h 43m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09445}
+{"loss": 2.39686441, "grad_norm": 0.34191388, "learning_rate": 0.00061663, "token_acc": 0.47575323, "epoch": 0.44260979, "global_step/max_steps": "965/2181", "elapsed_time": "1h 21m 56s", "remaining_time": "1h 43m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094464}
+{"loss": 2.49089241, "grad_norm": 0.33298784, "learning_rate": 0.00061591, "token_acc": 0.47154946, "epoch": 0.44306846, "global_step/max_steps": "966/2181", "elapsed_time": "1h 22m 1s", "remaining_time": "1h 43m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094029}
+{"loss": 2.30697346, "grad_norm": 0.32023674, "learning_rate": 0.00061519, "token_acc": 0.49004329, "epoch": 0.44352712, "global_step/max_steps": "967/2181", "elapsed_time": "1h 22m 6s", "remaining_time": "1h 43m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093622}
+{"loss": 2.46568346, "grad_norm": 0.33593282, "learning_rate": 0.00061446, "token_acc": 0.4763363, "epoch": 0.44398578, "global_step/max_steps": "968/2181", "elapsed_time": "1h 22m 11s", "remaining_time": "1h 42m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09367}
+{"loss": 2.49532032, "grad_norm": 0.3405233, "learning_rate": 0.00061374, "token_acc": 0.46985867, "epoch": 0.44444444, "global_step/max_steps": "969/2181", "elapsed_time": "1h 22m 16s", "remaining_time": "1h 42m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093521}
+{"loss": 2.36092806, "grad_norm": 0.32866701, "learning_rate": 0.00061302, "token_acc": 0.50350828, "epoch": 0.44490311, "global_step/max_steps": "970/2181", "elapsed_time": "1h 22m 22s", "remaining_time": "1h 42m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094411}
+{"loss": 2.42525339, "grad_norm": 0.32927936, "learning_rate": 0.00061229, "token_acc": 0.48001126, "epoch": 0.44536177, "global_step/max_steps": "971/2181", "elapsed_time": "1h 22m 27s", "remaining_time": "1h 42m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094261}
+{"loss": 2.50733113, "grad_norm": 0.34138334, "learning_rate": 0.00061157, "token_acc": 0.46867168, "epoch": 0.44582043, "global_step/max_steps": "972/2181", "elapsed_time": "1h 22m 32s", "remaining_time": "1h 42m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094154}
+{"loss": 2.554245, "grad_norm": 0.35766986, "learning_rate": 0.00061085, "token_acc": 0.46636168, "epoch": 0.4462791, "global_step/max_steps": "973/2181", "elapsed_time": "1h 22m 37s", "remaining_time": "1h 42m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094101}
+{"loss": 2.43216419, "grad_norm": 0.36912921, "learning_rate": 0.00061012, "token_acc": 0.49555492, "epoch": 0.44673776, "global_step/max_steps": "974/2181", "elapsed_time": "1h 22m 42s", "remaining_time": "1h 42m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094163}
+{"loss": 2.36355829, "grad_norm": 0.31492516, "learning_rate": 0.0006094, "token_acc": 0.48337388, "epoch": 0.44719642, "global_step/max_steps": "975/2181", "elapsed_time": "1h 22m 47s", "remaining_time": "1h 42m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093941}
+{"loss": 2.40778351, "grad_norm": 0.32556719, "learning_rate": 0.00060867, "token_acc": 0.49113924, "epoch": 0.44765509, "global_step/max_steps": "976/2181", "elapsed_time": "1h 22m 51s", "remaining_time": "1h 42m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093622}
+{"loss": 2.40255594, "grad_norm": 0.31064191, "learning_rate": 0.00060795, "token_acc": 0.48728814, "epoch": 0.44811375, "global_step/max_steps": "977/2181", "elapsed_time": "1h 22m 56s", "remaining_time": "1h 42m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093441}
+{"loss": 2.34483671, "grad_norm": 0.33454564, "learning_rate": 0.00060722, "token_acc": 0.50377411, "epoch": 0.44857241, "global_step/max_steps": "978/2181", "elapsed_time": "1h 23m 1s", "remaining_time": "1h 42m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093014}
+{"loss": 2.46813226, "grad_norm": 0.32508513, "learning_rate": 0.0006065, "token_acc": 0.47481637, "epoch": 0.44903107, "global_step/max_steps": "979/2181", "elapsed_time": "1h 23m 6s", "remaining_time": "1h 42m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093}
+{"loss": 2.47506809, "grad_norm": 0.33771738, "learning_rate": 0.00060577, "token_acc": 0.48840538, "epoch": 0.44948974, "global_step/max_steps": "980/2181", "elapsed_time": "1h 23m 12s", "remaining_time": "1h 41m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093564}
+{"loss": 2.46622753, "grad_norm": 0.33566239, "learning_rate": 0.00060505, "token_acc": 0.4795693, "epoch": 0.4499484, "global_step/max_steps": "981/2181", "elapsed_time": "1h 23m 17s", "remaining_time": "1h 41m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093292}
+{"loss": 2.32880545, "grad_norm": 0.33083373, "learning_rate": 0.00060432, "token_acc": 0.50099687, "epoch": 0.45040706, "global_step/max_steps": "982/2181", "elapsed_time": "1h 23m 21s", "remaining_time": "1h 41m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09295}
+{"loss": 2.47315931, "grad_norm": 0.36010844, "learning_rate": 0.00060359, "token_acc": 0.47119399, "epoch": 0.45086573, "global_step/max_steps": "983/2181", "elapsed_time": "1h 23m 27s", "remaining_time": "1h 41m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09334}
+{"loss": 2.45803499, "grad_norm": 0.34020326, "learning_rate": 0.00060287, "token_acc": 0.48547599, "epoch": 0.45132439, "global_step/max_steps": "984/2181", "elapsed_time": "1h 23m 32s", "remaining_time": "1h 41m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093489}
+{"loss": 2.46313, "grad_norm": 0.33023703, "learning_rate": 0.00060214, "token_acc": 0.46692825, "epoch": 0.45178305, "global_step/max_steps": "985/2181", "elapsed_time": "1h 23m 37s", "remaining_time": "1h 41m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093407}
+{"loss": 2.30276632, "grad_norm": 0.33981159, "learning_rate": 0.00060141, "token_acc": 0.50013877, "epoch": 0.45224172, "global_step/max_steps": "986/2181", "elapsed_time": "1h 23m 42s", "remaining_time": "1h 41m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093412}
+{"loss": 2.34385228, "grad_norm": 0.36114505, "learning_rate": 0.00060068, "token_acc": 0.48966111, "epoch": 0.45270038, "global_step/max_steps": "987/2181", "elapsed_time": "1h 23m 47s", "remaining_time": "1h 41m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093062}
+{"loss": 2.50616074, "grad_norm": 0.34733674, "learning_rate": 0.00059996, "token_acc": 0.47570119, "epoch": 0.45315904, "global_step/max_steps": "988/2181", "elapsed_time": "1h 23m 52s", "remaining_time": "1h 41m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092892}
+{"loss": 2.49151111, "grad_norm": 0.35125092, "learning_rate": 0.00059923, "token_acc": 0.47276875, "epoch": 0.4536177, "global_step/max_steps": "989/2181", "elapsed_time": "1h 23m 57s", "remaining_time": "1h 41m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092867}
+{"loss": 2.439744, "grad_norm": 0.37319371, "learning_rate": 0.0005985, "token_acc": 0.47817571, "epoch": 0.45407637, "global_step/max_steps": "990/2181", "elapsed_time": "1h 24m 2s", "remaining_time": "1h 41m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09302}
+{"loss": 2.45415282, "grad_norm": 0.35285032, "learning_rate": 0.00059777, "token_acc": 0.48922414, "epoch": 0.45453503, "global_step/max_steps": "991/2181", "elapsed_time": "1h 24m 7s", "remaining_time": "1h 41m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09298}
+{"loss": 2.45033121, "grad_norm": 0.33171669, "learning_rate": 0.00059704, "token_acc": 0.47843028, "epoch": 0.45499369, "global_step/max_steps": "992/2181", "elapsed_time": "1h 24m 12s", "remaining_time": "1h 40m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092807}
+{"loss": 2.3701582, "grad_norm": 0.33587858, "learning_rate": 0.00059632, "token_acc": 0.49142857, "epoch": 0.45545236, "global_step/max_steps": "993/2181", "elapsed_time": "1h 24m 17s", "remaining_time": "1h 40m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092641}
+{"loss": 2.36586738, "grad_norm": 0.36940345, "learning_rate": 0.00059559, "token_acc": 0.48593571, "epoch": 0.45591102, "global_step/max_steps": "994/2181", "elapsed_time": "1h 24m 23s", "remaining_time": "1h 40m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093536}
+{"loss": 2.58599758, "grad_norm": 0.34595945, "learning_rate": 0.00059486, "token_acc": 0.45198998, "epoch": 0.45636968, "global_step/max_steps": "995/2181", "elapsed_time": "1h 24m 28s", "remaining_time": "1h 40m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093445}
+{"loss": 2.38660288, "grad_norm": 0.31480926, "learning_rate": 0.00059413, "token_acc": 0.48652365, "epoch": 0.45682835, "global_step/max_steps": "996/2181", "elapsed_time": "1h 24m 33s", "remaining_time": "1h 40m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093447}
+{"loss": 2.43942785, "grad_norm": 0.34211344, "learning_rate": 0.0005934, "token_acc": 0.48510164, "epoch": 0.45728701, "global_step/max_steps": "997/2181", "elapsed_time": "1h 24m 38s", "remaining_time": "1h 40m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093162}
+{"loss": 2.40480161, "grad_norm": 0.33426043, "learning_rate": 0.00059267, "token_acc": 0.49240781, "epoch": 0.45774567, "global_step/max_steps": "998/2181", "elapsed_time": "1h 24m 43s", "remaining_time": "1h 40m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.092949}
+{"loss": 2.47976971, "grad_norm": 0.31567866, "learning_rate": 0.00059194, "token_acc": 0.48850897, "epoch": 0.45820433, "global_step/max_steps": "999/2181", "elapsed_time": "1h 24m 48s", "remaining_time": "1h 40m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093304}
+{"loss": 2.44543219, "grad_norm": 0.29661825, "learning_rate": 0.00059121, "token_acc": 0.48003238, "epoch": 0.458663, "global_step/max_steps": "1000/2181", "elapsed_time": "1h 24m 53s", "remaining_time": "1h 40m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093035}
+{"loss": 2.41615891, "grad_norm": 0.34427491, "learning_rate": 0.00059048, "token_acc": 0.48751052, "epoch": 0.45912166, "global_step/max_steps": "1001/2181", "elapsed_time": "1h 25m 20s", "remaining_time": "1h 40m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115322}
+{"loss": 2.33164978, "grad_norm": 0.32565036, "learning_rate": 0.00058975, "token_acc": 0.49168711, "epoch": 0.45958032, "global_step/max_steps": "1002/2181", "elapsed_time": "1h 25m 25s", "remaining_time": "1h 40m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115129}
+{"loss": 2.42282248, "grad_norm": 0.33496168, "learning_rate": 0.00058902, "token_acc": 0.48316547, "epoch": 0.46003899, "global_step/max_steps": "1003/2181", "elapsed_time": "1h 25m 30s", "remaining_time": "1h 40m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114966}
+{"loss": 2.42389369, "grad_norm": 0.34556735, "learning_rate": 0.00058829, "token_acc": 0.48902645, "epoch": 0.46049765, "global_step/max_steps": "1004/2181", "elapsed_time": "1h 25m 36s", "remaining_time": "1h 40m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.115052}
+{"loss": 2.4520309, "grad_norm": 0.41373312, "learning_rate": 0.00058756, "token_acc": 0.47690058, "epoch": 0.46095631, "global_step/max_steps": "1005/2181", "elapsed_time": "1h 25m 40s", "remaining_time": "1h 40m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114782}
+{"loss": 2.37395811, "grad_norm": 0.34540063, "learning_rate": 0.00058682, "token_acc": 0.47973744, "epoch": 0.46141498, "global_step/max_steps": "1006/2181", "elapsed_time": "1h 25m 45s", "remaining_time": "1h 40m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114589}
+{"loss": 2.45584226, "grad_norm": 0.32914084, "learning_rate": 0.00058609, "token_acc": 0.47763666, "epoch": 0.46187364, "global_step/max_steps": "1007/2181", "elapsed_time": "1h 25m 50s", "remaining_time": "1h 40m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114212}
+{"loss": 2.57750797, "grad_norm": 0.36997047, "learning_rate": 0.00058536, "token_acc": 0.46685393, "epoch": 0.4623323, "global_step/max_steps": "1008/2181", "elapsed_time": "1h 25m 55s", "remaining_time": "1h 39m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113821}
+{"loss": 2.48299026, "grad_norm": 0.34477073, "learning_rate": 0.00058463, "token_acc": 0.47935061, "epoch": 0.46279096, "global_step/max_steps": "1009/2181", "elapsed_time": "1h 25m 59s", "remaining_time": "1h 39m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11345}
+{"loss": 2.37125635, "grad_norm": 0.31239402, "learning_rate": 0.0005839, "token_acc": 0.49565689, "epoch": 0.46324963, "global_step/max_steps": "1010/2181", "elapsed_time": "1h 26m 5s", "remaining_time": "1h 39m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113524}
+{"loss": 2.38037968, "grad_norm": 0.33874261, "learning_rate": 0.00058316, "token_acc": 0.49074865, "epoch": 0.46370829, "global_step/max_steps": "1011/2181", "elapsed_time": "1h 26m 10s", "remaining_time": "1h 39m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113806}
+{"loss": 2.40057516, "grad_norm": 0.33902624, "learning_rate": 0.00058243, "token_acc": 0.49415121, "epoch": 0.46416695, "global_step/max_steps": "1012/2181", "elapsed_time": "1h 26m 15s", "remaining_time": "1h 39m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114022}
+{"loss": 2.48652124, "grad_norm": 0.33951145, "learning_rate": 0.0005817, "token_acc": 0.47531034, "epoch": 0.46462562, "global_step/max_steps": "1013/2181", "elapsed_time": "1h 26m 20s", "remaining_time": "1h 39m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113947}
+{"loss": 2.39966369, "grad_norm": 0.33902034, "learning_rate": 0.00058097, "token_acc": 0.47272231, "epoch": 0.46508428, "global_step/max_steps": "1014/2181", "elapsed_time": "1h 26m 25s", "remaining_time": "1h 39m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113443}
+{"loss": 2.45539784, "grad_norm": 0.33806947, "learning_rate": 0.00058023, "token_acc": 0.47456214, "epoch": 0.46554294, "global_step/max_steps": "1015/2181", "elapsed_time": "1h 26m 30s", "remaining_time": "1h 39m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113543}
+{"loss": 2.45809889, "grad_norm": 0.34738317, "learning_rate": 0.0005795, "token_acc": 0.47207409, "epoch": 0.46600161, "global_step/max_steps": "1016/2181", "elapsed_time": "1h 26m 35s", "remaining_time": "1h 39m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113256}
+{"loss": 2.37590742, "grad_norm": 0.34423366, "learning_rate": 0.00057877, "token_acc": 0.49238303, "epoch": 0.46646027, "global_step/max_steps": "1017/2181", "elapsed_time": "1h 26m 40s", "remaining_time": "1h 39m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112874}
+{"loss": 2.36029768, "grad_norm": 0.31589332, "learning_rate": 0.00057803, "token_acc": 0.49403275, "epoch": 0.46691893, "global_step/max_steps": "1018/2181", "elapsed_time": "1h 26m 45s", "remaining_time": "1h 39m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112844}
+{"loss": 2.39783311, "grad_norm": 0.32228655, "learning_rate": 0.0005773, "token_acc": 0.490904, "epoch": 0.46737759, "global_step/max_steps": "1019/2181", "elapsed_time": "1h 26m 50s", "remaining_time": "1h 39m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112437}
+{"loss": 2.37152386, "grad_norm": 0.33429211, "learning_rate": 0.00057657, "token_acc": 0.4925816, "epoch": 0.46783626, "global_step/max_steps": "1020/2181", "elapsed_time": "1h 26m 55s", "remaining_time": "1h 38m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112991}
+{"loss": 2.34703636, "grad_norm": 0.35150442, "learning_rate": 0.00057583, "token_acc": 0.49098361, "epoch": 0.46829492, "global_step/max_steps": "1021/2181", "elapsed_time": "1h 27m 0s", "remaining_time": "1h 38m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112926}
+{"loss": 2.44407511, "grad_norm": 0.35780892, "learning_rate": 0.0005751, "token_acc": 0.49024597, "epoch": 0.46875358, "global_step/max_steps": "1022/2181", "elapsed_time": "1h 27m 5s", "remaining_time": "1h 38m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112485}
+{"loss": 2.44971371, "grad_norm": 0.33929801, "learning_rate": 0.00057436, "token_acc": 0.47520997, "epoch": 0.46921225, "global_step/max_steps": "1023/2181", "elapsed_time": "1h 27m 10s", "remaining_time": "1h 38m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112185}
+{"loss": 2.49233699, "grad_norm": 0.3264814, "learning_rate": 0.00057363, "token_acc": 0.473299, "epoch": 0.46967091, "global_step/max_steps": "1024/2181", "elapsed_time": "1h 27m 15s", "remaining_time": "1h 38m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112195}
+{"loss": 2.4607091, "grad_norm": 0.33561939, "learning_rate": 0.00057289, "token_acc": 0.48709315, "epoch": 0.47012957, "global_step/max_steps": "1025/2181", "elapsed_time": "1h 27m 20s", "remaining_time": "1h 38m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112149}
+{"loss": 2.44006586, "grad_norm": 0.31923464, "learning_rate": 0.00057216, "token_acc": 0.48225585, "epoch": 0.47058824, "global_step/max_steps": "1026/2181", "elapsed_time": "1h 27m 25s", "remaining_time": "1h 38m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11239}
+{"loss": 2.38314271, "grad_norm": 0.32389414, "learning_rate": 0.00057142, "token_acc": 0.48324668, "epoch": 0.4710469, "global_step/max_steps": "1027/2181", "elapsed_time": "1h 27m 31s", "remaining_time": "1h 38m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11262}
+{"loss": 2.3688612, "grad_norm": 0.33817458, "learning_rate": 0.00057069, "token_acc": 0.49564033, "epoch": 0.47150556, "global_step/max_steps": "1028/2181", "elapsed_time": "1h 27m 36s", "remaining_time": "1h 38m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112562}
+{"loss": 2.40778017, "grad_norm": 0.32446945, "learning_rate": 0.00056995, "token_acc": 0.48732394, "epoch": 0.47196422, "global_step/max_steps": "1029/2181", "elapsed_time": "1h 27m 41s", "remaining_time": "1h 38m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112909}
+{"loss": 2.39970016, "grad_norm": 0.33643544, "learning_rate": 0.00056922, "token_acc": 0.48339483, "epoch": 0.47242289, "global_step/max_steps": "1030/2181", "elapsed_time": "1h 27m 47s", "remaining_time": "1h 38m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113336}
+{"loss": 2.41198683, "grad_norm": 0.33582354, "learning_rate": 0.00056848, "token_acc": 0.47955801, "epoch": 0.47288155, "global_step/max_steps": "1031/2181", "elapsed_time": "1h 27m 52s", "remaining_time": "1h 38m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113075}
+{"loss": 2.33707023, "grad_norm": 0.3348403, "learning_rate": 0.00056775, "token_acc": 0.49318119, "epoch": 0.47334021, "global_step/max_steps": "1032/2181", "elapsed_time": "1h 27m 57s", "remaining_time": "1h 37m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113329}
+{"loss": 2.31928039, "grad_norm": 0.35598785, "learning_rate": 0.00056701, "token_acc": 0.49770774, "epoch": 0.47379888, "global_step/max_steps": "1033/2181", "elapsed_time": "1h 28m 2s", "remaining_time": "1h 37m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.113116}
+{"loss": 2.34385943, "grad_norm": 0.34823668, "learning_rate": 0.00056628, "token_acc": 0.49142192, "epoch": 0.47425754, "global_step/max_steps": "1034/2181", "elapsed_time": "1h 28m 7s", "remaining_time": "1h 37m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112911}
+{"loss": 2.51129317, "grad_norm": 0.33990741, "learning_rate": 0.00056554, "token_acc": 0.46277332, "epoch": 0.4747162, "global_step/max_steps": "1035/2181", "elapsed_time": "1h 28m 12s", "remaining_time": "1h 37m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112636}
+{"loss": 2.39199185, "grad_norm": 0.32594901, "learning_rate": 0.0005648, "token_acc": 0.49186308, "epoch": 0.47517487, "global_step/max_steps": "1036/2181", "elapsed_time": "1h 28m 17s", "remaining_time": "1h 37m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112571}
+{"loss": 2.39872503, "grad_norm": 0.34139088, "learning_rate": 0.00056407, "token_acc": 0.48070966, "epoch": 0.47563353, "global_step/max_steps": "1037/2181", "elapsed_time": "1h 28m 22s", "remaining_time": "1h 37m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112609}
+{"loss": 2.50999928, "grad_norm": 0.3317534, "learning_rate": 0.00056333, "token_acc": 0.4763363, "epoch": 0.47609219, "global_step/max_steps": "1038/2181", "elapsed_time": "1h 28m 27s", "remaining_time": "1h 37m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112538}
+{"loss": 2.38262677, "grad_norm": 0.34921962, "learning_rate": 0.00056259, "token_acc": 0.48515982, "epoch": 0.47655085, "global_step/max_steps": "1039/2181", "elapsed_time": "1h 28m 32s", "remaining_time": "1h 37m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112471}
+{"loss": 2.39359927, "grad_norm": 0.36115119, "learning_rate": 0.00056186, "token_acc": 0.49730861, "epoch": 0.47700952, "global_step/max_steps": "1040/2181", "elapsed_time": "1h 28m 37s", "remaining_time": "1h 37m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112169}
+{"loss": 2.4507246, "grad_norm": 0.32989413, "learning_rate": 0.00056112, "token_acc": 0.48505169, "epoch": 0.47746818, "global_step/max_steps": "1041/2181", "elapsed_time": "1h 28m 42s", "remaining_time": "1h 37m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112244}
+{"loss": 2.35920143, "grad_norm": 0.33683208, "learning_rate": 0.00056038, "token_acc": 0.5025788, "epoch": 0.47792684, "global_step/max_steps": "1042/2181", "elapsed_time": "1h 28m 47s", "remaining_time": "1h 37m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11214}
+{"loss": 2.42250538, "grad_norm": 0.36175421, "learning_rate": 0.00055964, "token_acc": 0.48343023, "epoch": 0.47838551, "global_step/max_steps": "1043/2181", "elapsed_time": "1h 28m 52s", "remaining_time": "1h 36m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112203}
+{"loss": 2.42548037, "grad_norm": 0.35951069, "learning_rate": 0.00055891, "token_acc": 0.47615063, "epoch": 0.47884417, "global_step/max_steps": "1044/2181", "elapsed_time": "1h 28m 57s", "remaining_time": "1h 36m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112154}
+{"loss": 2.36071301, "grad_norm": 0.34402987, "learning_rate": 0.00055817, "token_acc": 0.49367089, "epoch": 0.47930283, "global_step/max_steps": "1045/2181", "elapsed_time": "1h 29m 2s", "remaining_time": "1h 36m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112128}
+{"loss": 2.43847203, "grad_norm": 0.33619598, "learning_rate": 0.00055743, "token_acc": 0.48027211, "epoch": 0.4797615, "global_step/max_steps": "1046/2181", "elapsed_time": "1h 29m 7s", "remaining_time": "1h 36m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112136}
+{"loss": 2.4174819, "grad_norm": 0.32732275, "learning_rate": 0.00055669, "token_acc": 0.4888399, "epoch": 0.48022016, "global_step/max_steps": "1047/2181", "elapsed_time": "1h 29m 13s", "remaining_time": "1h 36m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112237}
+{"loss": 2.60500455, "grad_norm": 0.34317103, "learning_rate": 0.00055596, "token_acc": 0.44738323, "epoch": 0.48067882, "global_step/max_steps": "1048/2181", "elapsed_time": "1h 29m 18s", "remaining_time": "1h 36m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112485}
+{"loss": 2.43610644, "grad_norm": 0.32789746, "learning_rate": 0.00055522, "token_acc": 0.4786203, "epoch": 0.48113748, "global_step/max_steps": "1049/2181", "elapsed_time": "1h 29m 23s", "remaining_time": "1h 36m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112249}
+{"loss": 2.50226688, "grad_norm": 0.3215622, "learning_rate": 0.00055448, "token_acc": 0.4794446, "epoch": 0.48159615, "global_step/max_steps": "1050/2181", "elapsed_time": "1h 29m 28s", "remaining_time": "1h 36m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112428}
+{"loss": 2.42551184, "grad_norm": 0.33123335, "learning_rate": 0.00055374, "token_acc": 0.47372834, "epoch": 0.48205481, "global_step/max_steps": "1051/2181", "elapsed_time": "1h 29m 33s", "remaining_time": "1h 36m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112229}
+{"loss": 2.3465414, "grad_norm": 0.32435301, "learning_rate": 0.000553, "token_acc": 0.49086758, "epoch": 0.48251347, "global_step/max_steps": "1052/2181", "elapsed_time": "1h 29m 38s", "remaining_time": "1h 36m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111766}
+{"loss": 2.41228771, "grad_norm": 0.32961091, "learning_rate": 0.00055226, "token_acc": 0.49831366, "epoch": 0.48297214, "global_step/max_steps": "1053/2181", "elapsed_time": "1h 29m 42s", "remaining_time": "1h 36m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111358}
+{"loss": 2.52024364, "grad_norm": 0.3388539, "learning_rate": 0.00055153, "token_acc": 0.46562251, "epoch": 0.4834308, "global_step/max_steps": "1054/2181", "elapsed_time": "1h 29m 48s", "remaining_time": "1h 36m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111904}
+{"loss": 2.38053489, "grad_norm": 0.30186775, "learning_rate": 0.00055079, "token_acc": 0.48266373, "epoch": 0.48388946, "global_step/max_steps": "1055/2181", "elapsed_time": "1h 29m 53s", "remaining_time": "1h 35m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11191}
+{"loss": 2.47352409, "grad_norm": 0.32990387, "learning_rate": 0.00055005, "token_acc": 0.46640427, "epoch": 0.48434813, "global_step/max_steps": "1056/2181", "elapsed_time": "1h 29m 58s", "remaining_time": "1h 35m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111689}
+{"loss": 2.40756726, "grad_norm": 0.3313565, "learning_rate": 0.00054931, "token_acc": 0.48750343, "epoch": 0.48480679, "global_step/max_steps": "1057/2181", "elapsed_time": "1h 30m 3s", "remaining_time": "1h 35m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111914}
+{"loss": 2.2909379, "grad_norm": 0.32403851, "learning_rate": 0.00054857, "token_acc": 0.50817884, "epoch": 0.48526545, "global_step/max_steps": "1058/2181", "elapsed_time": "1h 30m 8s", "remaining_time": "1h 35m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111817}
+{"loss": 2.42073393, "grad_norm": 0.33478209, "learning_rate": 0.00054783, "token_acc": 0.48025945, "epoch": 0.48572411, "global_step/max_steps": "1059/2181", "elapsed_time": "1h 30m 13s", "remaining_time": "1h 35m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111785}
+{"loss": 2.57587266, "grad_norm": 0.32933369, "learning_rate": 0.00054709, "token_acc": 0.46167979, "epoch": 0.48618278, "global_step/max_steps": "1060/2181", "elapsed_time": "1h 30m 19s", "remaining_time": "1h 35m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112382}
+{"loss": 2.43620801, "grad_norm": 0.33205065, "learning_rate": 0.00054635, "token_acc": 0.47648725, "epoch": 0.48664144, "global_step/max_steps": "1061/2181", "elapsed_time": "1h 30m 24s", "remaining_time": "1h 35m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112449}
+{"loss": 2.51185513, "grad_norm": 0.33526027, "learning_rate": 0.00054561, "token_acc": 0.46317777, "epoch": 0.4871001, "global_step/max_steps": "1062/2181", "elapsed_time": "1h 30m 29s", "remaining_time": "1h 35m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11242}
+{"loss": 2.39872122, "grad_norm": 0.37047452, "learning_rate": 0.00054487, "token_acc": 0.49843617, "epoch": 0.48755877, "global_step/max_steps": "1063/2181", "elapsed_time": "1h 30m 34s", "remaining_time": "1h 35m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11215}
+{"loss": 2.42521048, "grad_norm": 0.32493564, "learning_rate": 0.00054413, "token_acc": 0.47744565, "epoch": 0.48801743, "global_step/max_steps": "1064/2181", "elapsed_time": "1h 30m 39s", "remaining_time": "1h 35m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112148}
+{"loss": 2.39680433, "grad_norm": 0.32975921, "learning_rate": 0.00054339, "token_acc": 0.50124275, "epoch": 0.48847609, "global_step/max_steps": "1065/2181", "elapsed_time": "1h 30m 44s", "remaining_time": "1h 35m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111969}
+{"loss": 2.4790163, "grad_norm": 0.3302334, "learning_rate": 0.00054265, "token_acc": 0.47749788, "epoch": 0.48893476, "global_step/max_steps": "1066/2181", "elapsed_time": "1h 30m 49s", "remaining_time": "1h 34m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111613}
+{"loss": 2.47099566, "grad_norm": 0.33864364, "learning_rate": 0.00054191, "token_acc": 0.4834308, "epoch": 0.48939342, "global_step/max_steps": "1067/2181", "elapsed_time": "1h 30m 54s", "remaining_time": "1h 34m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111559}
+{"loss": 2.3381505, "grad_norm": 0.34865913, "learning_rate": 0.00054117, "token_acc": 0.49578366, "epoch": 0.48985208, "global_step/max_steps": "1068/2181", "elapsed_time": "1h 30m 60s", "remaining_time": "1h 34m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112017}
+{"loss": 2.41334963, "grad_norm": 0.35883862, "learning_rate": 0.00054043, "token_acc": 0.48128492, "epoch": 0.49031074, "global_step/max_steps": "1069/2181", "elapsed_time": "1h 31m 5s", "remaining_time": "1h 34m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111797}
+{"loss": 2.58262396, "grad_norm": 0.33912927, "learning_rate": 0.00053969, "token_acc": 0.47251495, "epoch": 0.49076941, "global_step/max_steps": "1070/2181", "elapsed_time": "1h 31m 9s", "remaining_time": "1h 34m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111567}
+{"loss": 2.36198521, "grad_norm": 0.3361133, "learning_rate": 0.00053895, "token_acc": 0.48751029, "epoch": 0.49122807, "global_step/max_steps": "1071/2181", "elapsed_time": "1h 31m 15s", "remaining_time": "1h 34m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111816}
+{"loss": 2.42790556, "grad_norm": 0.33006123, "learning_rate": 0.00053821, "token_acc": 0.48468271, "epoch": 0.49168673, "global_step/max_steps": "1072/2181", "elapsed_time": "1h 31m 20s", "remaining_time": "1h 34m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112049}
+{"loss": 2.48969793, "grad_norm": 0.34794235, "learning_rate": 0.00053747, "token_acc": 0.47493113, "epoch": 0.4921454, "global_step/max_steps": "1073/2181", "elapsed_time": "1h 31m 25s", "remaining_time": "1h 34m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111887}
+{"loss": 2.41640186, "grad_norm": 0.32945862, "learning_rate": 0.00053673, "token_acc": 0.47993357, "epoch": 0.49260406, "global_step/max_steps": "1074/2181", "elapsed_time": "1h 31m 30s", "remaining_time": "1h 34m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111754}
+{"loss": 2.44558907, "grad_norm": 0.33014661, "learning_rate": 0.00053599, "token_acc": 0.48607665, "epoch": 0.49306272, "global_step/max_steps": "1075/2181", "elapsed_time": "1h 31m 35s", "remaining_time": "1h 34m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111872}
+{"loss": 2.29141569, "grad_norm": 0.31871685, "learning_rate": 0.00053525, "token_acc": 0.50832628, "epoch": 0.49352139, "global_step/max_steps": "1076/2181", "elapsed_time": "1h 31m 41s", "remaining_time": "1h 34m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112188}
+{"loss": 2.42827034, "grad_norm": 0.31797054, "learning_rate": 0.00053451, "token_acc": 0.48021035, "epoch": 0.49398005, "global_step/max_steps": "1077/2181", "elapsed_time": "1h 31m 46s", "remaining_time": "1h 34m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.112122}
+{"loss": 2.43790507, "grad_norm": 0.34188673, "learning_rate": 0.00053377, "token_acc": 0.48071217, "epoch": 0.49443871, "global_step/max_steps": "1078/2181", "elapsed_time": "1h 31m 51s", "remaining_time": "1h 33m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11199}
+{"loss": 2.35728049, "grad_norm": 0.32624972, "learning_rate": 0.00053303, "token_acc": 0.48368954, "epoch": 0.49489737, "global_step/max_steps": "1079/2181", "elapsed_time": "1h 31m 56s", "remaining_time": "1h 33m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11182}
+{"loss": 2.52930641, "grad_norm": 0.33124557, "learning_rate": 0.00053228, "token_acc": 0.46563193, "epoch": 0.49535604, "global_step/max_steps": "1080/2181", "elapsed_time": "1h 32m 1s", "remaining_time": "1h 33m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111907}
+{"loss": 2.32421446, "grad_norm": 0.32542479, "learning_rate": 0.00053154, "token_acc": 0.49691358, "epoch": 0.4958147, "global_step/max_steps": "1081/2181", "elapsed_time": "1h 32m 6s", "remaining_time": "1h 33m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111924}
+{"loss": 2.45283723, "grad_norm": 0.33559018, "learning_rate": 0.0005308, "token_acc": 0.4822363, "epoch": 0.49627336, "global_step/max_steps": "1082/2181", "elapsed_time": "1h 32m 11s", "remaining_time": "1h 33m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111645}
+{"loss": 2.3609314, "grad_norm": 0.3346751, "learning_rate": 0.00053006, "token_acc": 0.48898801, "epoch": 0.49673203, "global_step/max_steps": "1083/2181", "elapsed_time": "1h 32m 16s", "remaining_time": "1h 33m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111471}
+{"loss": 2.39422727, "grad_norm": 0.35198918, "learning_rate": 0.00052932, "token_acc": 0.49494674, "epoch": 0.49719069, "global_step/max_steps": "1084/2181", "elapsed_time": "1h 32m 21s", "remaining_time": "1h 33m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111499}
+{"loss": 2.3291893, "grad_norm": 0.34621474, "learning_rate": 0.00052858, "token_acc": 0.50663717, "epoch": 0.49764935, "global_step/max_steps": "1085/2181", "elapsed_time": "1h 32m 26s", "remaining_time": "1h 33m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111409}
+{"loss": 2.43978882, "grad_norm": 0.33755237, "learning_rate": 0.00052784, "token_acc": 0.47704918, "epoch": 0.49810802, "global_step/max_steps": "1086/2181", "elapsed_time": "1h 32m 31s", "remaining_time": "1h 33m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111217}
+{"loss": 2.59338403, "grad_norm": 0.35278842, "learning_rate": 0.0005271, "token_acc": 0.46719519, "epoch": 0.49856668, "global_step/max_steps": "1087/2181", "elapsed_time": "1h 32m 36s", "remaining_time": "1h 33m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111093}
+{"loss": 2.42585516, "grad_norm": 0.34087583, "learning_rate": 0.00052635, "token_acc": 0.4835043, "epoch": 0.49902534, "global_step/max_steps": "1088/2181", "elapsed_time": "1h 32m 41s", "remaining_time": "1h 33m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111011}
+{"loss": 2.49682713, "grad_norm": 0.33209962, "learning_rate": 0.00052561, "token_acc": 0.47688022, "epoch": 0.499484, "global_step/max_steps": "1089/2181", "elapsed_time": "1h 32m 46s", "remaining_time": "1h 33m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110955}
+{"loss": 2.2861495, "grad_norm": 0.33674869, "learning_rate": 0.00052487, "token_acc": 0.50716493, "epoch": 0.49994267, "global_step/max_steps": "1090/2181", "elapsed_time": "1h 32m 51s", "remaining_time": "1h 32m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111241}
+{"loss": 2.42911863, "grad_norm": 0.34509128, "learning_rate": 0.00052413, "token_acc": 0.47334059, "epoch": 0.50040133, "global_step/max_steps": "1091/2181", "elapsed_time": "1h 32m 56s", "remaining_time": "1h 32m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111314}
+{"loss": 2.44793129, "grad_norm": 0.34536311, "learning_rate": 0.00052339, "token_acc": 0.48976109, "epoch": 0.50085999, "global_step/max_steps": "1092/2181", "elapsed_time": "1h 33m 2s", "remaining_time": "1h 32m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111363}
+{"loss": 2.42325163, "grad_norm": 0.35991779, "learning_rate": 0.00052264, "token_acc": 0.47461431, "epoch": 0.50131866, "global_step/max_steps": "1093/2181", "elapsed_time": "1h 33m 7s", "remaining_time": "1h 32m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111661}
+{"loss": 2.43303084, "grad_norm": 0.32832807, "learning_rate": 0.0005219, "token_acc": 0.49158249, "epoch": 0.50177732, "global_step/max_steps": "1094/2181", "elapsed_time": "1h 33m 12s", "remaining_time": "1h 32m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111452}
+{"loss": 2.33920264, "grad_norm": 0.32147166, "learning_rate": 0.00052116, "token_acc": 0.48271131, "epoch": 0.50223598, "global_step/max_steps": "1095/2181", "elapsed_time": "1h 33m 17s", "remaining_time": "1h 32m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111107}
+{"loss": 2.32275915, "grad_norm": 0.35019398, "learning_rate": 0.00052042, "token_acc": 0.5, "epoch": 0.50269465, "global_step/max_steps": "1096/2181", "elapsed_time": "1h 33m 22s", "remaining_time": "1h 32m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111149}
+{"loss": 2.49954557, "grad_norm": 0.37595543, "learning_rate": 0.00051968, "token_acc": 0.49015748, "epoch": 0.50315331, "global_step/max_steps": "1097/2181", "elapsed_time": "1h 33m 27s", "remaining_time": "1h 32m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.111102}
+{"loss": 2.41697311, "grad_norm": 0.34407189, "learning_rate": 0.00051893, "token_acc": 0.48794167, "epoch": 0.50361197, "global_step/max_steps": "1098/2181", "elapsed_time": "1h 33m 32s", "remaining_time": "1h 32m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110834}
+{"loss": 2.38089037, "grad_norm": 0.34332475, "learning_rate": 0.00051819, "token_acc": 0.4917718, "epoch": 0.50407063, "global_step/max_steps": "1099/2181", "elapsed_time": "1h 33m 37s", "remaining_time": "1h 32m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110793}
+{"loss": 2.43511772, "grad_norm": 0.35511518, "learning_rate": 0.00051745, "token_acc": 0.48238558, "epoch": 0.5045293, "global_step/max_steps": "1100/2181", "elapsed_time": "1h 33m 42s", "remaining_time": "1h 32m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110791}
+{"loss": 2.48114824, "grad_norm": 0.33621079, "learning_rate": 0.00051671, "token_acc": 0.47544772, "epoch": 0.50498796, "global_step/max_steps": "1101/2181", "elapsed_time": "1h 33m 47s", "remaining_time": "1h 31m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110693}
+{"loss": 2.42609763, "grad_norm": 0.3153241, "learning_rate": 0.00051597, "token_acc": 0.48425509, "epoch": 0.50544662, "global_step/max_steps": "1102/2181", "elapsed_time": "1h 33m 52s", "remaining_time": "1h 31m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11078}
+{"loss": 2.52056098, "grad_norm": 0.36225846, "learning_rate": 0.00051522, "token_acc": 0.46174938, "epoch": 0.50590529, "global_step/max_steps": "1103/2181", "elapsed_time": "1h 33m 57s", "remaining_time": "1h 31m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110847}
+{"loss": 2.50868654, "grad_norm": 0.35504755, "learning_rate": 0.00051448, "token_acc": 0.47497971, "epoch": 0.50636395, "global_step/max_steps": "1104/2181", "elapsed_time": "1h 34m 2s", "remaining_time": "1h 31m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110749}
+{"loss": 2.32579541, "grad_norm": 0.35856548, "learning_rate": 0.00051374, "token_acc": 0.50877193, "epoch": 0.50682261, "global_step/max_steps": "1105/2181", "elapsed_time": "1h 34m 7s", "remaining_time": "1h 31m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110734}
+{"loss": 2.28211308, "grad_norm": 0.30771002, "learning_rate": 0.000513, "token_acc": 0.50702323, "epoch": 0.50728128, "global_step/max_steps": "1106/2181", "elapsed_time": "1h 34m 12s", "remaining_time": "1h 31m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11067}
+{"loss": 2.3901391, "grad_norm": 0.34547767, "learning_rate": 0.00051225, "token_acc": 0.49823113, "epoch": 0.50773994, "global_step/max_steps": "1107/2181", "elapsed_time": "1h 34m 17s", "remaining_time": "1h 31m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110562}
+{"loss": 2.45151234, "grad_norm": 0.37957957, "learning_rate": 0.00051151, "token_acc": 0.4879501, "epoch": 0.5081986, "global_step/max_steps": "1108/2181", "elapsed_time": "1h 34m 23s", "remaining_time": "1h 31m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110564}
+{"loss": 2.40832949, "grad_norm": 0.39156875, "learning_rate": 0.00051077, "token_acc": 0.49110009, "epoch": 0.50865726, "global_step/max_steps": "1109/2181", "elapsed_time": "1h 34m 28s", "remaining_time": "1h 31m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110936}
+{"loss": 2.43174505, "grad_norm": 0.36821643, "learning_rate": 0.00051003, "token_acc": 0.47810521, "epoch": 0.50911593, "global_step/max_steps": "1110/2181", "elapsed_time": "1h 34m 33s", "remaining_time": "1h 31m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110941}
+{"loss": 2.5249052, "grad_norm": 0.35692805, "learning_rate": 0.00050928, "token_acc": 0.47758172, "epoch": 0.50957459, "global_step/max_steps": "1111/2181", "elapsed_time": "1h 34m 38s", "remaining_time": "1h 31m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110869}
+{"loss": 2.43564868, "grad_norm": 0.34403685, "learning_rate": 0.00050854, "token_acc": 0.47552836, "epoch": 0.51003325, "global_step/max_steps": "1112/2181", "elapsed_time": "1h 34m 43s", "remaining_time": "1h 31m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11079}
+{"loss": 2.44012594, "grad_norm": 0.33413771, "learning_rate": 0.0005078, "token_acc": 0.47225216, "epoch": 0.51049192, "global_step/max_steps": "1113/2181", "elapsed_time": "1h 34m 48s", "remaining_time": "1h 30m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110684}
+{"loss": 2.41023374, "grad_norm": 0.33338317, "learning_rate": 0.00050706, "token_acc": 0.49100618, "epoch": 0.51095058, "global_step/max_steps": "1114/2181", "elapsed_time": "1h 34m 53s", "remaining_time": "1h 30m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11052}
+{"loss": 2.43455553, "grad_norm": 0.33667699, "learning_rate": 0.00050631, "token_acc": 0.48586957, "epoch": 0.51140924, "global_step/max_steps": "1115/2181", "elapsed_time": "1h 34m 58s", "remaining_time": "1h 30m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110543}
+{"loss": 2.31699967, "grad_norm": 0.33164778, "learning_rate": 0.00050557, "token_acc": 0.50394988, "epoch": 0.51186791, "global_step/max_steps": "1116/2181", "elapsed_time": "1h 35m 3s", "remaining_time": "1h 30m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110444}
+{"loss": 2.35247493, "grad_norm": 0.34188473, "learning_rate": 0.00050483, "token_acc": 0.4833151, "epoch": 0.51232657, "global_step/max_steps": "1117/2181", "elapsed_time": "1h 35m 8s", "remaining_time": "1h 30m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.11019}
+{"loss": 2.4067688, "grad_norm": 0.33349416, "learning_rate": 0.00050408, "token_acc": 0.49092409, "epoch": 0.51278523, "global_step/max_steps": "1118/2181", "elapsed_time": "1h 35m 13s", "remaining_time": "1h 30m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.110333}
+{"loss": 2.39237022, "grad_norm": 0.35748771, "learning_rate": 0.00050334, "token_acc": 0.49191489, "epoch": 0.51324389, "global_step/max_steps": "1119/2181", "elapsed_time": "1h 35m 18s", "remaining_time": "1h 30m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109937}
+{"loss": 2.4132762, "grad_norm": 0.36006358, "learning_rate": 0.0005026, "token_acc": 0.49406897, "epoch": 0.51370256, "global_step/max_steps": "1120/2181", "elapsed_time": "1h 35m 23s", "remaining_time": "1h 30m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109995}
+{"loss": 2.37962866, "grad_norm": 0.40777725, "learning_rate": 0.00050186, "token_acc": 0.48805173, "epoch": 0.51416122, "global_step/max_steps": "1121/2181", "elapsed_time": "1h 35m 28s", "remaining_time": "1h 30m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109677}
+{"loss": 2.58869004, "grad_norm": 0.3608115, "learning_rate": 0.00050111, "token_acc": 0.46668557, "epoch": 0.51461988, "global_step/max_steps": "1122/2181", "elapsed_time": "1h 35m 33s", "remaining_time": "1h 30m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109503}
+{"loss": 2.43527818, "grad_norm": 0.33600429, "learning_rate": 0.00050037, "token_acc": 0.48703495, "epoch": 0.51507855, "global_step/max_steps": "1123/2181", "elapsed_time": "1h 35m 38s", "remaining_time": "1h 30m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109537}
+{"loss": 2.46078634, "grad_norm": 0.34036493, "learning_rate": 0.00049963, "token_acc": 0.47792869, "epoch": 0.51553721, "global_step/max_steps": "1124/2181", "elapsed_time": "1h 35m 43s", "remaining_time": "1h 30m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109392}
+{"loss": 2.44599104, "grad_norm": 0.33719268, "learning_rate": 0.00049889, "token_acc": 0.47880512, "epoch": 0.51599587, "global_step/max_steps": "1125/2181", "elapsed_time": "1h 35m 48s", "remaining_time": "1h 29m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109667}
+{"loss": 2.3077054, "grad_norm": 0.32651946, "learning_rate": 0.00049814, "token_acc": 0.50168161, "epoch": 0.51645454, "global_step/max_steps": "1126/2181", "elapsed_time": "1h 35m 53s", "remaining_time": "1h 29m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109525}
+{"loss": 2.39038372, "grad_norm": 0.32916203, "learning_rate": 0.0004974, "token_acc": 0.48333333, "epoch": 0.5169132, "global_step/max_steps": "1127/2181", "elapsed_time": "1h 35m 58s", "remaining_time": "1h 29m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109356}
+{"loss": 2.31522822, "grad_norm": 0.32733116, "learning_rate": 0.00049666, "token_acc": 0.49757412, "epoch": 0.51737186, "global_step/max_steps": "1128/2181", "elapsed_time": "1h 36m 3s", "remaining_time": "1h 29m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109368}
+{"loss": 2.3158915, "grad_norm": 0.32467636, "learning_rate": 0.00049592, "token_acc": 0.50455581, "epoch": 0.51783052, "global_step/max_steps": "1129/2181", "elapsed_time": "1h 36m 9s", "remaining_time": "1h 29m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109622}
+{"loss": 2.37788439, "grad_norm": 0.3476508, "learning_rate": 0.00049517, "token_acc": 0.5017311, "epoch": 0.51828919, "global_step/max_steps": "1130/2181", "elapsed_time": "1h 36m 14s", "remaining_time": "1h 29m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109595}
+{"loss": 2.41374636, "grad_norm": 0.342031, "learning_rate": 0.00049443, "token_acc": 0.48813843, "epoch": 0.51874785, "global_step/max_steps": "1131/2181", "elapsed_time": "1h 36m 19s", "remaining_time": "1h 29m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109932}
+{"loss": 2.36215925, "grad_norm": 0.32791701, "learning_rate": 0.00049369, "token_acc": 0.49632353, "epoch": 0.51920651, "global_step/max_steps": "1132/2181", "elapsed_time": "1h 36m 24s", "remaining_time": "1h 29m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109551}
+{"loss": 2.47613621, "grad_norm": 0.33843005, "learning_rate": 0.00049294, "token_acc": 0.47395389, "epoch": 0.51966518, "global_step/max_steps": "1133/2181", "elapsed_time": "1h 36m 29s", "remaining_time": "1h 29m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109513}
+{"loss": 2.44900608, "grad_norm": 0.36615676, "learning_rate": 0.0004922, "token_acc": 0.48009815, "epoch": 0.52012384, "global_step/max_steps": "1134/2181", "elapsed_time": "1h 36m 34s", "remaining_time": "1h 29m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109493}
+{"loss": 2.30319262, "grad_norm": 0.34472561, "learning_rate": 0.00049146, "token_acc": 0.49168578, "epoch": 0.5205825, "global_step/max_steps": "1135/2181", "elapsed_time": "1h 36m 39s", "remaining_time": "1h 29m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109378}
+{"loss": 2.3528986, "grad_norm": 0.33175483, "learning_rate": 0.00049072, "token_acc": 0.48295927, "epoch": 0.52104117, "global_step/max_steps": "1136/2181", "elapsed_time": "1h 36m 44s", "remaining_time": "1h 28m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109437}
+{"loss": 2.39107037, "grad_norm": 0.32266623, "learning_rate": 0.00048997, "token_acc": 0.49634396, "epoch": 0.52149983, "global_step/max_steps": "1137/2181", "elapsed_time": "1h 36m 50s", "remaining_time": "1h 28m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109785}
+{"loss": 2.3865819, "grad_norm": 0.35412389, "learning_rate": 0.00048923, "token_acc": 0.47891477, "epoch": 0.52195849, "global_step/max_steps": "1138/2181", "elapsed_time": "1h 36m 55s", "remaining_time": "1h 28m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109683}
+{"loss": 2.40296793, "grad_norm": 0.34003341, "learning_rate": 0.00048849, "token_acc": 0.48405717, "epoch": 0.52241715, "global_step/max_steps": "1139/2181", "elapsed_time": "1h 37m 0s", "remaining_time": "1h 28m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109783}
+{"loss": 2.3753624, "grad_norm": 0.35869327, "learning_rate": 0.00048775, "token_acc": 0.48051948, "epoch": 0.52287582, "global_step/max_steps": "1140/2181", "elapsed_time": "1h 37m 5s", "remaining_time": "1h 28m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109375}
+{"loss": 2.46176171, "grad_norm": 0.3550739, "learning_rate": 0.000487, "token_acc": 0.46927996, "epoch": 0.52333448, "global_step/max_steps": "1141/2181", "elapsed_time": "1h 37m 10s", "remaining_time": "1h 28m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109147}
+{"loss": 2.50744629, "grad_norm": 0.34429905, "learning_rate": 0.00048626, "token_acc": 0.47226018, "epoch": 0.52379314, "global_step/max_steps": "1142/2181", "elapsed_time": "1h 37m 15s", "remaining_time": "1h 28m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109266}
+{"loss": 2.43130612, "grad_norm": 0.33896327, "learning_rate": 0.00048552, "token_acc": 0.47838453, "epoch": 0.52425181, "global_step/max_steps": "1143/2181", "elapsed_time": "1h 37m 20s", "remaining_time": "1h 28m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109226}
+{"loss": 2.34281254, "grad_norm": 0.35044485, "learning_rate": 0.00048478, "token_acc": 0.50240589, "epoch": 0.52471047, "global_step/max_steps": "1144/2181", "elapsed_time": "1h 37m 25s", "remaining_time": "1h 28m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108986}
+{"loss": 2.53454137, "grad_norm": 0.32874572, "learning_rate": 0.00048403, "token_acc": 0.47362727, "epoch": 0.52516913, "global_step/max_steps": "1145/2181", "elapsed_time": "1h 37m 30s", "remaining_time": "1h 28m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109015}
+{"loss": 2.48208928, "grad_norm": 0.33086947, "learning_rate": 0.00048329, "token_acc": 0.46887631, "epoch": 0.52562779, "global_step/max_steps": "1146/2181", "elapsed_time": "1h 37m 35s", "remaining_time": "1h 28m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108953}
+{"loss": 2.45750618, "grad_norm": 0.33060202, "learning_rate": 0.00048255, "token_acc": 0.48015123, "epoch": 0.52608646, "global_step/max_steps": "1147/2181", "elapsed_time": "1h 37m 40s", "remaining_time": "1h 28m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108928}
+{"loss": 2.32746553, "grad_norm": 0.34184855, "learning_rate": 0.00048181, "token_acc": 0.49110218, "epoch": 0.52654512, "global_step/max_steps": "1148/2181", "elapsed_time": "1h 37m 45s", "remaining_time": "1h 27m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108895}
+{"loss": 2.50199747, "grad_norm": 0.34381649, "learning_rate": 0.00048107, "token_acc": 0.46465207, "epoch": 0.52700378, "global_step/max_steps": "1149/2181", "elapsed_time": "1h 37m 50s", "remaining_time": "1h 27m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10911}
+{"loss": 2.37011719, "grad_norm": 0.31883553, "learning_rate": 0.00048032, "token_acc": 0.49545455, "epoch": 0.52746245, "global_step/max_steps": "1150/2181", "elapsed_time": "1h 37m 55s", "remaining_time": "1h 27m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109022}
+{"loss": 2.47389007, "grad_norm": 0.33658087, "learning_rate": 0.00047958, "token_acc": 0.48012148, "epoch": 0.52792111, "global_step/max_steps": "1151/2181", "elapsed_time": "1h 38m 0s", "remaining_time": "1h 27m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108745}
+{"loss": 2.38478136, "grad_norm": 0.31893256, "learning_rate": 0.00047884, "token_acc": 0.48894417, "epoch": 0.52837977, "global_step/max_steps": "1152/2181", "elapsed_time": "1h 38m 5s", "remaining_time": "1h 27m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108451}
+{"loss": 2.47222161, "grad_norm": 0.32292414, "learning_rate": 0.0004781, "token_acc": 0.47794118, "epoch": 0.52883844, "global_step/max_steps": "1153/2181", "elapsed_time": "1h 38m 10s", "remaining_time": "1h 27m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108116}
+{"loss": 2.34892058, "grad_norm": 0.32646888, "learning_rate": 0.00047736, "token_acc": 0.49762371, "epoch": 0.5292971, "global_step/max_steps": "1154/2181", "elapsed_time": "1h 38m 15s", "remaining_time": "1h 27m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107942}
+{"loss": 2.47580409, "grad_norm": 0.33190492, "learning_rate": 0.00047661, "token_acc": 0.48379825, "epoch": 0.52975576, "global_step/max_steps": "1155/2181", "elapsed_time": "1h 38m 20s", "remaining_time": "1h 27m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108058}
+{"loss": 2.38656855, "grad_norm": 0.33607024, "learning_rate": 0.00047587, "token_acc": 0.48089701, "epoch": 0.53021442, "global_step/max_steps": "1156/2181", "elapsed_time": "1h 38m 25s", "remaining_time": "1h 27m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108126}
+{"loss": 2.47395945, "grad_norm": 0.33791482, "learning_rate": 0.00047513, "token_acc": 0.46145313, "epoch": 0.53067309, "global_step/max_steps": "1157/2181", "elapsed_time": "1h 38m 31s", "remaining_time": "1h 27m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108711}
+{"loss": 2.42356372, "grad_norm": 0.33049795, "learning_rate": 0.00047439, "token_acc": 0.47673782, "epoch": 0.53113175, "global_step/max_steps": "1158/2181", "elapsed_time": "1h 38m 36s", "remaining_time": "1h 27m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108572}
+{"loss": 2.3791976, "grad_norm": 0.34790948, "learning_rate": 0.00047365, "token_acc": 0.48713501, "epoch": 0.53159041, "global_step/max_steps": "1159/2181", "elapsed_time": "1h 38m 41s", "remaining_time": "1h 27m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109079}
+{"loss": 2.4113555, "grad_norm": 0.3306731, "learning_rate": 0.0004729, "token_acc": 0.48043907, "epoch": 0.53204908, "global_step/max_steps": "1160/2181", "elapsed_time": "1h 38m 46s", "remaining_time": "1h 26m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108947}
+{"loss": 2.36044884, "grad_norm": 0.32789829, "learning_rate": 0.00047216, "token_acc": 0.48992725, "epoch": 0.53250774, "global_step/max_steps": "1161/2181", "elapsed_time": "1h 38m 52s", "remaining_time": "1h 26m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109034}
+{"loss": 2.41093016, "grad_norm": 0.34694055, "learning_rate": 0.00047142, "token_acc": 0.48941648, "epoch": 0.5329664, "global_step/max_steps": "1162/2181", "elapsed_time": "1h 38m 56s", "remaining_time": "1h 26m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108791}
+{"loss": 2.29485607, "grad_norm": 0.32905158, "learning_rate": 0.00047068, "token_acc": 0.49490218, "epoch": 0.53342507, "global_step/max_steps": "1163/2181", "elapsed_time": "1h 39m 1s", "remaining_time": "1h 26m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108619}
+{"loss": 2.31743646, "grad_norm": 0.3314549, "learning_rate": 0.00046994, "token_acc": 0.49502488, "epoch": 0.53388373, "global_step/max_steps": "1164/2181", "elapsed_time": "1h 39m 6s", "remaining_time": "1h 26m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108342}
+{"loss": 2.38594484, "grad_norm": 0.3574414, "learning_rate": 0.0004692, "token_acc": 0.48337091, "epoch": 0.53434239, "global_step/max_steps": "1165/2181", "elapsed_time": "1h 39m 11s", "remaining_time": "1h 26m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108076}
+{"loss": 2.36859107, "grad_norm": 0.33727691, "learning_rate": 0.00046846, "token_acc": 0.48953255, "epoch": 0.53480105, "global_step/max_steps": "1166/2181", "elapsed_time": "1h 39m 16s", "remaining_time": "1h 26m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107826}
+{"loss": 2.43025208, "grad_norm": 0.31861219, "learning_rate": 0.00046772, "token_acc": 0.47603662, "epoch": 0.53525972, "global_step/max_steps": "1167/2181", "elapsed_time": "1h 39m 21s", "remaining_time": "1h 26m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107703}
+{"loss": 2.46687937, "grad_norm": 0.33439404, "learning_rate": 0.00046697, "token_acc": 0.47239597, "epoch": 0.53571838, "global_step/max_steps": "1168/2181", "elapsed_time": "1h 39m 26s", "remaining_time": "1h 26m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107477}
+{"loss": 2.38079405, "grad_norm": 0.31994087, "learning_rate": 0.00046623, "token_acc": 0.48732394, "epoch": 0.53617704, "global_step/max_steps": "1169/2181", "elapsed_time": "1h 39m 30s", "remaining_time": "1h 26m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107301}
+{"loss": 2.40088177, "grad_norm": 0.329658, "learning_rate": 0.00046549, "token_acc": 0.48006785, "epoch": 0.53663571, "global_step/max_steps": "1170/2181", "elapsed_time": "1h 39m 36s", "remaining_time": "1h 26m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107493}
+{"loss": 2.38544726, "grad_norm": 0.3274883, "learning_rate": 0.00046475, "token_acc": 0.47834225, "epoch": 0.53709437, "global_step/max_steps": "1171/2181", "elapsed_time": "1h 39m 41s", "remaining_time": "1h 25m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107346}
+{"loss": 2.37999082, "grad_norm": 0.34073704, "learning_rate": 0.00046401, "token_acc": 0.49719626, "epoch": 0.53755303, "global_step/max_steps": "1172/2181", "elapsed_time": "1h 39m 45s", "remaining_time": "1h 25m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107034}
+{"loss": 2.37521219, "grad_norm": 0.3429637, "learning_rate": 0.00046327, "token_acc": 0.47820966, "epoch": 0.5380117, "global_step/max_steps": "1173/2181", "elapsed_time": "1h 39m 50s", "remaining_time": "1h 25m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106653}
+{"loss": 2.30464697, "grad_norm": 0.33161837, "learning_rate": 0.00046253, "token_acc": 0.50611532, "epoch": 0.53847036, "global_step/max_steps": "1174/2181", "elapsed_time": "1h 39m 55s", "remaining_time": "1h 25m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106742}
+{"loss": 2.36380053, "grad_norm": 0.32786694, "learning_rate": 0.00046179, "token_acc": 0.49569325, "epoch": 0.53892902, "global_step/max_steps": "1175/2181", "elapsed_time": "1h 40m 0s", "remaining_time": "1h 25m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106513}
+{"loss": 2.42567897, "grad_norm": 0.31958151, "learning_rate": 0.00046105, "token_acc": 0.48543949, "epoch": 0.53938768, "global_step/max_steps": "1176/2181", "elapsed_time": "1h 40m 5s", "remaining_time": "1h 25m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106439}
+{"loss": 2.37035656, "grad_norm": 0.33743307, "learning_rate": 0.00046031, "token_acc": 0.50751347, "epoch": 0.53984635, "global_step/max_steps": "1177/2181", "elapsed_time": "1h 40m 10s", "remaining_time": "1h 25m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106564}
+{"loss": 2.4162786, "grad_norm": 0.31495303, "learning_rate": 0.00045957, "token_acc": 0.47185662, "epoch": 0.54030501, "global_step/max_steps": "1178/2181", "elapsed_time": "1h 40m 15s", "remaining_time": "1h 25m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106252}
+{"loss": 2.40478301, "grad_norm": 0.32650566, "learning_rate": 0.00045883, "token_acc": 0.4904548, "epoch": 0.54076367, "global_step/max_steps": "1179/2181", "elapsed_time": "1h 40m 20s", "remaining_time": "1h 25m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106303}
+{"loss": 2.47567701, "grad_norm": 0.32213119, "learning_rate": 0.00045809, "token_acc": 0.47053896, "epoch": 0.54122234, "global_step/max_steps": "1180/2181", "elapsed_time": "1h 40m 25s", "remaining_time": "1h 25m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106189}
+{"loss": 2.41952729, "grad_norm": 0.32845628, "learning_rate": 0.00045735, "token_acc": 0.48367868, "epoch": 0.541681, "global_step/max_steps": "1181/2181", "elapsed_time": "1h 40m 30s", "remaining_time": "1h 25m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106156}
+{"loss": 2.35231447, "grad_norm": 0.3440361, "learning_rate": 0.00045661, "token_acc": 0.49797921, "epoch": 0.54213966, "global_step/max_steps": "1182/2181", "elapsed_time": "1h 40m 35s", "remaining_time": "1h 25m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105911}
+{"loss": 2.4763577, "grad_norm": 0.33939105, "learning_rate": 0.00045587, "token_acc": 0.48289183, "epoch": 0.54259833, "global_step/max_steps": "1183/2181", "elapsed_time": "1h 40m 41s", "remaining_time": "1h 24m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106252}
+{"loss": 2.38356853, "grad_norm": 0.34543085, "learning_rate": 0.00045513, "token_acc": 0.48740202, "epoch": 0.54305699, "global_step/max_steps": "1184/2181", "elapsed_time": "1h 40m 46s", "remaining_time": "1h 24m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106376}
+{"loss": 2.40828228, "grad_norm": 0.33511585, "learning_rate": 0.00045439, "token_acc": 0.49108683, "epoch": 0.54351565, "global_step/max_steps": "1185/2181", "elapsed_time": "1h 40m 51s", "remaining_time": "1h 24m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106273}
+{"loss": 2.35712624, "grad_norm": 0.33041507, "learning_rate": 0.00045365, "token_acc": 0.49819093, "epoch": 0.54397431, "global_step/max_steps": "1186/2181", "elapsed_time": "1h 40m 56s", "remaining_time": "1h 24m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105916}
+{"loss": 2.36824179, "grad_norm": 0.3438423, "learning_rate": 0.00045291, "token_acc": 0.50268741, "epoch": 0.54443298, "global_step/max_steps": "1187/2181", "elapsed_time": "1h 41m 0s", "remaining_time": "1h 24m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105689}
+{"loss": 2.44907594, "grad_norm": 0.32821602, "learning_rate": 0.00045217, "token_acc": 0.48609199, "epoch": 0.54489164, "global_step/max_steps": "1188/2181", "elapsed_time": "1h 41m 5s", "remaining_time": "1h 24m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105616}
+{"loss": 2.351964, "grad_norm": 0.33442086, "learning_rate": 0.00045143, "token_acc": 0.4940755, "epoch": 0.5453503, "global_step/max_steps": "1189/2181", "elapsed_time": "1h 41m 10s", "remaining_time": "1h 24m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105519}
+{"loss": 2.43629122, "grad_norm": 0.3435117, "learning_rate": 0.00045069, "token_acc": 0.48068182, "epoch": 0.54580897, "global_step/max_steps": "1190/2181", "elapsed_time": "1h 41m 16s", "remaining_time": "1h 24m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105486}
+{"loss": 2.36876917, "grad_norm": 0.32576439, "learning_rate": 0.00044995, "token_acc": 0.47923588, "epoch": 0.54626763, "global_step/max_steps": "1191/2181", "elapsed_time": "1h 41m 20s", "remaining_time": "1h 24m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10513}
+{"loss": 2.31227303, "grad_norm": 0.33563125, "learning_rate": 0.00044921, "token_acc": 0.49754831, "epoch": 0.54672629, "global_step/max_steps": "1192/2181", "elapsed_time": "1h 41m 25s", "remaining_time": "1h 24m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104913}
+{"loss": 2.39744425, "grad_norm": 0.34099227, "learning_rate": 0.00044847, "token_acc": 0.48629149, "epoch": 0.54718496, "global_step/max_steps": "1193/2181", "elapsed_time": "1h 41m 30s", "remaining_time": "1h 24m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105086}
+{"loss": 2.4072423, "grad_norm": 0.34597668, "learning_rate": 0.00044774, "token_acc": 0.48477886, "epoch": 0.54764362, "global_step/max_steps": "1194/2181", "elapsed_time": "1h 41m 36s", "remaining_time": "1h 23m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105198}
+{"loss": 2.40425491, "grad_norm": 0.31964076, "learning_rate": 0.000447, "token_acc": 0.49026063, "epoch": 0.54810228, "global_step/max_steps": "1195/2181", "elapsed_time": "1h 41m 40s", "remaining_time": "1h 23m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104855}
+{"loss": 2.48555613, "grad_norm": 0.31169629, "learning_rate": 0.00044626, "token_acc": 0.47184624, "epoch": 0.54856094, "global_step/max_steps": "1196/2181", "elapsed_time": "1h 41m 45s", "remaining_time": "1h 23m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104764}
+{"loss": 2.48589063, "grad_norm": 0.32837573, "learning_rate": 0.00044552, "token_acc": 0.4749424, "epoch": 0.54901961, "global_step/max_steps": "1197/2181", "elapsed_time": "1h 41m 51s", "remaining_time": "1h 23m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104846}
+{"loss": 2.33555555, "grad_norm": 0.33134961, "learning_rate": 0.00044478, "token_acc": 0.48063719, "epoch": 0.54947827, "global_step/max_steps": "1198/2181", "elapsed_time": "1h 41m 55s", "remaining_time": "1h 23m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104742}
+{"loss": 2.44032145, "grad_norm": 0.33898246, "learning_rate": 0.00044404, "token_acc": 0.49220742, "epoch": 0.54993693, "global_step/max_steps": "1199/2181", "elapsed_time": "1h 42m 1s", "remaining_time": "1h 23m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104691}
+{"loss": 2.53231907, "grad_norm": 0.34255618, "learning_rate": 0.00044331, "token_acc": 0.46542324, "epoch": 0.5503956, "global_step/max_steps": "1200/2181", "elapsed_time": "1h 42m 5s", "remaining_time": "1h 23m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104351}
+{"loss": 2.48356438, "grad_norm": 0.35385719, "learning_rate": 0.00044257, "token_acc": 0.47285068, "epoch": 0.55085426, "global_step/max_steps": "1201/2181", "elapsed_time": "1h 42m 10s", "remaining_time": "1h 23m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104279}
+{"loss": 2.28616095, "grad_norm": 0.31120595, "learning_rate": 0.00044183, "token_acc": 0.51585332, "epoch": 0.55131292, "global_step/max_steps": "1202/2181", "elapsed_time": "1h 42m 15s", "remaining_time": "1h 23m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10417}
+{"loss": 2.38686991, "grad_norm": 0.32723919, "learning_rate": 0.00044109, "token_acc": 0.49597207, "epoch": 0.55177159, "global_step/max_steps": "1203/2181", "elapsed_time": "1h 42m 20s", "remaining_time": "1h 23m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104079}
+{"loss": 2.29269958, "grad_norm": 0.32817671, "learning_rate": 0.00044036, "token_acc": 0.49780509, "epoch": 0.55223025, "global_step/max_steps": "1204/2181", "elapsed_time": "1h 42m 26s", "remaining_time": "1h 23m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104445}
+{"loss": 2.27553773, "grad_norm": 0.33131436, "learning_rate": 0.00043962, "token_acc": 0.50169779, "epoch": 0.55268891, "global_step/max_steps": "1205/2181", "elapsed_time": "1h 42m 30s", "remaining_time": "1h 23m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104137}
+{"loss": 2.30415058, "grad_norm": 0.32870513, "learning_rate": 0.00043888, "token_acc": 0.50055586, "epoch": 0.55314757, "global_step/max_steps": "1206/2181", "elapsed_time": "1h 42m 35s", "remaining_time": "1h 22m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104048}
+{"loss": 2.48176718, "grad_norm": 0.34754992, "learning_rate": 0.00043814, "token_acc": 0.4770247, "epoch": 0.55360624, "global_step/max_steps": "1207/2181", "elapsed_time": "1h 42m 41s", "remaining_time": "1h 22m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10416}
+{"loss": 2.32826805, "grad_norm": 0.33949128, "learning_rate": 0.00043741, "token_acc": 0.49441265, "epoch": 0.5540649, "global_step/max_steps": "1208/2181", "elapsed_time": "1h 42m 45s", "remaining_time": "1h 22m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103801}
+{"loss": 2.44027519, "grad_norm": 0.35946444, "learning_rate": 0.00043667, "token_acc": 0.47631206, "epoch": 0.55452356, "global_step/max_steps": "1209/2181", "elapsed_time": "1h 42m 50s", "remaining_time": "1h 22m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1037}
+{"loss": 2.44513941, "grad_norm": 0.34651414, "learning_rate": 0.00043593, "token_acc": 0.47500706, "epoch": 0.55498223, "global_step/max_steps": "1210/2181", "elapsed_time": "1h 42m 55s", "remaining_time": "1h 22m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103541}
+{"loss": 2.31063437, "grad_norm": 0.33441967, "learning_rate": 0.0004352, "token_acc": 0.49069899, "epoch": 0.55544089, "global_step/max_steps": "1211/2181", "elapsed_time": "1h 43m 1s", "remaining_time": "1h 22m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104022}
+{"loss": 2.39369249, "grad_norm": 0.346885, "learning_rate": 0.00043446, "token_acc": 0.48639551, "epoch": 0.55589955, "global_step/max_steps": "1212/2181", "elapsed_time": "1h 43m 6s", "remaining_time": "1h 22m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104088}
+{"loss": 2.41883087, "grad_norm": 0.33408496, "learning_rate": 0.00043372, "token_acc": 0.48834597, "epoch": 0.55635822, "global_step/max_steps": "1213/2181", "elapsed_time": "1h 43m 11s", "remaining_time": "1h 22m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10394}
+{"loss": 2.31838727, "grad_norm": 0.37232357, "learning_rate": 0.00043299, "token_acc": 0.49273711, "epoch": 0.55681688, "global_step/max_steps": "1214/2181", "elapsed_time": "1h 43m 16s", "remaining_time": "1h 22m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1039}
+{"loss": 2.31291008, "grad_norm": 0.32914647, "learning_rate": 0.00043225, "token_acc": 0.50135208, "epoch": 0.55727554, "global_step/max_steps": "1215/2181", "elapsed_time": "1h 43m 21s", "remaining_time": "1h 22m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10382}
+{"loss": 2.34812784, "grad_norm": 0.32913053, "learning_rate": 0.00043152, "token_acc": 0.49447436, "epoch": 0.5577342, "global_step/max_steps": "1216/2181", "elapsed_time": "1h 43m 26s", "remaining_time": "1h 22m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1036}
+{"loss": 2.40811968, "grad_norm": 0.34666577, "learning_rate": 0.00043078, "token_acc": 0.48874134, "epoch": 0.55819287, "global_step/max_steps": "1217/2181", "elapsed_time": "1h 43m 31s", "remaining_time": "1h 21m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103574}
+{"loss": 2.44838715, "grad_norm": 0.32372457, "learning_rate": 0.00043005, "token_acc": 0.46934813, "epoch": 0.55865153, "global_step/max_steps": "1218/2181", "elapsed_time": "1h 43m 36s", "remaining_time": "1h 21m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103486}
+{"loss": 2.43454838, "grad_norm": 0.34390882, "learning_rate": 0.00042931, "token_acc": 0.48181325, "epoch": 0.55911019, "global_step/max_steps": "1219/2181", "elapsed_time": "1h 43m 42s", "remaining_time": "1h 21m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103855}
+{"loss": 2.44660187, "grad_norm": 0.35459903, "learning_rate": 0.00042858, "token_acc": 0.47608983, "epoch": 0.55956886, "global_step/max_steps": "1220/2181", "elapsed_time": "1h 43m 46s", "remaining_time": "1h 21m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103609}
+{"loss": 2.36601067, "grad_norm": 0.33733758, "learning_rate": 0.00042784, "token_acc": 0.48605921, "epoch": 0.56002752, "global_step/max_steps": "1221/2181", "elapsed_time": "1h 43m 51s", "remaining_time": "1h 21m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103519}
+{"loss": 2.47875881, "grad_norm": 0.32617852, "learning_rate": 0.00042711, "token_acc": 0.4811658, "epoch": 0.56048618, "global_step/max_steps": "1222/2181", "elapsed_time": "1h 43m 56s", "remaining_time": "1h 21m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103378}
+{"loss": 2.41974688, "grad_norm": 0.32000041, "learning_rate": 0.00042637, "token_acc": 0.48042414, "epoch": 0.56094485, "global_step/max_steps": "1223/2181", "elapsed_time": "1h 44m 1s", "remaining_time": "1h 21m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103253}
+{"loss": 2.39364767, "grad_norm": 0.33367574, "learning_rate": 0.00042564, "token_acc": 0.47599532, "epoch": 0.56140351, "global_step/max_steps": "1224/2181", "elapsed_time": "1h 44m 6s", "remaining_time": "1h 21m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103108}
+{"loss": 2.33999658, "grad_norm": 0.33793601, "learning_rate": 0.0004249, "token_acc": 0.48777715, "epoch": 0.56186217, "global_step/max_steps": "1225/2181", "elapsed_time": "1h 44m 11s", "remaining_time": "1h 21m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103094}
+{"loss": 2.47775555, "grad_norm": 0.32111782, "learning_rate": 0.00042417, "token_acc": 0.48440066, "epoch": 0.56232083, "global_step/max_steps": "1226/2181", "elapsed_time": "1h 44m 17s", "remaining_time": "1h 21m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103244}
+{"loss": 2.35062265, "grad_norm": 0.34420177, "learning_rate": 0.00042343, "token_acc": 0.48245868, "epoch": 0.5627795, "global_step/max_steps": "1227/2181", "elapsed_time": "1h 44m 21s", "remaining_time": "1h 21m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103018}
+{"loss": 2.41849136, "grad_norm": 0.35548064, "learning_rate": 0.0004227, "token_acc": 0.48822733, "epoch": 0.56323816, "global_step/max_steps": "1228/2181", "elapsed_time": "1h 44m 27s", "remaining_time": "1h 21m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103229}
+{"loss": 2.32812929, "grad_norm": 0.33591688, "learning_rate": 0.00042197, "token_acc": 0.49019058, "epoch": 0.56369682, "global_step/max_steps": "1229/2181", "elapsed_time": "1h 44m 32s", "remaining_time": "1h 20m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103526}
+{"loss": 2.36250257, "grad_norm": 0.34436226, "learning_rate": 0.00042123, "token_acc": 0.49443334, "epoch": 0.56415549, "global_step/max_steps": "1230/2181", "elapsed_time": "1h 44m 37s", "remaining_time": "1h 20m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10349}
+{"loss": 2.50547719, "grad_norm": 0.34090185, "learning_rate": 0.0004205, "token_acc": 0.47132035, "epoch": 0.56461415, "global_step/max_steps": "1231/2181", "elapsed_time": "1h 44m 42s", "remaining_time": "1h 20m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103483}
+{"loss": 2.51866412, "grad_norm": 0.34598684, "learning_rate": 0.00041977, "token_acc": 0.46668495, "epoch": 0.56507281, "global_step/max_steps": "1232/2181", "elapsed_time": "1h 44m 47s", "remaining_time": "1h 20m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103146}
+{"loss": 2.30309486, "grad_norm": 0.32553175, "learning_rate": 0.00041903, "token_acc": 0.48515406, "epoch": 0.56553148, "global_step/max_steps": "1233/2181", "elapsed_time": "1h 44m 52s", "remaining_time": "1h 20m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103113}
+{"loss": 2.56007314, "grad_norm": 0.33572426, "learning_rate": 0.0004183, "token_acc": 0.45712663, "epoch": 0.56599014, "global_step/max_steps": "1234/2181", "elapsed_time": "1h 44m 57s", "remaining_time": "1h 20m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103072}
+{"loss": 2.34131455, "grad_norm": 0.31590196, "learning_rate": 0.00041757, "token_acc": 0.49888703, "epoch": 0.5664488, "global_step/max_steps": "1235/2181", "elapsed_time": "1h 45m 2s", "remaining_time": "1h 20m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103044}
+{"loss": 2.42108154, "grad_norm": 0.33941615, "learning_rate": 0.00041684, "token_acc": 0.48903157, "epoch": 0.56690746, "global_step/max_steps": "1236/2181", "elapsed_time": "1h 45m 7s", "remaining_time": "1h 20m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102664}
+{"loss": 2.40281582, "grad_norm": 0.32113305, "learning_rate": 0.0004161, "token_acc": 0.4837002, "epoch": 0.56736613, "global_step/max_steps": "1237/2181", "elapsed_time": "1h 45m 12s", "remaining_time": "1h 20m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102899}
+{"loss": 2.43600202, "grad_norm": 0.34432742, "learning_rate": 0.00041537, "token_acc": 0.48692265, "epoch": 0.56782479, "global_step/max_steps": "1238/2181", "elapsed_time": "1h 45m 17s", "remaining_time": "1h 20m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102949}
+{"loss": 2.44091272, "grad_norm": 0.34885192, "learning_rate": 0.00041464, "token_acc": 0.48285554, "epoch": 0.56828345, "global_step/max_steps": "1239/2181", "elapsed_time": "1h 45m 22s", "remaining_time": "1h 20m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102755}
+{"loss": 2.42019033, "grad_norm": 0.3461484, "learning_rate": 0.00041391, "token_acc": 0.48349835, "epoch": 0.56874212, "global_step/max_steps": "1240/2181", "elapsed_time": "1h 45m 27s", "remaining_time": "1h 20m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102724}
+{"loss": 2.39942169, "grad_norm": 0.3319194, "learning_rate": 0.00041318, "token_acc": 0.48816652, "epoch": 0.56920078, "global_step/max_steps": "1241/2181", "elapsed_time": "1h 45m 32s", "remaining_time": "1h 19m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102622}
+{"loss": 2.28196311, "grad_norm": 0.32409114, "learning_rate": 0.00041244, "token_acc": 0.50192308, "epoch": 0.56965944, "global_step/max_steps": "1242/2181", "elapsed_time": "1h 45m 37s", "remaining_time": "1h 19m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102302}
+{"loss": 2.49258089, "grad_norm": 0.33767968, "learning_rate": 0.00041171, "token_acc": 0.47007586, "epoch": 0.57011811, "global_step/max_steps": "1243/2181", "elapsed_time": "1h 45m 42s", "remaining_time": "1h 19m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102268}
+{"loss": 2.36988831, "grad_norm": 0.33301637, "learning_rate": 0.00041098, "token_acc": 0.49698795, "epoch": 0.57057677, "global_step/max_steps": "1244/2181", "elapsed_time": "1h 45m 47s", "remaining_time": "1h 19m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102373}
+{"loss": 2.2901547, "grad_norm": 0.35458893, "learning_rate": 0.00041025, "token_acc": 0.50399088, "epoch": 0.57103543, "global_step/max_steps": "1245/2181", "elapsed_time": "1h 45m 53s", "remaining_time": "1h 19m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102427}
+{"loss": 2.36509919, "grad_norm": 0.33268124, "learning_rate": 0.00040952, "token_acc": 0.49162818, "epoch": 0.57149409, "global_step/max_steps": "1246/2181", "elapsed_time": "1h 45m 57s", "remaining_time": "1h 19m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102184}
+{"loss": 2.46368408, "grad_norm": 0.34769887, "learning_rate": 0.00040879, "token_acc": 0.47098783, "epoch": 0.57195276, "global_step/max_steps": "1247/2181", "elapsed_time": "1h 46m 3s", "remaining_time": "1h 19m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102258}
+{"loss": 2.35160971, "grad_norm": 0.32086688, "learning_rate": 0.00040806, "token_acc": 0.48567674, "epoch": 0.57241142, "global_step/max_steps": "1248/2181", "elapsed_time": "1h 46m 8s", "remaining_time": "1h 19m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102363}
+{"loss": 2.42510986, "grad_norm": 0.3383761, "learning_rate": 0.00040733, "token_acc": 0.48283753, "epoch": 0.57287008, "global_step/max_steps": "1249/2181", "elapsed_time": "1h 46m 13s", "remaining_time": "1h 19m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10259}
+{"loss": 2.32791185, "grad_norm": 0.34758985, "learning_rate": 0.0004066, "token_acc": 0.49888018, "epoch": 0.57332875, "global_step/max_steps": "1250/2181", "elapsed_time": "1h 46m 19s", "remaining_time": "1h 19m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102814}
+{"loss": 2.48032045, "grad_norm": 0.31971225, "learning_rate": 0.00040587, "token_acc": 0.46329659, "epoch": 0.57378741, "global_step/max_steps": "1251/2181", "elapsed_time": "1h 46m 23s", "remaining_time": "1h 19m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102669}
+{"loss": 2.41889024, "grad_norm": 0.31565416, "learning_rate": 0.00040514, "token_acc": 0.48138819, "epoch": 0.57424607, "global_step/max_steps": "1252/2181", "elapsed_time": "1h 46m 28s", "remaining_time": "1h 19m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102556}
+{"loss": 2.38802719, "grad_norm": 0.32916912, "learning_rate": 0.00040441, "token_acc": 0.49214518, "epoch": 0.57470474, "global_step/max_steps": "1253/2181", "elapsed_time": "1h 46m 33s", "remaining_time": "1h 18m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10228}
+{"loss": 2.4230125, "grad_norm": 0.34016612, "learning_rate": 0.00040368, "token_acc": 0.47578426, "epoch": 0.5751634, "global_step/max_steps": "1254/2181", "elapsed_time": "1h 46m 39s", "remaining_time": "1h 18m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102864}
+{"loss": 2.38769054, "grad_norm": 0.34469104, "learning_rate": 0.00040296, "token_acc": 0.4900277, "epoch": 0.57562206, "global_step/max_steps": "1255/2181", "elapsed_time": "1h 46m 44s", "remaining_time": "1h 18m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102965}
+{"loss": 2.36082792, "grad_norm": 0.33514544, "learning_rate": 0.00040223, "token_acc": 0.49193328, "epoch": 0.57608072, "global_step/max_steps": "1256/2181", "elapsed_time": "1h 46m 49s", "remaining_time": "1h 18m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102723}
+{"loss": 2.48827767, "grad_norm": 0.33321673, "learning_rate": 0.0004015, "token_acc": 0.45794393, "epoch": 0.57653939, "global_step/max_steps": "1257/2181", "elapsed_time": "1h 46m 54s", "remaining_time": "1h 18m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102432}
+{"loss": 2.50042176, "grad_norm": 0.34439513, "learning_rate": 0.00040077, "token_acc": 0.48556358, "epoch": 0.57699805, "global_step/max_steps": "1258/2181", "elapsed_time": "1h 46m 59s", "remaining_time": "1h 18m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102239}
+{"loss": 2.43469501, "grad_norm": 0.32048246, "learning_rate": 0.00040004, "token_acc": 0.47989348, "epoch": 0.57745671, "global_step/max_steps": "1259/2181", "elapsed_time": "1h 47m 4s", "remaining_time": "1h 18m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102383}
+{"loss": 2.25799966, "grad_norm": 0.32281011, "learning_rate": 0.00039932, "token_acc": 0.50122649, "epoch": 0.57791538, "global_step/max_steps": "1260/2181", "elapsed_time": "1h 47m 9s", "remaining_time": "1h 18m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102199}
+{"loss": 2.40690613, "grad_norm": 0.35547653, "learning_rate": 0.00039859, "token_acc": 0.48353208, "epoch": 0.57837404, "global_step/max_steps": "1261/2181", "elapsed_time": "1h 47m 14s", "remaining_time": "1h 18m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102213}
+{"loss": 2.32409763, "grad_norm": 0.32480463, "learning_rate": 0.00039786, "token_acc": 0.4956716, "epoch": 0.5788327, "global_step/max_steps": "1262/2181", "elapsed_time": "1h 47m 19s", "remaining_time": "1h 18m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102093}
+{"loss": 2.35837269, "grad_norm": 0.33551243, "learning_rate": 0.00039713, "token_acc": 0.48574418, "epoch": 0.57929137, "global_step/max_steps": "1263/2181", "elapsed_time": "1h 47m 24s", "remaining_time": "1h 18m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102044}
+{"loss": 2.28238964, "grad_norm": 0.33752081, "learning_rate": 0.00039641, "token_acc": 0.50984426, "epoch": 0.57975003, "global_step/max_steps": "1264/2181", "elapsed_time": "1h 47m 29s", "remaining_time": "1h 17m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101955}
+{"loss": 2.43725419, "grad_norm": 0.37461314, "learning_rate": 0.00039568, "token_acc": 0.48866571, "epoch": 0.58020869, "global_step/max_steps": "1265/2181", "elapsed_time": "1h 47m 34s", "remaining_time": "1h 17m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10177}
+{"loss": 2.48448515, "grad_norm": 0.348382, "learning_rate": 0.00039495, "token_acc": 0.4790287, "epoch": 0.58066735, "global_step/max_steps": "1266/2181", "elapsed_time": "1h 47m 40s", "remaining_time": "1h 17m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102438}
+{"loss": 2.38211393, "grad_norm": 0.34635234, "learning_rate": 0.00039423, "token_acc": 0.47875817, "epoch": 0.58112602, "global_step/max_steps": "1267/2181", "elapsed_time": "1h 47m 45s", "remaining_time": "1h 17m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10252}
+{"loss": 2.40873647, "grad_norm": 0.34990487, "learning_rate": 0.0003935, "token_acc": 0.49069186, "epoch": 0.58158468, "global_step/max_steps": "1268/2181", "elapsed_time": "1h 47m 50s", "remaining_time": "1h 17m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102521}
+{"loss": 2.36733198, "grad_norm": 0.34821767, "learning_rate": 0.00039278, "token_acc": 0.49348534, "epoch": 0.58204334, "global_step/max_steps": "1269/2181", "elapsed_time": "1h 47m 55s", "remaining_time": "1h 17m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102316}
+{"loss": 2.34105062, "grad_norm": 0.32407969, "learning_rate": 0.00039205, "token_acc": 0.48408565, "epoch": 0.58250201, "global_step/max_steps": "1270/2181", "elapsed_time": "1h 47m 60s", "remaining_time": "1h 17m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102213}
+{"loss": 2.39752865, "grad_norm": 0.34050477, "learning_rate": 0.00039133, "token_acc": 0.48286517, "epoch": 0.58296067, "global_step/max_steps": "1271/2181", "elapsed_time": "1h 48m 5s", "remaining_time": "1h 17m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102216}
+{"loss": 2.40420175, "grad_norm": 0.33491912, "learning_rate": 0.0003906, "token_acc": 0.48731241, "epoch": 0.58341933, "global_step/max_steps": "1272/2181", "elapsed_time": "1h 48m 10s", "remaining_time": "1h 17m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1019}
+{"loss": 2.3883543, "grad_norm": 0.33675656, "learning_rate": 0.00038988, "token_acc": 0.49558986, "epoch": 0.583878, "global_step/max_steps": "1273/2181", "elapsed_time": "1h 48m 15s", "remaining_time": "1h 17m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102236}
+{"loss": 2.43960381, "grad_norm": 0.3383497, "learning_rate": 0.00038915, "token_acc": 0.48196448, "epoch": 0.58433666, "global_step/max_steps": "1274/2181", "elapsed_time": "1h 48m 20s", "remaining_time": "1h 17m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102135}
+{"loss": 2.49277163, "grad_norm": 0.35871056, "learning_rate": 0.00038843, "token_acc": 0.48759124, "epoch": 0.58479532, "global_step/max_steps": "1275/2181", "elapsed_time": "1h 48m 25s", "remaining_time": "1h 17m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102259}
+{"loss": 2.40117002, "grad_norm": 0.34266716, "learning_rate": 0.00038771, "token_acc": 0.4840604, "epoch": 0.58525398, "global_step/max_steps": "1276/2181", "elapsed_time": "1h 48m 30s", "remaining_time": "1h 16m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102136}
+{"loss": 2.40999699, "grad_norm": 0.34094673, "learning_rate": 0.00038698, "token_acc": 0.49328859, "epoch": 0.58571265, "global_step/max_steps": "1277/2181", "elapsed_time": "1h 48m 36s", "remaining_time": "1h 16m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102298}
+{"loss": 2.45683432, "grad_norm": 0.34552035, "learning_rate": 0.00038626, "token_acc": 0.48484848, "epoch": 0.58617131, "global_step/max_steps": "1278/2181", "elapsed_time": "1h 48m 41s", "remaining_time": "1h 16m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102302}
+{"loss": 2.41253972, "grad_norm": 0.34444368, "learning_rate": 0.00038554, "token_acc": 0.48189107, "epoch": 0.58662997, "global_step/max_steps": "1279/2181", "elapsed_time": "1h 48m 46s", "remaining_time": "1h 16m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10207}
+{"loss": 2.38835192, "grad_norm": 0.3305189, "learning_rate": 0.00038481, "token_acc": 0.48541552, "epoch": 0.58708864, "global_step/max_steps": "1280/2181", "elapsed_time": "1h 48m 51s", "remaining_time": "1h 16m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102096}
+{"loss": 2.40078545, "grad_norm": 0.34492022, "learning_rate": 0.00038409, "token_acc": 0.48857391, "epoch": 0.5875473, "global_step/max_steps": "1281/2181", "elapsed_time": "1h 48m 56s", "remaining_time": "1h 16m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101995}
+{"loss": 2.39125061, "grad_norm": 0.3304204, "learning_rate": 0.00038337, "token_acc": 0.48262332, "epoch": 0.58800596, "global_step/max_steps": "1282/2181", "elapsed_time": "1h 49m 1s", "remaining_time": "1h 16m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102365}
+{"loss": 2.3989625, "grad_norm": 0.35640556, "learning_rate": 0.00038265, "token_acc": 0.48273911, "epoch": 0.58846463, "global_step/max_steps": "1283/2181", "elapsed_time": "1h 49m 7s", "remaining_time": "1h 16m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102539}
+{"loss": 2.41320467, "grad_norm": 0.34016719, "learning_rate": 0.00038192, "token_acc": 0.48526959, "epoch": 0.58892329, "global_step/max_steps": "1284/2181", "elapsed_time": "1h 49m 11s", "remaining_time": "1h 16m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102405}
+{"loss": 2.41794252, "grad_norm": 0.33444005, "learning_rate": 0.0003812, "token_acc": 0.4904039, "epoch": 0.58938195, "global_step/max_steps": "1285/2181", "elapsed_time": "1h 49m 16s", "remaining_time": "1h 16m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102202}
+{"loss": 2.3606143, "grad_norm": 0.3298775, "learning_rate": 0.00038048, "token_acc": 0.48459846, "epoch": 0.58984061, "global_step/max_steps": "1286/2181", "elapsed_time": "1h 49m 22s", "remaining_time": "1h 16m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102397}
+{"loss": 2.44674587, "grad_norm": 0.32908991, "learning_rate": 0.00037976, "token_acc": 0.47582697, "epoch": 0.59029928, "global_step/max_steps": "1287/2181", "elapsed_time": "1h 49m 27s", "remaining_time": "1h 16m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1023}
+{"loss": 2.30249071, "grad_norm": 0.33922541, "learning_rate": 0.00037904, "token_acc": 0.50621469, "epoch": 0.59075794, "global_step/max_steps": "1288/2181", "elapsed_time": "1h 49m 32s", "remaining_time": "1h 15m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102221}
+{"loss": 2.28924131, "grad_norm": 0.33051237, "learning_rate": 0.00037832, "token_acc": 0.5006908, "epoch": 0.5912166, "global_step/max_steps": "1289/2181", "elapsed_time": "1h 49m 37s", "remaining_time": "1h 15m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102538}
+{"loss": 2.24680042, "grad_norm": 0.33080062, "learning_rate": 0.0003776, "token_acc": 0.49689791, "epoch": 0.59167527, "global_step/max_steps": "1290/2181", "elapsed_time": "1h 49m 43s", "remaining_time": "1h 15m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102783}
+{"loss": 2.31757164, "grad_norm": 0.32767627, "learning_rate": 0.00037688, "token_acc": 0.5015674, "epoch": 0.59213393, "global_step/max_steps": "1291/2181", "elapsed_time": "1h 49m 48s", "remaining_time": "1h 15m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102768}
+{"loss": 2.42474198, "grad_norm": 0.33252999, "learning_rate": 0.00037616, "token_acc": 0.47164012, "epoch": 0.59259259, "global_step/max_steps": "1292/2181", "elapsed_time": "1h 49m 53s", "remaining_time": "1h 15m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102609}
+{"loss": 2.43053436, "grad_norm": 0.34397823, "learning_rate": 0.00037544, "token_acc": 0.47674083, "epoch": 0.59305126, "global_step/max_steps": "1293/2181", "elapsed_time": "1h 49m 58s", "remaining_time": "1h 15m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102491}
+{"loss": 2.41682816, "grad_norm": 0.34540722, "learning_rate": 0.00037472, "token_acc": 0.4948037, "epoch": 0.59350992, "global_step/max_steps": "1294/2181", "elapsed_time": "1h 50m 3s", "remaining_time": "1h 15m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102492}
+{"loss": 2.38443995, "grad_norm": 0.33437836, "learning_rate": 0.000374, "token_acc": 0.49943052, "epoch": 0.59396858, "global_step/max_steps": "1295/2181", "elapsed_time": "1h 50m 8s", "remaining_time": "1h 15m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102337}
+{"loss": 2.41368079, "grad_norm": 0.32231385, "learning_rate": 0.00037328, "token_acc": 0.49082435, "epoch": 0.59442724, "global_step/max_steps": "1296/2181", "elapsed_time": "1h 50m 13s", "remaining_time": "1h 15m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1024}
+{"loss": 2.3260746, "grad_norm": 0.31404167, "learning_rate": 0.00037256, "token_acc": 0.49703975, "epoch": 0.59488591, "global_step/max_steps": "1297/2181", "elapsed_time": "1h 50m 18s", "remaining_time": "1h 15m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102522}
+{"loss": 2.33017945, "grad_norm": 0.34449455, "learning_rate": 0.00037185, "token_acc": 0.49741528, "epoch": 0.59534457, "global_step/max_steps": "1298/2181", "elapsed_time": "1h 50m 23s", "remaining_time": "1h 15m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102588}
+{"loss": 2.42614484, "grad_norm": 0.35191974, "learning_rate": 0.00037113, "token_acc": 0.47919615, "epoch": 0.59580323, "global_step/max_steps": "1299/2181", "elapsed_time": "1h 50m 28s", "remaining_time": "1h 15m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102281}
+{"loss": 2.40980172, "grad_norm": 0.33583644, "learning_rate": 0.00037041, "token_acc": 0.48670062, "epoch": 0.5962619, "global_step/max_steps": "1300/2181", "elapsed_time": "1h 50m 33s", "remaining_time": "1h 14m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102322}
+{"loss": 2.50802803, "grad_norm": 0.34896979, "learning_rate": 0.00036969, "token_acc": 0.46801052, "epoch": 0.59672056, "global_step/max_steps": "1301/2181", "elapsed_time": "1h 50m 38s", "remaining_time": "1h 14m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10198}
+{"loss": 2.3242507, "grad_norm": 0.35777485, "learning_rate": 0.00036898, "token_acc": 0.49817056, "epoch": 0.59717922, "global_step/max_steps": "1302/2181", "elapsed_time": "1h 50m 43s", "remaining_time": "1h 14m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101866}
+{"loss": 2.38547087, "grad_norm": 0.34171376, "learning_rate": 0.00036826, "token_acc": 0.50743707, "epoch": 0.59763789, "global_step/max_steps": "1303/2181", "elapsed_time": "1h 50m 48s", "remaining_time": "1h 14m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10171}
+{"loss": 2.33568478, "grad_norm": 0.33961362, "learning_rate": 0.00036754, "token_acc": 0.50431394, "epoch": 0.59809655, "global_step/max_steps": "1304/2181", "elapsed_time": "1h 50m 52s", "remaining_time": "1h 14m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101576}
+{"loss": 2.31547165, "grad_norm": 0.34940797, "learning_rate": 0.00036683, "token_acc": 0.51893939, "epoch": 0.59855521, "global_step/max_steps": "1305/2181", "elapsed_time": "1h 50m 58s", "remaining_time": "1h 14m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101736}
+{"loss": 2.34249687, "grad_norm": 0.33320579, "learning_rate": 0.00036611, "token_acc": 0.49957735, "epoch": 0.59901387, "global_step/max_steps": "1306/2181", "elapsed_time": "1h 51m 3s", "remaining_time": "1h 14m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101559}
+{"loss": 2.48370075, "grad_norm": 0.33597851, "learning_rate": 0.0003654, "token_acc": 0.47426784, "epoch": 0.59947254, "global_step/max_steps": "1307/2181", "elapsed_time": "1h 51m 7s", "remaining_time": "1h 14m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101263}
+{"loss": 2.29480696, "grad_norm": 0.33595258, "learning_rate": 0.00036468, "token_acc": 0.50389262, "epoch": 0.5999312, "global_step/max_steps": "1308/2181", "elapsed_time": "1h 51m 13s", "remaining_time": "1h 14m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101306}
+{"loss": 2.38611412, "grad_norm": 0.33808476, "learning_rate": 0.00036397, "token_acc": 0.48621349, "epoch": 0.60038986, "global_step/max_steps": "1309/2181", "elapsed_time": "1h 51m 18s", "remaining_time": "1h 14m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101257}
+{"loss": 2.39129925, "grad_norm": 0.34954831, "learning_rate": 0.00036325, "token_acc": 0.48762655, "epoch": 0.60084853, "global_step/max_steps": "1310/2181", "elapsed_time": "1h 51m 23s", "remaining_time": "1h 14m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101363}
+{"loss": 2.28300118, "grad_norm": 0.30669281, "learning_rate": 0.00036254, "token_acc": 0.5, "epoch": 0.60130719, "global_step/max_steps": "1311/2181", "elapsed_time": "1h 51m 28s", "remaining_time": "1h 13m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101449}
+{"loss": 2.31814289, "grad_norm": 0.33734989, "learning_rate": 0.00036182, "token_acc": 0.51201373, "epoch": 0.60176585, "global_step/max_steps": "1312/2181", "elapsed_time": "1h 51m 33s", "remaining_time": "1h 13m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101562}
+{"loss": 2.41904211, "grad_norm": 0.35226139, "learning_rate": 0.00036111, "token_acc": 0.49642551, "epoch": 0.60222452, "global_step/max_steps": "1313/2181", "elapsed_time": "1h 51m 38s", "remaining_time": "1h 13m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101534}
+{"loss": 2.44865227, "grad_norm": 0.35402337, "learning_rate": 0.0003604, "token_acc": 0.48428571, "epoch": 0.60268318, "global_step/max_steps": "1314/2181", "elapsed_time": "1h 51m 43s", "remaining_time": "1h 13m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101389}
+{"loss": 2.39399481, "grad_norm": 0.35276014, "learning_rate": 0.00035968, "token_acc": 0.48535102, "epoch": 0.60314184, "global_step/max_steps": "1315/2181", "elapsed_time": "1h 51m 48s", "remaining_time": "1h 13m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101278}
+{"loss": 2.49661756, "grad_norm": 0.34808564, "learning_rate": 0.00035897, "token_acc": 0.46768275, "epoch": 0.6036005, "global_step/max_steps": "1316/2181", "elapsed_time": "1h 51m 53s", "remaining_time": "1h 13m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101195}
+{"loss": 2.39778519, "grad_norm": 0.35495853, "learning_rate": 0.00035826, "token_acc": 0.48888889, "epoch": 0.60405917, "global_step/max_steps": "1317/2181", "elapsed_time": "1h 51m 58s", "remaining_time": "1h 13m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101152}
+{"loss": 2.41800904, "grad_norm": 0.32361192, "learning_rate": 0.00035755, "token_acc": 0.48278711, "epoch": 0.60451783, "global_step/max_steps": "1318/2181", "elapsed_time": "1h 52m 3s", "remaining_time": "1h 13m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101184}
+{"loss": 2.4139545, "grad_norm": 0.36219972, "learning_rate": 0.00035684, "token_acc": 0.48818208, "epoch": 0.60497649, "global_step/max_steps": "1319/2181", "elapsed_time": "1h 52m 8s", "remaining_time": "1h 13m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10109}
+{"loss": 2.34836674, "grad_norm": 0.33185145, "learning_rate": 0.00035612, "token_acc": 0.48593281, "epoch": 0.60543516, "global_step/max_steps": "1320/2181", "elapsed_time": "1h 52m 13s", "remaining_time": "1h 13m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100953}
+{"loss": 2.41444206, "grad_norm": 0.32827353, "learning_rate": 0.00035541, "token_acc": 0.46903409, "epoch": 0.60589382, "global_step/max_steps": "1321/2181", "elapsed_time": "1h 52m 18s", "remaining_time": "1h 13m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101023}
+{"loss": 2.36240673, "grad_norm": 0.34666929, "learning_rate": 0.0003547, "token_acc": 0.47984323, "epoch": 0.60635248, "global_step/max_steps": "1322/2181", "elapsed_time": "1h 52m 24s", "remaining_time": "1h 13m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101043}
+{"loss": 2.36125278, "grad_norm": 0.32188344, "learning_rate": 0.00035399, "token_acc": 0.48571429, "epoch": 0.60681115, "global_step/max_steps": "1323/2181", "elapsed_time": "1h 52m 29s", "remaining_time": "1h 12m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100992}
+{"loss": 2.2355566, "grad_norm": 0.31795496, "learning_rate": 0.00035328, "token_acc": 0.51378111, "epoch": 0.60726981, "global_step/max_steps": "1324/2181", "elapsed_time": "1h 52m 34s", "remaining_time": "1h 12m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10099}
+{"loss": 2.31401038, "grad_norm": 0.34754461, "learning_rate": 0.00035257, "token_acc": 0.4794482, "epoch": 0.60772847, "global_step/max_steps": "1325/2181", "elapsed_time": "1h 52m 38s", "remaining_time": "1h 12m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100656}
+{"loss": 2.34821892, "grad_norm": 0.33975822, "learning_rate": 0.00035186, "token_acc": 0.49617486, "epoch": 0.60818713, "global_step/max_steps": "1326/2181", "elapsed_time": "1h 52m 43s", "remaining_time": "1h 12m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100464}
+{"loss": 2.25051355, "grad_norm": 0.35496697, "learning_rate": 0.00035115, "token_acc": 0.50086207, "epoch": 0.6086458, "global_step/max_steps": "1327/2181", "elapsed_time": "1h 52m 49s", "remaining_time": "1h 12m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100699}
+{"loss": 2.33258104, "grad_norm": 0.33823648, "learning_rate": 0.00035044, "token_acc": 0.49637277, "epoch": 0.60910446, "global_step/max_steps": "1328/2181", "elapsed_time": "1h 52m 54s", "remaining_time": "1h 12m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101058}
+{"loss": 2.32358098, "grad_norm": 0.36244485, "learning_rate": 0.00034974, "token_acc": 0.50539466, "epoch": 0.60956312, "global_step/max_steps": "1329/2181", "elapsed_time": "1h 52m 59s", "remaining_time": "1h 12m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100851}
+{"loss": 2.31191421, "grad_norm": 0.34174371, "learning_rate": 0.00034903, "token_acc": 0.49216301, "epoch": 0.61002179, "global_step/max_steps": "1330/2181", "elapsed_time": "1h 53m 4s", "remaining_time": "1h 12m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100697}
+{"loss": 2.40132499, "grad_norm": 0.36694226, "learning_rate": 0.00034832, "token_acc": 0.48387097, "epoch": 0.61048045, "global_step/max_steps": "1331/2181", "elapsed_time": "1h 53m 9s", "remaining_time": "1h 12m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100401}
+{"loss": 2.41735125, "grad_norm": 0.34766594, "learning_rate": 0.00034761, "token_acc": 0.48706019, "epoch": 0.61093911, "global_step/max_steps": "1332/2181", "elapsed_time": "1h 53m 13s", "remaining_time": "1h 12m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100199}
+{"loss": 2.37119818, "grad_norm": 0.33185714, "learning_rate": 0.0003469, "token_acc": 0.50071901, "epoch": 0.61139778, "global_step/max_steps": "1333/2181", "elapsed_time": "1h 53m 19s", "remaining_time": "1h 12m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10018}
+{"loss": 2.32288408, "grad_norm": 0.32068905, "learning_rate": 0.0003462, "token_acc": 0.49986313, "epoch": 0.61185644, "global_step/max_steps": "1334/2181", "elapsed_time": "1h 53m 24s", "remaining_time": "1h 12m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100532}
+{"loss": 2.3534503, "grad_norm": 0.34622577, "learning_rate": 0.00034549, "token_acc": 0.49332576, "epoch": 0.6123151, "global_step/max_steps": "1335/2181", "elapsed_time": "1h 53m 29s", "remaining_time": "1h 11m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100458}
+{"loss": 2.39682722, "grad_norm": 0.32835492, "learning_rate": 0.00034479, "token_acc": 0.48786474, "epoch": 0.61277376, "global_step/max_steps": "1336/2181", "elapsed_time": "1h 53m 34s", "remaining_time": "1h 11m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100563}
+{"loss": 2.40161324, "grad_norm": 0.33355409, "learning_rate": 0.00034408, "token_acc": 0.4817106, "epoch": 0.61323243, "global_step/max_steps": "1337/2181", "elapsed_time": "1h 53m 39s", "remaining_time": "1h 11m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100448}
+{"loss": 2.33747244, "grad_norm": 0.3314051, "learning_rate": 0.00034337, "token_acc": 0.4964858, "epoch": 0.61369109, "global_step/max_steps": "1338/2181", "elapsed_time": "1h 53m 44s", "remaining_time": "1h 11m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10051}
+{"loss": 2.39529514, "grad_norm": 0.32379621, "learning_rate": 0.00034267, "token_acc": 0.49556049, "epoch": 0.61414975, "global_step/max_steps": "1339/2181", "elapsed_time": "1h 53m 50s", "remaining_time": "1h 11m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100607}
+{"loss": 2.29899836, "grad_norm": 0.31511518, "learning_rate": 0.00034196, "token_acc": 0.49776161, "epoch": 0.61460842, "global_step/max_steps": "1340/2181", "elapsed_time": "1h 53m 55s", "remaining_time": "1h 11m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100652}
+{"loss": 2.28046274, "grad_norm": 0.34278995, "learning_rate": 0.00034126, "token_acc": 0.51419736, "epoch": 0.61506708, "global_step/max_steps": "1341/2181", "elapsed_time": "1h 54m 0s", "remaining_time": "1h 11m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10069}
+{"loss": 2.36803079, "grad_norm": 0.34014198, "learning_rate": 0.00034056, "token_acc": 0.4785772, "epoch": 0.61552574, "global_step/max_steps": "1342/2181", "elapsed_time": "1h 54m 5s", "remaining_time": "1h 11m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100616}
+{"loss": 2.37854719, "grad_norm": 0.33515748, "learning_rate": 0.00033985, "token_acc": 0.47745072, "epoch": 0.61598441, "global_step/max_steps": "1343/2181", "elapsed_time": "1h 54m 10s", "remaining_time": "1h 11m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100698}
+{"loss": 2.41043949, "grad_norm": 0.3379367, "learning_rate": 0.00033915, "token_acc": 0.49230331, "epoch": 0.61644307, "global_step/max_steps": "1344/2181", "elapsed_time": "1h 54m 15s", "remaining_time": "1h 11m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100638}
+{"loss": 2.2939508, "grad_norm": 0.3303073, "learning_rate": 0.00033845, "token_acc": 0.48993659, "epoch": 0.61690173, "global_step/max_steps": "1345/2181", "elapsed_time": "1h 54m 20s", "remaining_time": "1h 11m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100633}
+{"loss": 2.41313028, "grad_norm": 0.34049284, "learning_rate": 0.00033774, "token_acc": 0.47527399, "epoch": 0.61736039, "global_step/max_steps": "1346/2181", "elapsed_time": "1h 54m 25s", "remaining_time": "1h 10m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100558}
+{"loss": 2.23694897, "grad_norm": 0.33295581, "learning_rate": 0.00033704, "token_acc": 0.50872748, "epoch": 0.61781906, "global_step/max_steps": "1347/2181", "elapsed_time": "1h 54m 30s", "remaining_time": "1h 10m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100433}
+{"loss": 2.32829595, "grad_norm": 0.34486631, "learning_rate": 0.00033634, "token_acc": 0.49618992, "epoch": 0.61827772, "global_step/max_steps": "1348/2181", "elapsed_time": "1h 54m 36s", "remaining_time": "1h 10m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10078}
+{"loss": 2.37067223, "grad_norm": 0.32312736, "learning_rate": 0.00033564, "token_acc": 0.48806584, "epoch": 0.61873638, "global_step/max_steps": "1349/2181", "elapsed_time": "1h 54m 41s", "remaining_time": "1h 10m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100659}
+{"loss": 2.39978981, "grad_norm": 0.35387349, "learning_rate": 0.00033494, "token_acc": 0.49293433, "epoch": 0.61919505, "global_step/max_steps": "1350/2181", "elapsed_time": "1h 54m 46s", "remaining_time": "1h 10m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1005}
+{"loss": 2.38108349, "grad_norm": 0.33767432, "learning_rate": 0.00033423, "token_acc": 0.48902736, "epoch": 0.61965371, "global_step/max_steps": "1351/2181", "elapsed_time": "1h 54m 51s", "remaining_time": "1h 10m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100416}
+{"loss": 2.41449547, "grad_norm": 0.34920543, "learning_rate": 0.00033353, "token_acc": 0.49943789, "epoch": 0.62011237, "global_step/max_steps": "1352/2181", "elapsed_time": "1h 54m 56s", "remaining_time": "1h 10m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100293}
+{"loss": 2.31548953, "grad_norm": 0.31851107, "learning_rate": 0.00033283, "token_acc": 0.50095655, "epoch": 0.62057104, "global_step/max_steps": "1353/2181", "elapsed_time": "1h 55m 0s", "remaining_time": "1h 10m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100132}
+{"loss": 2.40088224, "grad_norm": 0.33761394, "learning_rate": 0.00033213, "token_acc": 0.47868761, "epoch": 0.6210297, "global_step/max_steps": "1354/2181", "elapsed_time": "1h 55m 5s", "remaining_time": "1h 10m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100071}
+{"loss": 2.30892444, "grad_norm": 0.33304909, "learning_rate": 0.00033143, "token_acc": 0.49076881, "epoch": 0.62148836, "global_step/max_steps": "1355/2181", "elapsed_time": "1h 55m 10s", "remaining_time": "1h 10m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09999}
+{"loss": 2.51577806, "grad_norm": 0.37085629, "learning_rate": 0.00033074, "token_acc": 0.47674419, "epoch": 0.62194702, "global_step/max_steps": "1356/2181", "elapsed_time": "1h 55m 15s", "remaining_time": "1h 10m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099784}
+{"loss": 2.34474993, "grad_norm": 0.35304308, "learning_rate": 0.00033004, "token_acc": 0.49557522, "epoch": 0.62240569, "global_step/max_steps": "1357/2181", "elapsed_time": "1h 55m 21s", "remaining_time": "1h 10m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100406}
+{"loss": 2.38469768, "grad_norm": 0.3726275, "learning_rate": 0.00032934, "token_acc": 0.4795354, "epoch": 0.62286435, "global_step/max_steps": "1358/2181", "elapsed_time": "1h 55m 27s", "remaining_time": "1h 9m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100665}
+{"loss": 2.34573078, "grad_norm": 0.32452351, "learning_rate": 0.00032864, "token_acc": 0.48370927, "epoch": 0.62332301, "global_step/max_steps": "1359/2181", "elapsed_time": "1h 55m 32s", "remaining_time": "1h 9m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100589}
+{"loss": 2.35801935, "grad_norm": 0.36223724, "learning_rate": 0.00032794, "token_acc": 0.49956102, "epoch": 0.62378168, "global_step/max_steps": "1360/2181", "elapsed_time": "1h 55m 37s", "remaining_time": "1h 9m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100674}
+{"loss": 2.35599136, "grad_norm": 0.33004186, "learning_rate": 0.00032725, "token_acc": 0.48614191, "epoch": 0.62424034, "global_step/max_steps": "1361/2181", "elapsed_time": "1h 55m 42s", "remaining_time": "1h 9m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100524}
+{"loss": 2.35779905, "grad_norm": 0.34241146, "learning_rate": 0.00032655, "token_acc": 0.48336595, "epoch": 0.624699, "global_step/max_steps": "1362/2181", "elapsed_time": "1h 55m 47s", "remaining_time": "1h 9m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100403}
+{"loss": 2.33181453, "grad_norm": 0.35038671, "learning_rate": 0.00032585, "token_acc": 0.49414389, "epoch": 0.62515767, "global_step/max_steps": "1363/2181", "elapsed_time": "1h 55m 52s", "remaining_time": "1h 9m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100233}
+{"loss": 2.3753686, "grad_norm": 0.3182967, "learning_rate": 0.00032516, "token_acc": 0.50192308, "epoch": 0.62561633, "global_step/max_steps": "1364/2181", "elapsed_time": "1h 55m 57s", "remaining_time": "1h 9m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100145}
+{"loss": 2.22246408, "grad_norm": 0.32574236, "learning_rate": 0.00032446, "token_acc": 0.49590511, "epoch": 0.62607499, "global_step/max_steps": "1365/2181", "elapsed_time": "1h 56m 2s", "remaining_time": "1h 9m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100284}
+{"loss": 2.29918957, "grad_norm": 0.33192456, "learning_rate": 0.00032377, "token_acc": 0.49872268, "epoch": 0.62653365, "global_step/max_steps": "1366/2181", "elapsed_time": "1h 56m 7s", "remaining_time": "1h 9m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100248}
+{"loss": 2.42618513, "grad_norm": 0.36641806, "learning_rate": 0.00032307, "token_acc": 0.47751724, "epoch": 0.62699232, "global_step/max_steps": "1367/2181", "elapsed_time": "1h 56m 12s", "remaining_time": "1h 9m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100068}
+{"loss": 2.32655406, "grad_norm": 0.33789846, "learning_rate": 0.00032238, "token_acc": 0.49874407, "epoch": 0.62745098, "global_step/max_steps": "1368/2181", "elapsed_time": "1h 56m 17s", "remaining_time": "1h 9m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100069}
+{"loss": 2.36900091, "grad_norm": 0.33760238, "learning_rate": 0.00032168, "token_acc": 0.47436604, "epoch": 0.62790964, "global_step/max_steps": "1369/2181", "elapsed_time": "1h 56m 22s", "remaining_time": "1h 9m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099952}
+{"loss": 2.42771387, "grad_norm": 0.34567922, "learning_rate": 0.00032099, "token_acc": 0.48614253, "epoch": 0.62836831, "global_step/max_steps": "1370/2181", "elapsed_time": "1h 56m 27s", "remaining_time": "1h 8m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099861}
+{"loss": 2.33263636, "grad_norm": 0.34094834, "learning_rate": 0.0003203, "token_acc": 0.49130075, "epoch": 0.62882697, "global_step/max_steps": "1371/2181", "elapsed_time": "1h 56m 32s", "remaining_time": "1h 8m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099735}
+{"loss": 2.36371422, "grad_norm": 0.34554294, "learning_rate": 0.0003196, "token_acc": 0.48992161, "epoch": 0.62928563, "global_step/max_steps": "1372/2181", "elapsed_time": "1h 56m 37s", "remaining_time": "1h 8m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099943}
+{"loss": 2.37762213, "grad_norm": 0.32639217, "learning_rate": 0.00031891, "token_acc": 0.50431499, "epoch": 0.6297443, "global_step/max_steps": "1373/2181", "elapsed_time": "1h 56m 42s", "remaining_time": "1h 8m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099891}
+{"loss": 2.29004073, "grad_norm": 0.33174232, "learning_rate": 0.00031822, "token_acc": 0.50319582, "epoch": 0.63020296, "global_step/max_steps": "1374/2181", "elapsed_time": "1h 56m 47s", "remaining_time": "1h 8m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099666}
+{"loss": 2.40318441, "grad_norm": 0.35199401, "learning_rate": 0.00031753, "token_acc": 0.49111748, "epoch": 0.63066162, "global_step/max_steps": "1375/2181", "elapsed_time": "1h 56m 52s", "remaining_time": "1h 8m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099577}
+{"loss": 2.37060881, "grad_norm": 0.34216514, "learning_rate": 0.00031684, "token_acc": 0.49394196, "epoch": 0.63112028, "global_step/max_steps": "1376/2181", "elapsed_time": "1h 56m 57s", "remaining_time": "1h 8m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099603}
+{"loss": 2.33021688, "grad_norm": 0.32496408, "learning_rate": 0.00031614, "token_acc": 0.50212887, "epoch": 0.63157895, "global_step/max_steps": "1377/2181", "elapsed_time": "1h 57m 2s", "remaining_time": "1h 8m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099419}
+{"loss": 2.41337681, "grad_norm": 0.32873318, "learning_rate": 0.00031545, "token_acc": 0.48795348, "epoch": 0.63203761, "global_step/max_steps": "1378/2181", "elapsed_time": "1h 57m 7s", "remaining_time": "1h 8m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099211}
+{"loss": 2.45049381, "grad_norm": 0.32665443, "learning_rate": 0.00031476, "token_acc": 0.47171381, "epoch": 0.63249627, "global_step/max_steps": "1379/2181", "elapsed_time": "1h 57m 13s", "remaining_time": "1h 8m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099736}
+{"loss": 2.27708149, "grad_norm": 0.37065318, "learning_rate": 0.00031407, "token_acc": 0.49896112, "epoch": 0.63295494, "global_step/max_steps": "1380/2181", "elapsed_time": "1h 57m 18s", "remaining_time": "1h 8m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099648}
+{"loss": 2.52781343, "grad_norm": 0.33608463, "learning_rate": 0.00031339, "token_acc": 0.47149245, "epoch": 0.6334136, "global_step/max_steps": "1381/2181", "elapsed_time": "1h 57m 22s", "remaining_time": "1h 7m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099489}
+{"loss": 2.41837788, "grad_norm": 0.33147764, "learning_rate": 0.0003127, "token_acc": 0.48993103, "epoch": 0.63387226, "global_step/max_steps": "1382/2181", "elapsed_time": "1h 57m 28s", "remaining_time": "1h 7m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099745}
+{"loss": 2.34506083, "grad_norm": 0.34890851, "learning_rate": 0.00031201, "token_acc": 0.48905701, "epoch": 0.63433093, "global_step/max_steps": "1383/2181", "elapsed_time": "1h 57m 33s", "remaining_time": "1h 7m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099649}
+{"loss": 2.37557697, "grad_norm": 0.3423956, "learning_rate": 0.00031132, "token_acc": 0.49559033, "epoch": 0.63478959, "global_step/max_steps": "1384/2181", "elapsed_time": "1h 57m 38s", "remaining_time": "1h 7m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099521}
+{"loss": 2.33918738, "grad_norm": 0.3246586, "learning_rate": 0.00031063, "token_acc": 0.50374065, "epoch": 0.63524825, "global_step/max_steps": "1385/2181", "elapsed_time": "1h 57m 43s", "remaining_time": "1h 7m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099373}
+{"loss": 2.40221024, "grad_norm": 0.33762699, "learning_rate": 0.00030995, "token_acc": 0.49076372, "epoch": 0.63570691, "global_step/max_steps": "1386/2181", "elapsed_time": "1h 57m 47s", "remaining_time": "1h 7m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099104}
+{"loss": 2.51782513, "grad_norm": 0.35522574, "learning_rate": 0.00030926, "token_acc": 0.46874139, "epoch": 0.63616558, "global_step/max_steps": "1387/2181", "elapsed_time": "1h 57m 52s", "remaining_time": "1h 7m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098899}
+{"loss": 2.34978414, "grad_norm": 0.35083124, "learning_rate": 0.00030857, "token_acc": 0.48286263, "epoch": 0.63662424, "global_step/max_steps": "1388/2181", "elapsed_time": "1h 57m 57s", "remaining_time": "1h 7m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098828}
+{"loss": 2.50237226, "grad_norm": 0.33374521, "learning_rate": 0.00030789, "token_acc": 0.47411668, "epoch": 0.6370829, "global_step/max_steps": "1389/2181", "elapsed_time": "1h 58m 2s", "remaining_time": "1h 7m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098661}
+{"loss": 2.41453218, "grad_norm": 0.33277413, "learning_rate": 0.0003072, "token_acc": 0.48486516, "epoch": 0.63754157, "global_step/max_steps": "1390/2181", "elapsed_time": "1h 58m 7s", "remaining_time": "1h 7m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098464}
+{"loss": 2.36850047, "grad_norm": 0.33347261, "learning_rate": 0.00030652, "token_acc": 0.50150314, "epoch": 0.63800023, "global_step/max_steps": "1391/2181", "elapsed_time": "1h 58m 12s", "remaining_time": "1h 7m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098316}
+{"loss": 2.31377554, "grad_norm": 0.32557917, "learning_rate": 0.00030583, "token_acc": 0.49302844, "epoch": 0.63845889, "global_step/max_steps": "1392/2181", "elapsed_time": "1h 58m 17s", "remaining_time": "1h 7m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098298}
+{"loss": 2.42878723, "grad_norm": 0.32301778, "learning_rate": 0.00030515, "token_acc": 0.4854045, "epoch": 0.63891756, "global_step/max_steps": "1393/2181", "elapsed_time": "1h 58m 22s", "remaining_time": "1h 6m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098305}
+{"loss": 2.36980057, "grad_norm": 0.3421832, "learning_rate": 0.00030446, "token_acc": 0.49274149, "epoch": 0.63937622, "global_step/max_steps": "1394/2181", "elapsed_time": "1h 58m 27s", "remaining_time": "1h 6m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098378}
+{"loss": 2.41125894, "grad_norm": 0.33747849, "learning_rate": 0.00030378, "token_acc": 0.48024055, "epoch": 0.63983488, "global_step/max_steps": "1395/2181", "elapsed_time": "1h 58m 32s", "remaining_time": "1h 6m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.0982}
+{"loss": 2.40446711, "grad_norm": 0.3402783, "learning_rate": 0.0003031, "token_acc": 0.48033946, "epoch": 0.64029354, "global_step/max_steps": "1396/2181", "elapsed_time": "1h 58m 37s", "remaining_time": "1h 6m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097974}
+{"loss": 2.29628849, "grad_norm": 0.33371884, "learning_rate": 0.00030241, "token_acc": 0.49114792, "epoch": 0.64075221, "global_step/max_steps": "1397/2181", "elapsed_time": "1h 58m 42s", "remaining_time": "1h 6m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097769}
+{"loss": 2.39050961, "grad_norm": 0.33794448, "learning_rate": 0.00030173, "token_acc": 0.48511236, "epoch": 0.64121087, "global_step/max_steps": "1398/2181", "elapsed_time": "1h 58m 47s", "remaining_time": "1h 6m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097783}
+{"loss": 2.31155133, "grad_norm": 0.32746074, "learning_rate": 0.00030105, "token_acc": 0.48294333, "epoch": 0.64166953, "global_step/max_steps": "1399/2181", "elapsed_time": "1h 58m 52s", "remaining_time": "1h 6m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09805}
+{"loss": 2.38871288, "grad_norm": 0.36006367, "learning_rate": 0.00030037, "token_acc": 0.48348927, "epoch": 0.6421282, "global_step/max_steps": "1400/2181", "elapsed_time": "1h 58m 57s", "remaining_time": "1h 6m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097731}
+{"loss": 2.45415258, "grad_norm": 0.34520984, "learning_rate": 0.00029969, "token_acc": 0.4698828, "epoch": 0.64258686, "global_step/max_steps": "1401/2181", "elapsed_time": "1h 59m 2s", "remaining_time": "1h 6m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097863}
+{"loss": 2.3573401, "grad_norm": 0.33551645, "learning_rate": 0.00029901, "token_acc": 0.49310442, "epoch": 0.64304552, "global_step/max_steps": "1402/2181", "elapsed_time": "1h 59m 7s", "remaining_time": "1h 6m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097841}
+{"loss": 2.35102987, "grad_norm": 0.33067009, "learning_rate": 0.00029833, "token_acc": 0.493604, "epoch": 0.64350419, "global_step/max_steps": "1403/2181", "elapsed_time": "1h 59m 12s", "remaining_time": "1h 6m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097854}
+{"loss": 2.35336351, "grad_norm": 0.33563057, "learning_rate": 0.00029765, "token_acc": 0.49019074, "epoch": 0.64396285, "global_step/max_steps": "1404/2181", "elapsed_time": "1h 59m 17s", "remaining_time": "1h 6m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097879}
+{"loss": 2.37852383, "grad_norm": 0.34391084, "learning_rate": 0.00029697, "token_acc": 0.49917355, "epoch": 0.64442151, "global_step/max_steps": "1405/2181", "elapsed_time": "1h 59m 22s", "remaining_time": "1h 5m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097763}
+{"loss": 2.32518864, "grad_norm": 0.33045876, "learning_rate": 0.00029629, "token_acc": 0.50198151, "epoch": 0.64488017, "global_step/max_steps": "1406/2181", "elapsed_time": "1h 59m 27s", "remaining_time": "1h 5m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097555}
+{"loss": 2.20388556, "grad_norm": 0.33265838, "learning_rate": 0.00029561, "token_acc": 0.52396972, "epoch": 0.64533884, "global_step/max_steps": "1407/2181", "elapsed_time": "1h 59m 32s", "remaining_time": "1h 5m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097469}
+{"loss": 2.3953402, "grad_norm": 0.3416605, "learning_rate": 0.00029494, "token_acc": 0.48305085, "epoch": 0.6457975, "global_step/max_steps": "1408/2181", "elapsed_time": "1h 59m 37s", "remaining_time": "1h 5m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097578}
+{"loss": 2.37333131, "grad_norm": 0.34214643, "learning_rate": 0.00029426, "token_acc": 0.48441109, "epoch": 0.64625616, "global_step/max_steps": "1409/2181", "elapsed_time": "1h 59m 43s", "remaining_time": "1h 5m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097693}
+{"loss": 2.28755713, "grad_norm": 0.35449976, "learning_rate": 0.00029358, "token_acc": 0.49871904, "epoch": 0.64671483, "global_step/max_steps": "1410/2181", "elapsed_time": "1h 59m 47s", "remaining_time": "1h 5m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097403}
+{"loss": 2.41000891, "grad_norm": 0.35436934, "learning_rate": 0.00029291, "token_acc": 0.48028369, "epoch": 0.64717349, "global_step/max_steps": "1411/2181", "elapsed_time": "1h 59m 52s", "remaining_time": "1h 5m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097328}
+{"loss": 2.28653955, "grad_norm": 0.36088917, "learning_rate": 0.00029223, "token_acc": 0.50261924, "epoch": 0.64763215, "global_step/max_steps": "1412/2181", "elapsed_time": "1h 59m 57s", "remaining_time": "1h 5m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097295}
+{"loss": 2.38211799, "grad_norm": 0.36700967, "learning_rate": 0.00029156, "token_acc": 0.48720864, "epoch": 0.64809082, "global_step/max_steps": "1413/2181", "elapsed_time": "2h 0m 2s", "remaining_time": "1h 5m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09715}
+{"loss": 2.31772804, "grad_norm": 0.37471479, "learning_rate": 0.00029088, "token_acc": 0.49408784, "epoch": 0.64854948, "global_step/max_steps": "1414/2181", "elapsed_time": "2h 0m 7s", "remaining_time": "1h 5m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097236}
+{"loss": 2.33537197, "grad_norm": 0.35377511, "learning_rate": 0.00029021, "token_acc": 0.49740185, "epoch": 0.64900814, "global_step/max_steps": "1415/2181", "elapsed_time": "2h 0m 13s", "remaining_time": "1h 5m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097373}
+{"loss": 2.30803108, "grad_norm": 0.33804542, "learning_rate": 0.00028953, "token_acc": 0.50533708, "epoch": 0.6494668, "global_step/max_steps": "1416/2181", "elapsed_time": "2h 0m 18s", "remaining_time": "1h 4m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097503}
+{"loss": 2.38717771, "grad_norm": 0.32907173, "learning_rate": 0.00028886, "token_acc": 0.47679209, "epoch": 0.64992547, "global_step/max_steps": "1417/2181", "elapsed_time": "2h 0m 23s", "remaining_time": "1h 4m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097536}
+{"loss": 2.35983896, "grad_norm": 0.34593472, "learning_rate": 0.00028819, "token_acc": 0.48246844, "epoch": 0.65038413, "global_step/max_steps": "1418/2181", "elapsed_time": "2h 0m 28s", "remaining_time": "1h 4m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097592}
+{"loss": 2.36623931, "grad_norm": 0.35839647, "learning_rate": 0.00028751, "token_acc": 0.49719259, "epoch": 0.65084279, "global_step/max_steps": "1419/2181", "elapsed_time": "2h 0m 33s", "remaining_time": "1h 4m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09749}
+{"loss": 2.40714073, "grad_norm": 0.33667389, "learning_rate": 0.00028684, "token_acc": 0.47579758, "epoch": 0.65130146, "global_step/max_steps": "1420/2181", "elapsed_time": "2h 0m 39s", "remaining_time": "1h 4m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097792}
+{"loss": 2.43739796, "grad_norm": 0.36943763, "learning_rate": 0.00028617, "token_acc": 0.48583235, "epoch": 0.65176012, "global_step/max_steps": "1421/2181", "elapsed_time": "2h 0m 44s", "remaining_time": "1h 4m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097758}
+{"loss": 2.32151628, "grad_norm": 0.31827855, "learning_rate": 0.0002855, "token_acc": 0.49874477, "epoch": 0.65221878, "global_step/max_steps": "1422/2181", "elapsed_time": "2h 0m 49s", "remaining_time": "1h 4m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097743}
+{"loss": 2.36481333, "grad_norm": 0.35090134, "learning_rate": 0.00028483, "token_acc": 0.49721293, "epoch": 0.65267745, "global_step/max_steps": "1423/2181", "elapsed_time": "2h 0m 54s", "remaining_time": "1h 4m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097718}
+{"loss": 2.44032836, "grad_norm": 0.36902216, "learning_rate": 0.00028416, "token_acc": 0.48405148, "epoch": 0.65313611, "global_step/max_steps": "1424/2181", "elapsed_time": "2h 0m 59s", "remaining_time": "1h 4m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097735}
+{"loss": 2.40996122, "grad_norm": 0.32961729, "learning_rate": 0.00028349, "token_acc": 0.49230339, "epoch": 0.65359477, "global_step/max_steps": "1425/2181", "elapsed_time": "2h 1m 4s", "remaining_time": "1h 4m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097706}
+{"loss": 2.33311868, "grad_norm": 0.36671755, "learning_rate": 0.00028282, "token_acc": 0.4856822, "epoch": 0.65405343, "global_step/max_steps": "1426/2181", "elapsed_time": "2h 1m 9s", "remaining_time": "1h 4m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097555}
+{"loss": 2.32961869, "grad_norm": 0.34209773, "learning_rate": 0.00028215, "token_acc": 0.49902859, "epoch": 0.6545121, "global_step/max_steps": "1427/2181", "elapsed_time": "2h 1m 14s", "remaining_time": "1h 4m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097696}
+{"loss": 2.33162451, "grad_norm": 0.36638436, "learning_rate": 0.00028148, "token_acc": 0.48608792, "epoch": 0.65497076, "global_step/max_steps": "1428/2181", "elapsed_time": "2h 1m 19s", "remaining_time": "1h 3m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097657}
+{"loss": 2.35137272, "grad_norm": 0.3466301, "learning_rate": 0.00028081, "token_acc": 0.48840885, "epoch": 0.65542942, "global_step/max_steps": "1429/2181", "elapsed_time": "2h 1m 25s", "remaining_time": "1h 3m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097827}
+{"loss": 2.2421577, "grad_norm": 0.35693175, "learning_rate": 0.00028015, "token_acc": 0.51376668, "epoch": 0.65588809, "global_step/max_steps": "1430/2181", "elapsed_time": "2h 1m 30s", "remaining_time": "1h 3m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09779}
+{"loss": 2.43019342, "grad_norm": 0.34142366, "learning_rate": 0.00027948, "token_acc": 0.48562657, "epoch": 0.65634675, "global_step/max_steps": "1431/2181", "elapsed_time": "2h 1m 35s", "remaining_time": "1h 3m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098066}
+{"loss": 2.37409759, "grad_norm": 0.35659993, "learning_rate": 0.00027881, "token_acc": 0.47794317, "epoch": 0.65680541, "global_step/max_steps": "1432/2181", "elapsed_time": "2h 1m 40s", "remaining_time": "1h 3m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098065}
+{"loss": 2.35573101, "grad_norm": 0.34397131, "learning_rate": 0.00027815, "token_acc": 0.49256718, "epoch": 0.65726408, "global_step/max_steps": "1433/2181", "elapsed_time": "2h 1m 45s", "remaining_time": "1h 3m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097936}
+{"loss": 2.34139776, "grad_norm": 0.35525095, "learning_rate": 0.00027748, "token_acc": 0.48632219, "epoch": 0.65772274, "global_step/max_steps": "1434/2181", "elapsed_time": "2h 1m 51s", "remaining_time": "1h 3m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097985}
+{"loss": 2.49971867, "grad_norm": 0.34419763, "learning_rate": 0.00027682, "token_acc": 0.47030812, "epoch": 0.6581814, "global_step/max_steps": "1435/2181", "elapsed_time": "2h 1m 55s", "remaining_time": "1h 3m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097704}
+{"loss": 2.39347434, "grad_norm": 0.32900274, "learning_rate": 0.00027615, "token_acc": 0.48647141, "epoch": 0.65864006, "global_step/max_steps": "1436/2181", "elapsed_time": "2h 2m 0s", "remaining_time": "1h 3m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097677}
+{"loss": 2.24653101, "grad_norm": 0.34579387, "learning_rate": 0.00027549, "token_acc": 0.50972653, "epoch": 0.65909873, "global_step/max_steps": "1437/2181", "elapsed_time": "2h 2m 5s", "remaining_time": "1h 3m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097606}
+{"loss": 2.3114388, "grad_norm": 0.35806841, "learning_rate": 0.00027483, "token_acc": 0.49018492, "epoch": 0.65955739, "global_step/max_steps": "1438/2181", "elapsed_time": "2h 2m 10s", "remaining_time": "1h 3m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097561}
+{"loss": 2.42855358, "grad_norm": 0.34302199, "learning_rate": 0.00027416, "token_acc": 0.48353169, "epoch": 0.66001605, "global_step/max_steps": "1439/2181", "elapsed_time": "2h 2m 15s", "remaining_time": "1h 3m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097416}
+{"loss": 2.33289599, "grad_norm": 0.33323959, "learning_rate": 0.0002735, "token_acc": 0.49244876, "epoch": 0.66047472, "global_step/max_steps": "1440/2181", "elapsed_time": "2h 2m 20s", "remaining_time": "1h 2m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097292}
+{"loss": 2.48057747, "grad_norm": 0.34002733, "learning_rate": 0.00027284, "token_acc": 0.47977528, "epoch": 0.66093338, "global_step/max_steps": "1441/2181", "elapsed_time": "2h 2m 25s", "remaining_time": "1h 2m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096956}
+{"loss": 2.3786068, "grad_norm": 0.35028058, "learning_rate": 0.00027218, "token_acc": 0.48995757, "epoch": 0.66139204, "global_step/max_steps": "1442/2181", "elapsed_time": "2h 2m 29s", "remaining_time": "1h 2m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096703}
+{"loss": 2.32136488, "grad_norm": 0.34918177, "learning_rate": 0.00027152, "token_acc": 0.49514563, "epoch": 0.66185071, "global_step/max_steps": "1443/2181", "elapsed_time": "2h 2m 34s", "remaining_time": "1h 2m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096404}
+{"loss": 2.24786043, "grad_norm": 0.3322067, "learning_rate": 0.00027086, "token_acc": 0.50773639, "epoch": 0.66230937, "global_step/max_steps": "1444/2181", "elapsed_time": "2h 2m 39s", "remaining_time": "1h 2m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096475}
+{"loss": 2.32018542, "grad_norm": 0.32836404, "learning_rate": 0.0002702, "token_acc": 0.49673025, "epoch": 0.66276803, "global_step/max_steps": "1445/2181", "elapsed_time": "2h 2m 44s", "remaining_time": "1h 2m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09633}
+{"loss": 2.40390635, "grad_norm": 0.32320276, "learning_rate": 0.00026954, "token_acc": 0.48297639, "epoch": 0.66322669, "global_step/max_steps": "1446/2181", "elapsed_time": "2h 2m 49s", "remaining_time": "1h 2m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096337}
+{"loss": 2.45399332, "grad_norm": 0.33459723, "learning_rate": 0.00026888, "token_acc": 0.48170902, "epoch": 0.66368536, "global_step/max_steps": "1447/2181", "elapsed_time": "2h 2m 54s", "remaining_time": "1h 2m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.096038}
+{"loss": 2.27765942, "grad_norm": 0.36151183, "learning_rate": 0.00026822, "token_acc": 0.49807375, "epoch": 0.66414402, "global_step/max_steps": "1448/2181", "elapsed_time": "2h 2m 59s", "remaining_time": "1h 2m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095892}
+{"loss": 2.3821578, "grad_norm": 0.32229289, "learning_rate": 0.00026756, "token_acc": 0.48841699, "epoch": 0.66460268, "global_step/max_steps": "1449/2181", "elapsed_time": "2h 3m 4s", "remaining_time": "1h 2m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095993}
+{"loss": 2.24545765, "grad_norm": 0.33439067, "learning_rate": 0.00026691, "token_acc": 0.51426151, "epoch": 0.66506135, "global_step/max_steps": "1450/2181", "elapsed_time": "2h 3m 9s", "remaining_time": "1h 2m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095857}
+{"loss": 2.36641121, "grad_norm": 0.3386085, "learning_rate": 0.00026625, "token_acc": 0.4907563, "epoch": 0.66552001, "global_step/max_steps": "1451/2181", "elapsed_time": "2h 3m 14s", "remaining_time": "1h 1m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095797}
+{"loss": 2.33973026, "grad_norm": 0.35455951, "learning_rate": 0.00026559, "token_acc": 0.49320011, "epoch": 0.66597867, "global_step/max_steps": "1452/2181", "elapsed_time": "2h 3m 19s", "remaining_time": "1h 1m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095822}
+{"loss": 2.42647481, "grad_norm": 0.3255257, "learning_rate": 0.00026494, "token_acc": 0.4809983, "epoch": 0.66643734, "global_step/max_steps": "1453/2181", "elapsed_time": "2h 3m 24s", "remaining_time": "1h 1m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09576}
+{"loss": 2.41701198, "grad_norm": 0.32847449, "learning_rate": 0.00026428, "token_acc": 0.48072052, "epoch": 0.666896, "global_step/max_steps": "1454/2181", "elapsed_time": "2h 3m 29s", "remaining_time": "1h 1m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09558}
+{"loss": 2.3776083, "grad_norm": 0.32984036, "learning_rate": 0.00026363, "token_acc": 0.49892067, "epoch": 0.66735466, "global_step/max_steps": "1455/2181", "elapsed_time": "2h 3m 34s", "remaining_time": "1h 1m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095555}
+{"loss": 2.24635315, "grad_norm": 0.34834278, "learning_rate": 0.00026297, "token_acc": 0.50028752, "epoch": 0.66781332, "global_step/max_steps": "1456/2181", "elapsed_time": "2h 3m 39s", "remaining_time": "1h 1m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095333}
+{"loss": 2.40621352, "grad_norm": 0.32998461, "learning_rate": 0.00026232, "token_acc": 0.48040886, "epoch": 0.66827199, "global_step/max_steps": "1457/2181", "elapsed_time": "2h 3m 44s", "remaining_time": "1h 1m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095332}
+{"loss": 2.32808352, "grad_norm": 0.36206937, "learning_rate": 0.00026167, "token_acc": 0.50561474, "epoch": 0.66873065, "global_step/max_steps": "1458/2181", "elapsed_time": "2h 3m 49s", "remaining_time": "1h 1m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095077}
+{"loss": 2.37099123, "grad_norm": 0.34621122, "learning_rate": 0.00026101, "token_acc": 0.48668766, "epoch": 0.66918931, "global_step/max_steps": "1459/2181", "elapsed_time": "2h 3m 54s", "remaining_time": "1h 1m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.095046}
+{"loss": 2.30985355, "grad_norm": 0.33502272, "learning_rate": 0.00026036, "token_acc": 0.50714886, "epoch": 0.66964798, "global_step/max_steps": "1460/2181", "elapsed_time": "2h 3m 59s", "remaining_time": "1h 1m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094932}
+{"loss": 2.44170332, "grad_norm": 0.35411742, "learning_rate": 0.00025971, "token_acc": 0.47085807, "epoch": 0.67010664, "global_step/max_steps": "1461/2181", "elapsed_time": "2h 4m 3s", "remaining_time": "1h 1m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094688}
+{"loss": 2.26131916, "grad_norm": 0.33617991, "learning_rate": 0.00025906, "token_acc": 0.50772255, "epoch": 0.6705653, "global_step/max_steps": "1462/2181", "elapsed_time": "2h 4m 9s", "remaining_time": "1h 1m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094777}
+{"loss": 2.43798018, "grad_norm": 0.36045587, "learning_rate": 0.00025841, "token_acc": 0.48335183, "epoch": 0.67102397, "global_step/max_steps": "1463/2181", "elapsed_time": "2h 4m 13s", "remaining_time": "1h 0m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094551}
+{"loss": 2.47582722, "grad_norm": 0.34453693, "learning_rate": 0.00025776, "token_acc": 0.47835926, "epoch": 0.67148263, "global_step/max_steps": "1464/2181", "elapsed_time": "2h 4m 18s", "remaining_time": "1h 0m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094406}
+{"loss": 2.49830294, "grad_norm": 0.33425879, "learning_rate": 0.00025711, "token_acc": 0.46957708, "epoch": 0.67194129, "global_step/max_steps": "1465/2181", "elapsed_time": "2h 4m 24s", "remaining_time": "1h 0m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094613}
+{"loss": 2.39777279, "grad_norm": 0.3214258, "learning_rate": 0.00025646, "token_acc": 0.48227917, "epoch": 0.67239995, "global_step/max_steps": "1466/2181", "elapsed_time": "2h 4m 29s", "remaining_time": "1h 0m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094584}
+{"loss": 2.50161481, "grad_norm": 0.33590481, "learning_rate": 0.00025581, "token_acc": 0.46936009, "epoch": 0.67285862, "global_step/max_steps": "1467/2181", "elapsed_time": "2h 4m 34s", "remaining_time": "1h 0m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094531}
+{"loss": 2.35013294, "grad_norm": 0.32841465, "learning_rate": 0.00025516, "token_acc": 0.49167349, "epoch": 0.67331728, "global_step/max_steps": "1468/2181", "elapsed_time": "2h 4m 39s", "remaining_time": "1h 0m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.0946}
+{"loss": 2.34914398, "grad_norm": 0.32737944, "learning_rate": 0.00025452, "token_acc": 0.50650759, "epoch": 0.67377594, "global_step/max_steps": "1469/2181", "elapsed_time": "2h 4m 44s", "remaining_time": "1h 0m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094639}
+{"loss": 2.35769963, "grad_norm": 0.34349263, "learning_rate": 0.00025387, "token_acc": 0.4818005, "epoch": 0.67423461, "global_step/max_steps": "1470/2181", "elapsed_time": "2h 4m 49s", "remaining_time": "1h 0m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09481}
+{"loss": 2.30230474, "grad_norm": 0.33299178, "learning_rate": 0.00025322, "token_acc": 0.50142694, "epoch": 0.67469327, "global_step/max_steps": "1471/2181", "elapsed_time": "2h 4m 54s", "remaining_time": "1h 0m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.0945}
+{"loss": 2.51577258, "grad_norm": 0.34396046, "learning_rate": 0.00025258, "token_acc": 0.45893588, "epoch": 0.67515193, "global_step/max_steps": "1472/2181", "elapsed_time": "2h 4m 59s", "remaining_time": "1h 0m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094445}
+{"loss": 2.25458717, "grad_norm": 0.34442854, "learning_rate": 0.00025193, "token_acc": 0.51485426, "epoch": 0.6756106, "global_step/max_steps": "1473/2181", "elapsed_time": "2h 5m 4s", "remaining_time": "1h 0m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094578}
+{"loss": 2.35015678, "grad_norm": 0.33922452, "learning_rate": 0.00025129, "token_acc": 0.47561995, "epoch": 0.67606926, "global_step/max_steps": "1474/2181", "elapsed_time": "2h 5m 9s", "remaining_time": "1h 0m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094446}
+{"loss": 2.29548645, "grad_norm": 0.34493729, "learning_rate": 0.00025064, "token_acc": 0.48831169, "epoch": 0.67652792, "global_step/max_steps": "1475/2181", "elapsed_time": "2h 5m 14s", "remaining_time": "59m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094279}
+{"loss": 2.28596807, "grad_norm": 0.33519021, "learning_rate": 0.00025, "token_acc": 0.49436349, "epoch": 0.67698658, "global_step/max_steps": "1476/2181", "elapsed_time": "2h 5m 19s", "remaining_time": "59m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094015}
+{"loss": 2.39890766, "grad_norm": 0.36672628, "learning_rate": 0.00024936, "token_acc": 0.48774796, "epoch": 0.67744525, "global_step/max_steps": "1477/2181", "elapsed_time": "2h 5m 24s", "remaining_time": "59m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093824}
+{"loss": 2.46676588, "grad_norm": 0.35372061, "learning_rate": 0.00024871, "token_acc": 0.46937591, "epoch": 0.67790391, "global_step/max_steps": "1478/2181", "elapsed_time": "2h 5m 29s", "remaining_time": "59m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.094026}
+{"loss": 2.42466307, "grad_norm": 0.35887522, "learning_rate": 0.00024807, "token_acc": 0.48754952, "epoch": 0.67836257, "global_step/max_steps": "1479/2181", "elapsed_time": "2h 5m 34s", "remaining_time": "59m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093858}
+{"loss": 2.2123971, "grad_norm": 0.35583764, "learning_rate": 0.00024743, "token_acc": 0.52132837, "epoch": 0.67882124, "global_step/max_steps": "1480/2181", "elapsed_time": "2h 5m 39s", "remaining_time": "59m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093787}
+{"loss": 2.41272664, "grad_norm": 0.35333538, "learning_rate": 0.00024679, "token_acc": 0.4796843, "epoch": 0.6792799, "global_step/max_steps": "1481/2181", "elapsed_time": "2h 5m 44s", "remaining_time": "59m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093644}
+{"loss": 2.30705047, "grad_norm": 0.33801562, "learning_rate": 0.00024615, "token_acc": 0.48543417, "epoch": 0.67973856, "global_step/max_steps": "1482/2181", "elapsed_time": "2h 5m 49s", "remaining_time": "59m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093535}
+{"loss": 2.45495653, "grad_norm": 0.34683755, "learning_rate": 0.00024551, "token_acc": 0.48141061, "epoch": 0.68019723, "global_step/max_steps": "1483/2181", "elapsed_time": "2h 5m 54s", "remaining_time": "59m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093482}
+{"loss": 2.30314732, "grad_norm": 0.31844574, "learning_rate": 0.00024487, "token_acc": 0.48534386, "epoch": 0.68065589, "global_step/max_steps": "1484/2181", "elapsed_time": "2h 5m 59s", "remaining_time": "59m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093825}
+{"loss": 2.33927822, "grad_norm": 0.3139866, "learning_rate": 0.00024423, "token_acc": 0.50698174, "epoch": 0.68111455, "global_step/max_steps": "1485/2181", "elapsed_time": "2h 6m 4s", "remaining_time": "59m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093654}
+{"loss": 2.22994804, "grad_norm": 0.35689217, "learning_rate": 0.0002436, "token_acc": 0.51173311, "epoch": 0.68157321, "global_step/max_steps": "1486/2181", "elapsed_time": "2h 6m 9s", "remaining_time": "58m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093408}
+{"loss": 2.36626816, "grad_norm": 0.34503603, "learning_rate": 0.00024296, "token_acc": 0.47612514, "epoch": 0.68203188, "global_step/max_steps": "1487/2181", "elapsed_time": "2h 6m 14s", "remaining_time": "58m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093412}
+{"loss": 2.42993641, "grad_norm": 0.35981977, "learning_rate": 0.00024232, "token_acc": 0.47934352, "epoch": 0.68249054, "global_step/max_steps": "1488/2181", "elapsed_time": "2h 6m 19s", "remaining_time": "58m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093663}
+{"loss": 2.41699219, "grad_norm": 0.35146618, "learning_rate": 0.00024169, "token_acc": 0.48028478, "epoch": 0.6829492, "global_step/max_steps": "1489/2181", "elapsed_time": "2h 6m 24s", "remaining_time": "58m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093477}
+{"loss": 2.23792315, "grad_norm": 0.33842111, "learning_rate": 0.00024105, "token_acc": 0.50885341, "epoch": 0.68340787, "global_step/max_steps": "1490/2181", "elapsed_time": "2h 6m 29s", "remaining_time": "58m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093621}
+{"loss": 2.38753533, "grad_norm": 0.3549974, "learning_rate": 0.00024041, "token_acc": 0.4848569, "epoch": 0.68386653, "global_step/max_steps": "1491/2181", "elapsed_time": "2h 6m 35s", "remaining_time": "58m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093616}
+{"loss": 2.4333365, "grad_norm": 0.35116798, "learning_rate": 0.00023978, "token_acc": 0.48010974, "epoch": 0.68432519, "global_step/max_steps": "1492/2181", "elapsed_time": "2h 6m 39s", "remaining_time": "58m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093442}
+{"loss": 2.3262167, "grad_norm": 0.35555208, "learning_rate": 0.00023915, "token_acc": 0.48661731, "epoch": 0.68478386, "global_step/max_steps": "1493/2181", "elapsed_time": "2h 6m 44s", "remaining_time": "58m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093213}
+{"loss": 2.36441565, "grad_norm": 0.3562724, "learning_rate": 0.00023851, "token_acc": 0.49797133, "epoch": 0.68524252, "global_step/max_steps": "1494/2181", "elapsed_time": "2h 6m 49s", "remaining_time": "58m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093199}
+{"loss": 2.36109948, "grad_norm": 0.32964444, "learning_rate": 0.00023788, "token_acc": 0.49245659, "epoch": 0.68570118, "global_step/max_steps": "1495/2181", "elapsed_time": "2h 6m 54s", "remaining_time": "58m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093157}
+{"loss": 2.31603837, "grad_norm": 0.37209514, "learning_rate": 0.00023725, "token_acc": 0.49870354, "epoch": 0.68615984, "global_step/max_steps": "1496/2181", "elapsed_time": "2h 6m 60s", "remaining_time": "58m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093389}
+{"loss": 2.20164633, "grad_norm": 0.32344547, "learning_rate": 0.00023662, "token_acc": 0.51079338, "epoch": 0.68661851, "global_step/max_steps": "1497/2181", "elapsed_time": "2h 7m 5s", "remaining_time": "58m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093413}
+{"loss": 2.49335098, "grad_norm": 0.32305777, "learning_rate": 0.00023599, "token_acc": 0.46548004, "epoch": 0.68707717, "global_step/max_steps": "1498/2181", "elapsed_time": "2h 7m 10s", "remaining_time": "57m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093227}
+{"loss": 2.31022406, "grad_norm": 0.33232337, "learning_rate": 0.00023536, "token_acc": 0.49496872, "epoch": 0.68753583, "global_step/max_steps": "1499/2181", "elapsed_time": "2h 7m 15s", "remaining_time": "57m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093221}
+{"loss": 2.51412487, "grad_norm": 0.33437911, "learning_rate": 0.00023473, "token_acc": 0.46495452, "epoch": 0.6879945, "global_step/max_steps": "1500/2181", "elapsed_time": "2h 7m 20s", "remaining_time": "57m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.093368}
+{"loss": 2.36955118, "grad_norm": 0.32077348, "learning_rate": 0.0002341, "token_acc": 0.48006834, "epoch": 0.68845316, "global_step/max_steps": "1501/2181", "elapsed_time": "2h 7m 48s", "remaining_time": "57m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108889}
+{"loss": 2.36359358, "grad_norm": 0.33398443, "learning_rate": 0.00023347, "token_acc": 0.49629019, "epoch": 0.68891182, "global_step/max_steps": "1502/2181", "elapsed_time": "2h 7m 53s", "remaining_time": "57m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108783}
+{"loss": 2.35818863, "grad_norm": 0.33760667, "learning_rate": 0.00023284, "token_acc": 0.49086236, "epoch": 0.68937049, "global_step/max_steps": "1503/2181", "elapsed_time": "2h 7m 59s", "remaining_time": "57m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109197}
+{"loss": 2.40011787, "grad_norm": 0.34300065, "learning_rate": 0.00023221, "token_acc": 0.48106592, "epoch": 0.68982915, "global_step/max_steps": "1504/2181", "elapsed_time": "2h 8m 4s", "remaining_time": "57m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109127}
+{"loss": 2.39442468, "grad_norm": 0.31739992, "learning_rate": 0.00023159, "token_acc": 0.49172642, "epoch": 0.69028781, "global_step/max_steps": "1505/2181", "elapsed_time": "2h 8m 9s", "remaining_time": "57m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109066}
+{"loss": 2.32766247, "grad_norm": 0.33569074, "learning_rate": 0.00023096, "token_acc": 0.48979592, "epoch": 0.69074647, "global_step/max_steps": "1506/2181", "elapsed_time": "2h 8m 14s", "remaining_time": "57m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108998}
+{"loss": 2.34853268, "grad_norm": 0.33743232, "learning_rate": 0.00023033, "token_acc": 0.4802213, "epoch": 0.69120514, "global_step/max_steps": "1507/2181", "elapsed_time": "2h 8m 19s", "remaining_time": "57m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108884}
+{"loss": 2.38624096, "grad_norm": 0.35430288, "learning_rate": 0.00022971, "token_acc": 0.48837885, "epoch": 0.6916638, "global_step/max_steps": "1508/2181", "elapsed_time": "2h 8m 24s", "remaining_time": "57m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108881}
+{"loss": 2.31873488, "grad_norm": 0.31892595, "learning_rate": 0.00022908, "token_acc": 0.50156413, "epoch": 0.69212246, "global_step/max_steps": "1509/2181", "elapsed_time": "2h 8m 30s", "remaining_time": "57m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109032}
+{"loss": 2.34828234, "grad_norm": 0.34865385, "learning_rate": 0.00022846, "token_acc": 0.48900789, "epoch": 0.69258113, "global_step/max_steps": "1510/2181", "elapsed_time": "2h 8m 35s", "remaining_time": "57m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109075}
+{"loss": 2.41769123, "grad_norm": 0.35996154, "learning_rate": 0.00022784, "token_acc": 0.48901569, "epoch": 0.69303979, "global_step/max_steps": "1511/2181", "elapsed_time": "2h 8m 40s", "remaining_time": "57m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109227}
+{"loss": 2.31530571, "grad_norm": 0.34729582, "learning_rate": 0.00022721, "token_acc": 0.49136009, "epoch": 0.69349845, "global_step/max_steps": "1512/2181", "elapsed_time": "2h 8m 45s", "remaining_time": "56m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109109}
+{"loss": 2.38455296, "grad_norm": 0.35792905, "learning_rate": 0.00022659, "token_acc": 0.48627914, "epoch": 0.69395712, "global_step/max_steps": "1513/2181", "elapsed_time": "2h 8m 50s", "remaining_time": "56m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109234}
+{"loss": 2.48386669, "grad_norm": 0.32457697, "learning_rate": 0.00022597, "token_acc": 0.48030635, "epoch": 0.69441578, "global_step/max_steps": "1514/2181", "elapsed_time": "2h 8m 55s", "remaining_time": "56m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109097}
+{"loss": 2.35589147, "grad_norm": 0.35109478, "learning_rate": 0.00022535, "token_acc": 0.49679398, "epoch": 0.69487444, "global_step/max_steps": "1515/2181", "elapsed_time": "2h 9m 0s", "remaining_time": "56m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108975}
+{"loss": 2.4002974, "grad_norm": 0.32765317, "learning_rate": 0.00022473, "token_acc": 0.48533929, "epoch": 0.6953331, "global_step/max_steps": "1516/2181", "elapsed_time": "2h 9m 5s", "remaining_time": "56m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108897}
+{"loss": 2.40733266, "grad_norm": 0.32736409, "learning_rate": 0.00022411, "token_acc": 0.49213041, "epoch": 0.69579177, "global_step/max_steps": "1517/2181", "elapsed_time": "2h 9m 10s", "remaining_time": "56m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108845}
+{"loss": 2.45658588, "grad_norm": 0.3398886, "learning_rate": 0.00022349, "token_acc": 0.4765855, "epoch": 0.69625043, "global_step/max_steps": "1518/2181", "elapsed_time": "2h 9m 15s", "remaining_time": "56m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108623}
+{"loss": 2.34105897, "grad_norm": 0.33816046, "learning_rate": 0.00022287, "token_acc": 0.48731257, "epoch": 0.69670909, "global_step/max_steps": "1519/2181", "elapsed_time": "2h 9m 20s", "remaining_time": "56m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108589}
+{"loss": 2.34132624, "grad_norm": 0.34329554, "learning_rate": 0.00022225, "token_acc": 0.49366376, "epoch": 0.69716776, "global_step/max_steps": "1520/2181", "elapsed_time": "2h 9m 25s", "remaining_time": "56m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108419}
+{"loss": 2.36590886, "grad_norm": 0.32418934, "learning_rate": 0.00022164, "token_acc": 0.48860829, "epoch": 0.69762642, "global_step/max_steps": "1521/2181", "elapsed_time": "2h 9m 30s", "remaining_time": "56m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108333}
+{"loss": 2.35242629, "grad_norm": 0.33713588, "learning_rate": 0.00022102, "token_acc": 0.48581255, "epoch": 0.69808508, "global_step/max_steps": "1522/2181", "elapsed_time": "2h 9m 34s", "remaining_time": "56m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108006}
+{"loss": 2.42099571, "grad_norm": 0.33461419, "learning_rate": 0.0002204, "token_acc": 0.48012232, "epoch": 0.69854374, "global_step/max_steps": "1523/2181", "elapsed_time": "2h 9m 39s", "remaining_time": "56m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10776}
+{"loss": 2.36142349, "grad_norm": 0.3393428, "learning_rate": 0.00021979, "token_acc": 0.49208515, "epoch": 0.69900241, "global_step/max_steps": "1524/2181", "elapsed_time": "2h 9m 45s", "remaining_time": "55m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107945}
+{"loss": 2.3257556, "grad_norm": 0.33022919, "learning_rate": 0.00021917, "token_acc": 0.50028329, "epoch": 0.69946107, "global_step/max_steps": "1525/2181", "elapsed_time": "2h 9m 49s", "remaining_time": "55m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107829}
+{"loss": 2.30694032, "grad_norm": 0.33778068, "learning_rate": 0.00021856, "token_acc": 0.49720982, "epoch": 0.69991973, "global_step/max_steps": "1526/2181", "elapsed_time": "2h 9m 54s", "remaining_time": "55m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107503}
+{"loss": 2.37462759, "grad_norm": 0.34237191, "learning_rate": 0.00021795, "token_acc": 0.48451577, "epoch": 0.7003784, "global_step/max_steps": "1527/2181", "elapsed_time": "2h 9m 59s", "remaining_time": "55m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107514}
+{"loss": 2.22503734, "grad_norm": 0.35406455, "learning_rate": 0.00021733, "token_acc": 0.51148936, "epoch": 0.70083706, "global_step/max_steps": "1528/2181", "elapsed_time": "2h 10m 4s", "remaining_time": "55m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107376}
+{"loss": 2.43724227, "grad_norm": 0.34990072, "learning_rate": 0.00021672, "token_acc": 0.48740659, "epoch": 0.70129572, "global_step/max_steps": "1529/2181", "elapsed_time": "2h 10m 9s", "remaining_time": "55m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107298}
+{"loss": 2.42578554, "grad_norm": 0.34452966, "learning_rate": 0.00021611, "token_acc": 0.49085038, "epoch": 0.70175439, "global_step/max_steps": "1530/2181", "elapsed_time": "2h 10m 14s", "remaining_time": "55m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107058}
+{"loss": 2.38344789, "grad_norm": 0.36117822, "learning_rate": 0.0002155, "token_acc": 0.48481532, "epoch": 0.70221305, "global_step/max_steps": "1531/2181", "elapsed_time": "2h 10m 19s", "remaining_time": "55m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107161}
+{"loss": 2.25778627, "grad_norm": 0.35376698, "learning_rate": 0.00021489, "token_acc": 0.50028058, "epoch": 0.70267171, "global_step/max_steps": "1532/2181", "elapsed_time": "2h 10m 24s", "remaining_time": "55m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107051}
+{"loss": 2.38603091, "grad_norm": 0.3437829, "learning_rate": 0.00021428, "token_acc": 0.47651195, "epoch": 0.70313037, "global_step/max_steps": "1533/2181", "elapsed_time": "2h 10m 29s", "remaining_time": "55m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106861}
+{"loss": 2.38234878, "grad_norm": 0.35961509, "learning_rate": 0.00021367, "token_acc": 0.4835408, "epoch": 0.70358904, "global_step/max_steps": "1534/2181", "elapsed_time": "2h 10m 34s", "remaining_time": "55m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106753}
+{"loss": 2.49643254, "grad_norm": 0.35633689, "learning_rate": 0.00021306, "token_acc": 0.47113489, "epoch": 0.7040477, "global_step/max_steps": "1535/2181", "elapsed_time": "2h 10m 39s", "remaining_time": "54m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106837}
+{"loss": 2.45149279, "grad_norm": 0.35173148, "learning_rate": 0.00021245, "token_acc": 0.47945946, "epoch": 0.70450636, "global_step/max_steps": "1536/2181", "elapsed_time": "2h 10m 44s", "remaining_time": "54m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106834}
+{"loss": 2.3340044, "grad_norm": 0.31603765, "learning_rate": 0.00021184, "token_acc": 0.4845645, "epoch": 0.70496503, "global_step/max_steps": "1537/2181", "elapsed_time": "2h 10m 50s", "remaining_time": "54m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107079}
+{"loss": 2.29703498, "grad_norm": 0.3303673, "learning_rate": 0.00021124, "token_acc": 0.503367, "epoch": 0.70542369, "global_step/max_steps": "1538/2181", "elapsed_time": "2h 10m 54s", "remaining_time": "54m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106897}
+{"loss": 2.39459848, "grad_norm": 0.34590238, "learning_rate": 0.00021063, "token_acc": 0.49217002, "epoch": 0.70588235, "global_step/max_steps": "1539/2181", "elapsed_time": "2h 10m 60s", "remaining_time": "54m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107145}
+{"loss": 2.23350525, "grad_norm": 0.35154501, "learning_rate": 0.00021003, "token_acc": 0.50282167, "epoch": 0.70634102, "global_step/max_steps": "1540/2181", "elapsed_time": "2h 11m 5s", "remaining_time": "54m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107165}
+{"loss": 2.26209283, "grad_norm": 0.35775527, "learning_rate": 0.00020942, "token_acc": 0.50748799, "epoch": 0.70679968, "global_step/max_steps": "1541/2181", "elapsed_time": "2h 11m 10s", "remaining_time": "54m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107098}
+{"loss": 2.3670907, "grad_norm": 0.35920697, "learning_rate": 0.00020882, "token_acc": 0.48490723, "epoch": 0.70725834, "global_step/max_steps": "1542/2181", "elapsed_time": "2h 11m 16s", "remaining_time": "54m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107429}
+{"loss": 2.39824486, "grad_norm": 0.3294822, "learning_rate": 0.00020821, "token_acc": 0.48892535, "epoch": 0.707717, "global_step/max_steps": "1543/2181", "elapsed_time": "2h 11m 21s", "remaining_time": "54m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107587}
+{"loss": 2.20444751, "grad_norm": 0.33077595, "learning_rate": 0.00020761, "token_acc": 0.50604064, "epoch": 0.70817567, "global_step/max_steps": "1544/2181", "elapsed_time": "2h 11m 26s", "remaining_time": "54m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10742}
+{"loss": 2.36074066, "grad_norm": 0.34411961, "learning_rate": 0.00020701, "token_acc": 0.49596438, "epoch": 0.70863433, "global_step/max_steps": "1545/2181", "elapsed_time": "2h 11m 31s", "remaining_time": "54m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107505}
+{"loss": 2.386415, "grad_norm": 0.37298566, "learning_rate": 0.00020641, "token_acc": 0.49802594, "epoch": 0.70909299, "global_step/max_steps": "1546/2181", "elapsed_time": "2h 11m 36s", "remaining_time": "54m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107556}
+{"loss": 2.33058548, "grad_norm": 0.3341358, "learning_rate": 0.00020581, "token_acc": 0.49930844, "epoch": 0.70955166, "global_step/max_steps": "1547/2181", "elapsed_time": "2h 11m 41s", "remaining_time": "53m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107425}
+{"loss": 2.29610181, "grad_norm": 0.35409462, "learning_rate": 0.00020521, "token_acc": 0.50391937, "epoch": 0.71001032, "global_step/max_steps": "1548/2181", "elapsed_time": "2h 11m 46s", "remaining_time": "53m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107519}
+{"loss": 2.41375637, "grad_norm": 0.35541621, "learning_rate": 0.00020461, "token_acc": 0.47774979, "epoch": 0.71046898, "global_step/max_steps": "1549/2181", "elapsed_time": "2h 11m 52s", "remaining_time": "53m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107892}
+{"loss": 2.28005719, "grad_norm": 0.34207362, "learning_rate": 0.00020401, "token_acc": 0.49105081, "epoch": 0.71092765, "global_step/max_steps": "1550/2181", "elapsed_time": "2h 11m 57s", "remaining_time": "53m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107924}
+{"loss": 2.47104454, "grad_norm": 0.33347875, "learning_rate": 0.00020341, "token_acc": 0.4836658, "epoch": 0.71138631, "global_step/max_steps": "1551/2181", "elapsed_time": "2h 12m 2s", "remaining_time": "53m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107803}
+{"loss": 2.45252848, "grad_norm": 0.32397965, "learning_rate": 0.00020281, "token_acc": 0.48675847, "epoch": 0.71184497, "global_step/max_steps": "1552/2181", "elapsed_time": "2h 12m 7s", "remaining_time": "53m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107905}
+{"loss": 2.280303, "grad_norm": 0.34221199, "learning_rate": 0.00020222, "token_acc": 0.50763807, "epoch": 0.71230363, "global_step/max_steps": "1553/2181", "elapsed_time": "2h 12m 13s", "remaining_time": "53m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108215}
+{"loss": 2.32452321, "grad_norm": 0.33537602, "learning_rate": 0.00020162, "token_acc": 0.49587686, "epoch": 0.7127623, "global_step/max_steps": "1554/2181", "elapsed_time": "2h 12m 18s", "remaining_time": "53m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108043}
+{"loss": 2.44670582, "grad_norm": 0.34138396, "learning_rate": 0.00020102, "token_acc": 0.47700657, "epoch": 0.71322096, "global_step/max_steps": "1555/2181", "elapsed_time": "2h 12m 23s", "remaining_time": "53m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108038}
+{"loss": 2.26566672, "grad_norm": 0.33466485, "learning_rate": 0.00020043, "token_acc": 0.51040526, "epoch": 0.71367962, "global_step/max_steps": "1556/2181", "elapsed_time": "2h 12m 28s", "remaining_time": "53m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107886}
+{"loss": 2.38132167, "grad_norm": 0.32642305, "learning_rate": 0.00019983, "token_acc": 0.47438063, "epoch": 0.71413829, "global_step/max_steps": "1557/2181", "elapsed_time": "2h 12m 33s", "remaining_time": "53m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107916}
+{"loss": 2.38308096, "grad_norm": 0.33959764, "learning_rate": 0.00019924, "token_acc": 0.50170648, "epoch": 0.71459695, "global_step/max_steps": "1558/2181", "elapsed_time": "2h 12m 38s", "remaining_time": "53m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107939}
+{"loss": 2.34104371, "grad_norm": 0.34451488, "learning_rate": 0.00019865, "token_acc": 0.48581062, "epoch": 0.71505561, "global_step/max_steps": "1559/2181", "elapsed_time": "2h 12m 43s", "remaining_time": "52m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107741}
+{"loss": 2.4125886, "grad_norm": 0.35488108, "learning_rate": 0.00019806, "token_acc": 0.50420639, "epoch": 0.71551428, "global_step/max_steps": "1560/2181", "elapsed_time": "2h 12m 48s", "remaining_time": "52m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107823}
+{"loss": 2.46154332, "grad_norm": 0.32935318, "learning_rate": 0.00019746, "token_acc": 0.47377232, "epoch": 0.71597294, "global_step/max_steps": "1561/2181", "elapsed_time": "2h 12m 53s", "remaining_time": "52m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107534}
+{"loss": 2.37257528, "grad_norm": 0.33483618, "learning_rate": 0.00019687, "token_acc": 0.49392265, "epoch": 0.7164316, "global_step/max_steps": "1562/2181", "elapsed_time": "2h 12m 58s", "remaining_time": "52m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107686}
+{"loss": 2.3713603, "grad_norm": 0.3561292, "learning_rate": 0.00019628, "token_acc": 0.4826606, "epoch": 0.71689026, "global_step/max_steps": "1563/2181", "elapsed_time": "2h 13m 3s", "remaining_time": "52m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107723}
+{"loss": 2.37283039, "grad_norm": 0.32442686, "learning_rate": 0.00019569, "token_acc": 0.50141403, "epoch": 0.71734893, "global_step/max_steps": "1564/2181", "elapsed_time": "2h 13m 8s", "remaining_time": "52m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107706}
+{"loss": 2.32276917, "grad_norm": 0.34590814, "learning_rate": 0.0001951, "token_acc": 0.49501567, "epoch": 0.71780759, "global_step/max_steps": "1565/2181", "elapsed_time": "2h 13m 13s", "remaining_time": "52m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107513}
+{"loss": 2.37200403, "grad_norm": 0.35087931, "learning_rate": 0.00019452, "token_acc": 0.49654179, "epoch": 0.71826625, "global_step/max_steps": "1566/2181", "elapsed_time": "2h 13m 19s", "remaining_time": "52m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108008}
+{"loss": 2.27628708, "grad_norm": 0.35062033, "learning_rate": 0.00019393, "token_acc": 0.50315006, "epoch": 0.71872492, "global_step/max_steps": "1567/2181", "elapsed_time": "2h 13m 24s", "remaining_time": "52m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107894}
+{"loss": 2.3507781, "grad_norm": 0.33903056, "learning_rate": 0.00019334, "token_acc": 0.49257567, "epoch": 0.71918358, "global_step/max_steps": "1568/2181", "elapsed_time": "2h 13m 29s", "remaining_time": "52m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107899}
+{"loss": 2.42155552, "grad_norm": 0.34715706, "learning_rate": 0.00019275, "token_acc": 0.4855332, "epoch": 0.71964224, "global_step/max_steps": "1569/2181", "elapsed_time": "2h 13m 35s", "remaining_time": "52m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108126}
+{"loss": 2.36538839, "grad_norm": 0.3496106, "learning_rate": 0.00019217, "token_acc": 0.50166021, "epoch": 0.72010091, "global_step/max_steps": "1570/2181", "elapsed_time": "2h 13m 40s", "remaining_time": "52m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108088}
+{"loss": 2.38659048, "grad_norm": 0.33393851, "learning_rate": 0.00019158, "token_acc": 0.48361582, "epoch": 0.72055957, "global_step/max_steps": "1571/2181", "elapsed_time": "2h 13m 45s", "remaining_time": "51m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108014}
+{"loss": 2.35540438, "grad_norm": 0.32444927, "learning_rate": 0.000191, "token_acc": 0.50238429, "epoch": 0.72101823, "global_step/max_steps": "1572/2181", "elapsed_time": "2h 13m 50s", "remaining_time": "51m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107942}
+{"loss": 2.2677834, "grad_norm": 0.35239884, "learning_rate": 0.00019042, "token_acc": 0.49451754, "epoch": 0.72147689, "global_step/max_steps": "1573/2181", "elapsed_time": "2h 13m 54s", "remaining_time": "51m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107745}
+{"loss": 2.37813091, "grad_norm": 0.34086043, "learning_rate": 0.00018983, "token_acc": 0.49315068, "epoch": 0.72193556, "global_step/max_steps": "1574/2181", "elapsed_time": "2h 13m 59s", "remaining_time": "51m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107615}
+{"loss": 2.32047081, "grad_norm": 0.34232792, "learning_rate": 0.00018925, "token_acc": 0.48768752, "epoch": 0.72239422, "global_step/max_steps": "1575/2181", "elapsed_time": "2h 14m 5s", "remaining_time": "51m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1077}
+{"loss": 2.36898851, "grad_norm": 0.3605189, "learning_rate": 0.00018867, "token_acc": 0.48790896, "epoch": 0.72285288, "global_step/max_steps": "1576/2181", "elapsed_time": "2h 14m 10s", "remaining_time": "51m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107583}
+{"loss": 2.3541975, "grad_norm": 0.34602886, "learning_rate": 0.00018809, "token_acc": 0.49832776, "epoch": 0.72331155, "global_step/max_steps": "1577/2181", "elapsed_time": "2h 14m 15s", "remaining_time": "51m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107583}
+{"loss": 2.37285089, "grad_norm": 0.35307047, "learning_rate": 0.00018751, "token_acc": 0.48138676, "epoch": 0.72377021, "global_step/max_steps": "1578/2181", "elapsed_time": "2h 14m 20s", "remaining_time": "51m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107576}
+{"loss": 2.30665541, "grad_norm": 0.33050358, "learning_rate": 0.00018693, "token_acc": 0.49602544, "epoch": 0.72422887, "global_step/max_steps": "1579/2181", "elapsed_time": "2h 14m 25s", "remaining_time": "51m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107605}
+{"loss": 2.30486012, "grad_norm": 0.32504255, "learning_rate": 0.00018635, "token_acc": 0.50027159, "epoch": 0.72468754, "global_step/max_steps": "1580/2181", "elapsed_time": "2h 14m 30s", "remaining_time": "51m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107606}
+{"loss": 2.33396435, "grad_norm": 0.33142555, "learning_rate": 0.00018577, "token_acc": 0.48631463, "epoch": 0.7251462, "global_step/max_steps": "1581/2181", "elapsed_time": "2h 14m 35s", "remaining_time": "51m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107478}
+{"loss": 2.33858562, "grad_norm": 0.32973269, "learning_rate": 0.0001852, "token_acc": 0.49104143, "epoch": 0.72560486, "global_step/max_steps": "1582/2181", "elapsed_time": "2h 14m 40s", "remaining_time": "50m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107639}
+{"loss": 2.38460064, "grad_norm": 0.32463184, "learning_rate": 0.00018462, "token_acc": 0.49767059, "epoch": 0.72606352, "global_step/max_steps": "1583/2181", "elapsed_time": "2h 14m 45s", "remaining_time": "50m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107574}
+{"loss": 2.35551262, "grad_norm": 0.34357652, "learning_rate": 0.00018404, "token_acc": 0.49636872, "epoch": 0.72652219, "global_step/max_steps": "1584/2181", "elapsed_time": "2h 14m 50s", "remaining_time": "50m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107517}
+{"loss": 2.37013006, "grad_norm": 0.34066886, "learning_rate": 0.00018347, "token_acc": 0.48135965, "epoch": 0.72698085, "global_step/max_steps": "1585/2181", "elapsed_time": "2h 14m 56s", "remaining_time": "50m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107632}
+{"loss": 2.40060759, "grad_norm": 0.32433069, "learning_rate": 0.00018289, "token_acc": 0.48463227, "epoch": 0.72743951, "global_step/max_steps": "1586/2181", "elapsed_time": "2h 15m 1s", "remaining_time": "50m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107956}
+{"loss": 2.21652174, "grad_norm": 0.33059222, "learning_rate": 0.00018232, "token_acc": 0.52859216, "epoch": 0.72789818, "global_step/max_steps": "1587/2181", "elapsed_time": "2h 15m 7s", "remaining_time": "50m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108133}
+{"loss": 2.27767706, "grad_norm": 0.33596155, "learning_rate": 0.00018175, "token_acc": 0.4951131, "epoch": 0.72835684, "global_step/max_steps": "1588/2181", "elapsed_time": "2h 15m 12s", "remaining_time": "50m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108071}
+{"loss": 2.31302261, "grad_norm": 0.33692959, "learning_rate": 0.00018117, "token_acc": 0.48497381, "epoch": 0.7288155, "global_step/max_steps": "1589/2181", "elapsed_time": "2h 15m 16s", "remaining_time": "50m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107921}
+{"loss": 2.33732724, "grad_norm": 0.32483929, "learning_rate": 0.0001806, "token_acc": 0.48710991, "epoch": 0.72927417, "global_step/max_steps": "1590/2181", "elapsed_time": "2h 15m 22s", "remaining_time": "50m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108093}
+{"loss": 2.36933398, "grad_norm": 0.34429428, "learning_rate": 0.00018003, "token_acc": 0.49700599, "epoch": 0.72973283, "global_step/max_steps": "1591/2181", "elapsed_time": "2h 15m 27s", "remaining_time": "50m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108071}
+{"loss": 2.25597477, "grad_norm": 0.33692828, "learning_rate": 0.00017946, "token_acc": 0.50111483, "epoch": 0.73019149, "global_step/max_steps": "1592/2181", "elapsed_time": "2h 15m 32s", "remaining_time": "50m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107834}
+{"loss": 2.31733656, "grad_norm": 0.34444177, "learning_rate": 0.00017889, "token_acc": 0.48885173, "epoch": 0.73065015, "global_step/max_steps": "1593/2181", "elapsed_time": "2h 15m 37s", "remaining_time": "50m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107659}
+{"loss": 2.34607363, "grad_norm": 0.33369556, "learning_rate": 0.00017832, "token_acc": 0.49393854, "epoch": 0.73110882, "global_step/max_steps": "1594/2181", "elapsed_time": "2h 15m 42s", "remaining_time": "49m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107782}
+{"loss": 2.3433032, "grad_norm": 0.33577341, "learning_rate": 0.00017775, "token_acc": 0.48551724, "epoch": 0.73156748, "global_step/max_steps": "1595/2181", "elapsed_time": "2h 15m 47s", "remaining_time": "49m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107659}
+{"loss": 2.27658224, "grad_norm": 0.32917255, "learning_rate": 0.00017719, "token_acc": 0.50209908, "epoch": 0.73202614, "global_step/max_steps": "1596/2181", "elapsed_time": "2h 15m 52s", "remaining_time": "49m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108033}
+{"loss": 2.31207514, "grad_norm": 0.37607011, "learning_rate": 0.00017662, "token_acc": 0.49899742, "epoch": 0.73248481, "global_step/max_steps": "1597/2181", "elapsed_time": "2h 15m 57s", "remaining_time": "49m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107931}
+{"loss": 2.27729702, "grad_norm": 0.32973102, "learning_rate": 0.00017605, "token_acc": 0.49313533, "epoch": 0.73294347, "global_step/max_steps": "1598/2181", "elapsed_time": "2h 16m 2s", "remaining_time": "49m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107777}
+{"loss": 2.22657633, "grad_norm": 0.33948797, "learning_rate": 0.00017549, "token_acc": 0.51389677, "epoch": 0.73340213, "global_step/max_steps": "1599/2181", "elapsed_time": "2h 16m 7s", "remaining_time": "49m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107562}
+{"loss": 2.32513332, "grad_norm": 0.34047818, "learning_rate": 0.00017492, "token_acc": 0.50184712, "epoch": 0.7338608, "global_step/max_steps": "1600/2181", "elapsed_time": "2h 16m 12s", "remaining_time": "49m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107566}
+{"loss": 2.41462994, "grad_norm": 0.36862206, "learning_rate": 0.00017436, "token_acc": 0.48309584, "epoch": 0.73431946, "global_step/max_steps": "1601/2181", "elapsed_time": "2h 16m 17s", "remaining_time": "49m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107511}
+{"loss": 2.29512668, "grad_norm": 0.35863289, "learning_rate": 0.0001738, "token_acc": 0.4911671, "epoch": 0.73477812, "global_step/max_steps": "1602/2181", "elapsed_time": "2h 16m 22s", "remaining_time": "49m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10753}
+{"loss": 2.32311225, "grad_norm": 0.34073421, "learning_rate": 0.00017323, "token_acc": 0.50132696, "epoch": 0.73523678, "global_step/max_steps": "1603/2181", "elapsed_time": "2h 16m 27s", "remaining_time": "49m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10746}
+{"loss": 2.38944244, "grad_norm": 0.35110354, "learning_rate": 0.00017267, "token_acc": 0.49724821, "epoch": 0.73569545, "global_step/max_steps": "1604/2181", "elapsed_time": "2h 16m 32s", "remaining_time": "49m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107298}
+{"loss": 2.39598894, "grad_norm": 0.37128994, "learning_rate": 0.00017211, "token_acc": 0.4867408, "epoch": 0.73615411, "global_step/max_steps": "1605/2181", "elapsed_time": "2h 16m 37s", "remaining_time": "49m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107165}
+{"loss": 2.45318007, "grad_norm": 0.36385781, "learning_rate": 0.00017155, "token_acc": 0.47880512, "epoch": 0.73661277, "global_step/max_steps": "1606/2181", "elapsed_time": "2h 16m 42s", "remaining_time": "48m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107034}
+{"loss": 2.35829067, "grad_norm": 0.33243218, "learning_rate": 0.00017099, "token_acc": 0.48983464, "epoch": 0.73707144, "global_step/max_steps": "1607/2181", "elapsed_time": "2h 16m 47s", "remaining_time": "48m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106726}
+{"loss": 2.42740011, "grad_norm": 0.33128765, "learning_rate": 0.00017043, "token_acc": 0.48547149, "epoch": 0.7375301, "global_step/max_steps": "1608/2181", "elapsed_time": "2h 16m 52s", "remaining_time": "48m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106931}
+{"loss": 2.287925, "grad_norm": 0.3236379, "learning_rate": 0.00016987, "token_acc": 0.50264845, "epoch": 0.73798876, "global_step/max_steps": "1609/2181", "elapsed_time": "2h 16m 57s", "remaining_time": "48m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10691}
+{"loss": 2.3659246, "grad_norm": 0.33778122, "learning_rate": 0.00016932, "token_acc": 0.48772023, "epoch": 0.73844743, "global_step/max_steps": "1610/2181", "elapsed_time": "2h 17m 2s", "remaining_time": "48m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106743}
+{"loss": 2.43021059, "grad_norm": 0.35362291, "learning_rate": 0.00016876, "token_acc": 0.4781293, "epoch": 0.73890609, "global_step/max_steps": "1611/2181", "elapsed_time": "2h 17m 7s", "remaining_time": "48m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106779}
+{"loss": 2.35444498, "grad_norm": 0.34408909, "learning_rate": 0.0001682, "token_acc": 0.49901602, "epoch": 0.73936475, "global_step/max_steps": "1612/2181", "elapsed_time": "2h 17m 12s", "remaining_time": "48m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106691}
+{"loss": 2.35690022, "grad_norm": 0.34119043, "learning_rate": 0.00016765, "token_acc": 0.50980392, "epoch": 0.73982341, "global_step/max_steps": "1613/2181", "elapsed_time": "2h 17m 17s", "remaining_time": "48m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106576}
+{"loss": 2.44664049, "grad_norm": 0.32716683, "learning_rate": 0.00016709, "token_acc": 0.4740494, "epoch": 0.74028208, "global_step/max_steps": "1614/2181", "elapsed_time": "2h 17m 22s", "remaining_time": "48m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106558}
+{"loss": 2.39663172, "grad_norm": 0.33035362, "learning_rate": 0.00016654, "token_acc": 0.4772118, "epoch": 0.74074074, "global_step/max_steps": "1615/2181", "elapsed_time": "2h 17m 28s", "remaining_time": "48m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106829}
+{"loss": 2.35631013, "grad_norm": 0.34066406, "learning_rate": 0.00016599, "token_acc": 0.49260944, "epoch": 0.7411994, "global_step/max_steps": "1616/2181", "elapsed_time": "2h 17m 32s", "remaining_time": "48m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106688}
+{"loss": 2.25760031, "grad_norm": 0.33807668, "learning_rate": 0.00016543, "token_acc": 0.50478065, "epoch": 0.74165807, "global_step/max_steps": "1617/2181", "elapsed_time": "2h 17m 37s", "remaining_time": "48m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106414}
+{"loss": 2.42185259, "grad_norm": 0.37401497, "learning_rate": 0.00016488, "token_acc": 0.48518519, "epoch": 0.74211673, "global_step/max_steps": "1618/2181", "elapsed_time": "2h 17m 42s", "remaining_time": "47m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106501}
+{"loss": 2.18769312, "grad_norm": 0.3413634, "learning_rate": 0.00016433, "token_acc": 0.51445578, "epoch": 0.74257539, "global_step/max_steps": "1619/2181", "elapsed_time": "2h 17m 47s", "remaining_time": "47m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106328}
+{"loss": 2.36391878, "grad_norm": 0.34627438, "learning_rate": 0.00016378, "token_acc": 0.48645691, "epoch": 0.74303406, "global_step/max_steps": "1620/2181", "elapsed_time": "2h 17m 52s", "remaining_time": "47m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106183}
+{"loss": 2.33272314, "grad_norm": 0.35518059, "learning_rate": 0.00016323, "token_acc": 0.49930996, "epoch": 0.74349272, "global_step/max_steps": "1621/2181", "elapsed_time": "2h 17m 57s", "remaining_time": "47m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10605}
+{"loss": 2.32491112, "grad_norm": 0.34675735, "learning_rate": 0.00016268, "token_acc": 0.50290778, "epoch": 0.74395138, "global_step/max_steps": "1622/2181", "elapsed_time": "2h 18m 2s", "remaining_time": "47m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105935}
+{"loss": 2.39198208, "grad_norm": 0.35913759, "learning_rate": 0.00016214, "token_acc": 0.48901569, "epoch": 0.74441004, "global_step/max_steps": "1623/2181", "elapsed_time": "2h 18m 6s", "remaining_time": "47m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105647}
+{"loss": 2.39392042, "grad_norm": 0.36994281, "learning_rate": 0.00016159, "token_acc": 0.4906636, "epoch": 0.74486871, "global_step/max_steps": "1624/2181", "elapsed_time": "2h 18m 12s", "remaining_time": "47m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105891}
+{"loss": 2.25418234, "grad_norm": 0.33559531, "learning_rate": 0.00016104, "token_acc": 0.5008547, "epoch": 0.74532737, "global_step/max_steps": "1625/2181", "elapsed_time": "2h 18m 17s", "remaining_time": "47m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106051}
+{"loss": 2.34836078, "grad_norm": 0.33464342, "learning_rate": 0.0001605, "token_acc": 0.49351008, "epoch": 0.74578603, "global_step/max_steps": "1626/2181", "elapsed_time": "2h 18m 22s", "remaining_time": "47m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105856}
+{"loss": 2.30981493, "grad_norm": 0.33364508, "learning_rate": 0.00015995, "token_acc": 0.5, "epoch": 0.7462447, "global_step/max_steps": "1627/2181", "elapsed_time": "2h 18m 27s", "remaining_time": "47m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105892}
+{"loss": 2.43157291, "grad_norm": 0.35335714, "learning_rate": 0.00015941, "token_acc": 0.4797517, "epoch": 0.74670336, "global_step/max_steps": "1628/2181", "elapsed_time": "2h 18m 32s", "remaining_time": "47m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105907}
+{"loss": 2.192801, "grad_norm": 0.34837088, "learning_rate": 0.00015887, "token_acc": 0.51627641, "epoch": 0.74716202, "global_step/max_steps": "1629/2181", "elapsed_time": "2h 18m 38s", "remaining_time": "46m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10592}
+{"loss": 2.31213284, "grad_norm": 0.34289253, "learning_rate": 0.00015832, "token_acc": 0.49769053, "epoch": 0.74762069, "global_step/max_steps": "1630/2181", "elapsed_time": "2h 18m 43s", "remaining_time": "46m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106039}
+{"loss": 2.34826469, "grad_norm": 0.35652846, "learning_rate": 0.00015778, "token_acc": 0.50027793, "epoch": 0.74807935, "global_step/max_steps": "1631/2181", "elapsed_time": "2h 18m 48s", "remaining_time": "46m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106091}
+{"loss": 2.39711809, "grad_norm": 0.33188587, "learning_rate": 0.00015724, "token_acc": 0.47788094, "epoch": 0.74853801, "global_step/max_steps": "1632/2181", "elapsed_time": "2h 18m 53s", "remaining_time": "46m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106042}
+{"loss": 2.41334963, "grad_norm": 0.33221501, "learning_rate": 0.0001567, "token_acc": 0.48241342, "epoch": 0.74899667, "global_step/max_steps": "1633/2181", "elapsed_time": "2h 18m 58s", "remaining_time": "46m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106095}
+{"loss": 2.40713882, "grad_norm": 0.32519495, "learning_rate": 0.00015616, "token_acc": 0.46783466, "epoch": 0.74945534, "global_step/max_steps": "1634/2181", "elapsed_time": "2h 19m 3s", "remaining_time": "46m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105927}
+{"loss": 2.4226675, "grad_norm": 0.3227993, "learning_rate": 0.00015562, "token_acc": 0.477255, "epoch": 0.749914, "global_step/max_steps": "1635/2181", "elapsed_time": "2h 19m 8s", "remaining_time": "46m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105657}
+{"loss": 2.33157396, "grad_norm": 0.33033901, "learning_rate": 0.00015508, "token_acc": 0.49709763, "epoch": 0.75037266, "global_step/max_steps": "1636/2181", "elapsed_time": "2h 19m 12s", "remaining_time": "46m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105348}
+{"loss": 2.32314539, "grad_norm": 0.32371798, "learning_rate": 0.00015455, "token_acc": 0.48866777, "epoch": 0.75083133, "global_step/max_steps": "1637/2181", "elapsed_time": "2h 19m 17s", "remaining_time": "46m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105204}
+{"loss": 2.44176126, "grad_norm": 0.33165434, "learning_rate": 0.00015401, "token_acc": 0.4853058, "epoch": 0.75128999, "global_step/max_steps": "1638/2181", "elapsed_time": "2h 19m 22s", "remaining_time": "46m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104971}
+{"loss": 2.29378939, "grad_norm": 0.3375518, "learning_rate": 0.00015347, "token_acc": 0.50127732, "epoch": 0.75174865, "global_step/max_steps": "1639/2181", "elapsed_time": "2h 19m 27s", "remaining_time": "46m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105044}
+{"loss": 2.4248445, "grad_norm": 0.34324011, "learning_rate": 0.00015294, "token_acc": 0.4713467, "epoch": 0.75220732, "global_step/max_steps": "1640/2181", "elapsed_time": "2h 19m 32s", "remaining_time": "46m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104822}
+{"loss": 2.28326941, "grad_norm": 0.31957862, "learning_rate": 0.0001524, "token_acc": 0.50539831, "epoch": 0.75266598, "global_step/max_steps": "1641/2181", "elapsed_time": "2h 19m 37s", "remaining_time": "45m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104839}
+{"loss": 2.19093847, "grad_norm": 0.34431118, "learning_rate": 0.00015187, "token_acc": 0.52455294, "epoch": 0.75312464, "global_step/max_steps": "1642/2181", "elapsed_time": "2h 19m 42s", "remaining_time": "45m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104733}
+{"loss": 2.34980297, "grad_norm": 0.34587148, "learning_rate": 0.00015134, "token_acc": 0.49334812, "epoch": 0.7535833, "global_step/max_steps": "1643/2181", "elapsed_time": "2h 19m 47s", "remaining_time": "45m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104814}
+{"loss": 2.29735041, "grad_norm": 0.33867815, "learning_rate": 0.00015081, "token_acc": 0.48797939, "epoch": 0.75404197, "global_step/max_steps": "1644/2181", "elapsed_time": "2h 19m 52s", "remaining_time": "45m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104652}
+{"loss": 2.29427719, "grad_norm": 0.35466564, "learning_rate": 0.00015027, "token_acc": 0.5083926, "epoch": 0.75450063, "global_step/max_steps": "1645/2181", "elapsed_time": "2h 19m 57s", "remaining_time": "45m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104642}
+{"loss": 2.41825056, "grad_norm": 0.35301673, "learning_rate": 0.00014974, "token_acc": 0.4848998, "epoch": 0.75495929, "global_step/max_steps": "1646/2181", "elapsed_time": "2h 20m 2s", "remaining_time": "45m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104366}
+{"loss": 2.35849142, "grad_norm": 0.336909, "learning_rate": 0.00014921, "token_acc": 0.48730684, "epoch": 0.75541796, "global_step/max_steps": "1647/2181", "elapsed_time": "2h 20m 7s", "remaining_time": "45m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104226}
+{"loss": 2.36361265, "grad_norm": 0.34276742, "learning_rate": 0.00014869, "token_acc": 0.48358125, "epoch": 0.75587662, "global_step/max_steps": "1648/2181", "elapsed_time": "2h 20m 12s", "remaining_time": "45m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10419}
+{"loss": 2.37724304, "grad_norm": 0.34863868, "learning_rate": 0.00014816, "token_acc": 0.48655392, "epoch": 0.75633528, "global_step/max_steps": "1649/2181", "elapsed_time": "2h 20m 17s", "remaining_time": "45m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104513}
+{"loss": 2.37467432, "grad_norm": 0.36686108, "learning_rate": 0.00014763, "token_acc": 0.47448394, "epoch": 0.75679395, "global_step/max_steps": "1650/2181", "elapsed_time": "2h 20m 23s", "remaining_time": "45m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104763}
+{"loss": 2.32008934, "grad_norm": 0.339746, "learning_rate": 0.0001471, "token_acc": 0.49790561, "epoch": 0.75725261, "global_step/max_steps": "1651/2181", "elapsed_time": "2h 20m 28s", "remaining_time": "45m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104719}
+{"loss": 2.32790494, "grad_norm": 0.35869884, "learning_rate": 0.00014658, "token_acc": 0.51212553, "epoch": 0.75771127, "global_step/max_steps": "1652/2181", "elapsed_time": "2h 20m 33s", "remaining_time": "45m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104455}
+{"loss": 2.33969164, "grad_norm": 0.33888218, "learning_rate": 0.00014605, "token_acc": 0.50389321, "epoch": 0.75816993, "global_step/max_steps": "1653/2181", "elapsed_time": "2h 20m 37s", "remaining_time": "44m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104275}
+{"loss": 2.43698645, "grad_norm": 0.33764392, "learning_rate": 0.00014553, "token_acc": 0.48389807, "epoch": 0.7586286, "global_step/max_steps": "1654/2181", "elapsed_time": "2h 20m 42s", "remaining_time": "44m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104186}
+{"loss": 2.30204248, "grad_norm": 0.32769927, "learning_rate": 0.00014501, "token_acc": 0.50568633, "epoch": 0.75908726, "global_step/max_steps": "1655/2181", "elapsed_time": "2h 20m 47s", "remaining_time": "44m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104016}
+{"loss": 2.29669094, "grad_norm": 0.33636221, "learning_rate": 0.00014448, "token_acc": 0.49840595, "epoch": 0.75954592, "global_step/max_steps": "1656/2181", "elapsed_time": "2h 20m 52s", "remaining_time": "44m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103927}
+{"loss": 2.28864384, "grad_norm": 0.35680065, "learning_rate": 0.00014396, "token_acc": 0.50665124, "epoch": 0.76000459, "global_step/max_steps": "1657/2181", "elapsed_time": "2h 20m 57s", "remaining_time": "44m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103679}
+{"loss": 2.28637266, "grad_norm": 0.34005752, "learning_rate": 0.00014344, "token_acc": 0.50585938, "epoch": 0.76046325, "global_step/max_steps": "1658/2181", "elapsed_time": "2h 21m 2s", "remaining_time": "44m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103551}
+{"loss": 2.29697943, "grad_norm": 0.34000975, "learning_rate": 0.00014292, "token_acc": 0.49733968, "epoch": 0.76092191, "global_step/max_steps": "1659/2181", "elapsed_time": "2h 21m 7s", "remaining_time": "44m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103666}
+{"loss": 2.34772325, "grad_norm": 0.32718265, "learning_rate": 0.0001424, "token_acc": 0.48610339, "epoch": 0.76138058, "global_step/max_steps": "1660/2181", "elapsed_time": "2h 21m 12s", "remaining_time": "44m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103569}
+{"loss": 2.36997008, "grad_norm": 0.35196707, "learning_rate": 0.00014188, "token_acc": 0.50319356, "epoch": 0.76183924, "global_step/max_steps": "1661/2181", "elapsed_time": "2h 21m 17s", "remaining_time": "44m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103305}
+{"loss": 2.35882378, "grad_norm": 0.33213905, "learning_rate": 0.00014136, "token_acc": 0.48623596, "epoch": 0.7622979, "global_step/max_steps": "1662/2181", "elapsed_time": "2h 21m 22s", "remaining_time": "44m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103198}
+{"loss": 2.33599377, "grad_norm": 0.34531084, "learning_rate": 0.00014085, "token_acc": 0.49904398, "epoch": 0.76275656, "global_step/max_steps": "1663/2181", "elapsed_time": "2h 21m 26s", "remaining_time": "44m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102916}
+{"loss": 2.29191256, "grad_norm": 0.33894023, "learning_rate": 0.00014033, "token_acc": 0.4983951, "epoch": 0.76321523, "global_step/max_steps": "1664/2181", "elapsed_time": "2h 21m 31s", "remaining_time": "43m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102936}
+{"loss": 2.34173965, "grad_norm": 0.3558661, "learning_rate": 0.00013981, "token_acc": 0.5037699, "epoch": 0.76367389, "global_step/max_steps": "1665/2181", "elapsed_time": "2h 21m 37s", "remaining_time": "43m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103147}
+{"loss": 2.38810539, "grad_norm": 0.35164067, "learning_rate": 0.0001393, "token_acc": 0.48619841, "epoch": 0.76413255, "global_step/max_steps": "1666/2181", "elapsed_time": "2h 21m 42s", "remaining_time": "43m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103009}
+{"loss": 2.38377619, "grad_norm": 0.34697735, "learning_rate": 0.00013879, "token_acc": 0.49479861, "epoch": 0.76459122, "global_step/max_steps": "1667/2181", "elapsed_time": "2h 21m 47s", "remaining_time": "43m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103028}
+{"loss": 2.20662069, "grad_norm": 0.33416718, "learning_rate": 0.00013827, "token_acc": 0.50298041, "epoch": 0.76504988, "global_step/max_steps": "1668/2181", "elapsed_time": "2h 21m 52s", "remaining_time": "43m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102986}
+{"loss": 2.34673691, "grad_norm": 0.35861349, "learning_rate": 0.00013776, "token_acc": 0.49384405, "epoch": 0.76550854, "global_step/max_steps": "1669/2181", "elapsed_time": "2h 21m 57s", "remaining_time": "43m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102874}
+{"loss": 2.36438799, "grad_norm": 0.36412379, "learning_rate": 0.00013725, "token_acc": 0.49796156, "epoch": 0.76596721, "global_step/max_steps": "1670/2181", "elapsed_time": "2h 22m 2s", "remaining_time": "43m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102984}
+{"loss": 2.38708735, "grad_norm": 0.36321101, "learning_rate": 0.00013674, "token_acc": 0.49051179, "epoch": 0.76642587, "global_step/max_steps": "1671/2181", "elapsed_time": "2h 22m 7s", "remaining_time": "43m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102868}
+{"loss": 2.29203033, "grad_norm": 0.33652312, "learning_rate": 0.00013623, "token_acc": 0.49064095, "epoch": 0.76688453, "global_step/max_steps": "1672/2181", "elapsed_time": "2h 22m 12s", "remaining_time": "43m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102922}
+{"loss": 2.33559799, "grad_norm": 0.34381652, "learning_rate": 0.00013572, "token_acc": 0.4835628, "epoch": 0.76734319, "global_step/max_steps": "1673/2181", "elapsed_time": "2h 22m 18s", "remaining_time": "43m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103291}
+{"loss": 2.3413868, "grad_norm": 0.34178439, "learning_rate": 0.00013521, "token_acc": 0.48765432, "epoch": 0.76780186, "global_step/max_steps": "1674/2181", "elapsed_time": "2h 22m 23s", "remaining_time": "43m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103327}
+{"loss": 2.28152752, "grad_norm": 0.33297041, "learning_rate": 0.0001347, "token_acc": 0.51146984, "epoch": 0.76826052, "global_step/max_steps": "1675/2181", "elapsed_time": "2h 22m 28s", "remaining_time": "43m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103218}
+{"loss": 2.29908347, "grad_norm": 0.35832757, "learning_rate": 0.0001342, "token_acc": 0.49572414, "epoch": 0.76871918, "global_step/max_steps": "1676/2181", "elapsed_time": "2h 22m 33s", "remaining_time": "42m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103341}
+{"loss": 2.50308728, "grad_norm": 0.34472758, "learning_rate": 0.00013369, "token_acc": 0.48016644, "epoch": 0.76917785, "global_step/max_steps": "1677/2181", "elapsed_time": "2h 22m 38s", "remaining_time": "42m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103235}
+{"loss": 2.38478756, "grad_norm": 0.34847033, "learning_rate": 0.00013319, "token_acc": 0.48520055, "epoch": 0.76963651, "global_step/max_steps": "1678/2181", "elapsed_time": "2h 22m 43s", "remaining_time": "42m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103232}
+{"loss": 2.2574296, "grad_norm": 0.35201094, "learning_rate": 0.00013268, "token_acc": 0.50421144, "epoch": 0.77009517, "global_step/max_steps": "1679/2181", "elapsed_time": "2h 22m 48s", "remaining_time": "42m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103177}
+{"loss": 2.32704234, "grad_norm": 0.34060395, "learning_rate": 0.00013218, "token_acc": 0.50458716, "epoch": 0.77055384, "global_step/max_steps": "1680/2181", "elapsed_time": "2h 22m 54s", "remaining_time": "42m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103427}
+{"loss": 2.4161675, "grad_norm": 0.34461993, "learning_rate": 0.00013168, "token_acc": 0.47717149, "epoch": 0.7710125, "global_step/max_steps": "1681/2181", "elapsed_time": "2h 22m 59s", "remaining_time": "42m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103401}
+{"loss": 2.37489486, "grad_norm": 0.34832227, "learning_rate": 0.00013117, "token_acc": 0.49168514, "epoch": 0.77147116, "global_step/max_steps": "1682/2181", "elapsed_time": "2h 23m 4s", "remaining_time": "42m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103326}
+{"loss": 2.27578425, "grad_norm": 0.32865644, "learning_rate": 0.00013067, "token_acc": 0.49526643, "epoch": 0.77192982, "global_step/max_steps": "1683/2181", "elapsed_time": "2h 23m 9s", "remaining_time": "42m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103178}
+{"loss": 2.39484262, "grad_norm": 0.36714777, "learning_rate": 0.00013017, "token_acc": 0.48520363, "epoch": 0.77238849, "global_step/max_steps": "1684/2181", "elapsed_time": "2h 23m 14s", "remaining_time": "42m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103043}
+{"loss": 2.34004641, "grad_norm": 0.33474153, "learning_rate": 0.00012967, "token_acc": 0.49204171, "epoch": 0.77284715, "global_step/max_steps": "1685/2181", "elapsed_time": "2h 23m 18s", "remaining_time": "42m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102931}
+{"loss": 2.35263705, "grad_norm": 0.34296331, "learning_rate": 0.00012917, "token_acc": 0.50300429, "epoch": 0.77330581, "global_step/max_steps": "1686/2181", "elapsed_time": "2h 23m 23s", "remaining_time": "42m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10265}
+{"loss": 2.28363299, "grad_norm": 0.34412897, "learning_rate": 0.00012868, "token_acc": 0.50084698, "epoch": 0.77376448, "global_step/max_steps": "1687/2181", "elapsed_time": "2h 23m 28s", "remaining_time": "42m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102663}
+{"loss": 2.41279602, "grad_norm": 0.34296438, "learning_rate": 0.00012818, "token_acc": 0.4781768, "epoch": 0.77422314, "global_step/max_steps": "1688/2181", "elapsed_time": "2h 23m 33s", "remaining_time": "41m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10249}
+{"loss": 2.31158376, "grad_norm": 0.33720404, "learning_rate": 0.00012768, "token_acc": 0.4980663, "epoch": 0.7746818, "global_step/max_steps": "1689/2181", "elapsed_time": "2h 23m 38s", "remaining_time": "41m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102453}
+{"loss": 2.3224225, "grad_norm": 0.34325859, "learning_rate": 0.00012719, "token_acc": 0.48609535, "epoch": 0.77514047, "global_step/max_steps": "1690/2181", "elapsed_time": "2h 23m 43s", "remaining_time": "41m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102312}
+{"loss": 2.33981323, "grad_norm": 0.34192076, "learning_rate": 0.00012669, "token_acc": 0.49014163, "epoch": 0.77559913, "global_step/max_steps": "1691/2181", "elapsed_time": "2h 23m 48s", "remaining_time": "41m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102167}
+{"loss": 2.35059547, "grad_norm": 0.35079804, "learning_rate": 0.0001262, "token_acc": 0.50056689, "epoch": 0.77605779, "global_step/max_steps": "1692/2181", "elapsed_time": "2h 23m 53s", "remaining_time": "41m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1021}
+{"loss": 2.41481733, "grad_norm": 0.34576896, "learning_rate": 0.00012571, "token_acc": 0.48616059, "epoch": 0.77651645, "global_step/max_steps": "1693/2181", "elapsed_time": "2h 23m 58s", "remaining_time": "41m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102241}
+{"loss": 2.34514332, "grad_norm": 0.34666145, "learning_rate": 0.00012521, "token_acc": 0.4931083, "epoch": 0.77697512, "global_step/max_steps": "1694/2181", "elapsed_time": "2h 24m 3s", "remaining_time": "41m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102133}
+{"loss": 2.41693211, "grad_norm": 0.35866958, "learning_rate": 0.00012472, "token_acc": 0.48406206, "epoch": 0.77743378, "global_step/max_steps": "1695/2181", "elapsed_time": "2h 24m 8s", "remaining_time": "41m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10207}
+{"loss": 2.38106298, "grad_norm": 0.34366477, "learning_rate": 0.00012423, "token_acc": 0.48920056, "epoch": 0.77789244, "global_step/max_steps": "1696/2181", "elapsed_time": "2h 24m 14s", "remaining_time": "41m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102439}
+{"loss": 2.25349569, "grad_norm": 0.32699057, "learning_rate": 0.00012374, "token_acc": 0.50700357, "epoch": 0.77835111, "global_step/max_steps": "1697/2181", "elapsed_time": "2h 24m 19s", "remaining_time": "41m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102661}
+{"loss": 2.31325626, "grad_norm": 0.36358744, "learning_rate": 0.00012325, "token_acc": 0.48971193, "epoch": 0.77880977, "global_step/max_steps": "1698/2181", "elapsed_time": "2h 24m 24s", "remaining_time": "41m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102605}
+{"loss": 2.42687511, "grad_norm": 0.35077953, "learning_rate": 0.00012277, "token_acc": 0.49361111, "epoch": 0.77926843, "global_step/max_steps": "1699/2181", "elapsed_time": "2h 24m 29s", "remaining_time": "40m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102555}
+{"loss": 2.37709975, "grad_norm": 0.3359808, "learning_rate": 0.00012228, "token_acc": 0.4906428, "epoch": 0.7797271, "global_step/max_steps": "1700/2181", "elapsed_time": "2h 24m 34s", "remaining_time": "40m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102516}
+{"loss": 2.44917846, "grad_norm": 0.34867474, "learning_rate": 0.00012179, "token_acc": 0.48500428, "epoch": 0.78018576, "global_step/max_steps": "1701/2181", "elapsed_time": "2h 24m 39s", "remaining_time": "40m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102433}
+{"loss": 2.38789916, "grad_norm": 0.33946413, "learning_rate": 0.00012131, "token_acc": 0.48739496, "epoch": 0.78064442, "global_step/max_steps": "1702/2181", "elapsed_time": "2h 24m 44s", "remaining_time": "40m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102455}
+{"loss": 2.3108964, "grad_norm": 0.32015288, "learning_rate": 0.00012082, "token_acc": 0.49347659, "epoch": 0.78110308, "global_step/max_steps": "1703/2181", "elapsed_time": "2h 24m 50s", "remaining_time": "40m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102484}
+{"loss": 2.34926701, "grad_norm": 0.33396804, "learning_rate": 0.00012034, "token_acc": 0.48826419, "epoch": 0.78156175, "global_step/max_steps": "1704/2181", "elapsed_time": "2h 24m 54s", "remaining_time": "40m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10233}
+{"loss": 2.28785539, "grad_norm": 0.3473016, "learning_rate": 0.00011986, "token_acc": 0.49942661, "epoch": 0.78202041, "global_step/max_steps": "1705/2181", "elapsed_time": "2h 24m 59s", "remaining_time": "40m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102212}
+{"loss": 2.3916831, "grad_norm": 0.34904787, "learning_rate": 0.00011938, "token_acc": 0.47880097, "epoch": 0.78247907, "global_step/max_steps": "1706/2181", "elapsed_time": "2h 25m 5s", "remaining_time": "40m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102351}
+{"loss": 2.36465406, "grad_norm": 0.34305242, "learning_rate": 0.00011889, "token_acc": 0.49052334, "epoch": 0.78293774, "global_step/max_steps": "1707/2181", "elapsed_time": "2h 25m 10s", "remaining_time": "40m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102228}
+{"loss": 2.35706568, "grad_norm": 0.34083793, "learning_rate": 0.00011841, "token_acc": 0.49571673, "epoch": 0.7833964, "global_step/max_steps": "1708/2181", "elapsed_time": "2h 25m 14s", "remaining_time": "40m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10204}
+{"loss": 2.39884067, "grad_norm": 0.35375866, "learning_rate": 0.00011793, "token_acc": 0.48347924, "epoch": 0.78385506, "global_step/max_steps": "1709/2181", "elapsed_time": "2h 25m 19s", "remaining_time": "40m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10173}
+{"loss": 2.31356192, "grad_norm": 0.34956881, "learning_rate": 0.00011746, "token_acc": 0.50613915, "epoch": 0.78431373, "global_step/max_steps": "1710/2181", "elapsed_time": "2h 25m 24s", "remaining_time": "40m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101602}
+{"loss": 2.24431038, "grad_norm": 0.34177339, "learning_rate": 0.00011698, "token_acc": 0.51260039, "epoch": 0.78477239, "global_step/max_steps": "1711/2181", "elapsed_time": "2h 25m 29s", "remaining_time": "39m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101591}
+{"loss": 2.2462368, "grad_norm": 0.34329483, "learning_rate": 0.0001165, "token_acc": 0.5015299, "epoch": 0.78523105, "global_step/max_steps": "1712/2181", "elapsed_time": "2h 25m 34s", "remaining_time": "39m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101596}
+{"loss": 2.32120299, "grad_norm": 0.34837252, "learning_rate": 0.00011602, "token_acc": 0.48990043, "epoch": 0.78568971, "global_step/max_steps": "1713/2181", "elapsed_time": "2h 25m 39s", "remaining_time": "39m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101481}
+{"loss": 2.41404867, "grad_norm": 0.37197801, "learning_rate": 0.00011555, "token_acc": 0.4816237, "epoch": 0.78614838, "global_step/max_steps": "1714/2181", "elapsed_time": "2h 25m 44s", "remaining_time": "39m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101668}
+{"loss": 2.25292826, "grad_norm": 0.34764266, "learning_rate": 0.00011507, "token_acc": 0.4988617, "epoch": 0.78660704, "global_step/max_steps": "1715/2181", "elapsed_time": "2h 25m 49s", "remaining_time": "39m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101748}
+{"loss": 2.35411143, "grad_norm": 0.35995096, "learning_rate": 0.0001146, "token_acc": 0.49056604, "epoch": 0.7870657, "global_step/max_steps": "1716/2181", "elapsed_time": "2h 25m 55s", "remaining_time": "39m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101744}
+{"loss": 2.47075915, "grad_norm": 0.33896676, "learning_rate": 0.00011413, "token_acc": 0.46958175, "epoch": 0.78752437, "global_step/max_steps": "1717/2181", "elapsed_time": "2h 25m 60s", "remaining_time": "39m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10179}
+{"loss": 2.30121136, "grad_norm": 0.34869552, "learning_rate": 0.00011366, "token_acc": 0.50477016, "epoch": 0.78798303, "global_step/max_steps": "1718/2181", "elapsed_time": "2h 26m 5s", "remaining_time": "39m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10199}
+{"loss": 2.47298908, "grad_norm": 0.34155029, "learning_rate": 0.00011319, "token_acc": 0.47101049, "epoch": 0.78844169, "global_step/max_steps": "1719/2181", "elapsed_time": "2h 26m 11s", "remaining_time": "39m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10218}
+{"loss": 2.39277506, "grad_norm": 0.34041545, "learning_rate": 0.00011272, "token_acc": 0.48413344, "epoch": 0.78890036, "global_step/max_steps": "1720/2181", "elapsed_time": "2h 26m 16s", "remaining_time": "39m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102067}
+{"loss": 2.41894078, "grad_norm": 0.33902794, "learning_rate": 0.00011225, "token_acc": 0.47598989, "epoch": 0.78935902, "global_step/max_steps": "1721/2181", "elapsed_time": "2h 26m 20s", "remaining_time": "39m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101863}
+{"loss": 2.4020009, "grad_norm": 0.34431556, "learning_rate": 0.00011178, "token_acc": 0.49222374, "epoch": 0.78981768, "global_step/max_steps": "1722/2181", "elapsed_time": "2h 26m 25s", "remaining_time": "39m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101722}
+{"loss": 2.2933929, "grad_norm": 0.35444134, "learning_rate": 0.00011131, "token_acc": 0.50718264, "epoch": 0.79027634, "global_step/max_steps": "1723/2181", "elapsed_time": "2h 26m 30s", "remaining_time": "38m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101798}
+{"loss": 2.36343217, "grad_norm": 0.34241766, "learning_rate": 0.00011084, "token_acc": 0.48504622, "epoch": 0.79073501, "global_step/max_steps": "1724/2181", "elapsed_time": "2h 26m 35s", "remaining_time": "38m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101603}
+{"loss": 2.34764671, "grad_norm": 0.3441799, "learning_rate": 0.00011038, "token_acc": 0.48468671, "epoch": 0.79119367, "global_step/max_steps": "1725/2181", "elapsed_time": "2h 26m 40s", "remaining_time": "38m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101549}
+{"loss": 2.21189499, "grad_norm": 0.34411645, "learning_rate": 0.00010991, "token_acc": 0.50453258, "epoch": 0.79165233, "global_step/max_steps": "1726/2181", "elapsed_time": "2h 26m 45s", "remaining_time": "38m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101562}
+{"loss": 2.35984921, "grad_norm": 0.35795572, "learning_rate": 0.00010945, "token_acc": 0.48921266, "epoch": 0.792111, "global_step/max_steps": "1727/2181", "elapsed_time": "2h 26m 51s", "remaining_time": "38m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101818}
+{"loss": 2.21109986, "grad_norm": 0.34293675, "learning_rate": 0.00010899, "token_acc": 0.5150365, "epoch": 0.79256966, "global_step/max_steps": "1728/2181", "elapsed_time": "2h 26m 56s", "remaining_time": "38m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101827}
+{"loss": 2.42743015, "grad_norm": 0.35162336, "learning_rate": 0.00010852, "token_acc": 0.48543689, "epoch": 0.79302832, "global_step/max_steps": "1729/2181", "elapsed_time": "2h 27m 1s", "remaining_time": "38m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101922}
+{"loss": 2.3866272, "grad_norm": 0.34597942, "learning_rate": 0.00010806, "token_acc": 0.49475772, "epoch": 0.79348699, "global_step/max_steps": "1730/2181", "elapsed_time": "2h 27m 6s", "remaining_time": "38m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101853}
+{"loss": 2.35480428, "grad_norm": 0.34579885, "learning_rate": 0.0001076, "token_acc": 0.49616858, "epoch": 0.79394565, "global_step/max_steps": "1731/2181", "elapsed_time": "2h 27m 11s", "remaining_time": "38m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101802}
+{"loss": 2.28223658, "grad_norm": 0.34032479, "learning_rate": 0.00010714, "token_acc": 0.51032366, "epoch": 0.79440431, "global_step/max_steps": "1732/2181", "elapsed_time": "2h 27m 17s", "remaining_time": "38m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101921}
+{"loss": 2.25742006, "grad_norm": 0.34428623, "learning_rate": 0.00010668, "token_acc": 0.49806416, "epoch": 0.79486297, "global_step/max_steps": "1733/2181", "elapsed_time": "2h 27m 22s", "remaining_time": "38m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101888}
+{"loss": 2.43697548, "grad_norm": 0.34818327, "learning_rate": 0.00010622, "token_acc": 0.47637685, "epoch": 0.79532164, "global_step/max_steps": "1734/2181", "elapsed_time": "2h 27m 27s", "remaining_time": "38m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102075}
+{"loss": 2.3130939, "grad_norm": 0.34758955, "learning_rate": 0.00010577, "token_acc": 0.48603989, "epoch": 0.7957803, "global_step/max_steps": "1735/2181", "elapsed_time": "2h 27m 32s", "remaining_time": "37m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101941}
+{"loss": 2.31493759, "grad_norm": 0.35387471, "learning_rate": 0.00010531, "token_acc": 0.49365629, "epoch": 0.79623896, "global_step/max_steps": "1736/2181", "elapsed_time": "2h 27m 37s", "remaining_time": "37m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102044}
+{"loss": 2.37262344, "grad_norm": 0.35258433, "learning_rate": 0.00010485, "token_acc": 0.48789414, "epoch": 0.79669763, "global_step/max_steps": "1737/2181", "elapsed_time": "2h 27m 42s", "remaining_time": "37m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102002}
+{"loss": 2.3538537, "grad_norm": 0.33150741, "learning_rate": 0.0001044, "token_acc": 0.48958623, "epoch": 0.79715629, "global_step/max_steps": "1738/2181", "elapsed_time": "2h 27m 47s", "remaining_time": "37m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101992}
+{"loss": 2.27185082, "grad_norm": 0.34124288, "learning_rate": 0.00010395, "token_acc": 0.50187699, "epoch": 0.79761495, "global_step/max_steps": "1739/2181", "elapsed_time": "2h 27m 52s", "remaining_time": "37m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101999}
+{"loss": 2.34607935, "grad_norm": 0.33889574, "learning_rate": 0.00010349, "token_acc": 0.50108578, "epoch": 0.79807362, "global_step/max_steps": "1740/2181", "elapsed_time": "2h 27m 57s", "remaining_time": "37m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10176}
+{"loss": 2.274014, "grad_norm": 0.3435697, "learning_rate": 0.00010304, "token_acc": 0.49632853, "epoch": 0.79853228, "global_step/max_steps": "1741/2181", "elapsed_time": "2h 28m 2s", "remaining_time": "37m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101851}
+{"loss": 2.24887323, "grad_norm": 0.34700388, "learning_rate": 0.00010259, "token_acc": 0.50407876, "epoch": 0.79899094, "global_step/max_steps": "1742/2181", "elapsed_time": "2h 28m 7s", "remaining_time": "37m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101858}
+{"loss": 2.31978273, "grad_norm": 0.36148402, "learning_rate": 0.00010214, "token_acc": 0.5, "epoch": 0.7994496, "global_step/max_steps": "1743/2181", "elapsed_time": "2h 28m 13s", "remaining_time": "37m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102209}
+{"loss": 2.30668879, "grad_norm": 0.34262708, "learning_rate": 0.00010169, "token_acc": 0.48982516, "epoch": 0.79990827, "global_step/max_steps": "1744/2181", "elapsed_time": "2h 28m 18s", "remaining_time": "37m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.102105}
+{"loss": 2.32167482, "grad_norm": 0.33930364, "learning_rate": 0.00010124, "token_acc": 0.50490326, "epoch": 0.80036693, "global_step/max_steps": "1745/2181", "elapsed_time": "2h 28m 23s", "remaining_time": "37m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101893}
+{"loss": 2.41940331, "grad_norm": 0.33523467, "learning_rate": 0.00010079, "token_acc": 0.48152145, "epoch": 0.80082559, "global_step/max_steps": "1746/2181", "elapsed_time": "2h 28m 28s", "remaining_time": "36m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101848}
+{"loss": 2.30949879, "grad_norm": 0.35175869, "learning_rate": 0.00010035, "token_acc": 0.4896041, "epoch": 0.80128426, "global_step/max_steps": "1747/2181", "elapsed_time": "2h 28m 33s", "remaining_time": "36m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101782}
+{"loss": 2.4074645, "grad_norm": 0.33978009, "learning_rate": 9.99e-05, "token_acc": 0.48476454, "epoch": 0.80174292, "global_step/max_steps": "1748/2181", "elapsed_time": "2h 28m 38s", "remaining_time": "36m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10198}
+{"loss": 2.29247808, "grad_norm": 0.33755776, "learning_rate": 9.946e-05, "token_acc": 0.50081522, "epoch": 0.80220158, "global_step/max_steps": "1749/2181", "elapsed_time": "2h 28m 43s", "remaining_time": "36m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101977}
+{"loss": 2.26488781, "grad_norm": 0.3428143, "learning_rate": 9.901e-05, "token_acc": 0.50620767, "epoch": 0.80266025, "global_step/max_steps": "1750/2181", "elapsed_time": "2h 28m 48s", "remaining_time": "36m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101956}
+{"loss": 2.31247568, "grad_norm": 0.33685178, "learning_rate": 9.857e-05, "token_acc": 0.49595988, "epoch": 0.80311891, "global_step/max_steps": "1751/2181", "elapsed_time": "2h 28m 53s", "remaining_time": "36m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101852}
+{"loss": 2.34260225, "grad_norm": 0.35408881, "learning_rate": 9.813e-05, "token_acc": 0.50620417, "epoch": 0.80357757, "global_step/max_steps": "1752/2181", "elapsed_time": "2h 28m 58s", "remaining_time": "36m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1018}
+{"loss": 2.49954915, "grad_norm": 0.3365427, "learning_rate": 9.769e-05, "token_acc": 0.47060447, "epoch": 0.80403623, "global_step/max_steps": "1753/2181", "elapsed_time": "2h 29m 3s", "remaining_time": "36m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101641}
+{"loss": 2.25926423, "grad_norm": 0.35820371, "learning_rate": 9.724e-05, "token_acc": 0.50654308, "epoch": 0.8044949, "global_step/max_steps": "1754/2181", "elapsed_time": "2h 29m 8s", "remaining_time": "36m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101509}
+{"loss": 2.20064688, "grad_norm": 0.36263818, "learning_rate": 9.681e-05, "token_acc": 0.5034216, "epoch": 0.80495356, "global_step/max_steps": "1755/2181", "elapsed_time": "2h 29m 13s", "remaining_time": "36m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10138}
+{"loss": 2.2219286, "grad_norm": 0.34863487, "learning_rate": 9.637e-05, "token_acc": 0.51392758, "epoch": 0.80541222, "global_step/max_steps": "1756/2181", "elapsed_time": "2h 29m 18s", "remaining_time": "36m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101339}
+{"loss": 2.39208031, "grad_norm": 0.35480583, "learning_rate": 9.593e-05, "token_acc": 0.49664054, "epoch": 0.80587089, "global_step/max_steps": "1757/2181", "elapsed_time": "2h 29m 23s", "remaining_time": "36m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101255}
+{"loss": 2.40256786, "grad_norm": 0.3416326, "learning_rate": 9.549e-05, "token_acc": 0.47827283, "epoch": 0.80632955, "global_step/max_steps": "1758/2181", "elapsed_time": "2h 29m 28s", "remaining_time": "35m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101032}
+{"loss": 2.31337118, "grad_norm": 0.35458869, "learning_rate": 9.506e-05, "token_acc": 0.49603933, "epoch": 0.80678821, "global_step/max_steps": "1759/2181", "elapsed_time": "2h 29m 32s", "remaining_time": "35m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100817}
+{"loss": 2.32783794, "grad_norm": 0.35544851, "learning_rate": 9.462e-05, "token_acc": 0.49234197, "epoch": 0.80724688, "global_step/max_steps": "1760/2181", "elapsed_time": "2h 29m 37s", "remaining_time": "35m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100658}
+{"loss": 2.30844021, "grad_norm": 0.3465943, "learning_rate": 9.419e-05, "token_acc": 0.50242788, "epoch": 0.80770554, "global_step/max_steps": "1761/2181", "elapsed_time": "2h 29m 42s", "remaining_time": "35m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100502}
+{"loss": 2.41094255, "grad_norm": 0.34321827, "learning_rate": 9.375e-05, "token_acc": 0.48739263, "epoch": 0.8081642, "global_step/max_steps": "1762/2181", "elapsed_time": "2h 29m 47s", "remaining_time": "35m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100476}
+{"loss": 2.44441891, "grad_norm": 0.32232258, "learning_rate": 9.332e-05, "token_acc": 0.48368363, "epoch": 0.80862286, "global_step/max_steps": "1763/2181", "elapsed_time": "2h 29m 52s", "remaining_time": "35m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100543}
+{"loss": 2.37303805, "grad_norm": 0.34003413, "learning_rate": 9.289e-05, "token_acc": 0.48806515, "epoch": 0.80908153, "global_step/max_steps": "1764/2181", "elapsed_time": "2h 29m 58s", "remaining_time": "35m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100747}
+{"loss": 2.3000555, "grad_norm": 0.36031097, "learning_rate": 9.246e-05, "token_acc": 0.48789414, "epoch": 0.80954019, "global_step/max_steps": "1765/2181", "elapsed_time": "2h 30m 3s", "remaining_time": "35m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100759}
+{"loss": 2.21628499, "grad_norm": 0.33209577, "learning_rate": 9.203e-05, "token_acc": 0.50981524, "epoch": 0.80999885, "global_step/max_steps": "1766/2181", "elapsed_time": "2h 30m 8s", "remaining_time": "35m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100651}
+{"loss": 2.37639046, "grad_norm": 0.34907469, "learning_rate": 9.16e-05, "token_acc": 0.47823707, "epoch": 0.81045752, "global_step/max_steps": "1767/2181", "elapsed_time": "2h 30m 13s", "remaining_time": "35m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10064}
+{"loss": 2.37269783, "grad_norm": 0.35101143, "learning_rate": 9.117e-05, "token_acc": 0.48896956, "epoch": 0.81091618, "global_step/max_steps": "1768/2181", "elapsed_time": "2h 30m 18s", "remaining_time": "35m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100671}
+{"loss": 2.41832781, "grad_norm": 0.35184824, "learning_rate": 9.074e-05, "token_acc": 0.47458093, "epoch": 0.81137484, "global_step/max_steps": "1769/2181", "elapsed_time": "2h 30m 23s", "remaining_time": "35m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10052}
+{"loss": 2.3276825, "grad_norm": 0.33280948, "learning_rate": 9.032e-05, "token_acc": 0.49344043, "epoch": 0.81183351, "global_step/max_steps": "1770/2181", "elapsed_time": "2h 30m 28s", "remaining_time": "34m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100682}
+{"loss": 2.30577421, "grad_norm": 0.33794856, "learning_rate": 8.989e-05, "token_acc": 0.50292072, "epoch": 0.81229217, "global_step/max_steps": "1771/2181", "elapsed_time": "2h 30m 33s", "remaining_time": "34m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100489}
+{"loss": 2.33042479, "grad_norm": 0.35787436, "learning_rate": 8.947e-05, "token_acc": 0.49603066, "epoch": 0.81275083, "global_step/max_steps": "1772/2181", "elapsed_time": "2h 30m 38s", "remaining_time": "34m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100544}
+{"loss": 2.3055439, "grad_norm": 0.35157409, "learning_rate": 8.904e-05, "token_acc": 0.49390071, "epoch": 0.81320949, "global_step/max_steps": "1773/2181", "elapsed_time": "2h 30m 43s", "remaining_time": "34m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100638}
+{"loss": 2.37193537, "grad_norm": 0.34503499, "learning_rate": 8.862e-05, "token_acc": 0.48676512, "epoch": 0.81366816, "global_step/max_steps": "1774/2181", "elapsed_time": "2h 30m 49s", "remaining_time": "34m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100623}
+{"loss": 2.27617335, "grad_norm": 0.34058043, "learning_rate": 8.82e-05, "token_acc": 0.49605657, "epoch": 0.81412682, "global_step/max_steps": "1775/2181", "elapsed_time": "2h 30m 54s", "remaining_time": "34m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100765}
+{"loss": 2.43908978, "grad_norm": 0.35821387, "learning_rate": 8.778e-05, "token_acc": 0.47804878, "epoch": 0.81458548, "global_step/max_steps": "1776/2181", "elapsed_time": "2h 30m 59s", "remaining_time": "34m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10066}
+{"loss": 2.35982871, "grad_norm": 0.35916796, "learning_rate": 8.736e-05, "token_acc": 0.49114145, "epoch": 0.81504415, "global_step/max_steps": "1777/2181", "elapsed_time": "2h 31m 4s", "remaining_time": "34m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1007}
+{"loss": 2.35312462, "grad_norm": 0.33376831, "learning_rate": 8.694e-05, "token_acc": 0.4771615, "epoch": 0.81550281, "global_step/max_steps": "1778/2181", "elapsed_time": "2h 31m 9s", "remaining_time": "34m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100729}
+{"loss": 2.25793409, "grad_norm": 0.33782202, "learning_rate": 8.652e-05, "token_acc": 0.50152735, "epoch": 0.81596147, "global_step/max_steps": "1779/2181", "elapsed_time": "2h 31m 15s", "remaining_time": "34m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101032}
+{"loss": 2.44773197, "grad_norm": 0.35947162, "learning_rate": 8.611e-05, "token_acc": 0.48177311, "epoch": 0.81642014, "global_step/max_steps": "1780/2181", "elapsed_time": "2h 31m 20s", "remaining_time": "34m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101039}
+{"loss": 2.27591395, "grad_norm": 0.31936124, "learning_rate": 8.569e-05, "token_acc": 0.49525617, "epoch": 0.8168788, "global_step/max_steps": "1781/2181", "elapsed_time": "2h 31m 25s", "remaining_time": "34m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101211}
+{"loss": 2.42455339, "grad_norm": 0.33948314, "learning_rate": 8.527e-05, "token_acc": 0.4979768, "epoch": 0.81733746, "global_step/max_steps": "1782/2181", "elapsed_time": "2h 31m 31s", "remaining_time": "33m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101466}
+{"loss": 2.35550761, "grad_norm": 0.35580885, "learning_rate": 8.486e-05, "token_acc": 0.49395218, "epoch": 0.81779612, "global_step/max_steps": "1783/2181", "elapsed_time": "2h 31m 36s", "remaining_time": "33m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10137}
+{"loss": 2.34097147, "grad_norm": 0.35438275, "learning_rate": 8.445e-05, "token_acc": 0.48857834, "epoch": 0.81825479, "global_step/max_steps": "1784/2181", "elapsed_time": "2h 31m 41s", "remaining_time": "33m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101422}
+{"loss": 2.24202967, "grad_norm": 0.33170837, "learning_rate": 8.403e-05, "token_acc": 0.50497238, "epoch": 0.81871345, "global_step/max_steps": "1785/2181", "elapsed_time": "2h 31m 46s", "remaining_time": "33m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101476}
+{"loss": 2.34135652, "grad_norm": 0.33907109, "learning_rate": 8.362e-05, "token_acc": 0.49663677, "epoch": 0.81917211, "global_step/max_steps": "1786/2181", "elapsed_time": "2h 31m 51s", "remaining_time": "33m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101382}
+{"loss": 2.37620115, "grad_norm": 0.34244084, "learning_rate": 8.321e-05, "token_acc": 0.4915059, "epoch": 0.81963078, "global_step/max_steps": "1787/2181", "elapsed_time": "2h 31m 56s", "remaining_time": "33m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101344}
+{"loss": 2.23085737, "grad_norm": 0.34307608, "learning_rate": 8.28e-05, "token_acc": 0.50723056, "epoch": 0.82008944, "global_step/max_steps": "1788/2181", "elapsed_time": "2h 32m 1s", "remaining_time": "33m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101085}
+{"loss": 2.32938051, "grad_norm": 0.33436817, "learning_rate": 8.239e-05, "token_acc": 0.49440459, "epoch": 0.8205481, "global_step/max_steps": "1789/2181", "elapsed_time": "2h 32m 6s", "remaining_time": "33m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101059}
+{"loss": 2.3317523, "grad_norm": 0.34022, "learning_rate": 8.198e-05, "token_acc": 0.49336028, "epoch": 0.82100677, "global_step/max_steps": "1790/2181", "elapsed_time": "2h 32m 11s", "remaining_time": "33m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100933}
+{"loss": 2.36127424, "grad_norm": 0.35022068, "learning_rate": 8.158e-05, "token_acc": 0.49267193, "epoch": 0.82146543, "global_step/max_steps": "1791/2181", "elapsed_time": "2h 32m 15s", "remaining_time": "33m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100771}
+{"loss": 2.36292982, "grad_norm": 0.34649706, "learning_rate": 8.117e-05, "token_acc": 0.49233343, "epoch": 0.82192409, "global_step/max_steps": "1792/2181", "elapsed_time": "2h 32m 21s", "remaining_time": "33m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100878}
+{"loss": 2.28714752, "grad_norm": 0.34187514, "learning_rate": 8.077e-05, "token_acc": 0.49032442, "epoch": 0.82238275, "global_step/max_steps": "1793/2181", "elapsed_time": "2h 32m 26s", "remaining_time": "32m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100865}
+{"loss": 2.34347725, "grad_norm": 0.34028307, "learning_rate": 8.036e-05, "token_acc": 0.49188446, "epoch": 0.82284142, "global_step/max_steps": "1794/2181", "elapsed_time": "2h 32m 31s", "remaining_time": "32m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.101068}
+{"loss": 2.31865788, "grad_norm": 0.34092131, "learning_rate": 7.996e-05, "token_acc": 0.49315068, "epoch": 0.82330008, "global_step/max_steps": "1795/2181", "elapsed_time": "2h 32m 36s", "remaining_time": "32m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100852}
+{"loss": 2.42889357, "grad_norm": 0.36033902, "learning_rate": 7.956e-05, "token_acc": 0.48214286, "epoch": 0.82375874, "global_step/max_steps": "1796/2181", "elapsed_time": "2h 32m 41s", "remaining_time": "32m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100896}
+{"loss": 2.29745197, "grad_norm": 0.33327365, "learning_rate": 7.915e-05, "token_acc": 0.49874826, "epoch": 0.82421741, "global_step/max_steps": "1797/2181", "elapsed_time": "2h 32m 46s", "remaining_time": "32m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100641}
+{"loss": 2.35401249, "grad_norm": 0.34232065, "learning_rate": 7.875e-05, "token_acc": 0.48866777, "epoch": 0.82467607, "global_step/max_steps": "1798/2181", "elapsed_time": "2h 32m 51s", "remaining_time": "32m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100557}
+{"loss": 2.39192533, "grad_norm": 0.34872034, "learning_rate": 7.835e-05, "token_acc": 0.48424544, "epoch": 0.82513473, "global_step/max_steps": "1799/2181", "elapsed_time": "2h 32m 56s", "remaining_time": "32m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10056}
+{"loss": 2.26674509, "grad_norm": 0.34980407, "learning_rate": 7.796e-05, "token_acc": 0.50895742, "epoch": 0.8255934, "global_step/max_steps": "1800/2181", "elapsed_time": "2h 33m 1s", "remaining_time": "32m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100603}
+{"loss": 2.40084839, "grad_norm": 0.33370414, "learning_rate": 7.756e-05, "token_acc": 0.48549742, "epoch": 0.82605206, "global_step/max_steps": "1801/2181", "elapsed_time": "2h 33m 6s", "remaining_time": "32m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100491}
+{"loss": 2.40173292, "grad_norm": 0.36304578, "learning_rate": 7.716e-05, "token_acc": 0.48444811, "epoch": 0.82651072, "global_step/max_steps": "1802/2181", "elapsed_time": "2h 33m 11s", "remaining_time": "32m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100504}
+{"loss": 2.41909361, "grad_norm": 0.34879288, "learning_rate": 7.676e-05, "token_acc": 0.4818473, "epoch": 0.82696938, "global_step/max_steps": "1803/2181", "elapsed_time": "2h 33m 16s", "remaining_time": "32m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100383}
+{"loss": 2.43330097, "grad_norm": 0.3650189, "learning_rate": 7.637e-05, "token_acc": 0.48029851, "epoch": 0.82742805, "global_step/max_steps": "1804/2181", "elapsed_time": "2h 33m 21s", "remaining_time": "32m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100345}
+{"loss": 2.32989597, "grad_norm": 0.34348914, "learning_rate": 7.598e-05, "token_acc": 0.48961593, "epoch": 0.82788671, "global_step/max_steps": "1805/2181", "elapsed_time": "2h 33m 26s", "remaining_time": "31m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100356}
+{"loss": 2.24614716, "grad_norm": 0.33230916, "learning_rate": 7.558e-05, "token_acc": 0.50724226, "epoch": 0.82834537, "global_step/max_steps": "1806/2181", "elapsed_time": "2h 33m 31s", "remaining_time": "31m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100177}
+{"loss": 2.28572226, "grad_norm": 0.34505638, "learning_rate": 7.519e-05, "token_acc": 0.49399563, "epoch": 0.82880404, "global_step/max_steps": "1807/2181", "elapsed_time": "2h 33m 36s", "remaining_time": "31m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100274}
+{"loss": 2.26076889, "grad_norm": 0.33876374, "learning_rate": 7.48e-05, "token_acc": 0.50329041, "epoch": 0.8292627, "global_step/max_steps": "1808/2181", "elapsed_time": "2h 33m 41s", "remaining_time": "31m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100185}
+{"loss": 2.39640427, "grad_norm": 0.33623597, "learning_rate": 7.441e-05, "token_acc": 0.48954558, "epoch": 0.82972136, "global_step/max_steps": "1809/2181", "elapsed_time": "2h 33m 47s", "remaining_time": "31m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100454}
+{"loss": 2.29229736, "grad_norm": 0.32811683, "learning_rate": 7.402e-05, "token_acc": 0.507287, "epoch": 0.83018003, "global_step/max_steps": "1810/2181", "elapsed_time": "2h 33m 52s", "remaining_time": "31m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100566}
+{"loss": 2.20878935, "grad_norm": 0.36723441, "learning_rate": 7.363e-05, "token_acc": 0.51684423, "epoch": 0.83063869, "global_step/max_steps": "1811/2181", "elapsed_time": "2h 33m 57s", "remaining_time": "31m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10048}
+{"loss": 2.33678389, "grad_norm": 0.35072678, "learning_rate": 7.324e-05, "token_acc": 0.49372735, "epoch": 0.83109735, "global_step/max_steps": "1812/2181", "elapsed_time": "2h 34m 2s", "remaining_time": "31m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100381}
+{"loss": 2.42392182, "grad_norm": 0.36952627, "learning_rate": 7.286e-05, "token_acc": 0.47554806, "epoch": 0.83155601, "global_step/max_steps": "1813/2181", "elapsed_time": "2h 34m 7s", "remaining_time": "31m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100253}
+{"loss": 2.33662605, "grad_norm": 0.33562231, "learning_rate": 7.247e-05, "token_acc": 0.48610729, "epoch": 0.83201468, "global_step/max_steps": "1814/2181", "elapsed_time": "2h 34m 12s", "remaining_time": "31m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100151}
+{"loss": 2.24225855, "grad_norm": 0.3390519, "learning_rate": 7.209e-05, "token_acc": 0.51310228, "epoch": 0.83247334, "global_step/max_steps": "1815/2181", "elapsed_time": "2h 34m 17s", "remaining_time": "31m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100066}
+{"loss": 2.23815656, "grad_norm": 0.3548142, "learning_rate": 7.17e-05, "token_acc": 0.51281321, "epoch": 0.832932, "global_step/max_steps": "1816/2181", "elapsed_time": "2h 34m 22s", "remaining_time": "31m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100337}
+{"loss": 2.22287416, "grad_norm": 0.32230163, "learning_rate": 7.132e-05, "token_acc": 0.51708808, "epoch": 0.83339067, "global_step/max_steps": "1817/2181", "elapsed_time": "2h 34m 27s", "remaining_time": "30m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100267}
+{"loss": 2.35938811, "grad_norm": 0.35030127, "learning_rate": 7.094e-05, "token_acc": 0.49985783, "epoch": 0.83384933, "global_step/max_steps": "1818/2181", "elapsed_time": "2h 34m 33s", "remaining_time": "30m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100542}
+{"loss": 2.23290014, "grad_norm": 0.33856189, "learning_rate": 7.056e-05, "token_acc": 0.51102428, "epoch": 0.83430799, "global_step/max_steps": "1819/2181", "elapsed_time": "2h 34m 38s", "remaining_time": "30m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100471}
+{"loss": 2.28949261, "grad_norm": 0.34818098, "learning_rate": 7.018e-05, "token_acc": 0.49709704, "epoch": 0.83476666, "global_step/max_steps": "1820/2181", "elapsed_time": "2h 34m 43s", "remaining_time": "30m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100431}
+{"loss": 2.26102281, "grad_norm": 0.35232019, "learning_rate": 6.98e-05, "token_acc": 0.51557992, "epoch": 0.83522532, "global_step/max_steps": "1821/2181", "elapsed_time": "2h 34m 48s", "remaining_time": "30m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100369}
+{"loss": 2.33828878, "grad_norm": 0.35250655, "learning_rate": 6.942e-05, "token_acc": 0.47894138, "epoch": 0.83568398, "global_step/max_steps": "1822/2181", "elapsed_time": "2h 34m 53s", "remaining_time": "30m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100395}
+{"loss": 2.26543117, "grad_norm": 0.36403662, "learning_rate": 6.904e-05, "token_acc": 0.5015873, "epoch": 0.83614264, "global_step/max_steps": "1823/2181", "elapsed_time": "2h 34m 58s", "remaining_time": "30m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100363}
+{"loss": 2.4645443, "grad_norm": 0.35429323, "learning_rate": 6.867e-05, "token_acc": 0.4729915, "epoch": 0.83660131, "global_step/max_steps": "1824/2181", "elapsed_time": "2h 35m 3s", "remaining_time": "30m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100323}
+{"loss": 2.32457972, "grad_norm": 0.33284679, "learning_rate": 6.829e-05, "token_acc": 0.48559671, "epoch": 0.83705997, "global_step/max_steps": "1825/2181", "elapsed_time": "2h 35m 8s", "remaining_time": "30m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10034}
+{"loss": 2.40713763, "grad_norm": 0.34779957, "learning_rate": 6.792e-05, "token_acc": 0.48557827, "epoch": 0.83751863, "global_step/max_steps": "1826/2181", "elapsed_time": "2h 35m 13s", "remaining_time": "30m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100234}
+{"loss": 2.4133997, "grad_norm": 0.35213301, "learning_rate": 6.755e-05, "token_acc": 0.47759932, "epoch": 0.8379773, "global_step/max_steps": "1827/2181", "elapsed_time": "2h 35m 18s", "remaining_time": "30m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100434}
+{"loss": 2.22506905, "grad_norm": 0.31984887, "learning_rate": 6.717e-05, "token_acc": 0.51483279, "epoch": 0.83843596, "global_step/max_steps": "1828/2181", "elapsed_time": "2h 35m 23s", "remaining_time": "30m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100279}
+{"loss": 2.37457943, "grad_norm": 0.34915519, "learning_rate": 6.68e-05, "token_acc": 0.48704663, "epoch": 0.83889462, "global_step/max_steps": "1829/2181", "elapsed_time": "2h 35m 28s", "remaining_time": "29m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100054}
+{"loss": 2.36583614, "grad_norm": 0.34302402, "learning_rate": 6.643e-05, "token_acc": 0.48966111, "epoch": 0.83935329, "global_step/max_steps": "1830/2181", "elapsed_time": "2h 35m 33s", "remaining_time": "29m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100139}
+{"loss": 2.36341572, "grad_norm": 0.35047737, "learning_rate": 6.606e-05, "token_acc": 0.4838256, "epoch": 0.83981195, "global_step/max_steps": "1831/2181", "elapsed_time": "2h 35m 39s", "remaining_time": "29m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100244}
+{"loss": 2.41858387, "grad_norm": 0.33211261, "learning_rate": 6.569e-05, "token_acc": 0.48396989, "epoch": 0.84027061, "global_step/max_steps": "1832/2181", "elapsed_time": "2h 35m 43s", "remaining_time": "29m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100131}
+{"loss": 2.27188969, "grad_norm": 0.34151208, "learning_rate": 6.533e-05, "token_acc": 0.50283126, "epoch": 0.84072927, "global_step/max_steps": "1833/2181", "elapsed_time": "2h 35m 48s", "remaining_time": "29m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100107}
+{"loss": 2.42511892, "grad_norm": 0.34446228, "learning_rate": 6.496e-05, "token_acc": 0.49213162, "epoch": 0.84118794, "global_step/max_steps": "1834/2181", "elapsed_time": "2h 35m 53s", "remaining_time": "29m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1}
+{"loss": 2.20194054, "grad_norm": 0.3446202, "learning_rate": 6.459e-05, "token_acc": 0.52891396, "epoch": 0.8416466, "global_step/max_steps": "1835/2181", "elapsed_time": "2h 35m 58s", "remaining_time": "29m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099867}
+{"loss": 2.38881111, "grad_norm": 0.33978051, "learning_rate": 6.423e-05, "token_acc": 0.46377205, "epoch": 0.84210526, "global_step/max_steps": "1836/2181", "elapsed_time": "2h 36m 3s", "remaining_time": "29m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099721}
+{"loss": 2.36732101, "grad_norm": 0.34451991, "learning_rate": 6.387e-05, "token_acc": 0.48875312, "epoch": 0.84256393, "global_step/max_steps": "1837/2181", "elapsed_time": "2h 36m 8s", "remaining_time": "29m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099718}
+{"loss": 2.29816008, "grad_norm": 0.32424325, "learning_rate": 6.35e-05, "token_acc": 0.4840368, "epoch": 0.84302259, "global_step/max_steps": "1838/2181", "elapsed_time": "2h 36m 13s", "remaining_time": "29m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099744}
+{"loss": 2.45042372, "grad_norm": 0.37129837, "learning_rate": 6.314e-05, "token_acc": 0.47971295, "epoch": 0.84348125, "global_step/max_steps": "1839/2181", "elapsed_time": "2h 36m 19s", "remaining_time": "29m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09999}
+{"loss": 2.38537979, "grad_norm": 0.34935036, "learning_rate": 6.278e-05, "token_acc": 0.49142053, "epoch": 0.84393992, "global_step/max_steps": "1840/2181", "elapsed_time": "2h 36m 24s", "remaining_time": "28m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100089}
+{"loss": 2.36635804, "grad_norm": 0.34671503, "learning_rate": 6.242e-05, "token_acc": 0.48437924, "epoch": 0.84439858, "global_step/max_steps": "1841/2181", "elapsed_time": "2h 36m 29s", "remaining_time": "28m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100174}
+{"loss": 2.29054832, "grad_norm": 0.34899005, "learning_rate": 6.206e-05, "token_acc": 0.48709315, "epoch": 0.84485724, "global_step/max_steps": "1842/2181", "elapsed_time": "2h 36m 34s", "remaining_time": "28m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100125}
+{"loss": 2.33275032, "grad_norm": 0.32858136, "learning_rate": 6.17e-05, "token_acc": 0.49833426, "epoch": 0.8453159, "global_step/max_steps": "1843/2181", "elapsed_time": "2h 36m 40s", "remaining_time": "28m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100203}
+{"loss": 2.28534317, "grad_norm": 0.33648708, "learning_rate": 6.135e-05, "token_acc": 0.4971721, "epoch": 0.84577457, "global_step/max_steps": "1844/2181", "elapsed_time": "2h 36m 45s", "remaining_time": "28m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.100114}
+{"loss": 2.32000017, "grad_norm": 0.36086997, "learning_rate": 6.099e-05, "token_acc": 0.4813137, "epoch": 0.84623323, "global_step/max_steps": "1845/2181", "elapsed_time": "2h 36m 49s", "remaining_time": "28m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099886}
+{"loss": 2.42590332, "grad_norm": 0.33918187, "learning_rate": 6.064e-05, "token_acc": 0.49590048, "epoch": 0.84669189, "global_step/max_steps": "1846/2181", "elapsed_time": "2h 36m 54s", "remaining_time": "28m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099774}
+{"loss": 2.22398615, "grad_norm": 0.33326331, "learning_rate": 6.028e-05, "token_acc": 0.5103268, "epoch": 0.84715056, "global_step/max_steps": "1847/2181", "elapsed_time": "2h 36m 59s", "remaining_time": "28m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099786}
+{"loss": 2.42118382, "grad_norm": 0.35393128, "learning_rate": 5.993e-05, "token_acc": 0.46954103, "epoch": 0.84760922, "global_step/max_steps": "1848/2181", "elapsed_time": "2h 37m 5s", "remaining_time": "28m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099884}
+{"loss": 2.30633688, "grad_norm": 0.35303995, "learning_rate": 5.958e-05, "token_acc": 0.49941211, "epoch": 0.84806788, "global_step/max_steps": "1849/2181", "elapsed_time": "2h 37m 10s", "remaining_time": "28m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099905}
+{"loss": 2.28740549, "grad_norm": 0.37126395, "learning_rate": 5.923e-05, "token_acc": 0.51494725, "epoch": 0.84852655, "global_step/max_steps": "1850/2181", "elapsed_time": "2h 37m 15s", "remaining_time": "28m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099927}
+{"loss": 2.30609632, "grad_norm": 0.33842793, "learning_rate": 5.888e-05, "token_acc": 0.48306745, "epoch": 0.84898521, "global_step/max_steps": "1851/2181", "elapsed_time": "2h 37m 20s", "remaining_time": "28m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099957}
+{"loss": 2.40663052, "grad_norm": 0.34370375, "learning_rate": 5.853e-05, "token_acc": 0.48583691, "epoch": 0.84944387, "global_step/max_steps": "1852/2181", "elapsed_time": "2h 37m 25s", "remaining_time": "27m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099827}
+{"loss": 2.20845222, "grad_norm": 0.36516106, "learning_rate": 5.818e-05, "token_acc": 0.51402139, "epoch": 0.84990253, "global_step/max_steps": "1853/2181", "elapsed_time": "2h 37m 30s", "remaining_time": "27m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099705}
+{"loss": 2.41092134, "grad_norm": 0.35022163, "learning_rate": 5.783e-05, "token_acc": 0.47512039, "epoch": 0.8503612, "global_step/max_steps": "1854/2181", "elapsed_time": "2h 37m 35s", "remaining_time": "27m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099859}
+{"loss": 2.36057639, "grad_norm": 0.35774681, "learning_rate": 5.748e-05, "token_acc": 0.48538682, "epoch": 0.85081986, "global_step/max_steps": "1855/2181", "elapsed_time": "2h 37m 40s", "remaining_time": "27m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099703}
+{"loss": 2.32845569, "grad_norm": 0.3453747, "learning_rate": 5.714e-05, "token_acc": 0.49538043, "epoch": 0.85127852, "global_step/max_steps": "1856/2181", "elapsed_time": "2h 37m 45s", "remaining_time": "27m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099662}
+{"loss": 2.2835834, "grad_norm": 0.33495602, "learning_rate": 5.68e-05, "token_acc": 0.50177547, "epoch": 0.85173719, "global_step/max_steps": "1857/2181", "elapsed_time": "2h 37m 50s", "remaining_time": "27m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099536}
+{"loss": 2.27936745, "grad_norm": 0.3530243, "learning_rate": 5.645e-05, "token_acc": 0.51956458, "epoch": 0.85219585, "global_step/max_steps": "1858/2181", "elapsed_time": "2h 37m 54s", "remaining_time": "27m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099279}
+{"loss": 2.34932971, "grad_norm": 0.33200288, "learning_rate": 5.611e-05, "token_acc": 0.48308525, "epoch": 0.85265451, "global_step/max_steps": "1859/2181", "elapsed_time": "2h 37m 60s", "remaining_time": "27m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099484}
+{"loss": 2.26744485, "grad_norm": 0.33842576, "learning_rate": 5.577e-05, "token_acc": 0.49958345, "epoch": 0.85311318, "global_step/max_steps": "1860/2181", "elapsed_time": "2h 38m 5s", "remaining_time": "27m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099386}
+{"loss": 2.28890395, "grad_norm": 0.33767748, "learning_rate": 5.543e-05, "token_acc": 0.51143791, "epoch": 0.85357184, "global_step/max_steps": "1861/2181", "elapsed_time": "2h 38m 10s", "remaining_time": "27m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099217}
+{"loss": 2.33065701, "grad_norm": 0.33881503, "learning_rate": 5.509e-05, "token_acc": 0.5035636, "epoch": 0.8540305, "global_step/max_steps": "1862/2181", "elapsed_time": "2h 38m 15s", "remaining_time": "27m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099232}
+{"loss": 2.47041512, "grad_norm": 0.35851869, "learning_rate": 5.475e-05, "token_acc": 0.47432358, "epoch": 0.85448916, "global_step/max_steps": "1863/2181", "elapsed_time": "2h 38m 20s", "remaining_time": "27m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099265}
+{"loss": 2.44752336, "grad_norm": 0.35715908, "learning_rate": 5.441e-05, "token_acc": 0.47535597, "epoch": 0.85494783, "global_step/max_steps": "1864/2181", "elapsed_time": "2h 38m 25s", "remaining_time": "26m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099303}
+{"loss": 2.35621047, "grad_norm": 0.35217205, "learning_rate": 5.408e-05, "token_acc": 0.4788693, "epoch": 0.85540649, "global_step/max_steps": "1865/2181", "elapsed_time": "2h 38m 30s", "remaining_time": "26m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099229}
+{"loss": 2.33311057, "grad_norm": 0.34812772, "learning_rate": 5.374e-05, "token_acc": 0.48961181, "epoch": 0.85586515, "global_step/max_steps": "1866/2181", "elapsed_time": "2h 38m 35s", "remaining_time": "26m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099208}
+{"loss": 2.29223228, "grad_norm": 0.3494342, "learning_rate": 5.341e-05, "token_acc": 0.495439, "epoch": 0.85632382, "global_step/max_steps": "1867/2181", "elapsed_time": "2h 38m 40s", "remaining_time": "26m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099235}
+{"loss": 2.30380464, "grad_norm": 0.33954009, "learning_rate": 5.307e-05, "token_acc": 0.48835905, "epoch": 0.85678248, "global_step/max_steps": "1868/2181", "elapsed_time": "2h 38m 46s", "remaining_time": "26m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099306}
+{"loss": 2.3120122, "grad_norm": 0.33508757, "learning_rate": 5.274e-05, "token_acc": 0.49352439, "epoch": 0.85724114, "global_step/max_steps": "1869/2181", "elapsed_time": "2h 38m 50s", "remaining_time": "26m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099113}
+{"loss": 2.38729239, "grad_norm": 0.35094091, "learning_rate": 5.241e-05, "token_acc": 0.49832776, "epoch": 0.85769981, "global_step/max_steps": "1870/2181", "elapsed_time": "2h 38m 56s", "remaining_time": "26m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099452}
+{"loss": 2.28885746, "grad_norm": 0.33412245, "learning_rate": 5.208e-05, "token_acc": 0.49649596, "epoch": 0.85815847, "global_step/max_steps": "1871/2181", "elapsed_time": "2h 39m 1s", "remaining_time": "26m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09952}
+{"loss": 2.37712955, "grad_norm": 0.34812757, "learning_rate": 5.175e-05, "token_acc": 0.48751753, "epoch": 0.85861713, "global_step/max_steps": "1872/2181", "elapsed_time": "2h 39m 6s", "remaining_time": "26m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09957}
+{"loss": 2.26348495, "grad_norm": 0.35249865, "learning_rate": 5.142e-05, "token_acc": 0.48402466, "epoch": 0.85907579, "global_step/max_steps": "1873/2181", "elapsed_time": "2h 39m 11s", "remaining_time": "26m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099452}
+{"loss": 2.316921, "grad_norm": 0.33804879, "learning_rate": 5.109e-05, "token_acc": 0.49119957, "epoch": 0.85953446, "global_step/max_steps": "1874/2181", "elapsed_time": "2h 39m 16s", "remaining_time": "26m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099323}
+{"loss": 2.28872371, "grad_norm": 0.34243268, "learning_rate": 5.077e-05, "token_acc": 0.51136045, "epoch": 0.85999312, "global_step/max_steps": "1875/2181", "elapsed_time": "2h 39m 21s", "remaining_time": "26m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09921}
+{"loss": 2.23810053, "grad_norm": 0.34902942, "learning_rate": 5.044e-05, "token_acc": 0.51755638, "epoch": 0.86045178, "global_step/max_steps": "1876/2181", "elapsed_time": "2h 39m 26s", "remaining_time": "25m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09924}
+{"loss": 2.35351992, "grad_norm": 0.35631976, "learning_rate": 5.012e-05, "token_acc": 0.49595609, "epoch": 0.86091045, "global_step/max_steps": "1877/2181", "elapsed_time": "2h 39m 31s", "remaining_time": "25m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099265}
+{"loss": 2.4014833, "grad_norm": 0.37275317, "learning_rate": 4.979e-05, "token_acc": 0.48134023, "epoch": 0.86136911, "global_step/max_steps": "1878/2181", "elapsed_time": "2h 39m 37s", "remaining_time": "25m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099416}
+{"loss": 2.27297211, "grad_norm": 0.35641113, "learning_rate": 4.947e-05, "token_acc": 0.51713124, "epoch": 0.86182777, "global_step/max_steps": "1879/2181", "elapsed_time": "2h 39m 42s", "remaining_time": "25m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09944}
+{"loss": 2.26064873, "grad_norm": 0.35271585, "learning_rate": 4.915e-05, "token_acc": 0.49701789, "epoch": 0.86228644, "global_step/max_steps": "1880/2181", "elapsed_time": "2h 39m 47s", "remaining_time": "25m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099447}
+{"loss": 2.19526362, "grad_norm": 0.34461072, "learning_rate": 4.883e-05, "token_acc": 0.51563372, "epoch": 0.8627451, "global_step/max_steps": "1881/2181", "elapsed_time": "2h 39m 52s", "remaining_time": "25m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099281}
+{"loss": 2.34810853, "grad_norm": 0.36045161, "learning_rate": 4.851e-05, "token_acc": 0.49060965, "epoch": 0.86320376, "global_step/max_steps": "1882/2181", "elapsed_time": "2h 39m 57s", "remaining_time": "25m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099327}
+{"loss": 2.32600403, "grad_norm": 0.34387395, "learning_rate": 4.819e-05, "token_acc": 0.49624495, "epoch": 0.86366242, "global_step/max_steps": "1883/2181", "elapsed_time": "2h 40m 2s", "remaining_time": "25m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09928}
+{"loss": 2.35025692, "grad_norm": 0.34810573, "learning_rate": 4.787e-05, "token_acc": 0.50233196, "epoch": 0.86412109, "global_step/max_steps": "1884/2181", "elapsed_time": "2h 40m 7s", "remaining_time": "25m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.099172}
+{"loss": 2.27240396, "grad_norm": 0.34312388, "learning_rate": 4.755e-05, "token_acc": 0.49873132, "epoch": 0.86457975, "global_step/max_steps": "1885/2181", "elapsed_time": "2h 40m 12s", "remaining_time": "25m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098996}
+{"loss": 2.3354969, "grad_norm": 0.34992909, "learning_rate": 4.724e-05, "token_acc": 0.50833098, "epoch": 0.86503841, "global_step/max_steps": "1886/2181", "elapsed_time": "2h 40m 16s", "remaining_time": "25m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098785}
+{"loss": 2.30918646, "grad_norm": 0.35659936, "learning_rate": 4.692e-05, "token_acc": 0.49985824, "epoch": 0.86549708, "global_step/max_steps": "1887/2181", "elapsed_time": "2h 40m 22s", "remaining_time": "24m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098852}
+{"loss": 2.35859871, "grad_norm": 0.3492932, "learning_rate": 4.661e-05, "token_acc": 0.48938579, "epoch": 0.86595574, "global_step/max_steps": "1888/2181", "elapsed_time": "2h 40m 26s", "remaining_time": "24m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098617}
+{"loss": 2.25589371, "grad_norm": 0.34878597, "learning_rate": 4.63e-05, "token_acc": 0.49801924, "epoch": 0.8664144, "global_step/max_steps": "1889/2181", "elapsed_time": "2h 40m 31s", "remaining_time": "24m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098476}
+{"loss": 2.49616432, "grad_norm": 0.35652643, "learning_rate": 4.599e-05, "token_acc": 0.46900421, "epoch": 0.86687307, "global_step/max_steps": "1890/2181", "elapsed_time": "2h 40m 36s", "remaining_time": "24m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098483}
+{"loss": 2.23464704, "grad_norm": 0.39319766, "learning_rate": 4.568e-05, "token_acc": 0.51656373, "epoch": 0.86733173, "global_step/max_steps": "1891/2181", "elapsed_time": "2h 40m 41s", "remaining_time": "24m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098403}
+{"loss": 2.45638514, "grad_norm": 0.35193536, "learning_rate": 4.537e-05, "token_acc": 0.47603122, "epoch": 0.86779039, "global_step/max_steps": "1892/2181", "elapsed_time": "2h 40m 47s", "remaining_time": "24m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098626}
+{"loss": 2.36051321, "grad_norm": 0.34959126, "learning_rate": 4.506e-05, "token_acc": 0.49044944, "epoch": 0.86824905, "global_step/max_steps": "1893/2181", "elapsed_time": "2h 40m 52s", "remaining_time": "24m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098667}
+{"loss": 2.3418057, "grad_norm": 0.35916474, "learning_rate": 4.475e-05, "token_acc": 0.48559078, "epoch": 0.86870772, "global_step/max_steps": "1894/2181", "elapsed_time": "2h 40m 57s", "remaining_time": "24m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098521}
+{"loss": 2.38760853, "grad_norm": 0.3401919, "learning_rate": 4.444e-05, "token_acc": 0.48252726, "epoch": 0.86916638, "global_step/max_steps": "1895/2181", "elapsed_time": "2h 41m 2s", "remaining_time": "24m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098511}
+{"loss": 2.31206703, "grad_norm": 0.34735659, "learning_rate": 4.414e-05, "token_acc": 0.50471175, "epoch": 0.86962504, "global_step/max_steps": "1896/2181", "elapsed_time": "2h 41m 7s", "remaining_time": "24m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098582}
+{"loss": 2.42108917, "grad_norm": 0.35640216, "learning_rate": 4.383e-05, "token_acc": 0.48930782, "epoch": 0.87008371, "global_step/max_steps": "1897/2181", "elapsed_time": "2h 41m 12s", "remaining_time": "24m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098528}
+{"loss": 2.38661337, "grad_norm": 0.3462269, "learning_rate": 4.353e-05, "token_acc": 0.47853958, "epoch": 0.87054237, "global_step/max_steps": "1898/2181", "elapsed_time": "2h 41m 17s", "remaining_time": "24m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098538}
+{"loss": 2.24115562, "grad_norm": 0.34958655, "learning_rate": 4.323e-05, "token_acc": 0.51099537, "epoch": 0.87100103, "global_step/max_steps": "1899/2181", "elapsed_time": "2h 41m 22s", "remaining_time": "23m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098518}
+{"loss": 2.3328495, "grad_norm": 0.35768905, "learning_rate": 4.293e-05, "token_acc": 0.49462973, "epoch": 0.87145969, "global_step/max_steps": "1900/2181", "elapsed_time": "2h 41m 27s", "remaining_time": "23m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098483}
+{"loss": 2.28224325, "grad_norm": 0.34053761, "learning_rate": 4.263e-05, "token_acc": 0.50847458, "epoch": 0.87191836, "global_step/max_steps": "1901/2181", "elapsed_time": "2h 41m 32s", "remaining_time": "23m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098274}
+{"loss": 2.32390499, "grad_norm": 0.34662741, "learning_rate": 4.233e-05, "token_acc": 0.49688738, "epoch": 0.87237702, "global_step/max_steps": "1902/2181", "elapsed_time": "2h 41m 37s", "remaining_time": "23m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098449}
+{"loss": 2.29038095, "grad_norm": 0.35646573, "learning_rate": 4.203e-05, "token_acc": 0.51123919, "epoch": 0.87283568, "global_step/max_steps": "1903/2181", "elapsed_time": "2h 41m 42s", "remaining_time": "23m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098262}
+{"loss": 2.33104324, "grad_norm": 0.33719188, "learning_rate": 4.173e-05, "token_acc": 0.49779006, "epoch": 0.87329435, "global_step/max_steps": "1904/2181", "elapsed_time": "2h 41m 47s", "remaining_time": "23m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098245}
+{"loss": 2.32265139, "grad_norm": 0.32650048, "learning_rate": 4.143e-05, "token_acc": 0.49595988, "epoch": 0.87375301, "global_step/max_steps": "1905/2181", "elapsed_time": "2h 41m 52s", "remaining_time": "23m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098314}
+{"loss": 2.22480392, "grad_norm": 0.34066784, "learning_rate": 4.114e-05, "token_acc": 0.51231114, "epoch": 0.87421167, "global_step/max_steps": "1906/2181", "elapsed_time": "2h 41m 57s", "remaining_time": "23m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098216}
+{"loss": 2.39695454, "grad_norm": 0.33365035, "learning_rate": 4.084e-05, "token_acc": 0.48163265, "epoch": 0.87467034, "global_step/max_steps": "1907/2181", "elapsed_time": "2h 42m 2s", "remaining_time": "23m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098165}
+{"loss": 2.33825207, "grad_norm": 0.34670204, "learning_rate": 4.055e-05, "token_acc": 0.49330784, "epoch": 0.875129, "global_step/max_steps": "1908/2181", "elapsed_time": "2h 42m 7s", "remaining_time": "23m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098122}
+{"loss": 2.32630563, "grad_norm": 0.34525022, "learning_rate": 4.026e-05, "token_acc": 0.49023493, "epoch": 0.87558766, "global_step/max_steps": "1909/2181", "elapsed_time": "2h 42m 12s", "remaining_time": "23m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098133}
+{"loss": 2.22521782, "grad_norm": 0.3391495, "learning_rate": 3.997e-05, "token_acc": 0.52015569, "epoch": 0.87604632, "global_step/max_steps": "1910/2181", "elapsed_time": "2h 42m 17s", "remaining_time": "23m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098155}
+{"loss": 2.32301664, "grad_norm": 0.37841794, "learning_rate": 3.968e-05, "token_acc": 0.4915497, "epoch": 0.87650499, "global_step/max_steps": "1911/2181", "elapsed_time": "2h 42m 22s", "remaining_time": "22m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097996}
+{"loss": 2.4320097, "grad_norm": 0.34889162, "learning_rate": 3.939e-05, "token_acc": 0.47560628, "epoch": 0.87696365, "global_step/max_steps": "1912/2181", "elapsed_time": "2h 42m 28s", "remaining_time": "22m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098213}
+{"loss": 2.31557131, "grad_norm": 0.3487249, "learning_rate": 3.91e-05, "token_acc": 0.48368201, "epoch": 0.87742231, "global_step/max_steps": "1913/2181", "elapsed_time": "2h 42m 33s", "remaining_time": "22m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098239}
+{"loss": 2.35660648, "grad_norm": 0.33795199, "learning_rate": 3.881e-05, "token_acc": 0.50013732, "epoch": 0.87788098, "global_step/max_steps": "1914/2181", "elapsed_time": "2h 42m 38s", "remaining_time": "22m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098325}
+{"loss": 2.40045142, "grad_norm": 0.33012569, "learning_rate": 3.852e-05, "token_acc": 0.48681654, "epoch": 0.87833964, "global_step/max_steps": "1915/2181", "elapsed_time": "2h 42m 43s", "remaining_time": "22m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098393}
+{"loss": 2.29279447, "grad_norm": 0.32607543, "learning_rate": 3.824e-05, "token_acc": 0.48710991, "epoch": 0.8787983, "global_step/max_steps": "1916/2181", "elapsed_time": "2h 42m 49s", "remaining_time": "22m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098563}
+{"loss": 2.33068848, "grad_norm": 0.33637837, "learning_rate": 3.795e-05, "token_acc": 0.4907433, "epoch": 0.87925697, "global_step/max_steps": "1917/2181", "elapsed_time": "2h 42m 54s", "remaining_time": "22m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098598}
+{"loss": 2.34318733, "grad_norm": 0.32986388, "learning_rate": 3.767e-05, "token_acc": 0.48668885, "epoch": 0.87971563, "global_step/max_steps": "1918/2181", "elapsed_time": "2h 42m 59s", "remaining_time": "22m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09868}
+{"loss": 2.24105406, "grad_norm": 0.35266915, "learning_rate": 3.739e-05, "token_acc": 0.50748459, "epoch": 0.88017429, "global_step/max_steps": "1919/2181", "elapsed_time": "2h 43m 4s", "remaining_time": "22m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09873}
+{"loss": 2.40982223, "grad_norm": 0.33821642, "learning_rate": 3.711e-05, "token_acc": 0.50072359, "epoch": 0.88063295, "global_step/max_steps": "1920/2181", "elapsed_time": "2h 43m 10s", "remaining_time": "22m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098793}
+{"loss": 2.34907055, "grad_norm": 0.35393634, "learning_rate": 3.683e-05, "token_acc": 0.48076383, "epoch": 0.88109162, "global_step/max_steps": "1921/2181", "elapsed_time": "2h 43m 14s", "remaining_time": "22m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098646}
+{"loss": 2.38091469, "grad_norm": 0.3289749, "learning_rate": 3.655e-05, "token_acc": 0.48337156, "epoch": 0.88155028, "global_step/max_steps": "1922/2181", "elapsed_time": "2h 43m 20s", "remaining_time": "22m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098676}
+{"loss": 2.38095403, "grad_norm": 0.35224566, "learning_rate": 3.627e-05, "token_acc": 0.50069618, "epoch": 0.88200894, "global_step/max_steps": "1923/2181", "elapsed_time": "2h 43m 24s", "remaining_time": "21m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098499}
+{"loss": 2.43496656, "grad_norm": 0.34404832, "learning_rate": 3.599e-05, "token_acc": 0.48721512, "epoch": 0.88246761, "global_step/max_steps": "1924/2181", "elapsed_time": "2h 43m 29s", "remaining_time": "21m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098422}
+{"loss": 2.32496238, "grad_norm": 0.36163193, "learning_rate": 3.572e-05, "token_acc": 0.51352129, "epoch": 0.88292627, "global_step/max_steps": "1925/2181", "elapsed_time": "2h 43m 34s", "remaining_time": "21m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098272}
+{"loss": 2.26325369, "grad_norm": 0.33669224, "learning_rate": 3.544e-05, "token_acc": 0.49521466, "epoch": 0.88338493, "global_step/max_steps": "1926/2181", "elapsed_time": "2h 43m 39s", "remaining_time": "21m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09808}
+{"loss": 2.29459906, "grad_norm": 0.33233422, "learning_rate": 3.517e-05, "token_acc": 0.50848401, "epoch": 0.8838436, "global_step/max_steps": "1927/2181", "elapsed_time": "2h 43m 44s", "remaining_time": "21m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098064}
+{"loss": 2.34119892, "grad_norm": 0.3574532, "learning_rate": 3.489e-05, "token_acc": 0.49016204, "epoch": 0.88430226, "global_step/max_steps": "1928/2181", "elapsed_time": "2h 43m 49s", "remaining_time": "21m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098156}
+{"loss": 2.31020355, "grad_norm": 0.3490003, "learning_rate": 3.462e-05, "token_acc": 0.48960044, "epoch": 0.88476092, "global_step/max_steps": "1929/2181", "elapsed_time": "2h 43m 54s", "remaining_time": "21m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098068}
+{"loss": 2.28348756, "grad_norm": 0.33838639, "learning_rate": 3.435e-05, "token_acc": 0.50404012, "epoch": 0.88521958, "global_step/max_steps": "1930/2181", "elapsed_time": "2h 43m 59s", "remaining_time": "21m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097815}
+{"loss": 2.2258594, "grad_norm": 0.32288072, "learning_rate": 3.408e-05, "token_acc": 0.51657459, "epoch": 0.88567825, "global_step/max_steps": "1931/2181", "elapsed_time": "2h 44m 4s", "remaining_time": "21m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09782}
+{"loss": 2.35410094, "grad_norm": 0.36917999, "learning_rate": 3.381e-05, "token_acc": 0.4850182, "epoch": 0.88613691, "global_step/max_steps": "1932/2181", "elapsed_time": "2h 44m 9s", "remaining_time": "21m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097821}
+{"loss": 2.41869211, "grad_norm": 0.33864522, "learning_rate": 3.354e-05, "token_acc": 0.4846473, "epoch": 0.88659557, "global_step/max_steps": "1933/2181", "elapsed_time": "2h 44m 15s", "remaining_time": "21m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098095}
+{"loss": 2.31027317, "grad_norm": 0.33407339, "learning_rate": 3.328e-05, "token_acc": 0.48833981, "epoch": 0.88705424, "global_step/max_steps": "1934/2181", "elapsed_time": "2h 44m 20s", "remaining_time": "20m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09834}
+{"loss": 2.32742715, "grad_norm": 0.35472733, "learning_rate": 3.301e-05, "token_acc": 0.50568505, "epoch": 0.8875129, "global_step/max_steps": "1935/2181", "elapsed_time": "2h 44m 25s", "remaining_time": "20m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098414}
+{"loss": 2.35301495, "grad_norm": 0.393244, "learning_rate": 3.275e-05, "token_acc": 0.49493243, "epoch": 0.88797156, "global_step/max_steps": "1936/2181", "elapsed_time": "2h 44m 31s", "remaining_time": "20m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098413}
+{"loss": 2.28678799, "grad_norm": 0.35049456, "learning_rate": 3.248e-05, "token_acc": 0.49573136, "epoch": 0.88843023, "global_step/max_steps": "1937/2181", "elapsed_time": "2h 44m 36s", "remaining_time": "20m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098467}
+{"loss": 2.31125975, "grad_norm": 0.35069469, "learning_rate": 3.222e-05, "token_acc": 0.50513992, "epoch": 0.88888889, "global_step/max_steps": "1938/2181", "elapsed_time": "2h 44m 41s", "remaining_time": "20m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098414}
+{"loss": 2.33933592, "grad_norm": 0.33748451, "learning_rate": 3.196e-05, "token_acc": 0.4937466, "epoch": 0.88934755, "global_step/max_steps": "1939/2181", "elapsed_time": "2h 44m 46s", "remaining_time": "20m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098362}
+{"loss": 2.42344856, "grad_norm": 0.34044623, "learning_rate": 3.17e-05, "token_acc": 0.47452408, "epoch": 0.88980621, "global_step/max_steps": "1940/2181", "elapsed_time": "2h 44m 51s", "remaining_time": "20m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098283}
+{"loss": 2.31709146, "grad_norm": 0.34031492, "learning_rate": 3.144e-05, "token_acc": 0.50575658, "epoch": 0.89026488, "global_step/max_steps": "1941/2181", "elapsed_time": "2h 44m 56s", "remaining_time": "20m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098266}
+{"loss": 2.29583502, "grad_norm": 0.3714669, "learning_rate": 3.118e-05, "token_acc": 0.50305386, "epoch": 0.89072354, "global_step/max_steps": "1942/2181", "elapsed_time": "2h 45m 1s", "remaining_time": "20m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098156}
+{"loss": 2.33241177, "grad_norm": 0.3484084, "learning_rate": 3.092e-05, "token_acc": 0.48618161, "epoch": 0.8911822, "global_step/max_steps": "1943/2181", "elapsed_time": "2h 45m 6s", "remaining_time": "20m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098188}
+{"loss": 2.32728887, "grad_norm": 0.34565091, "learning_rate": 3.066e-05, "token_acc": 0.50610772, "epoch": 0.89164087, "global_step/max_steps": "1944/2181", "elapsed_time": "2h 45m 11s", "remaining_time": "20m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098111}
+{"loss": 2.37324619, "grad_norm": 0.35137287, "learning_rate": 3.041e-05, "token_acc": 0.4923377, "epoch": 0.89209953, "global_step/max_steps": "1945/2181", "elapsed_time": "2h 45m 16s", "remaining_time": "20m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098171}
+{"loss": 2.34064627, "grad_norm": 0.34450462, "learning_rate": 3.015e-05, "token_acc": 0.49351001, "epoch": 0.89255819, "global_step/max_steps": "1946/2181", "elapsed_time": "2h 45m 21s", "remaining_time": "19m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098138}
+{"loss": 2.32335043, "grad_norm": 0.35276118, "learning_rate": 2.99e-05, "token_acc": 0.48221787, "epoch": 0.89301686, "global_step/max_steps": "1947/2181", "elapsed_time": "2h 45m 26s", "remaining_time": "19m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097969}
+{"loss": 2.32667542, "grad_norm": 0.32077494, "learning_rate": 2.965e-05, "token_acc": 0.49357045, "epoch": 0.89347552, "global_step/max_steps": "1948/2181", "elapsed_time": "2h 45m 31s", "remaining_time": "19m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098085}
+{"loss": 2.32537222, "grad_norm": 0.35171035, "learning_rate": 2.94e-05, "token_acc": 0.49752611, "epoch": 0.89393418, "global_step/max_steps": "1949/2181", "elapsed_time": "2h 45m 36s", "remaining_time": "19m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098118}
+{"loss": 2.22915101, "grad_norm": 0.35658661, "learning_rate": 2.915e-05, "token_acc": 0.50658448, "epoch": 0.89439284, "global_step/max_steps": "1950/2181", "elapsed_time": "2h 45m 41s", "remaining_time": "19m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098091}
+{"loss": 2.29897642, "grad_norm": 0.32883978, "learning_rate": 2.89e-05, "token_acc": 0.49466484, "epoch": 0.89485151, "global_step/max_steps": "1951/2181", "elapsed_time": "2h 45m 46s", "remaining_time": "19m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098088}
+{"loss": 2.24176931, "grad_norm": 0.35378185, "learning_rate": 2.865e-05, "token_acc": 0.48598398, "epoch": 0.89531017, "global_step/max_steps": "1952/2181", "elapsed_time": "2h 45m 52s", "remaining_time": "19m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098174}
+{"loss": 2.34082794, "grad_norm": 0.33191431, "learning_rate": 2.84e-05, "token_acc": 0.49121797, "epoch": 0.89576883, "global_step/max_steps": "1953/2181", "elapsed_time": "2h 45m 57s", "remaining_time": "19m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098317}
+{"loss": 2.39825869, "grad_norm": 0.35375196, "learning_rate": 2.815e-05, "token_acc": 0.48768606, "epoch": 0.8962275, "global_step/max_steps": "1954/2181", "elapsed_time": "2h 46m 2s", "remaining_time": "19m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098318}
+{"loss": 2.23182869, "grad_norm": 0.35952675, "learning_rate": 2.791e-05, "token_acc": 0.51023309, "epoch": 0.89668616, "global_step/max_steps": "1955/2181", "elapsed_time": "2h 46m 7s", "remaining_time": "19m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098237}
+{"loss": 2.44782209, "grad_norm": 0.35688731, "learning_rate": 2.767e-05, "token_acc": 0.47459459, "epoch": 0.89714482, "global_step/max_steps": "1956/2181", "elapsed_time": "2h 46m 12s", "remaining_time": "19m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098135}
+{"loss": 2.23974729, "grad_norm": 0.35452729, "learning_rate": 2.742e-05, "token_acc": 0.5025, "epoch": 0.89760349, "global_step/max_steps": "1957/2181", "elapsed_time": "2h 46m 17s", "remaining_time": "19m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098064}
+{"loss": 2.27866435, "grad_norm": 0.33152303, "learning_rate": 2.718e-05, "token_acc": 0.51534075, "epoch": 0.89806215, "global_step/max_steps": "1958/2181", "elapsed_time": "2h 46m 22s", "remaining_time": "18m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097992}
+{"loss": 2.39115858, "grad_norm": 0.34092867, "learning_rate": 2.694e-05, "token_acc": 0.47188264, "epoch": 0.89852081, "global_step/max_steps": "1959/2181", "elapsed_time": "2h 46m 27s", "remaining_time": "18m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098178}
+{"loss": 2.31127667, "grad_norm": 0.34896132, "learning_rate": 2.67e-05, "token_acc": 0.50404012, "epoch": 0.89897947, "global_step/max_steps": "1960/2181", "elapsed_time": "2h 46m 32s", "remaining_time": "18m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098051}
+{"loss": 2.38003254, "grad_norm": 0.3546249, "learning_rate": 2.646e-05, "token_acc": 0.4902123, "epoch": 0.89943814, "global_step/max_steps": "1961/2181", "elapsed_time": "2h 46m 37s", "remaining_time": "18m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097796}
+{"loss": 2.36455011, "grad_norm": 0.35043064, "learning_rate": 2.622e-05, "token_acc": 0.49168101, "epoch": 0.8998968, "global_step/max_steps": "1962/2181", "elapsed_time": "2h 46m 42s", "remaining_time": "18m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097858}
+{"loss": 2.26345086, "grad_norm": 0.36607367, "learning_rate": 2.599e-05, "token_acc": 0.51026811, "epoch": 0.90035546, "global_step/max_steps": "1963/2181", "elapsed_time": "2h 46m 47s", "remaining_time": "18m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097783}
+{"loss": 2.32481384, "grad_norm": 0.33651859, "learning_rate": 2.575e-05, "token_acc": 0.49672084, "epoch": 0.90081413, "global_step/max_steps": "1964/2181", "elapsed_time": "2h 46m 52s", "remaining_time": "18m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097837}
+{"loss": 2.31026125, "grad_norm": 0.34839728, "learning_rate": 2.552e-05, "token_acc": 0.50057274, "epoch": 0.90127279, "global_step/max_steps": "1965/2181", "elapsed_time": "2h 46m 58s", "remaining_time": "18m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097982}
+{"loss": 2.27765751, "grad_norm": 0.3430436, "learning_rate": 2.528e-05, "token_acc": 0.51287922, "epoch": 0.90173145, "global_step/max_steps": "1966/2181", "elapsed_time": "2h 47m 3s", "remaining_time": "18m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098145}
+{"loss": 2.28191948, "grad_norm": 0.34068593, "learning_rate": 2.505e-05, "token_acc": 0.50096445, "epoch": 0.90219012, "global_step/max_steps": "1967/2181", "elapsed_time": "2h 47m 8s", "remaining_time": "18m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098281}
+{"loss": 2.32491636, "grad_norm": 0.33767548, "learning_rate": 2.482e-05, "token_acc": 0.49433749, "epoch": 0.90264878, "global_step/max_steps": "1968/2181", "elapsed_time": "2h 47m 14s", "remaining_time": "18m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098363}
+{"loss": 2.39781165, "grad_norm": 0.34080622, "learning_rate": 2.459e-05, "token_acc": 0.48095369, "epoch": 0.90310744, "global_step/max_steps": "1969/2181", "elapsed_time": "2h 47m 18s", "remaining_time": "18m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098228}
+{"loss": 2.31131911, "grad_norm": 0.34157714, "learning_rate": 2.436e-05, "token_acc": 0.4896648, "epoch": 0.9035661, "global_step/max_steps": "1970/2181", "elapsed_time": "2h 47m 24s", "remaining_time": "17m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098224}
+{"loss": 2.27839065, "grad_norm": 0.33909652, "learning_rate": 2.413e-05, "token_acc": 0.50930814, "epoch": 0.90402477, "global_step/max_steps": "1971/2181", "elapsed_time": "2h 47m 29s", "remaining_time": "17m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098226}
+{"loss": 2.22570157, "grad_norm": 0.34916511, "learning_rate": 2.39e-05, "token_acc": 0.51626472, "epoch": 0.90448343, "global_step/max_steps": "1972/2181", "elapsed_time": "2h 47m 33s", "remaining_time": "17m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.098052}
+{"loss": 2.38998222, "grad_norm": 0.36659113, "learning_rate": 2.367e-05, "token_acc": 0.48170564, "epoch": 0.90494209, "global_step/max_steps": "1973/2181", "elapsed_time": "2h 47m 38s", "remaining_time": "17m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09805}
+{"loss": 2.40696383, "grad_norm": 0.34485215, "learning_rate": 2.345e-05, "token_acc": 0.47919576, "epoch": 0.90540076, "global_step/max_steps": "1974/2181", "elapsed_time": "2h 47m 43s", "remaining_time": "17m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097958}
+{"loss": 2.3907063, "grad_norm": 0.34363696, "learning_rate": 2.323e-05, "token_acc": 0.48341871, "epoch": 0.90585942, "global_step/max_steps": "1975/2181", "elapsed_time": "2h 47m 48s", "remaining_time": "17m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097785}
+{"loss": 2.33627987, "grad_norm": 0.36876771, "learning_rate": 2.3e-05, "token_acc": 0.496875, "epoch": 0.90631808, "global_step/max_steps": "1976/2181", "elapsed_time": "2h 47m 53s", "remaining_time": "17m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097686}
+{"loss": 2.40651298, "grad_norm": 0.37677535, "learning_rate": 2.278e-05, "token_acc": 0.48400352, "epoch": 0.90677675, "global_step/max_steps": "1977/2181", "elapsed_time": "2h 47m 58s", "remaining_time": "17m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097737}
+{"loss": 2.44169617, "grad_norm": 0.35412389, "learning_rate": 2.256e-05, "token_acc": 0.4797058, "epoch": 0.90723541, "global_step/max_steps": "1978/2181", "elapsed_time": "2h 48m 3s", "remaining_time": "17m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097543}
+{"loss": 2.25733089, "grad_norm": 0.35427266, "learning_rate": 2.234e-05, "token_acc": 0.50590173, "epoch": 0.90769407, "global_step/max_steps": "1979/2181", "elapsed_time": "2h 48m 8s", "remaining_time": "17m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097478}
+{"loss": 2.40380979, "grad_norm": 0.34808785, "learning_rate": 2.212e-05, "token_acc": 0.48677985, "epoch": 0.90815273, "global_step/max_steps": "1980/2181", "elapsed_time": "2h 48m 13s", "remaining_time": "17m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09732}
+{"loss": 2.3939414, "grad_norm": 0.34713086, "learning_rate": 2.19e-05, "token_acc": 0.48431105, "epoch": 0.9086114, "global_step/max_steps": "1981/2181", "elapsed_time": "2h 48m 18s", "remaining_time": "16m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09742}
+{"loss": 2.36752748, "grad_norm": 0.3488546, "learning_rate": 2.169e-05, "token_acc": 0.49463844, "epoch": 0.90907006, "global_step/max_steps": "1982/2181", "elapsed_time": "2h 48m 23s", "remaining_time": "16m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097288}
+{"loss": 2.3397727, "grad_norm": 0.35137165, "learning_rate": 2.147e-05, "token_acc": 0.49047344, "epoch": 0.90952872, "global_step/max_steps": "1983/2181", "elapsed_time": "2h 48m 28s", "remaining_time": "16m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097393}
+{"loss": 2.34334278, "grad_norm": 0.35325193, "learning_rate": 2.125e-05, "token_acc": 0.49886428, "epoch": 0.90998739, "global_step/max_steps": "1984/2181", "elapsed_time": "2h 48m 34s", "remaining_time": "16m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097552}
+{"loss": 2.26190805, "grad_norm": 0.35688612, "learning_rate": 2.104e-05, "token_acc": 0.49764429, "epoch": 0.91044605, "global_step/max_steps": "1985/2181", "elapsed_time": "2h 48m 39s", "remaining_time": "16m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097515}
+{"loss": 2.26902294, "grad_norm": 0.33976322, "learning_rate": 2.083e-05, "token_acc": 0.50218818, "epoch": 0.91090471, "global_step/max_steps": "1986/2181", "elapsed_time": "2h 48m 44s", "remaining_time": "16m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097478}
+{"loss": 2.26298666, "grad_norm": 0.33732924, "learning_rate": 2.062e-05, "token_acc": 0.49471047, "epoch": 0.91136338, "global_step/max_steps": "1987/2181", "elapsed_time": "2h 48m 49s", "remaining_time": "16m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.09743}
+{"loss": 2.34063959, "grad_norm": 0.36026123, "learning_rate": 2.041e-05, "token_acc": 0.49459085, "epoch": 0.91182204, "global_step/max_steps": "1988/2181", "elapsed_time": "2h 48m 54s", "remaining_time": "16m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097398}
+{"loss": 2.31688452, "grad_norm": 0.34469584, "learning_rate": 2.02e-05, "token_acc": 0.4984861, "epoch": 0.9122807, "global_step/max_steps": "1989/2181", "elapsed_time": "2h 48m 59s", "remaining_time": "16m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097469}
+{"loss": 2.28558564, "grad_norm": 0.32976887, "learning_rate": 1.999e-05, "token_acc": 0.4998603, "epoch": 0.91273936, "global_step/max_steps": "1990/2181", "elapsed_time": "2h 49m 4s", "remaining_time": "16m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097304}
+{"loss": 2.25177312, "grad_norm": 0.3605893, "learning_rate": 1.978e-05, "token_acc": 0.50171038, "epoch": 0.91319803, "global_step/max_steps": "1991/2181", "elapsed_time": "2h 49m 8s", "remaining_time": "16m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097138}
+{"loss": 2.29485703, "grad_norm": 0.35496366, "learning_rate": 1.957e-05, "token_acc": 0.49843972, "epoch": 0.91365669, "global_step/max_steps": "1992/2181", "elapsed_time": "2h 49m 14s", "remaining_time": "16m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097236}
+{"loss": 2.32224274, "grad_norm": 0.33351022, "learning_rate": 1.937e-05, "token_acc": 0.50502232, "epoch": 0.91411535, "global_step/max_steps": "1993/2181", "elapsed_time": "2h 49m 19s", "remaining_time": "15m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097214}
+{"loss": 2.30348539, "grad_norm": 0.33928195, "learning_rate": 1.916e-05, "token_acc": 0.49781182, "epoch": 0.91457402, "global_step/max_steps": "1994/2181", "elapsed_time": "2h 49m 24s", "remaining_time": "15m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097066}
+{"loss": 2.26472712, "grad_norm": 0.34658501, "learning_rate": 1.896e-05, "token_acc": 0.50270424, "epoch": 0.91503268, "global_step/max_steps": "1995/2181", "elapsed_time": "2h 49m 29s", "remaining_time": "15m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097082}
+{"loss": 2.29124689, "grad_norm": 0.33816853, "learning_rate": 1.876e-05, "token_acc": 0.49342481, "epoch": 0.91549134, "global_step/max_steps": "1996/2181", "elapsed_time": "2h 49m 34s", "remaining_time": "15m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097291}
+{"loss": 2.42389631, "grad_norm": 0.351567, "learning_rate": 1.856e-05, "token_acc": 0.50098122, "epoch": 0.91595001, "global_step/max_steps": "1997/2181", "elapsed_time": "2h 49m 39s", "remaining_time": "15m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097349}
+{"loss": 2.26091981, "grad_norm": 0.33435506, "learning_rate": 1.836e-05, "token_acc": 0.50632547, "epoch": 0.91640867, "global_step/max_steps": "1998/2181", "elapsed_time": "2h 49m 44s", "remaining_time": "15m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097341}
+{"loss": 2.33260036, "grad_norm": 0.34358239, "learning_rate": 1.816e-05, "token_acc": 0.4881846, "epoch": 0.91686733, "global_step/max_steps": "1999/2181", "elapsed_time": "2h 49m 49s", "remaining_time": "15m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097163}
+{"loss": 2.34484863, "grad_norm": 0.33998168, "learning_rate": 1.796e-05, "token_acc": 0.49717992, "epoch": 0.91732599, "global_step/max_steps": "2000/2181", "elapsed_time": "2h 49m 54s", "remaining_time": "15m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.097093}
+{"loss": 2.30727291, "grad_norm": 0.34659314, "learning_rate": 1.777e-05, "token_acc": 0.4933297, "epoch": 0.91778466, "global_step/max_steps": "2001/2181", "elapsed_time": "2h 50m 24s", "remaining_time": "15m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109629}
+{"loss": 2.33815241, "grad_norm": 0.34643376, "learning_rate": 1.757e-05, "token_acc": 0.49842722, "epoch": 0.91824332, "global_step/max_steps": "2002/2181", "elapsed_time": "2h 50m 29s", "remaining_time": "15m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109631}
+{"loss": 2.31878853, "grad_norm": 0.33842829, "learning_rate": 1.738e-05, "token_acc": 0.50177936, "epoch": 0.91870198, "global_step/max_steps": "2003/2181", "elapsed_time": "2h 50m 34s", "remaining_time": "15m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109499}
+{"loss": 2.26641369, "grad_norm": 0.34796348, "learning_rate": 1.718e-05, "token_acc": 0.49957758, "epoch": 0.91916065, "global_step/max_steps": "2004/2181", "elapsed_time": "2h 50m 40s", "remaining_time": "15m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109585}
+{"loss": 2.27587295, "grad_norm": 0.35491958, "learning_rate": 1.699e-05, "token_acc": 0.4954583, "epoch": 0.91961931, "global_step/max_steps": "2005/2181", "elapsed_time": "2h 50m 45s", "remaining_time": "14m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109502}
+{"loss": 2.37209034, "grad_norm": 0.36139992, "learning_rate": 1.68e-05, "token_acc": 0.4846573, "epoch": 0.92007797, "global_step/max_steps": "2006/2181", "elapsed_time": "2h 50m 50s", "remaining_time": "14m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109638}
+{"loss": 2.39281321, "grad_norm": 0.34324124, "learning_rate": 1.661e-05, "token_acc": 0.4852203, "epoch": 0.92053664, "global_step/max_steps": "2007/2181", "elapsed_time": "2h 50m 55s", "remaining_time": "14m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109554}
+{"loss": 2.27379322, "grad_norm": 0.34805763, "learning_rate": 1.642e-05, "token_acc": 0.50435271, "epoch": 0.9209953, "global_step/max_steps": "2008/2181", "elapsed_time": "2h 50m 60s", "remaining_time": "14m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10934}
+{"loss": 2.34669471, "grad_norm": 0.33926779, "learning_rate": 1.623e-05, "token_acc": 0.50347512, "epoch": 0.92145396, "global_step/max_steps": "2009/2181", "elapsed_time": "2h 51m 4s", "remaining_time": "14m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109136}
+{"loss": 2.48453307, "grad_norm": 0.34907812, "learning_rate": 1.604e-05, "token_acc": 0.47989735, "epoch": 0.92191262, "global_step/max_steps": "2010/2181", "elapsed_time": "2h 51m 9s", "remaining_time": "14m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1091}
+{"loss": 2.29696083, "grad_norm": 0.34503904, "learning_rate": 1.586e-05, "token_acc": 0.50395203, "epoch": 0.92237129, "global_step/max_steps": "2011/2181", "elapsed_time": "2h 51m 14s", "remaining_time": "14m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108978}
+{"loss": 2.46594739, "grad_norm": 0.36041451, "learning_rate": 1.567e-05, "token_acc": 0.47028353, "epoch": 0.92282995, "global_step/max_steps": "2012/2181", "elapsed_time": "2h 51m 20s", "remaining_time": "14m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109375}
+{"loss": 2.32011747, "grad_norm": 0.34151545, "learning_rate": 1.549e-05, "token_acc": 0.49585406, "epoch": 0.92328861, "global_step/max_steps": "2013/2181", "elapsed_time": "2h 51m 25s", "remaining_time": "14m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109516}
+{"loss": 2.43848157, "grad_norm": 0.35139695, "learning_rate": 1.53e-05, "token_acc": 0.48455653, "epoch": 0.92374728, "global_step/max_steps": "2014/2181", "elapsed_time": "2h 51m 30s", "remaining_time": "14m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109396}
+{"loss": 2.34117126, "grad_norm": 0.35336164, "learning_rate": 1.512e-05, "token_acc": 0.48849315, "epoch": 0.92420594, "global_step/max_steps": "2015/2181", "elapsed_time": "2h 51m 35s", "remaining_time": "14m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109273}
+{"loss": 2.29578876, "grad_norm": 0.33342835, "learning_rate": 1.494e-05, "token_acc": 0.49649028, "epoch": 0.9246646, "global_step/max_steps": "2016/2181", "elapsed_time": "2h 51m 40s", "remaining_time": "14m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109178}
+{"loss": 2.35015774, "grad_norm": 0.34189543, "learning_rate": 1.476e-05, "token_acc": 0.49530316, "epoch": 0.92512327, "global_step/max_steps": "2017/2181", "elapsed_time": "2h 51m 45s", "remaining_time": "13m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109138}
+{"loss": 2.34180665, "grad_norm": 0.34098545, "learning_rate": 1.458e-05, "token_acc": 0.50155323, "epoch": 0.92558193, "global_step/max_steps": "2018/2181", "elapsed_time": "2h 51m 50s", "remaining_time": "13m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109066}
+{"loss": 2.26486349, "grad_norm": 0.34360152, "learning_rate": 1.441e-05, "token_acc": 0.51080774, "epoch": 0.92604059, "global_step/max_steps": "2019/2181", "elapsed_time": "2h 51m 55s", "remaining_time": "13m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108991}
+{"loss": 2.42153716, "grad_norm": 0.35182482, "learning_rate": 1.423e-05, "token_acc": 0.48645661, "epoch": 0.92649925, "global_step/max_steps": "2020/2181", "elapsed_time": "2h 52m 0s", "remaining_time": "13m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109112}
+{"loss": 2.38561249, "grad_norm": 0.34438333, "learning_rate": 1.405e-05, "token_acc": 0.47927979, "epoch": 0.92695792, "global_step/max_steps": "2021/2181", "elapsed_time": "2h 52m 5s", "remaining_time": "13m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.109006}
+{"loss": 2.28120303, "grad_norm": 0.3382985, "learning_rate": 1.388e-05, "token_acc": 0.48729282, "epoch": 0.92741658, "global_step/max_steps": "2022/2181", "elapsed_time": "2h 52m 10s", "remaining_time": "13m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108908}
+{"loss": 2.33714795, "grad_norm": 0.35015932, "learning_rate": 1.371e-05, "token_acc": 0.48771058, "epoch": 0.92787524, "global_step/max_steps": "2023/2181", "elapsed_time": "2h 52m 15s", "remaining_time": "13m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108903}
+{"loss": 2.31521845, "grad_norm": 0.34104964, "learning_rate": 1.353e-05, "token_acc": 0.49594907, "epoch": 0.92833391, "global_step/max_steps": "2024/2181", "elapsed_time": "2h 52m 20s", "remaining_time": "13m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108881}
+{"loss": 2.24743891, "grad_norm": 0.35189807, "learning_rate": 1.336e-05, "token_acc": 0.50903263, "epoch": 0.92879257, "global_step/max_steps": "2025/2181", "elapsed_time": "2h 52m 26s", "remaining_time": "13m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108939}
+{"loss": 2.23983979, "grad_norm": 0.35277319, "learning_rate": 1.319e-05, "token_acc": 0.51051467, "epoch": 0.92925123, "global_step/max_steps": "2026/2181", "elapsed_time": "2h 52m 31s", "remaining_time": "13m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108872}
+{"loss": 2.44093323, "grad_norm": 0.34353158, "learning_rate": 1.302e-05, "token_acc": 0.47036118, "epoch": 0.9297099, "global_step/max_steps": "2027/2181", "elapsed_time": "2h 52m 36s", "remaining_time": "13m 7s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10893}
+{"loss": 2.36599565, "grad_norm": 0.34359375, "learning_rate": 1.286e-05, "token_acc": 0.48815567, "epoch": 0.93016856, "global_step/max_steps": "2028/2181", "elapsed_time": "2h 52m 41s", "remaining_time": "13m 2s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108927}
+{"loss": 2.30240345, "grad_norm": 0.34563941, "learning_rate": 1.269e-05, "token_acc": 0.50397953, "epoch": 0.93062722, "global_step/max_steps": "2029/2181", "elapsed_time": "2h 52m 46s", "remaining_time": "12m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108856}
+{"loss": 2.39515686, "grad_norm": 0.34674084, "learning_rate": 1.252e-05, "token_acc": 0.47668532, "epoch": 0.93108588, "global_step/max_steps": "2030/2181", "elapsed_time": "2h 52m 51s", "remaining_time": "12m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108813}
+{"loss": 2.21927691, "grad_norm": 0.34731787, "learning_rate": 1.236e-05, "token_acc": 0.50940824, "epoch": 0.93154455, "global_step/max_steps": "2031/2181", "elapsed_time": "2h 52m 56s", "remaining_time": "12m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108872}
+{"loss": 2.43204641, "grad_norm": 0.33817396, "learning_rate": 1.22e-05, "token_acc": 0.48265334, "epoch": 0.93200321, "global_step/max_steps": "2032/2181", "elapsed_time": "2h 53m 1s", "remaining_time": "12m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10894}
+{"loss": 2.36511898, "grad_norm": 0.33930835, "learning_rate": 1.203e-05, "token_acc": 0.48892627, "epoch": 0.93246187, "global_step/max_steps": "2033/2181", "elapsed_time": "2h 53m 6s", "remaining_time": "12m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108902}
+{"loss": 2.38345003, "grad_norm": 0.35070154, "learning_rate": 1.187e-05, "token_acc": 0.48995757, "epoch": 0.93292054, "global_step/max_steps": "2034/2181", "elapsed_time": "2h 53m 11s", "remaining_time": "12m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108852}
+{"loss": 2.25368237, "grad_norm": 0.35847169, "learning_rate": 1.171e-05, "token_acc": 0.50806916, "epoch": 0.9333792, "global_step/max_steps": "2035/2181", "elapsed_time": "2h 53m 16s", "remaining_time": "12m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108777}
+{"loss": 2.28351617, "grad_norm": 0.33555391, "learning_rate": 1.155e-05, "token_acc": 0.50767045, "epoch": 0.93383786, "global_step/max_steps": "2036/2181", "elapsed_time": "2h 53m 21s", "remaining_time": "12m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108658}
+{"loss": 2.28805447, "grad_norm": 0.37388238, "learning_rate": 1.139e-05, "token_acc": 0.50537042, "epoch": 0.93429653, "global_step/max_steps": "2037/2181", "elapsed_time": "2h 53m 26s", "remaining_time": "12m 16s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108684}
+{"loss": 2.34584355, "grad_norm": 0.34846598, "learning_rate": 1.124e-05, "token_acc": 0.49205044, "epoch": 0.93475519, "global_step/max_steps": "2038/2181", "elapsed_time": "2h 53m 32s", "remaining_time": "12m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10878}
+{"loss": 2.29695439, "grad_norm": 0.34385005, "learning_rate": 1.108e-05, "token_acc": 0.49158429, "epoch": 0.93521385, "global_step/max_steps": "2039/2181", "elapsed_time": "2h 53m 37s", "remaining_time": "12m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108879}
+{"loss": 2.34987783, "grad_norm": 0.38374484, "learning_rate": 1.093e-05, "token_acc": 0.49286937, "epoch": 0.93567251, "global_step/max_steps": "2040/2181", "elapsed_time": "2h 53m 42s", "remaining_time": "12m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108706}
+{"loss": 2.30569172, "grad_norm": 0.35035616, "learning_rate": 1.077e-05, "token_acc": 0.49038462, "epoch": 0.93613118, "global_step/max_steps": "2041/2181", "elapsed_time": "2h 53m 47s", "remaining_time": "11m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108539}
+{"loss": 2.3142271, "grad_norm": 0.35467914, "learning_rate": 1.062e-05, "token_acc": 0.49916013, "epoch": 0.93658984, "global_step/max_steps": "2042/2181", "elapsed_time": "2h 53m 51s", "remaining_time": "11m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108429}
+{"loss": 2.46066928, "grad_norm": 0.35288292, "learning_rate": 1.047e-05, "token_acc": 0.48065518, "epoch": 0.9370485, "global_step/max_steps": "2043/2181", "elapsed_time": "2h 53m 57s", "remaining_time": "11m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108496}
+{"loss": 2.30898428, "grad_norm": 0.35017776, "learning_rate": 1.032e-05, "token_acc": 0.49214366, "epoch": 0.93750717, "global_step/max_steps": "2044/2181", "elapsed_time": "2h 54m 2s", "remaining_time": "11m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108445}
+{"loss": 2.30878735, "grad_norm": 0.35698405, "learning_rate": 1.017e-05, "token_acc": 0.48898801, "epoch": 0.93796583, "global_step/max_steps": "2045/2181", "elapsed_time": "2h 54m 7s", "remaining_time": "11m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108584}
+{"loss": 2.38759446, "grad_norm": 0.33699107, "learning_rate": 1.002e-05, "token_acc": 0.48082676, "epoch": 0.93842449, "global_step/max_steps": "2046/2181", "elapsed_time": "2h 54m 12s", "remaining_time": "11m 30s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10862}
+{"loss": 2.32291985, "grad_norm": 0.32841262, "learning_rate": 9.87e-06, "token_acc": 0.49544236, "epoch": 0.93888316, "global_step/max_steps": "2047/2181", "elapsed_time": "2h 54m 17s", "remaining_time": "11m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108575}
+{"loss": 2.36181402, "grad_norm": 0.34372687, "learning_rate": 9.73e-06, "token_acc": 0.48622852, "epoch": 0.93934182, "global_step/max_steps": "2048/2181", "elapsed_time": "2h 54m 22s", "remaining_time": "11m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10854}
+{"loss": 2.30797243, "grad_norm": 0.34878838, "learning_rate": 9.58e-06, "token_acc": 0.50563032, "epoch": 0.93980048, "global_step/max_steps": "2049/2181", "elapsed_time": "2h 54m 27s", "remaining_time": "11m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108371}
+{"loss": 2.35927057, "grad_norm": 0.36684299, "learning_rate": 9.44e-06, "token_acc": 0.49142536, "epoch": 0.94025914, "global_step/max_steps": "2050/2181", "elapsed_time": "2h 54m 32s", "remaining_time": "11m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108371}
+{"loss": 2.30124235, "grad_norm": 0.34837598, "learning_rate": 9.29e-06, "token_acc": 0.49339207, "epoch": 0.94071781, "global_step/max_steps": "2051/2181", "elapsed_time": "2h 54m 37s", "remaining_time": "11m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108325}
+{"loss": 2.29504895, "grad_norm": 0.34060338, "learning_rate": 9.15e-06, "token_acc": 0.49276572, "epoch": 0.94117647, "global_step/max_steps": "2052/2181", "elapsed_time": "2h 54m 42s", "remaining_time": "10m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108403}
+{"loss": 2.39698792, "grad_norm": 0.3411808, "learning_rate": 9.01e-06, "token_acc": 0.47378328, "epoch": 0.94163513, "global_step/max_steps": "2053/2181", "elapsed_time": "2h 54m 48s", "remaining_time": "10m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108419}
+{"loss": 2.41005421, "grad_norm": 0.35070735, "learning_rate": 8.87e-06, "token_acc": 0.48577741, "epoch": 0.9420938, "global_step/max_steps": "2054/2181", "elapsed_time": "2h 54m 53s", "remaining_time": "10m 49s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108368}
+{"loss": 2.36236215, "grad_norm": 0.34782943, "learning_rate": 8.73e-06, "token_acc": 0.48504155, "epoch": 0.94255246, "global_step/max_steps": "2055/2181", "elapsed_time": "2h 54m 58s", "remaining_time": "10m 44s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108464}
+{"loss": 2.31111526, "grad_norm": 0.34612319, "learning_rate": 8.59e-06, "token_acc": 0.49594406, "epoch": 0.94301112, "global_step/max_steps": "2056/2181", "elapsed_time": "2h 55m 3s", "remaining_time": "10m 39s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108363}
+{"loss": 2.28774667, "grad_norm": 0.33023605, "learning_rate": 8.46e-06, "token_acc": 0.50277162, "epoch": 0.94346979, "global_step/max_steps": "2057/2181", "elapsed_time": "2h 55m 8s", "remaining_time": "10m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108426}
+{"loss": 2.29952335, "grad_norm": 0.3341538, "learning_rate": 8.32e-06, "token_acc": 0.50634697, "epoch": 0.94392845, "global_step/max_steps": "2058/2181", "elapsed_time": "2h 55m 13s", "remaining_time": "10m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10839}
+{"loss": 2.25988793, "grad_norm": 0.35393402, "learning_rate": 8.19e-06, "token_acc": 0.49487179, "epoch": 0.94438711, "global_step/max_steps": "2059/2181", "elapsed_time": "2h 55m 18s", "remaining_time": "10m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108221}
+{"loss": 2.30076718, "grad_norm": 0.35273787, "learning_rate": 8.05e-06, "token_acc": 0.49794721, "epoch": 0.94484577, "global_step/max_steps": "2060/2181", "elapsed_time": "2h 55m 23s", "remaining_time": "10m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108237}
+{"loss": 2.32975149, "grad_norm": 0.35494062, "learning_rate": 7.92e-06, "token_acc": 0.49185482, "epoch": 0.94530444, "global_step/max_steps": "2061/2181", "elapsed_time": "2h 55m 28s", "remaining_time": "10m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108245}
+{"loss": 2.33110189, "grad_norm": 0.36960626, "learning_rate": 7.79e-06, "token_acc": 0.49099474, "epoch": 0.9457631, "global_step/max_steps": "2062/2181", "elapsed_time": "2h 55m 33s", "remaining_time": "10m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108019}
+{"loss": 2.31633282, "grad_norm": 0.3458302, "learning_rate": 7.66e-06, "token_acc": 0.49749024, "epoch": 0.94622176, "global_step/max_steps": "2063/2181", "elapsed_time": "2h 55m 38s", "remaining_time": "10m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.108128}
+{"loss": 2.34509873, "grad_norm": 0.33522275, "learning_rate": 7.53e-06, "token_acc": 0.48942598, "epoch": 0.94668043, "global_step/max_steps": "2064/2181", "elapsed_time": "2h 55m 43s", "remaining_time": "9m 58s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107889}
+{"loss": 2.21981406, "grad_norm": 0.34860256, "learning_rate": 7.4e-06, "token_acc": 0.49872195, "epoch": 0.94713909, "global_step/max_steps": "2065/2181", "elapsed_time": "2h 55m 48s", "remaining_time": "9m 53s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107822}
+{"loss": 2.36994553, "grad_norm": 0.36947572, "learning_rate": 7.28e-06, "token_acc": 0.50339367, "epoch": 0.94759775, "global_step/max_steps": "2066/2181", "elapsed_time": "2h 55m 53s", "remaining_time": "9m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107756}
+{"loss": 2.3463254, "grad_norm": 0.35285071, "learning_rate": 7.15e-06, "token_acc": 0.50222965, "epoch": 0.94805642, "global_step/max_steps": "2067/2181", "elapsed_time": "2h 55m 58s", "remaining_time": "9m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107721}
+{"loss": 2.42764044, "grad_norm": 0.34956512, "learning_rate": 7.03e-06, "token_acc": 0.48569857, "epoch": 0.94851508, "global_step/max_steps": "2068/2181", "elapsed_time": "2h 56m 3s", "remaining_time": "9m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107628}
+{"loss": 2.42702794, "grad_norm": 0.36029464, "learning_rate": 6.9e-06, "token_acc": 0.4818207, "epoch": 0.94897374, "global_step/max_steps": "2069/2181", "elapsed_time": "2h 56m 7s", "remaining_time": "9m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107449}
+{"loss": 2.28556442, "grad_norm": 0.34434459, "learning_rate": 6.78e-06, "token_acc": 0.50938567, "epoch": 0.9494324, "global_step/max_steps": "2070/2181", "elapsed_time": "2h 56m 12s", "remaining_time": "9m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10731}
+{"loss": 2.34348679, "grad_norm": 0.33286968, "learning_rate": 6.66e-06, "token_acc": 0.4902965, "epoch": 0.94989107, "global_step/max_steps": "2071/2181", "elapsed_time": "2h 56m 17s", "remaining_time": "9m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107401}
+{"loss": 2.34905577, "grad_norm": 0.3475979, "learning_rate": 6.54e-06, "token_acc": 0.49452401, "epoch": 0.95034973, "global_step/max_steps": "2072/2181", "elapsed_time": "2h 56m 23s", "remaining_time": "9m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107439}
+{"loss": 2.33074045, "grad_norm": 0.35812593, "learning_rate": 6.42e-06, "token_acc": 0.48641618, "epoch": 0.95080839, "global_step/max_steps": "2073/2181", "elapsed_time": "2h 56m 28s", "remaining_time": "9m 12s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107402}
+{"loss": 2.32027388, "grad_norm": 0.33626139, "learning_rate": 6.3e-06, "token_acc": 0.49296963, "epoch": 0.95126706, "global_step/max_steps": "2074/2181", "elapsed_time": "2h 56m 33s", "remaining_time": "9m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107369}
+{"loss": 2.41777396, "grad_norm": 0.36077425, "learning_rate": 6.18e-06, "token_acc": 0.49106383, "epoch": 0.95172572, "global_step/max_steps": "2075/2181", "elapsed_time": "2h 56m 38s", "remaining_time": "9m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107393}
+{"loss": 2.32430983, "grad_norm": 0.33522072, "learning_rate": 6.07e-06, "token_acc": 0.49276527, "epoch": 0.95218438, "global_step/max_steps": "2076/2181", "elapsed_time": "2h 56m 43s", "remaining_time": "8m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107224}
+{"loss": 2.33255601, "grad_norm": 0.34251395, "learning_rate": 5.95e-06, "token_acc": 0.49628995, "epoch": 0.95264305, "global_step/max_steps": "2077/2181", "elapsed_time": "2h 56m 48s", "remaining_time": "8m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107329}
+{"loss": 2.31700468, "grad_norm": 0.34449741, "learning_rate": 5.84e-06, "token_acc": 0.48771211, "epoch": 0.95310171, "global_step/max_steps": "2078/2181", "elapsed_time": "2h 56m 53s", "remaining_time": "8m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107272}
+{"loss": 2.33613443, "grad_norm": 0.34986925, "learning_rate": 5.73e-06, "token_acc": 0.49891304, "epoch": 0.95356037, "global_step/max_steps": "2079/2181", "elapsed_time": "2h 56m 58s", "remaining_time": "8m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10728}
+{"loss": 2.37536883, "grad_norm": 0.34322098, "learning_rate": 5.62e-06, "token_acc": 0.47752161, "epoch": 0.95401903, "global_step/max_steps": "2080/2181", "elapsed_time": "2h 57m 3s", "remaining_time": "8m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107318}
+{"loss": 2.47570801, "grad_norm": 0.35744125, "learning_rate": 5.51e-06, "token_acc": 0.47053942, "epoch": 0.9544777, "global_step/max_steps": "2081/2181", "elapsed_time": "2h 57m 8s", "remaining_time": "8m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107306}
+{"loss": 2.39463282, "grad_norm": 0.34369329, "learning_rate": 5.4e-06, "token_acc": 0.49208633, "epoch": 0.95493636, "global_step/max_steps": "2082/2181", "elapsed_time": "2h 57m 13s", "remaining_time": "8m 26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107182}
+{"loss": 2.36915922, "grad_norm": 0.36705953, "learning_rate": 5.29e-06, "token_acc": 0.48019242, "epoch": 0.95539502, "global_step/max_steps": "2083/2181", "elapsed_time": "2h 57m 18s", "remaining_time": "8m 21s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107219}
+{"loss": 2.38813663, "grad_norm": 0.33941004, "learning_rate": 5.18e-06, "token_acc": 0.48072626, "epoch": 0.95585369, "global_step/max_steps": "2084/2181", "elapsed_time": "2h 57m 23s", "remaining_time": "8m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10721}
+{"loss": 2.34780502, "grad_norm": 0.34288839, "learning_rate": 5.07e-06, "token_acc": 0.49706667, "epoch": 0.95631235, "global_step/max_steps": "2085/2181", "elapsed_time": "2h 57m 28s", "remaining_time": "8m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107048}
+{"loss": 2.34363127, "grad_norm": 0.346149, "learning_rate": 4.97e-06, "token_acc": 0.50402219, "epoch": 0.95677101, "global_step/max_steps": "2086/2181", "elapsed_time": "2h 57m 33s", "remaining_time": "8m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107125}
+{"loss": 2.25682783, "grad_norm": 0.33127698, "learning_rate": 4.87e-06, "token_acc": 0.51771707, "epoch": 0.95722968, "global_step/max_steps": "2087/2181", "elapsed_time": "2h 57m 38s", "remaining_time": "8m 0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107045}
+{"loss": 2.30435586, "grad_norm": 0.33492172, "learning_rate": 4.76e-06, "token_acc": 0.49508012, "epoch": 0.95768834, "global_step/max_steps": "2088/2181", "elapsed_time": "2h 57m 44s", "remaining_time": "7m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107238}
+{"loss": 2.30354881, "grad_norm": 0.35276052, "learning_rate": 4.66e-06, "token_acc": 0.50352304, "epoch": 0.958147, "global_step/max_steps": "2089/2181", "elapsed_time": "2h 57m 49s", "remaining_time": "7m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.107132}
+{"loss": 2.30950737, "grad_norm": 0.35260379, "learning_rate": 4.56e-06, "token_acc": 0.49297879, "epoch": 0.95860566, "global_step/max_steps": "2090/2181", "elapsed_time": "2h 57m 53s", "remaining_time": "7m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.1069}
+{"loss": 2.3805933, "grad_norm": 0.34617451, "learning_rate": 4.46e-06, "token_acc": 0.48136733, "epoch": 0.95906433, "global_step/max_steps": "2091/2181", "elapsed_time": "2h 57m 58s", "remaining_time": "7m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106796}
+{"loss": 2.37256885, "grad_norm": 0.32884479, "learning_rate": 4.36e-06, "token_acc": 0.48534202, "epoch": 0.95952299, "global_step/max_steps": "2092/2181", "elapsed_time": "2h 58m 3s", "remaining_time": "7m 35s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10678}
+{"loss": 2.48266602, "grad_norm": 0.35582271, "learning_rate": 4.27e-06, "token_acc": 0.47776601, "epoch": 0.95998165, "global_step/max_steps": "2093/2181", "elapsed_time": "2h 58m 8s", "remaining_time": "7m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106586}
+{"loss": 2.40927887, "grad_norm": 0.33611989, "learning_rate": 4.17e-06, "token_acc": 0.47473937, "epoch": 0.96044032, "global_step/max_steps": "2094/2181", "elapsed_time": "2h 58m 13s", "remaining_time": "7m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106472}
+{"loss": 2.37630987, "grad_norm": 0.34617639, "learning_rate": 4.07e-06, "token_acc": 0.48392652, "epoch": 0.96089898, "global_step/max_steps": "2095/2181", "elapsed_time": "2h 58m 18s", "remaining_time": "7m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106352}
+{"loss": 2.27463889, "grad_norm": 0.35218933, "learning_rate": 3.98e-06, "token_acc": 0.49874196, "epoch": 0.96135764, "global_step/max_steps": "2096/2181", "elapsed_time": "2h 58m 22s", "remaining_time": "7m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106142}
+{"loss": 2.33093643, "grad_norm": 0.34621161, "learning_rate": 3.89e-06, "token_acc": 0.48595745, "epoch": 0.96181631, "global_step/max_steps": "2097/2181", "elapsed_time": "2h 58m 28s", "remaining_time": "7m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106163}
+{"loss": 2.45170975, "grad_norm": 0.36330754, "learning_rate": 3.8e-06, "token_acc": 0.4867785, "epoch": 0.96227497, "global_step/max_steps": "2098/2181", "elapsed_time": "2h 58m 33s", "remaining_time": "7m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106139}
+{"loss": 2.31208467, "grad_norm": 0.35589904, "learning_rate": 3.7e-06, "token_acc": 0.4879501, "epoch": 0.96273363, "global_step/max_steps": "2099/2181", "elapsed_time": "2h 58m 38s", "remaining_time": "6m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106236}
+{"loss": 2.3246417, "grad_norm": 0.34429204, "learning_rate": 3.61e-06, "token_acc": 0.49290883, "epoch": 0.96319229, "global_step/max_steps": "2100/2181", "elapsed_time": "2h 58m 43s", "remaining_time": "6m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106192}
+{"loss": 2.3187952, "grad_norm": 0.33885366, "learning_rate": 3.53e-06, "token_acc": 0.49509667, "epoch": 0.96365096, "global_step/max_steps": "2101/2181", "elapsed_time": "2h 58m 48s", "remaining_time": "6m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106107}
+{"loss": 2.4029808, "grad_norm": 0.34419337, "learning_rate": 3.44e-06, "token_acc": 0.49510453, "epoch": 0.96410962, "global_step/max_steps": "2102/2181", "elapsed_time": "2h 58m 53s", "remaining_time": "6m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105998}
+{"loss": 2.27209687, "grad_norm": 0.3454667, "learning_rate": 3.35e-06, "token_acc": 0.50042076, "epoch": 0.96456828, "global_step/max_steps": "2103/2181", "elapsed_time": "2h 58m 58s", "remaining_time": "6m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10602}
+{"loss": 2.31222773, "grad_norm": 0.3377896, "learning_rate": 3.27e-06, "token_acc": 0.50371641, "epoch": 0.96502695, "global_step/max_steps": "2104/2181", "elapsed_time": "2h 59m 3s", "remaining_time": "6m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106125}
+{"loss": 2.39942122, "grad_norm": 0.3647837, "learning_rate": 3.18e-06, "token_acc": 0.47199318, "epoch": 0.96548561, "global_step/max_steps": "2105/2181", "elapsed_time": "2h 59m 9s", "remaining_time": "6m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106227}
+{"loss": 2.40359068, "grad_norm": 0.34614918, "learning_rate": 3.1e-06, "token_acc": 0.48566068, "epoch": 0.96594427, "global_step/max_steps": "2106/2181", "elapsed_time": "2h 59m 14s", "remaining_time": "6m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106223}
+{"loss": 2.38266325, "grad_norm": 0.34825897, "learning_rate": 3.02e-06, "token_acc": 0.49985384, "epoch": 0.96640294, "global_step/max_steps": "2107/2181", "elapsed_time": "2h 59m 19s", "remaining_time": "6m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106165}
+{"loss": 2.43151283, "grad_norm": 0.34063587, "learning_rate": 2.94e-06, "token_acc": 0.4859255, "epoch": 0.9668616, "global_step/max_steps": "2108/2181", "elapsed_time": "2h 59m 24s", "remaining_time": "6m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106169}
+{"loss": 2.30427647, "grad_norm": 0.34777477, "learning_rate": 2.86e-06, "token_acc": 0.50057837, "epoch": 0.96732026, "global_step/max_steps": "2109/2181", "elapsed_time": "2h 59m 29s", "remaining_time": "6m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106079}
+{"loss": 2.30574059, "grad_norm": 0.35110942, "learning_rate": 2.78e-06, "token_acc": 0.50938567, "epoch": 0.96777892, "global_step/max_steps": "2110/2181", "elapsed_time": "2h 59m 34s", "remaining_time": "6m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106125}
+{"loss": 2.29576635, "grad_norm": 0.35872948, "learning_rate": 2.7e-06, "token_acc": 0.50367547, "epoch": 0.96823759, "global_step/max_steps": "2111/2181", "elapsed_time": "2h 59m 39s", "remaining_time": "5m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106101}
+{"loss": 2.41279984, "grad_norm": 0.35531795, "learning_rate": 2.62e-06, "token_acc": 0.49580741, "epoch": 0.96869625, "global_step/max_steps": "2112/2181", "elapsed_time": "2h 59m 44s", "remaining_time": "5m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106119}
+{"loss": 2.20977116, "grad_norm": 0.33816347, "learning_rate": 2.55e-06, "token_acc": 0.50782807, "epoch": 0.96915491, "global_step/max_steps": "2113/2181", "elapsed_time": "2h 59m 49s", "remaining_time": "5m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106178}
+{"loss": 2.34008551, "grad_norm": 0.36287111, "learning_rate": 2.47e-06, "token_acc": 0.48778479, "epoch": 0.96961358, "global_step/max_steps": "2114/2181", "elapsed_time": "2h 59m 54s", "remaining_time": "5m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105982}
+{"loss": 2.30831027, "grad_norm": 0.34613535, "learning_rate": 2.4e-06, "token_acc": 0.49528302, "epoch": 0.97007224, "global_step/max_steps": "2115/2181", "elapsed_time": "2h 59m 59s", "remaining_time": "5m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10584}
+{"loss": 2.25384974, "grad_norm": 0.34003523, "learning_rate": 2.33e-06, "token_acc": 0.50068325, "epoch": 0.9705309, "global_step/max_steps": "2116/2181", "elapsed_time": "3h 0m 4s", "remaining_time": "5m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105985}
+{"loss": 2.38908005, "grad_norm": 0.33917773, "learning_rate": 2.26e-06, "token_acc": 0.48610369, "epoch": 0.97098957, "global_step/max_steps": "2117/2181", "elapsed_time": "3h 0m 9s", "remaining_time": "5m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106038}
+{"loss": 2.34707427, "grad_norm": 0.35369587, "learning_rate": 2.19e-06, "token_acc": 0.49451454, "epoch": 0.97144823, "global_step/max_steps": "2118/2181", "elapsed_time": "3h 0m 15s", "remaining_time": "5m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106045}
+{"loss": 2.29190493, "grad_norm": 0.30987951, "learning_rate": 2.12e-06, "token_acc": 0.49602544, "epoch": 0.97190689, "global_step/max_steps": "2119/2181", "elapsed_time": "3h 0m 20s", "remaining_time": "5m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106268}
+{"loss": 2.30550265, "grad_norm": 0.34704503, "learning_rate": 2.05e-06, "token_acc": 0.50110803, "epoch": 0.97236555, "global_step/max_steps": "2120/2181", "elapsed_time": "3h 0m 25s", "remaining_time": "5m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106189}
+{"loss": 2.28958893, "grad_norm": 0.34248227, "learning_rate": 1.98e-06, "token_acc": 0.49986298, "epoch": 0.97282422, "global_step/max_steps": "2121/2181", "elapsed_time": "3h 0m 30s", "remaining_time": "5m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106154}
+{"loss": 2.39070988, "grad_norm": 0.3444739, "learning_rate": 1.92e-06, "token_acc": 0.48350112, "epoch": 0.97328288, "global_step/max_steps": "2122/2181", "elapsed_time": "3h 0m 35s", "remaining_time": "5m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106146}
+{"loss": 2.35558367, "grad_norm": 0.34461084, "learning_rate": 1.85e-06, "token_acc": 0.49427481, "epoch": 0.97374154, "global_step/max_steps": "2123/2181", "elapsed_time": "3h 0m 40s", "remaining_time": "4m 56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106021}
+{"loss": 2.34784985, "grad_norm": 0.40434849, "learning_rate": 1.79e-06, "token_acc": 0.49920424, "epoch": 0.97420021, "global_step/max_steps": "2124/2181", "elapsed_time": "3h 0m 45s", "remaining_time": "4m 51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.106001}
+{"loss": 2.34630132, "grad_norm": 0.34436846, "learning_rate": 1.73e-06, "token_acc": 0.50196188, "epoch": 0.97465887, "global_step/max_steps": "2125/2181", "elapsed_time": "3h 0m 50s", "remaining_time": "4m 46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105755}
+{"loss": 2.29424047, "grad_norm": 0.34564868, "learning_rate": 1.67e-06, "token_acc": 0.49986014, "epoch": 0.97511753, "global_step/max_steps": "2126/2181", "elapsed_time": "3h 0m 54s", "remaining_time": "4m 41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105556}
+{"loss": 2.47319007, "grad_norm": 0.34594801, "learning_rate": 1.61e-06, "token_acc": 0.4661714, "epoch": 0.9755762, "global_step/max_steps": "2127/2181", "elapsed_time": "3h 0m 59s", "remaining_time": "4m 36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105479}
+{"loss": 2.35296106, "grad_norm": 0.34236494, "learning_rate": 1.55e-06, "token_acc": 0.48340832, "epoch": 0.97603486, "global_step/max_steps": "2128/2181", "elapsed_time": "3h 1m 4s", "remaining_time": "4m 31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105444}
+{"loss": 2.35393763, "grad_norm": 0.34324071, "learning_rate": 1.49e-06, "token_acc": 0.48808498, "epoch": 0.97649352, "global_step/max_steps": "2129/2181", "elapsed_time": "3h 1m 9s", "remaining_time": "4m 25s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105356}
+{"loss": 2.34265184, "grad_norm": 0.34857923, "learning_rate": 1.43e-06, "token_acc": 0.49384443, "epoch": 0.97695218, "global_step/max_steps": "2130/2181", "elapsed_time": "3h 1m 14s", "remaining_time": "4m 20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10539}
+{"loss": 2.24396181, "grad_norm": 0.3409934, "learning_rate": 1.38e-06, "token_acc": 0.50857947, "epoch": 0.97741085, "global_step/max_steps": "2131/2181", "elapsed_time": "3h 1m 19s", "remaining_time": "4m 15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105259}
+{"loss": 2.4305985, "grad_norm": 0.33553761, "learning_rate": 1.32e-06, "token_acc": 0.49071991, "epoch": 0.97786951, "global_step/max_steps": "2132/2181", "elapsed_time": "3h 1m 25s", "remaining_time": "4m 10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105374}
+{"loss": 2.35120249, "grad_norm": 0.35558033, "learning_rate": 1.27e-06, "token_acc": 0.48360656, "epoch": 0.97832817, "global_step/max_steps": "2133/2181", "elapsed_time": "3h 1m 29s", "remaining_time": "4m 5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105213}
+{"loss": 2.30278993, "grad_norm": 0.35987028, "learning_rate": 1.22e-06, "token_acc": 0.50503919, "epoch": 0.97878684, "global_step/max_steps": "2134/2181", "elapsed_time": "3h 1m 35s", "remaining_time": "3m 60s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105419}
+{"loss": 2.30579281, "grad_norm": 0.35917017, "learning_rate": 1.17e-06, "token_acc": 0.49317018, "epoch": 0.9792455, "global_step/max_steps": "2135/2181", "elapsed_time": "3h 1m 40s", "remaining_time": "3m 55s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105508}
+{"loss": 2.26195192, "grad_norm": 0.34038177, "learning_rate": 1.12e-06, "token_acc": 0.50135796, "epoch": 0.97970416, "global_step/max_steps": "2136/2181", "elapsed_time": "3h 1m 46s", "remaining_time": "3m 50s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105716}
+{"loss": 2.35781431, "grad_norm": 0.33247238, "learning_rate": 1.07e-06, "token_acc": 0.49329039, "epoch": 0.98016283, "global_step/max_steps": "2137/2181", "elapsed_time": "3h 1m 51s", "remaining_time": "3m 45s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105734}
+{"loss": 2.3802464, "grad_norm": 0.3416377, "learning_rate": 1.02e-06, "token_acc": 0.48860203, "epoch": 0.98062149, "global_step/max_steps": "2138/2181", "elapsed_time": "3h 1m 56s", "remaining_time": "3m 40s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105567}
+{"loss": 2.24698496, "grad_norm": 0.33729553, "learning_rate": 9.7e-07, "token_acc": 0.51013699, "epoch": 0.98108015, "global_step/max_steps": "2139/2181", "elapsed_time": "3h 2m 1s", "remaining_time": "3m 34s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105494}
+{"loss": 2.21881771, "grad_norm": 0.36407021, "learning_rate": 9.3e-07, "token_acc": 0.50542547, "epoch": 0.98153881, "global_step/max_steps": "2140/2181", "elapsed_time": "3h 2m 5s", "remaining_time": "3m 29s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105333}
+{"loss": 2.49319673, "grad_norm": 0.35867655, "learning_rate": 8.8e-07, "token_acc": 0.47872928, "epoch": 0.98199748, "global_step/max_steps": "2141/2181", "elapsed_time": "3h 2m 10s", "remaining_time": "3m 24s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105245}
+{"loss": 2.34632039, "grad_norm": 0.33221629, "learning_rate": 8.4e-07, "token_acc": 0.48618161, "epoch": 0.98245614, "global_step/max_steps": "2142/2181", "elapsed_time": "3h 2m 16s", "remaining_time": "3m 19s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105332}
+{"loss": 2.34632754, "grad_norm": 0.35808784, "learning_rate": 8e-07, "token_acc": 0.50231616, "epoch": 0.9829148, "global_step/max_steps": "2143/2181", "elapsed_time": "3h 2m 20s", "remaining_time": "3m 14s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105216}
+{"loss": 2.39037085, "grad_norm": 0.35277286, "learning_rate": 7.5e-07, "token_acc": 0.48389716, "epoch": 0.98337347, "global_step/max_steps": "2144/2181", "elapsed_time": "3h 2m 25s", "remaining_time": "3m 9s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105159}
+{"loss": 2.35558295, "grad_norm": 0.34294951, "learning_rate": 7.1e-07, "token_acc": 0.48905701, "epoch": 0.98383213, "global_step/max_steps": "2145/2181", "elapsed_time": "3h 2m 31s", "remaining_time": "3m 4s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105174}
+{"loss": 2.15329313, "grad_norm": 0.32177728, "learning_rate": 6.8e-07, "token_acc": 0.51603179, "epoch": 0.98429079, "global_step/max_steps": "2146/2181", "elapsed_time": "3h 2m 36s", "remaining_time": "2m 59s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105275}
+{"loss": 2.30046964, "grad_norm": 0.33965263, "learning_rate": 6.4e-07, "token_acc": 0.49875999, "epoch": 0.98474946, "global_step/max_steps": "2147/2181", "elapsed_time": "3h 2m 41s", "remaining_time": "2m 54s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105384}
+{"loss": 2.3792727, "grad_norm": 0.351372, "learning_rate": 6e-07, "token_acc": 0.49546329, "epoch": 0.98520812, "global_step/max_steps": "2148/2181", "elapsed_time": "3h 2m 46s", "remaining_time": "2m 48s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105376}
+{"loss": 2.26934743, "grad_norm": 0.33664414, "learning_rate": 5.6e-07, "token_acc": 0.49985759, "epoch": 0.98566678, "global_step/max_steps": "2149/2181", "elapsed_time": "3h 2m 51s", "remaining_time": "2m 43s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105335}
+{"loss": 2.35516977, "grad_norm": 0.34888595, "learning_rate": 5.3e-07, "token_acc": 0.49790678, "epoch": 0.98612544, "global_step/max_steps": "2150/2181", "elapsed_time": "3h 2m 56s", "remaining_time": "2m 38s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105239}
+{"loss": 2.33780336, "grad_norm": 0.32513249, "learning_rate": 5e-07, "token_acc": 0.4925957, "epoch": 0.98658411, "global_step/max_steps": "2151/2181", "elapsed_time": "3h 3m 1s", "remaining_time": "2m 33s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105168}
+{"loss": 2.29839039, "grad_norm": 0.34210142, "learning_rate": 4.6e-07, "token_acc": 0.48706412, "epoch": 0.98704277, "global_step/max_steps": "2152/2181", "elapsed_time": "3h 3m 6s", "remaining_time": "2m 28s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105071}
+{"loss": 2.33796692, "grad_norm": 0.32570121, "learning_rate": 4.3e-07, "token_acc": 0.49122807, "epoch": 0.98750143, "global_step/max_steps": "2153/2181", "elapsed_time": "3h 3m 11s", "remaining_time": "2m 23s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105175}
+{"loss": 2.37144327, "grad_norm": 0.3490476, "learning_rate": 4e-07, "token_acc": 0.47906579, "epoch": 0.9879601, "global_step/max_steps": "2154/2181", "elapsed_time": "3h 3m 16s", "remaining_time": "2m 18s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105075}
+{"loss": 2.30195427, "grad_norm": 0.34138429, "learning_rate": 3.7e-07, "token_acc": 0.50302032, "epoch": 0.98841876, "global_step/max_steps": "2155/2181", "elapsed_time": "3h 3m 21s", "remaining_time": "2m 13s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104888}
+{"loss": 2.37115479, "grad_norm": 0.36125383, "learning_rate": 3.4e-07, "token_acc": 0.49312715, "epoch": 0.98887742, "global_step/max_steps": "2156/2181", "elapsed_time": "3h 3m 26s", "remaining_time": "2m 8s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104831}
+{"loss": 2.31480241, "grad_norm": 0.34850416, "learning_rate": 3.2e-07, "token_acc": 0.49721758, "epoch": 0.98933609, "global_step/max_steps": "2157/2181", "elapsed_time": "3h 3m 31s", "remaining_time": "2m 3s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104844}
+{"loss": 2.33843374, "grad_norm": 0.3381381, "learning_rate": 2.9e-07, "token_acc": 0.49460581, "epoch": 0.98979475, "global_step/max_steps": "2158/2181", "elapsed_time": "3h 3m 36s", "remaining_time": "1m 57s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104815}
+{"loss": 2.3529911, "grad_norm": 0.36644298, "learning_rate": 2.7e-07, "token_acc": 0.49725195, "epoch": 0.99025341, "global_step/max_steps": "2159/2181", "elapsed_time": "3h 3m 41s", "remaining_time": "1m 52s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104862}
+{"loss": 2.26674891, "grad_norm": 0.36634099, "learning_rate": 2.4e-07, "token_acc": 0.50344828, "epoch": 0.99071207, "global_step/max_steps": "2160/2181", "elapsed_time": "3h 3m 47s", "remaining_time": "1m 47s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104923}
+{"loss": 2.31801701, "grad_norm": 0.3534824, "learning_rate": 2.2e-07, "token_acc": 0.49915872, "epoch": 0.99117074, "global_step/max_steps": "2161/2181", "elapsed_time": "3h 3m 52s", "remaining_time": "1m 42s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104858}
+{"loss": 2.3913126, "grad_norm": 0.33976522, "learning_rate": 2e-07, "token_acc": 0.48697068, "epoch": 0.9916294, "global_step/max_steps": "2162/2181", "elapsed_time": "3h 3m 56s", "remaining_time": "1m 37s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104752}
+{"loss": 2.30628586, "grad_norm": 0.34746858, "learning_rate": 1.8e-07, "token_acc": 0.48633257, "epoch": 0.99208806, "global_step/max_steps": "2163/2181", "elapsed_time": "3h 4m 2s", "remaining_time": "1m 32s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104807}
+{"loss": 2.43155384, "grad_norm": 0.35820624, "learning_rate": 1.6e-07, "token_acc": 0.48907181, "epoch": 0.99254673, "global_step/max_steps": "2164/2181", "elapsed_time": "3h 4m 7s", "remaining_time": "1m 27s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104846}
+{"loss": 2.38226771, "grad_norm": 0.34740248, "learning_rate": 1.4e-07, "token_acc": 0.49796913, "epoch": 0.99300539, "global_step/max_steps": "2165/2181", "elapsed_time": "3h 4m 12s", "remaining_time": "1m 22s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104977}
+{"loss": 2.38032961, "grad_norm": 0.35773531, "learning_rate": 1.2e-07, "token_acc": 0.49241147, "epoch": 0.99346405, "global_step/max_steps": "2166/2181", "elapsed_time": "3h 4m 17s", "remaining_time": "1m 17s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104976}
+{"loss": 2.33409166, "grad_norm": 0.32953691, "learning_rate": 1.1e-07, "token_acc": 0.49010315, "epoch": 0.99392272, "global_step/max_steps": "2167/2181", "elapsed_time": "3h 4m 23s", "remaining_time": "1m 11s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105012}
+{"loss": 2.33492231, "grad_norm": 0.35062897, "learning_rate": 9e-08, "token_acc": 0.49023493, "epoch": 0.99438138, "global_step/max_steps": "2168/2181", "elapsed_time": "3h 4m 28s", "remaining_time": "1m 6s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104989}
+{"loss": 2.29519939, "grad_norm": 0.33525336, "learning_rate": 8e-08, "token_acc": 0.48787879, "epoch": 0.99484004, "global_step/max_steps": "2169/2181", "elapsed_time": "3h 4m 33s", "remaining_time": "1m 1s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105154}
+{"loss": 2.32963443, "grad_norm": 0.34000143, "learning_rate": 7e-08, "token_acc": 0.49232058, "epoch": 0.9952987, "global_step/max_steps": "2170/2181", "elapsed_time": "3h 4m 38s", "remaining_time": "56s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.10509}
+{"loss": 2.34385729, "grad_norm": 0.32701555, "learning_rate": 6e-08, "token_acc": 0.49247606, "epoch": 0.99575737, "global_step/max_steps": "2171/2181", "elapsed_time": "3h 4m 43s", "remaining_time": "51s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105144}
+{"loss": 2.29283428, "grad_norm": 0.3278839, "learning_rate": 4e-08, "token_acc": 0.48693924, "epoch": 0.99621603, "global_step/max_steps": "2172/2181", "elapsed_time": "3h 4m 48s", "remaining_time": "46s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105065}
+{"loss": 2.44382906, "grad_norm": 0.36217526, "learning_rate": 4e-08, "token_acc": 0.47963925, "epoch": 0.99667469, "global_step/max_steps": "2173/2181", "elapsed_time": "3h 4m 53s", "remaining_time": "41s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104977}
+{"loss": 2.36733818, "grad_norm": 0.35162824, "learning_rate": 3e-08, "token_acc": 0.49713631, "epoch": 0.99713336, "global_step/max_steps": "2174/2181", "elapsed_time": "3h 4m 58s", "remaining_time": "36s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104932}
+{"loss": 2.48119593, "grad_norm": 0.36451447, "learning_rate": 2e-08, "token_acc": 0.47302558, "epoch": 0.99759202, "global_step/max_steps": "2175/2181", "elapsed_time": "3h 5m 3s", "remaining_time": "31s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104849}
+{"loss": 2.34049845, "grad_norm": 0.34427524, "learning_rate": 1e-08, "token_acc": 0.49373434, "epoch": 0.99805068, "global_step/max_steps": "2176/2181", "elapsed_time": "3h 5m 8s", "remaining_time": "26s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104765}
+{"loss": 2.27322149, "grad_norm": 0.3395884, "learning_rate": 1e-08, "token_acc": 0.50541311, "epoch": 0.99850935, "global_step/max_steps": "2177/2181", "elapsed_time": "3h 5m 13s", "remaining_time": "20s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104858}
+{"loss": 2.42043734, "grad_norm": 0.34693211, "learning_rate": 0.0, "token_acc": 0.4801405, "epoch": 0.99896801, "global_step/max_steps": "2178/2181", "elapsed_time": "3h 5m 18s", "remaining_time": "15s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.104831}
+{"loss": 2.29179716, "grad_norm": 0.35077184, "learning_rate": 0.0, "token_acc": 0.49503311, "epoch": 0.99942667, "global_step/max_steps": "2179/2181", "elapsed_time": "3h 5m 24s", "remaining_time": "10s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105318}
+{"loss": 2.26005721, "grad_norm": 0.38828069, "learning_rate": 0.0, "token_acc": 0.50055866, "epoch": 0.99988533, "global_step/max_steps": "2180/2181", "elapsed_time": "3h 5m 30s", "remaining_time": "5s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.105487}
+{"loss": 2.18323851, "grad_norm": 0.78542769, "learning_rate": 0.0, "token_acc": 0.51331361, "epoch": 1.0, "global_step/max_steps": "2181/2181", "elapsed_time": "3h 5m 31s", "remaining_time": "0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.103489}
+{"train_runtime": 11154.5884, "train_samples_per_second": 50.036, "train_steps_per_second": 0.196, "total_flos": 1.265836048789799e+19, "train_loss": 2.56494019, "epoch": 1.0, "global_step/max_steps": "2181/2181", "elapsed_time": "3h 5m 55s", "remaining_time": "0s", "memory(GiB)": 76.88, "train_speed(s/it)": 5.114438}
+{"model_parameter_info": "LlavaOnevisionForConditionalGeneration: 2124.8825M Params (6.5597M Trainable [0.3087%]), 0.0009M Buffers.", "last_model_checkpoint": "/mnt/bn/strategy-mllm-train/user/wangjunjie/code/xiaomoguhzz/exps/video_mllm_swift/s1_siglip2_qwen3_1.7b/v11-20260314-090153/checkpoint-2181", "best_model_checkpoint": null, "best_metric": null, "global_step": 2181, "log_history": [{"loss": 10.531155586242676, "grad_norm": 163.7677001953125, "learning_rate": 1.5151515151515153e-05, "token_acc": 0.09404563160823595, "epoch": 0.00045866299736268775, "step": 1}, {"loss": 10.444791793823242, "grad_norm": 138.49777221679688, "learning_rate": 3.0303030303030306e-05, "token_acc": 0.09786628733997155, "epoch": 0.0009173259947253755, "step": 2}, {"loss": 10.013096809387207, "grad_norm": 118.87862396240234, "learning_rate": 4.545454545454546e-05, "token_acc": 0.09296482412060302, "epoch": 0.0013759889920880633, "step": 3}, {"loss": 9.020011901855469, "grad_norm": 72.25511169433594, "learning_rate": 6.060606060606061e-05, "token_acc": 0.09770114942528736, "epoch": 0.001834651989450751, "step": 4}, {"loss": 9.098867416381836, "grad_norm": 83.02162170410156, "learning_rate": 7.575757575757576e-05, "token_acc": 0.08465753424657534, "epoch": 0.002293314986813439, "step": 5}, {"loss": 7.659309387207031, "grad_norm": 22.35651969909668, "learning_rate": 9.090909090909092e-05, "token_acc": 0.07787325456498388, "epoch": 0.0027519779841761265, "step": 6}, {"loss": 7.8151702880859375, "grad_norm": 33.81536102294922, "learning_rate": 0.00010606060606060606, "token_acc": 0.06806998359759431, "epoch": 0.0032106409815388145, "step": 7}, {"loss": 7.728543281555176, "grad_norm": 31.71108627319336, "learning_rate": 0.00012121212121212122, "token_acc": 0.07960741548527808, "epoch": 0.003669303978901502, "step": 8}, {"loss": 6.97025203704834, "grad_norm": 32.627410888671875, "learning_rate": 0.00013636363636363637, "token_acc": 0.11186632681959785, "epoch": 0.0041279669762641896, "step": 9}, {"loss": 6.030107498168945, "grad_norm": 10.527961730957031, "learning_rate": 0.00015151515151515152, "token_acc": 0.17089871611982882, "epoch": 0.004586629973626878, "step": 10}, {"loss": 7.386981010437012, "grad_norm": 159.68701171875, "learning_rate": 0.00016666666666666666, "token_acc": 0.16736635880212705, "epoch": 0.0050452929709895655, "step": 11}, {"loss": 7.935171127319336, "grad_norm": 131.26353454589844, "learning_rate": 0.00018181818181818183, "token_acc": 0.15159128978224456, "epoch": 0.005503955968352253, "step": 12}, {"loss": 5.753294944763184, "grad_norm": 73.0645980834961, "learning_rate": 0.00019696969696969695, "token_acc": 0.19318801089918256, "epoch": 0.0059626189657149406, "step": 13}, {"loss": 5.651885032653809, "grad_norm": 11.480243682861328, "learning_rate": 0.00021212121212121213, "token_acc": 0.2021600664635835, "epoch": 0.006421281963077629, "step": 14}, {"loss": 5.547451019287109, "grad_norm": 15.904385566711426, "learning_rate": 0.00022727272727272727, "token_acc": 0.22640433418876532, "epoch": 0.0068799449604403165, "step": 15}, {"loss": 5.11993408203125, "grad_norm": 7.918464183807373, "learning_rate": 0.00024242424242424245, "token_acc": 0.24526748971193416, "epoch": 0.007338607957803004, "step": 16}, {"loss": 5.043087959289551, "grad_norm": 4.623650550842285, "learning_rate": 0.00025757575757575756, "token_acc": 0.23001676914477362, "epoch": 0.007797270955165692, "step": 17}, {"loss": 4.81586217880249, "grad_norm": 3.6584064960479736, "learning_rate": 0.00027272727272727274, "token_acc": 0.26924169270093723, "epoch": 0.008255933952528379, "step": 18}, {"loss": 4.790818214416504, "grad_norm": 2.083461284637451, "learning_rate": 0.0002878787878787879, "token_acc": 0.2828341013824885, "epoch": 0.008714596949891068, "step": 19}, {"loss": 4.616162300109863, "grad_norm": 2.366408109664917, "learning_rate": 0.00030303030303030303, "token_acc": 0.29432918395574, "epoch": 0.009173259947253756, "step": 20}, {"loss": 4.530404090881348, "grad_norm": 2.6877963542938232, "learning_rate": 0.0003181818181818182, "token_acc": 0.29698311652366455, "epoch": 0.009631922944616443, "step": 21}, {"loss": 4.611711502075195, "grad_norm": 15.406994819641113, "learning_rate": 0.0003333333333333333, "token_acc": 0.29226040793517744, "epoch": 0.010090585941979131, "step": 22}, {"loss": 4.455286979675293, "grad_norm": 2.105778932571411, "learning_rate": 0.0003484848484848485, "token_acc": 0.3085279739272135, "epoch": 0.010549248939341819, "step": 23}, {"loss": 4.490814208984375, "grad_norm": 2.7499122619628906, "learning_rate": 0.00036363636363636367, "token_acc": 0.3004243281471004, "epoch": 0.011007911936704506, "step": 24}, {"loss": 4.323946952819824, "grad_norm": 2.1527163982391357, "learning_rate": 0.0003787878787878788, "token_acc": 0.32578397212543553, "epoch": 0.011466574934067194, "step": 25}, {"loss": 4.340972900390625, "grad_norm": 1.4435594081878662, "learning_rate": 0.0003939393939393939, "token_acc": 0.3189143341815098, "epoch": 0.011925237931429881, "step": 26}, {"loss": 4.310399055480957, "grad_norm": 1.0701165199279785, "learning_rate": 0.00040909090909090913, "token_acc": 0.3084397556912826, "epoch": 0.01238390092879257, "step": 27}, {"loss": 4.251889228820801, "grad_norm": 1.6745245456695557, "learning_rate": 0.00042424242424242425, "token_acc": 0.31632935957859715, "epoch": 0.012842563926155258, "step": 28}, {"loss": 4.2047119140625, "grad_norm": 1.5971771478652954, "learning_rate": 0.0004393939393939394, "token_acc": 0.3360088569056186, "epoch": 0.013301226923517945, "step": 29}, {"loss": 4.262190818786621, "grad_norm": 1.3686933517456055, "learning_rate": 0.00045454545454545455, "token_acc": 0.32445316881660125, "epoch": 0.013759889920880633, "step": 30}, {"loss": 4.314598083496094, "grad_norm": 1.1092084646224976, "learning_rate": 0.0004696969696969697, "token_acc": 0.3196538246789503, "epoch": 0.01421855291824332, "step": 31}, {"loss": 4.096429347991943, "grad_norm": 1.348927617073059, "learning_rate": 0.0004848484848484849, "token_acc": 0.33142693737489276, "epoch": 0.014677215915606008, "step": 32}, {"loss": 4.313679218292236, "grad_norm": 1.7629704475402832, "learning_rate": 0.0005, "token_acc": 0.31673541543901, "epoch": 0.015135878912968696, "step": 33}, {"loss": 4.066803455352783, "grad_norm": 1.62588369846344, "learning_rate": 0.0005151515151515151, "token_acc": 0.3375097885669538, "epoch": 0.015594541910331383, "step": 34}, {"loss": 4.222330570220947, "grad_norm": 1.3345831632614136, "learning_rate": 0.0005303030303030302, "token_acc": 0.32342857142857145, "epoch": 0.01605320490769407, "step": 35}, {"loss": 4.147995471954346, "grad_norm": 1.2153950929641724, "learning_rate": 0.0005454545454545455, "token_acc": 0.3326069190956143, "epoch": 0.016511867905056758, "step": 36}, {"loss": 4.121190547943115, "grad_norm": 1.0629780292510986, "learning_rate": 0.0005606060606060606, "token_acc": 0.324190894130554, "epoch": 0.016970530902419446, "step": 37}, {"loss": 4.16463565826416, "grad_norm": 2.0344314575195312, "learning_rate": 0.0005757575757575758, "token_acc": 0.33741109530583213, "epoch": 0.017429193899782137, "step": 38}, {"loss": 4.211524963378906, "grad_norm": 1.3344801664352417, "learning_rate": 0.0005909090909090909, "token_acc": 0.3259653049804141, "epoch": 0.017887856897144824, "step": 39}, {"loss": 4.274176597595215, "grad_norm": 1.6878693103790283, "learning_rate": 0.0006060606060606061, "token_acc": 0.3195301027900147, "epoch": 0.018346519894507512, "step": 40}, {"loss": 4.197498321533203, "grad_norm": 1.5034598112106323, "learning_rate": 0.0006212121212121212, "token_acc": 0.3212986286034145, "epoch": 0.0188051828918702, "step": 41}, {"loss": 4.152724266052246, "grad_norm": 0.7870559692382812, "learning_rate": 0.0006363636363636364, "token_acc": 0.33125354509359045, "epoch": 0.019263845889232887, "step": 42}, {"loss": 4.083730220794678, "grad_norm": 0.5971645712852478, "learning_rate": 0.0006515151515151515, "token_acc": 0.3285831734721842, "epoch": 0.019722508886595574, "step": 43}, {"loss": 4.142114639282227, "grad_norm": 1.3385121822357178, "learning_rate": 0.0006666666666666666, "token_acc": 0.32073277115440535, "epoch": 0.020181171883958262, "step": 44}, {"loss": 3.941800355911255, "grad_norm": 1.3026437759399414, "learning_rate": 0.0006818181818181818, "token_acc": 0.34519572953736655, "epoch": 0.02063983488132095, "step": 45}, {"loss": 4.076504707336426, "grad_norm": 0.8030999302864075, "learning_rate": 0.000696969696969697, "token_acc": 0.33389168062534896, "epoch": 0.021098497878683637, "step": 46}, {"loss": 4.071778774261475, "grad_norm": 1.3694953918457031, "learning_rate": 0.0007121212121212122, "token_acc": 0.34139236819108654, "epoch": 0.021557160876046325, "step": 47}, {"loss": 4.049587249755859, "grad_norm": 1.0741102695465088, "learning_rate": 0.0007272727272727273, "token_acc": 0.33285135916714864, "epoch": 0.022015823873409012, "step": 48}, {"loss": 3.996241569519043, "grad_norm": 1.0750032663345337, "learning_rate": 0.0007424242424242425, "token_acc": 0.3324324324324324, "epoch": 0.0224744868707717, "step": 49}, {"loss": 4.0738019943237305, "grad_norm": 0.8069612383842468, "learning_rate": 0.0007575757575757576, "token_acc": 0.32842865074958355, "epoch": 0.022933149868134387, "step": 50}, {"loss": 4.0085368156433105, "grad_norm": 1.1857705116271973, "learning_rate": 0.0007727272727272727, "token_acc": 0.32693935119887163, "epoch": 0.023391812865497075, "step": 51}, {"loss": 3.9709558486938477, "grad_norm": 1.0924046039581299, "learning_rate": 0.0007878787878787878, "token_acc": 0.3371493989696623, "epoch": 0.023850475862859762, "step": 52}, {"loss": 3.922060012817383, "grad_norm": 1.1345634460449219, "learning_rate": 0.000803030303030303, "token_acc": 0.3538548432646145, "epoch": 0.024309138860222453, "step": 53}, {"loss": 3.998971939086914, "grad_norm": 1.2311711311340332, "learning_rate": 0.0008181818181818183, "token_acc": 0.3430858404637041, "epoch": 0.02476780185758514, "step": 54}, {"loss": 3.780540943145752, "grad_norm": 0.7573533058166504, "learning_rate": 0.0008333333333333334, "token_acc": 0.34600550964187327, "epoch": 0.02522646485494783, "step": 55}, {"loss": 3.829848289489746, "grad_norm": 1.1019490957260132, "learning_rate": 0.0008484848484848485, "token_acc": 0.35271842034081685, "epoch": 0.025685127852310516, "step": 56}, {"loss": 3.9116899967193604, "grad_norm": 0.874021053314209, "learning_rate": 0.0008636363636363636, "token_acc": 0.3317455869991594, "epoch": 0.026143790849673203, "step": 57}, {"loss": 3.8506102561950684, "grad_norm": 0.8654890060424805, "learning_rate": 0.0008787878787878789, "token_acc": 0.3390250619664004, "epoch": 0.02660245384703589, "step": 58}, {"loss": 3.887430429458618, "grad_norm": 0.6743205189704895, "learning_rate": 0.000893939393939394, "token_acc": 0.34332959641255606, "epoch": 0.02706111684439858, "step": 59}, {"loss": 3.970090866088867, "grad_norm": 1.163176417350769, "learning_rate": 0.0009090909090909091, "token_acc": 0.3351873536299766, "epoch": 0.027519779841761266, "step": 60}, {"loss": 3.999755382537842, "grad_norm": 1.5899271965026855, "learning_rate": 0.0009242424242424242, "token_acc": 0.3409781707654048, "epoch": 0.027978442839123954, "step": 61}, {"loss": 3.8386313915252686, "grad_norm": 0.841131865978241, "learning_rate": 0.0009393939393939394, "token_acc": 0.32965790217698615, "epoch": 0.02843710583648664, "step": 62}, {"loss": 3.7994751930236816, "grad_norm": 0.9264029264450073, "learning_rate": 0.0009545454545454546, "token_acc": 0.34335260115606936, "epoch": 0.02889576883384933, "step": 63}, {"loss": 3.8508853912353516, "grad_norm": 0.9236679673194885, "learning_rate": 0.0009696969696969698, "token_acc": 0.3457782883400345, "epoch": 0.029354431831212016, "step": 64}, {"loss": 3.8315601348876953, "grad_norm": 0.7168257236480713, "learning_rate": 0.000984848484848485, "token_acc": 0.34408602150537637, "epoch": 0.029813094828574704, "step": 65}, {"loss": 3.7281155586242676, "grad_norm": 0.5858761668205261, "learning_rate": 0.001, "token_acc": 0.3554489741540101, "epoch": 0.03027175782593739, "step": 66}, {"loss": 3.769437313079834, "grad_norm": 0.8973336815834045, "learning_rate": 0.0009999994484067654, "token_acc": 0.3438320209973753, "epoch": 0.03073042082330008, "step": 67}, {"loss": 3.788480758666992, "grad_norm": 1.1702033281326294, "learning_rate": 0.0009999977936282788, "token_acc": 0.3548204693242861, "epoch": 0.031189083820662766, "step": 68}, {"loss": 3.8499698638916016, "grad_norm": 1.5060110092163086, "learning_rate": 0.0009999950356681913, "token_acc": 0.3400888395335924, "epoch": 0.03164774681802546, "step": 69}, {"loss": 3.715205669403076, "grad_norm": 0.7400742173194885, "learning_rate": 0.0009999911745325876, "token_acc": 0.34644777809227284, "epoch": 0.03210640981538814, "step": 70}, {"loss": 3.7040815353393555, "grad_norm": 1.1993465423583984, "learning_rate": 0.0009999862102299873, "token_acc": 0.3574660633484163, "epoch": 0.03256507281275083, "step": 71}, {"loss": 3.7833755016326904, "grad_norm": 1.124855875968933, "learning_rate": 0.0009999801427713433, "token_acc": 0.34718758658908283, "epoch": 0.033023735810113516, "step": 72}, {"loss": 3.6647000312805176, "grad_norm": 0.7248406410217285, "learning_rate": 0.0009999729721700424, "token_acc": 0.35466591485762616, "epoch": 0.03348239880747621, "step": 73}, {"loss": 3.5873360633850098, "grad_norm": 0.6494280099868774, "learning_rate": 0.000999964698441906, "token_acc": 0.36829066886870354, "epoch": 0.03394106180483889, "step": 74}, {"loss": 3.580655097961426, "grad_norm": 0.7083467245101929, "learning_rate": 0.0009999553216051892, "token_acc": 0.3699140401146132, "epoch": 0.03439972480220158, "step": 75}, {"loss": 3.662949800491333, "grad_norm": 0.7751051783561707, "learning_rate": 0.00099994484168058, "token_acc": 0.3564920273348519, "epoch": 0.034858387799564274, "step": 76}, {"loss": 3.6108086109161377, "grad_norm": 0.7821984887123108, "learning_rate": 0.0009999332586912019, "token_acc": 0.3578976640711902, "epoch": 0.03531705079692696, "step": 77}, {"loss": 3.716444492340088, "grad_norm": 0.9251242876052856, "learning_rate": 0.0009999205726626108, "token_acc": 0.36063258966393674, "epoch": 0.03577571379428965, "step": 78}, {"loss": 3.589423179626465, "grad_norm": 0.6459327936172485, "learning_rate": 0.000999906783622797, "token_acc": 0.3649132470393831, "epoch": 0.03623437679165233, "step": 79}, {"loss": 3.5814950466156006, "grad_norm": 0.6607033610343933, "learning_rate": 0.0009998918916021842, "token_acc": 0.37221603563474387, "epoch": 0.036693039789015024, "step": 80}, {"loss": 3.6781551837921143, "grad_norm": 0.7172372937202454, "learning_rate": 0.0009998758966336297, "token_acc": 0.35435267857142855, "epoch": 0.03715170278637771, "step": 81}, {"loss": 3.511000156402588, "grad_norm": 0.6790605783462524, "learning_rate": 0.0009998587987524242, "token_acc": 0.3669222343921139, "epoch": 0.0376103657837404, "step": 82}, {"loss": 3.5655863285064697, "grad_norm": 0.6576029658317566, "learning_rate": 0.0009998405979962926, "token_acc": 0.3637668676428366, "epoch": 0.03806902878110308, "step": 83}, {"loss": 3.6492481231689453, "grad_norm": 0.6579151749610901, "learning_rate": 0.000999821294405392, "token_acc": 0.3598233995584989, "epoch": 0.038527691778465774, "step": 84}, {"loss": 3.530937433242798, "grad_norm": 0.6451024413108826, "learning_rate": 0.0009998008880223134, "token_acc": 0.36975028376844493, "epoch": 0.03898635477582846, "step": 85}, {"loss": 3.48888897895813, "grad_norm": 0.5863217711448669, "learning_rate": 0.000999779378892081, "token_acc": 0.38053596614950636, "epoch": 0.03944501777319115, "step": 86}, {"loss": 3.550015926361084, "grad_norm": 0.5968656539916992, "learning_rate": 0.0009997567670621522, "token_acc": 0.3667394866193337, "epoch": 0.03990368077055383, "step": 87}, {"loss": 3.468745708465576, "grad_norm": 0.6071357131004333, "learning_rate": 0.0009997330525824165, "token_acc": 0.36957130848977304, "epoch": 0.040362343767916524, "step": 88}, {"loss": 3.6053686141967773, "grad_norm": 0.711405336856842, "learning_rate": 0.0009997082355051976, "token_acc": 0.3543675943786167, "epoch": 0.04082100676527921, "step": 89}, {"loss": 3.4660398960113525, "grad_norm": 0.6349820494651794, "learning_rate": 0.000999682315885251, "token_acc": 0.3742399115533444, "epoch": 0.0412796697626419, "step": 90}, {"loss": 3.440434694290161, "grad_norm": 0.6023502349853516, "learning_rate": 0.0009996552937797645, "token_acc": 0.36031478358628444, "epoch": 0.04173833276000459, "step": 91}, {"loss": 3.5707292556762695, "grad_norm": 0.5499334931373596, "learning_rate": 0.0009996271692483596, "token_acc": 0.3681015452538631, "epoch": 0.042196995757367274, "step": 92}, {"loss": 3.3118960857391357, "grad_norm": 0.820492684841156, "learning_rate": 0.0009995979423530893, "token_acc": 0.3887640449438202, "epoch": 0.042655658754729965, "step": 93}, {"loss": 3.461143970489502, "grad_norm": 0.6804525256156921, "learning_rate": 0.000999567613158439, "token_acc": 0.3686382393397524, "epoch": 0.04311432175209265, "step": 94}, {"loss": 3.490051746368408, "grad_norm": 0.6287928223609924, "learning_rate": 0.0009995361817313263, "token_acc": 0.3720353006067292, "epoch": 0.04357298474945534, "step": 95}, {"loss": 3.4617037773132324, "grad_norm": 0.7325089573860168, "learning_rate": 0.0009995036481411004, "token_acc": 0.3777398235126672, "epoch": 0.044031647746818024, "step": 96}, {"loss": 3.5085387229919434, "grad_norm": 0.6122854948043823, "learning_rate": 0.0009994700124595429, "token_acc": 0.3724176437744277, "epoch": 0.044490310744180715, "step": 97}, {"loss": 3.487184524536133, "grad_norm": 0.6038780808448792, "learning_rate": 0.0009994352747608663, "token_acc": 0.37226074895977807, "epoch": 0.0449489737415434, "step": 98}, {"loss": 3.423229694366455, "grad_norm": 0.6164092421531677, "learning_rate": 0.0009993994351217151, "token_acc": 0.3768037026953444, "epoch": 0.04540763673890609, "step": 99}, {"loss": 3.4272513389587402, "grad_norm": 0.6025534272193909, "learning_rate": 0.000999362493621165, "token_acc": 0.3813012895662368, "epoch": 0.045866299736268774, "step": 100}, {"loss": 3.442089080810547, "grad_norm": 0.5870760679244995, "learning_rate": 0.0009993244503407226, "token_acc": 0.37067099567099565, "epoch": 0.046324962733631465, "step": 101}, {"loss": 3.466139793395996, "grad_norm": 0.6258718967437744, "learning_rate": 0.0009992853053643258, "token_acc": 0.3625795737614171, "epoch": 0.04678362573099415, "step": 102}, {"loss": 3.3844377994537354, "grad_norm": 0.7367739081382751, "learning_rate": 0.0009992450587783426, "token_acc": 0.382031905961377, "epoch": 0.04724228872835684, "step": 103}, {"loss": 3.363003730773926, "grad_norm": 0.5201725363731384, "learning_rate": 0.000999203710671572, "token_acc": 0.3867768595041322, "epoch": 0.047700951725719525, "step": 104}, {"loss": 3.400493860244751, "grad_norm": 0.7309805154800415, "learning_rate": 0.0009991612611352438, "token_acc": 0.3800892359174568, "epoch": 0.048159614723082216, "step": 105}, {"loss": 3.363405227661133, "grad_norm": 0.7596207857131958, "learning_rate": 0.0009991177102630173, "token_acc": 0.37980636237897647, "epoch": 0.04861827772044491, "step": 106}, {"loss": 3.4120779037475586, "grad_norm": 0.5382477045059204, "learning_rate": 0.0009990730581509817, "token_acc": 0.3791561888795753, "epoch": 0.04907694071780759, "step": 107}, {"loss": 3.3583250045776367, "grad_norm": 0.5730828642845154, "learning_rate": 0.0009990273048976566, "token_acc": 0.38283828382838286, "epoch": 0.04953560371517028, "step": 108}, {"loss": 3.3839306831359863, "grad_norm": 0.5807106494903564, "learning_rate": 0.0009989804506039905, "token_acc": 0.38688801350590885, "epoch": 0.049994266712532966, "step": 109}, {"loss": 3.361260414123535, "grad_norm": 0.5736938714981079, "learning_rate": 0.0009989324953733614, "token_acc": 0.3723640399556049, "epoch": 0.05045292970989566, "step": 110}, {"loss": 3.372527837753296, "grad_norm": 0.5874132513999939, "learning_rate": 0.0009988834393115766, "token_acc": 0.37150916784203103, "epoch": 0.05091159270725834, "step": 111}, {"loss": 3.3951525688171387, "grad_norm": 0.5767446756362915, "learning_rate": 0.000998833282526872, "token_acc": 0.3695039458850056, "epoch": 0.05137025570462103, "step": 112}, {"loss": 3.391263246536255, "grad_norm": 0.48997122049331665, "learning_rate": 0.0009987820251299122, "token_acc": 0.37534097108565195, "epoch": 0.051828918701983716, "step": 113}, {"loss": 3.3959829807281494, "grad_norm": 0.5470476746559143, "learning_rate": 0.00099872966723379, "token_acc": 0.37472283813747226, "epoch": 0.05228758169934641, "step": 114}, {"loss": 3.217118978500366, "grad_norm": 0.6191883683204651, "learning_rate": 0.0009986762089540266, "token_acc": 0.40249787113255747, "epoch": 0.05274624469670909, "step": 115}, {"loss": 3.3129892349243164, "grad_norm": 0.49316704273223877, "learning_rate": 0.0009986216504085709, "token_acc": 0.39786156443444004, "epoch": 0.05320490769407178, "step": 116}, {"loss": 3.328044891357422, "grad_norm": 0.7600622177124023, "learning_rate": 0.0009985659917177991, "token_acc": 0.3867768595041322, "epoch": 0.053663570691434466, "step": 117}, {"loss": 3.213757038116455, "grad_norm": 0.5792534351348877, "learning_rate": 0.0009985092330045155, "token_acc": 0.39055330634278, "epoch": 0.05412223368879716, "step": 118}, {"loss": 3.3834590911865234, "grad_norm": 0.6456693410873413, "learning_rate": 0.0009984513743939508, "token_acc": 0.37679558011049724, "epoch": 0.05458089668615984, "step": 119}, {"loss": 3.385931968688965, "grad_norm": 0.4933325946331024, "learning_rate": 0.0009983924160137626, "token_acc": 0.37689804772234275, "epoch": 0.05503955968352253, "step": 120}, {"loss": 3.245725631713867, "grad_norm": 0.62879878282547, "learning_rate": 0.000998332357994035, "token_acc": 0.4, "epoch": 0.05549822268088522, "step": 121}, {"loss": 3.3588757514953613, "grad_norm": 0.48477134108543396, "learning_rate": 0.0009982712004672786, "token_acc": 0.3801742919389978, "epoch": 0.05595688567824791, "step": 122}, {"loss": 3.3898701667785645, "grad_norm": 0.6909441351890564, "learning_rate": 0.0009982089435684295, "token_acc": 0.3759185980780102, "epoch": 0.0564155486756106, "step": 123}, {"loss": 3.2565951347351074, "grad_norm": 0.5182231664657593, "learning_rate": 0.0009981455874348499, "token_acc": 0.3962210134554824, "epoch": 0.05687421167297328, "step": 124}, {"loss": 3.309131145477295, "grad_norm": 0.7223635315895081, "learning_rate": 0.0009980811322063269, "token_acc": 0.392536881689326, "epoch": 0.05733287467033597, "step": 125}, {"loss": 3.2291173934936523, "grad_norm": 0.5949826836585999, "learning_rate": 0.0009980155780250728, "token_acc": 0.398005698005698, "epoch": 0.05779153766769866, "step": 126}, {"loss": 3.225986957550049, "grad_norm": 0.5459883809089661, "learning_rate": 0.0009979489250357243, "token_acc": 0.3967314736545506, "epoch": 0.05825020066506135, "step": 127}, {"loss": 3.3751397132873535, "grad_norm": 0.5994998216629028, "learning_rate": 0.0009978811733853431, "token_acc": 0.37531987489337504, "epoch": 0.05870886366242403, "step": 128}, {"loss": 3.3004636764526367, "grad_norm": 0.5532410740852356, "learning_rate": 0.0009978123232234147, "token_acc": 0.39311642914762035, "epoch": 0.05916752665978672, "step": 129}, {"loss": 3.2083373069763184, "grad_norm": 0.4959070384502411, "learning_rate": 0.000997742374701848, "token_acc": 0.39251570609123193, "epoch": 0.05962618965714941, "step": 130}, {"loss": 3.257824420928955, "grad_norm": 0.45832115411758423, "learning_rate": 0.0009976713279749754, "token_acc": 0.3902852301609715, "epoch": 0.0600848526545121, "step": 131}, {"loss": 3.2704572677612305, "grad_norm": 0.6288501620292664, "learning_rate": 0.0009975991831995528, "token_acc": 0.3978645686990728, "epoch": 0.06054351565187478, "step": 132}, {"loss": 3.179764986038208, "grad_norm": 0.5479359030723572, "learning_rate": 0.0009975259405347581, "token_acc": 0.3874273054555525, "epoch": 0.06100217864923747, "step": 133}, {"loss": 3.154996871948242, "grad_norm": 0.5085932612419128, "learning_rate": 0.0009974516001421926, "token_acc": 0.3973054715424801, "epoch": 0.06146084164660016, "step": 134}, {"loss": 3.2330880165100098, "grad_norm": 0.5536165237426758, "learning_rate": 0.000997376162185878, "token_acc": 0.3912552891396333, "epoch": 0.06191950464396285, "step": 135}, {"loss": 3.279088258743286, "grad_norm": 0.5158190727233887, "learning_rate": 0.0009972996268322594, "token_acc": 0.3908812899638588, "epoch": 0.06237816764132553, "step": 136}, {"loss": 3.198488712310791, "grad_norm": 0.5250589847564697, "learning_rate": 0.0009972219942502017, "token_acc": 0.3973275156803927, "epoch": 0.06283683063868822, "step": 137}, {"loss": 3.235125780105591, "grad_norm": 0.4934110939502716, "learning_rate": 0.0009971432646109918, "token_acc": 0.38868866093706683, "epoch": 0.06329549363605091, "step": 138}, {"loss": 3.115957260131836, "grad_norm": 0.4970228672027588, "learning_rate": 0.0009970634380883365, "token_acc": 0.40145985401459855, "epoch": 0.0637541566334136, "step": 139}, {"loss": 3.2003121376037598, "grad_norm": 0.5510164499282837, "learning_rate": 0.0009969825148583627, "token_acc": 0.39255840784539947, "epoch": 0.06421281963077628, "step": 140}, {"loss": 3.27793550491333, "grad_norm": 0.5686467289924622, "learning_rate": 0.0009969004950996173, "token_acc": 0.3974033305108665, "epoch": 0.06467148262813897, "step": 141}, {"loss": 3.1479763984680176, "grad_norm": 0.495929479598999, "learning_rate": 0.0009968173789930668, "token_acc": 0.3997214484679666, "epoch": 0.06513014562550166, "step": 142}, {"loss": 3.1552486419677734, "grad_norm": 0.5312603712081909, "learning_rate": 0.0009967331667220958, "token_acc": 0.40129177197416455, "epoch": 0.06558880862286436, "step": 143}, {"loss": 3.1986045837402344, "grad_norm": 0.4758537709712982, "learning_rate": 0.0009966478584725086, "token_acc": 0.3884016973125884, "epoch": 0.06604747162022703, "step": 144}, {"loss": 3.197282552719116, "grad_norm": 0.47298938035964966, "learning_rate": 0.0009965614544325263, "token_acc": 0.40279681930353717, "epoch": 0.06650613461758972, "step": 145}, {"loss": 3.1309452056884766, "grad_norm": 0.47355562448501587, "learning_rate": 0.000996473954792789, "token_acc": 0.3980350504514073, "epoch": 0.06696479761495241, "step": 146}, {"loss": 3.198099136352539, "grad_norm": 0.6271078586578369, "learning_rate": 0.0009963853597463532, "token_acc": 0.39842381786339753, "epoch": 0.0674234606123151, "step": 147}, {"loss": 3.1650633811950684, "grad_norm": 0.5167470574378967, "learning_rate": 0.000996295669488693, "token_acc": 0.38012489818083084, "epoch": 0.06788212360967778, "step": 148}, {"loss": 3.0213265419006348, "grad_norm": 0.48250827193260193, "learning_rate": 0.0009962048842176979, "token_acc": 0.4075112107623318, "epoch": 0.06834078660704047, "step": 149}, {"loss": 3.0998148918151855, "grad_norm": 0.4882107377052307, "learning_rate": 0.0009961130041336748, "token_acc": 0.398326359832636, "epoch": 0.06879944960440317, "step": 150}, {"loss": 3.1333916187286377, "grad_norm": 0.4939694106578827, "learning_rate": 0.0009960200294393449, "token_acc": 0.40798898071625345, "epoch": 0.06925811260176586, "step": 151}, {"loss": 3.1838574409484863, "grad_norm": 0.6528869271278381, "learning_rate": 0.0009959259603398453, "token_acc": 0.39456521739130435, "epoch": 0.06971677559912855, "step": 152}, {"loss": 3.1333155632019043, "grad_norm": 0.5198072791099548, "learning_rate": 0.0009958307970427275, "token_acc": 0.4032697547683924, "epoch": 0.07017543859649122, "step": 153}, {"loss": 3.078389883041382, "grad_norm": 0.5131497979164124, "learning_rate": 0.0009957345397579572, "token_acc": 0.40476190476190477, "epoch": 0.07063410159385392, "step": 154}, {"loss": 3.232649087905884, "grad_norm": 0.49800780415534973, "learning_rate": 0.0009956371886979138, "token_acc": 0.3868256980211439, "epoch": 0.0710927645912166, "step": 155}, {"loss": 3.2769150733947754, "grad_norm": 0.5495232343673706, "learning_rate": 0.00099553874407739, "token_acc": 0.38101640225867167, "epoch": 0.0715514275885793, "step": 156}, {"loss": 3.1467361450195312, "grad_norm": 0.5473746061325073, "learning_rate": 0.0009954392061135916, "token_acc": 0.39038621839399834, "epoch": 0.07201009058594197, "step": 157}, {"loss": 3.0797924995422363, "grad_norm": 0.5644493103027344, "learning_rate": 0.0009953385750261364, "token_acc": 0.40763274336283184, "epoch": 0.07246875358330467, "step": 158}, {"loss": 3.1925671100616455, "grad_norm": 0.5598791241645813, "learning_rate": 0.0009952368510370538, "token_acc": 0.38829052747859705, "epoch": 0.07292741658066736, "step": 159}, {"loss": 3.0903687477111816, "grad_norm": 0.5848110318183899, "learning_rate": 0.0009951340343707852, "token_acc": 0.3980467593962711, "epoch": 0.07338607957803005, "step": 160}, {"loss": 3.163787841796875, "grad_norm": 0.5031583309173584, "learning_rate": 0.0009950301252541823, "token_acc": 0.40628604382929645, "epoch": 0.07384474257539272, "step": 161}, {"loss": 3.13171648979187, "grad_norm": 0.6483263373374939, "learning_rate": 0.0009949251239165075, "token_acc": 0.39026998128842555, "epoch": 0.07430340557275542, "step": 162}, {"loss": 3.1401309967041016, "grad_norm": 0.6655116677284241, "learning_rate": 0.000994819030589433, "token_acc": 0.39890867317633544, "epoch": 0.0747620685701181, "step": 163}, {"loss": 3.123441696166992, "grad_norm": 0.5282167196273804, "learning_rate": 0.00099471184550704, "token_acc": 0.40553250345781466, "epoch": 0.0752207315674808, "step": 164}, {"loss": 3.1445727348327637, "grad_norm": 0.5869361758232117, "learning_rate": 0.0009946035689058189, "token_acc": 0.39865771812080536, "epoch": 0.07567939456484347, "step": 165}, {"loss": 3.201768398284912, "grad_norm": 0.5184969305992126, "learning_rate": 0.0009944942010246681, "token_acc": 0.3790849673202614, "epoch": 0.07613805756220617, "step": 166}, {"loss": 3.070108413696289, "grad_norm": 0.5623889565467834, "learning_rate": 0.0009943837421048942, "token_acc": 0.4032390886631897, "epoch": 0.07659672055956886, "step": 167}, {"loss": 3.099198818206787, "grad_norm": 0.46002712845802307, "learning_rate": 0.0009942721923902106, "token_acc": 0.40895104895104895, "epoch": 0.07705538355693155, "step": 168}, {"loss": 3.0090246200561523, "grad_norm": 0.5260730385780334, "learning_rate": 0.0009941595521267377, "token_acc": 0.4082857142857143, "epoch": 0.07751404655429424, "step": 169}, {"loss": 3.072448253631592, "grad_norm": 0.4930124282836914, "learning_rate": 0.0009940458215630017, "token_acc": 0.40625, "epoch": 0.07797270955165692, "step": 170}, {"loss": 3.058135509490967, "grad_norm": 0.5549517869949341, "learning_rate": 0.0009939310009499348, "token_acc": 0.4042908888269713, "epoch": 0.0784313725490196, "step": 171}, {"loss": 3.005629777908325, "grad_norm": 0.599074125289917, "learning_rate": 0.000993815090540874, "token_acc": 0.41917502787068006, "epoch": 0.0788900355463823, "step": 172}, {"loss": 3.1162829399108887, "grad_norm": 0.5849031805992126, "learning_rate": 0.000993698090591561, "token_acc": 0.4183420545304324, "epoch": 0.07934869854374499, "step": 173}, {"loss": 2.9923558235168457, "grad_norm": 0.518694281578064, "learning_rate": 0.0009935800013601416, "token_acc": 0.42321780783319246, "epoch": 0.07980736154110767, "step": 174}, {"loss": 3.071643114089966, "grad_norm": 0.6214985251426697, "learning_rate": 0.000993460823107164, "token_acc": 0.4050951847704367, "epoch": 0.08026602453847036, "step": 175}, {"loss": 3.0221118927001953, "grad_norm": 0.5082798004150391, "learning_rate": 0.0009933405560955803, "token_acc": 0.41281241022694626, "epoch": 0.08072468753583305, "step": 176}, {"loss": 3.0243191719055176, "grad_norm": 0.5089051723480225, "learning_rate": 0.0009932192005907446, "token_acc": 0.41648230088495575, "epoch": 0.08118335053319574, "step": 177}, {"loss": 3.082242727279663, "grad_norm": 0.5226424932479858, "learning_rate": 0.0009930967568604118, "token_acc": 0.40386253905140584, "epoch": 0.08164201353055842, "step": 178}, {"loss": 3.0046510696411133, "grad_norm": 0.5430575013160706, "learning_rate": 0.000992973225174739, "token_acc": 0.41055718475073316, "epoch": 0.08210067652792111, "step": 179}, {"loss": 3.0243120193481445, "grad_norm": 0.5573244094848633, "learning_rate": 0.0009928486058062827, "token_acc": 0.42710859606575047, "epoch": 0.0825593395252838, "step": 180}, {"loss": 2.9854307174682617, "grad_norm": 0.5368469953536987, "learning_rate": 0.0009927228990299999, "token_acc": 0.4165232358003442, "epoch": 0.08301800252264649, "step": 181}, {"loss": 3.011894941329956, "grad_norm": 0.501571536064148, "learning_rate": 0.0009925961051232468, "token_acc": 0.4216970387243736, "epoch": 0.08347666552000918, "step": 182}, {"loss": 3.0376062393188477, "grad_norm": 0.5749439597129822, "learning_rate": 0.000992468224365778, "token_acc": 0.41257966195622053, "epoch": 0.08393532851737186, "step": 183}, {"loss": 2.9668054580688477, "grad_norm": 0.4928274154663086, "learning_rate": 0.000992339257039746, "token_acc": 0.4200680272108844, "epoch": 0.08439399151473455, "step": 184}, {"loss": 3.0190951824188232, "grad_norm": 0.5379028916358948, "learning_rate": 0.0009922092034297006, "token_acc": 0.41700879765395893, "epoch": 0.08485265451209724, "step": 185}, {"loss": 3.0155673027038574, "grad_norm": 0.5658338665962219, "learning_rate": 0.0009920780638225891, "token_acc": 0.41138530566461023, "epoch": 0.08531131750945993, "step": 186}, {"loss": 2.8739476203918457, "grad_norm": 0.5691428780555725, "learning_rate": 0.0009919458385077538, "token_acc": 0.4246844319775596, "epoch": 0.08576998050682261, "step": 187}, {"loss": 2.940361499786377, "grad_norm": 0.6267986297607422, "learning_rate": 0.0009918125277769336, "token_acc": 0.4196078431372549, "epoch": 0.0862286435041853, "step": 188}, {"loss": 2.9900636672973633, "grad_norm": 0.5709134936332703, "learning_rate": 0.0009916781319242614, "token_acc": 0.41562064156206413, "epoch": 0.08668730650154799, "step": 189}, {"loss": 3.0259649753570557, "grad_norm": 0.7565932273864746, "learning_rate": 0.0009915426512462646, "token_acc": 0.40775623268698064, "epoch": 0.08714596949891068, "step": 190}, {"loss": 2.9895684719085693, "grad_norm": 0.562564492225647, "learning_rate": 0.0009914060860418644, "token_acc": 0.4083170527490929, "epoch": 0.08760463249627336, "step": 191}, {"loss": 2.9440011978149414, "grad_norm": 0.7307088971138, "learning_rate": 0.000991268436612374, "token_acc": 0.4139275766016713, "epoch": 0.08806329549363605, "step": 192}, {"loss": 3.0462260246276855, "grad_norm": 0.5804943442344666, "learning_rate": 0.0009911297032614997, "token_acc": 0.40542035398230086, "epoch": 0.08852195849099874, "step": 193}, {"loss": 3.0358266830444336, "grad_norm": 0.5728293061256409, "learning_rate": 0.000990989886295339, "token_acc": 0.4182282793867121, "epoch": 0.08898062148836143, "step": 194}, {"loss": 3.0980992317199707, "grad_norm": 0.6788930296897888, "learning_rate": 0.0009908489860223804, "token_acc": 0.40238704177323104, "epoch": 0.08943928448572411, "step": 195}, {"loss": 2.900399684906006, "grad_norm": 0.5790948271751404, "learning_rate": 0.000990707002753502, "token_acc": 0.42435218723878515, "epoch": 0.0898979474830868, "step": 196}, {"loss": 2.8389477729797363, "grad_norm": 0.6170215010643005, "learning_rate": 0.0009905639368019724, "token_acc": 0.42612839921502665, "epoch": 0.09035661048044949, "step": 197}, {"loss": 2.790898323059082, "grad_norm": 0.570745587348938, "learning_rate": 0.0009904197884834482, "token_acc": 0.4378994165045846, "epoch": 0.09081527347781218, "step": 198}, {"loss": 2.9808239936828613, "grad_norm": 0.5969982147216797, "learning_rate": 0.0009902745581159742, "token_acc": 0.42574786324786323, "epoch": 0.09127393647517487, "step": 199}, {"loss": 2.900136947631836, "grad_norm": 0.5569668412208557, "learning_rate": 0.0009901282460199829, "token_acc": 0.4230555555555556, "epoch": 0.09173259947253755, "step": 200}, {"loss": 2.9313182830810547, "grad_norm": 0.540507972240448, "learning_rate": 0.0009899808525182935, "token_acc": 0.4305901911886949, "epoch": 0.09219126246990024, "step": 201}, {"loss": 2.9265894889831543, "grad_norm": 0.593533456325531, "learning_rate": 0.0009898323779361107, "token_acc": 0.4221404303510759, "epoch": 0.09264992546726293, "step": 202}, {"loss": 2.8799049854278564, "grad_norm": 0.5101314187049866, "learning_rate": 0.000989682822601025, "token_acc": 0.4207813347802496, "epoch": 0.09310858846462562, "step": 203}, {"loss": 2.8317041397094727, "grad_norm": 0.549468457698822, "learning_rate": 0.0009895321868430113, "token_acc": 0.44077510917030566, "epoch": 0.0935672514619883, "step": 204}, {"loss": 2.916252374649048, "grad_norm": 0.6261354088783264, "learning_rate": 0.0009893804709944281, "token_acc": 0.43227091633466136, "epoch": 0.09402591445935099, "step": 205}, {"loss": 2.819794178009033, "grad_norm": 0.6133216619491577, "learning_rate": 0.0009892276753900174, "token_acc": 0.449629426297008, "epoch": 0.09448457745671368, "step": 206}, {"loss": 2.941122531890869, "grad_norm": 0.568579375743866, "learning_rate": 0.0009890738003669028, "token_acc": 0.4137741046831956, "epoch": 0.09494324045407637, "step": 207}, {"loss": 2.7993907928466797, "grad_norm": 0.6269049644470215, "learning_rate": 0.0009889188462645904, "token_acc": 0.43831438868866096, "epoch": 0.09540190345143905, "step": 208}, {"loss": 2.9074909687042236, "grad_norm": 0.567550003528595, "learning_rate": 0.0009887628134249667, "token_acc": 0.4260700389105058, "epoch": 0.09586056644880174, "step": 209}, {"loss": 2.917890787124634, "grad_norm": 0.5696444511413574, "learning_rate": 0.0009886057021922983, "token_acc": 0.4228571428571429, "epoch": 0.09631922944616443, "step": 210}, {"loss": 2.8712992668151855, "grad_norm": 0.554904580116272, "learning_rate": 0.0009884475129132311, "token_acc": 0.4374301675977654, "epoch": 0.09677789244352712, "step": 211}, {"loss": 2.7397289276123047, "grad_norm": 0.5444774627685547, "learning_rate": 0.0009882882459367897, "token_acc": 0.4525290776305112, "epoch": 0.09723655544088981, "step": 212}, {"loss": 2.7851297855377197, "grad_norm": 0.5548387765884399, "learning_rate": 0.0009881279016143766, "token_acc": 0.4336473755047106, "epoch": 0.09769521843825249, "step": 213}, {"loss": 2.8806750774383545, "grad_norm": 0.5498785376548767, "learning_rate": 0.0009879664802997707, "token_acc": 0.42422535211267604, "epoch": 0.09815388143561518, "step": 214}, {"loss": 2.889479637145996, "grad_norm": 0.5503478050231934, "learning_rate": 0.000987803982349128, "token_acc": 0.43131548311990686, "epoch": 0.09861254443297787, "step": 215}, {"loss": 2.837960958480835, "grad_norm": 0.5529974102973938, "learning_rate": 0.0009876404081209796, "token_acc": 0.4463470319634703, "epoch": 0.09907120743034056, "step": 216}, {"loss": 2.789881706237793, "grad_norm": 0.5562537312507629, "learning_rate": 0.000987475757976231, "token_acc": 0.4521617852161785, "epoch": 0.09952987042770324, "step": 217}, {"loss": 2.839132070541382, "grad_norm": 0.5584325194358826, "learning_rate": 0.000987310032278162, "token_acc": 0.4403747870528109, "epoch": 0.09998853342506593, "step": 218}, {"loss": 2.8884735107421875, "grad_norm": 0.5202255845069885, "learning_rate": 0.0009871432313924254, "token_acc": 0.4330708661417323, "epoch": 0.10044719642242862, "step": 219}, {"loss": 2.846851348876953, "grad_norm": 0.5353502631187439, "learning_rate": 0.000986975355687046, "token_acc": 0.42773551784669395, "epoch": 0.10090585941979131, "step": 220}, {"loss": 2.887118101119995, "grad_norm": 0.4803241789340973, "learning_rate": 0.0009868064055324204, "token_acc": 0.42552602436323367, "epoch": 0.10136452241715399, "step": 221}, {"loss": 2.740333080291748, "grad_norm": 0.4748958647251129, "learning_rate": 0.0009866363813013153, "token_acc": 0.4509423503325942, "epoch": 0.10182318541451668, "step": 222}, {"loss": 2.805943012237549, "grad_norm": 0.5004998445510864, "learning_rate": 0.0009864652833688676, "token_acc": 0.43505266000540105, "epoch": 0.10228184841187937, "step": 223}, {"loss": 2.793546199798584, "grad_norm": 0.5053765177726746, "learning_rate": 0.0009862931121125836, "token_acc": 0.43488555643251775, "epoch": 0.10274051140924206, "step": 224}, {"loss": 2.827031135559082, "grad_norm": 0.583875298500061, "learning_rate": 0.000986119867912337, "token_acc": 0.4481292517006803, "epoch": 0.10319917440660474, "step": 225}, {"loss": 2.762326717376709, "grad_norm": 0.5419859886169434, "learning_rate": 0.000985945551150369, "token_acc": 0.44920235096557515, "epoch": 0.10365783740396743, "step": 226}, {"loss": 2.6175482273101807, "grad_norm": 0.5514088869094849, "learning_rate": 0.0009857701622112876, "token_acc": 0.45556176634991613, "epoch": 0.10411650040133012, "step": 227}, {"loss": 2.8145639896392822, "grad_norm": 0.5651687383651733, "learning_rate": 0.000985593701482066, "token_acc": 0.4372133027522936, "epoch": 0.10457516339869281, "step": 228}, {"loss": 2.7829031944274902, "grad_norm": 0.570810854434967, "learning_rate": 0.0009854161693520424, "token_acc": 0.44024289263041677, "epoch": 0.1050338263960555, "step": 229}, {"loss": 2.7513632774353027, "grad_norm": 0.5228450298309326, "learning_rate": 0.0009852375662129194, "token_acc": 0.4459224985540775, "epoch": 0.10549248939341818, "step": 230}, {"loss": 2.836071014404297, "grad_norm": 0.558660626411438, "learning_rate": 0.0009850578924587613, "token_acc": 0.4409902130109384, "epoch": 0.10595115239078087, "step": 231}, {"loss": 2.8618927001953125, "grad_norm": 0.4837777018547058, "learning_rate": 0.000984877148485996, "token_acc": 0.4326487063216858, "epoch": 0.10640981538814356, "step": 232}, {"loss": 2.684800386428833, "grad_norm": 0.5952545404434204, "learning_rate": 0.000984695334693412, "token_acc": 0.45030425963488846, "epoch": 0.10686847838550625, "step": 233}, {"loss": 2.836019515991211, "grad_norm": 0.530125617980957, "learning_rate": 0.000984512451482158, "token_acc": 0.43385939741750357, "epoch": 0.10732714138286893, "step": 234}, {"loss": 2.6370129585266113, "grad_norm": 0.5532754063606262, "learning_rate": 0.0009843284992557431, "token_acc": 0.45446710715311694, "epoch": 0.10778580438023162, "step": 235}, {"loss": 2.7489161491394043, "grad_norm": 0.5605490803718567, "learning_rate": 0.000984143478420034, "token_acc": 0.43981117230527145, "epoch": 0.10824446737759431, "step": 236}, {"loss": 2.7710604667663574, "grad_norm": 0.6163219213485718, "learning_rate": 0.0009839573893832563, "token_acc": 0.432711061577041, "epoch": 0.108703130374957, "step": 237}, {"loss": 2.6544623374938965, "grad_norm": 0.5578672289848328, "learning_rate": 0.000983770232555991, "token_acc": 0.4618181818181818, "epoch": 0.10916179337231968, "step": 238}, {"loss": 2.6688618659973145, "grad_norm": 0.5124946236610413, "learning_rate": 0.0009835820083511765, "token_acc": 0.4527761877504293, "epoch": 0.10962045636968237, "step": 239}, {"loss": 2.864449977874756, "grad_norm": 0.5671712756156921, "learning_rate": 0.0009833927171841055, "token_acc": 0.4373146400647075, "epoch": 0.11007911936704506, "step": 240}, {"loss": 2.767341136932373, "grad_norm": 0.574104905128479, "learning_rate": 0.0009832023594724246, "token_acc": 0.44297752808988766, "epoch": 0.11053778236440776, "step": 241}, {"loss": 2.7476189136505127, "grad_norm": 0.4860352873802185, "learning_rate": 0.0009830109356361344, "token_acc": 0.4378332865562728, "epoch": 0.11099644536177045, "step": 242}, {"loss": 2.717127799987793, "grad_norm": 0.4607715904712677, "learning_rate": 0.0009828184460975867, "token_acc": 0.45174594445971955, "epoch": 0.11145510835913312, "step": 243}, {"loss": 2.8432326316833496, "grad_norm": 0.4885717034339905, "learning_rate": 0.0009826248912814855, "token_acc": 0.43477066739906617, "epoch": 0.11191377135649581, "step": 244}, {"loss": 2.7339110374450684, "grad_norm": 0.49770957231521606, "learning_rate": 0.0009824302716148847, "token_acc": 0.45615538417594975, "epoch": 0.1123724343538585, "step": 245}, {"loss": 2.803290843963623, "grad_norm": 0.48586538434028625, "learning_rate": 0.0009822345875271884, "token_acc": 0.43729903536977494, "epoch": 0.1128310973512212, "step": 246}, {"loss": 2.7158820629119873, "grad_norm": 0.47004836797714233, "learning_rate": 0.0009820378394501481, "token_acc": 0.44130008405715887, "epoch": 0.11328976034858387, "step": 247}, {"loss": 2.7092905044555664, "grad_norm": 0.4864044487476349, "learning_rate": 0.0009818400278178636, "token_acc": 0.4488888888888889, "epoch": 0.11374842334594656, "step": 248}, {"loss": 2.6776576042175293, "grad_norm": 0.48333030939102173, "learning_rate": 0.0009816411530667814, "token_acc": 0.44512877939529677, "epoch": 0.11420708634330926, "step": 249}, {"loss": 2.6693131923675537, "grad_norm": 0.539463460445404, "learning_rate": 0.000981441215635693, "token_acc": 0.467118261360429, "epoch": 0.11466574934067195, "step": 250}, {"loss": 2.740495204925537, "grad_norm": 0.50631183385849, "learning_rate": 0.0009812402159657353, "token_acc": 0.4556473829201102, "epoch": 0.11512441233803462, "step": 251}, {"loss": 2.6241979598999023, "grad_norm": 0.4745313823223114, "learning_rate": 0.000981038154500388, "token_acc": 0.4530735455543359, "epoch": 0.11558307533539731, "step": 252}, {"loss": 2.687938690185547, "grad_norm": 0.5077370405197144, "learning_rate": 0.0009808350316854746, "token_acc": 0.4496739438616388, "epoch": 0.11604173833276, "step": 253}, {"loss": 2.6657698154449463, "grad_norm": 0.4698963761329651, "learning_rate": 0.0009806308479691594, "token_acc": 0.4631284916201117, "epoch": 0.1165004013301227, "step": 254}, {"loss": 2.7079544067382812, "grad_norm": 0.48045700788497925, "learning_rate": 0.0009804256038019482, "token_acc": 0.455503188245079, "epoch": 0.11695906432748537, "step": 255}, {"loss": 2.8019728660583496, "grad_norm": 0.471588671207428, "learning_rate": 0.0009802192996366857, "token_acc": 0.42849051260266213, "epoch": 0.11741772732484806, "step": 256}, {"loss": 2.719996929168701, "grad_norm": 0.4373902678489685, "learning_rate": 0.0009800119359285563, "token_acc": 0.4490566037735849, "epoch": 0.11787639032221076, "step": 257}, {"loss": 2.750486373901367, "grad_norm": 0.4419008791446686, "learning_rate": 0.0009798035131350813, "token_acc": 0.4469820554649266, "epoch": 0.11833505331957345, "step": 258}, {"loss": 2.6923322677612305, "grad_norm": 0.45689576864242554, "learning_rate": 0.0009795940317161194, "token_acc": 0.4683226346636896, "epoch": 0.11879371631693614, "step": 259}, {"loss": 2.6704845428466797, "grad_norm": 0.4678480625152588, "learning_rate": 0.0009793834921338646, "token_acc": 0.4461582405027135, "epoch": 0.11925237931429881, "step": 260}, {"loss": 2.6925084590911865, "grad_norm": 0.4603913128376007, "learning_rate": 0.0009791718948528457, "token_acc": 0.449945295404814, "epoch": 0.1197110423116615, "step": 261}, {"loss": 2.7791624069213867, "grad_norm": 0.48764804005622864, "learning_rate": 0.0009789592403399252, "token_acc": 0.4376874829560949, "epoch": 0.1201697053090242, "step": 262}, {"loss": 2.6090641021728516, "grad_norm": 0.5074710249900818, "learning_rate": 0.0009787455290642985, "token_acc": 0.45748054194292304, "epoch": 0.12062836830638689, "step": 263}, {"loss": 2.7932376861572266, "grad_norm": 0.49795079231262207, "learning_rate": 0.000978530761497492, "token_acc": 0.44228055320349985, "epoch": 0.12108703130374956, "step": 264}, {"loss": 2.7531380653381348, "grad_norm": 0.5155557990074158, "learning_rate": 0.0009783149381133633, "token_acc": 0.439419795221843, "epoch": 0.12154569430111226, "step": 265}, {"loss": 2.800661087036133, "grad_norm": 0.4545442759990692, "learning_rate": 0.0009780980593880992, "token_acc": 0.43864519711271516, "epoch": 0.12200435729847495, "step": 266}, {"loss": 2.895918369293213, "grad_norm": 0.4660552144050598, "learning_rate": 0.0009778801258002153, "token_acc": 0.4375, "epoch": 0.12246302029583764, "step": 267}, {"loss": 2.787299156188965, "grad_norm": 0.47203075885772705, "learning_rate": 0.000977661137830554, "token_acc": 0.4434557979334099, "epoch": 0.12292168329320032, "step": 268}, {"loss": 2.7425215244293213, "grad_norm": 0.48214566707611084, "learning_rate": 0.0009774410959622845, "token_acc": 0.4540525114155251, "epoch": 0.123380346290563, "step": 269}, {"loss": 2.6146833896636963, "grad_norm": 0.4810029864311218, "learning_rate": 0.000977220000680901, "token_acc": 0.4693069306930693, "epoch": 0.1238390092879257, "step": 270}, {"loss": 2.6429827213287354, "grad_norm": 0.49819162487983704, "learning_rate": 0.000976997852474223, "token_acc": 0.45541490857946554, "epoch": 0.12429767228528839, "step": 271}, {"loss": 2.601815700531006, "grad_norm": 0.48519694805145264, "learning_rate": 0.0009767746518323914, "token_acc": 0.46147110332749564, "epoch": 0.12475633528265107, "step": 272}, {"loss": 2.755178928375244, "grad_norm": 0.4626546800136566, "learning_rate": 0.0009765503992478704, "token_acc": 0.4522844011895107, "epoch": 0.12521499828001376, "step": 273}, {"loss": 2.6168665885925293, "grad_norm": 0.44029468297958374, "learning_rate": 0.0009763250952154449, "token_acc": 0.4608244608244608, "epoch": 0.12567366127737645, "step": 274}, {"loss": 2.738861560821533, "grad_norm": 0.49189871549606323, "learning_rate": 0.0009760987402322195, "token_acc": 0.43494749124854143, "epoch": 0.12613232427473914, "step": 275}, {"loss": 2.7233986854553223, "grad_norm": 0.4711836576461792, "learning_rate": 0.0009758713347976178, "token_acc": 0.44700854700854703, "epoch": 0.12659098727210183, "step": 276}, {"loss": 2.7250137329101562, "grad_norm": 0.46865519881248474, "learning_rate": 0.000975642879413381, "token_acc": 0.4469882801853366, "epoch": 0.12704965026946452, "step": 277}, {"loss": 2.631627082824707, "grad_norm": 0.48860496282577515, "learning_rate": 0.0009754133745835665, "token_acc": 0.4510760401721664, "epoch": 0.1275083132668272, "step": 278}, {"loss": 2.711574077606201, "grad_norm": 0.471628874540329, "learning_rate": 0.0009751828208145482, "token_acc": 0.4500846023688663, "epoch": 0.12796697626418987, "step": 279}, {"loss": 2.6659445762634277, "grad_norm": 0.4410566985607147, "learning_rate": 0.0009749512186150131, "token_acc": 0.45608011444921315, "epoch": 0.12842563926155257, "step": 280}, {"loss": 2.576528549194336, "grad_norm": 0.4598624110221863, "learning_rate": 0.0009747185684959625, "token_acc": 0.4682209270052734, "epoch": 0.12888430225891526, "step": 281}, {"loss": 2.60367488861084, "grad_norm": 0.4531632661819458, "learning_rate": 0.000974484870970709, "token_acc": 0.4615814473316569, "epoch": 0.12934296525627795, "step": 282}, {"loss": 2.7014331817626953, "grad_norm": 0.48766836524009705, "learning_rate": 0.0009742501265548767, "token_acc": 0.45675675675675675, "epoch": 0.12980162825364064, "step": 283}, {"loss": 2.743968963623047, "grad_norm": 0.45787861943244934, "learning_rate": 0.0009740143357663993, "token_acc": 0.438132733408324, "epoch": 0.13026029125100333, "step": 284}, {"loss": 2.580028533935547, "grad_norm": 0.4447533190250397, "learning_rate": 0.000973777499125519, "token_acc": 0.4640931024694862, "epoch": 0.13071895424836602, "step": 285}, {"loss": 2.709049701690674, "grad_norm": 0.42102017998695374, "learning_rate": 0.0009735396171547859, "token_acc": 0.46093538794268724, "epoch": 0.1311776172457287, "step": 286}, {"loss": 2.666001796722412, "grad_norm": 0.4520343542098999, "learning_rate": 0.0009733006903790564, "token_acc": 0.4589022011702424, "epoch": 0.13163628024309137, "step": 287}, {"loss": 2.6493330001831055, "grad_norm": 0.45855414867401123, "learning_rate": 0.0009730607193254922, "token_acc": 0.4474182211408489, "epoch": 0.13209494324045407, "step": 288}, {"loss": 2.7342629432678223, "grad_norm": 0.4588400721549988, "learning_rate": 0.0009728197045235585, "token_acc": 0.4611784140969163, "epoch": 0.13255360623781676, "step": 289}, {"loss": 2.7004497051239014, "grad_norm": 0.44269150495529175, "learning_rate": 0.0009725776465050242, "token_acc": 0.4518966465090709, "epoch": 0.13301226923517945, "step": 290}, {"loss": 2.8211264610290527, "grad_norm": 0.42865708470344543, "learning_rate": 0.0009723345458039594, "token_acc": 0.4496976360637713, "epoch": 0.13347093223254214, "step": 291}, {"loss": 2.727714776992798, "grad_norm": 0.4593128263950348, "learning_rate": 0.000972090402956735, "token_acc": 0.4459072696050372, "epoch": 0.13392959522990483, "step": 292}, {"loss": 2.5863165855407715, "grad_norm": 0.47486087679862976, "learning_rate": 0.0009718452185020212, "token_acc": 0.46486928104575165, "epoch": 0.13438825822726752, "step": 293}, {"loss": 2.679780960083008, "grad_norm": 0.46855610609054565, "learning_rate": 0.0009715989929807862, "token_acc": 0.454753068798173, "epoch": 0.1348469212246302, "step": 294}, {"loss": 2.5102977752685547, "grad_norm": 0.4737672507762909, "learning_rate": 0.0009713517269362955, "token_acc": 0.4812465526751241, "epoch": 0.1353055842219929, "step": 295}, {"loss": 2.6829171180725098, "grad_norm": 0.4539264738559723, "learning_rate": 0.0009711034209141101, "token_acc": 0.45569620253164556, "epoch": 0.13576424721935557, "step": 296}, {"loss": 2.630279064178467, "grad_norm": 0.4509277939796448, "learning_rate": 0.0009708540754620856, "token_acc": 0.4627777777777778, "epoch": 0.13622291021671826, "step": 297}, {"loss": 2.7109832763671875, "grad_norm": 0.45156824588775635, "learning_rate": 0.0009706036911303713, "token_acc": 0.45323341659728006, "epoch": 0.13668157321408095, "step": 298}, {"loss": 2.683100700378418, "grad_norm": 0.4637218415737152, "learning_rate": 0.0009703522684714083, "token_acc": 0.454325631380978, "epoch": 0.13714023621144364, "step": 299}, {"loss": 2.62599515914917, "grad_norm": 0.4948784112930298, "learning_rate": 0.0009700998080399286, "token_acc": 0.47627118644067795, "epoch": 0.13759889920880633, "step": 300}, {"loss": 2.6045732498168945, "grad_norm": 0.4904714524745941, "learning_rate": 0.0009698463103929542, "token_acc": 0.45304496300512237, "epoch": 0.13805756220616902, "step": 301}, {"loss": 2.6724820137023926, "grad_norm": 0.4857576787471771, "learning_rate": 0.0009695917760897954, "token_acc": 0.446825827455236, "epoch": 0.1385162252035317, "step": 302}, {"loss": 2.6945180892944336, "grad_norm": 0.4905373156070709, "learning_rate": 0.0009693362056920501, "token_acc": 0.45143018974794674, "epoch": 0.1389748882008944, "step": 303}, {"loss": 2.607300043106079, "grad_norm": 0.4605286717414856, "learning_rate": 0.0009690795997636015, "token_acc": 0.45805555555555555, "epoch": 0.1394335511982571, "step": 304}, {"loss": 2.6524338722229004, "grad_norm": 0.4407762587070465, "learning_rate": 0.0009688219588706179, "token_acc": 0.44611885129371626, "epoch": 0.13989221419561976, "step": 305}, {"loss": 2.7355003356933594, "grad_norm": 0.49506306648254395, "learning_rate": 0.0009685632835815518, "token_acc": 0.4582977512097922, "epoch": 0.14035087719298245, "step": 306}, {"loss": 2.6687657833099365, "grad_norm": 0.45858341455459595, "learning_rate": 0.0009683035744671367, "token_acc": 0.46675712347354137, "epoch": 0.14080954019034514, "step": 307}, {"loss": 2.5958151817321777, "grad_norm": 0.45298895239830017, "learning_rate": 0.0009680428321003883, "token_acc": 0.4583093732029902, "epoch": 0.14126820318770783, "step": 308}, {"loss": 2.765871047973633, "grad_norm": 0.47553375363349915, "learning_rate": 0.000967781057056601, "token_acc": 0.4411520354472445, "epoch": 0.14172686618507052, "step": 309}, {"loss": 2.5899243354797363, "grad_norm": 0.4662638306617737, "learning_rate": 0.0009675182499133485, "token_acc": 0.47034368070953436, "epoch": 0.1421855291824332, "step": 310}, {"loss": 2.7456226348876953, "grad_norm": 0.4514010548591614, "learning_rate": 0.0009672544112504813, "token_acc": 0.43640350877192985, "epoch": 0.1426441921797959, "step": 311}, {"loss": 2.6584689617156982, "grad_norm": 0.44404852390289307, "learning_rate": 0.0009669895416501257, "token_acc": 0.4579004920721706, "epoch": 0.1431028551771586, "step": 312}, {"loss": 2.663342237472534, "grad_norm": 0.41799837350845337, "learning_rate": 0.0009667236416966833, "token_acc": 0.4572237960339943, "epoch": 0.14356151817452126, "step": 313}, {"loss": 2.716834545135498, "grad_norm": 0.46077635884284973, "learning_rate": 0.0009664567119768281, "token_acc": 0.4504792332268371, "epoch": 0.14402018117188395, "step": 314}, {"loss": 2.641364574432373, "grad_norm": 0.440729558467865, "learning_rate": 0.0009661887530795067, "token_acc": 0.4575074667390714, "epoch": 0.14447884416924664, "step": 315}, {"loss": 2.5541903972625732, "grad_norm": 0.4021221101284027, "learning_rate": 0.0009659197655959365, "token_acc": 0.46541584990198825, "epoch": 0.14493750716660933, "step": 316}, {"loss": 2.6294302940368652, "grad_norm": 0.41290542483329773, "learning_rate": 0.000965649750119604, "token_acc": 0.4622260668973472, "epoch": 0.14539617016397202, "step": 317}, {"loss": 2.609557628631592, "grad_norm": 0.49133044481277466, "learning_rate": 0.0009653787072462643, "token_acc": 0.4618406285072952, "epoch": 0.1458548331613347, "step": 318}, {"loss": 2.646521806716919, "grad_norm": 0.4281124472618103, "learning_rate": 0.0009651066375739388, "token_acc": 0.452445652173913, "epoch": 0.1463134961586974, "step": 319}, {"loss": 2.646510601043701, "grad_norm": 0.4512559175491333, "learning_rate": 0.000964833541702915, "token_acc": 0.45919256462387453, "epoch": 0.1467721591560601, "step": 320}, {"loss": 2.6195013523101807, "grad_norm": 0.48132291436195374, "learning_rate": 0.0009645594202357438, "token_acc": 0.46012961397576785, "epoch": 0.14723082215342279, "step": 321}, {"loss": 2.6827616691589355, "grad_norm": 0.4225758910179138, "learning_rate": 0.0009642842737772397, "token_acc": 0.4592445328031809, "epoch": 0.14768948515078545, "step": 322}, {"loss": 2.7056689262390137, "grad_norm": 0.4714726507663727, "learning_rate": 0.0009640081029344782, "token_acc": 0.4472032742155525, "epoch": 0.14814814814814814, "step": 323}, {"loss": 2.619565010070801, "grad_norm": 0.44620776176452637, "learning_rate": 0.0009637309083167956, "token_acc": 0.45176277671494947, "epoch": 0.14860681114551083, "step": 324}, {"loss": 2.5478286743164062, "grad_norm": 0.45049190521240234, "learning_rate": 0.0009634526905357859, "token_acc": 0.4800878879428728, "epoch": 0.14906547414287352, "step": 325}, {"loss": 2.7047977447509766, "grad_norm": 0.4652085304260254, "learning_rate": 0.000963173450205302, "token_acc": 0.45706999149900823, "epoch": 0.1495241371402362, "step": 326}, {"loss": 2.612150192260742, "grad_norm": 0.4410254955291748, "learning_rate": 0.0009628931879414517, "token_acc": 0.468645948945616, "epoch": 0.1499828001375989, "step": 327}, {"loss": 2.656696319580078, "grad_norm": 0.433908611536026, "learning_rate": 0.0009626119043625983, "token_acc": 0.4565102793885082, "epoch": 0.1504414631349616, "step": 328}, {"loss": 2.728360176086426, "grad_norm": 0.4078153371810913, "learning_rate": 0.0009623296000893582, "token_acc": 0.4491662183969876, "epoch": 0.15090012613232429, "step": 329}, {"loss": 2.6527769565582275, "grad_norm": 0.4310557246208191, "learning_rate": 0.0009620462757446, "token_acc": 0.4591385974599669, "epoch": 0.15135878912968695, "step": 330}, {"loss": 2.5204648971557617, "grad_norm": 0.44758525490760803, "learning_rate": 0.0009617619319534428, "token_acc": 0.47711511789181693, "epoch": 0.15181745212704964, "step": 331}, {"loss": 2.6252169609069824, "grad_norm": 0.4272925555706024, "learning_rate": 0.000961476569343255, "token_acc": 0.4616457461645746, "epoch": 0.15227611512441233, "step": 332}, {"loss": 2.675680637359619, "grad_norm": 0.4322047531604767, "learning_rate": 0.0009611901885436529, "token_acc": 0.4553056516724337, "epoch": 0.15273477812177502, "step": 333}, {"loss": 2.540499210357666, "grad_norm": 0.41309264302253723, "learning_rate": 0.0009609027901864996, "token_acc": 0.46470261256253476, "epoch": 0.1531934411191377, "step": 334}, {"loss": 2.546102285385132, "grad_norm": 0.4057660400867462, "learning_rate": 0.0009606143749059029, "token_acc": 0.4695453245639119, "epoch": 0.1536521041165004, "step": 335}, {"loss": 2.513627290725708, "grad_norm": 0.43747833371162415, "learning_rate": 0.0009603249433382144, "token_acc": 0.47656691134952006, "epoch": 0.1541107671138631, "step": 336}, {"loss": 2.5630908012390137, "grad_norm": 0.42677709460258484, "learning_rate": 0.0009600344961220282, "token_acc": 0.4673380511703865, "epoch": 0.1545694301112258, "step": 337}, {"loss": 2.6896262168884277, "grad_norm": 0.42010241746902466, "learning_rate": 0.0009597430338981791, "token_acc": 0.4583219458868543, "epoch": 0.15502809310858848, "step": 338}, {"loss": 2.550534725189209, "grad_norm": 0.4195159375667572, "learning_rate": 0.0009594505573097414, "token_acc": 0.4762301918265221, "epoch": 0.15548675610595114, "step": 339}, {"loss": 2.6144676208496094, "grad_norm": 0.9145894050598145, "learning_rate": 0.0009591570670020277, "token_acc": 0.463768115942029, "epoch": 0.15594541910331383, "step": 340}, {"loss": 2.5932719707489014, "grad_norm": 0.41407856345176697, "learning_rate": 0.0009588625636225871, "token_acc": 0.4684431977559607, "epoch": 0.15640408210067652, "step": 341}, {"loss": 2.5219039916992188, "grad_norm": 0.3991939127445221, "learning_rate": 0.0009585670478212036, "token_acc": 0.4842820730671198, "epoch": 0.1568627450980392, "step": 342}, {"loss": 2.740537405014038, "grad_norm": 0.3979887068271637, "learning_rate": 0.0009582705202498956, "token_acc": 0.44368600682593856, "epoch": 0.1573214080954019, "step": 343}, {"loss": 2.645550012588501, "grad_norm": 0.4085947275161743, "learning_rate": 0.0009579729815629133, "token_acc": 0.4454293628808864, "epoch": 0.1577800710927646, "step": 344}, {"loss": 2.6678290367126465, "grad_norm": 0.3952935039997101, "learning_rate": 0.0009576744324167379, "token_acc": 0.45360246705915336, "epoch": 0.1582387340901273, "step": 345}, {"loss": 2.665316104888916, "grad_norm": 0.4013282358646393, "learning_rate": 0.0009573748734700804, "token_acc": 0.4549803038829488, "epoch": 0.15869739708748998, "step": 346}, {"loss": 2.6518001556396484, "grad_norm": 0.43184563517570496, "learning_rate": 0.0009570743053838796, "token_acc": 0.4527277920594116, "epoch": 0.15915606008485264, "step": 347}, {"loss": 2.6103944778442383, "grad_norm": 0.43059587478637695, "learning_rate": 0.0009567727288213005, "token_acc": 0.4683982683982684, "epoch": 0.15961472308221533, "step": 348}, {"loss": 2.539630651473999, "grad_norm": 0.39773428440093994, "learning_rate": 0.0009564701444477337, "token_acc": 0.4700574241181296, "epoch": 0.16007338607957802, "step": 349}, {"loss": 2.5952489376068115, "grad_norm": 0.4003061354160309, "learning_rate": 0.000956166552930793, "token_acc": 0.46498371335504884, "epoch": 0.1605320490769407, "step": 350}, {"loss": 2.6801841259002686, "grad_norm": 0.41031357645988464, "learning_rate": 0.0009558619549403147, "token_acc": 0.459511391710129, "epoch": 0.1609907120743034, "step": 351}, {"loss": 2.5892770290374756, "grad_norm": 0.4316340684890747, "learning_rate": 0.0009555563511483555, "token_acc": 0.4663501815135437, "epoch": 0.1614493750716661, "step": 352}, {"loss": 2.6481175422668457, "grad_norm": 0.4244668483734131, "learning_rate": 0.0009552497422291912, "token_acc": 0.453839516824849, "epoch": 0.1619080380690288, "step": 353}, {"loss": 2.6002888679504395, "grad_norm": 0.43733328580856323, "learning_rate": 0.0009549421288593157, "token_acc": 0.4637600666481533, "epoch": 0.16236670106639148, "step": 354}, {"loss": 2.646571636199951, "grad_norm": 0.42245471477508545, "learning_rate": 0.0009546335117174385, "token_acc": 0.4745065789473684, "epoch": 0.16282536406375417, "step": 355}, {"loss": 2.68941593170166, "grad_norm": 0.4705248475074768, "learning_rate": 0.0009543238914844843, "token_acc": 0.4515946937623483, "epoch": 0.16328402706111683, "step": 356}, {"loss": 2.5946288108825684, "grad_norm": 0.42907077074050903, "learning_rate": 0.0009540132688435907, "token_acc": 0.46524663677130046, "epoch": 0.16374269005847952, "step": 357}, {"loss": 2.5938315391540527, "grad_norm": 0.44306936860084534, "learning_rate": 0.0009537016444801074, "token_acc": 0.4625831485587583, "epoch": 0.16420135305584221, "step": 358}, {"loss": 2.6404004096984863, "grad_norm": 0.45394963026046753, "learning_rate": 0.0009533890190815935, "token_acc": 0.46140845070422537, "epoch": 0.1646600160532049, "step": 359}, {"loss": 2.5607573986053467, "grad_norm": 0.3955903947353363, "learning_rate": 0.0009530753933378173, "token_acc": 0.47087776866283837, "epoch": 0.1651186790505676, "step": 360}, {"loss": 2.599848747253418, "grad_norm": 0.4902538061141968, "learning_rate": 0.0009527607679407545, "token_acc": 0.4620288248337029, "epoch": 0.1655773420479303, "step": 361}, {"loss": 2.5180816650390625, "grad_norm": 0.45067575573921204, "learning_rate": 0.0009524451435845857, "token_acc": 0.4786497403346797, "epoch": 0.16603600504529298, "step": 362}, {"loss": 2.6017041206359863, "grad_norm": 0.482149600982666, "learning_rate": 0.0009521285209656963, "token_acc": 0.45644796380090497, "epoch": 0.16649466804265567, "step": 363}, {"loss": 2.5994341373443604, "grad_norm": 0.451749712228775, "learning_rate": 0.0009518109007826734, "token_acc": 0.47328458942632173, "epoch": 0.16695333104001836, "step": 364}, {"loss": 2.636958122253418, "grad_norm": 0.42110058665275574, "learning_rate": 0.0009514922837363059, "token_acc": 0.47013907826561224, "epoch": 0.16741199403738102, "step": 365}, {"loss": 2.5942578315734863, "grad_norm": 0.44847872853279114, "learning_rate": 0.0009511726705295817, "token_acc": 0.4602957283680175, "epoch": 0.16787065703474371, "step": 366}, {"loss": 2.653465509414673, "grad_norm": 0.42123496532440186, "learning_rate": 0.000950852061867687, "token_acc": 0.44511858797573084, "epoch": 0.1683293200321064, "step": 367}, {"loss": 2.674640655517578, "grad_norm": 0.4216095209121704, "learning_rate": 0.0009505304584580038, "token_acc": 0.4494611127293912, "epoch": 0.1687879830294691, "step": 368}, {"loss": 2.6137852668762207, "grad_norm": 0.4416753053665161, "learning_rate": 0.0009502078610101092, "token_acc": 0.4727120067170445, "epoch": 0.1692466460268318, "step": 369}, {"loss": 2.509769916534424, "grad_norm": 0.41216611862182617, "learning_rate": 0.0009498842702357736, "token_acc": 0.46772428884026257, "epoch": 0.16970530902419448, "step": 370}, {"loss": 2.5886473655700684, "grad_norm": 0.4165962040424347, "learning_rate": 0.0009495596868489587, "token_acc": 0.4643769514618223, "epoch": 0.17016397202155717, "step": 371}, {"loss": 2.638978958129883, "grad_norm": 0.39617934823036194, "learning_rate": 0.0009492341115658167, "token_acc": 0.4578575312669929, "epoch": 0.17062263501891986, "step": 372}, {"loss": 2.629528045654297, "grad_norm": 0.41385167837142944, "learning_rate": 0.0009489075451046879, "token_acc": 0.44881450488145047, "epoch": 0.17108129801628252, "step": 373}, {"loss": 2.520348072052002, "grad_norm": 0.4302857518196106, "learning_rate": 0.0009485799881861, "token_acc": 0.46902901785714285, "epoch": 0.17153996101364521, "step": 374}, {"loss": 2.651028633117676, "grad_norm": 0.45588448643684387, "learning_rate": 0.0009482514415327654, "token_acc": 0.45060706401766004, "epoch": 0.1719986240110079, "step": 375}, {"loss": 2.5736663341522217, "grad_norm": 0.4505552649497986, "learning_rate": 0.000947921905869581, "token_acc": 0.47363636363636363, "epoch": 0.1724572870083706, "step": 376}, {"loss": 2.5957694053649902, "grad_norm": 0.40757641196250916, "learning_rate": 0.0009475913819236248, "token_acc": 0.47420417124039516, "epoch": 0.1729159500057333, "step": 377}, {"loss": 2.4885451793670654, "grad_norm": 0.4351325035095215, "learning_rate": 0.0009472598704241561, "token_acc": 0.4707658523195169, "epoch": 0.17337461300309598, "step": 378}, {"loss": 2.5353477001190186, "grad_norm": 0.40504732728004456, "learning_rate": 0.0009469273721026131, "token_acc": 0.4721159103335156, "epoch": 0.17383327600045867, "step": 379}, {"loss": 2.6405746936798096, "grad_norm": 0.38353148102760315, "learning_rate": 0.0009465938876926111, "token_acc": 0.46988950276243097, "epoch": 0.17429193899782136, "step": 380}, {"loss": 2.5685665607452393, "grad_norm": 0.3908288776874542, "learning_rate": 0.0009462594179299406, "token_acc": 0.47017045454545453, "epoch": 0.17475060199518405, "step": 381}, {"loss": 2.615957260131836, "grad_norm": 0.41922634840011597, "learning_rate": 0.0009459239635525672, "token_acc": 0.46454494695700727, "epoch": 0.17520926499254671, "step": 382}, {"loss": 2.593306541442871, "grad_norm": 0.4485314190387726, "learning_rate": 0.0009455875253006281, "token_acc": 0.46047430830039526, "epoch": 0.1756679279899094, "step": 383}, {"loss": 2.6363213062286377, "grad_norm": 0.3978206515312195, "learning_rate": 0.0009452501039164315, "token_acc": 0.4570466030320045, "epoch": 0.1761265909872721, "step": 384}, {"loss": 2.4863171577453613, "grad_norm": 0.4241364002227783, "learning_rate": 0.0009449117001444549, "token_acc": 0.4844632768361582, "epoch": 0.1765852539846348, "step": 385}, {"loss": 2.6984877586364746, "grad_norm": 0.4510960578918457, "learning_rate": 0.0009445723147313433, "token_acc": 0.4480177432769615, "epoch": 0.17704391698199748, "step": 386}, {"loss": 2.484069347381592, "grad_norm": 0.43443918228149414, "learning_rate": 0.0009442319484259074, "token_acc": 0.48188194038573934, "epoch": 0.17750257997936017, "step": 387}, {"loss": 2.6051125526428223, "grad_norm": 0.4151553809642792, "learning_rate": 0.0009438906019791222, "token_acc": 0.45906113537117904, "epoch": 0.17796124297672286, "step": 388}, {"loss": 2.514193534851074, "grad_norm": 0.3965606689453125, "learning_rate": 0.0009435482761441251, "token_acc": 0.47919010123734535, "epoch": 0.17841990597408555, "step": 389}, {"loss": 2.5595152378082275, "grad_norm": 0.43322673439979553, "learning_rate": 0.000943204971676215, "token_acc": 0.4584847637685211, "epoch": 0.17887856897144822, "step": 390}, {"loss": 2.5409257411956787, "grad_norm": 0.40551865100860596, "learning_rate": 0.0009428606893328493, "token_acc": 0.46350468616870205, "epoch": 0.1793372319688109, "step": 391}, {"loss": 2.572035312652588, "grad_norm": 0.4015904664993286, "learning_rate": 0.0009425154298736432, "token_acc": 0.46819634040081326, "epoch": 0.1797958949661736, "step": 392}, {"loss": 2.6474266052246094, "grad_norm": 0.4025871157646179, "learning_rate": 0.0009421691940603678, "token_acc": 0.46271139451067367, "epoch": 0.1802545579635363, "step": 393}, {"loss": 2.701843023300171, "grad_norm": 0.4192837178707123, "learning_rate": 0.0009418219826569488, "token_acc": 0.45130979498861046, "epoch": 0.18071322096089898, "step": 394}, {"loss": 2.570427894592285, "grad_norm": 0.38373637199401855, "learning_rate": 0.0009414737964294635, "token_acc": 0.4481614597732928, "epoch": 0.18117188395826167, "step": 395}, {"loss": 2.582561492919922, "grad_norm": 0.4057350158691406, "learning_rate": 0.000941124636146141, "token_acc": 0.4712304514606078, "epoch": 0.18163054695562436, "step": 396}, {"loss": 2.5467779636383057, "grad_norm": 0.4132590591907501, "learning_rate": 0.0009407745025773589, "token_acc": 0.4694873881204231, "epoch": 0.18208920995298705, "step": 397}, {"loss": 2.7308290004730225, "grad_norm": 0.39825674891471863, "learning_rate": 0.0009404233964956423, "token_acc": 0.4467480829309855, "epoch": 0.18254787295034974, "step": 398}, {"loss": 2.619384527206421, "grad_norm": 0.407055139541626, "learning_rate": 0.0009400713186756625, "token_acc": 0.4601499583449042, "epoch": 0.1830065359477124, "step": 399}, {"loss": 2.5730819702148438, "grad_norm": 0.4172784388065338, "learning_rate": 0.0009397182698942342, "token_acc": 0.45263739298536315, "epoch": 0.1834651989450751, "step": 400}, {"loss": 2.6688592433929443, "grad_norm": 0.4333350956439972, "learning_rate": 0.0009393642509303149, "token_acc": 0.4741113909879653, "epoch": 0.1839238619424378, "step": 401}, {"loss": 2.657405376434326, "grad_norm": 0.3947511911392212, "learning_rate": 0.0009390092625650023, "token_acc": 0.45810363836824697, "epoch": 0.18438252493980048, "step": 402}, {"loss": 2.681288719177246, "grad_norm": 0.4339149296283722, "learning_rate": 0.0009386533055815332, "token_acc": 0.45652173913043476, "epoch": 0.18484118793716317, "step": 403}, {"loss": 2.5837690830230713, "grad_norm": 0.3941650986671448, "learning_rate": 0.0009382963807652813, "token_acc": 0.47146334866107653, "epoch": 0.18529985093452586, "step": 404}, {"loss": 2.6627614498138428, "grad_norm": 0.4603818953037262, "learning_rate": 0.000937938488903756, "token_acc": 0.466951566951567, "epoch": 0.18575851393188855, "step": 405}, {"loss": 2.5871713161468506, "grad_norm": 0.3865680694580078, "learning_rate": 0.0009375796307866003, "token_acc": 0.4653716216216216, "epoch": 0.18621717692925124, "step": 406}, {"loss": 2.5773262977600098, "grad_norm": 0.41417625546455383, "learning_rate": 0.0009372198072055888, "token_acc": 0.4564059433697785, "epoch": 0.1866758399266139, "step": 407}, {"loss": 2.5331361293792725, "grad_norm": 0.3635321259498596, "learning_rate": 0.0009368590189546268, "token_acc": 0.4676176890156919, "epoch": 0.1871345029239766, "step": 408}, {"loss": 2.552304744720459, "grad_norm": 0.38962680101394653, "learning_rate": 0.0009364972668297474, "token_acc": 0.4653732147669092, "epoch": 0.1875931659213393, "step": 409}, {"loss": 2.550410032272339, "grad_norm": 0.4158221185207367, "learning_rate": 0.0009361345516291111, "token_acc": 0.453159645232816, "epoch": 0.18805182891870198, "step": 410}, {"loss": 2.707277774810791, "grad_norm": 0.4099529981613159, "learning_rate": 0.0009357708741530024, "token_acc": 0.4332859174964438, "epoch": 0.18851049191606467, "step": 411}, {"loss": 2.553727149963379, "grad_norm": 0.41067618131637573, "learning_rate": 0.00093540623520383, "token_acc": 0.4730488489612577, "epoch": 0.18896915491342736, "step": 412}, {"loss": 2.5731756687164307, "grad_norm": 0.38499942421913147, "learning_rate": 0.000935040635586123, "token_acc": 0.4715830329914056, "epoch": 0.18942781791079005, "step": 413}, {"loss": 2.6889755725860596, "grad_norm": 0.3790716826915741, "learning_rate": 0.0009346740761065305, "token_acc": 0.45875862068965517, "epoch": 0.18988648090815274, "step": 414}, {"loss": 2.6290853023529053, "grad_norm": 0.3953869342803955, "learning_rate": 0.0009343065575738197, "token_acc": 0.465512577765756, "epoch": 0.19034514390551543, "step": 415}, {"loss": 2.6420435905456543, "grad_norm": 0.4042235314846039, "learning_rate": 0.0009339380807988733, "token_acc": 0.4564732142857143, "epoch": 0.1908038069028781, "step": 416}, {"loss": 2.6411471366882324, "grad_norm": 0.3795788586139679, "learning_rate": 0.0009335686465946887, "token_acc": 0.4573170731707317, "epoch": 0.1912624699002408, "step": 417}, {"loss": 2.7112417221069336, "grad_norm": 0.39527779817581177, "learning_rate": 0.0009331982557763754, "token_acc": 0.4475817724350014, "epoch": 0.19172113289760348, "step": 418}, {"loss": 2.4808003902435303, "grad_norm": 0.4037948250770569, "learning_rate": 0.0009328269091611537, "token_acc": 0.4915930464519806, "epoch": 0.19217979589496617, "step": 419}, {"loss": 2.5795071125030518, "grad_norm": 0.4012736976146698, "learning_rate": 0.0009324546075683524, "token_acc": 0.4590256265840608, "epoch": 0.19263845889232886, "step": 420}, {"loss": 2.4380812644958496, "grad_norm": 0.418231338262558, "learning_rate": 0.0009320813518194083, "token_acc": 0.4740925464117484, "epoch": 0.19309712188969155, "step": 421}, {"loss": 2.522702693939209, "grad_norm": 0.421398788690567, "learning_rate": 0.0009317071427378624, "token_acc": 0.45930723739791607, "epoch": 0.19355578488705424, "step": 422}, {"loss": 2.6190366744995117, "grad_norm": 0.39327558875083923, "learning_rate": 0.0009313319811493594, "token_acc": 0.4589691909012381, "epoch": 0.19401444788441694, "step": 423}, {"loss": 2.607069730758667, "grad_norm": 0.40502116084098816, "learning_rate": 0.000930955867881646, "token_acc": 0.47392682224142896, "epoch": 0.19447311088177963, "step": 424}, {"loss": 2.5036253929138184, "grad_norm": 0.3894353210926056, "learning_rate": 0.0009305788037645681, "token_acc": 0.4695208392401474, "epoch": 0.1949317738791423, "step": 425}, {"loss": 2.6175341606140137, "grad_norm": 0.3827606439590454, "learning_rate": 0.0009302007896300697, "token_acc": 0.4520663480461063, "epoch": 0.19539043687650498, "step": 426}, {"loss": 2.655780792236328, "grad_norm": 0.40213632583618164, "learning_rate": 0.0009298218263121911, "token_acc": 0.4506688963210702, "epoch": 0.19584909987386767, "step": 427}, {"loss": 2.5638465881347656, "grad_norm": 0.4143352210521698, "learning_rate": 0.0009294419146470668, "token_acc": 0.4685153090699018, "epoch": 0.19630776287123036, "step": 428}, {"loss": 2.5924088954925537, "grad_norm": 0.38488566875457764, "learning_rate": 0.0009290610554729234, "token_acc": 0.47608002319512904, "epoch": 0.19676642586859305, "step": 429}, {"loss": 2.6398215293884277, "grad_norm": 0.39620792865753174, "learning_rate": 0.0009286792496300784, "token_acc": 0.4638377368561516, "epoch": 0.19722508886595574, "step": 430}, {"loss": 2.608097791671753, "grad_norm": 0.4052406847476959, "learning_rate": 0.0009282964979609379, "token_acc": 0.46197664483053263, "epoch": 0.19768375186331844, "step": 431}, {"loss": 2.6472907066345215, "grad_norm": 0.38303396105766296, "learning_rate": 0.0009279128013099947, "token_acc": 0.4598166127292341, "epoch": 0.19814241486068113, "step": 432}, {"loss": 2.492669105529785, "grad_norm": 0.40610387921333313, "learning_rate": 0.0009275281605238268, "token_acc": 0.47534516765285995, "epoch": 0.1986010778580438, "step": 433}, {"loss": 2.6313681602478027, "grad_norm": 0.3952889144420624, "learning_rate": 0.0009271425764510953, "token_acc": 0.4699468828627341, "epoch": 0.19905974085540648, "step": 434}, {"loss": 2.5954980850219727, "grad_norm": 0.41193047165870667, "learning_rate": 0.0009267560499425423, "token_acc": 0.4695676905574516, "epoch": 0.19951840385276917, "step": 435}, {"loss": 2.4855003356933594, "grad_norm": 0.3879605531692505, "learning_rate": 0.0009263685818509895, "token_acc": 0.47355092853123243, "epoch": 0.19997706685013186, "step": 436}, {"loss": 2.5459117889404297, "grad_norm": 0.3875865340232849, "learning_rate": 0.000925980173031336, "token_acc": 0.4753639417693169, "epoch": 0.20043572984749455, "step": 437}, {"loss": 2.591198682785034, "grad_norm": 0.3909992277622223, "learning_rate": 0.0009255908243405567, "token_acc": 0.4688505410938871, "epoch": 0.20089439284485724, "step": 438}, {"loss": 2.4856722354888916, "grad_norm": 0.3927661180496216, "learning_rate": 0.0009252005366376996, "token_acc": 0.48118985126859143, "epoch": 0.20135305584221994, "step": 439}, {"loss": 2.5320944786071777, "grad_norm": 0.3701532781124115, "learning_rate": 0.0009248093107838852, "token_acc": 0.47963169642857145, "epoch": 0.20181171883958263, "step": 440}, {"loss": 2.5174026489257812, "grad_norm": 0.3763086497783661, "learning_rate": 0.0009244171476423036, "token_acc": 0.4662291495761553, "epoch": 0.20227038183694532, "step": 441}, {"loss": 2.5528581142425537, "grad_norm": 0.37395140528678894, "learning_rate": 0.0009240240480782129, "token_acc": 0.4646860986547085, "epoch": 0.20272904483430798, "step": 442}, {"loss": 2.5438807010650635, "grad_norm": 0.3783034682273865, "learning_rate": 0.0009236300129589376, "token_acc": 0.4774425685026294, "epoch": 0.20318770783167067, "step": 443}, {"loss": 2.5656330585479736, "grad_norm": 0.388265997171402, "learning_rate": 0.0009232350431538657, "token_acc": 0.46824104234527686, "epoch": 0.20364637082903336, "step": 444}, {"loss": 2.645947217941284, "grad_norm": 0.40323275327682495, "learning_rate": 0.0009228391395344482, "token_acc": 0.4491150442477876, "epoch": 0.20410503382639605, "step": 445}, {"loss": 2.527318000793457, "grad_norm": 0.4090023636817932, "learning_rate": 0.000922442302974196, "token_acc": 0.46495726495726497, "epoch": 0.20456369682375874, "step": 446}, {"loss": 2.6372811794281006, "grad_norm": 0.40271681547164917, "learning_rate": 0.0009220445343486785, "token_acc": 0.4597090095131505, "epoch": 0.20502235982112144, "step": 447}, {"loss": 2.4973151683807373, "grad_norm": 0.3812653422355652, "learning_rate": 0.0009216458345355217, "token_acc": 0.47851893725268513, "epoch": 0.20548102281848413, "step": 448}, {"loss": 2.52083683013916, "grad_norm": 0.4018206000328064, "learning_rate": 0.0009212462044144061, "token_acc": 0.4630890765459003, "epoch": 0.20593968581584682, "step": 449}, {"loss": 2.6749067306518555, "grad_norm": 0.37830349802970886, "learning_rate": 0.0009208456448670648, "token_acc": 0.44304506017352363, "epoch": 0.20639834881320948, "step": 450}, {"loss": 2.589843273162842, "grad_norm": 0.439730703830719, "learning_rate": 0.0009204441567772816, "token_acc": 0.4645216891697788, "epoch": 0.20685701181057217, "step": 451}, {"loss": 2.543421745300293, "grad_norm": 0.40967103838920593, "learning_rate": 0.0009200417410308888, "token_acc": 0.46950875211744775, "epoch": 0.20731567480793486, "step": 452}, {"loss": 2.638310432434082, "grad_norm": 0.40374353528022766, "learning_rate": 0.0009196383985157656, "token_acc": 0.4498764075803351, "epoch": 0.20777433780529755, "step": 453}, {"loss": 2.5955827236175537, "grad_norm": 0.4105873703956604, "learning_rate": 0.000919234130121836, "token_acc": 0.47307256235827666, "epoch": 0.20823300080266025, "step": 454}, {"loss": 2.487872838973999, "grad_norm": 0.37560272216796875, "learning_rate": 0.0009188289367410672, "token_acc": 0.46722871906445473, "epoch": 0.20869166380002294, "step": 455}, {"loss": 2.506679058074951, "grad_norm": 0.388428658246994, "learning_rate": 0.0009184228192674666, "token_acc": 0.47288912867547883, "epoch": 0.20915032679738563, "step": 456}, {"loss": 2.5867390632629395, "grad_norm": 0.3931160569190979, "learning_rate": 0.0009180157785970808, "token_acc": 0.4499865192774333, "epoch": 0.20960898979474832, "step": 457}, {"loss": 2.587297201156616, "grad_norm": 0.41282862424850464, "learning_rate": 0.0009176078156279932, "token_acc": 0.47007340485601357, "epoch": 0.210067652792111, "step": 458}, {"loss": 2.550248861312866, "grad_norm": 0.39998891949653625, "learning_rate": 0.0009171989312603226, "token_acc": 0.4854423292273236, "epoch": 0.21052631578947367, "step": 459}, {"loss": 2.603269100189209, "grad_norm": 0.42250239849090576, "learning_rate": 0.0009167891263962202, "token_acc": 0.46368243243243246, "epoch": 0.21098497878683636, "step": 460}, {"loss": 2.690775156021118, "grad_norm": 0.4170747995376587, "learning_rate": 0.0009163784019398685, "token_acc": 0.4549736769188141, "epoch": 0.21144364178419905, "step": 461}, {"loss": 2.6168031692504883, "grad_norm": 0.3724856376647949, "learning_rate": 0.0009159667587974785, "token_acc": 0.4582751883896176, "epoch": 0.21190230478156175, "step": 462}, {"loss": 2.5024125576019287, "grad_norm": 0.4137090742588043, "learning_rate": 0.0009155541978772887, "token_acc": 0.47983193277310926, "epoch": 0.21236096777892444, "step": 463}, {"loss": 2.5219240188598633, "grad_norm": 0.38396579027175903, "learning_rate": 0.0009151407200895625, "token_acc": 0.4688134609805628, "epoch": 0.21281963077628713, "step": 464}, {"loss": 2.4753499031066895, "grad_norm": 0.39594194293022156, "learning_rate": 0.000914726326346586, "token_acc": 0.49034216335540837, "epoch": 0.21327829377364982, "step": 465}, {"loss": 2.5561299324035645, "grad_norm": 0.3724762201309204, "learning_rate": 0.0009143110175626661, "token_acc": 0.46510981373366694, "epoch": 0.2137369567710125, "step": 466}, {"loss": 2.496422290802002, "grad_norm": 0.3751997947692871, "learning_rate": 0.0009138947946541291, "token_acc": 0.47304544171605983, "epoch": 0.21419561976837517, "step": 467}, {"loss": 2.6045703887939453, "grad_norm": 0.4005948603153229, "learning_rate": 0.0009134776585393181, "token_acc": 0.4639463387367244, "epoch": 0.21465428276573786, "step": 468}, {"loss": 2.5033934116363525, "grad_norm": 0.40457993745803833, "learning_rate": 0.0009130596101385906, "token_acc": 0.47127087461081235, "epoch": 0.21511294576310055, "step": 469}, {"loss": 2.5369369983673096, "grad_norm": 0.39451906085014343, "learning_rate": 0.0009126406503743174, "token_acc": 0.4592711682743837, "epoch": 0.21557160876046325, "step": 470}, {"loss": 2.567286491394043, "grad_norm": 0.4096771478652954, "learning_rate": 0.0009122207801708802, "token_acc": 0.46807901517320355, "epoch": 0.21603027175782594, "step": 471}, {"loss": 2.6949033737182617, "grad_norm": 0.43727409839630127, "learning_rate": 0.0009118000004546689, "token_acc": 0.4469783352337514, "epoch": 0.21648893475518863, "step": 472}, {"loss": 2.520066976547241, "grad_norm": 0.36102235317230225, "learning_rate": 0.0009113783121540807, "token_acc": 0.47419880499728406, "epoch": 0.21694759775255132, "step": 473}, {"loss": 2.4864273071289062, "grad_norm": 0.3721596598625183, "learning_rate": 0.0009109557161995172, "token_acc": 0.48077462812236876, "epoch": 0.217406260749914, "step": 474}, {"loss": 2.7277424335479736, "grad_norm": 0.42098984122276306, "learning_rate": 0.0009105322135233828, "token_acc": 0.4547960308710033, "epoch": 0.2178649237472767, "step": 475}, {"loss": 2.477248430252075, "grad_norm": 0.41538456082344055, "learning_rate": 0.0009101078050600821, "token_acc": 0.48614318706697457, "epoch": 0.21832358674463936, "step": 476}, {"loss": 2.5066070556640625, "grad_norm": 0.410741925239563, "learning_rate": 0.0009096824917460186, "token_acc": 0.4751835535976505, "epoch": 0.21878224974200206, "step": 477}, {"loss": 2.502903938293457, "grad_norm": 0.4074147939682007, "learning_rate": 0.0009092562745195921, "token_acc": 0.46361862280457206, "epoch": 0.21924091273936475, "step": 478}, {"loss": 2.5185282230377197, "grad_norm": 0.4084773361682892, "learning_rate": 0.0009088291543211967, "token_acc": 0.4697097774020851, "epoch": 0.21969957573672744, "step": 479}, {"loss": 2.642716884613037, "grad_norm": 0.38761746883392334, "learning_rate": 0.0009084011320932188, "token_acc": 0.440668202764977, "epoch": 0.22015823873409013, "step": 480}, {"loss": 2.6534323692321777, "grad_norm": 0.35659921169281006, "learning_rate": 0.0009079722087800352, "token_acc": 0.4625538793103448, "epoch": 0.22061690173145282, "step": 481}, {"loss": 2.5854148864746094, "grad_norm": 0.3781280219554901, "learning_rate": 0.0009075423853280106, "token_acc": 0.45847554038680316, "epoch": 0.2210755647288155, "step": 482}, {"loss": 2.537139415740967, "grad_norm": 0.3818654716014862, "learning_rate": 0.0009071116626854958, "token_acc": 0.4754289037510904, "epoch": 0.2215342277261782, "step": 483}, {"loss": 2.6622986793518066, "grad_norm": 0.36289218068122864, "learning_rate": 0.0009066800418028256, "token_acc": 0.4523612261806131, "epoch": 0.2219928907235409, "step": 484}, {"loss": 2.4662697315216064, "grad_norm": 0.3568601608276367, "learning_rate": 0.0009062475236323168, "token_acc": 0.471900826446281, "epoch": 0.22245155372090356, "step": 485}, {"loss": 2.577792167663574, "grad_norm": 0.4033224880695343, "learning_rate": 0.0009058141091282656, "token_acc": 0.4701449275362319, "epoch": 0.22291021671826625, "step": 486}, {"loss": 2.517850875854492, "grad_norm": 0.41395699977874756, "learning_rate": 0.0009053797992469461, "token_acc": 0.4728682170542636, "epoch": 0.22336887971562894, "step": 487}, {"loss": 2.566315174102783, "grad_norm": 0.397484689950943, "learning_rate": 0.0009049445949466078, "token_acc": 0.4606741573033708, "epoch": 0.22382754271299163, "step": 488}, {"loss": 2.46694016456604, "grad_norm": 0.42345955967903137, "learning_rate": 0.0009045084971874737, "token_acc": 0.48572261072261075, "epoch": 0.22428620571035432, "step": 489}, {"loss": 2.546272039413452, "grad_norm": 0.3665259778499603, "learning_rate": 0.0009040715069317382, "token_acc": 0.4705056179775281, "epoch": 0.224744868707717, "step": 490}, {"loss": 2.5314531326293945, "grad_norm": 0.37157562375068665, "learning_rate": 0.0009036336251435648, "token_acc": 0.47218378079158596, "epoch": 0.2252035317050797, "step": 491}, {"loss": 2.6590447425842285, "grad_norm": 0.39277079701423645, "learning_rate": 0.0009031948527890839, "token_acc": 0.4602533009970358, "epoch": 0.2256621947024424, "step": 492}, {"loss": 2.5425782203674316, "grad_norm": 0.36168089509010315, "learning_rate": 0.000902755190836391, "token_acc": 0.45703014933784164, "epoch": 0.22612085769980506, "step": 493}, {"loss": 2.591247320175171, "grad_norm": 0.37716665863990784, "learning_rate": 0.0009023146402555442, "token_acc": 0.46091568955890566, "epoch": 0.22657952069716775, "step": 494}, {"loss": 2.528381109237671, "grad_norm": 0.38520413637161255, "learning_rate": 0.0009018732020185624, "token_acc": 0.4755755193711398, "epoch": 0.22703818369453044, "step": 495}, {"loss": 2.6846232414245605, "grad_norm": 0.3933509588241577, "learning_rate": 0.0009014308770994235, "token_acc": 0.4565278166060945, "epoch": 0.22749684669189313, "step": 496}, {"loss": 2.550840377807617, "grad_norm": 0.3352566659450531, "learning_rate": 0.0009009876664740605, "token_acc": 0.4640171858216971, "epoch": 0.22795550968925582, "step": 497}, {"loss": 2.5562939643859863, "grad_norm": 0.39495301246643066, "learning_rate": 0.0009005435711203618, "token_acc": 0.4732604945370903, "epoch": 0.2284141726866185, "step": 498}, {"loss": 2.5315308570861816, "grad_norm": 0.3501955568790436, "learning_rate": 0.000900098592018167, "token_acc": 0.46990291262135925, "epoch": 0.2288728356839812, "step": 499}, {"loss": 2.6158156394958496, "grad_norm": 0.3943643569946289, "learning_rate": 0.0008996527301492663, "token_acc": 0.45334457560427205, "epoch": 0.2293314986813439, "step": 500}, {"loss": 2.6009597778320312, "grad_norm": 0.36251503229141235, "learning_rate": 0.0008992059864973972, "token_acc": 0.4622747747747748, "epoch": 0.22979016167870658, "step": 501}, {"loss": 2.4605164527893066, "grad_norm": 0.3793307840824127, "learning_rate": 0.0008987583620482427, "token_acc": 0.48740658732355385, "epoch": 0.23024882467606925, "step": 502}, {"loss": 2.539327621459961, "grad_norm": 0.4345690906047821, "learning_rate": 0.0008983098577894292, "token_acc": 0.4740761959323976, "epoch": 0.23070748767343194, "step": 503}, {"loss": 2.6559853553771973, "grad_norm": 0.3961641788482666, "learning_rate": 0.0008978604747105246, "token_acc": 0.4596361569073337, "epoch": 0.23116615067079463, "step": 504}, {"loss": 2.6528587341308594, "grad_norm": 0.4149439334869385, "learning_rate": 0.0008974102138030354, "token_acc": 0.44761904761904764, "epoch": 0.23162481366815732, "step": 505}, {"loss": 2.5719199180603027, "grad_norm": 0.37394022941589355, "learning_rate": 0.000896959076060405, "token_acc": 0.4569789674952199, "epoch": 0.23208347666552, "step": 506}, {"loss": 2.5865468978881836, "grad_norm": 0.3624346852302551, "learning_rate": 0.0008965070624780116, "token_acc": 0.4511550236571111, "epoch": 0.2325421396628827, "step": 507}, {"loss": 2.499340534210205, "grad_norm": 0.38855037093162537, "learning_rate": 0.0008960541740531658, "token_acc": 0.4781276121482307, "epoch": 0.2330008026602454, "step": 508}, {"loss": 2.5793895721435547, "grad_norm": 0.3862762153148651, "learning_rate": 0.0008956004117851083, "token_acc": 0.46044393853158794, "epoch": 0.23345946565760808, "step": 509}, {"loss": 2.526675224304199, "grad_norm": 0.37715065479278564, "learning_rate": 0.0008951457766750079, "token_acc": 0.47380345511186633, "epoch": 0.23391812865497075, "step": 510}, {"loss": 2.644956111907959, "grad_norm": 0.366256445646286, "learning_rate": 0.0008946902697259593, "token_acc": 0.46145220072890386, "epoch": 0.23437679165233344, "step": 511}, {"loss": 2.60667085647583, "grad_norm": 0.3832247853279114, "learning_rate": 0.0008942338919429805, "token_acc": 0.46387726638772664, "epoch": 0.23483545464969613, "step": 512}, {"loss": 2.4412527084350586, "grad_norm": 0.3709598481655121, "learning_rate": 0.0008937766443330113, "token_acc": 0.4801845819761129, "epoch": 0.23529411764705882, "step": 513}, {"loss": 2.5649497509002686, "grad_norm": 0.38569653034210205, "learning_rate": 0.0008933185279049103, "token_acc": 0.46852748504699515, "epoch": 0.2357527806444215, "step": 514}, {"loss": 2.5700924396514893, "grad_norm": 0.3500916361808777, "learning_rate": 0.0008928595436694532, "token_acc": 0.46950393060449985, "epoch": 0.2362114436417842, "step": 515}, {"loss": 2.5207161903381348, "grad_norm": 0.378198504447937, "learning_rate": 0.0008923996926393305, "token_acc": 0.4872576177285319, "epoch": 0.2366701066391469, "step": 516}, {"loss": 2.501023292541504, "grad_norm": 0.3587672710418701, "learning_rate": 0.0008919389758291449, "token_acc": 0.4758933635847986, "epoch": 0.23712876963650958, "step": 517}, {"loss": 2.519097089767456, "grad_norm": 0.38815540075302124, "learning_rate": 0.0008914773942554098, "token_acc": 0.47036823935558114, "epoch": 0.23758743263387228, "step": 518}, {"loss": 2.6548495292663574, "grad_norm": 0.3701168894767761, "learning_rate": 0.000891014948936546, "token_acc": 0.4473042535898131, "epoch": 0.23804609563123494, "step": 519}, {"loss": 2.535475254058838, "grad_norm": 0.36297929286956787, "learning_rate": 0.0008905516408928804, "token_acc": 0.4565864214227752, "epoch": 0.23850475862859763, "step": 520}, {"loss": 2.5720911026000977, "grad_norm": 0.3630169630050659, "learning_rate": 0.0008900874711466434, "token_acc": 0.468682505399568, "epoch": 0.23896342162596032, "step": 521}, {"loss": 2.5639562606811523, "grad_norm": 0.3904373347759247, "learning_rate": 0.0008896224407219666, "token_acc": 0.4694285714285714, "epoch": 0.239422084623323, "step": 522}, {"loss": 2.4963648319244385, "grad_norm": 0.36818987131118774, "learning_rate": 0.0008891565506448804, "token_acc": 0.49330675021361436, "epoch": 0.2398807476206857, "step": 523}, {"loss": 2.6094717979431152, "grad_norm": 0.36865079402923584, "learning_rate": 0.0008886898019433122, "token_acc": 0.4691593886462882, "epoch": 0.2403394106180484, "step": 524}, {"loss": 2.6031100749969482, "grad_norm": 0.37248772382736206, "learning_rate": 0.0008882221956470836, "token_acc": 0.45375972342264476, "epoch": 0.24079807361541108, "step": 525}, {"loss": 2.507462501525879, "grad_norm": 0.36860355734825134, "learning_rate": 0.0008877537327879086, "token_acc": 0.4742686890574215, "epoch": 0.24125673661277378, "step": 526}, {"loss": 2.5607147216796875, "grad_norm": 0.3737073242664337, "learning_rate": 0.0008872844143993908, "token_acc": 0.4727272727272727, "epoch": 0.24171539961013644, "step": 527}, {"loss": 2.5315136909484863, "grad_norm": 0.38415616750717163, "learning_rate": 0.0008868142415170218, "token_acc": 0.468785151856018, "epoch": 0.24217406260749913, "step": 528}, {"loss": 2.551889181137085, "grad_norm": 0.36869847774505615, "learning_rate": 0.0008863432151781781, "token_acc": 0.46661031276415893, "epoch": 0.24263272560486182, "step": 529}, {"loss": 2.495333671569824, "grad_norm": 0.3933951258659363, "learning_rate": 0.0008858713364221195, "token_acc": 0.48209209778283113, "epoch": 0.2430913886022245, "step": 530}, {"loss": 2.599771022796631, "grad_norm": 0.40007683634757996, "learning_rate": 0.0008853986062899868, "token_acc": 0.46636896455484234, "epoch": 0.2435500515995872, "step": 531}, {"loss": 2.5964791774749756, "grad_norm": 0.3963909447193146, "learning_rate": 0.0008849250258247986, "token_acc": 0.46296834156259076, "epoch": 0.2440087145969499, "step": 532}, {"loss": 2.492642879486084, "grad_norm": 0.36057886481285095, "learning_rate": 0.0008844505960714503, "token_acc": 0.4758132956152758, "epoch": 0.24446737759431258, "step": 533}, {"loss": 2.6629886627197266, "grad_norm": 0.36214277148246765, "learning_rate": 0.0008839753180767108, "token_acc": 0.4472817133443163, "epoch": 0.24492604059167528, "step": 534}, {"loss": 2.5500128269195557, "grad_norm": 0.37312352657318115, "learning_rate": 0.0008834991928892204, "token_acc": 0.4643658810325477, "epoch": 0.24538470358903797, "step": 535}, {"loss": 2.4934048652648926, "grad_norm": 0.36593517661094666, "learning_rate": 0.000883022221559489, "token_acc": 0.4817371297095197, "epoch": 0.24584336658640063, "step": 536}, {"loss": 2.57529354095459, "grad_norm": 0.36594492197036743, "learning_rate": 0.0008825444051398934, "token_acc": 0.46644388749651905, "epoch": 0.24630202958376332, "step": 537}, {"loss": 2.5797791481018066, "grad_norm": 0.40934574604034424, "learning_rate": 0.0008820657446846745, "token_acc": 0.4711007841998257, "epoch": 0.246760692581126, "step": 538}, {"loss": 2.4139151573181152, "grad_norm": 0.3780839443206787, "learning_rate": 0.000881586241249936, "token_acc": 0.4985835694050991, "epoch": 0.2472193555784887, "step": 539}, {"loss": 2.6056158542633057, "grad_norm": 0.3716084063053131, "learning_rate": 0.0008811058958936411, "token_acc": 0.4665948275862069, "epoch": 0.2476780185758514, "step": 540}, {"loss": 2.508676290512085, "grad_norm": 0.3573615252971649, "learning_rate": 0.000880624709675611, "token_acc": 0.4794326241134752, "epoch": 0.24813668157321409, "step": 541}, {"loss": 2.4562158584594727, "grad_norm": 0.34393006563186646, "learning_rate": 0.000880142683657522, "token_acc": 0.48460909833832744, "epoch": 0.24859534457057678, "step": 542}, {"loss": 2.521101713180542, "grad_norm": 0.33539706468582153, "learning_rate": 0.0008796598189029029, "token_acc": 0.46258685195082844, "epoch": 0.24905400756793947, "step": 543}, {"loss": 2.5215516090393066, "grad_norm": 0.3463994860649109, "learning_rate": 0.0008791761164771338, "token_acc": 0.468961778259691, "epoch": 0.24951267056530213, "step": 544}, {"loss": 2.4866104125976562, "grad_norm": 0.35912296175956726, "learning_rate": 0.0008786915774474424, "token_acc": 0.4598265895953757, "epoch": 0.24997133356266482, "step": 545}, {"loss": 2.7244958877563477, "grad_norm": 0.43533387780189514, "learning_rate": 0.0008782062028829027, "token_acc": 0.45994318181818183, "epoch": 0.2504299965600275, "step": 546}, {"loss": 2.5446414947509766, "grad_norm": 0.35860514640808105, "learning_rate": 0.0008777199938544318, "token_acc": 0.47353989580477107, "epoch": 0.2508886595573902, "step": 547}, {"loss": 2.4595727920532227, "grad_norm": 0.37407001852989197, "learning_rate": 0.0008772329514347883, "token_acc": 0.48616491422246816, "epoch": 0.2513473225547529, "step": 548}, {"loss": 2.586094856262207, "grad_norm": 0.37593337893486023, "learning_rate": 0.0008767450766985694, "token_acc": 0.46538570217575587, "epoch": 0.2518059855521156, "step": 549}, {"loss": 2.638777494430542, "grad_norm": 0.3840199410915375, "learning_rate": 0.0008762563707222086, "token_acc": 0.4617695248498088, "epoch": 0.2522646485494783, "step": 550}, {"loss": 2.5830562114715576, "grad_norm": 0.40009695291519165, "learning_rate": 0.0008757668345839738, "token_acc": 0.469762109486959, "epoch": 0.25272331154684097, "step": 551}, {"loss": 2.4778928756713867, "grad_norm": 0.38633623719215393, "learning_rate": 0.0008752764693639638, "token_acc": 0.4752840909090909, "epoch": 0.25318197454420366, "step": 552}, {"loss": 2.532231330871582, "grad_norm": 0.3737511932849884, "learning_rate": 0.0008747852761441078, "token_acc": 0.4677817384151357, "epoch": 0.25364063754156635, "step": 553}, {"loss": 2.501948833465576, "grad_norm": 0.3823889195919037, "learning_rate": 0.0008742932560081607, "token_acc": 0.4758789860997547, "epoch": 0.25409930053892904, "step": 554}, {"loss": 2.391803741455078, "grad_norm": 0.3918113708496094, "learning_rate": 0.0008738004100417025, "token_acc": 0.4885974914481186, "epoch": 0.25455796353629173, "step": 555}, {"loss": 2.576840400695801, "grad_norm": 0.5072609782218933, "learning_rate": 0.0008733067393321355, "token_acc": 0.47632234837995013, "epoch": 0.2550166265336544, "step": 556}, {"loss": 2.5467629432678223, "grad_norm": 0.38675588369369507, "learning_rate": 0.000872812244968681, "token_acc": 0.47323634367279716, "epoch": 0.25547528953101706, "step": 557}, {"loss": 2.560244083404541, "grad_norm": 0.3646634519100189, "learning_rate": 0.0008723169280423783, "token_acc": 0.45951359084406296, "epoch": 0.25593395252837975, "step": 558}, {"loss": 2.478100538253784, "grad_norm": 0.3523416221141815, "learning_rate": 0.0008718207896460811, "token_acc": 0.47984212010149424, "epoch": 0.25639261552574244, "step": 559}, {"loss": 2.595236301422119, "grad_norm": 0.3732738494873047, "learning_rate": 0.0008713238308744557, "token_acc": 0.45897000565930957, "epoch": 0.25685127852310513, "step": 560}, {"loss": 2.5661683082580566, "grad_norm": 0.3519507050514221, "learning_rate": 0.0008708260528239789, "token_acc": 0.46342157699971537, "epoch": 0.2573099415204678, "step": 561}, {"loss": 2.4865164756774902, "grad_norm": 0.40047842264175415, "learning_rate": 0.000870327456592934, "token_acc": 0.4875465216146579, "epoch": 0.2577686045178305, "step": 562}, {"loss": 2.5739858150482178, "grad_norm": 0.3562781512737274, "learning_rate": 0.0008698280432814107, "token_acc": 0.475619949846754, "epoch": 0.2582272675151932, "step": 563}, {"loss": 2.570310592651367, "grad_norm": 0.38454264402389526, "learning_rate": 0.000869327813991301, "token_acc": 0.4670206819452208, "epoch": 0.2586859305125559, "step": 564}, {"loss": 2.5230627059936523, "grad_norm": 0.3964245319366455, "learning_rate": 0.0008688267698262971, "token_acc": 0.46742761692650336, "epoch": 0.2591445935099186, "step": 565}, {"loss": 2.502413511276245, "grad_norm": 0.3717069625854492, "learning_rate": 0.0008683249118918894, "token_acc": 0.4714009394860459, "epoch": 0.2596032565072813, "step": 566}, {"loss": 2.5687639713287354, "grad_norm": 0.3493504524230957, "learning_rate": 0.0008678222412953637, "token_acc": 0.4689507494646681, "epoch": 0.26006191950464397, "step": 567}, {"loss": 2.521217107772827, "grad_norm": 0.3600864112377167, "learning_rate": 0.0008673187591457987, "token_acc": 0.4617762788083193, "epoch": 0.26052058250200666, "step": 568}, {"loss": 2.4496469497680664, "grad_norm": 0.3688865602016449, "learning_rate": 0.0008668144665540639, "token_acc": 0.48809865213650705, "epoch": 0.26097924549936935, "step": 569}, {"loss": 2.578049659729004, "grad_norm": 0.4265752136707306, "learning_rate": 0.0008663093646328167, "token_acc": 0.47192588433464344, "epoch": 0.26143790849673204, "step": 570}, {"loss": 2.7164413928985596, "grad_norm": 0.383869469165802, "learning_rate": 0.0008658034544965003, "token_acc": 0.449205448354143, "epoch": 0.26189657149409473, "step": 571}, {"loss": 2.389366626739502, "grad_norm": 0.3509352505207062, "learning_rate": 0.0008652967372613412, "token_acc": 0.49279303780255646, "epoch": 0.2623552344914574, "step": 572}, {"loss": 2.523355484008789, "grad_norm": 0.3443276286125183, "learning_rate": 0.0008647892140453466, "token_acc": 0.4792514239218877, "epoch": 0.2628138974888201, "step": 573}, {"loss": 2.5430173873901367, "grad_norm": 0.35621580481529236, "learning_rate": 0.0008642808859683021, "token_acc": 0.4747533372025537, "epoch": 0.26327256048618275, "step": 574}, {"loss": 2.576650381088257, "grad_norm": 0.3568367660045624, "learning_rate": 0.0008637717541517689, "token_acc": 0.46353006681514475, "epoch": 0.26373122348354544, "step": 575}, {"loss": 2.6044557094573975, "grad_norm": 0.36328744888305664, "learning_rate": 0.0008632618197190816, "token_acc": 0.4483674011149456, "epoch": 0.26418988648090813, "step": 576}, {"loss": 2.546280860900879, "grad_norm": 0.3581198751926422, "learning_rate": 0.0008627510837953458, "token_acc": 0.4686043323279408, "epoch": 0.2646485494782708, "step": 577}, {"loss": 2.4845070838928223, "grad_norm": 0.36019572615623474, "learning_rate": 0.0008622395475074355, "token_acc": 0.4831848232250647, "epoch": 0.2651072124756335, "step": 578}, {"loss": 2.5149924755096436, "grad_norm": 0.37171995639801025, "learning_rate": 0.0008617272119839903, "token_acc": 0.46863872911531085, "epoch": 0.2655658754729962, "step": 579}, {"loss": 2.6136393547058105, "grad_norm": 0.3653688132762909, "learning_rate": 0.0008612140783554136, "token_acc": 0.4568469505178366, "epoch": 0.2660245384703589, "step": 580}, {"loss": 2.4318695068359375, "grad_norm": 0.3474707007408142, "learning_rate": 0.0008607001477538696, "token_acc": 0.49131378935939196, "epoch": 0.2664832014677216, "step": 581}, {"loss": 2.5574283599853516, "grad_norm": 0.36851778626441956, "learning_rate": 0.0008601854213132807, "token_acc": 0.461212976022567, "epoch": 0.2669418644650843, "step": 582}, {"loss": 2.5186922550201416, "grad_norm": 0.3394092917442322, "learning_rate": 0.0008596699001693256, "token_acc": 0.4724927612529613, "epoch": 0.26740052746244697, "step": 583}, {"loss": 2.534701347351074, "grad_norm": 0.3298639953136444, "learning_rate": 0.000859153585459436, "token_acc": 0.48434469382100304, "epoch": 0.26785919045980966, "step": 584}, {"loss": 2.4792728424072266, "grad_norm": 0.36513617634773254, "learning_rate": 0.0008586364783227949, "token_acc": 0.4856094808126411, "epoch": 0.26831785345717235, "step": 585}, {"loss": 2.486790895462036, "grad_norm": 0.3608119487762451, "learning_rate": 0.0008581185799003332, "token_acc": 0.4785831960461285, "epoch": 0.26877651645453504, "step": 586}, {"loss": 2.5124502182006836, "grad_norm": 0.3647616505622864, "learning_rate": 0.0008575998913347283, "token_acc": 0.47991008710311883, "epoch": 0.26923517945189773, "step": 587}, {"loss": 2.4567337036132812, "grad_norm": 0.37836652994155884, "learning_rate": 0.0008570804137704004, "token_acc": 0.47277227722772275, "epoch": 0.2696938424492604, "step": 588}, {"loss": 2.62001371383667, "grad_norm": 0.37878143787384033, "learning_rate": 0.0008565601483535108, "token_acc": 0.4596084918665564, "epoch": 0.2701525054466231, "step": 589}, {"loss": 2.476865291595459, "grad_norm": 0.37872931361198425, "learning_rate": 0.0008560390962319591, "token_acc": 0.46257939795636566, "epoch": 0.2706111684439858, "step": 590}, {"loss": 2.5046513080596924, "grad_norm": 0.36183515191078186, "learning_rate": 0.0008555172585553804, "token_acc": 0.47784632641615254, "epoch": 0.2710698314413485, "step": 591}, {"loss": 2.4734487533569336, "grad_norm": 0.36415809392929077, "learning_rate": 0.0008549946364751435, "token_acc": 0.4883328647736857, "epoch": 0.27152849443871113, "step": 592}, {"loss": 2.438931941986084, "grad_norm": 0.3398836851119995, "learning_rate": 0.0008544712311443475, "token_acc": 0.4735391400220507, "epoch": 0.2719871574360738, "step": 593}, {"loss": 2.5725996494293213, "grad_norm": 0.3798900544643402, "learning_rate": 0.0008539470437178196, "token_acc": 0.46466080045415836, "epoch": 0.2724458204334365, "step": 594}, {"loss": 2.42769718170166, "grad_norm": 0.37606263160705566, "learning_rate": 0.000853422075352113, "token_acc": 0.4856892523364486, "epoch": 0.2729044834307992, "step": 595}, {"loss": 2.5516395568847656, "grad_norm": 0.3806784152984619, "learning_rate": 0.0008528963272055035, "token_acc": 0.4710204081632653, "epoch": 0.2733631464281619, "step": 596}, {"loss": 2.504723310470581, "grad_norm": 0.40173065662384033, "learning_rate": 0.0008523698004379877, "token_acc": 0.4725182277061133, "epoch": 0.2738218094255246, "step": 597}, {"loss": 2.583007335662842, "grad_norm": 0.3868899941444397, "learning_rate": 0.00085184249621128, "token_acc": 0.45726375176304657, "epoch": 0.2742804724228873, "step": 598}, {"loss": 2.532395839691162, "grad_norm": 0.3457110822200775, "learning_rate": 0.0008513144156888101, "token_acc": 0.48110624315443595, "epoch": 0.27473913542024997, "step": 599}, {"loss": 2.58548641204834, "grad_norm": 0.3476879894733429, "learning_rate": 0.0008507855600357207, "token_acc": 0.4608282036933408, "epoch": 0.27519779841761266, "step": 600}, {"loss": 2.5636420249938965, "grad_norm": 0.37860506772994995, "learning_rate": 0.0008502559304188644, "token_acc": 0.4558904109589041, "epoch": 0.27565646141497535, "step": 601}, {"loss": 2.4888837337493896, "grad_norm": 0.3444937467575073, "learning_rate": 0.0008497255280068019, "token_acc": 0.4819078947368421, "epoch": 0.27611512441233804, "step": 602}, {"loss": 2.4091334342956543, "grad_norm": 0.39608126878738403, "learning_rate": 0.0008491943539697986, "token_acc": 0.4815450643776824, "epoch": 0.27657378740970073, "step": 603}, {"loss": 2.5877685546875, "grad_norm": 0.38607439398765564, "learning_rate": 0.0008486624094798226, "token_acc": 0.4684734513274336, "epoch": 0.2770324504070634, "step": 604}, {"loss": 2.474951982498169, "grad_norm": 0.39865559339523315, "learning_rate": 0.0008481296957105417, "token_acc": 0.47434119278779474, "epoch": 0.2774911134044261, "step": 605}, {"loss": 2.5402982234954834, "grad_norm": 0.3722672760486603, "learning_rate": 0.0008475962138373213, "token_acc": 0.4711123886174188, "epoch": 0.2779497764017888, "step": 606}, {"loss": 2.5135498046875, "grad_norm": 0.35624295473098755, "learning_rate": 0.0008470619650372211, "token_acc": 0.4716056500432401, "epoch": 0.2784084393991515, "step": 607}, {"loss": 2.4495763778686523, "grad_norm": 0.3712524473667145, "learning_rate": 0.0008465269504889934, "token_acc": 0.4841875681570338, "epoch": 0.2788671023965142, "step": 608}, {"loss": 2.365891933441162, "grad_norm": 0.3522526025772095, "learning_rate": 0.0008459911713730799, "token_acc": 0.4814385150812065, "epoch": 0.2793257653938768, "step": 609}, {"loss": 2.5207433700561523, "grad_norm": 0.34159529209136963, "learning_rate": 0.0008454546288716089, "token_acc": 0.47121418826739425, "epoch": 0.2797844283912395, "step": 610}, {"loss": 2.564419984817505, "grad_norm": 0.3516010046005249, "learning_rate": 0.0008449173241683935, "token_acc": 0.4769400718033692, "epoch": 0.2802430913886022, "step": 611}, {"loss": 2.461103677749634, "grad_norm": 0.355101615190506, "learning_rate": 0.0008443792584489281, "token_acc": 0.49391929242675514, "epoch": 0.2807017543859649, "step": 612}, {"loss": 2.5651261806488037, "grad_norm": 0.36776790022850037, "learning_rate": 0.0008438404329003863, "token_acc": 0.4702533447196129, "epoch": 0.2811604173833276, "step": 613}, {"loss": 2.5519630908966064, "grad_norm": 0.3595694899559021, "learning_rate": 0.0008433008487116183, "token_acc": 0.4622053643998916, "epoch": 0.2816190803806903, "step": 614}, {"loss": 2.513122320175171, "grad_norm": 0.36444124579429626, "learning_rate": 0.0008427605070731481, "token_acc": 0.4875179340028694, "epoch": 0.28207774337805297, "step": 615}, {"loss": 2.4145803451538086, "grad_norm": 0.3482978940010071, "learning_rate": 0.0008422194091771708, "token_acc": 0.47286405158516925, "epoch": 0.28253640637541566, "step": 616}, {"loss": 2.4327523708343506, "grad_norm": 0.34840551018714905, "learning_rate": 0.0008416775562175503, "token_acc": 0.4784345047923323, "epoch": 0.28299506937277835, "step": 617}, {"loss": 2.4976911544799805, "grad_norm": 0.40639030933380127, "learning_rate": 0.000841134949389816, "token_acc": 0.4795592925485648, "epoch": 0.28345373237014104, "step": 618}, {"loss": 2.4329733848571777, "grad_norm": 0.3533143103122711, "learning_rate": 0.0008405915898911611, "token_acc": 0.4848147116188353, "epoch": 0.28391239536750373, "step": 619}, {"loss": 2.5253469944000244, "grad_norm": 0.37188422679901123, "learning_rate": 0.0008400474789204396, "token_acc": 0.47501372872048325, "epoch": 0.2843710583648664, "step": 620}, {"loss": 2.5718324184417725, "grad_norm": 0.39061281085014343, "learning_rate": 0.0008395026176781626, "token_acc": 0.46888646288209607, "epoch": 0.2848297213622291, "step": 621}, {"loss": 2.4392898082733154, "grad_norm": 0.3536094129085541, "learning_rate": 0.0008389570073664976, "token_acc": 0.4877222692633362, "epoch": 0.2852883843595918, "step": 622}, {"loss": 2.481555938720703, "grad_norm": 0.371198832988739, "learning_rate": 0.0008384106491892642, "token_acc": 0.46749576031656304, "epoch": 0.2857470473569545, "step": 623}, {"loss": 2.522981643676758, "grad_norm": 0.35640448331832886, "learning_rate": 0.0008378635443519327, "token_acc": 0.470976253298153, "epoch": 0.2862057103543172, "step": 624}, {"loss": 2.4354896545410156, "grad_norm": 0.3595532178878784, "learning_rate": 0.0008373156940616199, "token_acc": 0.4838169642857143, "epoch": 0.2866643733516799, "step": 625}, {"loss": 2.5481934547424316, "grad_norm": 0.36091500520706177, "learning_rate": 0.0008367670995270882, "token_acc": 0.47063781961225065, "epoch": 0.2871230363490425, "step": 626}, {"loss": 2.5275392532348633, "grad_norm": 0.34244829416275024, "learning_rate": 0.0008362177619587416, "token_acc": 0.47137671041608487, "epoch": 0.2875816993464052, "step": 627}, {"loss": 2.5603859424591064, "grad_norm": 0.33013561367988586, "learning_rate": 0.0008356676825686238, "token_acc": 0.46066196418882255, "epoch": 0.2880403623437679, "step": 628}, {"loss": 2.5613231658935547, "grad_norm": 0.3425203263759613, "learning_rate": 0.0008351168625704147, "token_acc": 0.4591093117408907, "epoch": 0.2884990253411306, "step": 629}, {"loss": 2.4835751056671143, "grad_norm": 0.38410261273384094, "learning_rate": 0.0008345653031794292, "token_acc": 0.47559591373439275, "epoch": 0.2889576883384933, "step": 630}, {"loss": 2.5552096366882324, "grad_norm": 0.3521682620048523, "learning_rate": 0.0008340130056126125, "token_acc": 0.4642070484581498, "epoch": 0.28941635133585597, "step": 631}, {"loss": 2.5078701972961426, "grad_norm": 0.3795808255672455, "learning_rate": 0.0008334599710885394, "token_acc": 0.47815054976036087, "epoch": 0.28987501433321866, "step": 632}, {"loss": 2.434720277786255, "grad_norm": 0.32778286933898926, "learning_rate": 0.0008329062008274098, "token_acc": 0.47572544642857145, "epoch": 0.29033367733058135, "step": 633}, {"loss": 2.5281739234924316, "grad_norm": 0.38708725571632385, "learning_rate": 0.000832351696051048, "token_acc": 0.4685580579116701, "epoch": 0.29079234032794404, "step": 634}, {"loss": 2.5944664478302, "grad_norm": 0.35527893900871277, "learning_rate": 0.000831796457982898, "token_acc": 0.4586384594521291, "epoch": 0.29125100332530673, "step": 635}, {"loss": 2.4802706241607666, "grad_norm": 0.3466051518917084, "learning_rate": 0.0008312404878480222, "token_acc": 0.47627024008933555, "epoch": 0.2917096663226694, "step": 636}, {"loss": 2.528677463531494, "grad_norm": 0.38533422350883484, "learning_rate": 0.0008306837868730979, "token_acc": 0.47042488197722854, "epoch": 0.2921683293200321, "step": 637}, {"loss": 2.5128512382507324, "grad_norm": 0.3741171658039093, "learning_rate": 0.0008301263562864152, "token_acc": 0.46878680800942285, "epoch": 0.2926269923173948, "step": 638}, {"loss": 2.468588352203369, "grad_norm": 0.3736501634120941, "learning_rate": 0.0008295681973178737, "token_acc": 0.472984441301273, "epoch": 0.2930856553147575, "step": 639}, {"loss": 2.4902660846710205, "grad_norm": 0.374865859746933, "learning_rate": 0.0008290093111989804, "token_acc": 0.47573632538569427, "epoch": 0.2935443183121202, "step": 640}, {"loss": 2.6000771522521973, "grad_norm": 0.36957672238349915, "learning_rate": 0.0008284496991628465, "token_acc": 0.45921938088829073, "epoch": 0.2940029813094829, "step": 641}, {"loss": 2.598778247833252, "grad_norm": 0.3818596601486206, "learning_rate": 0.0008278893624441847, "token_acc": 0.45560165975103734, "epoch": 0.29446164430684557, "step": 642}, {"loss": 2.610846519470215, "grad_norm": 0.35935285687446594, "learning_rate": 0.000827328302279307, "token_acc": 0.46155965830807383, "epoch": 0.2949203073042082, "step": 643}, {"loss": 2.4548654556274414, "grad_norm": 0.3513602316379547, "learning_rate": 0.0008267665199061211, "token_acc": 0.48196448390677027, "epoch": 0.2953789703015709, "step": 644}, {"loss": 2.536649703979492, "grad_norm": 0.3473533093929291, "learning_rate": 0.0008262040165641288, "token_acc": 0.4748261474269819, "epoch": 0.2958376332989336, "step": 645}, {"loss": 2.5052361488342285, "grad_norm": 0.34129300713539124, "learning_rate": 0.0008256407934944219, "token_acc": 0.4664064678003903, "epoch": 0.2962962962962963, "step": 646}, {"loss": 2.455735683441162, "grad_norm": 0.3682518005371094, "learning_rate": 0.0008250768519396807, "token_acc": 0.4836488812392427, "epoch": 0.29675495929365897, "step": 647}, {"loss": 2.4944562911987305, "grad_norm": 0.3816128671169281, "learning_rate": 0.0008245121931441706, "token_acc": 0.4787446504992867, "epoch": 0.29721362229102166, "step": 648}, {"loss": 2.5391573905944824, "grad_norm": 0.3876208961009979, "learning_rate": 0.0008239468183537393, "token_acc": 0.4800226693114197, "epoch": 0.29767228528838435, "step": 649}, {"loss": 2.459567070007324, "grad_norm": 0.36932453513145447, "learning_rate": 0.0008233807288158146, "token_acc": 0.48169717138103163, "epoch": 0.29813094828574704, "step": 650}, {"loss": 2.4820594787597656, "grad_norm": 0.34249791502952576, "learning_rate": 0.0008228139257794012, "token_acc": 0.49097574732092497, "epoch": 0.29858961128310973, "step": 651}, {"loss": 2.5432252883911133, "grad_norm": 0.3477895259857178, "learning_rate": 0.0008222464104950778, "token_acc": 0.47225305216426194, "epoch": 0.2990482742804724, "step": 652}, {"loss": 2.394166946411133, "grad_norm": 0.35896340012550354, "learning_rate": 0.000821678184214995, "token_acc": 0.4869755963805868, "epoch": 0.2995069372778351, "step": 653}, {"loss": 2.393663167953491, "grad_norm": 0.35171008110046387, "learning_rate": 0.0008211092481928716, "token_acc": 0.4858710562414266, "epoch": 0.2999656002751978, "step": 654}, {"loss": 2.5489256381988525, "grad_norm": 0.35666531324386597, "learning_rate": 0.0008205396036839927, "token_acc": 0.4692657939669892, "epoch": 0.3004242632725605, "step": 655}, {"loss": 2.487274646759033, "grad_norm": 0.34596869349479675, "learning_rate": 0.0008199692519452069, "token_acc": 0.46792035398230086, "epoch": 0.3008829262699232, "step": 656}, {"loss": 2.453554153442383, "grad_norm": 0.37479063868522644, "learning_rate": 0.0008193981942349224, "token_acc": 0.4755594817432273, "epoch": 0.3013415892672859, "step": 657}, {"loss": 2.428804397583008, "grad_norm": 0.34790608286857605, "learning_rate": 0.0008188264318131056, "token_acc": 0.4944618006248225, "epoch": 0.30180025226464857, "step": 658}, {"loss": 2.454439640045166, "grad_norm": 0.3412317931652069, "learning_rate": 0.0008182539659412776, "token_acc": 0.4856985698569857, "epoch": 0.30225891526201126, "step": 659}, {"loss": 2.566230535507202, "grad_norm": 0.34814453125, "learning_rate": 0.0008176807978825118, "token_acc": 0.469726292507603, "epoch": 0.3027175782593739, "step": 660}, {"loss": 2.4501965045928955, "grad_norm": 0.37712863087654114, "learning_rate": 0.0008171069289014306, "token_acc": 0.4754376058723885, "epoch": 0.3031762412567366, "step": 661}, {"loss": 2.597313404083252, "grad_norm": 0.33920538425445557, "learning_rate": 0.0008165323602642028, "token_acc": 0.4573664328116568, "epoch": 0.3036349042540993, "step": 662}, {"loss": 2.455197811126709, "grad_norm": 0.3496813178062439, "learning_rate": 0.0008159570932385414, "token_acc": 0.4870940882597835, "epoch": 0.30409356725146197, "step": 663}, {"loss": 2.5007219314575195, "grad_norm": 0.36241719126701355, "learning_rate": 0.0008153811290936999, "token_acc": 0.47898448519040904, "epoch": 0.30455223024882466, "step": 664}, {"loss": 2.5122296810150146, "grad_norm": 0.3510899543762207, "learning_rate": 0.0008148044691004698, "token_acc": 0.4802036199095023, "epoch": 0.30501089324618735, "step": 665}, {"loss": 2.482914686203003, "grad_norm": 0.3507455885410309, "learning_rate": 0.0008142271145311783, "token_acc": 0.47938718662952645, "epoch": 0.30546955624355004, "step": 666}, {"loss": 2.4350931644439697, "grad_norm": 0.33687421679496765, "learning_rate": 0.000813649066659685, "token_acc": 0.4832919083126208, "epoch": 0.30592821924091274, "step": 667}, {"loss": 2.4999451637268066, "grad_norm": 0.35945454239845276, "learning_rate": 0.0008130703267613787, "token_acc": 0.47235475722705583, "epoch": 0.3063868822382754, "step": 668}, {"loss": 2.4043941497802734, "grad_norm": 0.3554210364818573, "learning_rate": 0.0008124908961131759, "token_acc": 0.4827984966753397, "epoch": 0.3068455452356381, "step": 669}, {"loss": 2.510706901550293, "grad_norm": 0.35209041833877563, "learning_rate": 0.0008119107759935163, "token_acc": 0.4823261117445838, "epoch": 0.3073042082330008, "step": 670}, {"loss": 2.5089211463928223, "grad_norm": 0.3715539276599884, "learning_rate": 0.0008113299676823615, "token_acc": 0.4684107987753966, "epoch": 0.3077628712303635, "step": 671}, {"loss": 2.4624581336975098, "grad_norm": 0.35757407546043396, "learning_rate": 0.0008107484724611911, "token_acc": 0.4748757592490337, "epoch": 0.3082215342277262, "step": 672}, {"loss": 2.432835817337036, "grad_norm": 0.3611299693584442, "learning_rate": 0.0008101662916130006, "token_acc": 0.4772141014617369, "epoch": 0.3086801972250889, "step": 673}, {"loss": 2.4135727882385254, "grad_norm": 0.3485843539237976, "learning_rate": 0.0008095834264222979, "token_acc": 0.49127589967284624, "epoch": 0.3091388602224516, "step": 674}, {"loss": 2.6135077476501465, "grad_norm": 0.37126484513282776, "learning_rate": 0.0008089998781751009, "token_acc": 0.4674486803519062, "epoch": 0.30959752321981426, "step": 675}, {"loss": 2.463932514190674, "grad_norm": 0.38041549921035767, "learning_rate": 0.0008084156481589349, "token_acc": 0.4703804347826087, "epoch": 0.31005618621717695, "step": 676}, {"loss": 2.4513766765594482, "grad_norm": 0.34299805760383606, "learning_rate": 0.0008078307376628291, "token_acc": 0.48502495840266224, "epoch": 0.3105148492145396, "step": 677}, {"loss": 2.5057129859924316, "grad_norm": 0.3507917821407318, "learning_rate": 0.0008072451479773143, "token_acc": 0.4689249720044793, "epoch": 0.3109735122119023, "step": 678}, {"loss": 2.532740592956543, "grad_norm": 0.36286208033561707, "learning_rate": 0.0008066588803944195, "token_acc": 0.4686641011544805, "epoch": 0.31143217520926497, "step": 679}, {"loss": 2.5940396785736084, "grad_norm": 0.3410475254058838, "learning_rate": 0.0008060719362076697, "token_acc": 0.45865921787709496, "epoch": 0.31189083820662766, "step": 680}, {"loss": 2.5263447761535645, "grad_norm": 0.34983688592910767, "learning_rate": 0.0008054843167120826, "token_acc": 0.4743761738663805, "epoch": 0.31234950120399035, "step": 681}, {"loss": 2.4821815490722656, "grad_norm": 0.35717347264289856, "learning_rate": 0.0008048960232041663, "token_acc": 0.4901174448582068, "epoch": 0.31280816420135305, "step": 682}, {"loss": 2.604642391204834, "grad_norm": 0.35143789649009705, "learning_rate": 0.0008043070569819153, "token_acc": 0.46350974930362115, "epoch": 0.31326682719871574, "step": 683}, {"loss": 2.5003676414489746, "grad_norm": 0.3501461148262024, "learning_rate": 0.0008037174193448089, "token_acc": 0.4652220438737293, "epoch": 0.3137254901960784, "step": 684}, {"loss": 2.395242929458618, "grad_norm": 0.38942310214042664, "learning_rate": 0.0008031271115938077, "token_acc": 0.487888287261328, "epoch": 0.3141841531934411, "step": 685}, {"loss": 2.4117608070373535, "grad_norm": 0.3649235963821411, "learning_rate": 0.0008025361350313505, "token_acc": 0.4814309120699072, "epoch": 0.3146428161908038, "step": 686}, {"loss": 2.5189971923828125, "grad_norm": 0.3525184392929077, "learning_rate": 0.0008019444909613523, "token_acc": 0.4671368124118477, "epoch": 0.3151014791881665, "step": 687}, {"loss": 2.5280954837799072, "grad_norm": 0.38877764344215393, "learning_rate": 0.0008013521806892003, "token_acc": 0.46228710462287104, "epoch": 0.3155601421855292, "step": 688}, {"loss": 2.482534885406494, "grad_norm": 0.3608831465244293, "learning_rate": 0.000800759205521752, "token_acc": 0.4800221975582686, "epoch": 0.3160188051828919, "step": 689}, {"loss": 2.498241662979126, "grad_norm": 0.33392149209976196, "learning_rate": 0.0008001655667673318, "token_acc": 0.47318699638788553, "epoch": 0.3164774681802546, "step": 690}, {"loss": 2.4622936248779297, "grad_norm": 0.346088171005249, "learning_rate": 0.0007995712657357279, "token_acc": 0.4691324449279304, "epoch": 0.31693613117761726, "step": 691}, {"loss": 2.5037841796875, "grad_norm": 0.4086669385433197, "learning_rate": 0.0007989763037381904, "token_acc": 0.47834645669291337, "epoch": 0.31739479417497996, "step": 692}, {"loss": 2.4438748359680176, "grad_norm": 0.35320818424224854, "learning_rate": 0.0007983806820874271, "token_acc": 0.48568311971638944, "epoch": 0.31785345717234265, "step": 693}, {"loss": 2.5002529621124268, "grad_norm": 0.3751761317253113, "learning_rate": 0.0007977844020976016, "token_acc": 0.46684042861280045, "epoch": 0.3183121201697053, "step": 694}, {"loss": 2.501915693283081, "grad_norm": 0.3681119382381439, "learning_rate": 0.00079718746508433, "token_acc": 0.4698694806998056, "epoch": 0.318770783167068, "step": 695}, {"loss": 2.511105537414551, "grad_norm": 0.34130018949508667, "learning_rate": 0.0007965898723646776, "token_acc": 0.4714881780250348, "epoch": 0.31922944616443066, "step": 696}, {"loss": 2.58450984954834, "grad_norm": 0.34937864542007446, "learning_rate": 0.0007959916252571573, "token_acc": 0.46875860170657857, "epoch": 0.31968810916179335, "step": 697}, {"loss": 2.4765450954437256, "grad_norm": 0.37094560265541077, "learning_rate": 0.000795392725081725, "token_acc": 0.4878048780487805, "epoch": 0.32014677215915605, "step": 698}, {"loss": 2.580900192260742, "grad_norm": 0.33710065484046936, "learning_rate": 0.000794793173159778, "token_acc": 0.47442632015482444, "epoch": 0.32060543515651874, "step": 699}, {"loss": 2.567293882369995, "grad_norm": 0.3590303361415863, "learning_rate": 0.0007941929708141513, "token_acc": 0.47200878155872666, "epoch": 0.3210640981538814, "step": 700}, {"loss": 2.5955965518951416, "grad_norm": 0.36723387241363525, "learning_rate": 0.0007935921193691153, "token_acc": 0.45725211690794865, "epoch": 0.3215227611512441, "step": 701}, {"loss": 2.4192023277282715, "grad_norm": 0.34601256251335144, "learning_rate": 0.0007929906201503722, "token_acc": 0.48301574150787074, "epoch": 0.3219814241486068, "step": 702}, {"loss": 2.403144359588623, "grad_norm": 0.3922874927520752, "learning_rate": 0.0007923884744850536, "token_acc": 0.4859481582537517, "epoch": 0.3224400871459695, "step": 703}, {"loss": 2.535346031188965, "grad_norm": 0.37906432151794434, "learning_rate": 0.0007917856837017176, "token_acc": 0.46719012899607404, "epoch": 0.3228987501433322, "step": 704}, {"loss": 2.50457501411438, "grad_norm": 0.3532241880893707, "learning_rate": 0.0007911822491303452, "token_acc": 0.4784506273867976, "epoch": 0.3233574131406949, "step": 705}, {"loss": 2.5387887954711914, "grad_norm": 0.37003663182258606, "learning_rate": 0.0007905781721023382, "token_acc": 0.4671717171717172, "epoch": 0.3238160761380576, "step": 706}, {"loss": 2.4692649841308594, "grad_norm": 0.3547530770301819, "learning_rate": 0.000789973453950516, "token_acc": 0.4727468969239072, "epoch": 0.32427473913542026, "step": 707}, {"loss": 2.4922938346862793, "grad_norm": 0.3270757496356964, "learning_rate": 0.000789368096009112, "token_acc": 0.47232267037552156, "epoch": 0.32473340213278296, "step": 708}, {"loss": 2.4505021572113037, "grad_norm": 0.3403084874153137, "learning_rate": 0.0007887620996137721, "token_acc": 0.48622589531680444, "epoch": 0.32519206513014565, "step": 709}, {"loss": 2.560422658920288, "grad_norm": 0.3299373388290405, "learning_rate": 0.0007881554661015497, "token_acc": 0.4754643748267258, "epoch": 0.32565072812750834, "step": 710}, {"loss": 2.5303573608398438, "grad_norm": 0.3426433503627777, "learning_rate": 0.0007875481968109051, "token_acc": 0.4750914719954968, "epoch": 0.32610939112487103, "step": 711}, {"loss": 2.4995152950286865, "grad_norm": 0.3157728612422943, "learning_rate": 0.0007869402930817007, "token_acc": 0.4666845062884667, "epoch": 0.32656805412223366, "step": 712}, {"loss": 2.4750475883483887, "grad_norm": 0.3554588556289673, "learning_rate": 0.0007863317562551987, "token_acc": 0.4703622392974753, "epoch": 0.32702671711959636, "step": 713}, {"loss": 2.5715863704681396, "grad_norm": 0.3609353005886078, "learning_rate": 0.0007857225876740584, "token_acc": 0.47438330170777987, "epoch": 0.32748538011695905, "step": 714}, {"loss": 2.4522764682769775, "grad_norm": 0.38942810893058777, "learning_rate": 0.0007851127886823327, "token_acc": 0.4669994453688297, "epoch": 0.32794404311432174, "step": 715}, {"loss": 2.391580104827881, "grad_norm": 0.3638046085834503, "learning_rate": 0.0007845023606254658, "token_acc": 0.471444261394838, "epoch": 0.32840270611168443, "step": 716}, {"loss": 2.5013651847839355, "grad_norm": 0.37281668186187744, "learning_rate": 0.0007838913048502894, "token_acc": 0.4775866929799831, "epoch": 0.3288613691090471, "step": 717}, {"loss": 2.453460216522217, "grad_norm": 0.35957518219947815, "learning_rate": 0.0007832796227050208, "token_acc": 0.492277450154451, "epoch": 0.3293200321064098, "step": 718}, {"loss": 2.4434778690338135, "grad_norm": 0.39589008688926697, "learning_rate": 0.0007826673155392587, "token_acc": 0.48399666017255777, "epoch": 0.3297786951037725, "step": 719}, {"loss": 2.564061164855957, "grad_norm": 0.3566542863845825, "learning_rate": 0.000782054384703981, "token_acc": 0.46494573188618366, "epoch": 0.3302373581011352, "step": 720}, {"loss": 2.445883274078369, "grad_norm": 0.35493654012680054, "learning_rate": 0.0007814408315515418, "token_acc": 0.48, "epoch": 0.3306960210984979, "step": 721}, {"loss": 2.5719149112701416, "grad_norm": 0.3641558885574341, "learning_rate": 0.0007808266574356683, "token_acc": 0.45585785674625207, "epoch": 0.3311546840958606, "step": 722}, {"loss": 2.596724510192871, "grad_norm": 0.34119558334350586, "learning_rate": 0.0007802118637114573, "token_acc": 0.463943661971831, "epoch": 0.33161334709322327, "step": 723}, {"loss": 2.5066018104553223, "grad_norm": 0.3604756295681, "learning_rate": 0.0007795964517353734, "token_acc": 0.48334709606385906, "epoch": 0.33207201009058596, "step": 724}, {"loss": 2.635077953338623, "grad_norm": 0.35032856464385986, "learning_rate": 0.0007789804228652449, "token_acc": 0.4389280677009873, "epoch": 0.33253067308794865, "step": 725}, {"loss": 2.4435911178588867, "grad_norm": 0.36541563272476196, "learning_rate": 0.0007783637784602609, "token_acc": 0.48745119910764084, "epoch": 0.33298933608531134, "step": 726}, {"loss": 2.4607625007629395, "grad_norm": 0.36065584421157837, "learning_rate": 0.0007777465198809692, "token_acc": 0.48314285714285715, "epoch": 0.33344799908267403, "step": 727}, {"loss": 2.5126917362213135, "grad_norm": 0.33385568857192993, "learning_rate": 0.0007771286484892722, "token_acc": 0.4797464866354368, "epoch": 0.3339066620800367, "step": 728}, {"loss": 2.511340618133545, "grad_norm": 0.36354780197143555, "learning_rate": 0.000776510165648425, "token_acc": 0.47344632768361583, "epoch": 0.33436532507739936, "step": 729}, {"loss": 2.4994800090789795, "grad_norm": 0.351592481136322, "learning_rate": 0.0007758910727230311, "token_acc": 0.464776381175095, "epoch": 0.33482398807476205, "step": 730}, {"loss": 2.524799108505249, "grad_norm": 0.3549693524837494, "learning_rate": 0.0007752713710790404, "token_acc": 0.48202660628361166, "epoch": 0.33528265107212474, "step": 731}, {"loss": 2.49360990524292, "grad_norm": 0.35759496688842773, "learning_rate": 0.0007746510620837459, "token_acc": 0.48623348017621143, "epoch": 0.33574131406948743, "step": 732}, {"loss": 2.3757376670837402, "grad_norm": 0.3433513343334198, "learning_rate": 0.0007740301471057807, "token_acc": 0.4890552995391705, "epoch": 0.3361999770668501, "step": 733}, {"loss": 2.5070338249206543, "grad_norm": 0.3621678352355957, "learning_rate": 0.0007734086275151146, "token_acc": 0.48040313549832026, "epoch": 0.3366586400642128, "step": 734}, {"loss": 2.5104877948760986, "grad_norm": 0.3816535174846649, "learning_rate": 0.0007727865046830517, "token_acc": 0.46885617214043035, "epoch": 0.3371173030615755, "step": 735}, {"loss": 2.4682278633117676, "grad_norm": 0.37210813164711, "learning_rate": 0.0007721637799822269, "token_acc": 0.4864183702044245, "epoch": 0.3375759660589382, "step": 736}, {"loss": 2.5908682346343994, "grad_norm": 0.4333285093307495, "learning_rate": 0.0007715404547866032, "token_acc": 0.46633481791983233, "epoch": 0.3380346290563009, "step": 737}, {"loss": 2.552295207977295, "grad_norm": 0.3366856276988983, "learning_rate": 0.0007709165304714685, "token_acc": 0.47695390781563124, "epoch": 0.3384932920536636, "step": 738}, {"loss": 2.51790452003479, "grad_norm": 0.33232381939888, "learning_rate": 0.0007702920084134324, "token_acc": 0.46814482177939937, "epoch": 0.33895195505102627, "step": 739}, {"loss": 2.5784425735473633, "grad_norm": 0.3236730694770813, "learning_rate": 0.0007696668899904236, "token_acc": 0.4552038626609442, "epoch": 0.33941061804838896, "step": 740}, {"loss": 2.513674259185791, "grad_norm": 0.3558567464351654, "learning_rate": 0.0007690411765816864, "token_acc": 0.4773371104815864, "epoch": 0.33986928104575165, "step": 741}, {"loss": 2.5302951335906982, "grad_norm": 0.3514906167984009, "learning_rate": 0.0007684148695677778, "token_acc": 0.4748633879781421, "epoch": 0.34032794404311434, "step": 742}, {"loss": 2.524214267730713, "grad_norm": 0.34525763988494873, "learning_rate": 0.000767787970330565, "token_acc": 0.475368772613415, "epoch": 0.34078660704047703, "step": 743}, {"loss": 2.4672207832336426, "grad_norm": 0.33909493684768677, "learning_rate": 0.000767160480253221, "token_acc": 0.48171074845244793, "epoch": 0.3412452700378397, "step": 744}, {"loss": 2.524260997772217, "grad_norm": 0.34997573494911194, "learning_rate": 0.0007665324007202235, "token_acc": 0.48261238337574214, "epoch": 0.3417039330352024, "step": 745}, {"loss": 2.552900791168213, "grad_norm": 0.36363962292671204, "learning_rate": 0.0007659037331173498, "token_acc": 0.46267029972752044, "epoch": 0.34216259603256505, "step": 746}, {"loss": 2.486886739730835, "grad_norm": 0.3389800190925598, "learning_rate": 0.0007652744788316752, "token_acc": 0.4692039511911679, "epoch": 0.34262125902992774, "step": 747}, {"loss": 2.549711227416992, "grad_norm": 0.33301493525505066, "learning_rate": 0.0007646446392515692, "token_acc": 0.4661991584852735, "epoch": 0.34307992202729043, "step": 748}, {"loss": 2.4807004928588867, "grad_norm": 0.3301955759525299, "learning_rate": 0.000764014215766693, "token_acc": 0.4756625202812331, "epoch": 0.3435385850246531, "step": 749}, {"loss": 2.4364609718322754, "grad_norm": 0.33102622628211975, "learning_rate": 0.0007633832097679958, "token_acc": 0.48858574610244987, "epoch": 0.3439972480220158, "step": 750}, {"loss": 2.5203254222869873, "grad_norm": 0.34175965189933777, "learning_rate": 0.0007627516226477122, "token_acc": 0.46735780330624827, "epoch": 0.3444559110193785, "step": 751}, {"loss": 2.4582300186157227, "grad_norm": 0.33683842420578003, "learning_rate": 0.0007621194557993589, "token_acc": 0.47496503496503495, "epoch": 0.3449145740167412, "step": 752}, {"loss": 2.556149482727051, "grad_norm": 0.319711297750473, "learning_rate": 0.0007614867106177319, "token_acc": 0.4703493095044679, "epoch": 0.3453732370141039, "step": 753}, {"loss": 2.4283225536346436, "grad_norm": 0.36632195115089417, "learning_rate": 0.0007608533884989029, "token_acc": 0.4897190848537504, "epoch": 0.3458319000114666, "step": 754}, {"loss": 2.545734405517578, "grad_norm": 0.34834444522857666, "learning_rate": 0.0007602194908402166, "token_acc": 0.4574314574314574, "epoch": 0.34629056300882927, "step": 755}, {"loss": 2.5432612895965576, "grad_norm": 0.3764784634113312, "learning_rate": 0.0007595850190402877, "token_acc": 0.46335899629312804, "epoch": 0.34674922600619196, "step": 756}, {"loss": 2.4372644424438477, "grad_norm": 0.3312098979949951, "learning_rate": 0.0007589499744989976, "token_acc": 0.4880382775119617, "epoch": 0.34720788900355465, "step": 757}, {"loss": 2.406111240386963, "grad_norm": 0.3288785219192505, "learning_rate": 0.0007583143586174916, "token_acc": 0.47542764051045344, "epoch": 0.34766655200091734, "step": 758}, {"loss": 2.457388401031494, "grad_norm": 0.3352579176425934, "learning_rate": 0.000757678172798175, "token_acc": 0.47185525560022973, "epoch": 0.34812521499828003, "step": 759}, {"loss": 2.5851449966430664, "grad_norm": 0.3413090109825134, "learning_rate": 0.0007570414184447112, "token_acc": 0.4624326623192515, "epoch": 0.3485838779956427, "step": 760}, {"loss": 2.4194319248199463, "grad_norm": 0.3249777853488922, "learning_rate": 0.0007564040969620179, "token_acc": 0.479806598407281, "epoch": 0.3490425409930054, "step": 761}, {"loss": 2.5127203464508057, "grad_norm": 0.3535235822200775, "learning_rate": 0.0007557662097562636, "token_acc": 0.4727954971857411, "epoch": 0.3495012039903681, "step": 762}, {"loss": 2.4848999977111816, "grad_norm": 0.3230501413345337, "learning_rate": 0.0007551277582348658, "token_acc": 0.473965662820152, "epoch": 0.34995986698773074, "step": 763}, {"loss": 2.4135982990264893, "grad_norm": 0.3324788212776184, "learning_rate": 0.0007544887438064862, "token_acc": 0.47573347957225115, "epoch": 0.35041852998509343, "step": 764}, {"loss": 2.4969935417175293, "grad_norm": 0.3648921847343445, "learning_rate": 0.0007538491678810294, "token_acc": 0.47896995708154505, "epoch": 0.3508771929824561, "step": 765}, {"loss": 2.47397780418396, "grad_norm": 0.3608934283256531, "learning_rate": 0.0007532090318696381, "token_acc": 0.4847025495750708, "epoch": 0.3513358559798188, "step": 766}, {"loss": 2.563225746154785, "grad_norm": 0.35839247703552246, "learning_rate": 0.0007525683371846913, "token_acc": 0.4642857142857143, "epoch": 0.3517945189771815, "step": 767}, {"loss": 2.4896039962768555, "grad_norm": 0.35109156370162964, "learning_rate": 0.0007519270852398001, "token_acc": 0.47200909349246944, "epoch": 0.3522531819745442, "step": 768}, {"loss": 2.4827041625976562, "grad_norm": 0.3396438956260681, "learning_rate": 0.000751285277449806, "token_acc": 0.4746110948048136, "epoch": 0.3527118449719069, "step": 769}, {"loss": 2.3996291160583496, "grad_norm": 0.32917967438697815, "learning_rate": 0.0007506429152307756, "token_acc": 0.49016892827471614, "epoch": 0.3531705079692696, "step": 770}, {"loss": 2.424008369445801, "grad_norm": 0.3525303900241852, "learning_rate": 0.00075, "token_acc": 0.4831932773109244, "epoch": 0.35362917096663227, "step": 771}, {"loss": 2.5645644664764404, "grad_norm": 0.3548593521118164, "learning_rate": 0.00074935653317599, "token_acc": 0.46440042826552463, "epoch": 0.35408783396399496, "step": 772}, {"loss": 2.4772462844848633, "grad_norm": 0.3535890579223633, "learning_rate": 0.000748712516178473, "token_acc": 0.4859213827711179, "epoch": 0.35454649696135765, "step": 773}, {"loss": 2.4619812965393066, "grad_norm": 0.34181100130081177, "learning_rate": 0.0007480679504283911, "token_acc": 0.47187586589082847, "epoch": 0.35500515995872034, "step": 774}, {"loss": 2.517455816268921, "grad_norm": 0.3352970480918884, "learning_rate": 0.0007474228373478964, "token_acc": 0.4739481749791028, "epoch": 0.35546382295608303, "step": 775}, {"loss": 2.494689702987671, "grad_norm": 0.3285975456237793, "learning_rate": 0.0007467771783603492, "token_acc": 0.4742809734513274, "epoch": 0.3559224859534457, "step": 776}, {"loss": 2.3653063774108887, "grad_norm": 0.3505977988243103, "learning_rate": 0.0007461309748903138, "token_acc": 0.49294582392776526, "epoch": 0.3563811489508084, "step": 777}, {"loss": 2.4750514030456543, "grad_norm": 0.3395656943321228, "learning_rate": 0.0007454842283635562, "token_acc": 0.47219870166525546, "epoch": 0.3568398119481711, "step": 778}, {"loss": 2.4132838249206543, "grad_norm": 0.34542128443717957, "learning_rate": 0.0007448369402070404, "token_acc": 0.48042804843706, "epoch": 0.3572984749455338, "step": 779}, {"loss": 2.431128978729248, "grad_norm": 0.35562390089035034, "learning_rate": 0.0007441891118489254, "token_acc": 0.4909456740442656, "epoch": 0.35775713794289643, "step": 780}, {"loss": 2.3957133293151855, "grad_norm": 0.33379650115966797, "learning_rate": 0.0007435407447185622, "token_acc": 0.49889012208657046, "epoch": 0.3582158009402591, "step": 781}, {"loss": 2.2889082431793213, "grad_norm": 0.3335231840610504, "learning_rate": 0.0007428918402464908, "token_acc": 0.5097931034482759, "epoch": 0.3586744639376218, "step": 782}, {"loss": 2.404224395751953, "grad_norm": 0.3335070013999939, "learning_rate": 0.0007422423998644359, "token_acc": 0.48468040147913366, "epoch": 0.3591331269349845, "step": 783}, {"loss": 2.4291582107543945, "grad_norm": 0.3629177212715149, "learning_rate": 0.0007415924250053055, "token_acc": 0.48651717286403634, "epoch": 0.3595917899323472, "step": 784}, {"loss": 2.555297374725342, "grad_norm": 0.34305059909820557, "learning_rate": 0.0007409419171031865, "token_acc": 0.46711074104912575, "epoch": 0.3600504529297099, "step": 785}, {"loss": 2.432730197906494, "grad_norm": 0.3312990069389343, "learning_rate": 0.0007402908775933419, "token_acc": 0.47728563316297556, "epoch": 0.3605091159270726, "step": 786}, {"loss": 2.495298147201538, "grad_norm": 0.3471532166004181, "learning_rate": 0.0007396393079122077, "token_acc": 0.47733333333333333, "epoch": 0.36096777892443527, "step": 787}, {"loss": 2.4447596073150635, "grad_norm": 0.3289634585380554, "learning_rate": 0.0007389872094973896, "token_acc": 0.48094425483503983, "epoch": 0.36142644192179796, "step": 788}, {"loss": 2.3992300033569336, "grad_norm": 0.33326053619384766, "learning_rate": 0.00073833458378766, "token_acc": 0.47897727272727275, "epoch": 0.36188510491916065, "step": 789}, {"loss": 2.52272629737854, "grad_norm": 0.33359360694885254, "learning_rate": 0.0007376814322229544, "token_acc": 0.48142031379025596, "epoch": 0.36234376791652334, "step": 790}, {"loss": 2.5111989974975586, "grad_norm": 0.30910125374794006, "learning_rate": 0.0007370277562443688, "token_acc": 0.4659890539483972, "epoch": 0.36280243091388603, "step": 791}, {"loss": 2.447417736053467, "grad_norm": 0.3456060588359833, "learning_rate": 0.0007363735572941564, "token_acc": 0.47259507829977626, "epoch": 0.3632610939112487, "step": 792}, {"loss": 2.4065170288085938, "grad_norm": 0.3354930579662323, "learning_rate": 0.0007357188368157236, "token_acc": 0.484296130117779, "epoch": 0.3637197569086114, "step": 793}, {"loss": 2.467536449432373, "grad_norm": 0.3679870665073395, "learning_rate": 0.0007350635962536284, "token_acc": 0.4832100170745589, "epoch": 0.3641784199059741, "step": 794}, {"loss": 2.4807534217834473, "grad_norm": 0.3262147605419159, "learning_rate": 0.0007344078370535756, "token_acc": 0.470242860955431, "epoch": 0.3646370829033368, "step": 795}, {"loss": 2.4958858489990234, "grad_norm": 0.3515841066837311, "learning_rate": 0.0007337515606624148, "token_acc": 0.46664813785436354, "epoch": 0.3650957459006995, "step": 796}, {"loss": 2.37929630279541, "grad_norm": 0.36349594593048096, "learning_rate": 0.0007330947685281362, "token_acc": 0.5024617067833698, "epoch": 0.3655544088980621, "step": 797}, {"loss": 2.4175400733947754, "grad_norm": 0.37460190057754517, "learning_rate": 0.0007324374620998682, "token_acc": 0.480448533640023, "epoch": 0.3660130718954248, "step": 798}, {"loss": 2.384699821472168, "grad_norm": 0.34051451086997986, "learning_rate": 0.000731779642827874, "token_acc": 0.49243505566657153, "epoch": 0.3664717348927875, "step": 799}, {"loss": 2.4641661643981934, "grad_norm": 0.35937047004699707, "learning_rate": 0.0007311213121635483, "token_acc": 0.47732558139534886, "epoch": 0.3669303978901502, "step": 800}, {"loss": 2.4949920177459717, "grad_norm": 0.353805810213089, "learning_rate": 0.0007304624715594139, "token_acc": 0.4786677676851087, "epoch": 0.3673890608875129, "step": 801}, {"loss": 2.4123919010162354, "grad_norm": 0.3308771252632141, "learning_rate": 0.0007298031224691193, "token_acc": 0.47576848518415954, "epoch": 0.3678477238848756, "step": 802}, {"loss": 2.475379467010498, "grad_norm": 0.3476885259151459, "learning_rate": 0.0007291432663474339, "token_acc": 0.47018221976808394, "epoch": 0.36830638688223827, "step": 803}, {"loss": 2.517099380493164, "grad_norm": 0.36175617575645447, "learning_rate": 0.0007284829046502467, "token_acc": 0.4681528662420382, "epoch": 0.36876504987960096, "step": 804}, {"loss": 2.580439805984497, "grad_norm": 0.34956565499305725, "learning_rate": 0.0007278220388345619, "token_acc": 0.46145027228432217, "epoch": 0.36922371287696365, "step": 805}, {"loss": 2.3498265743255615, "grad_norm": 0.36770331859588623, "learning_rate": 0.0007271606703584958, "token_acc": 0.48791330925257015, "epoch": 0.36968237587432634, "step": 806}, {"loss": 2.464916229248047, "grad_norm": 0.35276126861572266, "learning_rate": 0.000726498800681274, "token_acc": 0.4831812998859749, "epoch": 0.37014103887168903, "step": 807}, {"loss": 2.5920419692993164, "grad_norm": 0.3493054211139679, "learning_rate": 0.0007258364312632279, "token_acc": 0.4601041952289553, "epoch": 0.3705997018690517, "step": 808}, {"loss": 2.438547134399414, "grad_norm": 0.38424357771873474, "learning_rate": 0.0007251735635657915, "token_acc": 0.4809069212410501, "epoch": 0.3710583648664144, "step": 809}, {"loss": 2.3928637504577637, "grad_norm": 0.35258960723876953, "learning_rate": 0.000724510199051498, "token_acc": 0.48171227309672177, "epoch": 0.3715170278637771, "step": 810}, {"loss": 2.548452854156494, "grad_norm": 0.3701295852661133, "learning_rate": 0.0007238463391839769, "token_acc": 0.4752981260647359, "epoch": 0.3719756908611398, "step": 811}, {"loss": 2.5540356636047363, "grad_norm": 0.34005725383758545, "learning_rate": 0.0007231819854279508, "token_acc": 0.47848389854659445, "epoch": 0.3724343538585025, "step": 812}, {"loss": 2.4485301971435547, "grad_norm": 0.34729236364364624, "learning_rate": 0.0007225171392492316, "token_acc": 0.47530687981729947, "epoch": 0.3728930168558652, "step": 813}, {"loss": 2.5611181259155273, "grad_norm": 0.3436357080936432, "learning_rate": 0.0007218518021147182, "token_acc": 0.4675145147912635, "epoch": 0.3733516798532278, "step": 814}, {"loss": 2.4905998706817627, "grad_norm": 0.3415057361125946, "learning_rate": 0.0007211859754923923, "token_acc": 0.4802163393111301, "epoch": 0.3738103428505905, "step": 815}, {"loss": 2.4886622428894043, "grad_norm": 0.3224409818649292, "learning_rate": 0.0007205196608513158, "token_acc": 0.4703308722996992, "epoch": 0.3742690058479532, "step": 816}, {"loss": 2.346679210662842, "grad_norm": 0.3343602418899536, "learning_rate": 0.0007198528596616272, "token_acc": 0.4992963692654095, "epoch": 0.3747276688453159, "step": 817}, {"loss": 2.4271044731140137, "grad_norm": 0.3545147478580475, "learning_rate": 0.0007191855733945387, "token_acc": 0.48335214446952596, "epoch": 0.3751863318426786, "step": 818}, {"loss": 2.410579204559326, "grad_norm": 0.3391993045806885, "learning_rate": 0.0007185178035223327, "token_acc": 0.4904423812124522, "epoch": 0.37564499484004127, "step": 819}, {"loss": 2.518404960632324, "grad_norm": 0.36033087968826294, "learning_rate": 0.0007178495515183583, "token_acc": 0.4784172661870504, "epoch": 0.37610365783740396, "step": 820}, {"loss": 2.4787118434906006, "grad_norm": 0.37622544169425964, "learning_rate": 0.000717180818857029, "token_acc": 0.47202894517116617, "epoch": 0.37656232083476665, "step": 821}, {"loss": 2.5121822357177734, "grad_norm": 0.35045674443244934, "learning_rate": 0.0007165116070138182, "token_acc": 0.4636963696369637, "epoch": 0.37702098383212934, "step": 822}, {"loss": 2.5115466117858887, "grad_norm": 0.3700495958328247, "learning_rate": 0.0007158419174652569, "token_acc": 0.46317512274959083, "epoch": 0.37747964682949203, "step": 823}, {"loss": 2.491389274597168, "grad_norm": 0.38144850730895996, "learning_rate": 0.00071517175168893, "token_acc": 0.4721989382509081, "epoch": 0.3779383098268547, "step": 824}, {"loss": 2.4309535026550293, "grad_norm": 0.3349778354167938, "learning_rate": 0.0007145011111634732, "token_acc": 0.48610354223433244, "epoch": 0.3783969728242174, "step": 825}, {"loss": 2.5415701866149902, "grad_norm": 0.3638837933540344, "learning_rate": 0.0007138299973685694, "token_acc": 0.4614546445110324, "epoch": 0.3788556358215801, "step": 826}, {"loss": 2.539368152618408, "grad_norm": 0.3995637595653534, "learning_rate": 0.0007131584117849459, "token_acc": 0.4708049886621315, "epoch": 0.3793142988189428, "step": 827}, {"loss": 2.5239875316619873, "grad_norm": 0.33401423692703247, "learning_rate": 0.0007124863558943713, "token_acc": 0.4754232659748771, "epoch": 0.3797729618163055, "step": 828}, {"loss": 2.5455970764160156, "grad_norm": 0.3599550426006317, "learning_rate": 0.0007118138311796514, "token_acc": 0.46755555555555556, "epoch": 0.3802316248136682, "step": 829}, {"loss": 2.5135281085968018, "grad_norm": 0.34945255517959595, "learning_rate": 0.0007111408391246262, "token_acc": 0.46258692628650905, "epoch": 0.38069028781103087, "step": 830}, {"loss": 2.4962868690490723, "grad_norm": 0.34327560663223267, "learning_rate": 0.0007104673812141675, "token_acc": 0.4770617149098853, "epoch": 0.3811489508083935, "step": 831}, {"loss": 2.4645185470581055, "grad_norm": 0.3618239760398865, "learning_rate": 0.0007097934589341745, "token_acc": 0.4867986798679868, "epoch": 0.3816076138057562, "step": 832}, {"loss": 2.564073085784912, "grad_norm": 0.33237510919570923, "learning_rate": 0.0007091190737715711, "token_acc": 0.4602702702702703, "epoch": 0.3820662768031189, "step": 833}, {"loss": 2.488542318344116, "grad_norm": 0.3325451612472534, "learning_rate": 0.0007084442272143026, "token_acc": 0.4708889520022721, "epoch": 0.3825249398004816, "step": 834}, {"loss": 2.374340772628784, "grad_norm": 0.3296065032482147, "learning_rate": 0.000707768920751332, "token_acc": 0.4901164365014893, "epoch": 0.38298360279784427, "step": 835}, {"loss": 2.558864116668701, "grad_norm": 0.32573696970939636, "learning_rate": 0.0007070931558726373, "token_acc": 0.46733668341708545, "epoch": 0.38344226579520696, "step": 836}, {"loss": 2.4058151245117188, "grad_norm": 0.3295629322528839, "learning_rate": 0.0007064169340692076, "token_acc": 0.4703159041394335, "epoch": 0.38390092879256965, "step": 837}, {"loss": 2.454240322113037, "grad_norm": 0.3382768929004669, "learning_rate": 0.0007057402568330407, "token_acc": 0.472636815920398, "epoch": 0.38435959178993234, "step": 838}, {"loss": 2.4515879154205322, "grad_norm": 0.3621100187301636, "learning_rate": 0.0007050631256571389, "token_acc": 0.4820247339660627, "epoch": 0.38481825478729503, "step": 839}, {"loss": 2.476222038269043, "grad_norm": 0.3499838411808014, "learning_rate": 0.000704385542035506, "token_acc": 0.4724890829694323, "epoch": 0.3852769177846577, "step": 840}, {"loss": 2.4179282188415527, "grad_norm": 0.34161198139190674, "learning_rate": 0.000703707507463144, "token_acc": 0.47489597780859916, "epoch": 0.3857355807820204, "step": 841}, {"loss": 2.4231343269348145, "grad_norm": 0.3581376373767853, "learning_rate": 0.0007030290234360505, "token_acc": 0.48804379141457793, "epoch": 0.3861942437793831, "step": 842}, {"loss": 2.3875174522399902, "grad_norm": 0.3114863336086273, "learning_rate": 0.0007023500914512139, "token_acc": 0.48638988177069015, "epoch": 0.3866529067767458, "step": 843}, {"loss": 2.3906877040863037, "grad_norm": 0.36698824167251587, "learning_rate": 0.0007016707130066116, "token_acc": 0.48205569910996265, "epoch": 0.3871115697741085, "step": 844}, {"loss": 2.4574131965637207, "grad_norm": 0.3424600064754486, "learning_rate": 0.0007009908896012055, "token_acc": 0.4725490196078431, "epoch": 0.3875702327714712, "step": 845}, {"loss": 2.3655309677124023, "grad_norm": 0.3314528465270996, "learning_rate": 0.0007003106227349399, "token_acc": 0.4950576606260296, "epoch": 0.38802889576883387, "step": 846}, {"loss": 2.5706467628479004, "grad_norm": 0.3507498800754547, "learning_rate": 0.000699629913908737, "token_acc": 0.4544711014176663, "epoch": 0.38848755876619656, "step": 847}, {"loss": 2.542130947113037, "grad_norm": 0.35580703616142273, "learning_rate": 0.0006989487646244943, "token_acc": 0.45558815684182447, "epoch": 0.38894622176355925, "step": 848}, {"loss": 2.4827723503112793, "grad_norm": 0.3296971619129181, "learning_rate": 0.0006982671763850814, "token_acc": 0.4784110535405872, "epoch": 0.3894048847609219, "step": 849}, {"loss": 2.4418163299560547, "grad_norm": 0.3323590159416199, "learning_rate": 0.0006975851506943359, "token_acc": 0.4789517702815723, "epoch": 0.3898635477582846, "step": 850}, {"loss": 2.446475028991699, "grad_norm": 0.3179738521575928, "learning_rate": 0.0006969026890570611, "token_acc": 0.4717290357825731, "epoch": 0.39032221075564727, "step": 851}, {"loss": 2.5509390830993652, "grad_norm": 0.34864169359207153, "learning_rate": 0.0006962197929790216, "token_acc": 0.4613500272182907, "epoch": 0.39078087375300996, "step": 852}, {"loss": 2.437828540802002, "grad_norm": 0.3578560948371887, "learning_rate": 0.0006955364639669409, "token_acc": 0.4782126006106023, "epoch": 0.39123953675037265, "step": 853}, {"loss": 2.4185004234313965, "grad_norm": 0.33879053592681885, "learning_rate": 0.0006948527035284978, "token_acc": 0.47908309455587395, "epoch": 0.39169819974773534, "step": 854}, {"loss": 2.5527725219726562, "grad_norm": 0.35762783885002136, "learning_rate": 0.0006941685131723225, "token_acc": 0.45817490494296575, "epoch": 0.39215686274509803, "step": 855}, {"loss": 2.387233257293701, "grad_norm": 0.3617367446422577, "learning_rate": 0.0006934838944079943, "token_acc": 0.4972144846796657, "epoch": 0.3926155257424607, "step": 856}, {"loss": 2.4895336627960205, "grad_norm": 0.3725968599319458, "learning_rate": 0.0006927988487460378, "token_acc": 0.4732739420935412, "epoch": 0.3930741887398234, "step": 857}, {"loss": 2.469203233718872, "grad_norm": 0.35217392444610596, "learning_rate": 0.0006921133776979186, "token_acc": 0.48589779391231497, "epoch": 0.3935328517371861, "step": 858}, {"loss": 2.4380342960357666, "grad_norm": 0.31820574402809143, "learning_rate": 0.0006914274827760418, "token_acc": 0.4857852608335633, "epoch": 0.3939915147345488, "step": 859}, {"loss": 2.413689613342285, "grad_norm": 0.33736085891723633, "learning_rate": 0.0006907411654937475, "token_acc": 0.4877641824249166, "epoch": 0.3944501777319115, "step": 860}, {"loss": 2.4610211849212646, "grad_norm": 0.318315327167511, "learning_rate": 0.0006900544273653075, "token_acc": 0.4752313554708764, "epoch": 0.3949088407292742, "step": 861}, {"loss": 2.471482038497925, "grad_norm": 0.33929315209388733, "learning_rate": 0.000689367269905922, "token_acc": 0.480375898286346, "epoch": 0.39536750372663687, "step": 862}, {"loss": 2.509321689605713, "grad_norm": 0.3373332917690277, "learning_rate": 0.0006886796946317168, "token_acc": 0.4790842283776145, "epoch": 0.39582616672399956, "step": 863}, {"loss": 2.530477523803711, "grad_norm": 0.3210132420063019, "learning_rate": 0.0006879917030597397, "token_acc": 0.4660922734852696, "epoch": 0.39628482972136225, "step": 864}, {"loss": 2.393293857574463, "grad_norm": 0.32578906416893005, "learning_rate": 0.0006873032967079561, "token_acc": 0.4833854018744675, "epoch": 0.39674349271872494, "step": 865}, {"loss": 2.4211227893829346, "grad_norm": 0.34614992141723633, "learning_rate": 0.0006866144770952474, "token_acc": 0.4699117411072479, "epoch": 0.3972021557160876, "step": 866}, {"loss": 2.495723247528076, "grad_norm": 0.36215364933013916, "learning_rate": 0.0006859252457414067, "token_acc": 0.46153846153846156, "epoch": 0.39766081871345027, "step": 867}, {"loss": 2.4989211559295654, "grad_norm": 0.3510194718837738, "learning_rate": 0.0006852356041671351, "token_acc": 0.4746192893401015, "epoch": 0.39811948171081296, "step": 868}, {"loss": 2.4638500213623047, "grad_norm": 0.3313802182674408, "learning_rate": 0.0006845455538940394, "token_acc": 0.4678237650200267, "epoch": 0.39857814470817565, "step": 869}, {"loss": 2.5276336669921875, "grad_norm": 0.3359384536743164, "learning_rate": 0.0006838550964446276, "token_acc": 0.46591222743582666, "epoch": 0.39903680770553834, "step": 870}, {"loss": 2.525841236114502, "grad_norm": 0.33474427461624146, "learning_rate": 0.0006831642333423067, "token_acc": 0.46305959901126065, "epoch": 0.39949547070290103, "step": 871}, {"loss": 2.3578083515167236, "grad_norm": 0.33878329396247864, "learning_rate": 0.000682472966111378, "token_acc": 0.49681344148319817, "epoch": 0.3999541337002637, "step": 872}, {"loss": 2.5074901580810547, "grad_norm": 0.335550457239151, "learning_rate": 0.0006817812962770348, "token_acc": 0.46256830601092896, "epoch": 0.4004127966976264, "step": 873}, {"loss": 2.4579997062683105, "grad_norm": 0.3222511410713196, "learning_rate": 0.0006810892253653589, "token_acc": 0.47377094204888764, "epoch": 0.4008714596949891, "step": 874}, {"loss": 2.500559091567993, "grad_norm": 0.40958118438720703, "learning_rate": 0.0006803967549033167, "token_acc": 0.47086968758795383, "epoch": 0.4013301226923518, "step": 875}, {"loss": 2.461747169494629, "grad_norm": 0.342215359210968, "learning_rate": 0.0006797038864187564, "token_acc": 0.4695121951219512, "epoch": 0.4017887856897145, "step": 876}, {"loss": 2.4394402503967285, "grad_norm": 0.37586331367492676, "learning_rate": 0.0006790106214404043, "token_acc": 0.4819906516359637, "epoch": 0.4022474486870772, "step": 877}, {"loss": 2.4620203971862793, "grad_norm": 0.3401262164115906, "learning_rate": 0.0006783169614978614, "token_acc": 0.46742209631728043, "epoch": 0.40270611168443987, "step": 878}, {"loss": 2.49172306060791, "grad_norm": 0.3470291197299957, "learning_rate": 0.0006776229081216001, "token_acc": 0.46695035460992906, "epoch": 0.40316477468180256, "step": 879}, {"loss": 2.461165428161621, "grad_norm": 0.3389359414577484, "learning_rate": 0.0006769284628429611, "token_acc": 0.476150155235676, "epoch": 0.40362343767916525, "step": 880}, {"loss": 2.44110107421875, "grad_norm": 0.3308427333831787, "learning_rate": 0.0006762336271941498, "token_acc": 0.4813017413645447, "epoch": 0.40408210067652794, "step": 881}, {"loss": 2.4816231727600098, "grad_norm": 0.3215057849884033, "learning_rate": 0.0006755384027082326, "token_acc": 0.46984572230014027, "epoch": 0.40454076367389064, "step": 882}, {"loss": 2.542203187942505, "grad_norm": 0.33226045966148376, "learning_rate": 0.0006748427909191342, "token_acc": 0.462403951701427, "epoch": 0.40499942667125327, "step": 883}, {"loss": 2.4750823974609375, "grad_norm": 0.3417050540447235, "learning_rate": 0.0006741467933616335, "token_acc": 0.4783337992731339, "epoch": 0.40545808966861596, "step": 884}, {"loss": 2.4716637134552, "grad_norm": 0.3694283664226532, "learning_rate": 0.0006734504115713604, "token_acc": 0.474373576309795, "epoch": 0.40591675266597865, "step": 885}, {"loss": 2.467498779296875, "grad_norm": 0.3408249020576477, "learning_rate": 0.0006727536470847932, "token_acc": 0.48575342465753424, "epoch": 0.40637541566334134, "step": 886}, {"loss": 2.525841474533081, "grad_norm": 0.3706459701061249, "learning_rate": 0.000672056501439254, "token_acc": 0.47793481396019616, "epoch": 0.40683407866070403, "step": 887}, {"loss": 2.4270241260528564, "grad_norm": 0.33338823914527893, "learning_rate": 0.0006713589761729063, "token_acc": 0.48518725544997204, "epoch": 0.4072927416580667, "step": 888}, {"loss": 2.5137414932250977, "grad_norm": 0.3480849862098694, "learning_rate": 0.0006706610728247508, "token_acc": 0.4654927577392786, "epoch": 0.4077514046554294, "step": 889}, {"loss": 2.412680149078369, "grad_norm": 0.3385140895843506, "learning_rate": 0.0006699627929346227, "token_acc": 0.4858677218767665, "epoch": 0.4082100676527921, "step": 890}, {"loss": 2.3571317195892334, "grad_norm": 0.32687926292419434, "learning_rate": 0.0006692641380431879, "token_acc": 0.49587231700605394, "epoch": 0.4086687306501548, "step": 891}, {"loss": 2.3892743587493896, "grad_norm": 0.34469565749168396, "learning_rate": 0.0006685651096919393, "token_acc": 0.4817903808729497, "epoch": 0.4091273936475175, "step": 892}, {"loss": 2.4766666889190674, "grad_norm": 0.33755695819854736, "learning_rate": 0.0006678657094231944, "token_acc": 0.4866648336541105, "epoch": 0.4095860566448802, "step": 893}, {"loss": 2.562934637069702, "grad_norm": 0.32727566361427307, "learning_rate": 0.0006671659387800909, "token_acc": 0.468404647208841, "epoch": 0.41004471964224287, "step": 894}, {"loss": 2.4236083030700684, "grad_norm": 0.36177247762680054, "learning_rate": 0.000666465799306584, "token_acc": 0.469896387566508, "epoch": 0.41050338263960556, "step": 895}, {"loss": 2.4102890491485596, "grad_norm": 0.32118985056877136, "learning_rate": 0.0006657652925474423, "token_acc": 0.4879518072289157, "epoch": 0.41096204563696825, "step": 896}, {"loss": 2.432246208190918, "grad_norm": 0.3292829990386963, "learning_rate": 0.000665064420048245, "token_acc": 0.4901585565882996, "epoch": 0.41142070863433094, "step": 897}, {"loss": 2.3862335681915283, "grad_norm": 0.3454367518424988, "learning_rate": 0.0006643631833553785, "token_acc": 0.4920190422850742, "epoch": 0.41187937163169364, "step": 898}, {"loss": 2.40451717376709, "grad_norm": 0.3250463902950287, "learning_rate": 0.000663661584016032, "token_acc": 0.4741285403050109, "epoch": 0.4123380346290563, "step": 899}, {"loss": 2.413483142852783, "grad_norm": 0.33107975125312805, "learning_rate": 0.0006629596235781957, "token_acc": 0.4797163120567376, "epoch": 0.41279669762641896, "step": 900}, {"loss": 2.4231109619140625, "grad_norm": 0.3298957943916321, "learning_rate": 0.0006622573035906556, "token_acc": 0.48236259228876127, "epoch": 0.41325536062378165, "step": 901}, {"loss": 2.5227856636047363, "grad_norm": 0.3405163884162903, "learning_rate": 0.0006615546256029921, "token_acc": 0.4665025977577249, "epoch": 0.41371402362114434, "step": 902}, {"loss": 2.4077415466308594, "grad_norm": 0.3398095667362213, "learning_rate": 0.0006608515911655743, "token_acc": 0.4968625213918996, "epoch": 0.41417268661850704, "step": 903}, {"loss": 2.5073070526123047, "grad_norm": 0.3194008469581604, "learning_rate": 0.0006601482018295591, "token_acc": 0.4906020157995097, "epoch": 0.4146313496158697, "step": 904}, {"loss": 2.4195785522460938, "grad_norm": 0.3209075927734375, "learning_rate": 0.0006594444591468851, "token_acc": 0.48060754000542444, "epoch": 0.4150900126132324, "step": 905}, {"loss": 2.404463529586792, "grad_norm": 0.34620383381843567, "learning_rate": 0.0006587403646702713, "token_acc": 0.4869950193691201, "epoch": 0.4155486756105951, "step": 906}, {"loss": 2.473375082015991, "grad_norm": 0.33298105001449585, "learning_rate": 0.0006580359199532126, "token_acc": 0.471847739888977, "epoch": 0.4160073386079578, "step": 907}, {"loss": 2.3809752464294434, "grad_norm": 0.3396308124065399, "learning_rate": 0.000657331126549977, "token_acc": 0.5013958682300391, "epoch": 0.4164660016053205, "step": 908}, {"loss": 2.4360573291778564, "grad_norm": 0.32496148347854614, "learning_rate": 0.0006566259860156014, "token_acc": 0.476461038961039, "epoch": 0.4169246646026832, "step": 909}, {"loss": 2.4648337364196777, "grad_norm": 0.35692402720451355, "learning_rate": 0.0006559204999058888, "token_acc": 0.4788536449638286, "epoch": 0.4173833276000459, "step": 910}, {"loss": 2.411172389984131, "grad_norm": 0.3381478786468506, "learning_rate": 0.0006552146697774049, "token_acc": 0.4821727019498607, "epoch": 0.41784199059740856, "step": 911}, {"loss": 2.4794931411743164, "grad_norm": 0.32509705424308777, "learning_rate": 0.0006545084971874737, "token_acc": 0.46895604395604396, "epoch": 0.41830065359477125, "step": 912}, {"loss": 2.406435489654541, "grad_norm": 0.33048540353775024, "learning_rate": 0.0006538019836941758, "token_acc": 0.4842749791260785, "epoch": 0.41875931659213395, "step": 913}, {"loss": 2.4972496032714844, "grad_norm": 0.3375578224658966, "learning_rate": 0.0006530951308563431, "token_acc": 0.48014541387024606, "epoch": 0.41921797958949664, "step": 914}, {"loss": 2.4719314575195312, "grad_norm": 0.33902379870414734, "learning_rate": 0.0006523879402335567, "token_acc": 0.47727906328408143, "epoch": 0.4196766425868593, "step": 915}, {"loss": 2.4043657779693604, "grad_norm": 0.3327704966068268, "learning_rate": 0.0006516804133861429, "token_acc": 0.4829592684954281, "epoch": 0.420135305584222, "step": 916}, {"loss": 2.4364006519317627, "grad_norm": 0.3334977626800537, "learning_rate": 0.0006509725518751698, "token_acc": 0.47344759763978644, "epoch": 0.42059396858158465, "step": 917}, {"loss": 2.3419954776763916, "grad_norm": 0.3373716473579407, "learning_rate": 0.0006502643572624438, "token_acc": 0.4955530850472485, "epoch": 0.42105263157894735, "step": 918}, {"loss": 2.4982738494873047, "grad_norm": 0.34129130840301514, "learning_rate": 0.0006495558311105064, "token_acc": 0.473669623059867, "epoch": 0.42151129457631004, "step": 919}, {"loss": 2.447873830795288, "grad_norm": 0.3115142583847046, "learning_rate": 0.0006488469749826305, "token_acc": 0.4855091730922627, "epoch": 0.4219699575736727, "step": 920}, {"loss": 2.4756522178649902, "grad_norm": 0.3177265226840973, "learning_rate": 0.000648137790442817, "token_acc": 0.48343291689299295, "epoch": 0.4224286205710354, "step": 921}, {"loss": 2.4307937622070312, "grad_norm": 0.36320260167121887, "learning_rate": 0.0006474282790557916, "token_acc": 0.4975776574522656, "epoch": 0.4228872835683981, "step": 922}, {"loss": 2.3710238933563232, "grad_norm": 0.32924753427505493, "learning_rate": 0.000646718442387001, "token_acc": 0.4971366239432779, "epoch": 0.4233459465657608, "step": 923}, {"loss": 2.5720040798187256, "grad_norm": 0.3493598401546478, "learning_rate": 0.0006460082820026094, "token_acc": 0.4608333333333333, "epoch": 0.4238046095631235, "step": 924}, {"loss": 2.453251361846924, "grad_norm": 0.35568714141845703, "learning_rate": 0.0006452977994694959, "token_acc": 0.48622100954979536, "epoch": 0.4242632725604862, "step": 925}, {"loss": 2.394815444946289, "grad_norm": 0.3220854103565216, "learning_rate": 0.0006445869963552496, "token_acc": 0.47585071350164654, "epoch": 0.4247219355578489, "step": 926}, {"loss": 2.4224698543548584, "grad_norm": 0.3344813883304596, "learning_rate": 0.0006438758742281672, "token_acc": 0.4960328317373461, "epoch": 0.42518059855521156, "step": 927}, {"loss": 2.5200917720794678, "grad_norm": 0.39103877544403076, "learning_rate": 0.0006431644346572495, "token_acc": 0.4589290720493412, "epoch": 0.42563926155257426, "step": 928}, {"loss": 2.5275228023529053, "grad_norm": 0.3340437412261963, "learning_rate": 0.0006424526792121974, "token_acc": 0.4645143334261063, "epoch": 0.42609792454993695, "step": 929}, {"loss": 2.4413881301879883, "grad_norm": 0.355785071849823, "learning_rate": 0.0006417406094634089, "token_acc": 0.4865771812080537, "epoch": 0.42655658754729964, "step": 930}, {"loss": 2.5758347511291504, "grad_norm": 0.36327165365219116, "learning_rate": 0.0006410282269819756, "token_acc": 0.47629860913993755, "epoch": 0.42701525054466233, "step": 931}, {"loss": 2.4430923461914062, "grad_norm": 0.32997390627861023, "learning_rate": 0.0006403155333396787, "token_acc": 0.4847173383824723, "epoch": 0.427473913542025, "step": 932}, {"loss": 2.421485424041748, "grad_norm": 0.36614543199539185, "learning_rate": 0.0006396025301089863, "token_acc": 0.4745621351125938, "epoch": 0.4279325765393877, "step": 933}, {"loss": 2.4613075256347656, "grad_norm": 0.3355928361415863, "learning_rate": 0.0006388892188630493, "token_acc": 0.4684512428298279, "epoch": 0.42839123953675035, "step": 934}, {"loss": 2.5218653678894043, "grad_norm": 0.33424264192581177, "learning_rate": 0.0006381756011756982, "token_acc": 0.4703804347826087, "epoch": 0.42884990253411304, "step": 935}, {"loss": 2.4696428775787354, "grad_norm": 0.3353055417537689, "learning_rate": 0.0006374616786214403, "token_acc": 0.48337028824833705, "epoch": 0.4293085655314757, "step": 936}, {"loss": 2.5012354850769043, "grad_norm": 0.36095112562179565, "learning_rate": 0.0006367474527754544, "token_acc": 0.47456165564817476, "epoch": 0.4297672285288384, "step": 937}, {"loss": 2.3056390285491943, "grad_norm": 0.35927727818489075, "learning_rate": 0.0006360329252135894, "token_acc": 0.5138849929873773, "epoch": 0.4302258915262011, "step": 938}, {"loss": 2.468533992767334, "grad_norm": 0.3377129137516022, "learning_rate": 0.0006353180975123595, "token_acc": 0.4789892106757524, "epoch": 0.4306845545235638, "step": 939}, {"loss": 2.5318164825439453, "grad_norm": 0.34502243995666504, "learning_rate": 0.0006346029712489413, "token_acc": 0.46023359288097887, "epoch": 0.4311432175209265, "step": 940}, {"loss": 2.4076178073883057, "grad_norm": 0.3461168706417084, "learning_rate": 0.0006338875480011698, "token_acc": 0.47704428144525945, "epoch": 0.4316018805182892, "step": 941}, {"loss": 2.4736764430999756, "grad_norm": 0.3349441885948181, "learning_rate": 0.0006331718293475357, "token_acc": 0.47488204274215934, "epoch": 0.4320605435156519, "step": 942}, {"loss": 2.4458165168762207, "grad_norm": 0.3354679048061371, "learning_rate": 0.0006324558168671811, "token_acc": 0.4855658198614319, "epoch": 0.43251920651301456, "step": 943}, {"loss": 2.5307509899139404, "grad_norm": 0.32944968342781067, "learning_rate": 0.0006317395121398968, "token_acc": 0.46499859432105706, "epoch": 0.43297786951037726, "step": 944}, {"loss": 2.3818087577819824, "grad_norm": 0.33127132058143616, "learning_rate": 0.0006310229167461179, "token_acc": 0.47858796296296297, "epoch": 0.43343653250773995, "step": 945}, {"loss": 2.3439769744873047, "grad_norm": 0.3457237482070923, "learning_rate": 0.0006303060322669214, "token_acc": 0.49524342473419136, "epoch": 0.43389519550510264, "step": 946}, {"loss": 2.3701133728027344, "grad_norm": 0.3146384656429291, "learning_rate": 0.0006295888602840214, "token_acc": 0.49254555494202096, "epoch": 0.43435385850246533, "step": 947}, {"loss": 2.4137330055236816, "grad_norm": 0.34507277607917786, "learning_rate": 0.0006288714023797671, "token_acc": 0.48926080892608087, "epoch": 0.434812521499828, "step": 948}, {"loss": 2.441380500793457, "grad_norm": 0.34911203384399414, "learning_rate": 0.000628153660137138, "token_acc": 0.48540965207631875, "epoch": 0.4352711844971907, "step": 949}, {"loss": 2.4164395332336426, "grad_norm": 0.3418898284435272, "learning_rate": 0.0006274356351397413, "token_acc": 0.4761092150170648, "epoch": 0.4357298474945534, "step": 950}, {"loss": 2.391000270843506, "grad_norm": 0.3438267409801483, "learning_rate": 0.0006267173289718079, "token_acc": 0.48737808376362596, "epoch": 0.43618851049191604, "step": 951}, {"loss": 2.4072818756103516, "grad_norm": 0.35862720012664795, "learning_rate": 0.000625998743218189, "token_acc": 0.4763646595385481, "epoch": 0.43664717348927873, "step": 952}, {"loss": 2.496858835220337, "grad_norm": 0.35209861397743225, "learning_rate": 0.000625279879464353, "token_acc": 0.4773413897280967, "epoch": 0.4371058364866414, "step": 953}, {"loss": 2.38735294342041, "grad_norm": 0.35770609974861145, "learning_rate": 0.000624560739296381, "token_acc": 0.48483947681331746, "epoch": 0.4375644994840041, "step": 954}, {"loss": 2.4642162322998047, "grad_norm": 0.362027645111084, "learning_rate": 0.0006238413243009648, "token_acc": 0.4769592016436748, "epoch": 0.4380231624813668, "step": 955}, {"loss": 2.4101524353027344, "grad_norm": 0.31088146567344666, "learning_rate": 0.000623121636065402, "token_acc": 0.4839443023586246, "epoch": 0.4384818254787295, "step": 956}, {"loss": 2.3885061740875244, "grad_norm": 0.34831270575523376, "learning_rate": 0.0006224016761775933, "token_acc": 0.48254504504504503, "epoch": 0.4389404884760922, "step": 957}, {"loss": 2.401345729827881, "grad_norm": 0.33243533968925476, "learning_rate": 0.0006216814462260386, "token_acc": 0.49347883949960075, "epoch": 0.4393991514734549, "step": 958}, {"loss": 2.449944019317627, "grad_norm": 0.33555805683135986, "learning_rate": 0.0006209609477998338, "token_acc": 0.47324646520654284, "epoch": 0.43985781447081757, "step": 959}, {"loss": 2.4184885025024414, "grad_norm": 0.3364394009113312, "learning_rate": 0.0006202401824886674, "token_acc": 0.4748303167420814, "epoch": 0.44031647746818026, "step": 960}, {"loss": 2.359002113342285, "grad_norm": 0.33988484740257263, "learning_rate": 0.0006195191518828162, "token_acc": 0.48904109589041095, "epoch": 0.44077514046554295, "step": 961}, {"loss": 2.333381414413452, "grad_norm": 0.34133222699165344, "learning_rate": 0.0006187978575731427, "token_acc": 0.5050761421319797, "epoch": 0.44123380346290564, "step": 962}, {"loss": 2.4179508686065674, "grad_norm": 0.3267521858215332, "learning_rate": 0.0006180763011510911, "token_acc": 0.4887029288702929, "epoch": 0.44169246646026833, "step": 963}, {"loss": 2.4548840522766113, "grad_norm": 0.3586190342903137, "learning_rate": 0.000617354484208684, "token_acc": 0.4765886287625418, "epoch": 0.442151129457631, "step": 964}, {"loss": 2.396864414215088, "grad_norm": 0.3419138789176941, "learning_rate": 0.0006166324083385189, "token_acc": 0.4757532281205165, "epoch": 0.4426097924549937, "step": 965}, {"loss": 2.4908924102783203, "grad_norm": 0.33298784494400024, "learning_rate": 0.0006159100751337642, "token_acc": 0.47154946016924426, "epoch": 0.4430684554523564, "step": 966}, {"loss": 2.306973457336426, "grad_norm": 0.3202367424964905, "learning_rate": 0.0006151874861881565, "token_acc": 0.49004329004329006, "epoch": 0.4435271184497191, "step": 967}, {"loss": 2.4656834602355957, "grad_norm": 0.33593282103538513, "learning_rate": 0.0006144646430959964, "token_acc": 0.4763363028953229, "epoch": 0.4439857814470818, "step": 968}, {"loss": 2.4953203201293945, "grad_norm": 0.34052330255508423, "learning_rate": 0.0006137415474521454, "token_acc": 0.4698586674358235, "epoch": 0.4444444444444444, "step": 969}, {"loss": 2.3609280586242676, "grad_norm": 0.328667014837265, "learning_rate": 0.0006130182008520222, "token_acc": 0.5035082795397138, "epoch": 0.4449031074418071, "step": 970}, {"loss": 2.425253391265869, "grad_norm": 0.329279363155365, "learning_rate": 0.000612294604891599, "token_acc": 0.48001126126126126, "epoch": 0.4453617704391698, "step": 971}, {"loss": 2.507331132888794, "grad_norm": 0.34138333797454834, "learning_rate": 0.0006115707611673986, "token_acc": 0.46867167919799496, "epoch": 0.4458204334365325, "step": 972}, {"loss": 2.5542449951171875, "grad_norm": 0.357669860124588, "learning_rate": 0.0006108466712764902, "token_acc": 0.46636167922497307, "epoch": 0.4462790964338952, "step": 973}, {"loss": 2.432164192199707, "grad_norm": 0.3691292107105255, "learning_rate": 0.0006101223368164858, "token_acc": 0.49555491826785203, "epoch": 0.4467377594312579, "step": 974}, {"loss": 2.363558292388916, "grad_norm": 0.3149251639842987, "learning_rate": 0.0006093977593855375, "token_acc": 0.48337388483373883, "epoch": 0.44719642242862057, "step": 975}, {"loss": 2.4077835083007812, "grad_norm": 0.32556718587875366, "learning_rate": 0.0006086729405823335, "token_acc": 0.4911392405063291, "epoch": 0.44765508542598326, "step": 976}, {"loss": 2.4025559425354004, "grad_norm": 0.31064191460609436, "learning_rate": 0.0006079478820060943, "token_acc": 0.4872881355932203, "epoch": 0.44811374842334595, "step": 977}, {"loss": 2.344836711883545, "grad_norm": 0.33454564213752747, "learning_rate": 0.0006072225852565695, "token_acc": 0.50377411238468, "epoch": 0.44857241142070864, "step": 978}, {"loss": 2.468132257461548, "grad_norm": 0.3250851333141327, "learning_rate": 0.0006064970519340341, "token_acc": 0.47481636935991606, "epoch": 0.44903107441807133, "step": 979}, {"loss": 2.4750680923461914, "grad_norm": 0.3377173840999603, "learning_rate": 0.0006057712836392856, "token_acc": 0.4884053821929573, "epoch": 0.449489737415434, "step": 980}, {"loss": 2.4662275314331055, "grad_norm": 0.3356623947620392, "learning_rate": 0.0006050452819736389, "token_acc": 0.47956929872998344, "epoch": 0.4499484004127967, "step": 981}, {"loss": 2.328805446624756, "grad_norm": 0.3308337330818176, "learning_rate": 0.000604319048538925, "token_acc": 0.5009968669894617, "epoch": 0.4504070634101594, "step": 982}, {"loss": 2.4731593132019043, "grad_norm": 0.3601084351539612, "learning_rate": 0.0006035925849374855, "token_acc": 0.47119398831060394, "epoch": 0.4508657264075221, "step": 983}, {"loss": 2.4580349922180176, "grad_norm": 0.34020325541496277, "learning_rate": 0.0006028658927721697, "token_acc": 0.4854759850445787, "epoch": 0.4513243894048848, "step": 984}, {"loss": 2.463129997253418, "grad_norm": 0.3302370309829712, "learning_rate": 0.0006021389736463321, "token_acc": 0.4669282511210762, "epoch": 0.4517830524022475, "step": 985}, {"loss": 2.3027663230895996, "grad_norm": 0.3398115932941437, "learning_rate": 0.0006014118291638271, "token_acc": 0.5001387732445185, "epoch": 0.4522417153996101, "step": 986}, {"loss": 2.3438522815704346, "grad_norm": 0.3611450493335724, "learning_rate": 0.0006006844609290065, "token_acc": 0.4896611143021252, "epoch": 0.4527003783969728, "step": 987}, {"loss": 2.5061607360839844, "grad_norm": 0.3473367393016815, "learning_rate": 0.0005999568705467161, "token_acc": 0.4757011941127465, "epoch": 0.4531590413943355, "step": 988}, {"loss": 2.491511106491089, "grad_norm": 0.35125091671943665, "learning_rate": 0.0005992290596222915, "token_acc": 0.47276874821785003, "epoch": 0.4536177043916982, "step": 989}, {"loss": 2.439743995666504, "grad_norm": 0.3731937110424042, "learning_rate": 0.0005985010297615551, "token_acc": 0.47817571348628984, "epoch": 0.4540763673890609, "step": 990}, {"loss": 2.454152822494507, "grad_norm": 0.3528503179550171, "learning_rate": 0.0005977727825708123, "token_acc": 0.4892241379310345, "epoch": 0.45453503038642357, "step": 991}, {"loss": 2.450331211090088, "grad_norm": 0.3317166864871979, "learning_rate": 0.0005970443196568478, "token_acc": 0.47843028110214303, "epoch": 0.45499369338378626, "step": 992}, {"loss": 2.3701581954956055, "grad_norm": 0.3358785808086395, "learning_rate": 0.0005963156426269227, "token_acc": 0.49142857142857144, "epoch": 0.45545235638114895, "step": 993}, {"loss": 2.3658673763275146, "grad_norm": 0.3694034516811371, "learning_rate": 0.0005955867530887702, "token_acc": 0.48593570608495984, "epoch": 0.45591101937851164, "step": 994}, {"loss": 2.5859975814819336, "grad_norm": 0.34595945477485657, "learning_rate": 0.0005948576526505923, "token_acc": 0.45198998051767325, "epoch": 0.45636968237587433, "step": 995}, {"loss": 2.3866028785705566, "grad_norm": 0.31480926275253296, "learning_rate": 0.0005941283429210568, "token_acc": 0.48652365236523654, "epoch": 0.456828345373237, "step": 996}, {"loss": 2.4394278526306152, "grad_norm": 0.3421134352684021, "learning_rate": 0.0005933988255092926, "token_acc": 0.4851016429963798, "epoch": 0.4572870083705997, "step": 997}, {"loss": 2.404801607131958, "grad_norm": 0.3342604339122772, "learning_rate": 0.0005926691020248874, "token_acc": 0.4924078091106291, "epoch": 0.4577456713679624, "step": 998}, {"loss": 2.479769706726074, "grad_norm": 0.3156786561012268, "learning_rate": 0.0005919391740778833, "token_acc": 0.4885089686098655, "epoch": 0.4582043343653251, "step": 999}, {"loss": 2.445432186126709, "grad_norm": 0.29661825299263, "learning_rate": 0.0005912090432787736, "token_acc": 0.48003237992444686, "epoch": 0.4586629973626878, "step": 1000}, {"loss": 2.41615891456604, "grad_norm": 0.3442749083042145, "learning_rate": 0.000590478711238499, "token_acc": 0.4875105248386191, "epoch": 0.4591216603600505, "step": 1001}, {"loss": 2.3316497802734375, "grad_norm": 0.3256503641605377, "learning_rate": 0.0005897481795684446, "token_acc": 0.49168710820387024, "epoch": 0.45958032335741317, "step": 1002}, {"loss": 2.4228224754333496, "grad_norm": 0.3349616825580597, "learning_rate": 0.0005890174498804355, "token_acc": 0.4831654676258993, "epoch": 0.4600389863547758, "step": 1003}, {"loss": 2.423893690109253, "grad_norm": 0.34556734561920166, "learning_rate": 0.0005882865237867339, "token_acc": 0.48902644907146875, "epoch": 0.4604976493521385, "step": 1004}, {"loss": 2.452030897140503, "grad_norm": 0.4137331247329712, "learning_rate": 0.0005875554029000353, "token_acc": 0.47690058479532166, "epoch": 0.4609563123495012, "step": 1005}, {"loss": 2.373958110809326, "grad_norm": 0.3454006314277649, "learning_rate": 0.0005868240888334653, "token_acc": 0.4797374429223744, "epoch": 0.4614149753468639, "step": 1006}, {"loss": 2.4558422565460205, "grad_norm": 0.329140841960907, "learning_rate": 0.0005860925832005753, "token_acc": 0.47763666482606293, "epoch": 0.46187363834422657, "step": 1007}, {"loss": 2.577507972717285, "grad_norm": 0.3699704706668854, "learning_rate": 0.0005853608876153395, "token_acc": 0.46685393258426966, "epoch": 0.46233230134158926, "step": 1008}, {"loss": 2.482990264892578, "grad_norm": 0.34477072954177856, "learning_rate": 0.0005846290036921512, "token_acc": 0.4793506123611507, "epoch": 0.46279096433895195, "step": 1009}, {"loss": 2.3712563514709473, "grad_norm": 0.31239402294158936, "learning_rate": 0.0005838969330458195, "token_acc": 0.495656894679696, "epoch": 0.46324962733631464, "step": 1010}, {"loss": 2.3803796768188477, "grad_norm": 0.33874261379241943, "learning_rate": 0.0005831646772915651, "token_acc": 0.49074864787930544, "epoch": 0.46370829033367733, "step": 1011}, {"loss": 2.4005751609802246, "grad_norm": 0.33902624249458313, "learning_rate": 0.0005824322380450173, "token_acc": 0.49415121255349503, "epoch": 0.46416695333104, "step": 1012}, {"loss": 2.4865212440490723, "grad_norm": 0.3395114541053772, "learning_rate": 0.0005816996169222102, "token_acc": 0.4753103448275862, "epoch": 0.4646256163284027, "step": 1013}, {"loss": 2.3996636867523193, "grad_norm": 0.33902034163475037, "learning_rate": 0.0005809668155395793, "token_acc": 0.4727223131478451, "epoch": 0.4650842793257654, "step": 1014}, {"loss": 2.455397844314575, "grad_norm": 0.33806946873664856, "learning_rate": 0.0005802338355139578, "token_acc": 0.4745621351125938, "epoch": 0.4655429423231281, "step": 1015}, {"loss": 2.458098888397217, "grad_norm": 0.34738317131996155, "learning_rate": 0.0005795006784625728, "token_acc": 0.47207409486387875, "epoch": 0.4660016053204908, "step": 1016}, {"loss": 2.3759074211120605, "grad_norm": 0.3442336618900299, "learning_rate": 0.0005787673460030423, "token_acc": 0.4923830250272035, "epoch": 0.4664602683178535, "step": 1017}, {"loss": 2.360297679901123, "grad_norm": 0.3158933222293854, "learning_rate": 0.000578033839753371, "token_acc": 0.49403275048570633, "epoch": 0.46691893131521617, "step": 1018}, {"loss": 2.3978331089019775, "grad_norm": 0.32228654623031616, "learning_rate": 0.0005773001613319476, "token_acc": 0.4909040022390148, "epoch": 0.46737759431257886, "step": 1019}, {"loss": 2.371523857116699, "grad_norm": 0.33429211378097534, "learning_rate": 0.00057656631235754, "token_acc": 0.49258160237388726, "epoch": 0.4678362573099415, "step": 1020}, {"loss": 2.347036361694336, "grad_norm": 0.3515044152736664, "learning_rate": 0.0005758322944492929, "token_acc": 0.49098360655737705, "epoch": 0.4682949203073042, "step": 1021}, {"loss": 2.444075107574463, "grad_norm": 0.357808917760849, "learning_rate": 0.0005750981092267237, "token_acc": 0.4902459711620017, "epoch": 0.4687535833046669, "step": 1022}, {"loss": 2.449713706970215, "grad_norm": 0.3392980098724365, "learning_rate": 0.0005743637583097183, "token_acc": 0.4752099701977784, "epoch": 0.46921224630202957, "step": 1023}, {"loss": 2.4923369884490967, "grad_norm": 0.3264814019203186, "learning_rate": 0.0005736292433185291, "token_acc": 0.4732989970181621, "epoch": 0.46967090929939226, "step": 1024}, {"loss": 2.4607090950012207, "grad_norm": 0.33561939001083374, "learning_rate": 0.0005728945658737699, "token_acc": 0.48709315375982043, "epoch": 0.47012957229675495, "step": 1025}, {"loss": 2.440065860748291, "grad_norm": 0.3192346394062042, "learning_rate": 0.0005721597275964133, "token_acc": 0.4822558459422283, "epoch": 0.47058823529411764, "step": 1026}, {"loss": 2.3831427097320557, "grad_norm": 0.3238941431045532, "learning_rate": 0.0005714247301077865, "token_acc": 0.4832466782206817, "epoch": 0.47104689829148033, "step": 1027}, {"loss": 2.368861198425293, "grad_norm": 0.33817458152770996, "learning_rate": 0.0005706895750295682, "token_acc": 0.49564032697547683, "epoch": 0.471505561288843, "step": 1028}, {"loss": 2.407780170440674, "grad_norm": 0.3244694471359253, "learning_rate": 0.0005699542639837844, "token_acc": 0.48732394366197185, "epoch": 0.4719642242862057, "step": 1029}, {"loss": 2.399700164794922, "grad_norm": 0.3364354372024536, "learning_rate": 0.0005692187985928055, "token_acc": 0.4833948339483395, "epoch": 0.4724228872835684, "step": 1030}, {"loss": 2.411986827850342, "grad_norm": 0.33582353591918945, "learning_rate": 0.0005684831804793427, "token_acc": 0.47955801104972373, "epoch": 0.4728815502809311, "step": 1031}, {"loss": 2.3370702266693115, "grad_norm": 0.3348402976989746, "learning_rate": 0.0005677474112664438, "token_acc": 0.493181185638742, "epoch": 0.4733402132782938, "step": 1032}, {"loss": 2.3192803859710693, "grad_norm": 0.3559878468513489, "learning_rate": 0.0005670114925774899, "token_acc": 0.4977077363896848, "epoch": 0.4737988762756565, "step": 1033}, {"loss": 2.3438594341278076, "grad_norm": 0.34823668003082275, "learning_rate": 0.0005662754260361924, "token_acc": 0.4914219249781913, "epoch": 0.47425753927301917, "step": 1034}, {"loss": 2.5112931728363037, "grad_norm": 0.3399074077606201, "learning_rate": 0.0005655392132665884, "token_acc": 0.46277331857182397, "epoch": 0.47471620227038186, "step": 1035}, {"loss": 2.3919918537139893, "grad_norm": 0.3259490132331848, "learning_rate": 0.000564802855893038, "token_acc": 0.49186307519640854, "epoch": 0.47517486526774455, "step": 1036}, {"loss": 2.3987250328063965, "grad_norm": 0.3413908779621124, "learning_rate": 0.0005640663555402198, "token_acc": 0.48070965925091524, "epoch": 0.4756335282651072, "step": 1037}, {"loss": 2.5099992752075195, "grad_norm": 0.3317534029483795, "learning_rate": 0.0005633297138331285, "token_acc": 0.4763363028953229, "epoch": 0.4760921912624699, "step": 1038}, {"loss": 2.38262677192688, "grad_norm": 0.3492196202278137, "learning_rate": 0.0005625929323970705, "token_acc": 0.4851598173515982, "epoch": 0.47655085425983257, "step": 1039}, {"loss": 2.393599271774292, "grad_norm": 0.36115118861198425, "learning_rate": 0.0005618560128576603, "token_acc": 0.49730861244019137, "epoch": 0.47700951725719526, "step": 1040}, {"loss": 2.4507246017456055, "grad_norm": 0.32989412546157837, "learning_rate": 0.0005611189568408173, "token_acc": 0.4850516904163174, "epoch": 0.47746818025455795, "step": 1041}, {"loss": 2.359201431274414, "grad_norm": 0.33683207631111145, "learning_rate": 0.0005603817659727619, "token_acc": 0.5025787965616045, "epoch": 0.47792684325192064, "step": 1042}, {"loss": 2.4225053787231445, "grad_norm": 0.3617542088031769, "learning_rate": 0.0005596444418800121, "token_acc": 0.48343023255813955, "epoch": 0.47838550624928333, "step": 1043}, {"loss": 2.425480365753174, "grad_norm": 0.3595106899738312, "learning_rate": 0.0005589069861893798, "token_acc": 0.47615062761506277, "epoch": 0.478844169246646, "step": 1044}, {"loss": 2.360713005065918, "grad_norm": 0.34402987360954285, "learning_rate": 0.0005581694005279673, "token_acc": 0.4936708860759494, "epoch": 0.4793028322440087, "step": 1045}, {"loss": 2.438472032546997, "grad_norm": 0.3361959755420685, "learning_rate": 0.0005574316865231637, "token_acc": 0.48027210884353744, "epoch": 0.4797614952413714, "step": 1046}, {"loss": 2.4174818992614746, "grad_norm": 0.32732275128364563, "learning_rate": 0.0005566938458026411, "token_acc": 0.4888399007991182, "epoch": 0.4802201582387341, "step": 1047}, {"loss": 2.6050045490264893, "grad_norm": 0.34317103028297424, "learning_rate": 0.0005559558799943514, "token_acc": 0.4473832301631964, "epoch": 0.4806788212360968, "step": 1048}, {"loss": 2.4361064434051514, "grad_norm": 0.32789745926856995, "learning_rate": 0.0005552177907265223, "token_acc": 0.47862029646522236, "epoch": 0.4811374842334595, "step": 1049}, {"loss": 2.5022668838500977, "grad_norm": 0.3215622007846832, "learning_rate": 0.000554479579627654, "token_acc": 0.47944459569833925, "epoch": 0.48159614723082217, "step": 1050}, {"loss": 2.4255118370056152, "grad_norm": 0.33123335242271423, "learning_rate": 0.0005537412483265157, "token_acc": 0.4737283398546674, "epoch": 0.48205481022818486, "step": 1051}, {"loss": 2.346541404724121, "grad_norm": 0.32435300946235657, "learning_rate": 0.0005530027984521413, "token_acc": 0.4908675799086758, "epoch": 0.48251347322554755, "step": 1052}, {"loss": 2.412287712097168, "grad_norm": 0.3296109139919281, "learning_rate": 0.0005522642316338268, "token_acc": 0.49831365935919053, "epoch": 0.48297213622291024, "step": 1053}, {"loss": 2.5202436447143555, "grad_norm": 0.3388538956642151, "learning_rate": 0.0005515255495011259, "token_acc": 0.4656225112821874, "epoch": 0.4834307992202729, "step": 1054}, {"loss": 2.3805348873138428, "grad_norm": 0.3018677532672882, "learning_rate": 0.0005507867536838472, "token_acc": 0.4826637314254265, "epoch": 0.48388946221763557, "step": 1055}, {"loss": 2.4735240936279297, "grad_norm": 0.32990387082099915, "learning_rate": 0.0005500478458120492, "token_acc": 0.4664042732639865, "epoch": 0.48434812521499826, "step": 1056}, {"loss": 2.407567262649536, "grad_norm": 0.3313564956188202, "learning_rate": 0.0005493088275160387, "token_acc": 0.48750343312276845, "epoch": 0.48480678821236095, "step": 1057}, {"loss": 2.290937900543213, "grad_norm": 0.3240385055541992, "learning_rate": 0.0005485697004263657, "token_acc": 0.5081788440567067, "epoch": 0.48526545120972364, "step": 1058}, {"loss": 2.42073392868042, "grad_norm": 0.33478209376335144, "learning_rate": 0.0005478304661738199, "token_acc": 0.4802594472645234, "epoch": 0.48572411420708633, "step": 1059}, {"loss": 2.5758726596832275, "grad_norm": 0.32933369278907776, "learning_rate": 0.0005470911263894279, "token_acc": 0.4616797900262467, "epoch": 0.486182777204449, "step": 1060}, {"loss": 2.4362080097198486, "grad_norm": 0.3320506513118744, "learning_rate": 0.0005463516827044491, "token_acc": 0.4764872521246459, "epoch": 0.4866414402018117, "step": 1061}, {"loss": 2.511855125427246, "grad_norm": 0.335260272026062, "learning_rate": 0.000545612136750372, "token_acc": 0.46317777178311303, "epoch": 0.4871001031991744, "step": 1062}, {"loss": 2.398721218109131, "grad_norm": 0.37047451734542847, "learning_rate": 0.0005448724901589107, "token_acc": 0.49843616718794426, "epoch": 0.4875587661965371, "step": 1063}, {"loss": 2.425210475921631, "grad_norm": 0.324935644865036, "learning_rate": 0.0005441327445620014, "token_acc": 0.47744565217391305, "epoch": 0.4880174291938998, "step": 1064}, {"loss": 2.3968043327331543, "grad_norm": 0.3297592103481293, "learning_rate": 0.0005433929015917988, "token_acc": 0.5012427506213754, "epoch": 0.4884760921912625, "step": 1065}, {"loss": 2.4790163040161133, "grad_norm": 0.3302333950996399, "learning_rate": 0.0005426529628806724, "token_acc": 0.47749787715822245, "epoch": 0.48893475518862517, "step": 1066}, {"loss": 2.4709956645965576, "grad_norm": 0.3386436402797699, "learning_rate": 0.0005419129300612029, "token_acc": 0.4834307992202729, "epoch": 0.48939341818598786, "step": 1067}, {"loss": 2.3381505012512207, "grad_norm": 0.34865912795066833, "learning_rate": 0.000541172804766179, "token_acc": 0.4957836580401279, "epoch": 0.48985208118335055, "step": 1068}, {"loss": 2.4133496284484863, "grad_norm": 0.35883861780166626, "learning_rate": 0.0005404325886285927, "token_acc": 0.4812849162011173, "epoch": 0.49031074418071324, "step": 1069}, {"loss": 2.5826239585876465, "grad_norm": 0.3391292691230774, "learning_rate": 0.000539692283281637, "token_acc": 0.4725149530048419, "epoch": 0.49076940717807593, "step": 1070}, {"loss": 2.361985206604004, "grad_norm": 0.336113303899765, "learning_rate": 0.0005389518903587017, "token_acc": 0.487510293713972, "epoch": 0.49122807017543857, "step": 1071}, {"loss": 2.427905559539795, "grad_norm": 0.3300612270832062, "learning_rate": 0.0005382114114933695, "token_acc": 0.48468271334792123, "epoch": 0.49168673317280126, "step": 1072}, {"loss": 2.4896979331970215, "grad_norm": 0.3479423522949219, "learning_rate": 0.0005374708483194132, "token_acc": 0.474931129476584, "epoch": 0.49214539617016395, "step": 1073}, {"loss": 2.4164018630981445, "grad_norm": 0.329458624124527, "learning_rate": 0.000536730202470791, "token_acc": 0.4799335732078605, "epoch": 0.49260405916752664, "step": 1074}, {"loss": 2.445589065551758, "grad_norm": 0.3301466107368469, "learning_rate": 0.0005359894755816443, "token_acc": 0.4860766473669699, "epoch": 0.49306272216488933, "step": 1075}, {"loss": 2.2914156913757324, "grad_norm": 0.3187168538570404, "learning_rate": 0.0005352486692862926, "token_acc": 0.5083262771662433, "epoch": 0.493521385162252, "step": 1076}, {"loss": 2.4282703399658203, "grad_norm": 0.31797054409980774, "learning_rate": 0.0005345077852192307, "token_acc": 0.4802103515084417, "epoch": 0.4939800481596147, "step": 1077}, {"loss": 2.4379050731658936, "grad_norm": 0.3418867290019989, "learning_rate": 0.0005337668250151254, "token_acc": 0.4807121661721068, "epoch": 0.4944387111569774, "step": 1078}, {"loss": 2.3572804927825928, "grad_norm": 0.32624971866607666, "learning_rate": 0.0005330257903088111, "token_acc": 0.48368953880764903, "epoch": 0.4948973741543401, "step": 1079}, {"loss": 2.529306411743164, "grad_norm": 0.3312455713748932, "learning_rate": 0.000532284682735287, "token_acc": 0.4656319290465632, "epoch": 0.4953560371517028, "step": 1080}, {"loss": 2.324214458465576, "grad_norm": 0.32542479038238525, "learning_rate": 0.0005315435039297124, "token_acc": 0.49691358024691357, "epoch": 0.4958147001490655, "step": 1081}, {"loss": 2.4528372287750244, "grad_norm": 0.3355901837348938, "learning_rate": 0.0005308022555274046, "token_acc": 0.482236298540347, "epoch": 0.49627336314642817, "step": 1082}, {"loss": 2.360931396484375, "grad_norm": 0.3346751034259796, "learning_rate": 0.0005300609391638336, "token_acc": 0.488988012266518, "epoch": 0.49673202614379086, "step": 1083}, {"loss": 2.3942272663116455, "grad_norm": 0.35198917984962463, "learning_rate": 0.0005293195564746201, "token_acc": 0.4949467358645179, "epoch": 0.49719068914115355, "step": 1084}, {"loss": 2.3291893005371094, "grad_norm": 0.34621474146842957, "learning_rate": 0.0005285781090955304, "token_acc": 0.5066371681415929, "epoch": 0.49764935213851624, "step": 1085}, {"loss": 2.439788818359375, "grad_norm": 0.33755236864089966, "learning_rate": 0.0005278365986624743, "token_acc": 0.47704918032786886, "epoch": 0.49810801513587893, "step": 1086}, {"loss": 2.593384027481079, "grad_norm": 0.35278841853141785, "learning_rate": 0.0005270950268115001, "token_acc": 0.4671951886276654, "epoch": 0.4985666781332416, "step": 1087}, {"loss": 2.4258551597595215, "grad_norm": 0.3408758342266083, "learning_rate": 0.0005263533951787919, "token_acc": 0.4835042971998891, "epoch": 0.49902534113060426, "step": 1088}, {"loss": 2.4968271255493164, "grad_norm": 0.3320996165275574, "learning_rate": 0.000525611705400666, "token_acc": 0.4768802228412256, "epoch": 0.49948400412796695, "step": 1089}, {"loss": 2.286149501800537, "grad_norm": 0.3367486894130707, "learning_rate": 0.0005248699591135664, "token_acc": 0.5071649339702163, "epoch": 0.49994266712532964, "step": 1090}, {"loss": 2.4291186332702637, "grad_norm": 0.3450912833213806, "learning_rate": 0.0005241281579540618, "token_acc": 0.4733405875952122, "epoch": 0.5004013301226924, "step": 1091}, {"loss": 2.4479312896728516, "grad_norm": 0.3453631103038788, "learning_rate": 0.0005233863035588427, "token_acc": 0.48976109215017066, "epoch": 0.500859993120055, "step": 1092}, {"loss": 2.4232516288757324, "grad_norm": 0.3599177896976471, "learning_rate": 0.0005226443975647161, "token_acc": 0.47461430575035063, "epoch": 0.5013186561174178, "step": 1093}, {"loss": 2.433030843734741, "grad_norm": 0.32832807302474976, "learning_rate": 0.0005219024416086036, "token_acc": 0.49158249158249157, "epoch": 0.5017773191147804, "step": 1094}, {"loss": 2.339202642440796, "grad_norm": 0.3214716613292694, "learning_rate": 0.0005211604373275366, "token_acc": 0.4827113062568606, "epoch": 0.5022359821121432, "step": 1095}, {"loss": 2.3227591514587402, "grad_norm": 0.35019397735595703, "learning_rate": 0.0005204183863586533, "token_acc": 0.5, "epoch": 0.5026946451095058, "step": 1096}, {"loss": 2.4995455741882324, "grad_norm": 0.3759554326534271, "learning_rate": 0.0005196762903391951, "token_acc": 0.49015748031496065, "epoch": 0.5031533081068684, "step": 1097}, {"loss": 2.416973114013672, "grad_norm": 0.3440718948841095, "learning_rate": 0.0005189341509065023, "token_acc": 0.4879416713404375, "epoch": 0.5036119711042312, "step": 1098}, {"loss": 2.380890369415283, "grad_norm": 0.34332475066185, "learning_rate": 0.0005181919696980112, "token_acc": 0.49177180471749865, "epoch": 0.5040706341015938, "step": 1099}, {"loss": 2.435117721557617, "grad_norm": 0.3551151752471924, "learning_rate": 0.0005174497483512506, "token_acc": 0.4823855755894591, "epoch": 0.5045292970989566, "step": 1100}, {"loss": 2.4811482429504395, "grad_norm": 0.33621078729629517, "learning_rate": 0.0005167074885038374, "token_acc": 0.4754477180820335, "epoch": 0.5049879600963192, "step": 1101}, {"loss": 2.4260976314544678, "grad_norm": 0.3153240978717804, "learning_rate": 0.0005159651917934735, "token_acc": 0.48425509394019584, "epoch": 0.5054466230936819, "step": 1102}, {"loss": 2.5205609798431396, "grad_norm": 0.3622584640979767, "learning_rate": 0.0005152228598579428, "token_acc": 0.4617493830545654, "epoch": 0.5059052860910446, "step": 1103}, {"loss": 2.5086865425109863, "grad_norm": 0.3550475537776947, "learning_rate": 0.000514480494335106, "token_acc": 0.47497971328103866, "epoch": 0.5063639490884073, "step": 1104}, {"loss": 2.3257954120635986, "grad_norm": 0.35856547951698303, "learning_rate": 0.0005137380968628983, "token_acc": 0.5087719298245614, "epoch": 0.50682261208577, "step": 1105}, {"loss": 2.2821130752563477, "grad_norm": 0.30771002173423767, "learning_rate": 0.0005129956690793255, "token_acc": 0.5070232306861157, "epoch": 0.5072812750831327, "step": 1106}, {"loss": 2.390139102935791, "grad_norm": 0.3454776704311371, "learning_rate": 0.0005122532126224601, "token_acc": 0.4982311320754717, "epoch": 0.5077399380804953, "step": 1107}, {"loss": 2.451512336730957, "grad_norm": 0.3795795738697052, "learning_rate": 0.0005115107291304378, "token_acc": 0.4879500992344769, "epoch": 0.5081986010778581, "step": 1108}, {"loss": 2.408329486846924, "grad_norm": 0.39156875014305115, "learning_rate": 0.0005107682202414544, "token_acc": 0.4911000875401226, "epoch": 0.5086572640752207, "step": 1109}, {"loss": 2.4317450523376465, "grad_norm": 0.3682164251804352, "learning_rate": 0.0005100256875937613, "token_acc": 0.478105205177637, "epoch": 0.5091159270725835, "step": 1110}, {"loss": 2.524905204772949, "grad_norm": 0.3569280505180359, "learning_rate": 0.0005092831328256625, "token_acc": 0.47758171825282036, "epoch": 0.5095745900699461, "step": 1111}, {"loss": 2.4356486797332764, "grad_norm": 0.34403684735298157, "learning_rate": 0.0005085405575755105, "token_acc": 0.47552836484983313, "epoch": 0.5100332530673088, "step": 1112}, {"loss": 2.4401259422302246, "grad_norm": 0.3341377079486847, "learning_rate": 0.0005077979634817034, "token_acc": 0.4722521551724138, "epoch": 0.5104919160646715, "step": 1113}, {"loss": 2.410233736038208, "grad_norm": 0.333383172750473, "learning_rate": 0.0005070553521826808, "token_acc": 0.4910061832490163, "epoch": 0.5109505790620341, "step": 1114}, {"loss": 2.4345555305480957, "grad_norm": 0.3366769850254059, "learning_rate": 0.00050631272531692, "token_acc": 0.48586956521739133, "epoch": 0.5114092420593969, "step": 1115}, {"loss": 2.316999673843384, "grad_norm": 0.3316477835178375, "learning_rate": 0.0005055700845229327, "token_acc": 0.5039498774175973, "epoch": 0.5118679050567595, "step": 1116}, {"loss": 2.3524749279022217, "grad_norm": 0.3418847322463989, "learning_rate": 0.000504827431439262, "token_acc": 0.4833150984682713, "epoch": 0.5123265680541222, "step": 1117}, {"loss": 2.406768798828125, "grad_norm": 0.3334941565990448, "learning_rate": 0.000504084767704477, "token_acc": 0.4909240924092409, "epoch": 0.5127852310514849, "step": 1118}, {"loss": 2.3923702239990234, "grad_norm": 0.3574877083301544, "learning_rate": 0.0005033420949571712, "token_acc": 0.4919148936170213, "epoch": 0.5132438940488476, "step": 1119}, {"loss": 2.413276195526123, "grad_norm": 0.3600635826587677, "learning_rate": 0.0005025994148359574, "token_acc": 0.4940689655172414, "epoch": 0.5137025570462103, "step": 1120}, {"loss": 2.3796286582946777, "grad_norm": 0.40777724981307983, "learning_rate": 0.0005018567289794651, "token_acc": 0.4880517289850998, "epoch": 0.514161220043573, "step": 1121}, {"loss": 2.5886900424957275, "grad_norm": 0.3608115017414093, "learning_rate": 0.0005011140390263362, "token_acc": 0.46668556847178905, "epoch": 0.5146198830409356, "step": 1122}, {"loss": 2.4352781772613525, "grad_norm": 0.3360042870044708, "learning_rate": 0.0005003713466152218, "token_acc": 0.48703494926719276, "epoch": 0.5150785460382984, "step": 1123}, {"loss": 2.4607863426208496, "grad_norm": 0.340364933013916, "learning_rate": 0.0004996286533847783, "token_acc": 0.4779286926994907, "epoch": 0.515537209035661, "step": 1124}, {"loss": 2.445991039276123, "grad_norm": 0.33719268441200256, "learning_rate": 0.000498885960973664, "token_acc": 0.4788051209103841, "epoch": 0.5159958720330238, "step": 1125}, {"loss": 2.3077054023742676, "grad_norm": 0.3265194594860077, "learning_rate": 0.000498143271020535, "token_acc": 0.5016816143497758, "epoch": 0.5164545350303864, "step": 1126}, {"loss": 2.390383720397949, "grad_norm": 0.32916203141212463, "learning_rate": 0.0004974005851640428, "token_acc": 0.48333333333333334, "epoch": 0.5169131980277492, "step": 1127}, {"loss": 2.315228223800659, "grad_norm": 0.32733115553855896, "learning_rate": 0.000496657905042829, "token_acc": 0.49757412398921835, "epoch": 0.5173718610251118, "step": 1128}, {"loss": 2.3158915042877197, "grad_norm": 0.32467636466026306, "learning_rate": 0.0004959152322955232, "token_acc": 0.5045558086560364, "epoch": 0.5178305240224745, "step": 1129}, {"loss": 2.3778843879699707, "grad_norm": 0.34765079617500305, "learning_rate": 0.0004951725685607382, "token_acc": 0.5017311021350259, "epoch": 0.5182891870198372, "step": 1130}, {"loss": 2.4137463569641113, "grad_norm": 0.34203100204467773, "learning_rate": 0.0004944299154770673, "token_acc": 0.4881384314819983, "epoch": 0.5187478500171998, "step": 1131}, {"loss": 2.362159252166748, "grad_norm": 0.3279170095920563, "learning_rate": 0.0004936872746830802, "token_acc": 0.4963235294117647, "epoch": 0.5192065130145626, "step": 1132}, {"loss": 2.4761362075805664, "grad_norm": 0.3384300470352173, "learning_rate": 0.0004929446478173195, "token_acc": 0.4739538855678907, "epoch": 0.5196651760119252, "step": 1133}, {"loss": 2.4490060806274414, "grad_norm": 0.36615675687789917, "learning_rate": 0.0004922020365182968, "token_acc": 0.48009814612868046, "epoch": 0.5201238390092879, "step": 1134}, {"loss": 2.303192615509033, "grad_norm": 0.3447256088256836, "learning_rate": 0.0004914594424244897, "token_acc": 0.49168577981651373, "epoch": 0.5205825020066506, "step": 1135}, {"loss": 2.352898597717285, "grad_norm": 0.3317548334598541, "learning_rate": 0.0004907168671743376, "token_acc": 0.4829592684954281, "epoch": 0.5210411650040133, "step": 1136}, {"loss": 2.3910703659057617, "grad_norm": 0.3226662278175354, "learning_rate": 0.0004899743124062387, "token_acc": 0.4963439602222872, "epoch": 0.521499828001376, "step": 1137}, {"loss": 2.3865818977355957, "grad_norm": 0.35412389039993286, "learning_rate": 0.0004892317797585456, "token_acc": 0.47891477440283103, "epoch": 0.5219584909987387, "step": 1138}, {"loss": 2.402967929840088, "grad_norm": 0.3400334119796753, "learning_rate": 0.0004884892708695623, "token_acc": 0.4840571742715778, "epoch": 0.5224171539961013, "step": 1139}, {"loss": 2.3753623962402344, "grad_norm": 0.35869327187538147, "learning_rate": 0.0004877467873775402, "token_acc": 0.4805194805194805, "epoch": 0.5228758169934641, "step": 1140}, {"loss": 2.461761713027954, "grad_norm": 0.3550738990306854, "learning_rate": 0.00048700433092067473, "token_acc": 0.4692799555184876, "epoch": 0.5233344799908267, "step": 1141}, {"loss": 2.5074462890625, "grad_norm": 0.3442990481853485, "learning_rate": 0.0004862619031371019, "token_acc": 0.4722601803771522, "epoch": 0.5237931429881895, "step": 1142}, {"loss": 2.4313061237335205, "grad_norm": 0.33896327018737793, "learning_rate": 0.0004855195056648942, "token_acc": 0.47838452787258245, "epoch": 0.5242518059855521, "step": 1143}, {"loss": 2.3428125381469727, "grad_norm": 0.35044485330581665, "learning_rate": 0.00048477714014205734, "token_acc": 0.502405887347863, "epoch": 0.5247104689829148, "step": 1144}, {"loss": 2.534541368484497, "grad_norm": 0.3287457227706909, "learning_rate": 0.00048403480820652644, "token_acc": 0.473627265350284, "epoch": 0.5251691319802775, "step": 1145}, {"loss": 2.4820892810821533, "grad_norm": 0.3308694660663605, "learning_rate": 0.0004832925114961629, "token_acc": 0.4688763136620857, "epoch": 0.5256277949776402, "step": 1146}, {"loss": 2.4575061798095703, "grad_norm": 0.3306020200252533, "learning_rate": 0.0004825502516487497, "token_acc": 0.48015122873345933, "epoch": 0.5260864579750029, "step": 1147}, {"loss": 2.327465534210205, "grad_norm": 0.34184855222702026, "learning_rate": 0.00048180803030198896, "token_acc": 0.49110218140068884, "epoch": 0.5265451209723655, "step": 1148}, {"loss": 2.501997470855713, "grad_norm": 0.34381648898124695, "learning_rate": 0.0004810658490934979, "token_acc": 0.4646520654283338, "epoch": 0.5270037839697282, "step": 1149}, {"loss": 2.3701171875, "grad_norm": 0.3188355267047882, "learning_rate": 0.000480323709660805, "token_acc": 0.4954545454545455, "epoch": 0.5274624469670909, "step": 1150}, {"loss": 2.4738900661468506, "grad_norm": 0.33658087253570557, "learning_rate": 0.0004795816136413467, "token_acc": 0.4801214798453893, "epoch": 0.5279211099644536, "step": 1151}, {"loss": 2.3847813606262207, "grad_norm": 0.31893256306648254, "learning_rate": 0.00047883956267246353, "token_acc": 0.48894416804864566, "epoch": 0.5283797729618163, "step": 1152}, {"loss": 2.472221612930298, "grad_norm": 0.3229241371154785, "learning_rate": 0.00047809755839139657, "token_acc": 0.47794117647058826, "epoch": 0.528838435959179, "step": 1153}, {"loss": 2.3489205837249756, "grad_norm": 0.32646888494491577, "learning_rate": 0.0004773556024352841, "token_acc": 0.4976237070170534, "epoch": 0.5292970989565416, "step": 1154}, {"loss": 2.475804090499878, "grad_norm": 0.33190491795539856, "learning_rate": 0.00047661369644115754, "token_acc": 0.48379825302902224, "epoch": 0.5297557619539044, "step": 1155}, {"loss": 2.386568546295166, "grad_norm": 0.3360702395439148, "learning_rate": 0.0004758718420459383, "token_acc": 0.4808970099667774, "epoch": 0.530214424951267, "step": 1156}, {"loss": 2.473959445953369, "grad_norm": 0.3379148244857788, "learning_rate": 0.0004751300408864339, "token_acc": 0.461453133666112, "epoch": 0.5306730879486298, "step": 1157}, {"loss": 2.4235637187957764, "grad_norm": 0.33049795031547546, "learning_rate": 0.00047438829459933414, "token_acc": 0.4767378215654078, "epoch": 0.5311317509459924, "step": 1158}, {"loss": 2.379197597503662, "grad_norm": 0.34790948033332825, "learning_rate": 0.0004736466048212082, "token_acc": 0.4871350101185314, "epoch": 0.5315904139433552, "step": 1159}, {"loss": 2.411355495452881, "grad_norm": 0.33067309856414795, "learning_rate": 0.0004729049731885002, "token_acc": 0.48043906557838445, "epoch": 0.5320490769407178, "step": 1160}, {"loss": 2.3604488372802734, "grad_norm": 0.3278982937335968, "learning_rate": 0.000472163401337526, "token_acc": 0.48992725237828766, "epoch": 0.5325077399380805, "step": 1161}, {"loss": 2.4109301567077637, "grad_norm": 0.3469405472278595, "learning_rate": 0.00047142189090446985, "token_acc": 0.48941647597254007, "epoch": 0.5329664029354432, "step": 1162}, {"loss": 2.294856071472168, "grad_norm": 0.32905158400535583, "learning_rate": 0.0004706804435253802, "token_acc": 0.4949021769082392, "epoch": 0.5334250659328059, "step": 1163}, {"loss": 2.317436456680298, "grad_norm": 0.33145490288734436, "learning_rate": 0.0004699390608361665, "token_acc": 0.49502487562189057, "epoch": 0.5338837289301686, "step": 1164}, {"loss": 2.3859448432922363, "grad_norm": 0.35744139552116394, "learning_rate": 0.0004691977444725955, "token_acc": 0.4833709131905299, "epoch": 0.5343423919275313, "step": 1165}, {"loss": 2.368591070175171, "grad_norm": 0.3372769057750702, "learning_rate": 0.0004684564960702877, "token_acc": 0.489532549469458, "epoch": 0.5348010549248939, "step": 1166}, {"loss": 2.4302520751953125, "grad_norm": 0.3186121881008148, "learning_rate": 0.0004677153172647131, "token_acc": 0.4760366182014001, "epoch": 0.5352597179222566, "step": 1167}, {"loss": 2.466879367828369, "grad_norm": 0.33439403772354126, "learning_rate": 0.00046697420969118894, "token_acc": 0.47239597497960295, "epoch": 0.5357183809196193, "step": 1168}, {"loss": 2.380794048309326, "grad_norm": 0.31994086503982544, "learning_rate": 0.00046623317498487466, "token_acc": 0.48732394366197185, "epoch": 0.536177043916982, "step": 1169}, {"loss": 2.400881767272949, "grad_norm": 0.32965800166130066, "learning_rate": 0.0004654922147807694, "token_acc": 0.48006785411365566, "epoch": 0.5366357069143447, "step": 1170}, {"loss": 2.3854472637176514, "grad_norm": 0.3274883031845093, "learning_rate": 0.00046475133071370757, "token_acc": 0.4783422459893048, "epoch": 0.5370943699117073, "step": 1171}, {"loss": 2.379990816116333, "grad_norm": 0.3407370448112488, "learning_rate": 0.00046401052441835574, "token_acc": 0.497196261682243, "epoch": 0.5375530329090701, "step": 1172}, {"loss": 2.3752121925354004, "grad_norm": 0.34296369552612305, "learning_rate": 0.000463269797529209, "token_acc": 0.47820965842167257, "epoch": 0.5380116959064327, "step": 1173}, {"loss": 2.3046469688415527, "grad_norm": 0.33161836862564087, "learning_rate": 0.00046252915168058697, "token_acc": 0.5061153174140943, "epoch": 0.5384703589037955, "step": 1174}, {"loss": 2.363800525665283, "grad_norm": 0.32786694169044495, "learning_rate": 0.0004617885885066305, "token_acc": 0.495693248124479, "epoch": 0.5389290219011581, "step": 1175}, {"loss": 2.4256789684295654, "grad_norm": 0.3195815086364746, "learning_rate": 0.0004610481096412984, "token_acc": 0.4854394870424793, "epoch": 0.5393876848985208, "step": 1176}, {"loss": 2.370356559753418, "grad_norm": 0.3374330699443817, "learning_rate": 0.000460307716718363, "token_acc": 0.5075134675361497, "epoch": 0.5398463478958835, "step": 1177}, {"loss": 2.416278600692749, "grad_norm": 0.3149530291557312, "learning_rate": 0.0004595674113714074, "token_acc": 0.4718566227947354, "epoch": 0.5403050108932462, "step": 1178}, {"loss": 2.404783010482788, "grad_norm": 0.3265056610107422, "learning_rate": 0.0004588271952338212, "token_acc": 0.4904548006737788, "epoch": 0.5407636738906089, "step": 1179}, {"loss": 2.475677013397217, "grad_norm": 0.3221311867237091, "learning_rate": 0.00045808706993879714, "token_acc": 0.47053895559899467, "epoch": 0.5412223368879716, "step": 1180}, {"loss": 2.419527292251587, "grad_norm": 0.3284562826156616, "learning_rate": 0.00045734703711932767, "token_acc": 0.48367868294067556, "epoch": 0.5416809998853342, "step": 1181}, {"loss": 2.3523144721984863, "grad_norm": 0.3440361022949219, "learning_rate": 0.0004566070984082013, "token_acc": 0.4979792147806005, "epoch": 0.542139662882697, "step": 1182}, {"loss": 2.4763576984405518, "grad_norm": 0.3393910527229309, "learning_rate": 0.00045586725543799865, "token_acc": 0.4828918322295806, "epoch": 0.5425983258800596, "step": 1183}, {"loss": 2.383568525314331, "grad_norm": 0.345430850982666, "learning_rate": 0.00045512750984108937, "token_acc": 0.4874020156774916, "epoch": 0.5430569888774223, "step": 1184}, {"loss": 2.4082822799682617, "grad_norm": 0.33511584997177124, "learning_rate": 0.000454387863249628, "token_acc": 0.49108683151236343, "epoch": 0.543515651874785, "step": 1185}, {"loss": 2.357126235961914, "grad_norm": 0.3304150700569153, "learning_rate": 0.00045364831729555096, "token_acc": 0.49819092680211524, "epoch": 0.5439743148721476, "step": 1186}, {"loss": 2.368241786956787, "grad_norm": 0.3438422977924347, "learning_rate": 0.0004529088736105721, "token_acc": 0.5026874115983027, "epoch": 0.5444329778695104, "step": 1187}, {"loss": 2.449075937271118, "grad_norm": 0.328216016292572, "learning_rate": 0.0004521695338261802, "token_acc": 0.48609198567887635, "epoch": 0.544891640866873, "step": 1188}, {"loss": 2.351963996887207, "grad_norm": 0.3344208598136902, "learning_rate": 0.0004514302995736344, "token_acc": 0.49407550289335905, "epoch": 0.5453503038642358, "step": 1189}, {"loss": 2.436291217803955, "grad_norm": 0.343511700630188, "learning_rate": 0.0004506911724839613, "token_acc": 0.48068181818181815, "epoch": 0.5458089668615984, "step": 1190}, {"loss": 2.3687691688537598, "grad_norm": 0.32576438784599304, "learning_rate": 0.0004499521541879508, "token_acc": 0.4792358803986711, "epoch": 0.5462676298589612, "step": 1191}, {"loss": 2.3122730255126953, "grad_norm": 0.33563125133514404, "learning_rate": 0.00044921324631615303, "token_acc": 0.49754831266224403, "epoch": 0.5467262928563238, "step": 1192}, {"loss": 2.397444248199463, "grad_norm": 0.340992271900177, "learning_rate": 0.0004484744504988742, "token_acc": 0.4862914862914863, "epoch": 0.5471849558536865, "step": 1193}, {"loss": 2.4072422981262207, "grad_norm": 0.34597668051719666, "learning_rate": 0.00044773576836617336, "token_acc": 0.48477886272257326, "epoch": 0.5476436188510492, "step": 1194}, {"loss": 2.404254913330078, "grad_norm": 0.31964075565338135, "learning_rate": 0.0004469972015478588, "token_acc": 0.49026063100137174, "epoch": 0.5481022818484119, "step": 1195}, {"loss": 2.485556125640869, "grad_norm": 0.31169629096984863, "learning_rate": 0.0004462587516734844, "token_acc": 0.47184623714131024, "epoch": 0.5485609448457746, "step": 1196}, {"loss": 2.4858906269073486, "grad_norm": 0.3283757269382477, "learning_rate": 0.00044552042037234596, "token_acc": 0.47494239631336405, "epoch": 0.5490196078431373, "step": 1197}, {"loss": 2.3355555534362793, "grad_norm": 0.33134961128234863, "learning_rate": 0.00044478220927347774, "token_acc": 0.4806371875858281, "epoch": 0.5494782708404999, "step": 1198}, {"loss": 2.440321445465088, "grad_norm": 0.3389824628829956, "learning_rate": 0.00044404412000564875, "token_acc": 0.49220742419948993, "epoch": 0.5499369338378627, "step": 1199}, {"loss": 2.5323190689086914, "grad_norm": 0.3425561785697937, "learning_rate": 0.000443306154197359, "token_acc": 0.46542324246771877, "epoch": 0.5503955968352253, "step": 1200}, {"loss": 2.4835643768310547, "grad_norm": 0.3538571894168854, "learning_rate": 0.00044256831347683646, "token_acc": 0.47285067873303166, "epoch": 0.550854259832588, "step": 1201}, {"loss": 2.286160945892334, "grad_norm": 0.3112059533596039, "learning_rate": 0.0004418305994720328, "token_acc": 0.5158533223049352, "epoch": 0.5513129228299507, "step": 1202}, {"loss": 2.3868699073791504, "grad_norm": 0.32723918557167053, "learning_rate": 0.0004410930138106203, "token_acc": 0.4959720730397422, "epoch": 0.5517715858273133, "step": 1203}, {"loss": 2.2926995754241943, "grad_norm": 0.32817670702934265, "learning_rate": 0.000440355558119988, "token_acc": 0.4978050921861282, "epoch": 0.5522302488246761, "step": 1204}, {"loss": 2.2755377292633057, "grad_norm": 0.331314355134964, "learning_rate": 0.00043961823402723814, "token_acc": 0.50169779286927, "epoch": 0.5526889118220387, "step": 1205}, {"loss": 2.3041505813598633, "grad_norm": 0.3287051320075989, "learning_rate": 0.0004388810431591829, "token_acc": 0.5005558643690939, "epoch": 0.5531475748194015, "step": 1206}, {"loss": 2.481767177581787, "grad_norm": 0.3475499153137207, "learning_rate": 0.0004381439871423398, "token_acc": 0.4770246984491672, "epoch": 0.5536062378167641, "step": 1207}, {"loss": 2.328268051147461, "grad_norm": 0.3394912779331207, "learning_rate": 0.00043740706760292966, "token_acc": 0.4944126464976833, "epoch": 0.5540649008141268, "step": 1208}, {"loss": 2.440275192260742, "grad_norm": 0.3594644367694855, "learning_rate": 0.0004366702861668716, "token_acc": 0.47631205673758864, "epoch": 0.5545235638114895, "step": 1209}, {"loss": 2.4451394081115723, "grad_norm": 0.34651413559913635, "learning_rate": 0.00043593364445978036, "token_acc": 0.47500706015249927, "epoch": 0.5549822268088522, "step": 1210}, {"loss": 2.3106343746185303, "grad_norm": 0.3344196677207947, "learning_rate": 0.0004351971441069622, "token_acc": 0.4906989853438557, "epoch": 0.5554408898062149, "step": 1211}, {"loss": 2.3936924934387207, "grad_norm": 0.34688499569892883, "learning_rate": 0.0004344607867334116, "token_acc": 0.48639551192145863, "epoch": 0.5558995528035776, "step": 1212}, {"loss": 2.4188308715820312, "grad_norm": 0.33408495783805847, "learning_rate": 0.00043372457396380766, "token_acc": 0.4883459702330806, "epoch": 0.5563582158009402, "step": 1213}, {"loss": 2.318387269973755, "grad_norm": 0.37232357263565063, "learning_rate": 0.00043298850742251013, "token_acc": 0.49273711193392195, "epoch": 0.556816878798303, "step": 1214}, {"loss": 2.3129100799560547, "grad_norm": 0.32914647459983826, "learning_rate": 0.0004322525887335563, "token_acc": 0.5013520822065982, "epoch": 0.5572755417956656, "step": 1215}, {"loss": 2.348127841949463, "grad_norm": 0.32913053035736084, "learning_rate": 0.00043151681952065734, "token_acc": 0.4944743553414565, "epoch": 0.5577342047930284, "step": 1216}, {"loss": 2.4081196784973145, "grad_norm": 0.34666576981544495, "learning_rate": 0.00043078120140719456, "token_acc": 0.48874133949191684, "epoch": 0.558192867790391, "step": 1217}, {"loss": 2.4483871459960938, "grad_norm": 0.32372456789016724, "learning_rate": 0.0004300457360162158, "token_acc": 0.4693481276005548, "epoch": 0.5586515307877536, "step": 1218}, {"loss": 2.4345483779907227, "grad_norm": 0.34390881657600403, "learning_rate": 0.0004293104249704319, "token_acc": 0.4818132464712269, "epoch": 0.5591101937851164, "step": 1219}, {"loss": 2.4466018676757812, "grad_norm": 0.3545990288257599, "learning_rate": 0.00042857526989221355, "token_acc": 0.4760898282694848, "epoch": 0.559568856782479, "step": 1220}, {"loss": 2.3660106658935547, "grad_norm": 0.33733758330345154, "learning_rate": 0.00042784027240358674, "token_acc": 0.48605921241736133, "epoch": 0.5600275197798418, "step": 1221}, {"loss": 2.4787588119506836, "grad_norm": 0.32617852091789246, "learning_rate": 0.0004271054341262301, "token_acc": 0.4811657959857025, "epoch": 0.5604861827772044, "step": 1222}, {"loss": 2.4197468757629395, "grad_norm": 0.32000041007995605, "learning_rate": 0.000426370756681471, "token_acc": 0.4804241435562806, "epoch": 0.5609448457745672, "step": 1223}, {"loss": 2.3936476707458496, "grad_norm": 0.333675742149353, "learning_rate": 0.0004256362416902817, "token_acc": 0.47599531615925056, "epoch": 0.5614035087719298, "step": 1224}, {"loss": 2.339996576309204, "grad_norm": 0.33793601393699646, "learning_rate": 0.00042490189077327637, "token_acc": 0.4877771461057419, "epoch": 0.5618621717692925, "step": 1225}, {"loss": 2.477755546569824, "grad_norm": 0.3211178183555603, "learning_rate": 0.00042416770555070703, "token_acc": 0.48440065681444994, "epoch": 0.5623208347666552, "step": 1226}, {"loss": 2.3506226539611816, "grad_norm": 0.3442017734050751, "learning_rate": 0.00042343368764246, "token_acc": 0.48245868367642797, "epoch": 0.5627794977640179, "step": 1227}, {"loss": 2.4184913635253906, "grad_norm": 0.3554806411266327, "learning_rate": 0.0004226998386680524, "token_acc": 0.48822733423545334, "epoch": 0.5632381607613806, "step": 1228}, {"loss": 2.328129291534424, "grad_norm": 0.3359168767929077, "learning_rate": 0.000421966160246629, "token_acc": 0.49019058295964124, "epoch": 0.5636968237587433, "step": 1229}, {"loss": 2.3625025749206543, "grad_norm": 0.3443622589111328, "learning_rate": 0.00042123265399695783, "token_acc": 0.4944333428489866, "epoch": 0.5641554867561059, "step": 1230}, {"loss": 2.5054771900177, "grad_norm": 0.34090185165405273, "learning_rate": 0.0004204993215374273, "token_acc": 0.4713203463203463, "epoch": 0.5646141497534687, "step": 1231}, {"loss": 2.5186641216278076, "grad_norm": 0.34598684310913086, "learning_rate": 0.00041976616448604226, "token_acc": 0.4666849465313957, "epoch": 0.5650728127508313, "step": 1232}, {"loss": 2.3030948638916016, "grad_norm": 0.3255317509174347, "learning_rate": 0.00041903318446042076, "token_acc": 0.48515406162464986, "epoch": 0.5655314757481941, "step": 1233}, {"loss": 2.560073137283325, "grad_norm": 0.33572426438331604, "learning_rate": 0.00041830038307778984, "token_acc": 0.45712663259511643, "epoch": 0.5659901387455567, "step": 1234}, {"loss": 2.3413145542144775, "grad_norm": 0.3159019649028778, "learning_rate": 0.0004175677619549828, "token_acc": 0.4988870339454647, "epoch": 0.5664488017429193, "step": 1235}, {"loss": 2.42108154296875, "grad_norm": 0.33941614627838135, "learning_rate": 0.000416835322708435, "token_acc": 0.48903156768325307, "epoch": 0.5669074647402821, "step": 1236}, {"loss": 2.402815818786621, "grad_norm": 0.3211330473423004, "learning_rate": 0.00041610306695418056, "token_acc": 0.48370019504040124, "epoch": 0.5673661277376447, "step": 1237}, {"loss": 2.436002016067505, "grad_norm": 0.3443274199962616, "learning_rate": 0.0004153709963078488, "token_acc": 0.4869226488592098, "epoch": 0.5678247907350075, "step": 1238}, {"loss": 2.4409127235412598, "grad_norm": 0.34885191917419434, "learning_rate": 0.0004146391123846606, "token_acc": 0.48285553681843735, "epoch": 0.5682834537323701, "step": 1239}, {"loss": 2.4201903343200684, "grad_norm": 0.34614840149879456, "learning_rate": 0.0004139074167994249, "token_acc": 0.4834983498349835, "epoch": 0.5687421167297328, "step": 1240}, {"loss": 2.3994216918945312, "grad_norm": 0.331919401884079, "learning_rate": 0.00041317591116653486, "token_acc": 0.4881665240946678, "epoch": 0.5692007797270955, "step": 1241}, {"loss": 2.2819631099700928, "grad_norm": 0.3240911364555359, "learning_rate": 0.0004124445970999648, "token_acc": 0.5019230769230769, "epoch": 0.5696594427244582, "step": 1242}, {"loss": 2.4925808906555176, "grad_norm": 0.3376796841621399, "learning_rate": 0.00041171347621326627, "token_acc": 0.47007586400674345, "epoch": 0.5701181057218209, "step": 1243}, {"loss": 2.3698883056640625, "grad_norm": 0.33301636576652527, "learning_rate": 0.00041098255011956465, "token_acc": 0.49698795180722893, "epoch": 0.5705767687191836, "step": 1244}, {"loss": 2.2901546955108643, "grad_norm": 0.35458892583847046, "learning_rate": 0.00041025182043155547, "token_acc": 0.5039908779931584, "epoch": 0.5710354317165462, "step": 1245}, {"loss": 2.3650991916656494, "grad_norm": 0.33268123865127563, "learning_rate": 0.000409521288761501, "token_acc": 0.4916281755196305, "epoch": 0.571494094713909, "step": 1246}, {"loss": 2.46368408203125, "grad_norm": 0.3476988673210144, "learning_rate": 0.00040879095672122646, "token_acc": 0.47098782904047554, "epoch": 0.5719527577112716, "step": 1247}, {"loss": 2.351609706878662, "grad_norm": 0.3208668828010559, "learning_rate": 0.0004080608259221167, "token_acc": 0.48567674113009196, "epoch": 0.5724114207086344, "step": 1248}, {"loss": 2.42510986328125, "grad_norm": 0.33837610483169556, "learning_rate": 0.0004073308979751126, "token_acc": 0.482837528604119, "epoch": 0.572870083705997, "step": 1249}, {"loss": 2.327911853790283, "grad_norm": 0.3475898504257202, "learning_rate": 0.0004066011744907074, "token_acc": 0.4988801791713326, "epoch": 0.5733287467033598, "step": 1250}, {"loss": 2.480320453643799, "grad_norm": 0.31971225142478943, "learning_rate": 0.00040587165707894326, "token_acc": 0.46329658510352245, "epoch": 0.5737874097007224, "step": 1251}, {"loss": 2.4188902378082275, "grad_norm": 0.3156541585922241, "learning_rate": 0.0004051423473494076, "token_acc": 0.4813881891967534, "epoch": 0.574246072698085, "step": 1252}, {"loss": 2.3880271911621094, "grad_norm": 0.3291691243648529, "learning_rate": 0.0004044132469112299, "token_acc": 0.49214517876489705, "epoch": 0.5747047356954478, "step": 1253}, {"loss": 2.4230124950408936, "grad_norm": 0.3401661217212677, "learning_rate": 0.00040368435737307733, "token_acc": 0.47578425976884975, "epoch": 0.5751633986928104, "step": 1254}, {"loss": 2.387690544128418, "grad_norm": 0.34469103813171387, "learning_rate": 0.00040295568034315224, "token_acc": 0.4900277008310249, "epoch": 0.5756220616901732, "step": 1255}, {"loss": 2.360827922821045, "grad_norm": 0.3351454436779022, "learning_rate": 0.0004022272174291878, "token_acc": 0.491933278643697, "epoch": 0.5760807246875358, "step": 1256}, {"loss": 2.4882776737213135, "grad_norm": 0.33321672677993774, "learning_rate": 0.0004014989702384449, "token_acc": 0.45794392523364486, "epoch": 0.5765393876848985, "step": 1257}, {"loss": 2.5004217624664307, "grad_norm": 0.34439513087272644, "learning_rate": 0.00040077094037770843, "token_acc": 0.4855635757912271, "epoch": 0.5769980506822612, "step": 1258}, {"loss": 2.43469500541687, "grad_norm": 0.320482462644577, "learning_rate": 0.0004000431294532838, "token_acc": 0.47989347536617843, "epoch": 0.5774567136796239, "step": 1259}, {"loss": 2.2579996585845947, "grad_norm": 0.3228101134300232, "learning_rate": 0.0003993155390709935, "token_acc": 0.5012264922322158, "epoch": 0.5779153766769866, "step": 1260}, {"loss": 2.4069061279296875, "grad_norm": 0.3554765284061432, "learning_rate": 0.0003985881708361729, "token_acc": 0.4835320840431573, "epoch": 0.5783740396743493, "step": 1261}, {"loss": 2.3240976333618164, "grad_norm": 0.3248046338558197, "learning_rate": 0.00039786102635366784, "token_acc": 0.49567160011170064, "epoch": 0.5788327026717119, "step": 1262}, {"loss": 2.358372688293457, "grad_norm": 0.3355124294757843, "learning_rate": 0.0003971341072278302, "token_acc": 0.48574417996337954, "epoch": 0.5792913656690747, "step": 1263}, {"loss": 2.2823896408081055, "grad_norm": 0.3375208079814911, "learning_rate": 0.00039640741506251457, "token_acc": 0.5098442550690567, "epoch": 0.5797500286664373, "step": 1264}, {"loss": 2.4372541904449463, "grad_norm": 0.3746131360530853, "learning_rate": 0.00039568095146107495, "token_acc": 0.4886657101865136, "epoch": 0.5802086916638001, "step": 1265}, {"loss": 2.484485149383545, "grad_norm": 0.34838199615478516, "learning_rate": 0.00039495471802636096, "token_acc": 0.47902869757174393, "epoch": 0.5806673546611627, "step": 1266}, {"loss": 2.3821139335632324, "grad_norm": 0.34635233879089355, "learning_rate": 0.0003942287163607145, "token_acc": 0.47875816993464054, "epoch": 0.5811260176585255, "step": 1267}, {"loss": 2.40873646736145, "grad_norm": 0.349904865026474, "learning_rate": 0.0003935029480659658, "token_acc": 0.4906918588496805, "epoch": 0.5815846806558881, "step": 1268}, {"loss": 2.3673319816589355, "grad_norm": 0.3482176661491394, "learning_rate": 0.00039277741474343054, "token_acc": 0.49348534201954397, "epoch": 0.5820433436532507, "step": 1269}, {"loss": 2.341050624847412, "grad_norm": 0.324079692363739, "learning_rate": 0.0003920521179939057, "token_acc": 0.48408564814814814, "epoch": 0.5825020066506135, "step": 1270}, {"loss": 2.397528648376465, "grad_norm": 0.3405047655105591, "learning_rate": 0.00039132705941766644, "token_acc": 0.4828651685393258, "epoch": 0.5829606696479761, "step": 1271}, {"loss": 2.4042017459869385, "grad_norm": 0.33491912484169006, "learning_rate": 0.0003906022406144624, "token_acc": 0.48731241473396997, "epoch": 0.5834193326453389, "step": 1272}, {"loss": 2.3883543014526367, "grad_norm": 0.33675655722618103, "learning_rate": 0.0003898776631835143, "token_acc": 0.4955898566703418, "epoch": 0.5838779956427015, "step": 1273}, {"loss": 2.439603805541992, "grad_norm": 0.33834969997406006, "learning_rate": 0.00038915332872350994, "token_acc": 0.48196448390677027, "epoch": 0.5843366586400642, "step": 1274}, {"loss": 2.492771625518799, "grad_norm": 0.35871055722236633, "learning_rate": 0.00038842923883260135, "token_acc": 0.48759124087591244, "epoch": 0.5847953216374269, "step": 1275}, {"loss": 2.401170015335083, "grad_norm": 0.3426671624183655, "learning_rate": 0.00038770539510840093, "token_acc": 0.48406040268456374, "epoch": 0.5852539846347896, "step": 1276}, {"loss": 2.40999698638916, "grad_norm": 0.3409467339515686, "learning_rate": 0.00038698179914797783, "token_acc": 0.49328859060402686, "epoch": 0.5857126476321523, "step": 1277}, {"loss": 2.456834316253662, "grad_norm": 0.34552034735679626, "learning_rate": 0.0003862584525478545, "token_acc": 0.48484848484848486, "epoch": 0.586171310629515, "step": 1278}, {"loss": 2.4125397205352783, "grad_norm": 0.344443678855896, "learning_rate": 0.00038553535690400353, "token_acc": 0.4818910699474703, "epoch": 0.5866299736268776, "step": 1279}, {"loss": 2.3883519172668457, "grad_norm": 0.330518901348114, "learning_rate": 0.00038481251381184355, "token_acc": 0.4854155200880572, "epoch": 0.5870886366242404, "step": 1280}, {"loss": 2.400785446166992, "grad_norm": 0.34492021799087524, "learning_rate": 0.00038408992486623584, "token_acc": 0.4885739080127278, "epoch": 0.587547299621603, "step": 1281}, {"loss": 2.3912506103515625, "grad_norm": 0.3304204046726227, "learning_rate": 0.00038336759166148117, "token_acc": 0.4826233183856502, "epoch": 0.5880059626189658, "step": 1282}, {"loss": 2.3989624977111816, "grad_norm": 0.3564055562019348, "learning_rate": 0.0003826455157913159, "token_acc": 0.48273910582908885, "epoch": 0.5884646256163284, "step": 1283}, {"loss": 2.4132046699523926, "grad_norm": 0.34016719460487366, "learning_rate": 0.00038192369884890886, "token_acc": 0.48526959421901056, "epoch": 0.5889232886136911, "step": 1284}, {"loss": 2.417942523956299, "grad_norm": 0.33444005250930786, "learning_rate": 0.00038120214242685723, "token_acc": 0.490403895731882, "epoch": 0.5893819516110538, "step": 1285}, {"loss": 2.36061429977417, "grad_norm": 0.32987749576568604, "learning_rate": 0.00038048084811718373, "token_acc": 0.4845984598459846, "epoch": 0.5898406146084164, "step": 1286}, {"loss": 2.4467458724975586, "grad_norm": 0.3290899097919464, "learning_rate": 0.0003797598175113327, "token_acc": 0.4758269720101781, "epoch": 0.5902992776057792, "step": 1287}, {"loss": 2.302490711212158, "grad_norm": 0.3392254114151001, "learning_rate": 0.0003790390522001662, "token_acc": 0.5062146892655367, "epoch": 0.5907579406031418, "step": 1288}, {"loss": 2.289241313934326, "grad_norm": 0.3305123746395111, "learning_rate": 0.0003783185537739615, "token_acc": 0.500690798563139, "epoch": 0.5912166036005045, "step": 1289}, {"loss": 2.246800422668457, "grad_norm": 0.3308006227016449, "learning_rate": 0.00037759832382240697, "token_acc": 0.49689791314156795, "epoch": 0.5916752665978672, "step": 1290}, {"loss": 2.3175716400146484, "grad_norm": 0.32767626643180847, "learning_rate": 0.00037687836393459826, "token_acc": 0.5015673981191222, "epoch": 0.5921339295952299, "step": 1291}, {"loss": 2.4247419834136963, "grad_norm": 0.3325299918651581, "learning_rate": 0.0003761586756990354, "token_acc": 0.4716401229393685, "epoch": 0.5925925925925926, "step": 1292}, {"loss": 2.4305343627929688, "grad_norm": 0.34397822618484497, "learning_rate": 0.0003754392607036191, "token_acc": 0.4767408263507657, "epoch": 0.5930512555899553, "step": 1293}, {"loss": 2.416828155517578, "grad_norm": 0.3454072177410126, "learning_rate": 0.0003747201205356472, "token_acc": 0.49480369515011546, "epoch": 0.5935099185873179, "step": 1294}, {"loss": 2.3844399452209473, "grad_norm": 0.33437836170196533, "learning_rate": 0.0003740012567818111, "token_acc": 0.4994305239179954, "epoch": 0.5939685815846807, "step": 1295}, {"loss": 2.4136807918548584, "grad_norm": 0.3223138451576233, "learning_rate": 0.0003732826710281922, "token_acc": 0.4908243518788232, "epoch": 0.5944272445820433, "step": 1296}, {"loss": 2.3260746002197266, "grad_norm": 0.3140416741371155, "learning_rate": 0.0003725643648602588, "token_acc": 0.49703975190301664, "epoch": 0.5948859075794061, "step": 1297}, {"loss": 2.330179452896118, "grad_norm": 0.3444945514202118, "learning_rate": 0.0003718463398628621, "token_acc": 0.4974152785755313, "epoch": 0.5953445705767687, "step": 1298}, {"loss": 2.42614483833313, "grad_norm": 0.3519197404384613, "learning_rate": 0.0003711285976202331, "token_acc": 0.4791961505802434, "epoch": 0.5958032335741315, "step": 1299}, {"loss": 2.409801721572876, "grad_norm": 0.3358364403247833, "learning_rate": 0.0003704111397159787, "token_acc": 0.48670062252405205, "epoch": 0.5962618965714941, "step": 1300}, {"loss": 2.508028030395508, "grad_norm": 0.34896978735923767, "learning_rate": 0.0003696939677330788, "token_acc": 0.4680105170902717, "epoch": 0.5967205595688568, "step": 1301}, {"loss": 2.3242506980895996, "grad_norm": 0.35777485370635986, "learning_rate": 0.00036897708325388213, "token_acc": 0.4981705600900647, "epoch": 0.5971792225662195, "step": 1302}, {"loss": 2.3854708671569824, "grad_norm": 0.3417137563228607, "learning_rate": 0.0003682604878601034, "token_acc": 0.5074370709382151, "epoch": 0.5976378855635821, "step": 1303}, {"loss": 2.3356847763061523, "grad_norm": 0.3396136164665222, "learning_rate": 0.000367544183132819, "token_acc": 0.5043139437795714, "epoch": 0.5980965485609449, "step": 1304}, {"loss": 2.315471649169922, "grad_norm": 0.34940797090530396, "learning_rate": 0.0003668281706524645, "token_acc": 0.5189393939393939, "epoch": 0.5985552115583075, "step": 1305}, {"loss": 2.342496871948242, "grad_norm": 0.33320578932762146, "learning_rate": 0.0003661124519988304, "token_acc": 0.4995773457311919, "epoch": 0.5990138745556702, "step": 1306}, {"loss": 2.483700752258301, "grad_norm": 0.33597850799560547, "learning_rate": 0.00036539702875105893, "token_acc": 0.47426784191071936, "epoch": 0.5994725375530329, "step": 1307}, {"loss": 2.294806957244873, "grad_norm": 0.3359525799751282, "learning_rate": 0.0003646819024876406, "token_acc": 0.5038926174496644, "epoch": 0.5999312005503956, "step": 1308}, {"loss": 2.3861141204833984, "grad_norm": 0.33808475732803345, "learning_rate": 0.0003639670747864107, "token_acc": 0.4862134862134862, "epoch": 0.6003898635477583, "step": 1309}, {"loss": 2.391299247741699, "grad_norm": 0.3495483100414276, "learning_rate": 0.00036325254722454584, "token_acc": 0.4876265466816648, "epoch": 0.600848526545121, "step": 1310}, {"loss": 2.283001184463501, "grad_norm": 0.30669280886650085, "learning_rate": 0.00036253832137855997, "token_acc": 0.5, "epoch": 0.6013071895424836, "step": 1311}, {"loss": 2.318142890930176, "grad_norm": 0.33734989166259766, "learning_rate": 0.00036182439882430183, "token_acc": 0.5120137299771167, "epoch": 0.6017658525398464, "step": 1312}, {"loss": 2.4190421104431152, "grad_norm": 0.35226139426231384, "learning_rate": 0.00036111078113695096, "token_acc": 0.4964255075779239, "epoch": 0.602224515537209, "step": 1313}, {"loss": 2.4486522674560547, "grad_norm": 0.35402336716651917, "learning_rate": 0.0003603974698910139, "token_acc": 0.48428571428571426, "epoch": 0.6026831785345718, "step": 1314}, {"loss": 2.3939948081970215, "grad_norm": 0.3527601361274719, "learning_rate": 0.0003596844666603214, "token_acc": 0.4853510226644555, "epoch": 0.6031418415319344, "step": 1315}, {"loss": 2.496617555618286, "grad_norm": 0.3480856418609619, "learning_rate": 0.0003589717730180245, "token_acc": 0.46768275472763193, "epoch": 0.6036005045292971, "step": 1316}, {"loss": 2.397785186767578, "grad_norm": 0.35495853424072266, "learning_rate": 0.00035825939053659117, "token_acc": 0.4888888888888889, "epoch": 0.6040591675266598, "step": 1317}, {"loss": 2.418009042739868, "grad_norm": 0.32361191511154175, "learning_rate": 0.00035754732078780273, "token_acc": 0.48278711098870836, "epoch": 0.6045178305240225, "step": 1318}, {"loss": 2.413954496383667, "grad_norm": 0.36219972372055054, "learning_rate": 0.00035683556534275076, "token_acc": 0.4881820834549168, "epoch": 0.6049764935213852, "step": 1319}, {"loss": 2.3483667373657227, "grad_norm": 0.33185145258903503, "learning_rate": 0.00035612412577183303, "token_acc": 0.48593280524446875, "epoch": 0.6054351565187478, "step": 1320}, {"loss": 2.4144420623779297, "grad_norm": 0.3282735347747803, "learning_rate": 0.00035541300364475063, "token_acc": 0.46903409090909093, "epoch": 0.6058938195161105, "step": 1321}, {"loss": 2.3624067306518555, "grad_norm": 0.3466692864894867, "learning_rate": 0.0003547022005305043, "token_acc": 0.4798432250839866, "epoch": 0.6063524825134732, "step": 1322}, {"loss": 2.361252784729004, "grad_norm": 0.3218834400177002, "learning_rate": 0.0003539917179973907, "token_acc": 0.4857142857142857, "epoch": 0.6068111455108359, "step": 1323}, {"loss": 2.2355566024780273, "grad_norm": 0.317954957485199, "learning_rate": 0.00035328155761299917, "token_acc": 0.5137811078405138, "epoch": 0.6072698085081986, "step": 1324}, {"loss": 2.3140103816986084, "grad_norm": 0.3475446105003357, "learning_rate": 0.0003525717209442085, "token_acc": 0.47944819819819817, "epoch": 0.6077284715055613, "step": 1325}, {"loss": 2.3482189178466797, "grad_norm": 0.3397582173347473, "learning_rate": 0.00035186220955718306, "token_acc": 0.4961748633879781, "epoch": 0.6081871345029239, "step": 1326}, {"loss": 2.2505135536193848, "grad_norm": 0.3549669682979584, "learning_rate": 0.0003511530250173696, "token_acc": 0.5008620689655172, "epoch": 0.6086457975002867, "step": 1327}, {"loss": 2.332581043243408, "grad_norm": 0.3382364809513092, "learning_rate": 0.00035044416888949364, "token_acc": 0.49637276785714285, "epoch": 0.6091044604976493, "step": 1328}, {"loss": 2.3235809803009033, "grad_norm": 0.36244484782218933, "learning_rate": 0.0003497356427375562, "token_acc": 0.5053946621237932, "epoch": 0.6095631234950121, "step": 1329}, {"loss": 2.3119142055511475, "grad_norm": 0.34174370765686035, "learning_rate": 0.00034902744812483034, "token_acc": 0.49216300940438873, "epoch": 0.6100217864923747, "step": 1330}, {"loss": 2.401324987411499, "grad_norm": 0.36694225668907166, "learning_rate": 0.00034831958661385714, "token_acc": 0.4838709677419355, "epoch": 0.6104804494897375, "step": 1331}, {"loss": 2.417351245880127, "grad_norm": 0.347665935754776, "learning_rate": 0.0003476120597664434, "token_acc": 0.4870601919162547, "epoch": 0.6109391124871001, "step": 1332}, {"loss": 2.3711981773376465, "grad_norm": 0.3318571448326111, "learning_rate": 0.00034690486914365704, "token_acc": 0.5007190106413575, "epoch": 0.6113977754844628, "step": 1333}, {"loss": 2.3228840827941895, "grad_norm": 0.32068905234336853, "learning_rate": 0.00034619801630582435, "token_acc": 0.4998631261976458, "epoch": 0.6118564384818255, "step": 1334}, {"loss": 2.353450298309326, "grad_norm": 0.346225768327713, "learning_rate": 0.00034549150281252633, "token_acc": 0.4933257597273502, "epoch": 0.6123151014791882, "step": 1335}, {"loss": 2.396827220916748, "grad_norm": 0.32835492491722107, "learning_rate": 0.0003447853302225952, "token_acc": 0.48786473956913007, "epoch": 0.6127737644765509, "step": 1336}, {"loss": 2.401613235473633, "grad_norm": 0.33355408906936646, "learning_rate": 0.00034407950009411126, "token_acc": 0.48171059709521247, "epoch": 0.6132324274739135, "step": 1337}, {"loss": 2.337472438812256, "grad_norm": 0.3314051032066345, "learning_rate": 0.00034337401398439873, "token_acc": 0.4964858026426764, "epoch": 0.6136910904712762, "step": 1338}, {"loss": 2.3952951431274414, "grad_norm": 0.32379621267318726, "learning_rate": 0.00034266887345002305, "token_acc": 0.4955604883462819, "epoch": 0.6141497534686389, "step": 1339}, {"loss": 2.2989983558654785, "grad_norm": 0.31511518359184265, "learning_rate": 0.0003419640800467874, "token_acc": 0.49776161163961946, "epoch": 0.6146084164660016, "step": 1340}, {"loss": 2.2804627418518066, "grad_norm": 0.3427899479866028, "learning_rate": 0.0003412596353297288, "token_acc": 0.5141973573235873, "epoch": 0.6150670794633643, "step": 1341}, {"loss": 2.3680307865142822, "grad_norm": 0.34014198184013367, "learning_rate": 0.00034055554085311493, "token_acc": 0.4785772029102668, "epoch": 0.615525742460727, "step": 1342}, {"loss": 2.378547191619873, "grad_norm": 0.33515748381614685, "learning_rate": 0.00033985179817044105, "token_acc": 0.47745071563597086, "epoch": 0.6159844054580896, "step": 1343}, {"loss": 2.4104394912719727, "grad_norm": 0.3379366993904114, "learning_rate": 0.0003391484088344257, "token_acc": 0.4923033067274801, "epoch": 0.6164430684554524, "step": 1344}, {"loss": 2.2939507961273193, "grad_norm": 0.3303073048591614, "learning_rate": 0.00033844537439700807, "token_acc": 0.4899365867107803, "epoch": 0.616901731452815, "step": 1345}, {"loss": 2.413130283355713, "grad_norm": 0.340492844581604, "learning_rate": 0.00033774269640934445, "token_acc": 0.475273990911521, "epoch": 0.6173603944501778, "step": 1346}, {"loss": 2.2369489669799805, "grad_norm": 0.33295580744743347, "learning_rate": 0.0003370403764218045, "token_acc": 0.5087274774774775, "epoch": 0.6178190574475404, "step": 1347}, {"loss": 2.328295946121216, "grad_norm": 0.3448663055896759, "learning_rate": 0.000336338415983968, "token_acc": 0.49618991793669404, "epoch": 0.6182777204449031, "step": 1348}, {"loss": 2.3706722259521484, "grad_norm": 0.3231273591518402, "learning_rate": 0.00033563681664462155, "token_acc": 0.48806584362139915, "epoch": 0.6187363834422658, "step": 1349}, {"loss": 2.399789810180664, "grad_norm": 0.35387349128723145, "learning_rate": 0.000334935579951755, "token_acc": 0.4929343308395677, "epoch": 0.6191950464396285, "step": 1350}, {"loss": 2.3810834884643555, "grad_norm": 0.3376743197441101, "learning_rate": 0.0003342347074525578, "token_acc": 0.489027363858033, "epoch": 0.6196537094369912, "step": 1351}, {"loss": 2.4144954681396484, "grad_norm": 0.3492054343223572, "learning_rate": 0.0003335342006934161, "token_acc": 0.49943788645306353, "epoch": 0.6201123724343539, "step": 1352}, {"loss": 2.3154895305633545, "grad_norm": 0.31851106882095337, "learning_rate": 0.00033283406121990914, "token_acc": 0.5009565455042362, "epoch": 0.6205710354317165, "step": 1353}, {"loss": 2.4008822441101074, "grad_norm": 0.33761394023895264, "learning_rate": 0.0003321342905768057, "token_acc": 0.478687605159843, "epoch": 0.6210296984290792, "step": 1354}, {"loss": 2.308924436569214, "grad_norm": 0.33304908871650696, "learning_rate": 0.00033143489030806086, "token_acc": 0.4907688068338385, "epoch": 0.6214883614264419, "step": 1355}, {"loss": 2.515778064727783, "grad_norm": 0.37085628509521484, "learning_rate": 0.00033073586195681227, "token_acc": 0.47674418604651164, "epoch": 0.6219470244238046, "step": 1356}, {"loss": 2.344749927520752, "grad_norm": 0.3530430793762207, "learning_rate": 0.00033003720706537736, "token_acc": 0.49557522123893805, "epoch": 0.6224056874211673, "step": 1357}, {"loss": 2.384697675704956, "grad_norm": 0.37262749671936035, "learning_rate": 0.0003293389271752492, "token_acc": 0.4795353982300885, "epoch": 0.6228643504185299, "step": 1358}, {"loss": 2.345730781555176, "grad_norm": 0.3245235085487366, "learning_rate": 0.00032864102382709374, "token_acc": 0.48370927318295737, "epoch": 0.6233230134158927, "step": 1359}, {"loss": 2.3580193519592285, "grad_norm": 0.36223724484443665, "learning_rate": 0.000327943498560746, "token_acc": 0.4995610184372256, "epoch": 0.6237816764132553, "step": 1360}, {"loss": 2.3559913635253906, "grad_norm": 0.3300418555736542, "learning_rate": 0.00032724635291520694, "token_acc": 0.4861419068736142, "epoch": 0.6242403394106181, "step": 1361}, {"loss": 2.3577990531921387, "grad_norm": 0.34241145849227905, "learning_rate": 0.00032654958842863967, "token_acc": 0.48336594911937375, "epoch": 0.6246990024079807, "step": 1362}, {"loss": 2.3318145275115967, "grad_norm": 0.35038670897483826, "learning_rate": 0.0003258532066383667, "token_acc": 0.49414389291689903, "epoch": 0.6251576654053435, "step": 1363}, {"loss": 2.375368595123291, "grad_norm": 0.3182967007160187, "learning_rate": 0.000325157209080866, "token_acc": 0.5019230769230769, "epoch": 0.6256163284027061, "step": 1364}, {"loss": 2.222464084625244, "grad_norm": 0.32574236392974854, "learning_rate": 0.00032446159729176743, "token_acc": 0.4959051115504095, "epoch": 0.6260749914000688, "step": 1365}, {"loss": 2.299189567565918, "grad_norm": 0.33192455768585205, "learning_rate": 0.0003237663728058502, "token_acc": 0.4987226795344877, "epoch": 0.6265336543974315, "step": 1366}, {"loss": 2.426185131072998, "grad_norm": 0.3664180636405945, "learning_rate": 0.0003230715371570389, "token_acc": 0.47751724137931034, "epoch": 0.6269923173947942, "step": 1367}, {"loss": 2.3265540599823, "grad_norm": 0.33789846301078796, "learning_rate": 0.00032237709187839996, "token_acc": 0.498744069215741, "epoch": 0.6274509803921569, "step": 1368}, {"loss": 2.3690009117126465, "grad_norm": 0.3376023769378662, "learning_rate": 0.0003216830385021388, "token_acc": 0.4743660418963616, "epoch": 0.6279096433895196, "step": 1369}, {"loss": 2.4277138710021973, "grad_norm": 0.34567922353744507, "learning_rate": 0.0003209893785595959, "token_acc": 0.4861425339366516, "epoch": 0.6283683063868822, "step": 1370}, {"loss": 2.3326363563537598, "grad_norm": 0.34094834327697754, "learning_rate": 0.00032029611358124366, "token_acc": 0.49130074565037285, "epoch": 0.6288269693842449, "step": 1371}, {"loss": 2.3637142181396484, "grad_norm": 0.34554293751716614, "learning_rate": 0.00031960324509668336, "token_acc": 0.4899216125419933, "epoch": 0.6292856323816076, "step": 1372}, {"loss": 2.377622127532959, "grad_norm": 0.32639217376708984, "learning_rate": 0.0003189107746346412, "token_acc": 0.5043149946062567, "epoch": 0.6297442953789703, "step": 1373}, {"loss": 2.2900407314300537, "grad_norm": 0.3317423164844513, "learning_rate": 0.0003182187037229653, "token_acc": 0.5031958163858222, "epoch": 0.630202958376333, "step": 1374}, {"loss": 2.403184413909912, "grad_norm": 0.35199400782585144, "learning_rate": 0.0003175270338886221, "token_acc": 0.4911174785100286, "epoch": 0.6306616213736956, "step": 1375}, {"loss": 2.3706088066101074, "grad_norm": 0.34216514229774475, "learning_rate": 0.00031683576665769345, "token_acc": 0.493941955480417, "epoch": 0.6311202843710584, "step": 1376}, {"loss": 2.330216884613037, "grad_norm": 0.32496407628059387, "learning_rate": 0.0003161449035553724, "token_acc": 0.5021288674425206, "epoch": 0.631578947368421, "step": 1377}, {"loss": 2.413376808166504, "grad_norm": 0.3287331759929657, "learning_rate": 0.00031545444610596077, "token_acc": 0.4879534754915536, "epoch": 0.6320376103657838, "step": 1378}, {"loss": 2.450493812561035, "grad_norm": 0.32665443420410156, "learning_rate": 0.000314764395832865, "token_acc": 0.4717138103161398, "epoch": 0.6324962733631464, "step": 1379}, {"loss": 2.2770814895629883, "grad_norm": 0.3706531822681427, "learning_rate": 0.0003140747542585934, "token_acc": 0.4989611160581775, "epoch": 0.6329549363605091, "step": 1380}, {"loss": 2.52781343460083, "grad_norm": 0.33608463406562805, "learning_rate": 0.00031338552290475266, "token_acc": 0.4714924538848519, "epoch": 0.6334135993578718, "step": 1381}, {"loss": 2.4183778762817383, "grad_norm": 0.33147764205932617, "learning_rate": 0.00031269670329204396, "token_acc": 0.4899310344827586, "epoch": 0.6338722623552345, "step": 1382}, {"loss": 2.3450608253479004, "grad_norm": 0.34890851378440857, "learning_rate": 0.0003120082969402604, "token_acc": 0.4890570116184815, "epoch": 0.6343309253525972, "step": 1383}, {"loss": 2.375576972961426, "grad_norm": 0.3423956036567688, "learning_rate": 0.00031132030536828314, "token_acc": 0.49559032716927454, "epoch": 0.6347895883499599, "step": 1384}, {"loss": 2.3391873836517334, "grad_norm": 0.32465860247612, "learning_rate": 0.00031063273009407805, "token_acc": 0.5037406483790524, "epoch": 0.6352482513473225, "step": 1385}, {"loss": 2.402210235595703, "grad_norm": 0.33762699365615845, "learning_rate": 0.00030994557263469265, "token_acc": 0.4907637165701682, "epoch": 0.6357069143446853, "step": 1386}, {"loss": 2.517825126647949, "grad_norm": 0.35522574186325073, "learning_rate": 0.0003092588345062526, "token_acc": 0.4687413935554944, "epoch": 0.6361655773420479, "step": 1387}, {"loss": 2.3497841358184814, "grad_norm": 0.3508312404155731, "learning_rate": 0.0003085725172239582, "token_acc": 0.48286262681656156, "epoch": 0.6366242403394106, "step": 1388}, {"loss": 2.5023722648620605, "grad_norm": 0.33374521136283875, "learning_rate": 0.0003078866223020815, "token_acc": 0.4741166803615448, "epoch": 0.6370829033367733, "step": 1389}, {"loss": 2.41453218460083, "grad_norm": 0.3327741324901581, "learning_rate": 0.0003072011512539624, "token_acc": 0.4848651623555311, "epoch": 0.637541566334136, "step": 1390}, {"loss": 2.3685004711151123, "grad_norm": 0.3334726095199585, "learning_rate": 0.00030651610559200574, "token_acc": 0.5015031429352282, "epoch": 0.6380002293314987, "step": 1391}, {"loss": 2.3137755393981934, "grad_norm": 0.3255791664123535, "learning_rate": 0.00030583148682767757, "token_acc": 0.49302844394868933, "epoch": 0.6384588923288613, "step": 1392}, {"loss": 2.4287872314453125, "grad_norm": 0.32301777601242065, "learning_rate": 0.00030514729647150243, "token_acc": 0.4854045037531276, "epoch": 0.6389175553262241, "step": 1393}, {"loss": 2.369800567626953, "grad_norm": 0.3421832025051117, "learning_rate": 0.0003044635360330592, "token_acc": 0.49274148520379674, "epoch": 0.6393762183235867, "step": 1394}, {"loss": 2.4112589359283447, "grad_norm": 0.33747848868370056, "learning_rate": 0.00030378020702097845, "token_acc": 0.4802405498281787, "epoch": 0.6398348813209495, "step": 1395}, {"loss": 2.4044671058654785, "grad_norm": 0.340278297662735, "learning_rate": 0.000303097310942939, "token_acc": 0.48033946251768034, "epoch": 0.6402935443183121, "step": 1396}, {"loss": 2.29628849029541, "grad_norm": 0.33371883630752563, "learning_rate": 0.0003024148493056641, "token_acc": 0.49114791547687037, "epoch": 0.6407522073156748, "step": 1397}, {"loss": 2.390509605407715, "grad_norm": 0.33794447779655457, "learning_rate": 0.00030173282361491865, "token_acc": 0.4851123595505618, "epoch": 0.6412108703130375, "step": 1398}, {"loss": 2.311551332473755, "grad_norm": 0.32746073603630066, "learning_rate": 0.0003010512353755057, "token_acc": 0.482943332393572, "epoch": 0.6416695333104002, "step": 1399}, {"loss": 2.3887128829956055, "grad_norm": 0.36006367206573486, "learning_rate": 0.00030037008609126313, "token_acc": 0.4834892680242157, "epoch": 0.6421281963077629, "step": 1400}, {"loss": 2.4541525840759277, "grad_norm": 0.34520983695983887, "learning_rate": 0.0002996893772650602, "token_acc": 0.46988280185336606, "epoch": 0.6425868593051256, "step": 1401}, {"loss": 2.357340097427368, "grad_norm": 0.33551645278930664, "learning_rate": 0.0002990091103987945, "token_acc": 0.49310441880101324, "epoch": 0.6430455223024882, "step": 1402}, {"loss": 2.351029872894287, "grad_norm": 0.3306700885295868, "learning_rate": 0.0002983292869933886, "token_acc": 0.49360400444938823, "epoch": 0.643504185299851, "step": 1403}, {"loss": 2.353363513946533, "grad_norm": 0.3356305658817291, "learning_rate": 0.0002976499085487862, "token_acc": 0.4901907356948229, "epoch": 0.6439628482972136, "step": 1404}, {"loss": 2.378523826599121, "grad_norm": 0.3439108431339264, "learning_rate": 0.00029697097656394963, "token_acc": 0.4991735537190083, "epoch": 0.6444215112945763, "step": 1405}, {"loss": 2.325188636779785, "grad_norm": 0.33045876026153564, "learning_rate": 0.00029629249253685595, "token_acc": 0.5019815059445178, "epoch": 0.644880174291939, "step": 1406}, {"loss": 2.203885555267334, "grad_norm": 0.3326583802700043, "learning_rate": 0.00029561445796449416, "token_acc": 0.5239697224558453, "epoch": 0.6453388372893016, "step": 1407}, {"loss": 2.3953402042388916, "grad_norm": 0.3416604995727539, "learning_rate": 0.0002949368743428612, "token_acc": 0.4830508474576271, "epoch": 0.6457975002866644, "step": 1408}, {"loss": 2.373331308364868, "grad_norm": 0.3421464264392853, "learning_rate": 0.0002942597431669593, "token_acc": 0.48441108545034645, "epoch": 0.646256163284027, "step": 1409}, {"loss": 2.2875571250915527, "grad_norm": 0.3544997572898865, "learning_rate": 0.0002935830659307924, "token_acc": 0.4987190435525192, "epoch": 0.6467148262813898, "step": 1410}, {"loss": 2.4100089073181152, "grad_norm": 0.3543693423271179, "learning_rate": 0.0002929068441273629, "token_acc": 0.4802836879432624, "epoch": 0.6471734892787524, "step": 1411}, {"loss": 2.2865395545959473, "grad_norm": 0.36088916659355164, "learning_rate": 0.0002922310792486681, "token_acc": 0.5026192445547284, "epoch": 0.6476321522761151, "step": 1412}, {"loss": 2.382117986679077, "grad_norm": 0.3670096695423126, "learning_rate": 0.00029155577278569745, "token_acc": 0.4872086412734508, "epoch": 0.6480908152734778, "step": 1413}, {"loss": 2.317728042602539, "grad_norm": 0.37471479177474976, "learning_rate": 0.00029088092622842895, "token_acc": 0.49408783783783783, "epoch": 0.6485494782708405, "step": 1414}, {"loss": 2.335371971130371, "grad_norm": 0.35377511382102966, "learning_rate": 0.00029020654106582544, "token_acc": 0.49740184757505773, "epoch": 0.6490081412682032, "step": 1415}, {"loss": 2.3080310821533203, "grad_norm": 0.3380454182624817, "learning_rate": 0.0002895326187858326, "token_acc": 0.5053370786516854, "epoch": 0.6494668042655659, "step": 1416}, {"loss": 2.3871777057647705, "grad_norm": 0.3290717303752899, "learning_rate": 0.00028885916087537377, "token_acc": 0.47679209008514145, "epoch": 0.6499254672629285, "step": 1417}, {"loss": 2.3598389625549316, "grad_norm": 0.3459347188472748, "learning_rate": 0.00028818616882034877, "token_acc": 0.48246844319775595, "epoch": 0.6503841302602913, "step": 1418}, {"loss": 2.366239309310913, "grad_norm": 0.3583964705467224, "learning_rate": 0.0002875136441056286, "token_acc": 0.49719258843346437, "epoch": 0.6508427932576539, "step": 1419}, {"loss": 2.4071407318115234, "grad_norm": 0.33667388558387756, "learning_rate": 0.000286841588215054, "token_acc": 0.4757975797579758, "epoch": 0.6513014562550167, "step": 1420}, {"loss": 2.4373979568481445, "grad_norm": 0.36943763494491577, "learning_rate": 0.0002861700026314308, "token_acc": 0.4858323494687131, "epoch": 0.6517601192523793, "step": 1421}, {"loss": 2.321516275405884, "grad_norm": 0.31827855110168457, "learning_rate": 0.00028549888883652686, "token_acc": 0.49874476987447697, "epoch": 0.6522187822497421, "step": 1422}, {"loss": 2.3648133277893066, "grad_norm": 0.350901335477829, "learning_rate": 0.00028482824831107, "token_acc": 0.4972129319955407, "epoch": 0.6526774452471047, "step": 1423}, {"loss": 2.440328359603882, "grad_norm": 0.3690221607685089, "learning_rate": 0.000284158082534743, "token_acc": 0.4840514829322888, "epoch": 0.6531361082444673, "step": 1424}, {"loss": 2.409961223602295, "grad_norm": 0.32961729168891907, "learning_rate": 0.00028348839298618177, "token_acc": 0.4923033865099356, "epoch": 0.6535947712418301, "step": 1425}, {"loss": 2.3331186771392822, "grad_norm": 0.36671754717826843, "learning_rate": 0.0002828191811429709, "token_acc": 0.48568220101066817, "epoch": 0.6540534342391927, "step": 1426}, {"loss": 2.3296186923980713, "grad_norm": 0.3420977294445038, "learning_rate": 0.00028215044848164164, "token_acc": 0.4990285872883708, "epoch": 0.6545120972365555, "step": 1427}, {"loss": 2.3316245079040527, "grad_norm": 0.366384357213974, "learning_rate": 0.00028148219647766747, "token_acc": 0.4860879243183083, "epoch": 0.6549707602339181, "step": 1428}, {"loss": 2.351372718811035, "grad_norm": 0.3466300964355469, "learning_rate": 0.00028081442660546124, "token_acc": 0.48840885142255, "epoch": 0.6554294232312808, "step": 1429}, {"loss": 2.2421576976776123, "grad_norm": 0.35693174600601196, "learning_rate": 0.0002801471403383728, "token_acc": 0.5137666761282997, "epoch": 0.6558880862286435, "step": 1430}, {"loss": 2.4301934242248535, "grad_norm": 0.3414236605167389, "learning_rate": 0.00027948033914868415, "token_acc": 0.4856265699134803, "epoch": 0.6563467492260062, "step": 1431}, {"loss": 2.3740975856781006, "grad_norm": 0.35659992694854736, "learning_rate": 0.00027881402450760775, "token_acc": 0.47794316644113666, "epoch": 0.6568054122233689, "step": 1432}, {"loss": 2.3557310104370117, "grad_norm": 0.343971312046051, "learning_rate": 0.00027814819788528165, "token_acc": 0.4925671812464265, "epoch": 0.6572640752207316, "step": 1433}, {"loss": 2.341397762298584, "grad_norm": 0.3552509546279907, "learning_rate": 0.00027748286075076836, "token_acc": 0.48632218844984804, "epoch": 0.6577227382180942, "step": 1434}, {"loss": 2.49971866607666, "grad_norm": 0.3441976308822632, "learning_rate": 0.00027681801457204937, "token_acc": 0.4703081232492997, "epoch": 0.658181401215457, "step": 1435}, {"loss": 2.3934743404388428, "grad_norm": 0.3290027379989624, "learning_rate": 0.00027615366081602306, "token_acc": 0.4864714086471409, "epoch": 0.6586400642128196, "step": 1436}, {"loss": 2.2465310096740723, "grad_norm": 0.34579387307167053, "learning_rate": 0.0002754898009485021, "token_acc": 0.5097265294615168, "epoch": 0.6590987272101824, "step": 1437}, {"loss": 2.311438798904419, "grad_norm": 0.35806840658187866, "learning_rate": 0.0002748264364342085, "token_acc": 0.49018492176386913, "epoch": 0.659557390207545, "step": 1438}, {"loss": 2.428553581237793, "grad_norm": 0.3430219888687134, "learning_rate": 0.00027416356873677204, "token_acc": 0.48353169111541655, "epoch": 0.6600160532049077, "step": 1439}, {"loss": 2.3328959941864014, "grad_norm": 0.3332395851612091, "learning_rate": 0.0002735011993187258, "token_acc": 0.4924487594390507, "epoch": 0.6604747162022704, "step": 1440}, {"loss": 2.4805774688720703, "grad_norm": 0.3400273323059082, "learning_rate": 0.0002728393296415042, "token_acc": 0.4797752808988764, "epoch": 0.660933379199633, "step": 1441}, {"loss": 2.3786067962646484, "grad_norm": 0.3502805829048157, "learning_rate": 0.00027217796116543817, "token_acc": 0.48995756718528993, "epoch": 0.6613920421969958, "step": 1442}, {"loss": 2.3213648796081543, "grad_norm": 0.34918177127838135, "learning_rate": 0.0002715170953497532, "token_acc": 0.49514563106796117, "epoch": 0.6618507051943584, "step": 1443}, {"loss": 2.2478604316711426, "grad_norm": 0.33220669627189636, "learning_rate": 0.00027085673365256614, "token_acc": 0.5077363896848137, "epoch": 0.6623093681917211, "step": 1444}, {"loss": 2.320185422897339, "grad_norm": 0.3283640444278717, "learning_rate": 0.00027019687753088075, "token_acc": 0.49673024523160764, "epoch": 0.6627680311890838, "step": 1445}, {"loss": 2.4039063453674316, "grad_norm": 0.3232027590274811, "learning_rate": 0.00026953752844058597, "token_acc": 0.4829763866007688, "epoch": 0.6632266941864465, "step": 1446}, {"loss": 2.453993320465088, "grad_norm": 0.33459722995758057, "learning_rate": 0.0002688786878364516, "token_acc": 0.481709019826864, "epoch": 0.6636853571838092, "step": 1447}, {"loss": 2.2776594161987305, "grad_norm": 0.36151182651519775, "learning_rate": 0.00026822035717212597, "token_acc": 0.4980737479361585, "epoch": 0.6641440201811719, "step": 1448}, {"loss": 2.382157802581787, "grad_norm": 0.32229289412498474, "learning_rate": 0.00026756253790013193, "token_acc": 0.48841698841698844, "epoch": 0.6646026831785345, "step": 1449}, {"loss": 2.245457649230957, "grad_norm": 0.33439067006111145, "learning_rate": 0.0002669052314718641, "token_acc": 0.5142615080485738, "epoch": 0.6650613461758973, "step": 1450}, {"loss": 2.3664112091064453, "grad_norm": 0.3386085033416748, "learning_rate": 0.0002662484393375855, "token_acc": 0.4907563025210084, "epoch": 0.6655200091732599, "step": 1451}, {"loss": 2.3397302627563477, "grad_norm": 0.3545595109462738, "learning_rate": 0.00026559216294642446, "token_acc": 0.4932001110185956, "epoch": 0.6659786721706227, "step": 1452}, {"loss": 2.4264748096466064, "grad_norm": 0.32552570104599, "learning_rate": 0.0002649364037463718, "token_acc": 0.48099829835507657, "epoch": 0.6664373351679853, "step": 1453}, {"loss": 2.4170119762420654, "grad_norm": 0.3284744918346405, "learning_rate": 0.0002642811631842764, "token_acc": 0.48072051787222064, "epoch": 0.6668959981653481, "step": 1454}, {"loss": 2.377608299255371, "grad_norm": 0.32984036207199097, "learning_rate": 0.0002636264427058439, "token_acc": 0.49892066918510525, "epoch": 0.6673546611627107, "step": 1455}, {"loss": 2.2463531494140625, "grad_norm": 0.34834277629852295, "learning_rate": 0.00026297224375563123, "token_acc": 0.5002875215641173, "epoch": 0.6678133241600734, "step": 1456}, {"loss": 2.4062135219573975, "grad_norm": 0.3299846053123474, "learning_rate": 0.00026231856777704575, "token_acc": 0.4804088586030664, "epoch": 0.6682719871574361, "step": 1457}, {"loss": 2.3280835151672363, "grad_norm": 0.36206936836242676, "learning_rate": 0.00026166541621234026, "token_acc": 0.5056147422977253, "epoch": 0.6687306501547987, "step": 1458}, {"loss": 2.3709912300109863, "grad_norm": 0.3462112247943878, "learning_rate": 0.00026101279050261045, "token_acc": 0.4866876610363584, "epoch": 0.6691893131521615, "step": 1459}, {"loss": 2.3098535537719727, "grad_norm": 0.3350227177143097, "learning_rate": 0.00026036069208779247, "token_acc": 0.5071488645920942, "epoch": 0.6696479761495241, "step": 1460}, {"loss": 2.4417033195495605, "grad_norm": 0.35411742329597473, "learning_rate": 0.0002597091224066581, "token_acc": 0.47085806799784136, "epoch": 0.6701066391468868, "step": 1461}, {"loss": 2.261319160461426, "grad_norm": 0.3361799120903015, "learning_rate": 0.00025905808289681365, "token_acc": 0.507722549845549, "epoch": 0.6705653021442495, "step": 1462}, {"loss": 2.4379801750183105, "grad_norm": 0.36045587062835693, "learning_rate": 0.0002584075749946946, "token_acc": 0.48335183129855713, "epoch": 0.6710239651416122, "step": 1463}, {"loss": 2.475827217102051, "grad_norm": 0.3445369303226471, "learning_rate": 0.00025775760013556424, "token_acc": 0.47835926449787836, "epoch": 0.6714826281389749, "step": 1464}, {"loss": 2.498302936553955, "grad_norm": 0.3342587947845459, "learning_rate": 0.0002571081597535095, "token_acc": 0.46957708049113234, "epoch": 0.6719412911363376, "step": 1465}, {"loss": 2.397772789001465, "grad_norm": 0.32142579555511475, "learning_rate": 0.00025645925528143776, "token_acc": 0.4822791712104689, "epoch": 0.6723999541337002, "step": 1466}, {"loss": 2.501614809036255, "grad_norm": 0.3359048068523407, "learning_rate": 0.0002558108881510747, "token_acc": 0.46936008676789587, "epoch": 0.672858617131063, "step": 1467}, {"loss": 2.350132942199707, "grad_norm": 0.328414648771286, "learning_rate": 0.00025516305979295963, "token_acc": 0.49167349167349167, "epoch": 0.6733172801284256, "step": 1468}, {"loss": 2.3491439819335938, "grad_norm": 0.327379435300827, "learning_rate": 0.0002545157716364439, "token_acc": 0.5065075921908894, "epoch": 0.6737759431257884, "step": 1469}, {"loss": 2.3576996326446533, "grad_norm": 0.34349262714385986, "learning_rate": 0.00025386902510968624, "token_acc": 0.4818005001389275, "epoch": 0.674234606123151, "step": 1470}, {"loss": 2.302304744720459, "grad_norm": 0.3329917788505554, "learning_rate": 0.00025322282163965095, "token_acc": 0.5014269406392694, "epoch": 0.6746932691205138, "step": 1471}, {"loss": 2.515772581100464, "grad_norm": 0.3439604640007019, "learning_rate": 0.00025257716265210384, "token_acc": 0.4589358799454297, "epoch": 0.6751519321178764, "step": 1472}, {"loss": 2.254587173461914, "grad_norm": 0.34442853927612305, "learning_rate": 0.0002519320495716091, "token_acc": 0.514854260089686, "epoch": 0.6756105951152391, "step": 1473}, {"loss": 2.350156784057617, "grad_norm": 0.33922451734542847, "learning_rate": 0.00025128748382152716, "token_acc": 0.475619949846754, "epoch": 0.6760692581126018, "step": 1474}, {"loss": 2.2954864501953125, "grad_norm": 0.3449372947216034, "learning_rate": 0.00025064346682401016, "token_acc": 0.4883116883116883, "epoch": 0.6765279211099644, "step": 1475}, {"loss": 2.285968065261841, "grad_norm": 0.33519020676612854, "learning_rate": 0.0002500000000000001, "token_acc": 0.49436348638988176, "epoch": 0.6769865841073271, "step": 1476}, {"loss": 2.3989076614379883, "grad_norm": 0.366726279258728, "learning_rate": 0.0002493570847692246, "token_acc": 0.48774795799299886, "epoch": 0.6774452471046898, "step": 1477}, {"loss": 2.466765880584717, "grad_norm": 0.35372060537338257, "learning_rate": 0.00024871472255019424, "token_acc": 0.46937590711175614, "epoch": 0.6779039101020525, "step": 1478}, {"loss": 2.4246630668640137, "grad_norm": 0.35887521505355835, "learning_rate": 0.00024807291476019994, "token_acc": 0.48754951895868703, "epoch": 0.6783625730994152, "step": 1479}, {"loss": 2.2123970985412598, "grad_norm": 0.3558376431465149, "learning_rate": 0.00024743166281530877, "token_acc": 0.5213283710277699, "epoch": 0.6788212360967779, "step": 1480}, {"loss": 2.412726640701294, "grad_norm": 0.3533353805541992, "learning_rate": 0.000246790968130362, "token_acc": 0.47968430283542823, "epoch": 0.6792798990941405, "step": 1481}, {"loss": 2.3070504665374756, "grad_norm": 0.338015615940094, "learning_rate": 0.0002461508321189706, "token_acc": 0.4854341736694678, "epoch": 0.6797385620915033, "step": 1482}, {"loss": 2.454956531524658, "grad_norm": 0.3468375504016876, "learning_rate": 0.00024551125619351385, "token_acc": 0.4814106068890104, "epoch": 0.6801972250888659, "step": 1483}, {"loss": 2.303147315979004, "grad_norm": 0.31844574213027954, "learning_rate": 0.00024487224176513453, "token_acc": 0.48534385569334837, "epoch": 0.6806558880862287, "step": 1484}, {"loss": 2.339278221130371, "grad_norm": 0.313986599445343, "learning_rate": 0.0002442337902437365, "token_acc": 0.5069817400644469, "epoch": 0.6811145510835913, "step": 1485}, {"loss": 2.229948043823242, "grad_norm": 0.3568921685218811, "learning_rate": 0.0002435959030379824, "token_acc": 0.5117331071529545, "epoch": 0.6815732140809541, "step": 1486}, {"loss": 2.3662681579589844, "grad_norm": 0.34503602981567383, "learning_rate": 0.00024295858155528888, "token_acc": 0.4761251372118551, "epoch": 0.6820318770783167, "step": 1487}, {"loss": 2.429936408996582, "grad_norm": 0.35981976985931396, "learning_rate": 0.00024232182720182523, "token_acc": 0.479343520090549, "epoch": 0.6824905400756794, "step": 1488}, {"loss": 2.4169921875, "grad_norm": 0.35146617889404297, "learning_rate": 0.00024168564138250855, "token_acc": 0.48028477546549836, "epoch": 0.6829492030730421, "step": 1489}, {"loss": 2.2379231452941895, "grad_norm": 0.338421106338501, "learning_rate": 0.00024105002550100246, "token_acc": 0.5088534107402032, "epoch": 0.6834078660704048, "step": 1490}, {"loss": 2.387535333633423, "grad_norm": 0.3549973964691162, "learning_rate": 0.00024041498095971254, "token_acc": 0.4848569046957488, "epoch": 0.6838665290677675, "step": 1491}, {"loss": 2.4333364963531494, "grad_norm": 0.3511679768562317, "learning_rate": 0.0002397805091597835, "token_acc": 0.48010973936899864, "epoch": 0.6843251920651301, "step": 1492}, {"loss": 2.326216697692871, "grad_norm": 0.355552077293396, "learning_rate": 0.0002391466115010973, "token_acc": 0.48661731207289294, "epoch": 0.6847838550624928, "step": 1493}, {"loss": 2.3644156455993652, "grad_norm": 0.3562723994255066, "learning_rate": 0.00023851328938226808, "token_acc": 0.497971328103868, "epoch": 0.6852425180598555, "step": 1494}, {"loss": 2.3610994815826416, "grad_norm": 0.32964444160461426, "learning_rate": 0.00023788054420064109, "token_acc": 0.4924565898092798, "epoch": 0.6857011810572182, "step": 1495}, {"loss": 2.3160383701324463, "grad_norm": 0.37209513783454895, "learning_rate": 0.00023724837735228773, "token_acc": 0.49870354364736386, "epoch": 0.6861598440545809, "step": 1496}, {"loss": 2.201646327972412, "grad_norm": 0.32344546914100647, "learning_rate": 0.00023661679023200422, "token_acc": 0.5107933837959069, "epoch": 0.6866185070519436, "step": 1497}, {"loss": 2.4933509826660156, "grad_norm": 0.32305777072906494, "learning_rate": 0.00023598578423330714, "token_acc": 0.46548004314994607, "epoch": 0.6870771700493062, "step": 1498}, {"loss": 2.3102240562438965, "grad_norm": 0.3323233723640442, "learning_rate": 0.00023535536074843083, "token_acc": 0.49496872450367146, "epoch": 0.687535833046669, "step": 1499}, {"loss": 2.514124870300293, "grad_norm": 0.334379106760025, "learning_rate": 0.00023472552116832502, "token_acc": 0.4649545211342964, "epoch": 0.6879944960440316, "step": 1500}, {"loss": 2.369551181793213, "grad_norm": 0.32077348232269287, "learning_rate": 0.0002340962668826503, "token_acc": 0.48006833712984054, "epoch": 0.6884531590413944, "step": 1501}, {"loss": 2.363593578338623, "grad_norm": 0.3339844346046448, "learning_rate": 0.00023346759927977663, "token_acc": 0.4962901896125309, "epoch": 0.688911822038757, "step": 1502}, {"loss": 2.3581886291503906, "grad_norm": 0.33760666847229004, "learning_rate": 0.0002328395197467789, "token_acc": 0.490862364363221, "epoch": 0.6893704850361198, "step": 1503}, {"loss": 2.400117874145508, "grad_norm": 0.3430006504058838, "learning_rate": 0.00023221202966943515, "token_acc": 0.48106591865357645, "epoch": 0.6898291480334824, "step": 1504}, {"loss": 2.3944246768951416, "grad_norm": 0.31739991903305054, "learning_rate": 0.0002315851304322223, "token_acc": 0.49172642029784885, "epoch": 0.6902878110308451, "step": 1505}, {"loss": 2.327662467956543, "grad_norm": 0.3356907367706299, "learning_rate": 0.0002309588234183137, "token_acc": 0.4897959183673469, "epoch": 0.6907464740282078, "step": 1506}, {"loss": 2.3485326766967773, "grad_norm": 0.337432324886322, "learning_rate": 0.00023033311000957653, "token_acc": 0.4802213001383126, "epoch": 0.6912051370255705, "step": 1507}, {"loss": 2.3862409591674805, "grad_norm": 0.35430288314819336, "learning_rate": 0.00022970799158656758, "token_acc": 0.4883788495061011, "epoch": 0.6916638000229332, "step": 1508}, {"loss": 2.318734884262085, "grad_norm": 0.3189259469509125, "learning_rate": 0.0002290834695285316, "token_acc": 0.5015641293013556, "epoch": 0.6921224630202958, "step": 1509}, {"loss": 2.3482823371887207, "grad_norm": 0.3486538529396057, "learning_rate": 0.00022845954521339678, "token_acc": 0.48900789177001125, "epoch": 0.6925811260176585, "step": 1510}, {"loss": 2.417691230773926, "grad_norm": 0.35996153950691223, "learning_rate": 0.0002278362200177732, "token_acc": 0.48901569186875893, "epoch": 0.6930397890150212, "step": 1511}, {"loss": 2.315305709838867, "grad_norm": 0.3472958207130432, "learning_rate": 0.00022721349531694852, "token_acc": 0.49136008918617613, "epoch": 0.6934984520123839, "step": 1512}, {"loss": 2.3845529556274414, "grad_norm": 0.3579290509223938, "learning_rate": 0.0002265913724848855, "token_acc": 0.4862791383889053, "epoch": 0.6939571150097466, "step": 1513}, {"loss": 2.4838666915893555, "grad_norm": 0.3245769739151001, "learning_rate": 0.00022596985289421946, "token_acc": 0.4803063457330416, "epoch": 0.6944157780071093, "step": 1514}, {"loss": 2.355891466140747, "grad_norm": 0.3510947823524475, "learning_rate": 0.00022534893791625405, "token_acc": 0.49679397825480903, "epoch": 0.6948744410044719, "step": 1515}, {"loss": 2.4002974033355713, "grad_norm": 0.327653169631958, "learning_rate": 0.00022472862892095968, "token_acc": 0.4853392907009215, "epoch": 0.6953331040018347, "step": 1516}, {"loss": 2.4073326587677, "grad_norm": 0.32736408710479736, "learning_rate": 0.00022410892727696896, "token_acc": 0.4921304103428893, "epoch": 0.6957917669991973, "step": 1517}, {"loss": 2.4565858840942383, "grad_norm": 0.3398886024951935, "learning_rate": 0.0002234898343515751, "token_acc": 0.4765854963874766, "epoch": 0.6962504299965601, "step": 1518}, {"loss": 2.3410589694976807, "grad_norm": 0.3381604552268982, "learning_rate": 0.00022287135151072792, "token_acc": 0.4873125720876586, "epoch": 0.6967090929939227, "step": 1519}, {"loss": 2.3413262367248535, "grad_norm": 0.34329554438591003, "learning_rate": 0.00022225348011903096, "token_acc": 0.49366375668825685, "epoch": 0.6971677559912854, "step": 1520}, {"loss": 2.3659088611602783, "grad_norm": 0.32418933510780334, "learning_rate": 0.0002216362215397393, "token_acc": 0.4886082898709854, "epoch": 0.6976264189886481, "step": 1521}, {"loss": 2.352426290512085, "grad_norm": 0.3371358811855316, "learning_rate": 0.00022101957713475522, "token_acc": 0.4858125537403267, "epoch": 0.6980850819860108, "step": 1522}, {"loss": 2.4209957122802734, "grad_norm": 0.33461418747901917, "learning_rate": 0.00022040354826462666, "token_acc": 0.4801223241590214, "epoch": 0.6985437449833735, "step": 1523}, {"loss": 2.3614234924316406, "grad_norm": 0.33934280276298523, "learning_rate": 0.0002197881362885426, "token_acc": 0.49208515283842796, "epoch": 0.6990024079807362, "step": 1524}, {"loss": 2.3257555961608887, "grad_norm": 0.3302291929721832, "learning_rate": 0.0002191733425643318, "token_acc": 0.5002832861189802, "epoch": 0.6994610709780988, "step": 1525}, {"loss": 2.3069403171539307, "grad_norm": 0.3377806842327118, "learning_rate": 0.00021855916844845826, "token_acc": 0.49720982142857145, "epoch": 0.6999197339754615, "step": 1526}, {"loss": 2.3746275901794434, "grad_norm": 0.3423719108104706, "learning_rate": 0.00021794561529601898, "token_acc": 0.48451576576576577, "epoch": 0.7003783969728242, "step": 1527}, {"loss": 2.2250373363494873, "grad_norm": 0.35406455397605896, "learning_rate": 0.00021733268446074138, "token_acc": 0.5114893617021277, "epoch": 0.7008370599701869, "step": 1528}, {"loss": 2.437242269515991, "grad_norm": 0.3499007225036621, "learning_rate": 0.00021672037729497917, "token_acc": 0.48740658732355385, "epoch": 0.7012957229675496, "step": 1529}, {"loss": 2.425785541534424, "grad_norm": 0.3445296585559845, "learning_rate": 0.0002161086951497106, "token_acc": 0.4908503767491927, "epoch": 0.7017543859649122, "step": 1530}, {"loss": 2.3834478855133057, "grad_norm": 0.3611782193183899, "learning_rate": 0.00021549763937453442, "token_acc": 0.4848153214774282, "epoch": 0.702213048962275, "step": 1531}, {"loss": 2.257786273956299, "grad_norm": 0.3537669777870178, "learning_rate": 0.00021488721131766736, "token_acc": 0.5002805836139169, "epoch": 0.7026717119596376, "step": 1532}, {"loss": 2.386030912399292, "grad_norm": 0.343782901763916, "learning_rate": 0.00021427741232594183, "token_acc": 0.47651195499296767, "epoch": 0.7031303749570004, "step": 1533}, {"loss": 2.3823487758636475, "grad_norm": 0.3596150875091553, "learning_rate": 0.0002136682437448013, "token_acc": 0.4835408022130014, "epoch": 0.703589037954363, "step": 1534}, {"loss": 2.4964325428009033, "grad_norm": 0.35633689165115356, "learning_rate": 0.0002130597069182994, "token_acc": 0.4711348915798367, "epoch": 0.7040477009517258, "step": 1535}, {"loss": 2.4514927864074707, "grad_norm": 0.35173147916793823, "learning_rate": 0.0002124518031890948, "token_acc": 0.47945945945945945, "epoch": 0.7045063639490884, "step": 1536}, {"loss": 2.3340044021606445, "grad_norm": 0.316037654876709, "learning_rate": 0.0002118445338984502, "token_acc": 0.48456449834619625, "epoch": 0.7049650269464511, "step": 1537}, {"loss": 2.297034978866577, "grad_norm": 0.3303672969341278, "learning_rate": 0.00021123790038622808, "token_acc": 0.5033670033670034, "epoch": 0.7054236899438138, "step": 1538}, {"loss": 2.3945984840393066, "grad_norm": 0.34590238332748413, "learning_rate": 0.0002106319039908879, "token_acc": 0.49217002237136465, "epoch": 0.7058823529411765, "step": 1539}, {"loss": 2.2335052490234375, "grad_norm": 0.3515450060367584, "learning_rate": 0.00021002654604948412, "token_acc": 0.5028216704288939, "epoch": 0.7063410159385392, "step": 1540}, {"loss": 2.2620928287506104, "grad_norm": 0.35775527358055115, "learning_rate": 0.00020942182789766172, "token_acc": 0.5074879909578978, "epoch": 0.7067996789359019, "step": 1541}, {"loss": 2.3670907020568848, "grad_norm": 0.3592069745063782, "learning_rate": 0.00020881775086965492, "token_acc": 0.4849072279147051, "epoch": 0.7072583419332645, "step": 1542}, {"loss": 2.398244857788086, "grad_norm": 0.32948219776153564, "learning_rate": 0.00020821431629828246, "token_acc": 0.4889253486464315, "epoch": 0.7077170049306272, "step": 1543}, {"loss": 2.2044475078582764, "grad_norm": 0.3307759463787079, "learning_rate": 0.00020761152551494643, "token_acc": 0.5060406370126305, "epoch": 0.7081756679279899, "step": 1544}, {"loss": 2.3607406616210938, "grad_norm": 0.3441196084022522, "learning_rate": 0.00020700937984962798, "token_acc": 0.49596437517394937, "epoch": 0.7086343309253526, "step": 1545}, {"loss": 2.3864150047302246, "grad_norm": 0.3729856610298157, "learning_rate": 0.0002064078806308848, "token_acc": 0.49802594472645234, "epoch": 0.7090929939227153, "step": 1546}, {"loss": 2.330585479736328, "grad_norm": 0.3341358006000519, "learning_rate": 0.00020580702918584882, "token_acc": 0.49930843706777317, "epoch": 0.7095516569200779, "step": 1547}, {"loss": 2.2961018085479736, "grad_norm": 0.35409462451934814, "learning_rate": 0.000205206826840222, "token_acc": 0.503919372900336, "epoch": 0.7100103199174407, "step": 1548}, {"loss": 2.4137563705444336, "grad_norm": 0.3554162085056305, "learning_rate": 0.0002046072749182751, "token_acc": 0.47774979009235935, "epoch": 0.7104689829148033, "step": 1549}, {"loss": 2.280057191848755, "grad_norm": 0.34207361936569214, "learning_rate": 0.00020400837474284273, "token_acc": 0.49105080831408776, "epoch": 0.7109276459121661, "step": 1550}, {"loss": 2.4710445404052734, "grad_norm": 0.33347874879837036, "learning_rate": 0.0002034101276353224, "token_acc": 0.483665799363978, "epoch": 0.7113863089095287, "step": 1551}, {"loss": 2.452528476715088, "grad_norm": 0.3239796459674835, "learning_rate": 0.00020281253491567027, "token_acc": 0.4867584745762712, "epoch": 0.7118449719068914, "step": 1552}, {"loss": 2.2803030014038086, "grad_norm": 0.3422119915485382, "learning_rate": 0.0002022155979023984, "token_acc": 0.5076380728554641, "epoch": 0.7123036349042541, "step": 1553}, {"loss": 2.3245232105255127, "grad_norm": 0.3353760242462158, "learning_rate": 0.000201619317912573, "token_acc": 0.4958768554150632, "epoch": 0.7127622979016168, "step": 1554}, {"loss": 2.4467058181762695, "grad_norm": 0.3413839638233185, "learning_rate": 0.00020102369626180962, "token_acc": 0.4770065695515567, "epoch": 0.7132209608989795, "step": 1555}, {"loss": 2.2656667232513428, "grad_norm": 0.33466485142707825, "learning_rate": 0.0002004287342642721, "token_acc": 0.5104052573932092, "epoch": 0.7136796238963422, "step": 1556}, {"loss": 2.381321668624878, "grad_norm": 0.3264230489730835, "learning_rate": 0.00019983443323266824, "token_acc": 0.47438063063063063, "epoch": 0.7141382868937048, "step": 1557}, {"loss": 2.3830809593200684, "grad_norm": 0.3395976424217224, "learning_rate": 0.00019924079447824805, "token_acc": 0.5017064846416383, "epoch": 0.7145969498910676, "step": 1558}, {"loss": 2.341043710708618, "grad_norm": 0.3445148766040802, "learning_rate": 0.00019864781931079977, "token_acc": 0.4858106209609441, "epoch": 0.7150556128884302, "step": 1559}, {"loss": 2.412588596343994, "grad_norm": 0.35488107800483704, "learning_rate": 0.00019805550903864773, "token_acc": 0.504206393718452, "epoch": 0.7155142758857929, "step": 1560}, {"loss": 2.461543321609497, "grad_norm": 0.3293531835079193, "learning_rate": 0.00019746386496864948, "token_acc": 0.47377232142857145, "epoch": 0.7159729388831556, "step": 1561}, {"loss": 2.372575283050537, "grad_norm": 0.3348361849784851, "learning_rate": 0.00019687288840619226, "token_acc": 0.49392265193370166, "epoch": 0.7164316018805182, "step": 1562}, {"loss": 2.3713603019714355, "grad_norm": 0.3561291992664337, "learning_rate": 0.0001962825806551911, "token_acc": 0.4826606026151222, "epoch": 0.716890264877881, "step": 1563}, {"loss": 2.372830390930176, "grad_norm": 0.3244268596172333, "learning_rate": 0.0001956929430180846, "token_acc": 0.5014140271493213, "epoch": 0.7173489278752436, "step": 1564}, {"loss": 2.3227691650390625, "grad_norm": 0.34590813517570496, "learning_rate": 0.00019510397679583374, "token_acc": 0.49501566505269157, "epoch": 0.7178075908726064, "step": 1565}, {"loss": 2.3720040321350098, "grad_norm": 0.3508793115615845, "learning_rate": 0.0001945156832879174, "token_acc": 0.49654178674351584, "epoch": 0.718266253869969, "step": 1566}, {"loss": 2.276287078857422, "grad_norm": 0.3506203293800354, "learning_rate": 0.00019392806379233036, "token_acc": 0.5031500572737686, "epoch": 0.7187249168673318, "step": 1567}, {"loss": 2.350778102874756, "grad_norm": 0.33903056383132935, "learning_rate": 0.00019334111960558065, "token_acc": 0.49257567104511707, "epoch": 0.7191835798646944, "step": 1568}, {"loss": 2.421555519104004, "grad_norm": 0.3471570611000061, "learning_rate": 0.00019275485202268573, "token_acc": 0.4855332047395977, "epoch": 0.7196422428620571, "step": 1569}, {"loss": 2.3653883934020996, "grad_norm": 0.3496105968952179, "learning_rate": 0.00019216926233717085, "token_acc": 0.5016602102933038, "epoch": 0.7201009058594198, "step": 1570}, {"loss": 2.3865904808044434, "grad_norm": 0.33393850922584534, "learning_rate": 0.00019158435184106498, "token_acc": 0.48361581920903957, "epoch": 0.7205595688567825, "step": 1571}, {"loss": 2.3554043769836426, "grad_norm": 0.3244492709636688, "learning_rate": 0.00019100012182489905, "token_acc": 0.5023842917251052, "epoch": 0.7210182318541452, "step": 1572}, {"loss": 2.2677834033966064, "grad_norm": 0.3523988425731659, "learning_rate": 0.00019041657357770226, "token_acc": 0.49451754385964913, "epoch": 0.7214768948515079, "step": 1573}, {"loss": 2.3781309127807617, "grad_norm": 0.34086042642593384, "learning_rate": 0.00018983370838699943, "token_acc": 0.4931506849315068, "epoch": 0.7219355578488705, "step": 1574}, {"loss": 2.3204708099365234, "grad_norm": 0.34232792258262634, "learning_rate": 0.00018925152753880892, "token_acc": 0.4876875176903481, "epoch": 0.7223942208462333, "step": 1575}, {"loss": 2.368988513946533, "grad_norm": 0.3605189025402069, "learning_rate": 0.00018867003231763847, "token_acc": 0.4879089615931721, "epoch": 0.7228528838435959, "step": 1576}, {"loss": 2.3541975021362305, "grad_norm": 0.3460288643836975, "learning_rate": 0.00018808922400648375, "token_acc": 0.4983277591973244, "epoch": 0.7233115468409586, "step": 1577}, {"loss": 2.3728508949279785, "grad_norm": 0.353070467710495, "learning_rate": 0.00018750910388682428, "token_acc": 0.4813867576015914, "epoch": 0.7237702098383213, "step": 1578}, {"loss": 2.3066554069519043, "grad_norm": 0.33050358295440674, "learning_rate": 0.00018692967323862125, "token_acc": 0.4960254372019078, "epoch": 0.7242288728356839, "step": 1579}, {"loss": 2.3048601150512695, "grad_norm": 0.3250425457954407, "learning_rate": 0.00018635093334031517, "token_acc": 0.5002715915263444, "epoch": 0.7246875358330467, "step": 1580}, {"loss": 2.3339643478393555, "grad_norm": 0.3314255475997925, "learning_rate": 0.00018577288546882165, "token_acc": 0.4863146253801493, "epoch": 0.7251461988304093, "step": 1581}, {"loss": 2.338585615158081, "grad_norm": 0.3297326862812042, "learning_rate": 0.00018519553089953023, "token_acc": 0.4910414333706607, "epoch": 0.7256048618277721, "step": 1582}, {"loss": 2.3846006393432617, "grad_norm": 0.32463183999061584, "learning_rate": 0.0001846188709063001, "token_acc": 0.4976705946834749, "epoch": 0.7260635248251347, "step": 1583}, {"loss": 2.3555126190185547, "grad_norm": 0.3435765206813812, "learning_rate": 0.00018404290676145857, "token_acc": 0.4963687150837989, "epoch": 0.7265221878224974, "step": 1584}, {"loss": 2.3701300621032715, "grad_norm": 0.34066885709762573, "learning_rate": 0.00018346763973579722, "token_acc": 0.48135964912280704, "epoch": 0.7269808508198601, "step": 1585}, {"loss": 2.4006075859069824, "grad_norm": 0.3243306875228882, "learning_rate": 0.00018289307109856939, "token_acc": 0.4846322722283205, "epoch": 0.7274395138172228, "step": 1586}, {"loss": 2.216521739959717, "grad_norm": 0.33059221506118774, "learning_rate": 0.0001823192021174882, "token_acc": 0.5285921625544268, "epoch": 0.7278981768145855, "step": 1587}, {"loss": 2.277677059173584, "grad_norm": 0.33596155047416687, "learning_rate": 0.0001817460340587223, "token_acc": 0.4951130969003072, "epoch": 0.7283568398119482, "step": 1588}, {"loss": 2.3130226135253906, "grad_norm": 0.336929589509964, "learning_rate": 0.00018117356818689445, "token_acc": 0.48497380755445274, "epoch": 0.7288155028093108, "step": 1589}, {"loss": 2.337327241897583, "grad_norm": 0.3248392939567566, "learning_rate": 0.00018060180576507756, "token_acc": 0.4871099050203528, "epoch": 0.7292741658066736, "step": 1590}, {"loss": 2.3693339824676514, "grad_norm": 0.3442942798137665, "learning_rate": 0.00018003074805479313, "token_acc": 0.49700598802395207, "epoch": 0.7297328288040362, "step": 1591}, {"loss": 2.255974769592285, "grad_norm": 0.33692827820777893, "learning_rate": 0.00017946039631600724, "token_acc": 0.5011148272017837, "epoch": 0.730191491801399, "step": 1592}, {"loss": 2.3173365592956543, "grad_norm": 0.3444417715072632, "learning_rate": 0.00017889075180712837, "token_acc": 0.48885172798216275, "epoch": 0.7306501547987616, "step": 1593}, {"loss": 2.346073627471924, "grad_norm": 0.33369556069374084, "learning_rate": 0.00017832181578500512, "token_acc": 0.4939385396109388, "epoch": 0.7311088177961242, "step": 1594}, {"loss": 2.3433032035827637, "grad_norm": 0.33577340841293335, "learning_rate": 0.0001777535895049221, "token_acc": 0.48551724137931035, "epoch": 0.731567480793487, "step": 1595}, {"loss": 2.2765822410583496, "grad_norm": 0.3291725516319275, "learning_rate": 0.0001771860742205988, "token_acc": 0.5020990764063812, "epoch": 0.7320261437908496, "step": 1596}, {"loss": 2.312075138092041, "grad_norm": 0.376070111989975, "learning_rate": 0.00017661927118418525, "token_acc": 0.4989974219421369, "epoch": 0.7324848067882124, "step": 1597}, {"loss": 2.277297019958496, "grad_norm": 0.3297310173511505, "learning_rate": 0.00017605318164626066, "token_acc": 0.49313533202577753, "epoch": 0.732943469785575, "step": 1598}, {"loss": 2.226576328277588, "grad_norm": 0.3394879698753357, "learning_rate": 0.00017548780685582949, "token_acc": 0.5138967668746455, "epoch": 0.7334021327829378, "step": 1599}, {"loss": 2.3251333236694336, "grad_norm": 0.34047818183898926, "learning_rate": 0.00017492314806031922, "token_acc": 0.5018471156578573, "epoch": 0.7338607957803004, "step": 1600}, {"loss": 2.4146299362182617, "grad_norm": 0.3686220645904541, "learning_rate": 0.00017435920650557806, "token_acc": 0.48309583682592905, "epoch": 0.7343194587776631, "step": 1601}, {"loss": 2.2951266765594482, "grad_norm": 0.358632892370224, "learning_rate": 0.00017379598343587112, "token_acc": 0.491167101071532, "epoch": 0.7347781217750258, "step": 1602}, {"loss": 2.3231122493743896, "grad_norm": 0.34073421359062195, "learning_rate": 0.00017323348009387878, "token_acc": 0.5013269639065817, "epoch": 0.7352367847723885, "step": 1603}, {"loss": 2.3894424438476562, "grad_norm": 0.3511035442352295, "learning_rate": 0.0001726716977206929, "token_acc": 0.4972482113373693, "epoch": 0.7356954477697512, "step": 1604}, {"loss": 2.395988941192627, "grad_norm": 0.3712899386882782, "learning_rate": 0.00017211063755581525, "token_acc": 0.48674080410607357, "epoch": 0.7361541107671139, "step": 1605}, {"loss": 2.4531800746917725, "grad_norm": 0.36385780572891235, "learning_rate": 0.0001715503008371536, "token_acc": 0.4788051209103841, "epoch": 0.7366127737644765, "step": 1606}, {"loss": 2.358290672302246, "grad_norm": 0.33243218064308167, "learning_rate": 0.0001709906888010196, "token_acc": 0.4898346435348333, "epoch": 0.7370714367618393, "step": 1607}, {"loss": 2.4274001121520996, "grad_norm": 0.3312876522541046, "learning_rate": 0.00017043180268212638, "token_acc": 0.48547149122807015, "epoch": 0.7375300997592019, "step": 1608}, {"loss": 2.2879250049591064, "grad_norm": 0.3236379027366638, "learning_rate": 0.00016987364371358481, "token_acc": 0.5026484527460273, "epoch": 0.7379887627565647, "step": 1609}, {"loss": 2.365924596786499, "grad_norm": 0.33778122067451477, "learning_rate": 0.00016931621312690214, "token_acc": 0.4877202349172451, "epoch": 0.7384474257539273, "step": 1610}, {"loss": 2.430210590362549, "grad_norm": 0.3536229133605957, "learning_rate": 0.00016875951215197777, "token_acc": 0.4781292984869326, "epoch": 0.7389060887512899, "step": 1611}, {"loss": 2.354444980621338, "grad_norm": 0.3440890908241272, "learning_rate": 0.00016820354201710214, "token_acc": 0.4990160247399494, "epoch": 0.7393647517486527, "step": 1612}, {"loss": 2.356900215148926, "grad_norm": 0.3411904275417328, "learning_rate": 0.00016764830394895203, "token_acc": 0.5098039215686274, "epoch": 0.7398234147460153, "step": 1613}, {"loss": 2.4466404914855957, "grad_norm": 0.3271668255329132, "learning_rate": 0.00016709379917259027, "token_acc": 0.4740494032750486, "epoch": 0.7402820777433781, "step": 1614}, {"loss": 2.3966317176818848, "grad_norm": 0.33035361766815186, "learning_rate": 0.00016654002891146091, "token_acc": 0.4772117962466488, "epoch": 0.7407407407407407, "step": 1615}, {"loss": 2.3563101291656494, "grad_norm": 0.3406640589237213, "learning_rate": 0.00016598699438738764, "token_acc": 0.49260943718021605, "epoch": 0.7411994037381034, "step": 1616}, {"loss": 2.2576003074645996, "grad_norm": 0.3380766808986664, "learning_rate": 0.00016543469682057105, "token_acc": 0.5047806524184477, "epoch": 0.7416580667354661, "step": 1617}, {"loss": 2.4218525886535645, "grad_norm": 0.3740149736404419, "learning_rate": 0.00016488313742958526, "token_acc": 0.48518518518518516, "epoch": 0.7421167297328288, "step": 1618}, {"loss": 2.1876931190490723, "grad_norm": 0.34136340022087097, "learning_rate": 0.00016433231743137646, "token_acc": 0.5144557823129252, "epoch": 0.7425753927301915, "step": 1619}, {"loss": 2.3639187812805176, "grad_norm": 0.34627437591552734, "learning_rate": 0.0001637822380412584, "token_acc": 0.48645690834473326, "epoch": 0.7430340557275542, "step": 1620}, {"loss": 2.3327231407165527, "grad_norm": 0.3551805913448334, "learning_rate": 0.00016323290047291195, "token_acc": 0.49930996411813416, "epoch": 0.7434927187249168, "step": 1621}, {"loss": 2.324911117553711, "grad_norm": 0.34675735235214233, "learning_rate": 0.0001626843059383803, "token_acc": 0.5029077817779009, "epoch": 0.7439513817222796, "step": 1622}, {"loss": 2.391982078552246, "grad_norm": 0.3591375946998596, "learning_rate": 0.00016213645564806752, "token_acc": 0.48901569186875893, "epoch": 0.7444100447196422, "step": 1623}, {"loss": 2.393920421600342, "grad_norm": 0.3699428141117096, "learning_rate": 0.0001615893508107359, "token_acc": 0.4906636024130997, "epoch": 0.744868707717005, "step": 1624}, {"loss": 2.2541823387145996, "grad_norm": 0.3355953097343445, "learning_rate": 0.00016104299263350252, "token_acc": 0.5008547008547009, "epoch": 0.7453273707143676, "step": 1625}, {"loss": 2.348360776901245, "grad_norm": 0.3346434235572815, "learning_rate": 0.00016049738232183758, "token_acc": 0.4935100800883734, "epoch": 0.7457860337117304, "step": 1626}, {"loss": 2.309814929962158, "grad_norm": 0.3336450755596161, "learning_rate": 0.0001599525210795606, "token_acc": 0.5, "epoch": 0.746244696709093, "step": 1627}, {"loss": 2.431572914123535, "grad_norm": 0.35335713624954224, "learning_rate": 0.00015940841010883889, "token_acc": 0.4797516996748448, "epoch": 0.7467033597064556, "step": 1628}, {"loss": 2.192800998687744, "grad_norm": 0.34837087988853455, "learning_rate": 0.00015886505061018413, "token_acc": 0.5162764134780126, "epoch": 0.7471620227038184, "step": 1629}, {"loss": 2.3121328353881836, "grad_norm": 0.34289252758026123, "learning_rate": 0.0001583224437824498, "token_acc": 0.4976905311778291, "epoch": 0.747620685701181, "step": 1630}, {"loss": 2.348264694213867, "grad_norm": 0.35652846097946167, "learning_rate": 0.0001577805908228293, "token_acc": 0.500277932184547, "epoch": 0.7480793486985438, "step": 1631}, {"loss": 2.397118091583252, "grad_norm": 0.3318858742713928, "learning_rate": 0.00015723949292685191, "token_acc": 0.4778809393773894, "epoch": 0.7485380116959064, "step": 1632}, {"loss": 2.4133496284484863, "grad_norm": 0.33221501111984253, "learning_rate": 0.0001566991512883818, "token_acc": 0.4824134199134199, "epoch": 0.7489966746932691, "step": 1633}, {"loss": 2.4071388244628906, "grad_norm": 0.32519495487213135, "learning_rate": 0.00015615956709961378, "token_acc": 0.4678346564467561, "epoch": 0.7494553376906318, "step": 1634}, {"loss": 2.4226675033569336, "grad_norm": 0.32279929518699646, "learning_rate": 0.00015562074155107215, "token_acc": 0.4772550038991422, "epoch": 0.7499140006879945, "step": 1635}, {"loss": 2.331573963165283, "grad_norm": 0.3303390145301819, "learning_rate": 0.0001550826758316068, "token_acc": 0.49709762532981533, "epoch": 0.7503726636853572, "step": 1636}, {"loss": 2.3231453895568848, "grad_norm": 0.32371798157691956, "learning_rate": 0.00015454537112839122, "token_acc": 0.4886677722498618, "epoch": 0.7508313266827199, "step": 1637}, {"loss": 2.4417612552642822, "grad_norm": 0.3316543400287628, "learning_rate": 0.00015400882862692033, "token_acc": 0.4853057982525814, "epoch": 0.7512899896800825, "step": 1638}, {"loss": 2.2937893867492676, "grad_norm": 0.3375518023967743, "learning_rate": 0.00015347304951100665, "token_acc": 0.5012773204655123, "epoch": 0.7517486526774453, "step": 1639}, {"loss": 2.42484450340271, "grad_norm": 0.3432401120662689, "learning_rate": 0.00015293803496277907, "token_acc": 0.4713467048710602, "epoch": 0.7522073156748079, "step": 1640}, {"loss": 2.2832694053649902, "grad_norm": 0.319578617811203, "learning_rate": 0.00015240378616267886, "token_acc": 0.5053983075576306, "epoch": 0.7526659786721707, "step": 1641}, {"loss": 2.1909384727478027, "grad_norm": 0.3443111777305603, "learning_rate": 0.00015187030428945843, "token_acc": 0.5245529378370707, "epoch": 0.7531246416695333, "step": 1642}, {"loss": 2.3498029708862305, "grad_norm": 0.3458714783191681, "learning_rate": 0.0001513375905201776, "token_acc": 0.4933481152993348, "epoch": 0.753583304666896, "step": 1643}, {"loss": 2.2973504066467285, "grad_norm": 0.33867815136909485, "learning_rate": 0.00015080564603020142, "token_acc": 0.48797939324556383, "epoch": 0.7540419676642587, "step": 1644}, {"loss": 2.2942771911621094, "grad_norm": 0.3546656370162964, "learning_rate": 0.0001502744719931982, "token_acc": 0.5083926031294452, "epoch": 0.7545006306616213, "step": 1645}, {"loss": 2.418250560760498, "grad_norm": 0.35301673412323, "learning_rate": 0.00014974406958113558, "token_acc": 0.4848998024273215, "epoch": 0.7549592936589841, "step": 1646}, {"loss": 2.3584914207458496, "grad_norm": 0.3369089961051941, "learning_rate": 0.00014921443996427947, "token_acc": 0.48730684326710816, "epoch": 0.7554179566563467, "step": 1647}, {"loss": 2.363612651824951, "grad_norm": 0.3427674174308777, "learning_rate": 0.0001486855843111901, "token_acc": 0.4835812517541398, "epoch": 0.7558766196537094, "step": 1648}, {"loss": 2.3772430419921875, "grad_norm": 0.3486386835575104, "learning_rate": 0.0001481575037887201, "token_acc": 0.4865539229276407, "epoch": 0.7563352826510721, "step": 1649}, {"loss": 2.3746743202209473, "grad_norm": 0.3668610751628876, "learning_rate": 0.00014763019956201253, "token_acc": 0.47448394495412843, "epoch": 0.7567939456484348, "step": 1650}, {"loss": 2.320089340209961, "grad_norm": 0.33974599838256836, "learning_rate": 0.0001471036727944966, "token_acc": 0.4979056129572745, "epoch": 0.7572526086457975, "step": 1651}, {"loss": 2.3279049396514893, "grad_norm": 0.35869884490966797, "learning_rate": 0.0001465779246478872, "token_acc": 0.5121255349500713, "epoch": 0.7577112716431602, "step": 1652}, {"loss": 2.339691638946533, "grad_norm": 0.338882178068161, "learning_rate": 0.00014605295628218045, "token_acc": 0.5038932146829811, "epoch": 0.7581699346405228, "step": 1653}, {"loss": 2.4369864463806152, "grad_norm": 0.33764392137527466, "learning_rate": 0.0001455287688556527, "token_acc": 0.48389806776813216, "epoch": 0.7586285976378856, "step": 1654}, {"loss": 2.3020424842834473, "grad_norm": 0.3276992738246918, "learning_rate": 0.00014500536352485673, "token_acc": 0.5056863263686855, "epoch": 0.7590872606352482, "step": 1655}, {"loss": 2.2966909408569336, "grad_norm": 0.33636221289634705, "learning_rate": 0.00014448274144461965, "token_acc": 0.49840595111583424, "epoch": 0.759545923632611, "step": 1656}, {"loss": 2.2886438369750977, "grad_norm": 0.3568006455898285, "learning_rate": 0.00014396090376804112, "token_acc": 0.5066512434933488, "epoch": 0.7600045866299736, "step": 1657}, {"loss": 2.286372661590576, "grad_norm": 0.34005752205848694, "learning_rate": 0.00014343985164648926, "token_acc": 0.505859375, "epoch": 0.7604632496273364, "step": 1658}, {"loss": 2.2969794273376465, "grad_norm": 0.34000974893569946, "learning_rate": 0.00014291958622959973, "token_acc": 0.4973396807616914, "epoch": 0.760921912624699, "step": 1659}, {"loss": 2.3477232456207275, "grad_norm": 0.3271826505661011, "learning_rate": 0.00014240010866527176, "token_acc": 0.48610339077265147, "epoch": 0.7613805756220617, "step": 1660}, {"loss": 2.3699700832366943, "grad_norm": 0.35196706652641296, "learning_rate": 0.00014188142009966686, "token_acc": 0.5031935573451819, "epoch": 0.7618392386194244, "step": 1661}, {"loss": 2.358823776245117, "grad_norm": 0.3321390450000763, "learning_rate": 0.0001413635216772053, "token_acc": 0.4862359550561798, "epoch": 0.762297901616787, "step": 1662}, {"loss": 2.335993766784668, "grad_norm": 0.34531083703041077, "learning_rate": 0.000140846414540564, "token_acc": 0.49904397705544934, "epoch": 0.7627565646141498, "step": 1663}, {"loss": 2.29191255569458, "grad_norm": 0.33894023299217224, "learning_rate": 0.00014033009983067452, "token_acc": 0.49839509775313684, "epoch": 0.7632152276115124, "step": 1664}, {"loss": 2.3417396545410156, "grad_norm": 0.35586610436439514, "learning_rate": 0.00013981457868671927, "token_acc": 0.5037698966769059, "epoch": 0.7636738906088751, "step": 1665}, {"loss": 2.3881053924560547, "grad_norm": 0.3516406714916229, "learning_rate": 0.0001392998522461305, "token_acc": 0.48619841486745013, "epoch": 0.7641325536062378, "step": 1666}, {"loss": 2.3837761878967285, "grad_norm": 0.3469773530960083, "learning_rate": 0.00013878592164458635, "token_acc": 0.4947986129634569, "epoch": 0.7645912166036005, "step": 1667}, {"loss": 2.206620693206787, "grad_norm": 0.3341671824455261, "learning_rate": 0.00013827278801600978, "token_acc": 0.5029804144195288, "epoch": 0.7650498796009632, "step": 1668}, {"loss": 2.3467369079589844, "grad_norm": 0.3586134910583496, "learning_rate": 0.0001377604524925647, "token_acc": 0.493844049247606, "epoch": 0.7655085425983259, "step": 1669}, {"loss": 2.3643879890441895, "grad_norm": 0.36412379145622253, "learning_rate": 0.00013724891620465424, "token_acc": 0.4979615608619686, "epoch": 0.7659672055956885, "step": 1670}, {"loss": 2.387087345123291, "grad_norm": 0.3632110059261322, "learning_rate": 0.0001367381802809185, "token_acc": 0.4905117883841288, "epoch": 0.7664258685930513, "step": 1671}, {"loss": 2.2920303344726562, "grad_norm": 0.3365231156349182, "learning_rate": 0.00013622824584823113, "token_acc": 0.4906409529211571, "epoch": 0.7668845315904139, "step": 1672}, {"loss": 2.3355979919433594, "grad_norm": 0.34381651878356934, "learning_rate": 0.00013571911403169795, "token_acc": 0.48356279853891543, "epoch": 0.7673431945877767, "step": 1673}, {"loss": 2.3413867950439453, "grad_norm": 0.34178438782691956, "learning_rate": 0.0001352107859546533, "token_acc": 0.4876543209876543, "epoch": 0.7678018575851393, "step": 1674}, {"loss": 2.281527519226074, "grad_norm": 0.33297041058540344, "learning_rate": 0.00013470326273865886, "token_acc": 0.5114698385726423, "epoch": 0.768260520582502, "step": 1675}, {"loss": 2.2990834712982178, "grad_norm": 0.35832756757736206, "learning_rate": 0.00013419654550349985, "token_acc": 0.4957241379310345, "epoch": 0.7687191835798647, "step": 1676}, {"loss": 2.503087282180786, "grad_norm": 0.3447275757789612, "learning_rate": 0.00013369063536718346, "token_acc": 0.48016643550624133, "epoch": 0.7691778465772274, "step": 1677}, {"loss": 2.3847875595092773, "grad_norm": 0.3484703302383423, "learning_rate": 0.00013318553344593632, "token_acc": 0.4852005532503458, "epoch": 0.7696365095745901, "step": 1678}, {"loss": 2.257429599761963, "grad_norm": 0.35201093554496765, "learning_rate": 0.00013268124085420136, "token_acc": 0.5042114435085681, "epoch": 0.7700951725719528, "step": 1679}, {"loss": 2.3270423412323, "grad_norm": 0.34060394763946533, "learning_rate": 0.0001321777587046364, "token_acc": 0.5045871559633027, "epoch": 0.7705538355693154, "step": 1680}, {"loss": 2.4161674976348877, "grad_norm": 0.3446199297904968, "learning_rate": 0.00013167508810811059, "token_acc": 0.4771714922048998, "epoch": 0.7710124985666781, "step": 1681}, {"loss": 2.374894857406616, "grad_norm": 0.3483222723007202, "learning_rate": 0.0001311732301737029, "token_acc": 0.4916851441241685, "epoch": 0.7714711615640408, "step": 1682}, {"loss": 2.2757842540740967, "grad_norm": 0.3286564350128174, "learning_rate": 0.0001306721860086991, "token_acc": 0.49526643224235867, "epoch": 0.7719298245614035, "step": 1683}, {"loss": 2.3948426246643066, "grad_norm": 0.3671477735042572, "learning_rate": 0.00013017195671858928, "token_acc": 0.4852036331673015, "epoch": 0.7723884875587662, "step": 1684}, {"loss": 2.3400464057922363, "grad_norm": 0.3347415328025818, "learning_rate": 0.0001296725434070661, "token_acc": 0.4920417124039517, "epoch": 0.7728471505561288, "step": 1685}, {"loss": 2.3526370525360107, "grad_norm": 0.342963308095932, "learning_rate": 0.00012917394717602121, "token_acc": 0.5030042918454936, "epoch": 0.7733058135534916, "step": 1686}, {"loss": 2.28363299369812, "grad_norm": 0.34412896633148193, "learning_rate": 0.00012867616912554426, "token_acc": 0.5008469791078487, "epoch": 0.7737644765508542, "step": 1687}, {"loss": 2.4127960205078125, "grad_norm": 0.34296438097953796, "learning_rate": 0.00012817921035391882, "token_acc": 0.4781767955801105, "epoch": 0.774223139548217, "step": 1688}, {"loss": 2.3115837574005127, "grad_norm": 0.3372040390968323, "learning_rate": 0.00012768307195762168, "token_acc": 0.49806629834254146, "epoch": 0.7746818025455796, "step": 1689}, {"loss": 2.322422504425049, "grad_norm": 0.3432585895061493, "learning_rate": 0.00012718775503131908, "token_acc": 0.48609534619750283, "epoch": 0.7751404655429424, "step": 1690}, {"loss": 2.339813232421875, "grad_norm": 0.34192076325416565, "learning_rate": 0.0001266932606678646, "token_acc": 0.49014162732574285, "epoch": 0.775599128540305, "step": 1691}, {"loss": 2.350595474243164, "grad_norm": 0.3507980406284332, "learning_rate": 0.00012619958995829756, "token_acc": 0.5005668934240363, "epoch": 0.7760577915376677, "step": 1692}, {"loss": 2.4148173332214355, "grad_norm": 0.3457689583301544, "learning_rate": 0.0001257067439918394, "token_acc": 0.4861605919429981, "epoch": 0.7765164545350304, "step": 1693}, {"loss": 2.3451433181762695, "grad_norm": 0.34666144847869873, "learning_rate": 0.00012521472385589234, "token_acc": 0.4931082981715893, "epoch": 0.7769751175323931, "step": 1694}, {"loss": 2.4169321060180664, "grad_norm": 0.35866957902908325, "learning_rate": 0.00012472353063603626, "token_acc": 0.4840620592383639, "epoch": 0.7774337805297558, "step": 1695}, {"loss": 2.3810629844665527, "grad_norm": 0.3436647653579712, "learning_rate": 0.0001242331654160263, "token_acc": 0.4892005610098177, "epoch": 0.7778924435271185, "step": 1696}, {"loss": 2.253495693206787, "grad_norm": 0.3269905745983124, "learning_rate": 0.0001237436292777914, "token_acc": 0.5070035704476792, "epoch": 0.7783511065244811, "step": 1697}, {"loss": 2.31325626373291, "grad_norm": 0.3635874390602112, "learning_rate": 0.00012325492330143061, "token_acc": 0.4897119341563786, "epoch": 0.7788097695218438, "step": 1698}, {"loss": 2.426875114440918, "grad_norm": 0.35077953338623047, "learning_rate": 0.00012276704856521175, "token_acc": 0.4936111111111111, "epoch": 0.7792684325192065, "step": 1699}, {"loss": 2.3770997524261475, "grad_norm": 0.3359808027744293, "learning_rate": 0.00012228000614556816, "token_acc": 0.4906427990235964, "epoch": 0.7797270955165692, "step": 1700}, {"loss": 2.449178457260132, "grad_norm": 0.3486747443675995, "learning_rate": 0.00012179379711709738, "token_acc": 0.48500428449014565, "epoch": 0.7801857585139319, "step": 1701}, {"loss": 2.387899160385132, "grad_norm": 0.33946412801742554, "learning_rate": 0.0001213084225525577, "token_acc": 0.48739495798319327, "epoch": 0.7806444215112945, "step": 1702}, {"loss": 2.310896396636963, "grad_norm": 0.3201528787612915, "learning_rate": 0.00012082388352286627, "token_acc": 0.49347659247889486, "epoch": 0.7811030845086573, "step": 1703}, {"loss": 2.34926700592041, "grad_norm": 0.33396804332733154, "learning_rate": 0.00012034018109709716, "token_acc": 0.488264192139738, "epoch": 0.7815617475060199, "step": 1704}, {"loss": 2.287855386734009, "grad_norm": 0.3473016023635864, "learning_rate": 0.00011985731634247809, "token_acc": 0.4994266055045872, "epoch": 0.7820204105033827, "step": 1705}, {"loss": 2.3916831016540527, "grad_norm": 0.34904786944389343, "learning_rate": 0.00011937529032438904, "token_acc": 0.4788009721847151, "epoch": 0.7824790735007453, "step": 1706}, {"loss": 2.364654064178467, "grad_norm": 0.3430524170398712, "learning_rate": 0.00011889410410635887, "token_acc": 0.4905233380480905, "epoch": 0.782937736498108, "step": 1707}, {"loss": 2.3570656776428223, "grad_norm": 0.34083792567253113, "learning_rate": 0.0001184137587500641, "token_acc": 0.49571673329525984, "epoch": 0.7833963994954707, "step": 1708}, {"loss": 2.3988406658172607, "grad_norm": 0.35375866293907166, "learning_rate": 0.00011793425531532564, "token_acc": 0.4834792431516521, "epoch": 0.7838550624928334, "step": 1709}, {"loss": 2.3135619163513184, "grad_norm": 0.34956881403923035, "learning_rate": 0.00011745559486010671, "token_acc": 0.5061391541609823, "epoch": 0.7843137254901961, "step": 1710}, {"loss": 2.2443103790283203, "grad_norm": 0.3417733907699585, "learning_rate": 0.00011697777844051105, "token_acc": 0.5126003877042371, "epoch": 0.7847723884875588, "step": 1711}, {"loss": 2.246236801147461, "grad_norm": 0.34329482913017273, "learning_rate": 0.00011650080711077964, "token_acc": 0.5015299026425591, "epoch": 0.7852310514849214, "step": 1712}, {"loss": 2.3212029933929443, "grad_norm": 0.34837251901626587, "learning_rate": 0.00011602468192328936, "token_acc": 0.489900426742532, "epoch": 0.7856897144822842, "step": 1713}, {"loss": 2.414048671722412, "grad_norm": 0.3719780147075653, "learning_rate": 0.00011554940392854973, "token_acc": 0.4816236972024136, "epoch": 0.7861483774796468, "step": 1714}, {"loss": 2.2529282569885254, "grad_norm": 0.3476426601409912, "learning_rate": 0.00011507497417520146, "token_acc": 0.49886169607285147, "epoch": 0.7866070404770095, "step": 1715}, {"loss": 2.354111433029175, "grad_norm": 0.3599509596824646, "learning_rate": 0.00011460139371001339, "token_acc": 0.49056603773584906, "epoch": 0.7870657034743722, "step": 1716}, {"loss": 2.470759153366089, "grad_norm": 0.3389667570590973, "learning_rate": 0.00011412866357788049, "token_acc": 0.4695817490494297, "epoch": 0.7875243664717348, "step": 1717}, {"loss": 2.301211357116699, "grad_norm": 0.3486955165863037, "learning_rate": 0.00011365678482182207, "token_acc": 0.5047701647875108, "epoch": 0.7879830294690976, "step": 1718}, {"loss": 2.472989082336426, "grad_norm": 0.3415502905845642, "learning_rate": 0.0001131857584829783, "token_acc": 0.4710104914411927, "epoch": 0.7884416924664602, "step": 1719}, {"loss": 2.392775058746338, "grad_norm": 0.34041544795036316, "learning_rate": 0.0001127155856006093, "token_acc": 0.48413344182262, "epoch": 0.788900355463823, "step": 1720}, {"loss": 2.418940782546997, "grad_norm": 0.33902794122695923, "learning_rate": 0.00011224626721209141, "token_acc": 0.4759898904802022, "epoch": 0.7893590184611856, "step": 1721}, {"loss": 2.402000904083252, "grad_norm": 0.3443155586719513, "learning_rate": 0.0001117778043529164, "token_acc": 0.4922237380627558, "epoch": 0.7898176814585484, "step": 1722}, {"loss": 2.2933928966522217, "grad_norm": 0.3544413447380066, "learning_rate": 0.0001113101980566879, "token_acc": 0.5071826443858106, "epoch": 0.790276344455911, "step": 1723}, {"loss": 2.3634321689605713, "grad_norm": 0.3424176573753357, "learning_rate": 0.00011084344935511958, "token_acc": 0.4850462207721588, "epoch": 0.7907350074532737, "step": 1724}, {"loss": 2.347646713256836, "grad_norm": 0.3441798985004425, "learning_rate": 0.00011037755927803345, "token_acc": 0.4846867097499298, "epoch": 0.7911936704506364, "step": 1725}, {"loss": 2.211894989013672, "grad_norm": 0.3441164493560791, "learning_rate": 0.00010991252885335651, "token_acc": 0.5045325779036827, "epoch": 0.7916523334479991, "step": 1726}, {"loss": 2.359849214553833, "grad_norm": 0.3579557240009308, "learning_rate": 0.00010944835910711958, "token_acc": 0.48921266461193613, "epoch": 0.7921109964453618, "step": 1727}, {"loss": 2.211099863052368, "grad_norm": 0.34293675422668457, "learning_rate": 0.00010898505106345396, "token_acc": 0.515036496350365, "epoch": 0.7925696594427245, "step": 1728}, {"loss": 2.4274301528930664, "grad_norm": 0.3516233563423157, "learning_rate": 0.00010852260574459022, "token_acc": 0.4854368932038835, "epoch": 0.7930283224400871, "step": 1729}, {"loss": 2.386627197265625, "grad_norm": 0.3459794223308563, "learning_rate": 0.00010806102417085512, "token_acc": 0.49475772173420235, "epoch": 0.7934869854374499, "step": 1730}, {"loss": 2.354804277420044, "grad_norm": 0.3457988500595093, "learning_rate": 0.00010760030736066951, "token_acc": 0.49616858237547895, "epoch": 0.7939456484348125, "step": 1731}, {"loss": 2.2822365760803223, "grad_norm": 0.3403247892856598, "learning_rate": 0.00010714045633054687, "token_acc": 0.5103236607142857, "epoch": 0.7944043114321752, "step": 1732}, {"loss": 2.257420063018799, "grad_norm": 0.3442862331867218, "learning_rate": 0.00010668147209508971, "token_acc": 0.4980641592920354, "epoch": 0.7948629744295379, "step": 1733}, {"loss": 2.4369754791259766, "grad_norm": 0.348183274269104, "learning_rate": 0.00010622335566698877, "token_acc": 0.4763768521107073, "epoch": 0.7953216374269005, "step": 1734}, {"loss": 2.313093900680542, "grad_norm": 0.34758955240249634, "learning_rate": 0.00010576610805701942, "token_acc": 0.486039886039886, "epoch": 0.7957803004242633, "step": 1735}, {"loss": 2.3149375915527344, "grad_norm": 0.35387471318244934, "learning_rate": 0.00010530973027404073, "token_acc": 0.4936562860438293, "epoch": 0.7962389634216259, "step": 1736}, {"loss": 2.3726234436035156, "grad_norm": 0.3525843322277069, "learning_rate": 0.00010485422332499212, "token_acc": 0.48789414414414417, "epoch": 0.7966976264189887, "step": 1737}, {"loss": 2.353853702545166, "grad_norm": 0.3315074145793915, "learning_rate": 0.00010439958821489165, "token_acc": 0.4895862260483199, "epoch": 0.7971562894163513, "step": 1738}, {"loss": 2.271850824356079, "grad_norm": 0.34124287962913513, "learning_rate": 0.00010394582594683428, "token_acc": 0.5018769852728848, "epoch": 0.797614952413714, "step": 1739}, {"loss": 2.3460793495178223, "grad_norm": 0.3388957381248474, "learning_rate": 0.0001034929375219884, "token_acc": 0.501085776330076, "epoch": 0.7980736154110767, "step": 1740}, {"loss": 2.2740139961242676, "grad_norm": 0.34356969594955444, "learning_rate": 0.00010304092393959514, "token_acc": 0.4963285286918684, "epoch": 0.7985322784084394, "step": 1741}, {"loss": 2.248873233795166, "grad_norm": 0.34700387716293335, "learning_rate": 0.00010258978619696468, "token_acc": 0.5040787623066104, "epoch": 0.7989909414058021, "step": 1742}, {"loss": 2.3197827339172363, "grad_norm": 0.36148402094841003, "learning_rate": 0.00010213952528947551, "token_acc": 0.5, "epoch": 0.7994496044031648, "step": 1743}, {"loss": 2.3066887855529785, "grad_norm": 0.34262707829475403, "learning_rate": 0.00010169014221057089, "token_acc": 0.48982516480366867, "epoch": 0.7999082674005275, "step": 1744}, {"loss": 2.3216748237609863, "grad_norm": 0.3393036425113678, "learning_rate": 0.00010124163795175734, "token_acc": 0.5049032600053008, "epoch": 0.8003669303978902, "step": 1745}, {"loss": 2.419403314590454, "grad_norm": 0.335234671831131, "learning_rate": 0.00010079401350260287, "token_acc": 0.4815214459131373, "epoch": 0.8008255933952528, "step": 1746}, {"loss": 2.3094987869262695, "grad_norm": 0.3517586886882782, "learning_rate": 0.00010034726985073362, "token_acc": 0.4896041013956138, "epoch": 0.8012842563926156, "step": 1747}, {"loss": 2.4074645042419434, "grad_norm": 0.3397800922393799, "learning_rate": 9.9901407981833e-05, "token_acc": 0.48476454293628807, "epoch": 0.8017429193899782, "step": 1748}, {"loss": 2.292478084564209, "grad_norm": 0.33755776286125183, "learning_rate": 9.94564288796384e-05, "token_acc": 0.5008152173913043, "epoch": 0.8022015823873409, "step": 1749}, {"loss": 2.264887809753418, "grad_norm": 0.34281429648399353, "learning_rate": 9.901233352593953e-05, "token_acc": 0.5062076749435666, "epoch": 0.8026602453847036, "step": 1750}, {"loss": 2.3124756813049316, "grad_norm": 0.3368517756462097, "learning_rate": 9.856912290057668e-05, "token_acc": 0.4959598774031764, "epoch": 0.8031189083820662, "step": 1751}, {"loss": 2.342602252960205, "grad_norm": 0.35408881306648254, "learning_rate": 9.812679798143748e-05, "token_acc": 0.5062041737168641, "epoch": 0.803577571379429, "step": 1752}, {"loss": 2.499549150466919, "grad_norm": 0.33654269576072693, "learning_rate": 9.768535974445586e-05, "token_acc": 0.4706044714325145, "epoch": 0.8040362343767916, "step": 1753}, {"loss": 2.2592642307281494, "grad_norm": 0.3582037091255188, "learning_rate": 9.724480916360906e-05, "token_acc": 0.5065430752453653, "epoch": 0.8044948973741544, "step": 1754}, {"loss": 2.2006468772888184, "grad_norm": 0.3626381754875183, "learning_rate": 9.68051472109162e-05, "token_acc": 0.5034216007140732, "epoch": 0.804953560371517, "step": 1755}, {"loss": 2.221928596496582, "grad_norm": 0.34863486886024475, "learning_rate": 9.636637485643529e-05, "token_acc": 0.5139275766016713, "epoch": 0.8054122233688797, "step": 1756}, {"loss": 2.392080307006836, "grad_norm": 0.3548058271408081, "learning_rate": 9.592849306826174e-05, "token_acc": 0.4966405375139978, "epoch": 0.8058708863662424, "step": 1757}, {"loss": 2.4025678634643555, "grad_norm": 0.341632604598999, "learning_rate": 9.549150281252633e-05, "token_acc": 0.4782728272827283, "epoch": 0.8063295493636051, "step": 1758}, {"loss": 2.313371181488037, "grad_norm": 0.35458868741989136, "learning_rate": 9.505540505339223e-05, "token_acc": 0.49603933351543295, "epoch": 0.8067882123609678, "step": 1759}, {"loss": 2.3278379440307617, "grad_norm": 0.35544851422309875, "learning_rate": 9.4620200753054e-05, "token_acc": 0.4923419660261765, "epoch": 0.8072468753583305, "step": 1760}, {"loss": 2.3084402084350586, "grad_norm": 0.34659430384635925, "learning_rate": 9.418589087173441e-05, "token_acc": 0.5024278777492145, "epoch": 0.8077055383556931, "step": 1761}, {"loss": 2.410942554473877, "grad_norm": 0.34321826696395874, "learning_rate": 9.375247636768325e-05, "token_acc": 0.4873926295372679, "epoch": 0.8081642013530559, "step": 1762}, {"loss": 2.4444189071655273, "grad_norm": 0.3223225772380829, "learning_rate": 9.331995819717443e-05, "token_acc": 0.4836836283185841, "epoch": 0.8086228643504185, "step": 1763}, {"loss": 2.3730380535125732, "grad_norm": 0.3400341272354126, "learning_rate": 9.288833731450419e-05, "token_acc": 0.488065150238697, "epoch": 0.8090815273477813, "step": 1764}, {"loss": 2.300055503845215, "grad_norm": 0.36031097173690796, "learning_rate": 9.245761467198948e-05, "token_acc": 0.48789414414414417, "epoch": 0.8095401903451439, "step": 1765}, {"loss": 2.216284990310669, "grad_norm": 0.33209577202796936, "learning_rate": 9.20277912199648e-05, "token_acc": 0.5098152424942263, "epoch": 0.8099988533425065, "step": 1766}, {"loss": 2.3763904571533203, "grad_norm": 0.34907469153404236, "learning_rate": 9.159886790678123e-05, "token_acc": 0.4782370654256775, "epoch": 0.8104575163398693, "step": 1767}, {"loss": 2.3726978302001953, "grad_norm": 0.3510114252567291, "learning_rate": 9.11708456788033e-05, "token_acc": 0.48896956157497906, "epoch": 0.8109161793372319, "step": 1768}, {"loss": 2.418327808380127, "grad_norm": 0.3518482446670532, "learning_rate": 9.074372548040793e-05, "token_acc": 0.4745809288266007, "epoch": 0.8113748423345947, "step": 1769}, {"loss": 2.3276824951171875, "grad_norm": 0.3328094780445099, "learning_rate": 9.031750825398145e-05, "token_acc": 0.4934404283801874, "epoch": 0.8118335053319573, "step": 1770}, {"loss": 2.305774211883545, "grad_norm": 0.3379485607147217, "learning_rate": 8.98921949399179e-05, "token_acc": 0.5029207232267038, "epoch": 0.81229216832932, "step": 1771}, {"loss": 2.3304247856140137, "grad_norm": 0.3578743636608124, "learning_rate": 8.94677864766173e-05, "token_acc": 0.49603065973172733, "epoch": 0.8127508313266827, "step": 1772}, {"loss": 2.305543899536133, "grad_norm": 0.3515740931034088, "learning_rate": 8.904428380048269e-05, "token_acc": 0.4939007092198582, "epoch": 0.8132094943240454, "step": 1773}, {"loss": 2.3719353675842285, "grad_norm": 0.34503498673439026, "learning_rate": 8.862168784591929e-05, "token_acc": 0.48676511563109504, "epoch": 0.8136681573214081, "step": 1774}, {"loss": 2.2761733531951904, "grad_norm": 0.34058043360710144, "learning_rate": 8.819999954533115e-05, "token_acc": 0.49605656785422897, "epoch": 0.8141268203187708, "step": 1775}, {"loss": 2.439089775085449, "grad_norm": 0.358213871717453, "learning_rate": 8.777921982911996e-05, "token_acc": 0.47804878048780486, "epoch": 0.8145854833161335, "step": 1776}, {"loss": 2.3598287105560303, "grad_norm": 0.3591679632663727, "learning_rate": 8.735934962568253e-05, "token_acc": 0.4911414464130119, "epoch": 0.8150441463134962, "step": 1777}, {"loss": 2.3531246185302734, "grad_norm": 0.3337683081626892, "learning_rate": 8.694038986140945e-05, "token_acc": 0.47716150081566067, "epoch": 0.8155028093108588, "step": 1778}, {"loss": 2.257934093475342, "grad_norm": 0.3378220200538635, "learning_rate": 8.652234146068206e-05, "token_acc": 0.5015273535129131, "epoch": 0.8159614723082216, "step": 1779}, {"loss": 2.4477319717407227, "grad_norm": 0.3594716191291809, "learning_rate": 8.610520534587086e-05, "token_acc": 0.48177311169437154, "epoch": 0.8164201353055842, "step": 1780}, {"loss": 2.275913953781128, "grad_norm": 0.31936123967170715, "learning_rate": 8.568898243733397e-05, "token_acc": 0.4952561669829222, "epoch": 0.816878798302947, "step": 1781}, {"loss": 2.424553394317627, "grad_norm": 0.3394831418991089, "learning_rate": 8.527367365341409e-05, "token_acc": 0.4979768006474238, "epoch": 0.8173374613003096, "step": 1782}, {"loss": 2.3555076122283936, "grad_norm": 0.3558088541030884, "learning_rate": 8.485927991043757e-05, "token_acc": 0.4939521800281294, "epoch": 0.8177961242976722, "step": 1783}, {"loss": 2.3409714698791504, "grad_norm": 0.3543827533721924, "learning_rate": 8.444580212271125e-05, "token_acc": 0.4885783391561408, "epoch": 0.818254787295035, "step": 1784}, {"loss": 2.2420296669006348, "grad_norm": 0.3317083716392517, "learning_rate": 8.403324120252159e-05, "token_acc": 0.5049723756906077, "epoch": 0.8187134502923976, "step": 1785}, {"loss": 2.3413565158843994, "grad_norm": 0.3390710949897766, "learning_rate": 8.362159806013175e-05, "token_acc": 0.4966367713004484, "epoch": 0.8191721132897604, "step": 1786}, {"loss": 2.3762011528015137, "grad_norm": 0.3424408435821533, "learning_rate": 8.321087360377988e-05, "token_acc": 0.4915059026778002, "epoch": 0.819630776287123, "step": 1787}, {"loss": 2.2308573722839355, "grad_norm": 0.34307608008384705, "learning_rate": 8.280106873967752e-05, "token_acc": 0.5072305593451569, "epoch": 0.8200894392844857, "step": 1788}, {"loss": 2.329380512237549, "grad_norm": 0.33436816930770874, "learning_rate": 8.239218437200679e-05, "token_acc": 0.49440459110473456, "epoch": 0.8205481022818484, "step": 1789}, {"loss": 2.331752300262451, "grad_norm": 0.34022000432014465, "learning_rate": 8.198422140291939e-05, "token_acc": 0.4933602771362587, "epoch": 0.8210067652792111, "step": 1790}, {"loss": 2.361274242401123, "grad_norm": 0.3502206802368164, "learning_rate": 8.157718073253351e-05, "token_acc": 0.4926719278466742, "epoch": 0.8214654282765738, "step": 1791}, {"loss": 2.3629298210144043, "grad_norm": 0.3464970588684082, "learning_rate": 8.117106325893287e-05, "token_acc": 0.49233342626149984, "epoch": 0.8219240912739365, "step": 1792}, {"loss": 2.2871475219726562, "grad_norm": 0.3418751358985901, "learning_rate": 8.076586987816404e-05, "token_acc": 0.4903244166192373, "epoch": 0.8223827542712991, "step": 1793}, {"loss": 2.343477249145508, "grad_norm": 0.340283066034317, "learning_rate": 8.036160148423449e-05, "token_acc": 0.49188445667125175, "epoch": 0.8228414172686619, "step": 1794}, {"loss": 2.318657875061035, "grad_norm": 0.3409213125705719, "learning_rate": 7.995825896911141e-05, "token_acc": 0.4931506849315068, "epoch": 0.8233000802660245, "step": 1795}, {"loss": 2.428893566131592, "grad_norm": 0.3603390157222748, "learning_rate": 7.955584322271853e-05, "token_acc": 0.48214285714285715, "epoch": 0.8237587432633873, "step": 1796}, {"loss": 2.297451972961426, "grad_norm": 0.33327364921569824, "learning_rate": 7.915435513293523e-05, "token_acc": 0.4987482614742698, "epoch": 0.8242174062607499, "step": 1797}, {"loss": 2.3540124893188477, "grad_norm": 0.34232065081596375, "learning_rate": 7.875379558559387e-05, "token_acc": 0.4886677722498618, "epoch": 0.8246760692581127, "step": 1798}, {"loss": 2.39192533493042, "grad_norm": 0.34872034192085266, "learning_rate": 7.835416546447838e-05, "token_acc": 0.4842454394693201, "epoch": 0.8251347322554753, "step": 1799}, {"loss": 2.266745090484619, "grad_norm": 0.3498040735721588, "learning_rate": 7.795546565132167e-05, "token_acc": 0.5089574155653451, "epoch": 0.8255933952528379, "step": 1800}, {"loss": 2.400848388671875, "grad_norm": 0.3337041437625885, "learning_rate": 7.755769702580412e-05, "token_acc": 0.48549742477636215, "epoch": 0.8260520582502007, "step": 1801}, {"loss": 2.401732921600342, "grad_norm": 0.3630457818508148, "learning_rate": 7.716086046555193e-05, "token_acc": 0.48444811450591796, "epoch": 0.8265107212475633, "step": 1802}, {"loss": 2.419093608856201, "grad_norm": 0.3487928807735443, "learning_rate": 7.676495684613432e-05, "token_acc": 0.4818473037907101, "epoch": 0.826969384244926, "step": 1803}, {"loss": 2.4333009719848633, "grad_norm": 0.36501890420913696, "learning_rate": 7.636998704106252e-05, "token_acc": 0.48029850746268654, "epoch": 0.8274280472422887, "step": 1804}, {"loss": 2.3298959732055664, "grad_norm": 0.3434891402721405, "learning_rate": 7.597595192178702e-05, "token_acc": 0.4896159317211949, "epoch": 0.8278867102396514, "step": 1805}, {"loss": 2.2461471557617188, "grad_norm": 0.33230915665626526, "learning_rate": 7.558285235769646e-05, "token_acc": 0.507242260721386, "epoch": 0.8283453732370141, "step": 1806}, {"loss": 2.285722255706787, "grad_norm": 0.3450563848018646, "learning_rate": 7.519068921611494e-05, "token_acc": 0.49399563318777295, "epoch": 0.8288040362343768, "step": 1807}, {"loss": 2.2607688903808594, "grad_norm": 0.3387637436389923, "learning_rate": 7.479946336230047e-05, "token_acc": 0.5032904148783978, "epoch": 0.8292626992317395, "step": 1808}, {"loss": 2.396404266357422, "grad_norm": 0.33623597025871277, "learning_rate": 7.440917565944349e-05, "token_acc": 0.48954558126568165, "epoch": 0.8297213622291022, "step": 1809}, {"loss": 2.29229736328125, "grad_norm": 0.32811683416366577, "learning_rate": 7.4019826968664e-05, "token_acc": 0.5072869955156951, "epoch": 0.8301800252264648, "step": 1810}, {"loss": 2.208789348602295, "grad_norm": 0.36723440885543823, "learning_rate": 7.363141814901053e-05, "token_acc": 0.5168442268931759, "epoch": 0.8306386882238276, "step": 1811}, {"loss": 2.3367838859558105, "grad_norm": 0.35072678327560425, "learning_rate": 7.32439500574577e-05, "token_acc": 0.493727348759409, "epoch": 0.8310973512211902, "step": 1812}, {"loss": 2.423921823501587, "grad_norm": 0.3695262670516968, "learning_rate": 7.285742354890473e-05, "token_acc": 0.47554806070826305, "epoch": 0.831556014218553, "step": 1813}, {"loss": 2.3366260528564453, "grad_norm": 0.33562231063842773, "learning_rate": 7.247183947617325e-05, "token_acc": 0.4861072902338377, "epoch": 0.8320146772159156, "step": 1814}, {"loss": 2.2422585487365723, "grad_norm": 0.33905190229415894, "learning_rate": 7.20871986900053e-05, "token_acc": 0.5131022823330516, "epoch": 0.8324733402132783, "step": 1815}, {"loss": 2.23815655708313, "grad_norm": 0.35481420159339905, "learning_rate": 7.170350203906218e-05, "token_acc": 0.5128132118451025, "epoch": 0.832932003210641, "step": 1816}, {"loss": 2.222874164581299, "grad_norm": 0.32230162620544434, "learning_rate": 7.132075036992158e-05, "token_acc": 0.5170880800222284, "epoch": 0.8333906662080036, "step": 1817}, {"loss": 2.3593881130218506, "grad_norm": 0.35030126571655273, "learning_rate": 7.093894452707666e-05, "token_acc": 0.4998578333807222, "epoch": 0.8338493292053664, "step": 1818}, {"loss": 2.2329001426696777, "grad_norm": 0.33856189250946045, "learning_rate": 7.055808535293334e-05, "token_acc": 0.5110242813284956, "epoch": 0.834307992202729, "step": 1819}, {"loss": 2.289492607116699, "grad_norm": 0.34818097949028015, "learning_rate": 7.017817368780888e-05, "token_acc": 0.4970970417473044, "epoch": 0.8347666552000917, "step": 1820}, {"loss": 2.2610228061676025, "grad_norm": 0.35232019424438477, "learning_rate": 6.979921036993042e-05, "token_acc": 0.5155799192152337, "epoch": 0.8352253181974544, "step": 1821}, {"loss": 2.3382887840270996, "grad_norm": 0.352506548166275, "learning_rate": 6.942119623543202e-05, "token_acc": 0.47894137734775183, "epoch": 0.8356839811948171, "step": 1822}, {"loss": 2.2654311656951904, "grad_norm": 0.3640366196632385, "learning_rate": 6.904413211835414e-05, "token_acc": 0.5015873015873016, "epoch": 0.8361426441921798, "step": 1823}, {"loss": 2.4645442962646484, "grad_norm": 0.35429322719573975, "learning_rate": 6.866801885064056e-05, "token_acc": 0.472991499862901, "epoch": 0.8366013071895425, "step": 1824}, {"loss": 2.3245797157287598, "grad_norm": 0.3328467905521393, "learning_rate": 6.829285726213769e-05, "token_acc": 0.48559670781893005, "epoch": 0.8370599701869051, "step": 1825}, {"loss": 2.407137632369995, "grad_norm": 0.3477995693683624, "learning_rate": 6.79186481805918e-05, "token_acc": 0.48557826939232707, "epoch": 0.8375186331842679, "step": 1826}, {"loss": 2.4133996963500977, "grad_norm": 0.35213300585746765, "learning_rate": 6.754539243164754e-05, "token_acc": 0.4775993237531699, "epoch": 0.8379772961816305, "step": 1827}, {"loss": 2.225069046020508, "grad_norm": 0.3198488652706146, "learning_rate": 6.717309083884654e-05, "token_acc": 0.5148327939590076, "epoch": 0.8384359591789933, "step": 1828}, {"loss": 2.374579429626465, "grad_norm": 0.3491551876068115, "learning_rate": 6.680174422362468e-05, "token_acc": 0.48704663212435234, "epoch": 0.8388946221763559, "step": 1829}, {"loss": 2.3658361434936523, "grad_norm": 0.34302401542663574, "learning_rate": 6.643135340531136e-05, "token_acc": 0.4896611143021252, "epoch": 0.8393532851737187, "step": 1830}, {"loss": 2.3634157180786133, "grad_norm": 0.3504773676395416, "learning_rate": 6.606191920112664e-05, "token_acc": 0.4838255977496484, "epoch": 0.8398119481710813, "step": 1831}, {"loss": 2.418583869934082, "grad_norm": 0.3321126103401184, "learning_rate": 6.569344242618036e-05, "token_acc": 0.48396989127404516, "epoch": 0.840270611168444, "step": 1832}, {"loss": 2.2718896865844727, "grad_norm": 0.3415120840072632, "learning_rate": 6.532592389346958e-05, "token_acc": 0.5028312570781427, "epoch": 0.8407292741658067, "step": 1833}, {"loss": 2.425118923187256, "grad_norm": 0.3444622755050659, "learning_rate": 6.495936441387713e-05, "token_acc": 0.49213161659513593, "epoch": 0.8411879371631693, "step": 1834}, {"loss": 2.2019405364990234, "grad_norm": 0.3446201980113983, "learning_rate": 6.459376479617013e-05, "token_acc": 0.5289139633286318, "epoch": 0.841646600160532, "step": 1835}, {"loss": 2.3888111114501953, "grad_norm": 0.3397805094718933, "learning_rate": 6.422912584699752e-05, "token_acc": 0.4637720488466757, "epoch": 0.8421052631578947, "step": 1836}, {"loss": 2.367321014404297, "grad_norm": 0.3445199131965637, "learning_rate": 6.386544837088904e-05, "token_acc": 0.4887531241321855, "epoch": 0.8425639261552574, "step": 1837}, {"loss": 2.2981600761413574, "grad_norm": 0.3242432475090027, "learning_rate": 6.350273317025251e-05, "token_acc": 0.48403679653679654, "epoch": 0.8430225891526201, "step": 1838}, {"loss": 2.4504237174987793, "grad_norm": 0.3712983727455139, "learning_rate": 6.314098104537324e-05, "token_acc": 0.4797129450731438, "epoch": 0.8434812521499828, "step": 1839}, {"loss": 2.3853797912597656, "grad_norm": 0.34935036301612854, "learning_rate": 6.278019279441122e-05, "token_acc": 0.49142053445850914, "epoch": 0.8439399151473455, "step": 1840}, {"loss": 2.3663580417633057, "grad_norm": 0.3467150330543518, "learning_rate": 6.242036921339972e-05, "token_acc": 0.4843792447704428, "epoch": 0.8443985781447082, "step": 1841}, {"loss": 2.290548324584961, "grad_norm": 0.3489900529384613, "learning_rate": 6.206151109624402e-05, "token_acc": 0.48709315375982043, "epoch": 0.8448572411420708, "step": 1842}, {"loss": 2.3327503204345703, "grad_norm": 0.3285813629627228, "learning_rate": 6.170361923471868e-05, "token_acc": 0.4983342587451416, "epoch": 0.8453159041394336, "step": 1843}, {"loss": 2.2853431701660156, "grad_norm": 0.3364870846271515, "learning_rate": 6.134669441846691e-05, "token_acc": 0.4971720980339348, "epoch": 0.8457745671367962, "step": 1844}, {"loss": 2.320000171661377, "grad_norm": 0.36086997389793396, "learning_rate": 6.099073743499772e-05, "token_acc": 0.4813137032842582, "epoch": 0.846233230134159, "step": 1845}, {"loss": 2.4259033203125, "grad_norm": 0.3391818702220917, "learning_rate": 6.063574906968511e-05, "token_acc": 0.49590048063330505, "epoch": 0.8466918931315216, "step": 1846}, {"loss": 2.2239861488342285, "grad_norm": 0.3332633078098297, "learning_rate": 6.028173010576582e-05, "token_acc": 0.5103267973856209, "epoch": 0.8471505561288843, "step": 1847}, {"loss": 2.4211838245391846, "grad_norm": 0.3539312779903412, "learning_rate": 5.9928681324337544e-05, "token_acc": 0.4695410292072323, "epoch": 0.847609219126247, "step": 1848}, {"loss": 2.3063368797302246, "grad_norm": 0.35303995013237, "learning_rate": 5.957660350435773e-05, "token_acc": 0.49941211052322165, "epoch": 0.8480678821236097, "step": 1849}, {"loss": 2.287405490875244, "grad_norm": 0.37126395106315613, "learning_rate": 5.922549742264122e-05, "token_acc": 0.514947245017585, "epoch": 0.8485265451209724, "step": 1850}, {"loss": 2.306096315383911, "grad_norm": 0.33842793107032776, "learning_rate": 5.8875363853859166e-05, "token_acc": 0.4830674503218584, "epoch": 0.848985208118335, "step": 1851}, {"loss": 2.406630516052246, "grad_norm": 0.3437037467956543, "learning_rate": 5.852620357053651e-05, "token_acc": 0.4858369098712446, "epoch": 0.8494438711156977, "step": 1852}, {"loss": 2.2084522247314453, "grad_norm": 0.36516106128692627, "learning_rate": 5.8178017343051336e-05, "token_acc": 0.5140213934663197, "epoch": 0.8499025341130604, "step": 1853}, {"loss": 2.410921335220337, "grad_norm": 0.3502216339111328, "learning_rate": 5.783080593963219e-05, "token_acc": 0.4751203852327448, "epoch": 0.8503611971104231, "step": 1854}, {"loss": 2.3605763912200928, "grad_norm": 0.35774680972099304, "learning_rate": 5.748457012635683e-05, "token_acc": 0.4853868194842407, "epoch": 0.8508198601077858, "step": 1855}, {"loss": 2.328455686569214, "grad_norm": 0.3453747034072876, "learning_rate": 5.713931066715078e-05, "token_acc": 0.4953804347826087, "epoch": 0.8512785231051485, "step": 1856}, {"loss": 2.283583402633667, "grad_norm": 0.33495602011680603, "learning_rate": 5.679502832378497e-05, "token_acc": 0.5017754711827369, "epoch": 0.8517371861025111, "step": 1857}, {"loss": 2.279367446899414, "grad_norm": 0.35302430391311646, "learning_rate": 5.645172385587482e-05, "token_acc": 0.519564577817005, "epoch": 0.8521958490998739, "step": 1858}, {"loss": 2.349329710006714, "grad_norm": 0.3320028781890869, "learning_rate": 5.6109398020877834e-05, "token_acc": 0.48308525033829497, "epoch": 0.8526545120972365, "step": 1859}, {"loss": 2.2674448490142822, "grad_norm": 0.33842575550079346, "learning_rate": 5.576805157409265e-05, "token_acc": 0.4995834490419328, "epoch": 0.8531131750945993, "step": 1860}, {"loss": 2.2889039516448975, "grad_norm": 0.3376774787902832, "learning_rate": 5.542768526865677e-05, "token_acc": 0.511437908496732, "epoch": 0.8535718380919619, "step": 1861}, {"loss": 2.3306570053100586, "grad_norm": 0.33881503343582153, "learning_rate": 5.508829985554509e-05, "token_acc": 0.5035635964912281, "epoch": 0.8540305010893247, "step": 1862}, {"loss": 2.4704151153564453, "grad_norm": 0.35851868987083435, "learning_rate": 5.474989608356856e-05, "token_acc": 0.47432357813362785, "epoch": 0.8544891640866873, "step": 1863}, {"loss": 2.447523355484009, "grad_norm": 0.3571590781211853, "learning_rate": 5.441247469937194e-05, "token_acc": 0.47535596933187296, "epoch": 0.85494782708405, "step": 1864}, {"loss": 2.356210470199585, "grad_norm": 0.35217204689979553, "learning_rate": 5.407603644743286e-05, "token_acc": 0.478869297509096, "epoch": 0.8554064900814127, "step": 1865}, {"loss": 2.3331105709075928, "grad_norm": 0.34812772274017334, "learning_rate": 5.374058207005944e-05, "token_acc": 0.48961180973209406, "epoch": 0.8558651530787754, "step": 1866}, {"loss": 2.2922322750091553, "grad_norm": 0.3494341969490051, "learning_rate": 5.3406112307389066e-05, "token_acc": 0.49543899657924745, "epoch": 0.8563238160761381, "step": 1867}, {"loss": 2.303804636001587, "grad_norm": 0.3395400941371918, "learning_rate": 5.3072627897386926e-05, "token_acc": 0.48835904628330995, "epoch": 0.8567824790735007, "step": 1868}, {"loss": 2.312012195587158, "grad_norm": 0.3350875675678253, "learning_rate": 5.27401295758439e-05, "token_acc": 0.49352438688343897, "epoch": 0.8572411420708634, "step": 1869}, {"loss": 2.3872923851013184, "grad_norm": 0.35094091296195984, "learning_rate": 5.2408618076375315e-05, "token_acc": 0.4983277591973244, "epoch": 0.8576998050682261, "step": 1870}, {"loss": 2.2888574600219727, "grad_norm": 0.3341224491596222, "learning_rate": 5.207809413041914e-05, "token_acc": 0.4964959568733154, "epoch": 0.8581584680655888, "step": 1871}, {"loss": 2.377129554748535, "grad_norm": 0.3481275737285614, "learning_rate": 5.174855846723459e-05, "token_acc": 0.4875175315568022, "epoch": 0.8586171310629515, "step": 1872}, {"loss": 2.2634849548339844, "grad_norm": 0.3524986505508423, "learning_rate": 5.1420011813900104e-05, "token_acc": 0.48402466367713004, "epoch": 0.8590757940603142, "step": 1873}, {"loss": 2.3169209957122803, "grad_norm": 0.3380487859249115, "learning_rate": 5.109245489531211e-05, "token_acc": 0.49119956674790144, "epoch": 0.8595344570576768, "step": 1874}, {"loss": 2.2887237071990967, "grad_norm": 0.3424326777458191, "learning_rate": 5.0765888434183446e-05, "token_acc": 0.5113604488078541, "epoch": 0.8599931200550396, "step": 1875}, {"loss": 2.238100528717041, "grad_norm": 0.34902942180633545, "learning_rate": 5.0440313151041364e-05, "token_acc": 0.5175563802455039, "epoch": 0.8604517830524022, "step": 1876}, {"loss": 2.353519916534424, "grad_norm": 0.35631975531578064, "learning_rate": 5.011572976422657e-05, "token_acc": 0.4959560947429232, "epoch": 0.860910446049765, "step": 1877}, {"loss": 2.4014832973480225, "grad_norm": 0.37275317311286926, "learning_rate": 4.9792138989890825e-05, "token_acc": 0.4813402342685917, "epoch": 0.8613691090471276, "step": 1878}, {"loss": 2.2729721069335938, "grad_norm": 0.3564111292362213, "learning_rate": 4.9469541541996234e-05, "token_acc": 0.5171312427409989, "epoch": 0.8618277720444903, "step": 1879}, {"loss": 2.260648727416992, "grad_norm": 0.3527158498764038, "learning_rate": 4.914793813231305e-05, "token_acc": 0.4970178926441352, "epoch": 0.862286435041853, "step": 1880}, {"loss": 2.195263624191284, "grad_norm": 0.34461072087287903, "learning_rate": 4.882732947041818e-05, "token_acc": 0.5156337241764377, "epoch": 0.8627450980392157, "step": 1881}, {"loss": 2.3481085300445557, "grad_norm": 0.3604516088962555, "learning_rate": 4.850771626369416e-05, "token_acc": 0.49060965039006066, "epoch": 0.8632037610365784, "step": 1882}, {"loss": 2.3260040283203125, "grad_norm": 0.3438739478588104, "learning_rate": 4.818909921732662e-05, "token_acc": 0.49624494511842865, "epoch": 0.8636624240339411, "step": 1883}, {"loss": 2.35025691986084, "grad_norm": 0.3481057286262512, "learning_rate": 4.787147903430383e-05, "token_acc": 0.5023319615912208, "epoch": 0.8641210870313037, "step": 1884}, {"loss": 2.2724039554595947, "grad_norm": 0.3431238830089569, "learning_rate": 4.755485641541424e-05, "token_acc": 0.49873132224415, "epoch": 0.8645797500286664, "step": 1885}, {"loss": 2.3354969024658203, "grad_norm": 0.3499290943145752, "learning_rate": 4.723923205924557e-05, "token_acc": 0.5083309799491669, "epoch": 0.8650384130260291, "step": 1886}, {"loss": 2.3091864585876465, "grad_norm": 0.356599360704422, "learning_rate": 4.6924606662182736e-05, "token_acc": 0.49985823646158206, "epoch": 0.8654970760233918, "step": 1887}, {"loss": 2.3585987091064453, "grad_norm": 0.34929320216178894, "learning_rate": 4.6610980918406596e-05, "token_acc": 0.4893857911123691, "epoch": 0.8659557390207545, "step": 1888}, {"loss": 2.2558937072753906, "grad_norm": 0.34878596663475037, "learning_rate": 4.629835551989276e-05, "token_acc": 0.4980192416525184, "epoch": 0.8664144020181171, "step": 1889}, {"loss": 2.496164321899414, "grad_norm": 0.3565264344215393, "learning_rate": 4.5986731156409224e-05, "token_acc": 0.46900420757363254, "epoch": 0.8668730650154799, "step": 1890}, {"loss": 2.234647035598755, "grad_norm": 0.3931976556777954, "learning_rate": 4.567610851551568e-05, "token_acc": 0.5165637282425604, "epoch": 0.8673317280128425, "step": 1891}, {"loss": 2.4563851356506348, "grad_norm": 0.35193535685539246, "learning_rate": 4.536648828256146e-05, "token_acc": 0.4760312151616499, "epoch": 0.8677903910102053, "step": 1892}, {"loss": 2.360513210296631, "grad_norm": 0.3495912551879883, "learning_rate": 4.505787114068433e-05, "token_acc": 0.4904494382022472, "epoch": 0.8682490540075679, "step": 1893}, {"loss": 2.3418056964874268, "grad_norm": 0.3591647446155548, "learning_rate": 4.4750257770808764e-05, "token_acc": 0.48559077809798273, "epoch": 0.8687077170049307, "step": 1894}, {"loss": 2.387608528137207, "grad_norm": 0.34019190073013306, "learning_rate": 4.444364885164448e-05, "token_acc": 0.4825272574783338, "epoch": 0.8691663800022933, "step": 1895}, {"loss": 2.3120670318603516, "grad_norm": 0.3473565876483917, "learning_rate": 4.413804505968533e-05, "token_acc": 0.5047117516629712, "epoch": 0.869625042999656, "step": 1896}, {"loss": 2.4210891723632812, "grad_norm": 0.3564021587371826, "learning_rate": 4.3833447069206944e-05, "token_acc": 0.4893078221722003, "epoch": 0.8700837059970187, "step": 1897}, {"loss": 2.386613368988037, "grad_norm": 0.34622690081596375, "learning_rate": 4.352985555226635e-05, "token_acc": 0.4785395763656633, "epoch": 0.8705423689943814, "step": 1898}, {"loss": 2.2411556243896484, "grad_norm": 0.349586546421051, "learning_rate": 4.322727117869951e-05, "token_acc": 0.5109953703703703, "epoch": 0.8710010319917441, "step": 1899}, {"loss": 2.3328495025634766, "grad_norm": 0.3576890528202057, "learning_rate": 4.29256946161205e-05, "token_acc": 0.4946297343131713, "epoch": 0.8714596949891068, "step": 1900}, {"loss": 2.282243251800537, "grad_norm": 0.3405376076698303, "learning_rate": 4.262512652991968e-05, "token_acc": 0.5084745762711864, "epoch": 0.8719183579864694, "step": 1901}, {"loss": 2.3239049911499023, "grad_norm": 0.346627414226532, "learning_rate": 4.2325567583262113e-05, "token_acc": 0.4968873797396718, "epoch": 0.8723770209838321, "step": 1902}, {"loss": 2.2903809547424316, "grad_norm": 0.35646572709083557, "learning_rate": 4.2027018437086895e-05, "token_acc": 0.5112391930835735, "epoch": 0.8728356839811948, "step": 1903}, {"loss": 2.331043243408203, "grad_norm": 0.3371918797492981, "learning_rate": 4.172947975010449e-05, "token_acc": 0.4977900552486188, "epoch": 0.8732943469785575, "step": 1904}, {"loss": 2.3226513862609863, "grad_norm": 0.32650047540664673, "learning_rate": 4.143295217879645e-05, "token_acc": 0.4959598774031764, "epoch": 0.8737530099759202, "step": 1905}, {"loss": 2.224803924560547, "grad_norm": 0.34066784381866455, "learning_rate": 4.113743637741296e-05, "token_acc": 0.5123111359820929, "epoch": 0.8742116729732828, "step": 1906}, {"loss": 2.3969545364379883, "grad_norm": 0.3336503505706787, "learning_rate": 4.084293299797226e-05, "token_acc": 0.4816326530612245, "epoch": 0.8746703359706456, "step": 1907}, {"loss": 2.338252067565918, "grad_norm": 0.34670203924179077, "learning_rate": 4.054944269025862e-05, "token_acc": 0.4933078393881453, "epoch": 0.8751289989680082, "step": 1908}, {"loss": 2.326305627822876, "grad_norm": 0.3452502191066742, "learning_rate": 4.025696610182095e-05, "token_acc": 0.4902349278233796, "epoch": 0.875587661965371, "step": 1909}, {"loss": 2.225217819213867, "grad_norm": 0.33914950489997864, "learning_rate": 3.996550387797187e-05, "token_acc": 0.5201556852932999, "epoch": 0.8760463249627336, "step": 1910}, {"loss": 2.32301664352417, "grad_norm": 0.3784179389476776, "learning_rate": 3.9675056661785556e-05, "token_acc": 0.49154969922658265, "epoch": 0.8765049879600963, "step": 1911}, {"loss": 2.432009696960449, "grad_norm": 0.34889161586761475, "learning_rate": 3.9385625094097154e-05, "token_acc": 0.47560627674750355, "epoch": 0.876963650957459, "step": 1912}, {"loss": 2.3155713081359863, "grad_norm": 0.348724901676178, "learning_rate": 3.909720981350034e-05, "token_acc": 0.48368200836820086, "epoch": 0.8774223139548217, "step": 1913}, {"loss": 2.3566064834594727, "grad_norm": 0.33795198798179626, "learning_rate": 3.880981145634704e-05, "token_acc": 0.5001373249107388, "epoch": 0.8778809769521844, "step": 1914}, {"loss": 2.400451421737671, "grad_norm": 0.33012568950653076, "learning_rate": 3.852343065674507e-05, "token_acc": 0.4868165417707466, "epoch": 0.8783396399495471, "step": 1915}, {"loss": 2.2927944660186768, "grad_norm": 0.3260754346847534, "learning_rate": 3.8238068046557276e-05, "token_acc": 0.4871099050203528, "epoch": 0.8787983029469097, "step": 1916}, {"loss": 2.3306884765625, "grad_norm": 0.3363783657550812, "learning_rate": 3.795372425540006e-05, "token_acc": 0.49074329925393756, "epoch": 0.8792569659442725, "step": 1917}, {"loss": 2.3431873321533203, "grad_norm": 0.32986387610435486, "learning_rate": 3.76703999106418e-05, "token_acc": 0.48668885191347755, "epoch": 0.8797156289416351, "step": 1918}, {"loss": 2.241054058074951, "grad_norm": 0.3526691496372223, "learning_rate": 3.7388095637401754e-05, "token_acc": 0.50748459054887, "epoch": 0.8801742919389978, "step": 1919}, {"loss": 2.4098222255706787, "grad_norm": 0.3382164239883423, "learning_rate": 3.7106812058548376e-05, "token_acc": 0.5007235890014472, "epoch": 0.8806329549363605, "step": 1920}, {"loss": 2.3490705490112305, "grad_norm": 0.3539363443851471, "learning_rate": 3.682654979469807e-05, "token_acc": 0.48076383038472337, "epoch": 0.8810916179337231, "step": 1921}, {"loss": 2.3809146881103516, "grad_norm": 0.3289749026298523, "learning_rate": 3.654730946421403e-05, "token_acc": 0.4833715596330275, "epoch": 0.8815502809310859, "step": 1922}, {"loss": 2.3809540271759033, "grad_norm": 0.35224565863609314, "learning_rate": 3.6269091683204466e-05, "token_acc": 0.5006961849067112, "epoch": 0.8820089439284485, "step": 1923}, {"loss": 2.434966564178467, "grad_norm": 0.34404832124710083, "learning_rate": 3.5991897065521693e-05, "token_acc": 0.48721511951083935, "epoch": 0.8824676069258113, "step": 1924}, {"loss": 2.3249623775482178, "grad_norm": 0.36163192987442017, "learning_rate": 3.571572622276026e-05, "token_acc": 0.5135212888377445, "epoch": 0.8829262699231739, "step": 1925}, {"loss": 2.263253688812256, "grad_norm": 0.3366922438144684, "learning_rate": 3.544057976425619e-05, "token_acc": 0.49521465682253213, "epoch": 0.8833849329205367, "step": 1926}, {"loss": 2.2945990562438965, "grad_norm": 0.3323342204093933, "learning_rate": 3.5166458297085146e-05, "token_acc": 0.5084840055632823, "epoch": 0.8838435959178993, "step": 1927}, {"loss": 2.3411989212036133, "grad_norm": 0.35745319724082947, "learning_rate": 3.489336242606111e-05, "token_acc": 0.49016203703703703, "epoch": 0.884302258915262, "step": 1928}, {"loss": 2.3102035522460938, "grad_norm": 0.34900030493736267, "learning_rate": 3.462129275373577e-05, "token_acc": 0.4896004378762999, "epoch": 0.8847609219126247, "step": 1929}, {"loss": 2.283487558364868, "grad_norm": 0.3383863866329193, "learning_rate": 3.4350249880395924e-05, "token_acc": 0.5040401225968236, "epoch": 0.8852195849099874, "step": 1930}, {"loss": 2.2258594036102295, "grad_norm": 0.32288071513175964, "learning_rate": 3.408023440406355e-05, "token_acc": 0.5165745856353591, "epoch": 0.8856782479073501, "step": 1931}, {"loss": 2.3541009426116943, "grad_norm": 0.36917999386787415, "learning_rate": 3.381124692049331e-05, "token_acc": 0.4850182021842621, "epoch": 0.8861369109047128, "step": 1932}, {"loss": 2.418692111968994, "grad_norm": 0.33864521980285645, "learning_rate": 3.354328802317197e-05, "token_acc": 0.4846473029045643, "epoch": 0.8865955739020754, "step": 1933}, {"loss": 2.3102731704711914, "grad_norm": 0.33407339453697205, "learning_rate": 3.327635830331677e-05, "token_acc": 0.4883398112159911, "epoch": 0.8870542368994382, "step": 1934}, {"loss": 2.3274271488189697, "grad_norm": 0.3547273278236389, "learning_rate": 3.3010458349874206e-05, "token_acc": 0.5056850483229107, "epoch": 0.8875128998968008, "step": 1935}, {"loss": 2.3530149459838867, "grad_norm": 0.3932439982891083, "learning_rate": 3.2745588749518775e-05, "token_acc": 0.49493243243243246, "epoch": 0.8879715628941636, "step": 1936}, {"loss": 2.286787986755371, "grad_norm": 0.3504945635795593, "learning_rate": 3.248175008665161e-05, "token_acc": 0.4957313602731929, "epoch": 0.8884302258915262, "step": 1937}, {"loss": 2.3112597465515137, "grad_norm": 0.3506946861743927, "learning_rate": 3.221894294339911e-05, "token_acc": 0.5051399200456882, "epoch": 0.8888888888888888, "step": 1938}, {"loss": 2.3393359184265137, "grad_norm": 0.3374845087528229, "learning_rate": 3.1957167899611836e-05, "token_acc": 0.4937466014138119, "epoch": 0.8893475518862516, "step": 1939}, {"loss": 2.4234485626220703, "grad_norm": 0.34044623374938965, "learning_rate": 3.169642553286334e-05, "token_acc": 0.47452407614781633, "epoch": 0.8898062148836142, "step": 1940}, {"loss": 2.317091464996338, "grad_norm": 0.34031492471694946, "learning_rate": 3.143671641844831e-05, "token_acc": 0.5057565789473685, "epoch": 0.890264877880977, "step": 1941}, {"loss": 2.295835018157959, "grad_norm": 0.37146690487861633, "learning_rate": 3.117804112938205e-05, "token_acc": 0.5030538589672404, "epoch": 0.8907235408783396, "step": 1942}, {"loss": 2.332411766052246, "grad_norm": 0.34840840101242065, "learning_rate": 3.092040023639869e-05, "token_acc": 0.4861816130851664, "epoch": 0.8911822038757024, "step": 1943}, {"loss": 2.327288866043091, "grad_norm": 0.34565091133117676, "learning_rate": 3.066379430795002e-05, "token_acc": 0.5061077179344808, "epoch": 0.891640866873065, "step": 1944}, {"loss": 2.373246192932129, "grad_norm": 0.3513728678226471, "learning_rate": 3.040822391020459e-05, "token_acc": 0.49233769852326553, "epoch": 0.8920995298704277, "step": 1945}, {"loss": 2.340646266937256, "grad_norm": 0.34450462460517883, "learning_rate": 3.0153689607045842e-05, "token_acc": 0.49351000540832884, "epoch": 0.8925581928677904, "step": 1946}, {"loss": 2.323350429534912, "grad_norm": 0.3527611792087555, "learning_rate": 2.9900191960071545e-05, "token_acc": 0.48221786614393725, "epoch": 0.8930168558651531, "step": 1947}, {"loss": 2.3266754150390625, "grad_norm": 0.32077494263648987, "learning_rate": 2.9647731528591848e-05, "token_acc": 0.4935704514363885, "epoch": 0.8934755188625157, "step": 1948}, {"loss": 2.3253722190856934, "grad_norm": 0.35171034932136536, "learning_rate": 2.9396308869628795e-05, "token_acc": 0.49752611324903795, "epoch": 0.8939341818598785, "step": 1949}, {"loss": 2.2291510105133057, "grad_norm": 0.35658660531044006, "learning_rate": 2.914592453791448e-05, "token_acc": 0.5065844774446624, "epoch": 0.8943928448572411, "step": 1950}, {"loss": 2.298976421356201, "grad_norm": 0.3288397789001465, "learning_rate": 2.8896579085889994e-05, "token_acc": 0.49466484268125854, "epoch": 0.8948515078546039, "step": 1951}, {"loss": 2.241769313812256, "grad_norm": 0.3537818491458893, "learning_rate": 2.86482730637046e-05, "token_acc": 0.4859839816933638, "epoch": 0.8953101708519665, "step": 1952}, {"loss": 2.3408279418945312, "grad_norm": 0.3319143056869507, "learning_rate": 2.840100701921383e-05, "token_acc": 0.4912179671753527, "epoch": 0.8957688338493293, "step": 1953}, {"loss": 2.398258686065674, "grad_norm": 0.3537519574165344, "learning_rate": 2.8154781497978898e-05, "token_acc": 0.48768606224627875, "epoch": 0.8962274968466919, "step": 1954}, {"loss": 2.2318286895751953, "grad_norm": 0.35952675342559814, "learning_rate": 2.7909597043265013e-05, "token_acc": 0.5102330869812394, "epoch": 0.8966861598440545, "step": 1955}, {"loss": 2.447822093963623, "grad_norm": 0.3568873107433319, "learning_rate": 2.7665454196040662e-05, "token_acc": 0.4745945945945946, "epoch": 0.8971448228414173, "step": 1956}, {"loss": 2.2397472858428955, "grad_norm": 0.3545272946357727, "learning_rate": 2.7422353494975905e-05, "token_acc": 0.5025, "epoch": 0.8976034858387799, "step": 1957}, {"loss": 2.2786643505096436, "grad_norm": 0.33152303099632263, "learning_rate": 2.7180295476441573e-05, "token_acc": 0.5153407548194406, "epoch": 0.8980621488361427, "step": 1958}, {"loss": 2.3911585807800293, "grad_norm": 0.34092867374420166, "learning_rate": 2.6939280674508016e-05, "token_acc": 0.4718826405867971, "epoch": 0.8985208118335053, "step": 1959}, {"loss": 2.31127667427063, "grad_norm": 0.34896132349967957, "learning_rate": 2.669930962094358e-05, "token_acc": 0.5040401225968236, "epoch": 0.898979474830868, "step": 1960}, {"loss": 2.380032539367676, "grad_norm": 0.3546248972415924, "learning_rate": 2.6460382845214126e-05, "token_acc": 0.4902122966639096, "epoch": 0.8994381378282307, "step": 1961}, {"loss": 2.3645501136779785, "grad_norm": 0.3504306375980377, "learning_rate": 2.6222500874481025e-05, "token_acc": 0.4916810097532989, "epoch": 0.8998968008255934, "step": 1962}, {"loss": 2.263450860977173, "grad_norm": 0.3660736680030823, "learning_rate": 2.5985664233600827e-05, "token_acc": 0.5102681118083285, "epoch": 0.9003554638229561, "step": 1963}, {"loss": 2.3248138427734375, "grad_norm": 0.3365185856819153, "learning_rate": 2.574987344512336e-05, "token_acc": 0.49672084402623323, "epoch": 0.9008141268203188, "step": 1964}, {"loss": 2.3102612495422363, "grad_norm": 0.34839728474617004, "learning_rate": 2.5515129029290984e-05, "token_acc": 0.5005727376861397, "epoch": 0.9012727898176814, "step": 1965}, {"loss": 2.2776575088500977, "grad_norm": 0.34304359555244446, "learning_rate": 2.5281431504037556e-05, "token_acc": 0.5128792215226102, "epoch": 0.9017314528150442, "step": 1966}, {"loss": 2.281919479370117, "grad_norm": 0.3406859338283539, "learning_rate": 2.504878138498684e-05, "token_acc": 0.5009644530173601, "epoch": 0.9021901158124068, "step": 1967}, {"loss": 2.324916362762451, "grad_norm": 0.3376754820346832, "learning_rate": 2.48171791854519e-05, "token_acc": 0.4943374858437146, "epoch": 0.9026487788097696, "step": 1968}, {"loss": 2.3978116512298584, "grad_norm": 0.3408062160015106, "learning_rate": 2.4586625416433473e-05, "token_acc": 0.4809536859413538, "epoch": 0.9031074418071322, "step": 1969}, {"loss": 2.31131911277771, "grad_norm": 0.3415771424770355, "learning_rate": 2.435712058661921e-05, "token_acc": 0.48966480446927374, "epoch": 0.903566104804495, "step": 1970}, {"loss": 2.278390645980835, "grad_norm": 0.3390965163707733, "learning_rate": 2.4128665202382327e-05, "token_acc": 0.5093081411503195, "epoch": 0.9040247678018576, "step": 1971}, {"loss": 2.2257015705108643, "grad_norm": 0.3491651117801666, "learning_rate": 2.3901259767780515e-05, "token_acc": 0.5162647223780146, "epoch": 0.9044834307992202, "step": 1972}, {"loss": 2.389982223510742, "grad_norm": 0.36659112572669983, "learning_rate": 2.367490478455514e-05, "token_acc": 0.4817056396148556, "epoch": 0.904942093796583, "step": 1973}, {"loss": 2.40696382522583, "grad_norm": 0.34485214948654175, "learning_rate": 2.3449600752129597e-05, "token_acc": 0.4791957553755934, "epoch": 0.9054007567939456, "step": 1974}, {"loss": 2.3907063007354736, "grad_norm": 0.34363695979118347, "learning_rate": 2.3225348167608685e-05, "token_acc": 0.4834187112429226, "epoch": 0.9058594197913084, "step": 1975}, {"loss": 2.33627986907959, "grad_norm": 0.36876770853996277, "learning_rate": 2.3002147525777118e-05, "token_acc": 0.496875, "epoch": 0.906318082788671, "step": 1976}, {"loss": 2.406512975692749, "grad_norm": 0.3767753541469574, "learning_rate": 2.2779999319098856e-05, "token_acc": 0.48400352216025827, "epoch": 0.9067767457860337, "step": 1977}, {"loss": 2.4416961669921875, "grad_norm": 0.35412389039993286, "learning_rate": 2.255890403771571e-05, "token_acc": 0.4797058022337238, "epoch": 0.9072354087833964, "step": 1978}, {"loss": 2.257330894470215, "grad_norm": 0.35427266359329224, "learning_rate": 2.233886216944614e-05, "token_acc": 0.5059017293439473, "epoch": 0.9076940717807591, "step": 1979}, {"loss": 2.4038097858428955, "grad_norm": 0.3480878472328186, "learning_rate": 2.211987419978484e-05, "token_acc": 0.4867798497077651, "epoch": 0.9081527347781218, "step": 1980}, {"loss": 2.3939414024353027, "grad_norm": 0.3471308648586273, "learning_rate": 2.1901940611900705e-05, "token_acc": 0.4843110504774898, "epoch": 0.9086113977754845, "step": 1981}, {"loss": 2.367527484893799, "grad_norm": 0.34885460138320923, "learning_rate": 2.168506188663666e-05, "token_acc": 0.4946384382733022, "epoch": 0.9090700607728471, "step": 1982}, {"loss": 2.3397727012634277, "grad_norm": 0.3513716459274292, "learning_rate": 2.1469238502507925e-05, "token_acc": 0.490473441108545, "epoch": 0.9095287237702099, "step": 1983}, {"loss": 2.3433427810668945, "grad_norm": 0.35325193405151367, "learning_rate": 2.125447093570154e-05, "token_acc": 0.4988642816581488, "epoch": 0.9099873867675725, "step": 1984}, {"loss": 2.2619080543518066, "grad_norm": 0.3568861186504364, "learning_rate": 2.1040759660074793e-05, "token_acc": 0.49764428739693756, "epoch": 0.9104460497649353, "step": 1985}, {"loss": 2.2690229415893555, "grad_norm": 0.33976322412490845, "learning_rate": 2.0828105147154273e-05, "token_acc": 0.5021881838074398, "epoch": 0.9109047127622979, "step": 1986}, {"loss": 2.262986660003662, "grad_norm": 0.337329238653183, "learning_rate": 2.061650786613545e-05, "token_acc": 0.49471046770601335, "epoch": 0.9113633757596606, "step": 1987}, {"loss": 2.340639591217041, "grad_norm": 0.3602612316608429, "learning_rate": 2.040596828388058e-05, "token_acc": 0.49459084604715675, "epoch": 0.9118220387570233, "step": 1988}, {"loss": 2.3168845176696777, "grad_norm": 0.3446958363056183, "learning_rate": 2.019648686491865e-05, "token_acc": 0.498486099642169, "epoch": 0.9122807017543859, "step": 1989}, {"loss": 2.285585641860962, "grad_norm": 0.3297688663005829, "learning_rate": 1.9988064071443767e-05, "token_acc": 0.49986029617211514, "epoch": 0.9127393647517487, "step": 1990}, {"loss": 2.2517731189727783, "grad_norm": 0.36058929562568665, "learning_rate": 1.9780700363314253e-05, "token_acc": 0.5017103762827823, "epoch": 0.9131980277491113, "step": 1991}, {"loss": 2.2948570251464844, "grad_norm": 0.35496366024017334, "learning_rate": 1.957439619805196e-05, "token_acc": 0.49843971631205675, "epoch": 0.913656690746474, "step": 1992}, {"loss": 2.3222427368164062, "grad_norm": 0.33351022005081177, "learning_rate": 1.9369152030840554e-05, "token_acc": 0.5050223214285714, "epoch": 0.9141153537438367, "step": 1993}, {"loss": 2.30348539352417, "grad_norm": 0.33928194642066956, "learning_rate": 1.916496831452552e-05, "token_acc": 0.49781181619256015, "epoch": 0.9145740167411994, "step": 1994}, {"loss": 2.2647271156311035, "grad_norm": 0.3465850055217743, "learning_rate": 1.8961845499611998e-05, "token_acc": 0.5027042413891261, "epoch": 0.9150326797385621, "step": 1995}, {"loss": 2.2912468910217285, "grad_norm": 0.33816853165626526, "learning_rate": 1.8759784034264925e-05, "token_acc": 0.49342481417953116, "epoch": 0.9154913427359248, "step": 1996}, {"loss": 2.423896312713623, "grad_norm": 0.35156700015068054, "learning_rate": 1.855878436430708e-05, "token_acc": 0.5009812167087188, "epoch": 0.9159500057332874, "step": 1997}, {"loss": 2.2609198093414307, "grad_norm": 0.33435505628585815, "learning_rate": 1.835884693321871e-05, "token_acc": 0.5063254744105808, "epoch": 0.9164086687306502, "step": 1998}, {"loss": 2.3326003551483154, "grad_norm": 0.3435823917388916, "learning_rate": 1.8159972182136386e-05, "token_acc": 0.4881845982763414, "epoch": 0.9168673317280128, "step": 1999}, {"loss": 2.3448486328125, "grad_norm": 0.33998167514801025, "learning_rate": 1.7962160549851945e-05, "token_acc": 0.4971799210377891, "epoch": 0.9173259947253756, "step": 2000}, {"loss": 2.3072729110717773, "grad_norm": 0.34659314155578613, "learning_rate": 1.776541247281177e-05, "token_acc": 0.4933297032398584, "epoch": 0.9177846577227382, "step": 2001}, {"loss": 2.3381524085998535, "grad_norm": 0.34643375873565674, "learning_rate": 1.7569728385115224e-05, "token_acc": 0.4984272233342865, "epoch": 0.918243320720101, "step": 2002}, {"loss": 2.318788528442383, "grad_norm": 0.3384282886981964, "learning_rate": 1.7375108718514665e-05, "token_acc": 0.501779359430605, "epoch": 0.9187019837174636, "step": 2003}, {"loss": 2.266413688659668, "grad_norm": 0.34796348214149475, "learning_rate": 1.7181553902413438e-05, "token_acc": 0.4995775837792171, "epoch": 0.9191606467148263, "step": 2004}, {"loss": 2.2758729457855225, "grad_norm": 0.35491958260536194, "learning_rate": 1.698906436386577e-05, "token_acc": 0.495458298926507, "epoch": 0.919619309712189, "step": 2005}, {"loss": 2.3720903396606445, "grad_norm": 0.36139991879463196, "learning_rate": 1.679764052757532e-05, "token_acc": 0.48465729853742473, "epoch": 0.9200779727095516, "step": 2006}, {"loss": 2.392813205718994, "grad_norm": 0.34324124455451965, "learning_rate": 1.6607282815894464e-05, "token_acc": 0.4852203011712214, "epoch": 0.9205366357069144, "step": 2007}, {"loss": 2.2737932205200195, "grad_norm": 0.3480576276779175, "learning_rate": 1.6417991648823405e-05, "token_acc": 0.5043527099129458, "epoch": 0.920995298704277, "step": 2008}, {"loss": 2.3466947078704834, "grad_norm": 0.3392677903175354, "learning_rate": 1.6229767444008835e-05, "token_acc": 0.5034751181540172, "epoch": 0.9214539617016397, "step": 2009}, {"loss": 2.4845330715179443, "grad_norm": 0.34907811880111694, "learning_rate": 1.604261061674378e-05, "token_acc": 0.4798973481608212, "epoch": 0.9219126246990024, "step": 2010}, {"loss": 2.2969608306884766, "grad_norm": 0.345039039850235, "learning_rate": 1.5856521579965865e-05, "token_acc": 0.5039520305260289, "epoch": 0.9223712876963651, "step": 2011}, {"loss": 2.465947389602661, "grad_norm": 0.3604145050048828, "learning_rate": 1.5671500744256938e-05, "token_acc": 0.4702835332606325, "epoch": 0.9228299506937278, "step": 2012}, {"loss": 2.320117473602295, "grad_norm": 0.341515451669693, "learning_rate": 1.5487548517841953e-05, "token_acc": 0.49585406301824214, "epoch": 0.9232886136910905, "step": 2013}, {"loss": 2.438481569290161, "grad_norm": 0.35139694809913635, "learning_rate": 1.530466530658814e-05, "token_acc": 0.4845565315953528, "epoch": 0.9237472766884531, "step": 2014}, {"loss": 2.3411712646484375, "grad_norm": 0.3533616364002228, "learning_rate": 1.5122851514004054e-05, "token_acc": 0.4884931506849315, "epoch": 0.9242059396858159, "step": 2015}, {"loss": 2.2957887649536133, "grad_norm": 0.33342835307121277, "learning_rate": 1.4942107541238703e-05, "token_acc": 0.4964902807775378, "epoch": 0.9246646026831785, "step": 2016}, {"loss": 2.3501577377319336, "grad_norm": 0.3418954312801361, "learning_rate": 1.4762433787080809e-05, "token_acc": 0.49530315969257044, "epoch": 0.9251232656805413, "step": 2017}, {"loss": 2.341806650161743, "grad_norm": 0.3409854471683502, "learning_rate": 1.4583830647957541e-05, "token_acc": 0.5015532335498447, "epoch": 0.9255819286779039, "step": 2018}, {"loss": 2.2648634910583496, "grad_norm": 0.3436015248298645, "learning_rate": 1.4406298517934068e-05, "token_acc": 0.5108077360637088, "epoch": 0.9260405916752666, "step": 2019}, {"loss": 2.421537160873413, "grad_norm": 0.3518248200416565, "learning_rate": 1.4229837788712562e-05, "token_acc": 0.48645660585959094, "epoch": 0.9264992546726293, "step": 2020}, {"loss": 2.3856124877929688, "grad_norm": 0.3443833291530609, "learning_rate": 1.4054448849631085e-05, "token_acc": 0.47927979422692196, "epoch": 0.926957917669992, "step": 2021}, {"loss": 2.281203031539917, "grad_norm": 0.338298499584198, "learning_rate": 1.3880132087663145e-05, "token_acc": 0.487292817679558, "epoch": 0.9274165806673547, "step": 2022}, {"loss": 2.3371479511260986, "grad_norm": 0.35015931725502014, "learning_rate": 1.3706887887416419e-05, "token_acc": 0.48771057718862193, "epoch": 0.9278752436647173, "step": 2023}, {"loss": 2.315218448638916, "grad_norm": 0.3410496413707733, "learning_rate": 1.3534716631132316e-05, "token_acc": 0.49594907407407407, "epoch": 0.92833390666208, "step": 2024}, {"loss": 2.247438907623291, "grad_norm": 0.35189807415008545, "learning_rate": 1.3363618698684853e-05, "token_acc": 0.509032634032634, "epoch": 0.9287925696594427, "step": 2025}, {"loss": 2.239839792251587, "grad_norm": 0.35277318954467773, "learning_rate": 1.3193594467579728e-05, "token_acc": 0.5105146651909241, "epoch": 0.9292512326568054, "step": 2026}, {"loss": 2.4409332275390625, "grad_norm": 0.3435315787792206, "learning_rate": 1.3024644312954026e-05, "token_acc": 0.4703611800385994, "epoch": 0.9297098956541681, "step": 2027}, {"loss": 2.3659956455230713, "grad_norm": 0.3435937464237213, "learning_rate": 1.2856768607574564e-05, "token_acc": 0.48815566835871405, "epoch": 0.9301685586515308, "step": 2028}, {"loss": 2.302403450012207, "grad_norm": 0.3456394076347351, "learning_rate": 1.2689967721837947e-05, "token_acc": 0.5039795338260376, "epoch": 0.9306272216488934, "step": 2029}, {"loss": 2.3951568603515625, "grad_norm": 0.34674084186553955, "learning_rate": 1.2524242023769006e-05, "token_acc": 0.4766853184119371, "epoch": 0.9310858846462562, "step": 2030}, {"loss": 2.2192769050598145, "grad_norm": 0.3473178744316101, "learning_rate": 1.2359591879020526e-05, "token_acc": 0.5094082356149441, "epoch": 0.9315445476436188, "step": 2031}, {"loss": 2.432046413421631, "grad_norm": 0.3381739556789398, "learning_rate": 1.2196017650872081e-05, "token_acc": 0.4826533444351929, "epoch": 0.9320032106409816, "step": 2032}, {"loss": 2.365118980407715, "grad_norm": 0.33930835127830505, "learning_rate": 1.2033519700229367e-05, "token_acc": 0.48892626857303056, "epoch": 0.9324618736383442, "step": 2033}, {"loss": 2.3834500312805176, "grad_norm": 0.35070154070854187, "learning_rate": 1.1872098385623586e-05, "token_acc": 0.48995756718528993, "epoch": 0.932920536635707, "step": 2034}, {"loss": 2.2536823749542236, "grad_norm": 0.35847169160842896, "learning_rate": 1.1711754063210289e-05, "token_acc": 0.5080691642651297, "epoch": 0.9333791996330696, "step": 2035}, {"loss": 2.2835161685943604, "grad_norm": 0.335553914308548, "learning_rate": 1.155248708676887e-05, "token_acc": 0.5076704545454546, "epoch": 0.9338378626304323, "step": 2036}, {"loss": 2.2880544662475586, "grad_norm": 0.37388238310813904, "learning_rate": 1.1394297807701737e-05, "token_acc": 0.505370421371523, "epoch": 0.934296525627795, "step": 2037}, {"loss": 2.345843553543091, "grad_norm": 0.3484659790992737, "learning_rate": 1.1237186575033254e-05, "token_acc": 0.4920504385964912, "epoch": 0.9347551886251577, "step": 2038}, {"loss": 2.296954393386841, "grad_norm": 0.3438500463962555, "learning_rate": 1.1081153735409522e-05, "token_acc": 0.4915842906759284, "epoch": 0.9352138516225204, "step": 2039}, {"loss": 2.3498778343200684, "grad_norm": 0.38374483585357666, "learning_rate": 1.0926199633097156e-05, "token_acc": 0.49286936679977184, "epoch": 0.935672514619883, "step": 2040}, {"loss": 2.305691719055176, "grad_norm": 0.35035616159439087, "learning_rate": 1.0772324609982787e-05, "token_acc": 0.49038461538461536, "epoch": 0.9361311776172457, "step": 2041}, {"loss": 2.3142271041870117, "grad_norm": 0.354679137468338, "learning_rate": 1.0619529005571893e-05, "token_acc": 0.49916013437849943, "epoch": 0.9365898406146084, "step": 2042}, {"loss": 2.4606692790985107, "grad_norm": 0.35288292169570923, "learning_rate": 1.0467813156988748e-05, "token_acc": 0.4806551821519345, "epoch": 0.9370485036119711, "step": 2043}, {"loss": 2.3089842796325684, "grad_norm": 0.3501777648925781, "learning_rate": 1.0317177398975031e-05, "token_acc": 0.49214365881032546, "epoch": 0.9375071666093338, "step": 2044}, {"loss": 2.3087873458862305, "grad_norm": 0.35698404908180237, "learning_rate": 1.0167622063889326e-05, "token_acc": 0.488988012266518, "epoch": 0.9379658296066965, "step": 2045}, {"loss": 2.38759446144104, "grad_norm": 0.3369910717010498, "learning_rate": 1.0019147481706625e-05, "token_acc": 0.48082676094642374, "epoch": 0.9384244926040591, "step": 2046}, {"loss": 2.3229198455810547, "grad_norm": 0.32841262221336365, "learning_rate": 9.871753980017051e-06, "token_acc": 0.4954423592493298, "epoch": 0.9388831556014219, "step": 2047}, {"loss": 2.361814022064209, "grad_norm": 0.34372687339782715, "learning_rate": 9.725441884025855e-06, "token_acc": 0.48622852467957456, "epoch": 0.9393418185987845, "step": 2048}, {"loss": 2.3079724311828613, "grad_norm": 0.34878838062286377, "learning_rate": 9.580211516551862e-06, "token_acc": 0.5056303213402912, "epoch": 0.9398004815961473, "step": 2049}, {"loss": 2.3592705726623535, "grad_norm": 0.36684298515319824, "learning_rate": 9.436063198027589e-06, "token_acc": 0.49142535844813046, "epoch": 0.9402591445935099, "step": 2050}, {"loss": 2.3012423515319824, "grad_norm": 0.34837597608566284, "learning_rate": 9.292997246497959e-06, "token_acc": 0.4933920704845815, "epoch": 0.9407178075908726, "step": 2051}, {"loss": 2.295048952102661, "grad_norm": 0.34060338139533997, "learning_rate": 9.151013977619693e-06, "token_acc": 0.4927657206455203, "epoch": 0.9411764705882353, "step": 2052}, {"loss": 2.3969879150390625, "grad_norm": 0.34118080139160156, "learning_rate": 9.010113704661038e-06, "token_acc": 0.47378327507394463, "epoch": 0.941635133585598, "step": 2053}, {"loss": 2.4100542068481445, "grad_norm": 0.35070735216140747, "learning_rate": 8.870296738500316e-06, "token_acc": 0.48577740955537146, "epoch": 0.9420937965829607, "step": 2054}, {"loss": 2.3623621463775635, "grad_norm": 0.3478294312953949, "learning_rate": 8.731563387626095e-06, "token_acc": 0.4850415512465374, "epoch": 0.9425524595803234, "step": 2055}, {"loss": 2.311115264892578, "grad_norm": 0.34612318873405457, "learning_rate": 8.59391395813569e-06, "token_acc": 0.49594405594405594, "epoch": 0.943011122577686, "step": 2056}, {"loss": 2.2877466678619385, "grad_norm": 0.3302360475063324, "learning_rate": 8.457348753735328e-06, "token_acc": 0.5027716186252772, "epoch": 0.9434697855750487, "step": 2057}, {"loss": 2.29952335357666, "grad_norm": 0.33415380120277405, "learning_rate": 8.321868075738593e-06, "token_acc": 0.5063469675599436, "epoch": 0.9439284485724114, "step": 2058}, {"loss": 2.259887933731079, "grad_norm": 0.35393401980400085, "learning_rate": 8.187472223066371e-06, "token_acc": 0.4948717948717949, "epoch": 0.9443871115697741, "step": 2059}, {"loss": 2.300767183303833, "grad_norm": 0.3527378737926483, "learning_rate": 8.054161492246136e-06, "token_acc": 0.4979472140762463, "epoch": 0.9448457745671368, "step": 2060}, {"loss": 2.329751491546631, "grad_norm": 0.35494062304496765, "learning_rate": 7.921936177411049e-06, "token_acc": 0.4918548156616176, "epoch": 0.9453044375644994, "step": 2061}, {"loss": 2.331101894378662, "grad_norm": 0.36960625648498535, "learning_rate": 7.790796570299463e-06, "token_acc": 0.4909947353837628, "epoch": 0.9457631005618622, "step": 2062}, {"loss": 2.3163328170776367, "grad_norm": 0.34583020210266113, "learning_rate": 7.660742960254207e-06, "token_acc": 0.4974902398215282, "epoch": 0.9462217635592248, "step": 2063}, {"loss": 2.3450987339019775, "grad_norm": 0.3352227509021759, "learning_rate": 7.531775634222138e-06, "token_acc": 0.48942598187311176, "epoch": 0.9466804265565876, "step": 2064}, {"loss": 2.2198140621185303, "grad_norm": 0.3486025631427765, "learning_rate": 7.403894876753192e-06, "token_acc": 0.49872195399034364, "epoch": 0.9471390895539502, "step": 2065}, {"loss": 2.369945526123047, "grad_norm": 0.36947572231292725, "learning_rate": 7.277100970000061e-06, "token_acc": 0.503393665158371, "epoch": 0.947597752551313, "step": 2066}, {"loss": 2.346325397491455, "grad_norm": 0.35285070538520813, "learning_rate": 7.151394193717408e-06, "token_acc": 0.5022296544035675, "epoch": 0.9480564155486756, "step": 2067}, {"loss": 2.427640438079834, "grad_norm": 0.3495651185512543, "learning_rate": 7.026774825261151e-06, "token_acc": 0.4856985698569857, "epoch": 0.9485150785460383, "step": 2068}, {"loss": 2.427027940750122, "grad_norm": 0.3602946400642395, "learning_rate": 6.903243139588233e-06, "token_acc": 0.48182070496808216, "epoch": 0.948973741543401, "step": 2069}, {"loss": 2.285564422607422, "grad_norm": 0.3443445861339569, "learning_rate": 6.780799409255522e-06, "token_acc": 0.5093856655290102, "epoch": 0.9494324045407637, "step": 2070}, {"loss": 2.343486785888672, "grad_norm": 0.33286967873573303, "learning_rate": 6.659443904419637e-06, "token_acc": 0.4902964959568733, "epoch": 0.9498910675381264, "step": 2071}, {"loss": 2.349055767059326, "grad_norm": 0.3475978970527649, "learning_rate": 6.539176892836008e-06, "token_acc": 0.4945240101095198, "epoch": 0.9503497305354891, "step": 2072}, {"loss": 2.330740451812744, "grad_norm": 0.3581259250640869, "learning_rate": 6.4199986398585375e-06, "token_acc": 0.4864161849710983, "epoch": 0.9508083935328517, "step": 2073}, {"loss": 2.3202738761901855, "grad_norm": 0.3362613916397095, "learning_rate": 6.3019094084388884e-06, "token_acc": 0.49296962879640044, "epoch": 0.9512670565302144, "step": 2074}, {"loss": 2.417773962020874, "grad_norm": 0.3607742488384247, "learning_rate": 6.18490945912592e-06, "token_acc": 0.49106382978723406, "epoch": 0.9517257195275771, "step": 2075}, {"loss": 2.324309825897217, "grad_norm": 0.33522072434425354, "learning_rate": 6.068999050065249e-06, "token_acc": 0.4927652733118971, "epoch": 0.9521843825249398, "step": 2076}, {"loss": 2.3325560092926025, "grad_norm": 0.34251394867897034, "learning_rate": 5.9541784369983586e-06, "token_acc": 0.4962899543378995, "epoch": 0.9526430455223025, "step": 2077}, {"loss": 2.317004680633545, "grad_norm": 0.344497412443161, "learning_rate": 5.840447873262433e-06, "token_acc": 0.4877121123464014, "epoch": 0.9531017085196651, "step": 2078}, {"loss": 2.336134433746338, "grad_norm": 0.3498692512512207, "learning_rate": 5.727807609789471e-06, "token_acc": 0.4989130434782609, "epoch": 0.9535603715170279, "step": 2079}, {"loss": 2.37536883354187, "grad_norm": 0.343220978975296, "learning_rate": 5.616257895105892e-06, "token_acc": 0.477521613832853, "epoch": 0.9540190345143905, "step": 2080}, {"loss": 2.4757080078125, "grad_norm": 0.357441246509552, "learning_rate": 5.505798975331933e-06, "token_acc": 0.4705394190871369, "epoch": 0.9544776975117533, "step": 2081}, {"loss": 2.3946328163146973, "grad_norm": 0.3436932861804962, "learning_rate": 5.396431094181198e-06, "token_acc": 0.4920863309352518, "epoch": 0.9549363605091159, "step": 2082}, {"loss": 2.36915922164917, "grad_norm": 0.36705952882766724, "learning_rate": 5.288154492960107e-06, "token_acc": 0.4801924165251839, "epoch": 0.9553950235064786, "step": 2083}, {"loss": 2.388136625289917, "grad_norm": 0.33941003680229187, "learning_rate": 5.1809694105671155e-06, "token_acc": 0.48072625698324023, "epoch": 0.9558536865038413, "step": 2084}, {"loss": 2.3478050231933594, "grad_norm": 0.34288838505744934, "learning_rate": 5.074876083492441e-06, "token_acc": 0.49706666666666666, "epoch": 0.956312349501204, "step": 2085}, {"loss": 2.3436312675476074, "grad_norm": 0.3461489975452423, "learning_rate": 4.96987474581767e-06, "token_acc": 0.5040221914008322, "epoch": 0.9567710124985667, "step": 2086}, {"loss": 2.2568278312683105, "grad_norm": 0.3312769830226898, "learning_rate": 4.865965629214819e-06, "token_acc": 0.5177170678928861, "epoch": 0.9572296754959294, "step": 2087}, {"loss": 2.3043558597564697, "grad_norm": 0.3349217176437378, "learning_rate": 4.763148962946218e-06, "token_acc": 0.49508012369974697, "epoch": 0.957688338493292, "step": 2088}, {"loss": 2.303548812866211, "grad_norm": 0.35276052355766296, "learning_rate": 4.661424973863681e-06, "token_acc": 0.5035230352303524, "epoch": 0.9581470014906548, "step": 2089}, {"loss": 2.309507369995117, "grad_norm": 0.3526037931442261, "learning_rate": 4.560793886408398e-06, "token_acc": 0.492978786973409, "epoch": 0.9586056644880174, "step": 2090}, {"loss": 2.3805932998657227, "grad_norm": 0.3461745083332062, "learning_rate": 4.461255922609986e-06, "token_acc": 0.4813673297842533, "epoch": 0.9590643274853801, "step": 2091}, {"loss": 2.3725688457489014, "grad_norm": 0.3288447856903076, "learning_rate": 4.362811302086267e-06, "token_acc": 0.48534201954397393, "epoch": 0.9595229904827428, "step": 2092}, {"loss": 2.482666015625, "grad_norm": 0.35582271218299866, "learning_rate": 4.265460242042885e-06, "token_acc": 0.47776601376389627, "epoch": 0.9599816534801054, "step": 2093}, {"loss": 2.4092788696289062, "grad_norm": 0.3361198902130127, "learning_rate": 4.169202957272522e-06, "token_acc": 0.4747393744987971, "epoch": 0.9604403164774682, "step": 2094}, {"loss": 2.376309871673584, "grad_norm": 0.3461763858795166, "learning_rate": 4.074039660154738e-06, "token_acc": 0.48392652123995405, "epoch": 0.9608989794748308, "step": 2095}, {"loss": 2.2746388912200928, "grad_norm": 0.3521893322467804, "learning_rate": 3.9799705606551325e-06, "token_acc": 0.49874196253844005, "epoch": 0.9613576424721936, "step": 2096}, {"loss": 2.3309364318847656, "grad_norm": 0.34621161222457886, "learning_rate": 3.886995866325294e-06, "token_acc": 0.48595744680851066, "epoch": 0.9618163054695562, "step": 2097}, {"loss": 2.451709747314453, "grad_norm": 0.36330753564834595, "learning_rate": 3.795115782302072e-06, "token_acc": 0.4867785044071652, "epoch": 0.962274968466919, "step": 2098}, {"loss": 2.312084674835205, "grad_norm": 0.35589903593063354, "learning_rate": 3.704330511307197e-06, "token_acc": 0.4879500992344769, "epoch": 0.9627336314642816, "step": 2099}, {"loss": 2.324641704559326, "grad_norm": 0.3442920446395874, "learning_rate": 3.614640253646828e-06, "token_acc": 0.4929088277858177, "epoch": 0.9631922944616443, "step": 2100}, {"loss": 2.3187952041625977, "grad_norm": 0.338853657245636, "learning_rate": 3.5260452072110594e-06, "token_acc": 0.4950966657326982, "epoch": 0.963650957459007, "step": 2101}, {"loss": 2.4029808044433594, "grad_norm": 0.34419336915016174, "learning_rate": 3.4385455674737498e-06, "token_acc": 0.4951045250066155, "epoch": 0.9641096204563697, "step": 2102}, {"loss": 2.272096872329712, "grad_norm": 0.3454667031764984, "learning_rate": 3.3521415274915256e-06, "token_acc": 0.5004207573632539, "epoch": 0.9645682834537324, "step": 2103}, {"loss": 2.312227725982666, "grad_norm": 0.3377895951271057, "learning_rate": 3.2668332779041133e-06, "token_acc": 0.5037164093767867, "epoch": 0.9650269464510951, "step": 2104}, {"loss": 2.399421215057373, "grad_norm": 0.36478370428085327, "learning_rate": 3.1826210069332838e-06, "token_acc": 0.47199317600227464, "epoch": 0.9654856094484577, "step": 2105}, {"loss": 2.403590679168701, "grad_norm": 0.34614917635917664, "learning_rate": 3.0995049003826324e-06, "token_acc": 0.485660680782632, "epoch": 0.9659442724458205, "step": 2106}, {"loss": 2.3826632499694824, "grad_norm": 0.34825897216796875, "learning_rate": 3.017485141637355e-06, "token_acc": 0.49985384390529086, "epoch": 0.9664029354431831, "step": 2107}, {"loss": 2.4315128326416016, "grad_norm": 0.34063586592674255, "learning_rate": 2.9365619116636376e-06, "token_acc": 0.4859255046914984, "epoch": 0.9668615984405458, "step": 2108}, {"loss": 2.304276466369629, "grad_norm": 0.34777477383613586, "learning_rate": 2.856735389008269e-06, "token_acc": 0.5005783689994217, "epoch": 0.9673202614379085, "step": 2109}, {"loss": 2.3057405948638916, "grad_norm": 0.35110941529273987, "learning_rate": 2.778005749798307e-06, "token_acc": 0.5093856655290102, "epoch": 0.9677789244352711, "step": 2110}, {"loss": 2.2957663536071777, "grad_norm": 0.3587294816970825, "learning_rate": 2.700373167740744e-06, "token_acc": 0.5036754696433433, "epoch": 0.9682375874326339, "step": 2111}, {"loss": 2.412799835205078, "grad_norm": 0.35531795024871826, "learning_rate": 2.62383781412201e-06, "token_acc": 0.49580741141466056, "epoch": 0.9686962504299965, "step": 2112}, {"loss": 2.209771156311035, "grad_norm": 0.33816346526145935, "learning_rate": 2.5483998578076373e-06, "token_acc": 0.5078280671790493, "epoch": 0.9691549134273593, "step": 2113}, {"loss": 2.340085506439209, "grad_norm": 0.36287111043930054, "learning_rate": 2.4740594652418736e-06, "token_acc": 0.48778479275322534, "epoch": 0.9696135764247219, "step": 2114}, {"loss": 2.3083102703094482, "grad_norm": 0.34613534808158875, "learning_rate": 2.4008168004472917e-06, "token_acc": 0.49528301886792453, "epoch": 0.9700722394220846, "step": 2115}, {"loss": 2.253849744796753, "grad_norm": 0.34003522992134094, "learning_rate": 2.3286720250246253e-06, "token_acc": 0.5006832467887401, "epoch": 0.9705309024194473, "step": 2116}, {"loss": 2.389080047607422, "grad_norm": 0.3391777276992798, "learning_rate": 2.2576252981520994e-06, "token_acc": 0.48610368786745056, "epoch": 0.97098956541681, "step": 2117}, {"loss": 2.347074270248413, "grad_norm": 0.3536958694458008, "learning_rate": 2.1876767765853233e-06, "token_acc": 0.49451453647833243, "epoch": 0.9714482284141727, "step": 2118}, {"loss": 2.291904926300049, "grad_norm": 0.30987951159477234, "learning_rate": 2.118826614656788e-06, "token_acc": 0.4960254372019078, "epoch": 0.9719068914115354, "step": 2119}, {"loss": 2.3055026531219482, "grad_norm": 0.34704503417015076, "learning_rate": 2.051074964275701e-06, "token_acc": 0.5011080332409972, "epoch": 0.972365554408898, "step": 2120}, {"loss": 2.2895889282226562, "grad_norm": 0.3424822688102722, "learning_rate": 1.984421974927375e-06, "token_acc": 0.49986297615785147, "epoch": 0.9728242174062608, "step": 2121}, {"loss": 2.39070987701416, "grad_norm": 0.3444738984107971, "learning_rate": 1.9188677936731734e-06, "token_acc": 0.48350111856823264, "epoch": 0.9732828804036234, "step": 2122}, {"loss": 2.355583667755127, "grad_norm": 0.3446108400821686, "learning_rate": 1.8544125651501208e-06, "token_acc": 0.49427480916030536, "epoch": 0.9737415434009862, "step": 2123}, {"loss": 2.3478498458862305, "grad_norm": 0.4043484926223755, "learning_rate": 1.7910564315704035e-06, "token_acc": 0.4992042440318302, "epoch": 0.9742002063983488, "step": 2124}, {"loss": 2.346301317214966, "grad_norm": 0.34436845779418945, "learning_rate": 1.7287995327214257e-06, "token_acc": 0.5019618834080718, "epoch": 0.9746588693957114, "step": 2125}, {"loss": 2.2942404747009277, "grad_norm": 0.3456486761569977, "learning_rate": 1.6676420059649754e-06, "token_acc": 0.4998601398601399, "epoch": 0.9751175323930742, "step": 2126}, {"loss": 2.4731900691986084, "grad_norm": 0.3459480106830597, "learning_rate": 1.6075839862374485e-06, "token_acc": 0.4661713982488724, "epoch": 0.9755761953904368, "step": 2127}, {"loss": 2.3529610633850098, "grad_norm": 0.34236493706703186, "learning_rate": 1.5486256060492366e-06, "token_acc": 0.48340832395950506, "epoch": 0.9760348583877996, "step": 2128}, {"loss": 2.3539376258850098, "grad_norm": 0.3432407081127167, "learning_rate": 1.4907669954844495e-06, "token_acc": 0.4880849842090152, "epoch": 0.9764935213851622, "step": 2129}, {"loss": 2.342651844024658, "grad_norm": 0.3485792279243469, "learning_rate": 1.434008282200805e-06, "token_acc": 0.49384443200895356, "epoch": 0.976952184382525, "step": 2130}, {"loss": 2.243961811065674, "grad_norm": 0.34099340438842773, "learning_rate": 1.3783495914291844e-06, "token_acc": 0.5085794655414908, "epoch": 0.9774108473798876, "step": 2131}, {"loss": 2.430598497390747, "grad_norm": 0.3355376124382019, "learning_rate": 1.3237910459734104e-06, "token_acc": 0.4907199100112486, "epoch": 0.9778695103772503, "step": 2132}, {"loss": 2.3512024879455566, "grad_norm": 0.35558032989501953, "learning_rate": 1.270332766210025e-06, "token_acc": 0.48360655737704916, "epoch": 0.978328173374613, "step": 2133}, {"loss": 2.3027899265289307, "grad_norm": 0.3598702847957611, "learning_rate": 1.2179748700879012e-06, "token_acc": 0.5050391937290034, "epoch": 0.9787868363719757, "step": 2134}, {"loss": 2.305792808532715, "grad_norm": 0.35917016863822937, "learning_rate": 1.1667174731280205e-06, "token_acc": 0.4931701764371087, "epoch": 0.9792454993693384, "step": 2135}, {"loss": 2.2619519233703613, "grad_norm": 0.34038177132606506, "learning_rate": 1.1165606884234182e-06, "token_acc": 0.5013579576317219, "epoch": 0.9797041623667011, "step": 2136}, {"loss": 2.357814311981201, "grad_norm": 0.33247238397598267, "learning_rate": 1.0675046266386268e-06, "token_acc": 0.4932903918411165, "epoch": 0.9801628253640637, "step": 2137}, {"loss": 2.38024640083313, "grad_norm": 0.3416377007961273, "learning_rate": 1.019549396009567e-06, "token_acc": 0.48860203240867894, "epoch": 0.9806214883614265, "step": 2138}, {"loss": 2.2469849586486816, "grad_norm": 0.3372955322265625, "learning_rate": 9.726951023434348e-07, "token_acc": 0.5101369863013698, "epoch": 0.9810801513587891, "step": 2139}, {"loss": 2.218817710876465, "grad_norm": 0.36407020688056946, "learning_rate": 9.269418490182591e-07, "token_acc": 0.5054254711593376, "epoch": 0.9815388143561519, "step": 2140}, {"loss": 2.493196725845337, "grad_norm": 0.358676552772522, "learning_rate": 8.822897369827332e-07, "token_acc": 0.4787292817679558, "epoch": 0.9819974773535145, "step": 2141}, {"loss": 2.346320390701294, "grad_norm": 0.3322162926197052, "learning_rate": 8.387388647561611e-07, "token_acc": 0.4861816130851664, "epoch": 0.9824561403508771, "step": 2142}, {"loss": 2.346327543258667, "grad_norm": 0.35808783769607544, "learning_rate": 7.962893284279016e-07, "token_acc": 0.5023161551823973, "epoch": 0.9829148033482399, "step": 2143}, {"loss": 2.3903708457946777, "grad_norm": 0.35277286171913147, "learning_rate": 7.549412216574791e-07, "token_acc": 0.4838971583220568, "epoch": 0.9833734663456025, "step": 2144}, {"loss": 2.3555829524993896, "grad_norm": 0.3429495096206665, "learning_rate": 7.146946356743067e-07, "token_acc": 0.4890570116184815, "epoch": 0.9838321293429653, "step": 2145}, {"loss": 2.1532931327819824, "grad_norm": 0.3217772841453552, "learning_rate": 6.755496592773524e-07, "token_acc": 0.5160317895313785, "epoch": 0.9842907923403279, "step": 2146}, {"loss": 2.3004696369171143, "grad_norm": 0.3396526277065277, "learning_rate": 6.375063788349733e-07, "token_acc": 0.4987599889776798, "epoch": 0.9847494553376906, "step": 2147}, {"loss": 2.379272699356079, "grad_norm": 0.35137200355529785, "learning_rate": 6.005648782848594e-07, "token_acc": 0.49546329392356336, "epoch": 0.9852081183350533, "step": 2148}, {"loss": 2.2693474292755127, "grad_norm": 0.33664414286613464, "learning_rate": 5.647252391337565e-07, "token_acc": 0.4998575904300769, "epoch": 0.985666781332416, "step": 2149}, {"loss": 2.3551697731018066, "grad_norm": 0.3488859534263611, "learning_rate": 5.299875404572441e-07, "token_acc": 0.497906782026235, "epoch": 0.9861254443297787, "step": 2150}, {"loss": 2.337803363800049, "grad_norm": 0.32513248920440674, "learning_rate": 4.963518588996796e-07, "token_acc": 0.49259569712210116, "epoch": 0.9865841073271414, "step": 2151}, {"loss": 2.2983903884887695, "grad_norm": 0.34210142493247986, "learning_rate": 4.638182686738657e-07, "token_acc": 0.4870641169853768, "epoch": 0.987042770324504, "step": 2152}, {"loss": 2.3379669189453125, "grad_norm": 0.32570120692253113, "learning_rate": 4.3238684156110543e-07, "token_acc": 0.49122807017543857, "epoch": 0.9875014333218668, "step": 2153}, {"loss": 2.371443271636963, "grad_norm": 0.34904760122299194, "learning_rate": 4.020576469108139e-07, "token_acc": 0.4790657932213045, "epoch": 0.9879600963192294, "step": 2154}, {"loss": 2.3019542694091797, "grad_norm": 0.34138429164886475, "learning_rate": 3.7283075164046274e-07, "token_acc": 0.5030203185063152, "epoch": 0.9884187593165922, "step": 2155}, {"loss": 2.37115478515625, "grad_norm": 0.3612538278102875, "learning_rate": 3.4470622023557995e-07, "token_acc": 0.49312714776632305, "epoch": 0.9888774223139548, "step": 2156}, {"loss": 2.314802408218384, "grad_norm": 0.3485041558742523, "learning_rate": 3.176841147492504e-07, "token_acc": 0.49721758486366163, "epoch": 0.9893360853113176, "step": 2157}, {"loss": 2.3384337425231934, "grad_norm": 0.3381381034851074, "learning_rate": 2.9176449480244895e-07, "token_acc": 0.4946058091286307, "epoch": 0.9897947483086802, "step": 2158}, {"loss": 2.3529911041259766, "grad_norm": 0.3664429783821106, "learning_rate": 2.6694741758342967e-07, "token_acc": 0.49725195256002314, "epoch": 0.9902534113060428, "step": 2159}, {"loss": 2.2667489051818848, "grad_norm": 0.3663409948348999, "learning_rate": 2.432329378478926e-07, "token_acc": 0.503448275862069, "epoch": 0.9907120743034056, "step": 2160}, {"loss": 2.31801700592041, "grad_norm": 0.3534823954105377, "learning_rate": 2.2062110791892798e-07, "token_acc": 0.4991587212563096, "epoch": 0.9911707373007682, "step": 2161}, {"loss": 2.391312599182129, "grad_norm": 0.3397652208805084, "learning_rate": 1.9911197768662792e-07, "token_acc": 0.48697068403908794, "epoch": 0.991629400298131, "step": 2162}, {"loss": 2.306285858154297, "grad_norm": 0.3474685847759247, "learning_rate": 1.7870559460814173e-07, "token_acc": 0.4863325740318907, "epoch": 0.9920880632954936, "step": 2163}, {"loss": 2.431553840637207, "grad_norm": 0.35820624232292175, "learning_rate": 1.5940200370750947e-07, "token_acc": 0.48907181379506104, "epoch": 0.9925467262928563, "step": 2164}, {"loss": 2.382267713546753, "grad_norm": 0.3474024832248688, "learning_rate": 1.4120124757577291e-07, "token_acc": 0.4979691307879773, "epoch": 0.993005389290219, "step": 2165}, {"loss": 2.3803296089172363, "grad_norm": 0.3577353060245514, "learning_rate": 1.2410336637047603e-07, "token_acc": 0.4924114671163575, "epoch": 0.9934640522875817, "step": 2166}, {"loss": 2.3340916633605957, "grad_norm": 0.32953691482543945, "learning_rate": 1.081083978159425e-07, "token_acc": 0.4901031502648453, "epoch": 0.9939227152849444, "step": 2167}, {"loss": 2.3349223136901855, "grad_norm": 0.35062897205352783, "learning_rate": 9.321637720310915e-08, "token_acc": 0.4902349278233796, "epoch": 0.9943813782823071, "step": 2168}, {"loss": 2.295199394226074, "grad_norm": 0.33525335788726807, "learning_rate": 7.942733738924845e-08, "token_acc": 0.48787878787878786, "epoch": 0.9948400412796697, "step": 2169}, {"loss": 2.329634428024292, "grad_norm": 0.3400014340877533, "learning_rate": 6.6741308798135e-08, "token_acc": 0.49232058084333985, "epoch": 0.9952987042770325, "step": 2170}, {"loss": 2.3438572883605957, "grad_norm": 0.32701554894447327, "learning_rate": 5.5158319419934546e-08, "token_acc": 0.49247606019151846, "epoch": 0.9957573672743951, "step": 2171}, {"loss": 2.2928342819213867, "grad_norm": 0.32788389921188354, "learning_rate": 4.4678394810981906e-08, "token_acc": 0.48693923906871095, "epoch": 0.9962160302717579, "step": 2172}, {"loss": 2.44382905960083, "grad_norm": 0.36217525601387024, "learning_rate": 3.5301558093947527e-08, "token_acc": 0.4796392456955452, "epoch": 0.9966746932691205, "step": 2173}, {"loss": 2.367338180541992, "grad_norm": 0.35162824392318726, "learning_rate": 2.7027829957559925e-08, "token_acc": 0.49713631156930127, "epoch": 0.9971333562664833, "step": 2174}, {"loss": 2.4811959266662598, "grad_norm": 0.36451447010040283, "learning_rate": 1.985722865682771e-08, "token_acc": 0.47302558398220246, "epoch": 0.9975920192638459, "step": 2175}, {"loss": 2.340498447418213, "grad_norm": 0.34427523612976074, "learning_rate": 1.3789770012762048e-08, "token_acc": 0.49373433583959897, "epoch": 0.9980506822612085, "step": 2176}, {"loss": 2.273221492767334, "grad_norm": 0.3395884037017822, "learning_rate": 8.825467412376665e-09, "token_acc": 0.5054131054131055, "epoch": 0.9985093452585713, "step": 2177}, {"loss": 2.4204373359680176, "grad_norm": 0.3469321131706238, "learning_rate": 4.96433180879885e-09, "token_acc": 0.4801405025668738, "epoch": 0.9989680082559339, "step": 2178}, {"loss": 2.291797161102295, "grad_norm": 0.35077184438705444, "learning_rate": 2.206371721158451e-09, "token_acc": 0.49503311258278143, "epoch": 0.9994266712532967, "step": 2179}, {"loss": 2.260057210922241, "grad_norm": 0.3882806897163391, "learning_rate": 5.515932345323549e-10, "token_acc": 0.5005586592178771, "epoch": 0.9998853342506593, "step": 2180}, {"loss": 2.1832385063171387, "grad_norm": 0.7854276895523071, "learning_rate": 0.0, "token_acc": 0.5133136094674556, "epoch": 1.0, "step": 2181}, {"train_runtime": 11154.5884, "train_samples_per_second": 50.036, "train_steps_per_second": 0.196, "total_flos": 1.265836048789799e+19, "train_loss": 2.5649401894516486, "epoch": 1.0, "step": 2181}], "memory": 76.8828125}