Update 11.07 bulild v13

Browse files

Trained on 1400 images. More various dataset

Files changed (3) hide show

sft_args.json +16 -16
trainer_state.json +1230 -1448
training_args.bin +1 -1

sft_args.json CHANGED Viewed

@@ -7,7 +7,7 @@
   "additional_trainable_parameters": [],
   "tuner_backend": "peft",
   "template_type": "phi3-vl",
-  "output_dir": "D:\\_____NEW_NN\\LLM\\MiniCPM-V\\finetune\\output\\phi3-vision-128k-instruct\\v0-20240629-080216",
   "add_output_dir_suffix": true,
   "ddp_backend": null,
   "ddp_find_unused_parameters": null,
@@ -22,7 +22,7 @@
   ],
   "val_dataset": [],
   "dataset_seed": 42,
-  "dataset_test_ratio": 0.07,
   "use_loss_scale": false,
   "system": null,
   "max_length": 2048,
@@ -45,18 +45,18 @@
   "bnb_4bit_use_double_quant": true,
   "bnb_4bit_quant_storage": null,
   "lora_target_modules": [
-    "fc1",
-    "img_projection.0",
     "img_projection.2",
     "k_proj",
     "out_proj",
     "fc2",
-    "qkv_proj",
-    "o_proj",
-    "q_proj",
-    "down_proj",
-    "v_proj",
-    "gate_up_proj"
   ],
   "lora_rank": 128,
   "lora_alpha": 128,
@@ -122,15 +122,15 @@
   "optim": "adamw_torch",
   "adam_beta1": 0.9,
   "adam_beta2": 0.95,
-  "learning_rate": 0.00014,
-  "weight_decay": 0.1,
   "gradient_accumulation_steps": 2,
-  "max_grad_norm": 0.5,
   "predict_with_generate": false,
   "lr_scheduler_type": "cosine",
   "warmup_ratio": 0.05,
   "eval_steps": 50,
-  "save_steps": 300,
   "save_only_model": false,
   "save_total_limit": 8,
   "logging_steps": 5,
@@ -149,7 +149,7 @@
   "use_flash_attn": null,
   "ignore_args_error": false,
   "check_model_is_latest": true,
-  "logging_dir": "D:\\_____NEW_NN\\LLM\\MiniCPM-V\\finetune\\output\\phi3-vision-128k-instruct\\v0-20240629-080216/runs",
   "report_to": [
     "tensorboard"
   ],
@@ -206,5 +206,5 @@
   "load_in_4bit": false,
   "load_in_8bit": false,
   "train_sampler_random": true,
-  "training_args": "Seq2SeqTrainingArguments(output_dir='D:\\\\_____NEW_NN\\\\LLM\\\\MiniCPM-V\\\\finetune\\\\output\\\\phi3-vision-128k-instruct\\\\v0-20240629-080216', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=2, per_device_eval_batch_size=2, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=2, eval_accumulation_steps=None, eval_delay=0, learning_rate=0.00014, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=0.5, num_train_epochs=4, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs={}, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='D:\\\\_____NEW_NN\\\\LLM\\\\MiniCPM-V\\\\finetune\\\\output\\\\phi3-vision-128k-instruct\\\\v0-20240629-080216/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=5, logging_nan_inf_filter=True, save_strategy=<IntervalStrategy.STEPS: 'steps'>, save_steps=300, save_total_limit=8, save_safetensors=True, save_on_each_node=True, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=None, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=50, dataloader_num_workers=0, dataloader_prefetch_factor=None, past_index=-1, run_name='D:\\\\_____NEW_NN\\\\LLM\\\\MiniCPM-V\\\\finetune\\\\output\\\\phi3-vision-128k-instruct\\\\v0-20240629-080216', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=None, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None), deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=False, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy=None, push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=False, include_num_input_tokens_seen=False, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, sortish_sampler=True, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=GenerationConfig {\n  \"do_sample\": true,\n  \"eos_token_id\": 32000,\n  \"max_new_tokens\": 2048,\n  \"pad_token_id\": 32000,\n  \"temperature\": 0.3,\n  \"top_k\": 20,\n  \"top_p\": 0.7\n}\n, train_sampler_random=True, push_hub_strategy='push_best', acc_strategy='token', additional_saved_files=[], metric_warmup_step=0, train_dataset_sample=1021)"
 }

   "additional_trainable_parameters": [],
   "tuner_backend": "peft",
   "template_type": "phi3-vl",
+  "output_dir": "D:\\_____NEW_NN\\LLM\\MiniCPM-V\\finetune\\output\\phi3-vision-128k-instruct\\v9-20240710-235159",
   "add_output_dir_suffix": true,
   "ddp_backend": null,
   "ddp_find_unused_parameters": null,
   ],
   "val_dataset": [],
   "dataset_seed": 42,
+  "dataset_test_ratio": 0.12,
   "use_loss_scale": false,
   "system": null,
   "max_length": 2048,
   "bnb_4bit_use_double_quant": true,
   "bnb_4bit_quant_storage": null,
   "lora_target_modules": [
     "img_projection.2",
+    "gate_up_proj",
+    "q_proj",
+    "v_proj",
+    "img_projection.0",
     "k_proj",
+    "fc1",
+    "down_proj",
+    "o_proj",
     "out_proj",
     "fc2",
+    "qkv_proj"
   ],
   "lora_rank": 128,
   "lora_alpha": 128,
   "optim": "adamw_torch",
   "adam_beta1": 0.9,
   "adam_beta2": 0.95,
+  "learning_rate": 0.000135,
+  "weight_decay": 0.2,
   "gradient_accumulation_steps": 2,
+  "max_grad_norm": 0.4,
   "predict_with_generate": false,
   "lr_scheduler_type": "cosine",
   "warmup_ratio": 0.05,
   "eval_steps": 50,
+  "save_steps": 100,
   "save_only_model": false,
   "save_total_limit": 8,
   "logging_steps": 5,
   "use_flash_attn": null,
   "ignore_args_error": false,
   "check_model_is_latest": true,
+  "logging_dir": "D:\\_____NEW_NN\\LLM\\MiniCPM-V\\finetune\\output\\phi3-vision-128k-instruct\\v9-20240710-235159/runs",
   "report_to": [
     "tensorboard"
   ],
   "load_in_4bit": false,
   "load_in_8bit": false,
   "train_sampler_random": true,
+  "training_args": "Seq2SeqTrainingArguments(output_dir='D:\\\\_____NEW_NN\\\\LLM\\\\MiniCPM-V\\\\finetune\\\\output\\\\phi3-vision-128k-instruct\\\\v9-20240710-235159', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=2, per_device_eval_batch_size=2, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=2, eval_accumulation_steps=None, eval_delay=0, learning_rate=0.000135, weight_decay=0.2, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=0.4, num_train_epochs=4, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs={}, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='D:\\\\_____NEW_NN\\\\LLM\\\\MiniCPM-V\\\\finetune\\\\output\\\\phi3-vision-128k-instruct\\\\v9-20240710-235159/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=5, logging_nan_inf_filter=True, save_strategy=<IntervalStrategy.STEPS: 'steps'>, save_steps=100, save_total_limit=8, save_safetensors=True, save_on_each_node=True, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=None, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=50, dataloader_num_workers=0, dataloader_prefetch_factor=None, past_index=-1, run_name='D:\\\\_____NEW_NN\\\\LLM\\\\MiniCPM-V\\\\finetune\\\\output\\\\phi3-vision-128k-instruct\\\\v9-20240710-235159', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=None, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None), deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=False, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy=None, push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=False, include_num_input_tokens_seen=False, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, sortish_sampler=True, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=GenerationConfig {\n  \"do_sample\": true,\n  \"eos_token_id\": 32000,\n  \"max_new_tokens\": 2048,\n  \"pad_token_id\": 32000,\n  \"temperature\": 0.3,\n  \"top_k\": 20,\n  \"top_p\": 0.7\n}\n, train_sampler_random=True, push_hub_strategy='push_best', acc_strategy='token', additional_saved_files=[], metric_warmup_step=0, train_dataset_sample=1110)"
 }

trainer_state.json CHANGED Viewed

@@ -1,1991 +1,1773 @@
 {
-  "best_metric": 1.52509904,
-  "best_model_checkpoint": "D:\\_____NEW_NN\\LLM\\MiniCPM-V\\finetune\\output\\phi3-vision-128k-instruct\\v0-20240629-080216\\checkpoint-300",
-  "epoch": 3.5225048923679063,
   "eval_steps": 50,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "acc": 0.49833804,
-      "epoch": 0.003913894324853229,
-      "grad_norm": 0.77734375,
-      "learning_rate": 2.745098039215686e-06,
-      "loss": 2.37747383,
-      "memory(GiB)": 17.35,
       "step": 1,
-      "train_speed(iter/s)": 0.076826
     },
     {
-      "acc": 0.50652587,
-      "epoch": 0.019569471624266144,
-      "grad_norm": 1.140625,
-      "learning_rate": 1.372549019607843e-05,
-      "loss": 2.29183841,
-      "memory(GiB)": 19.33,
       "step": 5,
-      "train_speed(iter/s)": 0.082188
     },
     {
-      "acc": 0.52587533,
-      "epoch": 0.03913894324853229,
-      "grad_norm": 0.68359375,
-      "learning_rate": 2.745098039215686e-05,
-      "loss": 2.22724895,
-      "memory(GiB)": 19.89,
       "step": 10,
-      "train_speed(iter/s)": 0.082805
     },
     {
-      "acc": 0.52128973,
-      "epoch": 0.05870841487279843,
-      "grad_norm": 0.8359375,
-      "learning_rate": 4.117647058823529e-05,
-      "loss": 2.27491264,
-      "memory(GiB)": 19.24,
       "step": 15,
-      "train_speed(iter/s)": 0.082482
     },
     {
-      "acc": 0.51135335,
-      "epoch": 0.07827788649706457,
-      "grad_norm": 0.66015625,
-      "learning_rate": 5.490196078431372e-05,
-      "loss": 2.32762127,
-      "memory(GiB)": 19.86,
       "step": 20,
-      "train_speed(iter/s)": 0.082557
     },
     {
-      "acc": 0.54442377,
-      "epoch": 0.09784735812133072,
-      "grad_norm": 0.65625,
-      "learning_rate": 6.862745098039214e-05,
-      "loss": 2.09772224,
-      "memory(GiB)": 19.05,
       "step": 25,
-      "train_speed(iter/s)": 0.082348
     },
     {
-      "acc": 0.5545311,
-      "epoch": 0.11741682974559686,
-      "grad_norm": 0.62109375,
-      "learning_rate": 8.235294117647058e-05,
-      "loss": 2.00072975,
-      "memory(GiB)": 19.89,
       "step": 30,
-      "train_speed(iter/s)": 0.082166
     },
     {
-      "acc": 0.57092514,
-      "epoch": 0.136986301369863,
-      "grad_norm": 0.9296875,
-      "learning_rate": 9.6078431372549e-05,
-      "loss": 1.94450474,
-      "memory(GiB)": 19.16,
       "step": 35,
-      "train_speed(iter/s)": 0.081966
     },
     {
-      "acc": 0.56716595,
-      "epoch": 0.15655577299412915,
-      "grad_norm": 0.7734375,
-      "learning_rate": 0.00010980392156862745,
-      "loss": 1.90242462,
-      "memory(GiB)": 19.62,
       "step": 40,
-      "train_speed(iter/s)": 0.081987
     },
     {
-      "acc": 0.57822714,
-      "epoch": 0.1761252446183953,
-      "grad_norm": 0.74609375,
-      "learning_rate": 0.00012352941176470587,
-      "loss": 1.83147659,
-      "memory(GiB)": 19.99,
       "step": 45,
-      "train_speed(iter/s)": 0.081878
     },
     {
-      "acc": 0.57696896,
-      "epoch": 0.19569471624266144,
-      "grad_norm": 0.85546875,
-      "learning_rate": 0.00013725490196078428,
-      "loss": 1.82299595,
-      "memory(GiB)": 19.11,
       "step": 50,
-      "train_speed(iter/s)": 0.081843
     },
     {
-      "epoch": 0.19569471624266144,
-      "eval_acc": 0.583503534956795,
-      "eval_loss": 1.8029242753982544,
-      "eval_runtime": 85.1254,
-      "eval_samples_per_second": 0.893,
-      "eval_steps_per_second": 0.446,
       "step": 50
     },
     {
-      "acc": 0.59343066,
-      "epoch": 0.21526418786692758,
-      "grad_norm": 1.0,
-      "learning_rate": 0.0001399941138119636,
-      "loss": 1.82339039,
-      "memory(GiB)": 22.92,
       "step": 55,
-      "train_speed(iter/s)": 0.072544
     },
     {
-      "acc": 0.58571839,
-      "epoch": 0.23483365949119372,
-      "grad_norm": 0.7734375,
-      "learning_rate": 0.00013997020286964757,
-      "loss": 1.80549526,
-      "memory(GiB)": 19.43,
       "step": 60,
-      "train_speed(iter/s)": 0.073269
     },
     {
-      "acc": 0.60369935,
-      "epoch": 0.25440313111545987,
-      "grad_norm": 0.99609375,
-      "learning_rate": 0.0001399279055646442,
-      "loss": 1.6768074,
-      "memory(GiB)": 19.57,
       "step": 65,
-      "train_speed(iter/s)": 0.073897
     },
     {
-      "acc": 0.58763909,
-      "epoch": 0.273972602739726,
-      "grad_norm": 1.1640625,
-      "learning_rate": 0.00013986723301159307,
-      "loss": 1.79169483,
-      "memory(GiB)": 19.48,
       "step": 70,
-      "train_speed(iter/s)": 0.074533
     },
     {
-      "acc": 0.58979025,
-      "epoch": 0.29354207436399216,
-      "grad_norm": 0.69140625,
-      "learning_rate": 0.00013978820115367462,
-      "loss": 1.72388344,
-      "memory(GiB)": 19.35,
       "step": 75,
-      "train_speed(iter/s)": 0.075045
     },
     {
-      "acc": 0.59725327,
-      "epoch": 0.3131115459882583,
-      "grad_norm": 0.75,
-      "learning_rate": 0.00013969083075842048,
-      "loss": 1.70864868,
-      "memory(GiB)": 19.49,
       "step": 80,
-      "train_speed(iter/s)": 0.075523
     },
     {
-      "acc": 0.60098982,
-      "epoch": 0.33268101761252444,
-      "grad_norm": 4.59375,
-      "learning_rate": 0.00013957514741225646,
-      "loss": 1.67311764,
-      "memory(GiB)": 20.01,
       "step": 85,
-      "train_speed(iter/s)": 0.075928
     },
     {
-      "acc": 0.58315139,
-      "epoch": 0.3522504892367906,
-      "grad_norm": 0.8359375,
-      "learning_rate": 0.00013944118151377894,
-      "loss": 1.74437752,
-      "memory(GiB)": 20.14,
       "step": 90,
-      "train_speed(iter/s)": 0.076154
     },
     {
-      "acc": 0.6138227,
-      "epoch": 0.37181996086105673,
-      "grad_norm": 0.75,
-      "learning_rate": 0.0001392889682657671,
-      "loss": 1.63750076,
-      "memory(GiB)": 19.59,
       "step": 95,
-      "train_speed(iter/s)": 0.076253
     },
     {
-      "acc": 0.63383026,
-      "epoch": 0.3913894324853229,
-      "grad_norm": 0.8515625,
-      "learning_rate": 0.00013911854766593233,
-      "loss": 1.56653557,
-      "memory(GiB)": 19.5,
       "step": 100,
-      "train_speed(iter/s)": 0.076386
     },
     {
-      "epoch": 0.3913894324853229,
-      "eval_acc": 0.604241948153967,
-      "eval_loss": 1.6681365966796875,
-      "eval_runtime": 72.2811,
-      "eval_samples_per_second": 1.051,
-      "eval_steps_per_second": 0.526,
       "step": 100
     },
     {
-      "acc": 0.61646304,
-      "epoch": 0.410958904109589,
-      "grad_norm": 0.73046875,
-      "learning_rate": 0.00013892996449640807,
-      "loss": 1.59651537,
-      "memory(GiB)": 22.5,
       "step": 105,
-      "train_speed(iter/s)": 0.072857
     },
     {
-      "acc": 0.60897431,
-      "epoch": 0.43052837573385516,
-      "grad_norm": 0.83984375,
-      "learning_rate": 0.00013872326831198205,
-      "loss": 1.70257473,
-      "memory(GiB)": 19.42,
       "step": 110,
-      "train_speed(iter/s)": 0.073309
     },
     {
-      "acc": 0.58328586,
-      "epoch": 0.4500978473581213,
-      "grad_norm": 0.9453125,
-      "learning_rate": 0.00013849851342707462,
-      "loss": 1.71216717,
-      "memory(GiB)": 19.47,
       "step": 115,
-      "train_speed(iter/s)": 0.073753
     },
     {
-      "acc": 0.62397904,
-      "epoch": 0.46966731898238745,
-      "grad_norm": 0.80078125,
-      "learning_rate": 0.0001382557589014664,
-      "loss": 1.54239073,
-      "memory(GiB)": 19.33,
       "step": 120,
-      "train_speed(iter/s)": 0.074078
     },
     {
-      "acc": 0.60271235,
-      "epoch": 0.4892367906066536,
-      "grad_norm": 1.171875,
-      "learning_rate": 0.0001379950685247788,
-      "loss": 1.72333088,
-      "memory(GiB)": 19.37,
       "step": 125,
-      "train_speed(iter/s)": 0.074428
     },
     {
-      "acc": 0.5755064,
-      "epoch": 0.5088062622309197,
-      "grad_norm": 0.94921875,
-      "learning_rate": 0.00013771651079971182,
-      "loss": 1.81728477,
-      "memory(GiB)": 19.52,
       "step": 130,
-      "train_speed(iter/s)": 0.074768
     },
     {
-      "acc": 0.5844254,
-      "epoch": 0.5283757338551859,
-      "grad_norm": 0.8515625,
-      "learning_rate": 0.00013742015892404325,
-      "loss": 1.77252998,
-      "memory(GiB)": 19.51,
       "step": 135,
-      "train_speed(iter/s)": 0.075066
     },
     {
-      "acc": 0.5998323,
-      "epoch": 0.547945205479452,
-      "grad_norm": 0.8671875,
-      "learning_rate": 0.0001371060907713942,
-      "loss": 1.69012871,
-      "memory(GiB)": 19.54,
       "step": 140,
-      "train_speed(iter/s)": 0.07528
     },
     {
-      "acc": 0.62686119,
-      "epoch": 0.5675146771037182,
-      "grad_norm": 0.68359375,
-      "learning_rate": 0.00013677438887076603,
-      "loss": 1.66314449,
-      "memory(GiB)": 19.54,
       "step": 145,
-      "train_speed(iter/s)": 0.075467
     },
     {
-      "acc": 0.59954901,
-      "epoch": 0.5870841487279843,
-      "grad_norm": 0.6328125,
-      "learning_rate": 0.00013642514038485367,
-      "loss": 1.67525444,
-      "memory(GiB)": 19.55,
       "step": 150,
-      "train_speed(iter/s)": 0.075722
     },
     {
-      "epoch": 0.5870841487279843,
-      "eval_acc": 0.6184603299293009,
-      "eval_loss": 1.5965631008148193,
-      "eval_runtime": 72.3005,
-      "eval_samples_per_second": 1.051,
-      "eval_steps_per_second": 0.526,
       "step": 150
     },
     {
-      "acc": 0.585955,
-      "epoch": 0.6066536203522505,
-      "grad_norm": 0.9375,
-      "learning_rate": 0.00013605843708714162,
-      "loss": 1.7486639,
-      "memory(GiB)": 23.22,
       "step": 155,
-      "train_speed(iter/s)": 0.073368
     },
     {
-      "acc": 0.62769904,
-      "epoch": 0.6262230919765166,
-      "grad_norm": 0.7265625,
-      "learning_rate": 0.00013567437533778826,
-      "loss": 1.55238762,
-      "memory(GiB)": 19.62,
       "step": 160,
-      "train_speed(iter/s)": 0.073628
     },
     {
-      "acc": 0.63651643,
-      "epoch": 0.6457925636007827,
-      "grad_norm": 0.80078125,
-      "learning_rate": 0.00013527305605830488,
-      "loss": 1.54306393,
-      "memory(GiB)": 19.88,
       "step": 165,
-      "train_speed(iter/s)": 0.073903
     },
     {
-      "acc": 0.59288979,
-      "epoch": 0.6653620352250489,
-      "grad_norm": 0.703125,
-      "learning_rate": 0.0001348545847050361,
-      "loss": 1.69727612,
-      "memory(GiB)": 19.58,
       "step": 170,
-      "train_speed(iter/s)": 0.074077
     },
     {
-      "acc": 0.61248484,
-      "epoch": 0.684931506849315,
-      "grad_norm": 0.9140625,
-      "learning_rate": 0.00013441907124144866,
-      "loss": 1.65900764,
-      "memory(GiB)": 19.49,
       "step": 175,
-      "train_speed(iter/s)": 0.074329
     },
     {
-      "acc": 0.61740661,
-      "epoch": 0.7045009784735812,
-      "grad_norm": 0.90625,
-      "learning_rate": 0.0001339666301092358,
-      "loss": 1.6518961,
-      "memory(GiB)": 19.68,
       "step": 180,
-      "train_speed(iter/s)": 0.074558
     },
     {
-      "acc": 0.62250223,
-      "epoch": 0.7240704500978473,
-      "grad_norm": 0.84765625,
-      "learning_rate": 0.00013349738019824512,
-      "loss": 1.55100412,
-      "memory(GiB)": 19.34,
       "step": 185,
-      "train_speed(iter/s)": 0.07477
     },
     {
-      "acc": 0.61055808,
-      "epoch": 0.7436399217221135,
-      "grad_norm": 0.90625,
-      "learning_rate": 0.00013301144481523718,
-      "loss": 1.67241592,
-      "memory(GiB)": 19.56,
       "step": 190,
-      "train_speed(iter/s)": 0.075006
     },
     {
-      "acc": 0.6389596,
-      "epoch": 0.7632093933463796,
-      "grad_norm": 0.83203125,
-      "learning_rate": 0.00013250895165148384,
-      "loss": 1.54227753,
-      "memory(GiB)": 19.29,
       "step": 195,
-      "train_speed(iter/s)": 0.075192
     },
     {
-      "acc": 0.59149747,
-      "epoch": 0.7827788649706457,
-      "grad_norm": 0.68359375,
-      "learning_rate": 0.00013199003274921416,
-      "loss": 1.71190453,
-      "memory(GiB)": 19.35,
       "step": 200,
-      "train_speed(iter/s)": 0.075393
     },
     {
-      "epoch": 0.7827788649706457,
-      "eval_acc": 0.6241162608012569,
-      "eval_loss": 1.5573129653930664,
-      "eval_runtime": 69.5471,
-      "eval_samples_per_second": 1.093,
-      "eval_steps_per_second": 0.546,
       "step": 200
     },
     {
-      "acc": 0.62623324,
-      "epoch": 0.8023483365949119,
-      "grad_norm": 0.81640625,
-      "learning_rate": 0.00013145482446691724,
-      "loss": 1.55779324,
-      "memory(GiB)": 20.56,
       "step": 205,
-      "train_speed(iter/s)": 0.073671
     },
     {
-      "acc": 0.61495056,
-      "epoch": 0.821917808219178,
-      "grad_norm": 1.03125,
-      "learning_rate": 0.00013090346744351058,
-      "loss": 1.56424398,
-      "memory(GiB)": 19.48,
       "step": 210,
-      "train_speed(iter/s)": 0.073902
     },
     {
-      "acc": 0.59643593,
-      "epoch": 0.8414872798434442,
-      "grad_norm": 1.0703125,
-      "learning_rate": 0.00013033610656138395,
-      "loss": 1.62190418,
-      "memory(GiB)": 19.5,
       "step": 215,
-      "train_speed(iter/s)": 0.074133
     },
     {
-      "acc": 0.63052382,
-      "epoch": 0.8610567514677103,
-      "grad_norm": 0.59765625,
-      "learning_rate": 0.00012975289090832792,
-      "loss": 1.53521852,
-      "memory(GiB)": 19.53,
       "step": 220,
-      "train_speed(iter/s)": 0.074334
     },
     {
-      "acc": 0.61408448,
-      "epoch": 0.8806262230919765,
-      "grad_norm": 0.7734375,
-      "learning_rate": 0.00012915397373835754,
-      "loss": 1.59712257,
-      "memory(GiB)": 19.52,
       "step": 225,
-      "train_speed(iter/s)": 0.074533
     },
     {
-      "acc": 0.62307076,
-      "epoch": 0.9001956947162426,
-      "grad_norm": 0.66796875,
-      "learning_rate": 0.00012853951243144105,
-      "loss": 1.57903328,
-      "memory(GiB)": 19.49,
       "step": 230,
-      "train_speed(iter/s)": 0.074719
     },
     {
-      "acc": 0.61717134,
-      "epoch": 0.9197651663405088,
-      "grad_norm": 0.84375,
-      "learning_rate": 0.00012790966845214457,
-      "loss": 1.61422024,
-      "memory(GiB)": 19.25,
       "step": 235,
-      "train_speed(iter/s)": 0.074916
     },
     {
-      "acc": 0.62549253,
-      "epoch": 0.9393346379647749,
-      "grad_norm": 0.8125,
-      "learning_rate": 0.0001272646073072033,
-      "loss": 1.62806015,
-      "memory(GiB)": 19.36,
       "step": 240,
-      "train_speed(iter/s)": 0.0751
     },
     {
-      "acc": 0.61903515,
-      "epoch": 0.958904109589041,
-      "grad_norm": 0.74609375,
-      "learning_rate": 0.0001266044985020307,
-      "loss": 1.55927486,
-      "memory(GiB)": 19.36,
       "step": 245,
-      "train_speed(iter/s)": 0.075266
     },
     {
-      "acc": 0.61238952,
-      "epoch": 0.9784735812133072,
-      "grad_norm": 0.87890625,
-      "learning_rate": 0.00012592951549617683,
-      "loss": 1.52888412,
-      "memory(GiB)": 19.33,
       "step": 250,
-      "train_speed(iter/s)": 0.075438
     },
     {
-      "epoch": 0.9784735812133072,
-      "eval_acc": 0.6267085624509033,
-      "eval_loss": 1.5281730890274048,
-      "eval_runtime": 69.069,
-      "eval_samples_per_second": 1.1,
-      "eval_steps_per_second": 0.55,
       "step": 250
     },
     {
-      "acc": 0.63230977,
-      "epoch": 0.9980430528375733,
-      "grad_norm": 0.84765625,
-      "learning_rate": 0.00012523983565774753,
-      "loss": 1.53058205,
-      "memory(GiB)": 19.46,
       "step": 255,
-      "train_speed(iter/s)": 0.074081
     },
     {
-      "acc": 0.66042156,
-      "epoch": 1.0176125244618395,
-      "grad_norm": 0.76171875,
-      "learning_rate": 0.00012453564021679692,
-      "loss": 1.37123928,
-      "memory(GiB)": 20.18,
       "step": 260,
-      "train_speed(iter/s)": 0.074295
     },
     {
-      "acc": 0.67253222,
-      "epoch": 1.0371819960861057,
-      "grad_norm": 0.76953125,
-      "learning_rate": 0.00012381711421770455,
-      "loss": 1.28407507,
-      "memory(GiB)": 19.7,
       "step": 265,
-      "train_speed(iter/s)": 0.074448
     },
     {
-      "acc": 0.66850777,
-      "epoch": 1.0567514677103718,
-      "grad_norm": 0.98046875,
-      "learning_rate": 0.0001230844464705507,
-      "loss": 1.27961807,
-      "memory(GiB)": 19.58,
       "step": 270,
-      "train_speed(iter/s)": 0.07459
     },
     {
-      "acc": 0.67196817,
-      "epoch": 1.076320939334638,
-      "grad_norm": 0.9140625,
-      "learning_rate": 0.00012233782950150186,
-      "loss": 1.28494987,
-      "memory(GiB)": 19.61,
       "step": 275,
-      "train_speed(iter/s)": 0.074728
     },
     {
-      "acc": 0.67708378,
-      "epoch": 1.095890410958904,
-      "grad_norm": 0.87109375,
-      "learning_rate": 0.00012157745950221989,
-      "loss": 1.29551096,
-      "memory(GiB)": 19.63,
       "step": 280,
-      "train_speed(iter/s)": 0.074881
     },
     {
-      "acc": 0.66973438,
-      "epoch": 1.1154598825831703,
-      "grad_norm": 1.0859375,
-      "learning_rate": 0.0001208035362783079,
-      "loss": 1.27705774,
-      "memory(GiB)": 19.49,
       "step": 285,
-      "train_speed(iter/s)": 0.075029
     },
     {
-      "acc": 0.6750237,
-      "epoch": 1.1350293542074363,
-      "grad_norm": 1.0859375,
-      "learning_rate": 0.00012001626319680648,
-      "loss": 1.25660419,
-      "memory(GiB)": 19.55,
       "step": 290,
-      "train_speed(iter/s)": 0.07515
     },
     {
-      "acc": 0.624368,
-      "epoch": 1.1545988258317026,
-      "grad_norm": 1.1953125,
-      "learning_rate": 0.00011921584713275411,
-      "loss": 1.5070508,
-      "memory(GiB)": 19.52,
       "step": 295,
-      "train_speed(iter/s)": 0.075278
     },
     {
-      "acc": 0.66252189,
-      "epoch": 1.1741682974559686,
-      "grad_norm": 0.828125,
-      "learning_rate": 0.0001184024984148257,
-      "loss": 1.32014723,
-      "memory(GiB)": 19.92,
       "step": 300,
-      "train_speed(iter/s)": 0.075433
     },
     {
-      "epoch": 1.1741682974559686,
-      "eval_acc": 0.6282796543597801,
-      "eval_loss": 1.5250990390777588,
-      "eval_runtime": 70.3986,
-      "eval_samples_per_second": 1.08,
-      "eval_steps_per_second": 0.54,
       "step": 300
     },
     {
-      "acc": 0.67028356,
-      "epoch": 1.1937377690802349,
-      "grad_norm": 1.7109375,
-      "learning_rate": 0.00011757643077006372,
-      "loss": 1.28037386,
-      "memory(GiB)": 22.6,
       "step": 305,
-      "train_speed(iter/s)": 0.074243
     },
     {
-      "acc": 0.655305,
-      "epoch": 1.213307240704501,
-      "grad_norm": 1.1015625,
-      "learning_rate": 0.00011673786126771617,
-      "loss": 1.31057158,
-      "memory(GiB)": 19.72,
       "step": 310,
-      "train_speed(iter/s)": 0.074392
     },
     {
-      "acc": 0.66528535,
-      "epoch": 1.2328767123287672,
-      "grad_norm": 1.6171875,
-      "learning_rate": 0.0001158870102621965,
-      "loss": 1.29698696,
-      "memory(GiB)": 19.08,
       "step": 315,
-      "train_speed(iter/s)": 0.074534
     },
     {
-      "acc": 0.66950455,
-      "epoch": 1.2524461839530332,
-      "grad_norm": 1.2421875,
-      "learning_rate": 0.00011502410133517998,
-      "loss": 1.27706356,
-      "memory(GiB)": 19.87,
       "step": 320,
-      "train_speed(iter/s)": 0.074667
     },
     {
-      "acc": 0.65843534,
-      "epoch": 1.2720156555772995,
-      "grad_norm": 1.2265625,
-      "learning_rate": 0.0001141493612368524,
-      "loss": 1.30308371,
-      "memory(GiB)": 19.87,
       "step": 325,
-      "train_speed(iter/s)": 0.0748
     },
     {
-      "acc": 0.66441913,
-      "epoch": 1.2915851272015655,
-      "grad_norm": 1.2578125,
-      "learning_rate": 0.00011326301982632583,
-      "loss": 1.26109972,
-      "memory(GiB)": 19.09,
       "step": 330,
-      "train_speed(iter/s)": 0.074935
     },
     {
-      "acc": 0.68711085,
-      "epoch": 1.3111545988258317,
-      "grad_norm": 0.95703125,
-      "learning_rate": 0.00011236531001123771,
-      "loss": 1.19278584,
-      "memory(GiB)": 19.73,
       "step": 335,
-      "train_speed(iter/s)": 0.075053
     },
     {
-      "acc": 0.66676803,
-      "epoch": 1.3307240704500978,
-      "grad_norm": 1.96875,
-      "learning_rate": 0.0001114564676865486,
-      "loss": 1.3068346,
-      "memory(GiB)": 19.84,
       "step": 340,
-      "train_speed(iter/s)": 0.075151
     },
     {
-      "acc": 0.66865935,
-      "epoch": 1.350293542074364,
-      "grad_norm": 1.2421875,
-      "learning_rate": 0.00011053673167255516,
-      "loss": 1.30573978,
-      "memory(GiB)": 19.66,
       "step": 345,
-      "train_speed(iter/s)": 0.075271
     },
     {
-      "acc": 0.66606102,
-      "epoch": 1.36986301369863,
-      "grad_norm": 0.76171875,
-      "learning_rate": 0.00010960634365213437,
-      "loss": 1.26872787,
-      "memory(GiB)": 19.73,
       "step": 350,
-      "train_speed(iter/s)": 0.075377
     },
     {
-      "epoch": 1.36986301369863,
-      "eval_acc": 0.6315003927729772,
-      "eval_loss": 1.5066882371902466,
-      "eval_runtime": 72.5685,
-      "eval_samples_per_second": 1.047,
-      "eval_steps_per_second": 0.524,
       "step": 350
     },
     {
-      "acc": 0.67307239,
-      "epoch": 1.3894324853228963,
-      "grad_norm": 1.1796875,
-      "learning_rate": 0.0001086655481072354,
-      "loss": 1.27917318,
-      "memory(GiB)": 22.92,
       "step": 355,
-      "train_speed(iter/s)": 0.074318
     },
     {
-      "acc": 0.65870218,
-      "epoch": 1.4090019569471623,
-      "grad_norm": 3.609375,
-      "learning_rate": 0.00010771459225463617,
-      "loss": 1.33731461,
-      "memory(GiB)": 19.67,
       "step": 360,
-      "train_speed(iter/s)": 0.074416
     },
     {
-      "acc": 0.68150563,
-      "epoch": 1.4285714285714286,
-      "grad_norm": 0.9296875,
-      "learning_rate": 0.00010675372598098113,
-      "loss": 1.20515957,
-      "memory(GiB)": 19.99,
       "step": 365,
-      "train_speed(iter/s)": 0.07451
     },
     {
-      "acc": 0.66793504,
-      "epoch": 1.4481409001956946,
-      "grad_norm": 1.03125,
-      "learning_rate": 0.00010578320177711743,
-      "loss": 1.31133595,
-      "memory(GiB)": 19.9,
       "step": 370,
-      "train_speed(iter/s)": 0.074613
     },
     {
-      "acc": 0.66840873,
-      "epoch": 1.467710371819961,
-      "grad_norm": 0.9453125,
-      "learning_rate": 0.00010480327467174705,
-      "loss": 1.27730675,
-      "memory(GiB)": 19.91,
       "step": 375,
-      "train_speed(iter/s)": 0.074709
     },
     {
-      "acc": 0.6621439,
-      "epoch": 1.487279843444227,
-      "grad_norm": 0.7890625,
-      "learning_rate": 0.00010381420216441152,
-      "loss": 1.29670372,
-      "memory(GiB)": 19.65,
       "step": 380,
-      "train_speed(iter/s)": 0.074824
     },
     {
-      "acc": 0.66805882,
-      "epoch": 1.5068493150684932,
-      "grad_norm": 0.8203125,
-      "learning_rate": 0.00010281624415782804,
-      "loss": 1.23922901,
-      "memory(GiB)": 19.77,
       "step": 385,
-      "train_speed(iter/s)": 0.074927
     },
     {
-      "acc": 0.66435666,
-      "epoch": 1.5264187866927594,
-      "grad_norm": 0.82421875,
-      "learning_rate": 0.0001018096628895935,
-      "loss": 1.27945633,
-      "memory(GiB)": 19.79,
       "step": 390,
-      "train_speed(iter/s)": 0.075033
     },
     {
-      "acc": 0.68444743,
-      "epoch": 1.5459882583170255,
-      "grad_norm": 0.98046875,
-      "learning_rate": 0.00010079472286327533,
-      "loss": 1.2325819,
-      "memory(GiB)": 19.55,
       "step": 395,
-      "train_speed(iter/s)": 0.075133
     },
     {
-      "acc": 0.68633671,
-      "epoch": 1.5655577299412915,
-      "grad_norm": 1.171875,
-      "learning_rate": 9.977169077890672e-05,
-      "loss": 1.26248102,
-      "memory(GiB)": 19.79,
       "step": 400,
-      "train_speed(iter/s)": 0.075233
     },
     {
-      "epoch": 1.5655577299412915,
-      "eval_acc": 0.6297721916732129,
-      "eval_loss": 1.5114485025405884,
-      "eval_runtime": 70.7985,
-      "eval_samples_per_second": 1.073,
-      "eval_steps_per_second": 0.537,
       "step": 400
     },
     {
-      "acc": 0.67859097,
-      "epoch": 1.5851272015655578,
-      "grad_norm": 1.046875,
-      "learning_rate": 9.874083546290482e-05,
-      "loss": 1.2065486,
-      "memory(GiB)": 22.72,
       "step": 405,
-      "train_speed(iter/s)": 0.074347
     },
     {
-      "acc": 0.66178751,
-      "epoch": 1.604696673189824,
-      "grad_norm": 0.96484375,
-      "learning_rate": 9.770242779743008e-05,
-      "loss": 1.30969448,
-      "memory(GiB)": 20.13,
       "step": 410,
-      "train_speed(iter/s)": 0.074453
     },
     {
-      "acc": 0.65872512,
-      "epoch": 1.62426614481409,
-      "grad_norm": 0.74609375,
-      "learning_rate": 9.665674064920533e-05,
-      "loss": 1.27483397,
-      "memory(GiB)": 20.17,
       "step": 415,
-      "train_speed(iter/s)": 0.074534
     },
     {
-      "acc": 0.66567349,
-      "epoch": 1.643835616438356,
-      "grad_norm": 0.87109375,
-      "learning_rate": 9.560404879781353e-05,
-      "loss": 1.31585007,
-      "memory(GiB)": 20.07,
       "step": 420,
-      "train_speed(iter/s)": 0.074639
     },
     {
-      "acc": 0.66216898,
-      "epoch": 1.6634050880626223,
-      "grad_norm": 0.85546875,
-      "learning_rate": 9.454462886349281e-05,
-      "loss": 1.32738457,
-      "memory(GiB)": 19.43,
       "step": 425,
-      "train_speed(iter/s)": 0.074732
     },
     {
-      "acc": 0.6608973,
-      "epoch": 1.6829745596868886,
-      "grad_norm": 1.1328125,
-      "learning_rate": 9.347875923444772e-05,
-      "loss": 1.2792593,
-      "memory(GiB)": 20.05,
       "step": 430,
-      "train_speed(iter/s)": 0.074827
     },
     {
-      "acc": 0.65830297,
-      "epoch": 1.7025440313111546,
-      "grad_norm": 0.94921875,
-      "learning_rate": 9.240671999369607e-05,
-      "loss": 1.34132614,
-      "memory(GiB)": 19.82,
       "step": 435,
-      "train_speed(iter/s)": 0.074914
     },
     {
-      "acc": 0.68926673,
-      "epoch": 1.7221135029354206,
-      "grad_norm": 0.76953125,
-      "learning_rate": 9.132879284547038e-05,
-      "loss": 1.15266266,
-      "memory(GiB)": 19.28,
       "step": 440,
-      "train_speed(iter/s)": 0.074997
     },
     {
-      "acc": 0.65699558,
-      "epoch": 1.741682974559687,
-      "grad_norm": 0.96484375,
-      "learning_rate": 9.024526104119312e-05,
-      "loss": 1.32417459,
-      "memory(GiB)": 19.29,
       "step": 445,
-      "train_speed(iter/s)": 0.075079
     },
     {
-      "acc": 0.68860197,
-      "epoch": 1.7612524461839532,
-      "grad_norm": 0.8203125,
-      "learning_rate": 8.91564093050458e-05,
-      "loss": 1.20134068,
-      "memory(GiB)": 19.33,
       "step": 450,
-      "train_speed(iter/s)": 0.07515
     },
     {
-      "epoch": 1.7612524461839532,
-      "eval_acc": 0.6351924587588373,
-      "eval_loss": 1.4908838272094727,
-      "eval_runtime": 71.5161,
-      "eval_samples_per_second": 1.063,
-      "eval_steps_per_second": 0.531,
       "step": 450
     },
     {
-      "acc": 0.65404687,
-      "epoch": 1.7808219178082192,
-      "grad_norm": 1.0078125,
-      "learning_rate": 8.806252375915052e-05,
-      "loss": 1.31502724,
-      "memory(GiB)": 19.13,
       "step": 455,
-      "train_speed(iter/s)": 0.074358
     },
     {
-      "acc": 0.69379678,
-      "epoch": 1.8003913894324852,
-      "grad_norm": 1.1015625,
-      "learning_rate": 8.696389184838471e-05,
-      "loss": 1.1870966,
-      "memory(GiB)": 20.18,
       "step": 460,
-      "train_speed(iter/s)": 0.074437
     },
     {
-      "acc": 0.67447538,
-      "epoch": 1.8199608610567515,
-      "grad_norm": 1.2890625,
-      "learning_rate": 8.586080226484789e-05,
-      "loss": 1.19511604,
-      "memory(GiB)": 20.09,
       "step": 465,
-      "train_speed(iter/s)": 0.074531
     },
     {
-      "acc": 0.67230067,
-      "epoch": 1.8395303326810177,
-      "grad_norm": 1.0390625,
-      "learning_rate": 8.475354487200092e-05,
-      "loss": 1.30591021,
-      "memory(GiB)": 19.29,
       "step": 470,
-      "train_speed(iter/s)": 0.074608
     },
     {
-      "acc": 0.65006552,
-      "epoch": 1.8590998043052838,
-      "grad_norm": 3.21875,
-      "learning_rate": 8.364241062849732e-05,
-      "loss": 1.35613279,
-      "memory(GiB)": 19.51,
       "step": 475,
-      "train_speed(iter/s)": 0.07469
     },
     {
-      "acc": 0.66248426,
-      "epoch": 1.8786692759295498,
-      "grad_norm": 1.0703125,
-      "learning_rate": 8.252769151172682e-05,
-      "loss": 1.34706697,
-      "memory(GiB)": 19.16,
       "step": 480,
-      "train_speed(iter/s)": 0.074779
     },
     {
-      "acc": 0.66462736,
-      "epoch": 1.898238747553816,
-      "grad_norm": 0.8515625,
-      "learning_rate": 8.140968044109134e-05,
-      "loss": 1.31343336,
-      "memory(GiB)": 19.17,
       "step": 485,
-      "train_speed(iter/s)": 0.07486
     },
     {
-      "acc": 0.65373287,
-      "epoch": 1.9178082191780823,
-      "grad_norm": 1.078125,
-      "learning_rate": 8.028867120103326e-05,
-      "loss": 1.31145601,
-      "memory(GiB)": 19.46,
       "step": 490,
-      "train_speed(iter/s)": 0.074941
     },
     {
-      "acc": 0.6731041,
-      "epoch": 1.9373776908023483,
-      "grad_norm": 0.89453125,
-      "learning_rate": 7.916495836383648e-05,
-      "loss": 1.24272699,
-      "memory(GiB)": 19.45,
       "step": 495,
-      "train_speed(iter/s)": 0.075011
     },
     {
-      "acc": 0.66485052,
-      "epoch": 1.9569471624266144,
-      "grad_norm": 1.03125,
-      "learning_rate": 7.80388372122204e-05,
-      "loss": 1.28164721,
-      "memory(GiB)": 19.24,
       "step": 500,
-      "train_speed(iter/s)": 0.07509
     },
     {
-      "epoch": 1.9569471624266144,
-      "eval_acc": 0.6349567949725059,
-      "eval_loss": 1.483258843421936,
-      "eval_runtime": 72.4797,
-      "eval_samples_per_second": 1.049,
-      "eval_steps_per_second": 0.524,
       "step": 500
     },
     {
-      "acc": 0.68325486,
-      "epoch": 1.9765166340508806,
-      "grad_norm": 1.2890625,
-      "learning_rate": 7.691060366174728e-05,
-      "loss": 1.2257865,
-      "memory(GiB)": 22.98,
       "step": 505,
-      "train_speed(iter/s)": 0.074371
     },
     {
-      "acc": 0.68977013,
-      "epoch": 1.9960861056751469,
-      "grad_norm": 1.0234375,
-      "learning_rate": 7.578055418306327e-05,
-      "loss": 1.25723343,
-      "memory(GiB)": 19.56,
       "step": 510,
-      "train_speed(iter/s)": 0.074471
     },
     {
-      "acc": 0.72185702,
-      "epoch": 2.015655577299413,
-      "grad_norm": 0.7890625,
-      "learning_rate": 7.464898572399353e-05,
-      "loss": 1.01715631,
-      "memory(GiB)": 20.07,
       "step": 515,
-      "train_speed(iter/s)": 0.074591
     },
     {
-      "acc": 0.71889682,
-      "epoch": 2.035225048923679,
-      "grad_norm": 1.0625,
-      "learning_rate": 7.351619563151208e-05,
-      "loss": 1.03077154,
-      "memory(GiB)": 19.92,
       "step": 520,
-      "train_speed(iter/s)": 0.074683
     },
     {
-      "acc": 0.7505311,
-      "epoch": 2.0547945205479454,
-      "grad_norm": 1.9609375,
-      "learning_rate": 7.238248157360663e-05,
-      "loss": 0.93218956,
-      "memory(GiB)": 19.85,
       "step": 525,
-      "train_speed(iter/s)": 0.07477
     },
     {
-      "acc": 0.7315311,
-      "epoch": 2.0743639921722115,
-      "grad_norm": 1.1875,
-      "learning_rate": 7.124814146105921e-05,
-      "loss": 0.96330833,
-      "memory(GiB)": 19.87,
       "step": 530,
-      "train_speed(iter/s)": 0.074853
     },
     {
-      "acc": 0.75555606,
-      "epoch": 2.0939334637964775,
-      "grad_norm": 1.3515625,
-      "learning_rate": 7.011347336916277e-05,
-      "loss": 0.86877937,
-      "memory(GiB)": 18.46,
       "step": 535,
-      "train_speed(iter/s)": 0.074938
     },
     {
-      "acc": 0.74034052,
-      "epoch": 2.1135029354207435,
-      "grad_norm": 1.546875,
-      "learning_rate": 6.897877545939475e-05,
-      "loss": 0.90922012,
-      "memory(GiB)": 19.89,
       "step": 540,
-      "train_speed(iter/s)": 0.075027
     },
     {
-      "acc": 0.72400937,
-      "epoch": 2.1330724070450096,
-      "grad_norm": 1.90625,
-      "learning_rate": 6.784434590106808e-05,
-      "loss": 0.98424711,
-      "memory(GiB)": 19.11,
       "step": 545,
-      "train_speed(iter/s)": 0.075114
     },
     {
-      "acc": 0.77706275,
-      "epoch": 2.152641878669276,
-      "grad_norm": 1.359375,
-      "learning_rate": 6.671048279297972e-05,
-      "loss": 0.80820856,
-      "memory(GiB)": 19.86,
       "step": 550,
-      "train_speed(iter/s)": 0.075193
     },
     {
-      "epoch": 2.152641878669276,
-      "eval_acc": 0.6260015710919089,
-      "eval_loss": 1.6081812381744385,
-      "eval_runtime": 68.6973,
-      "eval_samples_per_second": 1.106,
-      "eval_steps_per_second": 0.553,
       "step": 550
     },
     {
-      "acc": 0.75351696,
-      "epoch": 2.172211350293542,
-      "grad_norm": 2.015625,
-      "learning_rate": 6.55774840850782e-05,
-      "loss": 0.86192131,
-      "memory(GiB)": 22.21,
       "step": 555,
-      "train_speed(iter/s)": 0.074578
     },
     {
-      "acc": 0.74249997,
-      "epoch": 2.191780821917808,
-      "grad_norm": 1.4609375,
-      "learning_rate": 6.444564750017003e-05,
-      "loss": 0.91982813,
-      "memory(GiB)": 19.87,
       "step": 560,
-      "train_speed(iter/s)": 0.074665
     },
     {
-      "acc": 0.73636398,
-      "epoch": 2.2113502935420746,
-      "grad_norm": 1.9375,
-      "learning_rate": 6.331527045568573e-05,
-      "loss": 0.93448582,
-      "memory(GiB)": 19.33,
       "step": 565,
-      "train_speed(iter/s)": 0.074752
     },
     {
-      "acc": 0.74081583,
-      "epoch": 2.2309197651663406,
-      "grad_norm": 2.21875,
-      "learning_rate": 6.218664998552634e-05,
-      "loss": 0.94956303,
-      "memory(GiB)": 19.8,
       "step": 570,
-      "train_speed(iter/s)": 0.074842
     },
     {
-      "acc": 0.74573116,
-      "epoch": 2.2504892367906066,
-      "grad_norm": 2.546875,
-      "learning_rate": 6.106008266201046e-05,
-      "loss": 0.88486786,
-      "memory(GiB)": 19.92,
       "step": 575,
-      "train_speed(iter/s)": 0.074925
     },
     {
-      "acc": 0.75495067,
-      "epoch": 2.2700587084148727,
-      "grad_norm": 2.09375,
-      "learning_rate": 5.9935864517942844e-05,
-      "loss": 0.84776802,
-      "memory(GiB)": 19.89,
       "step": 580,
-      "train_speed(iter/s)": 0.075
     },
     {
-      "acc": 0.74743519,
-      "epoch": 2.2896281800391387,
-      "grad_norm": 1.5859375,
-      "learning_rate": 5.881429096882449e-05,
-      "loss": 0.92330503,
-      "memory(GiB)": 19.03,
       "step": 585,
-      "train_speed(iter/s)": 0.075076
     },
     {
-      "acc": 0.74913769,
-      "epoch": 2.309197651663405,
-      "grad_norm": 1.6640625,
-      "learning_rate": 5.769565673522515e-05,
-      "loss": 0.92942295,
-      "memory(GiB)": 20.04,
       "step": 590,
-      "train_speed(iter/s)": 0.075149
     },
     {
-      "acc": 0.74875064,
-      "epoch": 2.328767123287671,
-      "grad_norm": 1.25,
-      "learning_rate": 5.658025576533832e-05,
-      "loss": 0.90142069,
-      "memory(GiB)": 19.96,
       "step": 595,
-      "train_speed(iter/s)": 0.075215
     },
     {
-      "acc": 0.74648356,
-      "epoch": 2.3483365949119372,
-      "grad_norm": 1.65625,
-      "learning_rate": 5.546838115773929e-05,
-      "loss": 0.91528139,
-      "memory(GiB)": 19.84,
       "step": 600,
-      "train_speed(iter/s)": 0.075292
     },
     {
-      "epoch": 2.3483365949119372,
-      "eval_acc": 0.6284367635506677,
-      "eval_loss": 1.593437910079956,
-      "eval_runtime": 68.9856,
-      "eval_samples_per_second": 1.102,
-      "eval_steps_per_second": 0.551,
       "step": 600
     },
     {
-      "acc": 0.75246172,
-      "epoch": 2.3679060665362037,
-      "grad_norm": 1.2109375,
-      "learning_rate": 5.4360325084366416e-05,
-      "loss": 0.87402363,
-      "memory(GiB)": 22.69,
       "step": 605,
-      "train_speed(iter/s)": 0.074706
     },
     {
-      "acc": 0.74078665,
-      "epoch": 2.3874755381604698,
-      "grad_norm": 1.0390625,
-      "learning_rate": 5.3256378713745815e-05,
-      "loss": 0.91142588,
-      "memory(GiB)": 20.15,
       "step": 610,
-      "train_speed(iter/s)": 0.074788
     },
     {
-      "acc": 0.75772052,
-      "epoch": 2.407045009784736,
-      "grad_norm": 2.03125,
-      "learning_rate": 5.21568321344799e-05,
-      "loss": 0.85517597,
-      "memory(GiB)": 19.37,
       "step": 615,
-      "train_speed(iter/s)": 0.074857
     },
     {
-      "acc": 0.75341692,
-      "epoch": 2.426614481409002,
-      "grad_norm": 1.40625,
-      "learning_rate": 5.10619742790194e-05,
-      "loss": 0.87981377,
-      "memory(GiB)": 18.91,
       "step": 620,
-      "train_speed(iter/s)": 0.074925
     },
     {
-      "acc": 0.76221485,
-      "epoch": 2.446183953033268,
-      "grad_norm": 5.5625,
-      "learning_rate": 4.9972092847739603e-05,
-      "loss": 0.89623175,
-      "memory(GiB)": 20.27,
       "step": 625,
-      "train_speed(iter/s)": 0.074994
     },
     {
-      "acc": 0.74322577,
-      "epoch": 2.4657534246575343,
-      "grad_norm": 1.6796875,
-      "learning_rate": 4.8887474233339963e-05,
-      "loss": 0.89493027,
-      "memory(GiB)": 19.38,
       "step": 630,
-      "train_speed(iter/s)": 0.075068
     },
     {
-      "acc": 0.74455509,
-      "epoch": 2.4853228962818004,
-      "grad_norm": 1.3046875,
-      "learning_rate": 4.780840344558753e-05,
-      "loss": 0.92399101,
-      "memory(GiB)": 19.32,
       "step": 635,
-      "train_speed(iter/s)": 0.075143
     },
     {
-      "acc": 0.75597148,
-      "epoch": 2.5048923679060664,
-      "grad_norm": 1.65625,
-      "learning_rate": 4.673516403642383e-05,
-      "loss": 0.86396818,
-      "memory(GiB)": 19.52,
       "step": 640,
-      "train_speed(iter/s)": 0.075214
     },
     {
-      "acc": 0.75100412,
-      "epoch": 2.524461839530333,
-      "grad_norm": 1.5390625,
-      "learning_rate": 4.5668038025454554e-05,
-      "loss": 0.89630232,
-      "memory(GiB)": 19.54,
       "step": 645,
-      "train_speed(iter/s)": 0.07528
     },
     {
-      "acc": 0.74814,
-      "epoch": 2.544031311154599,
-      "grad_norm": 1.7265625,
-      "learning_rate": 4.460730582584228e-05,
-      "loss": 0.90660105,
-      "memory(GiB)": 19.46,
       "step": 650,
-      "train_speed(iter/s)": 0.075343
     },
     {
-      "epoch": 2.544031311154599,
-      "eval_acc": 0.6304006284367636,
-      "eval_loss": 1.6207610368728638,
-      "eval_runtime": 68.9365,
-      "eval_samples_per_second": 1.102,
-      "eval_steps_per_second": 0.551,
       "step": 650
     },
     {
-      "acc": 0.74153934,
-      "epoch": 2.563600782778865,
-      "grad_norm": 2.328125,
-      "learning_rate": 4.3553246170621e-05,
-      "loss": 0.90404129,
-      "memory(GiB)": 19.38,
       "step": 655,
-      "train_speed(iter/s)": 0.074813
     },
     {
-      "acc": 0.76082869,
-      "epoch": 2.583170254403131,
-      "grad_norm": 1.5390625,
-      "learning_rate": 4.2506136039452357e-05,
-      "loss": 0.90251627,
-      "memory(GiB)": 20.24,
       "step": 660,
-      "train_speed(iter/s)": 0.074877
     },
     {
-      "acc": 0.76424356,
-      "epoch": 2.602739726027397,
-      "grad_norm": 1.109375,
-      "learning_rate": 4.146625058584251e-05,
-      "loss": 0.85076065,
-      "memory(GiB)": 19.4,
       "step": 665,
-      "train_speed(iter/s)": 0.07494
     },
     {
-      "acc": 0.75788155,
-      "epoch": 2.6223091976516635,
-      "grad_norm": 1.828125,
-      "learning_rate": 4.043386306483886e-05,
-      "loss": 0.8638917,
-      "memory(GiB)": 18.71,
       "step": 670,
-      "train_speed(iter/s)": 0.075
     },
     {
-      "acc": 0.74567804,
-      "epoch": 2.6418786692759295,
-      "grad_norm": 1.5078125,
-      "learning_rate": 3.940924476122573e-05,
-      "loss": 0.91406345,
-      "memory(GiB)": 19.53,
       "step": 675,
-      "train_speed(iter/s)": 0.075062
     },
     {
-      "acc": 0.77229648,
-      "epoch": 2.6614481409001955,
-      "grad_norm": 1.3984375,
-      "learning_rate": 3.839266491823776e-05,
-      "loss": 0.79556112,
-      "memory(GiB)": 19.59,
       "step": 680,
-      "train_speed(iter/s)": 0.075125
     },
     {
-      "acc": 0.7331708,
-      "epoch": 2.681017612524462,
-      "grad_norm": 1.6015625,
-      "learning_rate": 3.73843906668096e-05,
-      "loss": 0.95133247,
-      "memory(GiB)": 19.69,
       "step": 685,
-      "train_speed(iter/s)": 0.075185
     },
     {
-      "acc": 0.76955137,
-      "epoch": 2.700587084148728,
-      "grad_norm": 1.4140625,
-      "learning_rate": 3.6384686955380996e-05,
-      "loss": 0.82770052,
-      "memory(GiB)": 19.53,
       "step": 690,
-      "train_speed(iter/s)": 0.075245
     },
     {
-      "acc": 0.73245583,
-      "epoch": 2.720156555772994,
-      "grad_norm": 1.59375,
-      "learning_rate": 3.539381648027495e-05,
-      "loss": 0.93347349,
-      "memory(GiB)": 19.38,
       "step": 695,
-      "train_speed(iter/s)": 0.075313
     },
     {
-      "acc": 0.7664053,
-      "epoch": 2.73972602739726,
-      "grad_norm": 1.4296875,
-      "learning_rate": 3.441203961666818e-05,
-      "loss": 0.84118309,
-      "memory(GiB)": 19.55,
       "step": 700,
-      "train_speed(iter/s)": 0.075373
     },
     {
-      "epoch": 2.73972602739726,
-      "eval_acc": 0.628750981932443,
-      "eval_loss": 1.5982366800308228,
-      "eval_runtime": 69.1268,
-      "eval_samples_per_second": 1.099,
-      "eval_steps_per_second": 0.55,
       "step": 700
     },
     {
-      "acc": 0.74386759,
-      "epoch": 2.759295499021526,
-      "grad_norm": 2.21875,
-      "learning_rate": 3.343961435017094e-05,
-      "loss": 0.92712116,
-      "memory(GiB)": 23.1,
       "step": 705,
-      "train_speed(iter/s)": 0.074881
     },
     {
-      "acc": 0.75352135,
-      "epoch": 2.7788649706457926,
-      "grad_norm": 1.5625,
-      "learning_rate": 3.247679620903533e-05,
-      "loss": 0.90610752,
-      "memory(GiB)": 19.56,
       "step": 710,
-      "train_speed(iter/s)": 0.074934
     },
     {
-      "acc": 0.75765467,
-      "epoch": 2.7984344422700587,
-      "grad_norm": 4.4375,
-      "learning_rate": 3.1523838197008956e-05,
-      "loss": 0.88628139,
-      "memory(GiB)": 19.44,
       "step": 715,
-      "train_speed(iter/s)": 0.074999
     },
     {
-      "acc": 0.763375,
-      "epoch": 2.8180039138943247,
-      "grad_norm": 1.1640625,
-      "learning_rate": 3.058099072685204e-05,
-      "loss": 0.86159172,
-      "memory(GiB)": 19.5,
       "step": 720,
-      "train_speed(iter/s)": 0.075059
     },
     {
-      "acc": 0.75694184,
-      "epoch": 2.837573385518591,
-      "grad_norm": 1.6171875,
-      "learning_rate": 2.964850155453543e-05,
-      "loss": 0.85433092,
-      "memory(GiB)": 19.38,
       "step": 725,
-      "train_speed(iter/s)": 0.075121
     },
     {
-      "acc": 0.76086893,
-      "epoch": 2.857142857142857,
-      "grad_norm": 1.5859375,
-      "learning_rate": 2.8726615714136827e-05,
-      "loss": 0.8608798,
-      "memory(GiB)": 19.58,
       "step": 730,
-      "train_speed(iter/s)": 0.075181
     },
     {
-      "acc": 0.74008894,
-      "epoch": 2.8767123287671232,
-      "grad_norm": 1.4375,
-      "learning_rate": 2.7815575453452058e-05,
-      "loss": 0.98413734,
-      "memory(GiB)": 19.59,
       "step": 735,
-      "train_speed(iter/s)": 0.075242
     },
     {
-      "acc": 0.75941825,
-      "epoch": 2.8962818003913893,
-      "grad_norm": 1.7734375,
-      "learning_rate": 2.6915620170338612e-05,
-      "loss": 0.85438929,
-      "memory(GiB)": 19.39,
       "step": 740,
-      "train_speed(iter/s)": 0.075307
     },
     {
-      "acc": 0.77891464,
-      "epoch": 2.9158512720156553,
-      "grad_norm": 1.7265625,
-      "learning_rate": 2.6026986349808058e-05,
-      "loss": 0.79716868,
-      "memory(GiB)": 19.61,
       "step": 745,
-      "train_speed(iter/s)": 0.075361
     },
     {
-      "acc": 0.75023217,
-      "epoch": 2.935420743639922,
-      "grad_norm": 1.28125,
-      "learning_rate": 2.514990750188399e-05,
-      "loss": 0.85774508,
-      "memory(GiB)": 18.86,
       "step": 750,
-      "train_speed(iter/s)": 0.075417
     },
     {
-      "epoch": 2.935420743639922,
-      "eval_acc": 0.6324430479183032,
-      "eval_loss": 1.5986852645874023,
-      "eval_runtime": 69.3348,
-      "eval_samples_per_second": 1.096,
-      "eval_steps_per_second": 0.548,
       "step": 750
     },
     {
-      "acc": 0.74531512,
-      "epoch": 2.954990215264188,
-      "grad_norm": 1.5625,
-      "learning_rate": 2.4284614100241538e-05,
-      "loss": 0.93483381,
-      "memory(GiB)": 23.14,
       "step": 755,
-      "train_speed(iter/s)": 0.074953
     },
     {
-      "acc": 0.76761031,
-      "epoch": 2.974559686888454,
-      "grad_norm": 1.6171875,
-      "learning_rate": 2.343133352164477e-05,
-      "loss": 0.84630623,
-      "memory(GiB)": 19.36,
       "step": 760,
-      "train_speed(iter/s)": 0.075015
     },
     {
-      "acc": 0.75018072,
-      "epoch": 2.9941291585127203,
-      "grad_norm": 1.5703125,
-      "learning_rate": 2.2590289986198136e-05,
-      "loss": 0.89352074,
-      "memory(GiB)": 19.6,
       "step": 765,
-      "train_speed(iter/s)": 0.075072
     },
     {
-      "acc": 0.80383377,
-      "epoch": 3.0136986301369864,
-      "grad_norm": 1.453125,
-      "learning_rate": 2.1761704498427003e-05,
-      "loss": 0.68276234,
-      "memory(GiB)": 19.62,
       "step": 770,
-      "train_speed(iter/s)": 0.075153
     },
     {
-      "acc": 0.82252359,
-      "epoch": 3.0332681017612524,
-      "grad_norm": 1.328125,
-      "learning_rate": 2.094579478920358e-05,
-      "loss": 0.64008789,
-      "memory(GiB)": 19.76,
       "step": 775,
-      "train_speed(iter/s)": 0.075213
     },
     {
-      "acc": 0.83448801,
-      "epoch": 3.0528375733855184,
-      "grad_norm": 1.8828125,
-      "learning_rate": 2.0142775258532654e-05,
-      "loss": 0.61610913,
-      "memory(GiB)": 19.59,
       "step": 780,
-      "train_speed(iter/s)": 0.075271
     },
     {
-      "acc": 0.83116817,
-      "epoch": 3.072407045009785,
-      "grad_norm": 1.5546875,
-      "learning_rate": 1.9352856919212994e-05,
-      "loss": 0.58688097,
-      "memory(GiB)": 19.53,
       "step": 785,
-      "train_speed(iter/s)": 0.075323
     },
     {
-      "acc": 0.82525949,
-      "epoch": 3.091976516634051,
-      "grad_norm": 1.4375,
-      "learning_rate": 1.8576247341388544e-05,
-      "loss": 0.62312498,
-      "memory(GiB)": 19.85,
       "step": 790,
-      "train_speed(iter/s)": 0.07537
     },
     {
-      "acc": 0.81645441,
-      "epoch": 3.111545988258317,
-      "grad_norm": 1.65625,
-      "learning_rate": 1.7813150598004313e-05,
-      "loss": 0.62203112,
-      "memory(GiB)": 19.79,
       "step": 795,
-      "train_speed(iter/s)": 0.075423
     },
     {
-      "acc": 0.83432789,
-      "epoch": 3.131115459882583,
-      "grad_norm": 1.5859375,
-      "learning_rate": 1.7063767211181333e-05,
-      "loss": 0.60077624,
-      "memory(GiB)": 19.52,
       "step": 800,
-      "train_speed(iter/s)": 0.07548
     },
     {
-      "epoch": 3.131115459882583,
-      "eval_acc": 0.6209740769835035,
-      "eval_loss": 1.7955598831176758,
-      "eval_runtime": 69.0109,
-      "eval_samples_per_second": 1.101,
-      "eval_steps_per_second": 0.551,
       "step": 800
-    },
-    {
-      "acc": 0.82124023,
-      "epoch": 3.1506849315068495,
-      "grad_norm": 1.7578125,
-      "learning_rate": 1.6328294099524644e-05,
-      "loss": 0.60847788,
-      "memory(GiB)": 22.65,
-      "step": 805,
-      "train_speed(iter/s)": 0.075043
-    },
-    {
-      "acc": 0.83265171,
-      "epoch": 3.1702544031311155,
-      "grad_norm": 4.09375,
-      "learning_rate": 1.5606924526378136e-05,
-      "loss": 0.57863126,
-      "memory(GiB)": 18.89,
-      "step": 810,
-      "train_speed(iter/s)": 0.07509
-    },
-    {
-      "acc": 0.8407362,
-      "epoch": 3.1898238747553815,
-      "grad_norm": 1.1796875,
-      "learning_rate": 1.4899848049039881e-05,
-      "loss": 0.53706379,
-      "memory(GiB)": 19.37,
-      "step": 815,
-      "train_speed(iter/s)": 0.075142
-    },
-    {
-      "acc": 0.82116756,
-      "epoch": 3.2093933463796476,
-      "grad_norm": 1.859375,
-      "learning_rate": 1.4207250468951426e-05,
-      "loss": 0.64039102,
-      "memory(GiB)": 19.52,
-      "step": 820,
-      "train_speed(iter/s)": 0.075197
-    },
-    {
-      "acc": 0.85004549,
-      "epoch": 3.228962818003914,
-      "grad_norm": 1.0390625,
-      "learning_rate": 1.3529313782874023e-05,
-      "loss": 0.53315983,
-      "memory(GiB)": 19.52,
-      "step": 825,
-      "train_speed(iter/s)": 0.07525
-    },
-    {
-      "acc": 0.83273296,
-      "epoch": 3.24853228962818,
-      "grad_norm": 1.578125,
-      "learning_rate": 1.2866216135064487e-05,
-      "loss": 0.58545351,
-      "memory(GiB)": 19.36,
-      "step": 830,
-      "train_speed(iter/s)": 0.075303
-    },
-    {
-      "acc": 0.80788403,
-      "epoch": 3.268101761252446,
-      "grad_norm": 2.296875,
-      "learning_rate": 1.2218131770463487e-05,
-      "loss": 0.67468171,
-      "memory(GiB)": 19.28,
-      "step": 835,
-      "train_speed(iter/s)": 0.075356
-    },
-    {
-      "acc": 0.8440134,
-      "epoch": 3.287671232876712,
-      "grad_norm": 1.21875,
-      "learning_rate": 1.1585230988908576e-05,
-      "loss": 0.55293651,
-      "memory(GiB)": 19.37,
-      "step": 840,
-      "train_speed(iter/s)": 0.07541
-    },
-    {
-      "acc": 0.81569691,
-      "epoch": 3.3072407045009786,
-      "grad_norm": 1.671875,
-      "learning_rate": 1.0967680100383645e-05,
-      "loss": 0.61190109,
-      "memory(GiB)": 18.09,
-      "step": 845,
-      "train_speed(iter/s)": 0.075466
-    },
-    {
-      "acc": 0.84766483,
-      "epoch": 3.3268101761252447,
-      "grad_norm": 1.8046875,
-      "learning_rate": 1.0365641381317113e-05,
-      "loss": 0.52525816,
-      "memory(GiB)": 19.31,
-      "step": 850,
-      "train_speed(iter/s)": 0.075523
-    },
-    {
-      "epoch": 3.3268101761252447,
-      "eval_acc": 0.6203456402199529,
-      "eval_loss": 1.7881730794906616,
-      "eval_runtime": 69.1552,
-      "eval_samples_per_second": 1.099,
-      "eval_steps_per_second": 0.549,
-      "step": 850
-    },
-    {
-      "acc": 0.84491625,
-      "epoch": 3.3463796477495107,
-      "grad_norm": 1.8046875,
-      "learning_rate": 9.779273031939692e-06,
-      "loss": 0.56272998,
-      "memory(GiB)": 23.04,
-      "step": 855,
-      "train_speed(iter/s)": 0.07511
-    },
-    {
-      "acc": 0.84104662,
-      "epoch": 3.3659491193737767,
-      "grad_norm": 1.796875,
-      "learning_rate": 9.20872913471363e-06,
-      "loss": 0.57019663,
-      "memory(GiB)": 19.42,
-      "step": 860,
-      "train_speed(iter/s)": 0.075157
-    },
-    {
-      "acc": 0.84433002,
-      "epoch": 3.385518590998043,
-      "grad_norm": 1.6484375,
-      "learning_rate": 8.654159613843715e-06,
-      "loss": 0.55449514,
-      "memory(GiB)": 19.59,
-      "step": 865,
-      "train_speed(iter/s)": 0.07521
-    },
-    {
-      "acc": 0.80005312,
-      "epoch": 3.4050880626223092,
-      "grad_norm": 1.46875,
-      "learning_rate": 8.115710195881068e-06,
-      "loss": 0.73595409,
-      "memory(GiB)": 19.36,
-      "step": 870,
-      "train_speed(iter/s)": 0.075258
-    },
-    {
-      "acc": 0.83217945,
-      "epoch": 3.4246575342465753,
-      "grad_norm": 3.328125,
-      "learning_rate": 7.593522371429972e-06,
-      "loss": 0.58270836,
-      "memory(GiB)": 19.58,
-      "step": 875,
-      "train_speed(iter/s)": 0.075306
-    },
-    {
-      "acc": 0.82742786,
-      "epoch": 3.4442270058708413,
-      "grad_norm": 1.234375,
-      "learning_rate": 7.0877333579678585e-06,
-      "loss": 0.59052157,
-      "memory(GiB)": 19.6,
-      "step": 880,
-      "train_speed(iter/s)": 0.075358
-    },
-    {
-      "acc": 0.81994705,
-      "epoch": 3.4637964774951078,
-      "grad_norm": 1.7578125,
-      "learning_rate": 6.598476063788036e-06,
-      "loss": 0.62256751,
-      "memory(GiB)": 19.56,
-      "step": 885,
-      "train_speed(iter/s)": 0.075405
-    },
-    {
-      "acc": 0.8157341,
-      "epoch": 3.483365949119374,
-      "grad_norm": 1.8203125,
-      "learning_rate": 6.12587905307477e-06,
-      "loss": 0.66806622,
-      "memory(GiB)": 19.49,
-      "step": 890,
-      "train_speed(iter/s)": 0.075454
-    },
-    {
-      "acc": 0.82838688,
-      "epoch": 3.50293542074364,
-      "grad_norm": 1.515625,
-      "learning_rate": 5.67006651212008e-06,
-      "loss": 0.63044977,
-      "memory(GiB)": 19.54,
-      "step": 895,
-      "train_speed(iter/s)": 0.075497
-    },
-    {
-      "acc": 0.79130597,
-      "epoch": 3.5225048923679063,
-      "grad_norm": 1.640625,
-      "learning_rate": 5.2311582166906605e-06,
-      "loss": 0.7558567,
-      "memory(GiB)": 19.28,
-      "step": 900,
-      "train_speed(iter/s)": 0.07555
-    },
-    {
-      "epoch": 3.5225048923679063,
-      "eval_acc": 0.6211311861743912,
-      "eval_loss": 1.7854998111724854,
-      "eval_runtime": 69.2434,
-      "eval_samples_per_second": 1.098,
-      "eval_steps_per_second": 0.549,
-      "step": 900
     }
   ],
   "logging_steps": 5,
-  "max_steps": 1020,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
-  "save_steps": 300,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -1998,7 +1780,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.605539502350213e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.47908163,
+  "best_model_checkpoint": "D:\\_____NEW_NN\\LLM\\MiniCPM-V\\finetune\\output\\phi3-vision-128k-instruct\\v9-20240710-235159\\checkpoint-500",
+  "epoch": 2.8828828828828827,
   "eval_steps": 50,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "acc": 0.4856407,
+      "epoch": 0.0036036036036036037,
+      "grad_norm": 0.734375,
+      "learning_rate": 2.4107142857142856e-06,
+      "loss": 2.42667556,
+      "memory(GiB)": 18.11,
       "step": 1,
+      "train_speed(iter/s)": 0.072451
     },
     {
+      "acc": 0.50815099,
+      "epoch": 0.018018018018018018,
+      "grad_norm": 0.671875,
+      "learning_rate": 1.2053571428571429e-05,
+      "loss": 2.28746271,
+      "memory(GiB)": 19.3,
       "step": 5,
+      "train_speed(iter/s)": 0.081978
     },
     {
+      "acc": 0.50680609,
+      "epoch": 0.036036036036036036,
+      "grad_norm": 0.76953125,
+      "learning_rate": 2.4107142857142858e-05,
+      "loss": 2.29894772,
+      "memory(GiB)": 19.3,
       "step": 10,
+      "train_speed(iter/s)": 0.084125
     },
     {
+      "acc": 0.51412601,
+      "epoch": 0.05405405405405406,
+      "grad_norm": 0.76171875,
+      "learning_rate": 3.616071428571428e-05,
+      "loss": 2.34161263,
+      "memory(GiB)": 19.7,
       "step": 15,
+      "train_speed(iter/s)": 0.08456
     },
     {
+      "acc": 0.52338777,
+      "epoch": 0.07207207207207207,
+      "grad_norm": 0.6015625,
+      "learning_rate": 4.8214285714285716e-05,
+      "loss": 2.23036633,
+      "memory(GiB)": 19.88,
       "step": 20,
+      "train_speed(iter/s)": 0.084117
     },
     {
+      "acc": 0.55944238,
+      "epoch": 0.09009009009009009,
+      "grad_norm": 0.66796875,
+      "learning_rate": 6.026785714285715e-05,
+      "loss": 2.01084595,
+      "memory(GiB)": 19.93,
       "step": 25,
+      "train_speed(iter/s)": 0.084444
     },
     {
+      "acc": 0.57758675,
+      "epoch": 0.10810810810810811,
+      "grad_norm": 0.765625,
+      "learning_rate": 7.232142857142856e-05,
+      "loss": 1.94100876,
+      "memory(GiB)": 20.21,
       "step": 30,
+      "train_speed(iter/s)": 0.085158
     },
     {
+      "acc": 0.5666451,
+      "epoch": 0.12612612612612611,
+      "grad_norm": 0.796875,
+      "learning_rate": 8.4375e-05,
+      "loss": 1.96992569,
+      "memory(GiB)": 19.42,
       "step": 35,
+      "train_speed(iter/s)": 0.085562
     },
     {
+      "acc": 0.55766659,
+      "epoch": 0.14414414414414414,
+      "grad_norm": 0.828125,
+      "learning_rate": 9.642857142857143e-05,
+      "loss": 2.01305885,
+      "memory(GiB)": 19.71,
       "step": 40,
+      "train_speed(iter/s)": 0.0857
     },
     {
+      "acc": 0.56964116,
+      "epoch": 0.16216216216216217,
+      "grad_norm": 0.83203125,
+      "learning_rate": 0.00010848214285714286,
+      "loss": 1.925914,
+      "memory(GiB)": 19.68,
       "step": 45,
+      "train_speed(iter/s)": 0.08577
     },
     {
+      "acc": 0.56270452,
+      "epoch": 0.18018018018018017,
+      "grad_norm": 0.9375,
+      "learning_rate": 0.0001205357142857143,
+      "loss": 1.94923038,
+      "memory(GiB)": 19.65,
       "step": 50,
+      "train_speed(iter/s)": 0.085942
     },
     {
+      "epoch": 0.18018018018018017,
+      "eval_acc": 0.5890983000739098,
+      "eval_loss": 1.795773983001709,
+      "eval_runtime": 136.6505,
+      "eval_samples_per_second": 1.105,
+      "eval_steps_per_second": 0.556,
       "step": 50
     },
     {
+      "acc": 0.57772484,
+      "epoch": 0.1981981981981982,
+      "grad_norm": 0.7265625,
+      "learning_rate": 0.00013258928571428571,
+      "loss": 1.86195869,
+      "memory(GiB)": 23.11,
       "step": 55,
+      "train_speed(iter/s)": 0.070857
     },
     {
+      "acc": 0.59196444,
+      "epoch": 0.21621621621621623,
+      "grad_norm": 0.8125,
+      "learning_rate": 0.00013499518432841625,
+      "loss": 1.74724998,
+      "memory(GiB)": 19.42,
       "step": 60,
+      "train_speed(iter/s)": 0.071911
     },
     {
+      "acc": 0.57253065,
+      "epoch": 0.23423423423423423,
+      "grad_norm": 0.69921875,
+      "learning_rate": 0.00013497562184025362,
+      "loss": 1.87580814,
+      "memory(GiB)": 19.61,
       "step": 65,
+      "train_speed(iter/s)": 0.072807
     },
     {
+      "acc": 0.59546819,
+      "epoch": 0.25225225225225223,
+      "grad_norm": 0.73046875,
+      "learning_rate": 0.00013494101591406666,
+      "loss": 1.73464546,
+      "memory(GiB)": 19.58,
       "step": 70,
+      "train_speed(iter/s)": 0.073652
     },
     {
+      "acc": 0.59667702,
+      "epoch": 0.2702702702702703,
+      "grad_norm": 0.8203125,
+      "learning_rate": 0.00013489137426511745,
+      "loss": 1.69518318,
+      "memory(GiB)": 18.19,
       "step": 75,
+      "train_speed(iter/s)": 0.074445
     },
     {
+      "acc": 0.61824327,
+      "epoch": 0.2882882882882883,
+      "grad_norm": 0.828125,
+      "learning_rate": 0.00013482670796082633,
+      "loss": 1.64374161,
+      "memory(GiB)": 19.52,
       "step": 80,
+      "train_speed(iter/s)": 0.075071
     },
     {
+      "acc": 0.60798159,
+      "epoch": 0.3063063063063063,
+      "grad_norm": 0.7734375,
+      "learning_rate": 0.00013474703141830443,
+      "loss": 1.68669338,
+      "memory(GiB)": 19.57,
       "step": 85,
+      "train_speed(iter/s)": 0.07562
     },
     {
+      "acc": 0.5981144,
+      "epoch": 0.32432432432432434,
+      "grad_norm": 0.80078125,
+      "learning_rate": 0.00013465236240113953,
+      "loss": 1.701264,
+      "memory(GiB)": 20.19,
       "step": 90,
+      "train_speed(iter/s)": 0.076188
     },
     {
+      "acc": 0.59871612,
+      "epoch": 0.34234234234234234,
+      "grad_norm": 1.0234375,
+      "learning_rate": 0.00013454272201543564,
+      "loss": 1.76608849,
+      "memory(GiB)": 19.35,
       "step": 95,
+      "train_speed(iter/s)": 0.076637
     },
     {
+      "acc": 0.61396523,
+      "epoch": 0.36036036036036034,
+      "grad_norm": 0.7109375,
+      "learning_rate": 0.00013441813470510747,
+      "loss": 1.61449242,
+      "memory(GiB)": 19.69,
       "step": 100,
+      "train_speed(iter/s)": 0.077075
     },
     {
+      "epoch": 0.36036036036036034,
+      "eval_acc": 0.6091648189209165,
+      "eval_loss": 1.6449466943740845,
+      "eval_runtime": 134.5726,
+      "eval_samples_per_second": 1.122,
+      "eval_steps_per_second": 0.565,
       "step": 100
     },
     {
+      "acc": 0.61147785,
+      "epoch": 0.3783783783783784,
+      "grad_norm": 0.69921875,
+      "learning_rate": 0.00013427862824643083,
+      "loss": 1.60589867,
+      "memory(GiB)": 21.03,
       "step": 105,
+      "train_speed(iter/s)": 0.070426
     },
     {
+      "acc": 0.6038115,
+      "epoch": 0.3963963963963964,
+      "grad_norm": 0.88671875,
+      "learning_rate": 0.00013412423374184996,
+      "loss": 1.69055023,
+      "memory(GiB)": 19.44,
       "step": 110,
+      "train_speed(iter/s)": 0.07105
     },
     {
+      "acc": 0.62303677,
+      "epoch": 0.4144144144144144,
+      "grad_norm": 0.84375,
+      "learning_rate": 0.00013395498561304334,
+      "loss": 1.5716897,
+      "memory(GiB)": 19.27,
       "step": 115,
+      "train_speed(iter/s)": 0.071618
     },
     {
+      "acc": 0.6214046,
+      "epoch": 0.43243243243243246,
+      "grad_norm": 0.640625,
+      "learning_rate": 0.00013377092159324956,
+      "loss": 1.57531881,
+      "memory(GiB)": 19.36,
       "step": 120,
+      "train_speed(iter/s)": 0.07209
     },
     {
+      "acc": 0.58676672,
+      "epoch": 0.45045045045045046,
+      "grad_norm": 0.68359375,
+      "learning_rate": 0.00013357208271885473,
+      "loss": 1.74933128,
+      "memory(GiB)": 19.32,
       "step": 125,
+      "train_speed(iter/s)": 0.072581
     },
     {
+      "acc": 0.59380612,
+      "epoch": 0.46846846846846846,
+      "grad_norm": 0.7890625,
+      "learning_rate": 0.00013335851332024374,
+      "loss": 1.69583378,
+      "memory(GiB)": 20.18,
       "step": 130,
+      "train_speed(iter/s)": 0.073016
     },
     {
+      "acc": 0.62007999,
+      "epoch": 0.4864864864864865,
+      "grad_norm": 0.73828125,
+      "learning_rate": 0.0001331302610119168,
+      "loss": 1.60020466,
+      "memory(GiB)": 19.52,
       "step": 135,
+      "train_speed(iter/s)": 0.073417
     },
     {
+      "acc": 0.6116991,
+      "epoch": 0.5045045045045045,
+      "grad_norm": 1.1015625,
+      "learning_rate": 0.00013288737668187408,
+      "loss": 1.62470894,
+      "memory(GiB)": 19.47,
       "step": 140,
+      "train_speed(iter/s)": 0.073817
     },
     {
+      "acc": 0.60051751,
+      "epoch": 0.5225225225225225,
+      "grad_norm": 0.87109375,
+      "learning_rate": 0.00013262991448027034,
+      "loss": 1.6651041,
+      "memory(GiB)": 19.42,
       "step": 145,
+      "train_speed(iter/s)": 0.074194
     },
     {
+      "acc": 0.60736594,
+      "epoch": 0.5405405405405406,
+      "grad_norm": 0.76953125,
+      "learning_rate": 0.00013235793180734238,
+      "loss": 1.64281559,
+      "memory(GiB)": 19.53,
       "step": 150,
+      "train_speed(iter/s)": 0.074547
     },
     {
+      "epoch": 0.5405405405405406,
+      "eval_acc": 0.6190317812269032,
+      "eval_loss": 1.5917434692382812,
+      "eval_runtime": 135.0141,
+      "eval_samples_per_second": 1.118,
+      "eval_steps_per_second": 0.563,
       "step": 150
     },
     {
+      "acc": 0.61663914,
+      "epoch": 0.5585585585585585,
+      "grad_norm": 1.0625,
+      "learning_rate": 0.00013207148930061195,
+      "loss": 1.60914173,
+      "memory(GiB)": 23.05,
       "step": 155,
+      "train_speed(iter/s)": 0.070306
     },
     {
+      "acc": 0.60967774,
+      "epoch": 0.5765765765765766,
+      "grad_norm": 0.76953125,
+      "learning_rate": 0.00013177065082136668,
+      "loss": 1.59582939,
+      "memory(GiB)": 19.47,
       "step": 160,
+      "train_speed(iter/s)": 0.070712
     },
     {
+      "acc": 0.63630972,
+      "epoch": 0.5945945945945946,
+      "grad_norm": 0.70703125,
+      "learning_rate": 0.00013145548344042262,
+      "loss": 1.50356016,
+      "memory(GiB)": 19.62,
       "step": 165,
+      "train_speed(iter/s)": 0.071104
     },
     {
+      "acc": 0.60439692,
+      "epoch": 0.6126126126126126,
+      "grad_norm": 0.73046875,
+      "learning_rate": 0.00013112605742317095,
+      "loss": 1.67050171,
+      "memory(GiB)": 19.41,
       "step": 170,
+      "train_speed(iter/s)": 0.071478
     },
     {
+      "acc": 0.62380457,
+      "epoch": 0.6306306306306306,
+      "grad_norm": 0.76171875,
+      "learning_rate": 0.0001307824462139125,
+      "loss": 1.53042831,
+      "memory(GiB)": 19.5,
       "step": 175,
+      "train_speed(iter/s)": 0.071843
     },
     {
+      "acc": 0.61549187,
+      "epoch": 0.6486486486486487,
+      "grad_norm": 0.7578125,
+      "learning_rate": 0.00013042472641948386,
+      "loss": 1.59476538,
+      "memory(GiB)": 19.53,
       "step": 180,
+      "train_speed(iter/s)": 0.072168
     },
     {
+      "acc": 0.64418182,
+      "epoch": 0.6666666666666666,
+      "grad_norm": 1.1796875,
+      "learning_rate": 0.0001300529777921779,
+      "loss": 1.47999802,
+      "memory(GiB)": 19.32,
       "step": 185,
+      "train_speed(iter/s)": 0.072501
     },
     {
+      "acc": 0.62201657,
+      "epoch": 0.6846846846846847,
+      "grad_norm": 0.6484375,
+      "learning_rate": 0.00012966728321196346,
+      "loss": 1.5685544,
+      "memory(GiB)": 19.47,
       "step": 190,
+      "train_speed(iter/s)": 0.072821
     },
     {
+      "acc": 0.61418505,
+      "epoch": 0.7027027027027027,
+      "grad_norm": 0.8984375,
+      "learning_rate": 0.00012926772866800757,
+      "loss": 1.6284462,
+      "memory(GiB)": 19.45,
       "step": 195,
+      "train_speed(iter/s)": 0.073127
     },
     {
+      "acc": 0.62820964,
+      "epoch": 0.7207207207207207,
+      "grad_norm": 0.8515625,
+      "learning_rate": 0.00012885440323950434,
+      "loss": 1.54364405,
+      "memory(GiB)": 19.53,
       "step": 200,
+      "train_speed(iter/s)": 0.073413
     },
     {
+      "epoch": 0.7207207207207207,
+      "eval_acc": 0.6269770879526977,
+      "eval_loss": 1.5466336011886597,
+      "eval_runtime": 134.7868,
+      "eval_samples_per_second": 1.12,
+      "eval_steps_per_second": 0.564,
       "step": 200
     },
     {
+      "acc": 0.6605804,
+      "epoch": 0.7387387387387387,
+      "grad_norm": 0.7578125,
+      "learning_rate": 0.00012842739907581525,
+      "loss": 1.42957153,
+      "memory(GiB)": 23.0,
       "step": 205,
+      "train_speed(iter/s)": 0.070232
     },
     {
+      "acc": 0.61267309,
+      "epoch": 0.7567567567567568,
+      "grad_norm": 0.90234375,
+      "learning_rate": 0.00012798681137592477,
+      "loss": 1.62853241,
+      "memory(GiB)": 17.96,
       "step": 210,
+      "train_speed(iter/s)": 0.070571
     },
     {
+      "acc": 0.63069816,
+      "epoch": 0.7747747747747747,
+      "grad_norm": 0.89453125,
+      "learning_rate": 0.00012753273836721597,
+      "loss": 1.56295233,
+      "memory(GiB)": 19.4,
       "step": 215,
+      "train_speed(iter/s)": 0.070892
     },
     {
+      "acc": 0.60362072,
+      "epoch": 0.7927927927927928,
+      "grad_norm": 1.0703125,
+      "learning_rate": 0.00012706528128357127,
+      "loss": 1.63038826,
+      "memory(GiB)": 19.37,
       "step": 220,
+      "train_speed(iter/s)": 0.071181
     },
     {
+      "acc": 0.62272639,
+      "epoch": 0.8108108108108109,
+      "grad_norm": 0.8828125,
+      "learning_rate": 0.00012658454434280253,
+      "loss": 1.5756237,
+      "memory(GiB)": 19.62,
       "step": 225,
+      "train_speed(iter/s)": 0.071466
     },
     {
+      "acc": 0.59926658,
+      "epoch": 0.8288288288288288,
+      "grad_norm": 0.75390625,
+      "learning_rate": 0.00012609063472341633,
+      "loss": 1.60503426,
+      "memory(GiB)": 19.63,
       "step": 230,
+      "train_speed(iter/s)": 0.071751
     },
     {
+      "acc": 0.60133944,
+      "epoch": 0.8468468468468469,
+      "grad_norm": 1.3515625,
+      "learning_rate": 0.0001255836625407187,
+      "loss": 1.64450779,
+      "memory(GiB)": 19.31,
       "step": 235,
+      "train_speed(iter/s)": 0.072034
     },
     {
+      "acc": 0.64020758,
+      "epoch": 0.8648648648648649,
+      "grad_norm": 0.9375,
+      "learning_rate": 0.00012506374082226534,
+      "loss": 1.47053967,
+      "memory(GiB)": 18.85,
       "step": 240,
+      "train_speed(iter/s)": 0.072286
     },
     {
+      "acc": 0.62713485,
+      "epoch": 0.8828828828828829,
+      "grad_norm": 0.82421875,
+      "learning_rate": 0.00012453098548266276,
+      "loss": 1.51464148,
+      "memory(GiB)": 19.35,
       "step": 245,
+      "train_speed(iter/s)": 0.07254
     },
     {
+      "acc": 0.6202302,
+      "epoch": 0.9009009009009009,
+      "grad_norm": 0.625,
+      "learning_rate": 0.0001239855152977253,
+      "loss": 1.54778471,
+      "memory(GiB)": 19.53,
       "step": 250,
+      "train_speed(iter/s)": 0.072758
     },
     {
+      "epoch": 0.9009009009009009,
+      "eval_acc": 0.6308573540280857,
+      "eval_loss": 1.510523796081543,
+      "eval_runtime": 134.5445,
+      "eval_samples_per_second": 1.122,
+      "eval_steps_per_second": 0.565,
       "step": 250
     },
     {
+      "acc": 0.63671951,
+      "epoch": 0.918918918918919,
+      "grad_norm": 1.7109375,
+      "learning_rate": 0.00012342745187799459,
+      "loss": 1.48321924,
+      "memory(GiB)": 19.53,
       "step": 255,
+      "train_speed(iter/s)": 0.070273
     },
     {
+      "acc": 0.63577223,
+      "epoch": 0.9369369369369369,
+      "grad_norm": 0.7890625,
+      "learning_rate": 0.000122856919641627,
+      "loss": 1.50699987,
+      "memory(GiB)": 19.94,
       "step": 260,
+      "train_speed(iter/s)": 0.070553
     },
     {
+      "acc": 0.64953299,
+      "epoch": 0.954954954954955,
+      "grad_norm": 0.85546875,
+      "learning_rate": 0.000122274045786655,
+      "loss": 1.46005678,
+      "memory(GiB)": 20.1,
       "step": 265,
+      "train_speed(iter/s)": 0.070802
     },
     {
+      "acc": 0.62153759,
+      "epoch": 0.972972972972973,
+      "grad_norm": 1.0625,
+      "learning_rate": 0.00012167896026262893,
+      "loss": 1.55834417,
+      "memory(GiB)": 19.86,
       "step": 270,
+      "train_speed(iter/s)": 0.071052
     },
     {
+      "acc": 0.64055209,
+      "epoch": 0.990990990990991,
+      "grad_norm": 1.125,
+      "learning_rate": 0.00012107179574164504,
+      "loss": 1.54932261,
+      "memory(GiB)": 20.06,
       "step": 275,
+      "train_speed(iter/s)": 0.071274
     },
     {
+      "acc": 0.62708969,
+      "epoch": 1.009009009009009,
+      "grad_norm": 0.671875,
+      "learning_rate": 0.00012045268758876699,
+      "loss": 1.49731979,
+      "memory(GiB)": 19.82,
       "step": 280,
+      "train_speed(iter/s)": 0.07152
     },
     {
+      "acc": 0.6689836,
+      "epoch": 1.027027027027027,
+      "grad_norm": 0.859375,
+      "learning_rate": 0.00011982177383184648,
+      "loss": 1.2817215,
+      "memory(GiB)": 19.85,
       "step": 285,
+      "train_speed(iter/s)": 0.07175
     },
     {
+      "acc": 0.67519293,
+      "epoch": 1.045045045045045,
+      "grad_norm": 1.046875,
+      "learning_rate": 0.00011917919513075066,
+      "loss": 1.28632126,
+      "memory(GiB)": 19.98,
       "step": 290,
+      "train_speed(iter/s)": 0.071951
     },
     {
+      "acc": 0.67276659,
+      "epoch": 1.063063063063063,
+      "grad_norm": 0.8984375,
+      "learning_rate": 0.00011852509474600237,
+      "loss": 1.27065611,
+      "memory(GiB)": 20.03,
       "step": 295,
+      "train_speed(iter/s)": 0.072155
     },
     {
+      "acc": 0.64641519,
+      "epoch": 1.0810810810810811,
+      "grad_norm": 0.98046875,
+      "learning_rate": 0.00011785961850684083,
+      "loss": 1.38271847,
+      "memory(GiB)": 19.09,
       "step": 300,
+      "train_speed(iter/s)": 0.072371
     },
     {
+      "epoch": 1.0810810810810811,
+      "eval_acc": 0.6305617147080562,
+      "eval_loss": 1.523685097694397,
+      "eval_runtime": 134.8234,
+      "eval_samples_per_second": 1.12,
+      "eval_steps_per_second": 0.564,
       "step": 300
     },
     {
+      "acc": 0.67837138,
+      "epoch": 1.0990990990990992,
+      "grad_norm": 0.953125,
+      "learning_rate": 0.00011718291477870959,
+      "loss": 1.29290819,
+      "memory(GiB)": 22.8,
       "step": 305,
+      "train_speed(iter/s)": 0.070277
     },
     {
+      "acc": 0.67195911,
+      "epoch": 1.117117117117117,
+      "grad_norm": 1.796875,
+      "learning_rate": 0.00011649513443017889,
+      "loss": 1.24073734,
+      "memory(GiB)": 19.39,
       "step": 310,
+      "train_speed(iter/s)": 0.070516
     },
     {
+      "acc": 0.69478951,
+      "epoch": 1.135135135135135,
+      "grad_norm": 1.203125,
+      "learning_rate": 0.00011579643079931018,
+      "loss": 1.20378675,
+      "memory(GiB)": 19.38,
       "step": 315,
+      "train_speed(iter/s)": 0.070713
     },
     {
+      "acc": 0.68726826,
+      "epoch": 1.1531531531531531,
+      "grad_norm": 0.98828125,
+      "learning_rate": 0.00011508695965946992,
+      "loss": 1.23284683,
+      "memory(GiB)": 19.98,
       "step": 320,
+      "train_speed(iter/s)": 0.070919
     },
     {
+      "acc": 0.65419765,
+      "epoch": 1.1711711711711712,
+      "grad_norm": 0.93359375,
+      "learning_rate": 0.00011436687918460052,
+      "loss": 1.37520065,
+      "memory(GiB)": 20.02,
       "step": 325,
+      "train_speed(iter/s)": 0.071117
     },
     {
+      "acc": 0.66610641,
+      "epoch": 1.1891891891891893,
+      "grad_norm": 0.8671875,
+      "learning_rate": 0.000113636349913956,
+      "loss": 1.30743008,
+      "memory(GiB)": 19.35,
       "step": 330,
+      "train_speed(iter/s)": 0.071322
     },
     {
+      "acc": 0.67390976,
+      "epoch": 1.2072072072072073,
+      "grad_norm": 1.6640625,
+      "learning_rate": 0.00011289553471631045,
+      "loss": 1.28322783,
+      "memory(GiB)": 19.49,
       "step": 335,
+      "train_speed(iter/s)": 0.071518
     },
     {
+      "acc": 0.68137512,
+      "epoch": 1.2252252252252251,
+      "grad_norm": 0.6953125,
+      "learning_rate": 0.00011214459875364693,
+      "loss": 1.23027716,
+      "memory(GiB)": 19.38,
       "step": 340,
+      "train_speed(iter/s)": 0.071692
     },
     {
+      "acc": 0.67859125,
+      "epoch": 1.2432432432432432,
+      "grad_norm": 0.78515625,
+      "learning_rate": 0.00011138370944433531,
+      "loss": 1.22896252,
+      "memory(GiB)": 20.06,
       "step": 345,
+      "train_speed(iter/s)": 0.071876
     },
     {
+      "acc": 0.66445112,
+      "epoch": 1.2612612612612613,
+      "grad_norm": 0.90234375,
+      "learning_rate": 0.00011061303642580694,
+      "loss": 1.30674038,
+      "memory(GiB)": 19.49,
       "step": 350,
+      "train_speed(iter/s)": 0.072045
     },
     {
+      "epoch": 1.2612612612612613,
+      "eval_acc": 0.6356245380635624,
+      "eval_loss": 1.5072119235992432,
+      "eval_runtime": 134.5232,
+      "eval_samples_per_second": 1.122,
+      "eval_steps_per_second": 0.565,
       "step": 350
     },
     {
+      "acc": 0.67729836,
+      "epoch": 1.2792792792792793,
+      "grad_norm": 0.90625,
+      "learning_rate": 0.00010983275151673467,
+      "loss": 1.24173574,
+      "memory(GiB)": 18.93,
       "step": 355,
+      "train_speed(iter/s)": 0.07029
     },
     {
+      "acc": 0.7040791,
+      "epoch": 1.2972972972972974,
+      "grad_norm": 0.84765625,
+      "learning_rate": 0.00010904302867872639,
+      "loss": 1.17582674,
+      "memory(GiB)": 19.29,
       "step": 360,
+      "train_speed(iter/s)": 0.070479
     },
     {
+      "acc": 0.66356058,
+      "epoch": 1.3153153153153152,
+      "grad_norm": 0.82421875,
+      "learning_rate": 0.00010824404397754104,
+      "loss": 1.26798725,
+      "memory(GiB)": 19.36,
       "step": 365,
+      "train_speed(iter/s)": 0.070661
     },
     {
+      "acc": 0.69379635,
+      "epoch": 1.3333333333333333,
+      "grad_norm": 0.98828125,
+      "learning_rate": 0.0001074359755438354,
+      "loss": 1.24331112,
+      "memory(GiB)": 20.16,
       "step": 370,
+      "train_speed(iter/s)": 0.070843
     },
     {
+      "acc": 0.68220735,
+      "epoch": 1.3513513513513513,
+      "grad_norm": 0.94140625,
+      "learning_rate": 0.00010661900353345051,
+      "loss": 1.20891714,
+      "memory(GiB)": 19.61,
       "step": 375,
+      "train_speed(iter/s)": 0.071015
     },
     {
+      "acc": 0.67620883,
+      "epoch": 1.3693693693693694,
+      "grad_norm": 1.0625,
+      "learning_rate": 0.0001057933100872466,
+      "loss": 1.23957863,
+      "memory(GiB)": 20.17,
       "step": 380,
+      "train_speed(iter/s)": 0.071181
     },
     {
+      "acc": 0.63655629,
+      "epoch": 1.3873873873873874,
+      "grad_norm": 0.78515625,
+      "learning_rate": 0.00010495907929049546,
+      "loss": 1.44390507,
+      "memory(GiB)": 19.25,
       "step": 385,
+      "train_speed(iter/s)": 0.071356
     },
     {
+      "acc": 0.67883902,
+      "epoch": 1.4054054054054055,
+      "grad_norm": 0.8828125,
+      "learning_rate": 0.00010411649713183925,
+      "loss": 1.29691544,
+      "memory(GiB)": 18.78,
       "step": 390,
+      "train_speed(iter/s)": 0.071515
     },
     {
+      "acc": 0.67202511,
+      "epoch": 1.4234234234234235,
+      "grad_norm": 0.953125,
+      "learning_rate": 0.00010326575146182521,
+      "loss": 1.31318274,
+      "memory(GiB)": 19.88,
       "step": 395,
+      "train_speed(iter/s)": 0.071677
     },
     {
+      "acc": 0.69274058,
+      "epoch": 1.4414414414414414,
+      "grad_norm": 0.82421875,
+      "learning_rate": 0.00010240703195102489,
+      "loss": 1.15976305,
+      "memory(GiB)": 19.46,
       "step": 400,
+      "train_speed(iter/s)": 0.071832
     },
     {
+      "epoch": 1.4414414414414414,
+      "eval_acc": 0.6368440502586844,
+      "eval_loss": 1.4986343383789062,
+      "eval_runtime": 134.3425,
+      "eval_samples_per_second": 1.124,
+      "eval_steps_per_second": 0.566,
       "step": 400
     },
     {
+      "acc": 0.71039405,
+      "epoch": 1.4594594594594594,
+      "grad_norm": 0.77734375,
+      "learning_rate": 0.0001015405300477479,
+      "loss": 1.12253609,
+      "memory(GiB)": 19.92,
       "step": 405,
+      "train_speed(iter/s)": 0.070298
     },
     {
+      "acc": 0.71356583,
+      "epoch": 1.4774774774774775,
+      "grad_norm": 0.84375,
+      "learning_rate": 0.0001006664389353592,
+      "loss": 1.13753939,
+      "memory(GiB)": 19.31,
       "step": 410,
+      "train_speed(iter/s)": 0.070457
     },
     {
+      "acc": 0.675458,
+      "epoch": 1.4954954954954955,
+      "grad_norm": 1.1328125,
+      "learning_rate": 9.978495348920958e-05,
+      "loss": 1.29233532,
+      "memory(GiB)": 19.06,
       "step": 415,
+      "train_speed(iter/s)": 0.070616
     },
     {
+      "acc": 0.67761598,
+      "epoch": 1.5135135135135136,
+      "grad_norm": 0.6875,
+      "learning_rate": 9.889627023318897e-05,
+      "loss": 1.22440186,
+      "memory(GiB)": 19.16,
       "step": 420,
+      "train_speed(iter/s)": 0.070773
     },
     {
+      "acc": 0.67492404,
+      "epoch": 1.5315315315315314,
+      "grad_norm": 0.81640625,
+      "learning_rate": 9.800058729591212e-05,
+      "loss": 1.22408361,
+      "memory(GiB)": 19.97,
       "step": 425,
+      "train_speed(iter/s)": 0.070935
     },
     {
+      "acc": 0.68050842,
+      "epoch": 1.5495495495495497,
+      "grad_norm": 0.84765625,
+      "learning_rate": 9.70981043665466e-05,
+      "loss": 1.2078824,
+      "memory(GiB)": 19.92,
       "step": 430,
+      "train_speed(iter/s)": 0.07109
     },
     {
+      "acc": 0.6750885,
+      "epoch": 1.5675675675675675,
+      "grad_norm": 0.66796875,
+      "learning_rate": 9.618902265029284e-05,
+      "loss": 1.28742075,
+      "memory(GiB)": 19.27,
       "step": 435,
+      "train_speed(iter/s)": 0.071229
     },
     {
+      "acc": 0.64411507,
+      "epoch": 1.5855855855855856,
+      "grad_norm": 0.95703125,
+      "learning_rate": 9.527354482352616e-05,
+      "loss": 1.37240067,
+      "memory(GiB)": 20.21,
       "step": 440,
+      "train_speed(iter/s)": 0.071374
     },
     {
+      "acc": 0.67574663,
+      "epoch": 1.6036036036036037,
+      "grad_norm": 0.83984375,
+      "learning_rate": 9.435187498861085e-05,
+      "loss": 1.27780771,
+      "memory(GiB)": 19.95,
       "step": 445,
+      "train_speed(iter/s)": 0.071519
     },
     {
+      "acc": 0.67897987,
+      "epoch": 1.6216216216216215,
+      "grad_norm": 1.2265625,
+      "learning_rate": 9.342421862839632e-05,
+      "loss": 1.26616125,
+      "memory(GiB)": 19.32,
       "step": 450,
+      "train_speed(iter/s)": 0.071661
     },
     {
+      "epoch": 1.6216216216216215,
+      "eval_acc": 0.6424611973392461,
+      "eval_loss": 1.4772522449493408,
+      "eval_runtime": 134.5995,
+      "eval_samples_per_second": 1.122,
+      "eval_steps_per_second": 0.565,
       "step": 450
     },
     {
+      "acc": 0.66755495,
+      "epoch": 1.6396396396396398,
+      "grad_norm": 1.0390625,
+      "learning_rate": 9.249078256040541e-05,
+      "loss": 1.30118093,
+      "memory(GiB)": 22.82,
       "step": 455,
+      "train_speed(iter/s)": 0.070312
     },
     {
+      "acc": 0.66560607,
+      "epoch": 1.6576576576576576,
+      "grad_norm": 1.0546875,
+      "learning_rate": 9.155177489072527e-05,
+      "loss": 1.31042576,
+      "memory(GiB)": 19.56,
       "step": 460,
+      "train_speed(iter/s)": 0.070454
     },
     {
+      "acc": 0.67957892,
+      "epoch": 1.6756756756756757,
+      "grad_norm": 1.3828125,
+      "learning_rate": 9.060740496761082e-05,
+      "loss": 1.31165123,
+      "memory(GiB)": 19.38,
       "step": 465,
+      "train_speed(iter/s)": 0.070592
     },
     {
+      "acc": 0.6744031,
+      "epoch": 1.6936936936936937,
+      "grad_norm": 1.4140625,
+      "learning_rate": 8.965788333481144e-05,
+      "loss": 1.26758223,
+      "memory(GiB)": 19.42,
       "step": 470,
+      "train_speed(iter/s)": 0.070726
     },
     {
+      "acc": 0.66551232,
+      "epoch": 1.7117117117117115,
+      "grad_norm": 0.98046875,
+      "learning_rate": 8.870342168463085e-05,
+      "loss": 1.27216129,
+      "memory(GiB)": 19.27,
       "step": 475,
+      "train_speed(iter/s)": 0.070864
     },
     {
+      "acc": 0.65833273,
+      "epoch": 1.7297297297297298,
+      "grad_norm": 0.9140625,
+      "learning_rate": 8.77442328107313e-05,
+      "loss": 1.32684155,
+      "memory(GiB)": 19.48,
       "step": 480,
+      "train_speed(iter/s)": 0.070997
     },
     {
+      "acc": 0.68646383,
+      "epoch": 1.7477477477477477,
+      "grad_norm": 1.3671875,
+      "learning_rate": 8.678053056069184e-05,
+      "loss": 1.2200016,
+      "memory(GiB)": 19.24,
       "step": 485,
+      "train_speed(iter/s)": 0.071136
     },
     {
+      "acc": 0.69040904,
+      "epoch": 1.7657657657657657,
+      "grad_norm": 1.6171875,
+      "learning_rate": 8.581252978833194e-05,
+      "loss": 1.18706884,
+      "memory(GiB)": 19.53,
       "step": 490,
+      "train_speed(iter/s)": 0.07127
     },
     {
+      "acc": 0.66571455,
+      "epoch": 1.7837837837837838,
+      "grad_norm": 0.8515625,
+      "learning_rate": 8.484044630581057e-05,
+      "loss": 1.29456005,
+      "memory(GiB)": 20.09,
       "step": 495,
+      "train_speed(iter/s)": 0.071401
     },
     {
+      "acc": 0.67682033,
+      "epoch": 1.8018018018018018,
+      "grad_norm": 1.0,
+      "learning_rate": 8.386449683551164e-05,
+      "loss": 1.20547714,
+      "memory(GiB)": 19.95,
       "step": 500,
+      "train_speed(iter/s)": 0.071533
     },
     {
+      "epoch": 1.8018018018018018,
+      "eval_acc": 0.6413155949741316,
+      "eval_loss": 1.479081630706787,
+      "eval_runtime": 134.2299,
+      "eval_samples_per_second": 1.125,
+      "eval_steps_per_second": 0.566,
       "step": 500
     },
     {
+      "acc": 0.67326751,
+      "epoch": 1.8198198198198199,
+      "grad_norm": 1.0546875,
+      "learning_rate": 8.288489896172669e-05,
+      "loss": 1.25247726,
+      "memory(GiB)": 20.29,
       "step": 505,
+      "train_speed(iter/s)": 0.070304
     },
     {
+      "acc": 0.66375732,
+      "epoch": 1.8378378378378377,
+      "grad_norm": 0.9296875,
+      "learning_rate": 8.190187108214514e-05,
+      "loss": 1.28065901,
+      "memory(GiB)": 20.04,
       "step": 510,
+      "train_speed(iter/s)": 0.070438
     },
     {
+      "acc": 0.69006267,
+      "epoch": 1.855855855855856,
+      "grad_norm": 1.0234375,
+      "learning_rate": 8.091563235916343e-05,
+      "loss": 1.13905525,
+      "memory(GiB)": 20.03,
       "step": 515,
+      "train_speed(iter/s)": 0.070569
     },
     {
+      "acc": 0.69745221,
+      "epoch": 1.8738738738738738,
+      "grad_norm": 0.96484375,
+      "learning_rate": 7.992640267102351e-05,
+      "loss": 1.14712362,
+      "memory(GiB)": 18.5,
       "step": 520,
+      "train_speed(iter/s)": 0.070709
     },
     {
+      "acc": 0.6707756,
+      "epoch": 1.8918918918918919,
+      "grad_norm": 1.328125,
+      "learning_rate": 7.893440256279186e-05,
+      "loss": 1.30717278,
+      "memory(GiB)": 20.66,
       "step": 525,
+      "train_speed(iter/s)": 0.07083
     },
     {
+      "acc": 0.66872559,
+      "epoch": 1.90990990990991,
+      "grad_norm": 0.9765625,
+      "learning_rate": 7.793985319718982e-05,
+      "loss": 1.28408003,
+      "memory(GiB)": 19.48,
       "step": 530,
+      "train_speed(iter/s)": 0.070948
     },
     {
+      "acc": 0.68111048,
+      "epoch": 1.9279279279279278,
+      "grad_norm": 0.76171875,
+      "learning_rate": 7.694297630528612e-05,
+      "loss": 1.21391411,
+      "memory(GiB)": 19.88,
       "step": 535,
+      "train_speed(iter/s)": 0.071071
     },
     {
+      "acc": 0.65094652,
+      "epoch": 1.945945945945946,
+      "grad_norm": 0.83203125,
+      "learning_rate": 7.594399413706277e-05,
+      "loss": 1.34138126,
+      "memory(GiB)": 19.9,
       "step": 540,
+      "train_speed(iter/s)": 0.071193
     },
     {
+      "acc": 0.67896776,
+      "epoch": 1.9639639639639639,
+      "grad_norm": 0.796875,
+      "learning_rate": 7.494312941186529e-05,
+      "loss": 1.22575331,
+      "memory(GiB)": 19.43,
       "step": 545,
+      "train_speed(iter/s)": 0.071302
     },
     {
+      "acc": 0.6839644,
+      "epoch": 1.981981981981982,
+      "grad_norm": 0.78515625,
+      "learning_rate": 7.394060526874825e-05,
+      "loss": 1.25017443,
+      "memory(GiB)": 19.25,
       "step": 550,
+      "train_speed(iter/s)": 0.07142
     },
     {
+      "epoch": 1.981981981981982,
+      "eval_acc": 0.645269770879527,
+      "eval_loss": 1.4606801271438599,
+      "eval_runtime": 134.7756,
+      "eval_samples_per_second": 1.12,
+      "eval_steps_per_second": 0.564,
       "step": 550
     },
     {
+      "acc": 0.68771811,
+      "epoch": 2.0,
+      "grad_norm": 0.81640625,
+      "learning_rate": 7.293664521672729e-05,
+      "loss": 1.22415581,
+      "memory(GiB)": 22.67,
       "step": 555,
+      "train_speed(iter/s)": 0.070304
     },
     {
+      "acc": 0.741537,
+      "epoch": 2.018018018018018,
+      "grad_norm": 0.6171875,
+      "learning_rate": 7.193147308494851e-05,
+      "loss": 0.95370378,
+      "memory(GiB)": 19.64,
       "step": 560,
+      "train_speed(iter/s)": 0.070425
     },
     {
+      "acc": 0.75044699,
+      "epoch": 2.036036036036036,
+      "grad_norm": 1.09375,
+      "learning_rate": 7.09253129727867e-05,
+      "loss": 0.95568914,
+      "memory(GiB)": 19.4,
       "step": 565,
+      "train_speed(iter/s)": 0.070541
     },
     {
+      "acc": 0.75126195,
+      "epoch": 2.054054054054054,
+      "grad_norm": 1.3671875,
+      "learning_rate": 6.991838919988322e-05,
+      "loss": 0.92719631,
+      "memory(GiB)": 19.54,
       "step": 570,
+      "train_speed(iter/s)": 0.070658
     },
     {
+      "acc": 0.74883032,
+      "epoch": 2.0720720720720722,
+      "grad_norm": 1.0078125,
+      "learning_rate": 6.891092625613469e-05,
+      "loss": 0.92080975,
+      "memory(GiB)": 20.17,
       "step": 575,
+      "train_speed(iter/s)": 0.07077
     },
     {
+      "acc": 0.76222944,
+      "epoch": 2.09009009009009,
+      "grad_norm": 0.99609375,
+      "learning_rate": 6.790314875164393e-05,
+      "loss": 0.88407106,
+      "memory(GiB)": 19.57,
       "step": 580,
+      "train_speed(iter/s)": 0.070882
     },
     {
+      "acc": 0.76224823,
+      "epoch": 2.108108108108108,
+      "grad_norm": 1.0859375,
+      "learning_rate": 6.689528136664377e-05,
+      "loss": 0.85150976,
+      "memory(GiB)": 19.54,
       "step": 585,
+      "train_speed(iter/s)": 0.070995
     },
     {
+      "acc": 0.73958569,
+      "epoch": 2.126126126126126,
+      "grad_norm": 1.3828125,
+      "learning_rate": 6.588754880140573e-05,
+      "loss": 0.92128286,
+      "memory(GiB)": 19.58,
       "step": 590,
+      "train_speed(iter/s)": 0.071101
     },
     {
+      "acc": 0.74549003,
+      "epoch": 2.144144144144144,
+      "grad_norm": 1.359375,
+      "learning_rate": 6.488017572614363e-05,
+      "loss": 0.90851021,
+      "memory(GiB)": 18.59,
       "step": 595,
+      "train_speed(iter/s)": 0.071211
     },
     {
+      "acc": 0.73912826,
+      "epoch": 2.1621621621621623,
+      "grad_norm": 1.3125,
+      "learning_rate": 6.387338673092443e-05,
+      "loss": 0.92900734,
+      "memory(GiB)": 19.54,
       "step": 600,
+      "train_speed(iter/s)": 0.071321
     },
     {
+      "epoch": 2.1621621621621623,
+      "eval_acc": 0.6320768662232077,
+      "eval_loss": 1.5818341970443726,
+      "eval_runtime": 134.4691,
+      "eval_samples_per_second": 1.123,
+      "eval_steps_per_second": 0.565,
       "step": 600
     },
     {
+      "acc": 0.75979438,
+      "epoch": 2.18018018018018,
+      "grad_norm": 1.09375,
+      "learning_rate": 6.286740627559656e-05,
+      "loss": 0.89129753,
+      "memory(GiB)": 22.37,
       "step": 605,
+      "train_speed(iter/s)": 0.070301
     },
     {
+      "acc": 0.72820721,
+      "epoch": 2.1981981981981984,
+      "grad_norm": 2.15625,
+      "learning_rate": 6.186245863974757e-05,
+      "loss": 0.96495447,
+      "memory(GiB)": 19.6,
       "step": 610,
+      "train_speed(iter/s)": 0.070413
     },
     {
+      "acc": 0.75764585,
+      "epoch": 2.2162162162162162,
+      "grad_norm": 1.0078125,
+      "learning_rate": 6.0858767872701715e-05,
+      "loss": 0.89218092,
+      "memory(GiB)": 20.15,
       "step": 615,
+      "train_speed(iter/s)": 0.070515
     },
     {
+      "acc": 0.75772595,
+      "epoch": 2.234234234234234,
+      "grad_norm": 1.6328125,
+      "learning_rate": 5.985655774356901e-05,
+      "loss": 0.89191771,
+      "memory(GiB)": 19.46,
       "step": 620,
+      "train_speed(iter/s)": 0.070627
     },
     {
+      "acc": 0.7377079,
+      "epoch": 2.2522522522522523,
+      "grad_norm": 1.1875,
+      "learning_rate": 5.8856051691356884e-05,
+      "loss": 0.94241228,
+      "memory(GiB)": 19.35,
       "step": 625,
+      "train_speed(iter/s)": 0.070733
     },
     {
+      "acc": 0.77948771,
+      "epoch": 2.27027027027027,
+      "grad_norm": 1.2890625,
+      "learning_rate": 5.785747277515506e-05,
+      "loss": 0.79317036,
+      "memory(GiB)": 20.48,
       "step": 630,
+      "train_speed(iter/s)": 0.070844
     },
     {
+      "acc": 0.76766949,
+      "epoch": 2.2882882882882885,
+      "grad_norm": 0.97265625,
+      "learning_rate": 5.686104362440552e-05,
+      "loss": 0.82855272,
+      "memory(GiB)": 20.12,
       "step": 635,
+      "train_speed(iter/s)": 0.070945
     },
     {
+      "acc": 0.74998231,
+      "epoch": 2.3063063063063063,
+      "grad_norm": 2.9375,
+      "learning_rate": 5.586698638926811e-05,
+      "loss": 0.93049393,
+      "memory(GiB)": 20.06,
       "step": 640,
+      "train_speed(iter/s)": 0.071044
     },
     {
+      "acc": 0.75094385,
+      "epoch": 2.3243243243243246,
+      "grad_norm": 1.1875,
+      "learning_rate": 5.487552269109287e-05,
+      "loss": 0.86875353,
+      "memory(GiB)": 19.33,
       "step": 645,
+      "train_speed(iter/s)": 0.071146
     },
     {
+      "acc": 0.74836354,
+      "epoch": 2.3423423423423424,
+      "grad_norm": 1.1328125,
+      "learning_rate": 5.388687357301051e-05,
+      "loss": 0.88861446,
+      "memory(GiB)": 20.11,
       "step": 650,
+      "train_speed(iter/s)": 0.071249
     },
     {
+      "epoch": 2.3423423423423424,
+      "eval_acc": 0.630709534368071,
+      "eval_loss": 1.5767972469329834,
+      "eval_runtime": 134.3063,
+      "eval_samples_per_second": 1.124,
+      "eval_steps_per_second": 0.566,
       "step": 650
     },
     {
+      "acc": 0.76697993,
+      "epoch": 2.3603603603603602,
+      "grad_norm": 1.2734375,
+      "learning_rate": 5.290125945065162e-05,
+      "loss": 0.85701361,
+      "memory(GiB)": 22.96,
       "step": 655,
+      "train_speed(iter/s)": 0.070324
     },
     {
+      "acc": 0.76252317,
+      "epoch": 2.3783783783783785,
+      "grad_norm": 1.0390625,
+      "learning_rate": 5.191890006300573e-05,
+      "loss": 0.85787058,
+      "memory(GiB)": 20.13,
       "step": 660,
+      "train_speed(iter/s)": 0.070422
     },
     {
+      "acc": 0.7651772,
+      "epoch": 2.3963963963963963,
+      "grad_norm": 1.1875,
+      "learning_rate": 5.094001442343155e-05,
+      "loss": 0.8521904,
+      "memory(GiB)": 19.86,
       "step": 665,
+      "train_speed(iter/s)": 0.070523
     },
     {
+      "acc": 0.73847542,
+      "epoch": 2.4144144144144146,
+      "grad_norm": 1.2734375,
+      "learning_rate": 4.996482077082849e-05,
+      "loss": 0.95858736,
+      "memory(GiB)": 19.29,
       "step": 670,
+      "train_speed(iter/s)": 0.070628
     },
     {
+      "acc": 0.74675932,
+      "epoch": 2.4324324324324325,
+      "grad_norm": 1.2734375,
+      "learning_rate": 4.899353652098139e-05,
+      "loss": 0.86487961,
+      "memory(GiB)": 18.64,
       "step": 675,
+      "train_speed(iter/s)": 0.070727
     },
     {
+      "acc": 0.73309464,
+      "epoch": 2.4504504504504503,
+      "grad_norm": 1.8671875,
+      "learning_rate": 4.802637821808819e-05,
+      "loss": 0.93775883,
+      "memory(GiB)": 19.78,
       "step": 680,
+      "train_speed(iter/s)": 0.070825
     },
     {
+      "acc": 0.76575212,
+      "epoch": 2.4684684684684686,
+      "grad_norm": 1.03125,
+      "learning_rate": 4.706356148648246e-05,
+      "loss": 0.8259285,
+      "memory(GiB)": 19.9,
       "step": 685,
+      "train_speed(iter/s)": 0.07092
     },
     {
+      "acc": 0.76865396,
+      "epoch": 2.4864864864864864,
+      "grad_norm": 1.3125,
+      "learning_rate": 4.6105300982560625e-05,
+      "loss": 0.84868517,
+      "memory(GiB)": 19.19,
       "step": 690,
+      "train_speed(iter/s)": 0.071014
     },
     {
+      "acc": 0.75694928,
+      "epoch": 2.5045045045045047,
+      "grad_norm": 1.03125,
+      "learning_rate": 4.515181034692515e-05,
+      "loss": 0.87043924,
+      "memory(GiB)": 19.95,
       "step": 695,
+      "train_speed(iter/s)": 0.071105
     },
     {
+      "acc": 0.75771561,
+      "epoch": 2.5225225225225225,
+      "grad_norm": 1.3515625,
+      "learning_rate": 4.420330215675415e-05,
+      "loss": 0.86245804,
+      "memory(GiB)": 19.18,
       "step": 700,
+      "train_speed(iter/s)": 0.071194
     },
     {
+      "epoch": 2.5225225225225225,
+      "eval_acc": 0.6335181079083518,
+      "eval_loss": 1.5894646644592285,
+      "eval_runtime": 134.225,
+      "eval_samples_per_second": 1.125,
+      "eval_steps_per_second": 0.566,
       "step": 700
     },
     {
+      "acc": 0.76191721,
+      "epoch": 2.5405405405405403,
+      "grad_norm": 1.71875,
+      "learning_rate": 4.325998787840818e-05,
+      "loss": 0.85848246,
+      "memory(GiB)": 19.14,
       "step": 705,
+      "train_speed(iter/s)": 0.070324
     },
     {
+      "acc": 0.76571012,
+      "epoch": 2.5585585585585586,
+      "grad_norm": 1.15625,
+      "learning_rate": 4.2322077820284477e-05,
+      "loss": 0.85979414,
+      "memory(GiB)": 20.01,
       "step": 710,
+      "train_speed(iter/s)": 0.070422
     },
     {
+      "acc": 0.73852654,
+      "epoch": 2.5765765765765765,
+      "grad_norm": 1.6484375,
+      "learning_rate": 4.138978108592962e-05,
+      "loss": 0.90148897,
+      "memory(GiB)": 19.05,
       "step": 715,
+      "train_speed(iter/s)": 0.070518
     },
     {
+      "acc": 0.76960816,
+      "epoch": 2.5945945945945947,
+      "grad_norm": 3.71875,
+      "learning_rate": 4.046330552742053e-05,
+      "loss": 0.88053255,
+      "memory(GiB)": 19.25,
       "step": 720,
+      "train_speed(iter/s)": 0.070616
     },
     {
+      "acc": 0.77552128,
+      "epoch": 2.6126126126126126,
+      "grad_norm": 0.96484375,
+      "learning_rate": 3.954285769902474e-05,
+      "loss": 0.83608866,
+      "memory(GiB)": 19.96,
       "step": 725,
+      "train_speed(iter/s)": 0.070707
     },
     {
+      "acc": 0.76034231,
+      "epoch": 2.6306306306306304,
+      "grad_norm": 1.078125,
+      "learning_rate": 3.8628642811149894e-05,
+      "loss": 0.84258709,
+      "memory(GiB)": 19.75,
       "step": 730,
+      "train_speed(iter/s)": 0.070796
     },
     {
+      "acc": 0.73506665,
+      "epoch": 2.6486486486486487,
+      "grad_norm": 2.125,
+      "learning_rate": 3.772086468459271e-05,
+      "loss": 0.96418314,
+      "memory(GiB)": 19.94,
       "step": 735,
+      "train_speed(iter/s)": 0.070887
     },
     {
+      "acc": 0.74339218,
+      "epoch": 2.6666666666666665,
+      "grad_norm": 1.3359375,
+      "learning_rate": 3.6819725705098094e-05,
+      "loss": 0.94632616,
+      "memory(GiB)": 19.98,
       "step": 740,
+      "train_speed(iter/s)": 0.070978
     },
     {
+      "acc": 0.75258017,
+      "epoch": 2.684684684684685,
+      "grad_norm": 1.328125,
+      "learning_rate": 3.592542677823787e-05,
+      "loss": 0.89630384,
+      "memory(GiB)": 19.9,
       "step": 745,
+      "train_speed(iter/s)": 0.071065
     },
     {
+      "acc": 0.7422905,
+      "epoch": 2.7027027027027026,
+      "grad_norm": 1.46875,
+      "learning_rate": 3.503816728461963e-05,
+      "loss": 0.92554636,
+      "memory(GiB)": 19.94,
       "step": 750,
+      "train_speed(iter/s)": 0.071152
     },
     {
+      "epoch": 2.7027027027027026,
+      "eval_acc": 0.6360679970436068,
+      "eval_loss": 1.577430248260498,
+      "eval_runtime": 134.0595,
+      "eval_samples_per_second": 1.126,
+      "eval_steps_per_second": 0.567,
       "step": 750
     },
     {
+      "acc": 0.76009235,
+      "epoch": 2.7207207207207205,
+      "grad_norm": 1.7265625,
+      "learning_rate": 3.415814503543563e-05,
+      "loss": 0.89433851,
+      "memory(GiB)": 19.38,
       "step": 755,
+      "train_speed(iter/s)": 0.070345
     },
     {
+      "acc": 0.75049233,
+      "epoch": 2.7387387387387387,
+      "grad_norm": 1.453125,
+      "learning_rate": 3.3285556228361483e-05,
+      "loss": 0.90194426,
+      "memory(GiB)": 19.78,
       "step": 760,
+      "train_speed(iter/s)": 0.070432
     },
     {
+      "acc": 0.73652792,
+      "epoch": 2.756756756756757,
+      "grad_norm": 1.375,
+      "learning_rate": 3.2420595403814615e-05,
+      "loss": 0.94170513,
+      "memory(GiB)": 19.18,
       "step": 765,
+      "train_speed(iter/s)": 0.070517
     },
     {
+      "acc": 0.74097948,
+      "epoch": 2.774774774774775,
+      "grad_norm": 1.171875,
+      "learning_rate": 3.156345540158226e-05,
+      "loss": 0.92526283,
+      "memory(GiB)": 19.96,
       "step": 770,
+      "train_speed(iter/s)": 0.070603
     },
     {
+      "acc": 0.77357135,
+      "epoch": 2.7927927927927927,
+      "grad_norm": 1.21875,
+      "learning_rate": 3.0714327317828445e-05,
+      "loss": 0.84344234,
+      "memory(GiB)": 19.42,
       "step": 775,
+      "train_speed(iter/s)": 0.070681
     },
     {
+      "acc": 0.76570077,
+      "epoch": 2.810810810810811,
+      "grad_norm": 1.4765625,
+      "learning_rate": 2.9873400462489982e-05,
+      "loss": 0.85261898,
+      "memory(GiB)": 19.91,
       "step": 780,
+      "train_speed(iter/s)": 0.070768
     },
     {
+      "acc": 0.73979292,
+      "epoch": 2.828828828828829,
+      "grad_norm": 1.375,
+      "learning_rate": 2.904086231707032e-05,
+      "loss": 0.94777365,
+      "memory(GiB)": 19.72,
       "step": 785,
+      "train_speed(iter/s)": 0.07085
     },
     {
+      "acc": 0.75035534,
+      "epoch": 2.846846846846847,
+      "grad_norm": 1.1484375,
+      "learning_rate": 2.8216898492841355e-05,
+      "loss": 0.88380022,
+      "memory(GiB)": 19.09,
       "step": 790,
+      "train_speed(iter/s)": 0.070936
     },
     {
+      "acc": 0.76033754,
+      "epoch": 2.864864864864865,
+      "grad_norm": 1.078125,
+      "learning_rate": 2.7401692689462153e-05,
+      "loss": 0.84767551,
+      "memory(GiB)": 20.02,
       "step": 795,
+      "train_speed(iter/s)": 0.071016
     },
     {
+      "acc": 0.74806399,
+      "epoch": 2.8828828828828827,
+      "grad_norm": 1.53125,
+      "learning_rate": 2.6595426654023643e-05,
+      "loss": 0.92544088,
+      "memory(GiB)": 19.88,
       "step": 800,
+      "train_speed(iter/s)": 0.0711
     },
     {
+      "epoch": 2.8828828828828827,
+      "eval_acc": 0.635920177383592,
+      "eval_loss": 1.5869847536087036,
+      "eval_runtime": 134.517,
+      "eval_samples_per_second": 1.123,
+      "eval_steps_per_second": 0.565,
       "step": 800
     }
   ],
   "logging_steps": 5,
+  "max_steps": 1108,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 4,
+  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 2.3166381763355443e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f78ee04ba526a9cc075440a6469f13f84190c66bb1135fbaf243aba05b3ef977
 size 7224

 version https://git-lfs.github.com/spec/v1
+oid sha256:98ab222ecb986b0dd4618d234f15502efb691678dd397c47e5eae69b67e78b68
 size 7224