Model save

Browse files

Files changed (6) hide show

README.md +4 -7
all_results.json +9 -9
config_argument.yaml +188 -0
eval_results.json +5 -5
train_results.json +5 -5
trainer_state.json +40 -1786

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-beta](https://huggingface.co/HuggingFaceH4/zephyr-7b-beta) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.5488
 ## Model description
@@ -42,17 +42,14 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.05
-- num_epochs: 2
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 0.6891        | 0.34  | 500  | 0.6660          |
-| 0.6423        | 0.68  | 1000 | 0.6075          |
-| 0.5553        | 1.03  | 1500 | 0.5688          |
-| 0.5175        | 1.37  | 2000 | 0.5533          |
-| 0.5614        | 1.71  | 2500 | 0.5487          |
 ### Framework versions

 This model is a fine-tuned version of [HuggingFaceH4/zephyr-7b-beta](https://huggingface.co/HuggingFaceH4/zephyr-7b-beta) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.1997
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.05
+- training_steps: 50
 ### Training results
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 1.5219        | 0.02  | 25   | 1.2539          |
+| 1.3156        | 0.03  | 50   | 1.1997          |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 2.0,
-    "eval_loss": 0.5487806797027588,
-    "eval_runtime": 112.8332,
     "eval_samples": 650,
-    "eval_samples_per_second": 5.761,
-    "eval_steps_per_second": 1.445,
-    "train_loss": 0.628653114618257,
-    "train_runtime": 6305.9173,
     "train_samples": 5845,
-    "train_samples_per_second": 1.854,
-    "train_steps_per_second": 0.464
 }

 {
+    "epoch": 0.03,
+    "eval_loss": 1.1997405290603638,
+    "eval_runtime": 112.9062,
     "eval_samples": 650,
+    "eval_samples_per_second": 5.757,
+    "eval_steps_per_second": 1.444,
+    "train_loss": 1.4715181255340577,
+    "train_runtime": 335.1031,
     "train_samples": 5845,
+    "train_samples_per_second": 0.597,
+    "train_steps_per_second": 0.149
 }

config_argument.yaml ADDED Viewed

	@@ -0,0 +1,188 @@

+!!python/tuple
+- !!python/object:__main__.ModelArguments
+  bnb_4bit_quant_type: nf4
+  cache_dir: ./cache
+  device_map: auto
+  load_in_4bit: true
+  load_in_8bit: false
+  model_name_or_path: HuggingFaceH4/zephyr-7b-beta
+  model_revision: main
+  model_type: auto
+  neft_alpha: 0
+  rope_scaling: null
+  shift_attn: false
+  tokenizer_name_or_path: null
+  torch_dtype: float16
+  trust_remote_code: true
+  use_bnb_nested_quant: false
+  use_fast_tokenizer: false
+  use_flash_attention_2: false
+- !!python/object:__main__.DataArguments
+  dataset_config_name: null
+  dataset_name: null
+  ignore_pad_token_for_loss: true
+  max_eval_samples: null
+  max_train_samples: null
+  overwrite_cache: false
+  preprocessing_num_workers: 4
+  template_name: vicuna
+  train_file_dir: datasets/finetune
+  validation_file_dir: null
+  validation_split_percentage: 10
+- !!python/object:__main__.SFTConfig
+  __cached__setup_devices: !!python/object/apply:torch.device
+  - cuda
+  - 0
+  _n_gpu: 1
+  adafactor: false
+  adam_beta1: 0.9
+  adam_beta2: 0.999
+  adam_epsilon: 1.0e-08
+  auto_find_batch_size: false
+  bf16: false
+  bf16_full_eval: false
+  data_seed: null
+  dataloader_drop_last: false
+  dataloader_num_workers: 0
+  dataloader_pin_memory: true
+  ddp_backend: null
+  ddp_broadcast_buffers: null
+  ddp_bucket_cap_mb: null
+  ddp_find_unused_parameters: false
+  ddp_timeout: 30000
+  debug: []
+  deepspeed: null
+  deepspeed_plugin: null
+  disable_tqdm: false
+  dispatch_batches: null
+  distributed_state: !!python/object:accelerate.state.PartialState
+    _cpu: false
+    backend: null
+    debug: false
+    device: !!python/object/apply:torch.device
+    - cuda
+    - 0
+    distributed_type: !!python/object/apply:accelerate.utils.dataclasses.DistributedType
+    - MULTI_GPU
+    fork_launched: false
+    local_process_index: 0
+    num_processes: 1
+    process_index: 0
+  do_eval: true
+  do_predict: false
+  do_train: true
+  eval_accumulation_steps: null
+  eval_delay: 0
+  eval_steps: 25
+  evaluation_strategy: !!python/object/apply:transformers.trainer_utils.IntervalStrategy
+  - steps
+  fp16: false
+  fp16_backend: auto
+  fp16_full_eval: false
+  fp16_opt_level: O1
+  fsdp: []
+  fsdp_config:
+    min_num_params: 0
+    xla: false
+    xla_fsdp_grad_ckpt: false
+  fsdp_min_num_params: 0
+  fsdp_transformer_layer_cls_to_wrap: null
+  full_determinism: false
+  gradient_accumulation_steps: 1
+  gradient_checkpointing: true
+  gradient_checkpointing_kwargs:
+    use_reentrant: false
+  greater_is_better: null
+  group_by_length: false
+  half_precision_backend: auto
+  hub_always_push: false
+  hub_model_id: hllj/non-qa-sft-zephyr-7b-beta-v1
+  hub_private_repo: false
+  hub_strategy: !!python/object/apply:transformers.trainer_utils.HubStrategy
+  - every_save
+  hub_token: null
+  ignore_data_skip: false
+  include_inputs_for_metrics: false
+  include_tokens_per_second: false
+  jit_mode_eval: false
+  label_names: null
+  label_smoothing_factor: 0.0
+  learning_rate: 3.0e-05
+  length_column_name: length
+  load_best_model_at_end: false
+  local_rank: 0
+  log_level: info
+  log_level_replica: warning
+  log_on_each_node: true
+  logging_dir: outputs-sft-zephyr-beta-v1/runs/Nov22_05-52-29_a72e59c0abac
+  logging_first_step: true
+  logging_nan_inf_filter: true
+  logging_steps: 10
+  logging_strategy: !!python/object/apply:transformers.trainer_utils.IntervalStrategy
+  - steps
+  lr_scheduler_type: !!python/object/apply:transformers.trainer_utils.SchedulerType
+  - cosine
+  max_grad_norm: 1.0
+  max_seq_length: 512
+  max_steps: 50
+  metric_for_best_model: null
+  mp_parameters: ''
+  neftune_noise_alpha: null
+  no_cuda: false
+  num_train_epochs: 3.0
+  optim: !!python/object/apply:transformers.training_args.OptimizerNames
+  - adamw_torch
+  optim_args: null
+  output_dir: outputs-sft-zephyr-beta-v1
+  overwrite_output_dir: true
+  past_index: -1
+  per_device_eval_batch_size: 4
+  per_device_train_batch_size: 4
+  per_gpu_eval_batch_size: null
+  per_gpu_train_batch_size: null
+  prediction_loss_only: false
+  push_to_hub: true
+  push_to_hub_model_id: null
+  push_to_hub_organization: null
+  push_to_hub_token: null
+  ray_scope: last
+  remove_unused_columns: true
+  report_to:
+  - wandb
+  resume_from_checkpoint: null
+  run_name: sft-zephyr-7b-beta-v1
+  save_on_each_node: false
+  save_safetensors: true
+  save_steps: 25
+  save_strategy: !!python/object/apply:transformers.trainer_utils.IntervalStrategy
+  - steps
+  save_total_limit: 13
+  seed: 42
+  skip_memory_metrics: true
+  split_batches: false
+  tf32: null
+  torch_compile: false
+  torch_compile_backend: null
+  torch_compile_mode: null
+  torchdynamo: null
+  tpu_metrics_debug: false
+  tpu_num_cores: null
+  use_cpu: false
+  use_ipex: false
+  use_legacy_prediction_loop: false
+  use_mps_device: false
+  warmup_ratio: 0.05
+  warmup_steps: 0
+  weight_decay: 0.05
+- !!python/object:__main__.ScriptArguments
+  lora_alpha: 16
+  lora_dropout: 0.1
+  lora_modules_to_save: null
+  lora_r: 64
+  lora_target_modules:
+  - q_proj
+  - k_proj
+  - v_proj
+  - o_proj
+  peft_path: null
+  use_peft: true

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.0,
-    "eval_loss": 0.5487806797027588,
-    "eval_runtime": 112.8332,
     "eval_samples": 650,
-    "eval_samples_per_second": 5.761,
-    "eval_steps_per_second": 1.445
 }

 {
+    "epoch": 0.03,
+    "eval_loss": 1.1997405290603638,
+    "eval_runtime": 112.9062,
     "eval_samples": 650,
+    "eval_samples_per_second": 5.757,
+    "eval_steps_per_second": 1.444
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.0,
-    "train_loss": 0.628653114618257,
-    "train_runtime": 6305.9173,
     "train_samples": 5845,
-    "train_samples_per_second": 1.854,
-    "train_steps_per_second": 0.464
 }

 {
+    "epoch": 0.03,
+    "train_loss": 1.4715181255340577,
+    "train_runtime": 335.1031,
     "train_samples": 5845,
+    "train_samples_per_second": 0.597,
+    "train_steps_per_second": 0.149
 }

trainer_state.json CHANGED Viewed

@@ -1,1826 +1,80 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
-  "eval_steps": 500,
-  "global_step": 2924,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 2.0408163265306121e-07,
-      "loss": 1.4003,
       "step": 1
     },
     {
       "epoch": 0.01,
-      "learning_rate": 2.0408163265306125e-06,
-      "loss": 1.6942,
       "step": 10
     },
     {
       "epoch": 0.01,
-      "learning_rate": 4.081632653061225e-06,
-      "loss": 1.6045,
       "step": 20
     },
     {
       "epoch": 0.02,
-      "learning_rate": 6.122448979591837e-06,
-      "loss": 1.5842,
       "step": 30
     },
     {
       "epoch": 0.03,
-      "learning_rate": 8.16326530612245e-06,
-      "loss": 1.6188,
       "step": 40
     },
     {
       "epoch": 0.03,
-      "learning_rate": 1.0204081632653061e-05,
-      "loss": 1.5321,
       "step": 50
     },
     {
-      "epoch": 0.04,
-      "learning_rate": 1.2244897959183674e-05,
-      "loss": 1.6182,
-      "step": 60
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 1.4285714285714285e-05,
-      "loss": 1.3685,
-      "step": 70
-    },
-    {
-      "epoch": 0.05,
-      "learning_rate": 1.63265306122449e-05,
-      "loss": 1.3332,
-      "step": 80
-    },
-    {
-      "epoch": 0.06,
-      "learning_rate": 1.836734693877551e-05,
-      "loss": 1.1891,
-      "step": 90
-    },
-    {
-      "epoch": 0.07,
-      "learning_rate": 2.0408163265306123e-05,
-      "loss": 0.9755,
-      "step": 100
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2.2448979591836737e-05,
-      "loss": 0.9277,
-      "step": 110
-    },
-    {
-      "epoch": 0.08,
-      "learning_rate": 2.448979591836735e-05,
-      "loss": 0.8792,
-      "step": 120
-    },
-    {
-      "epoch": 0.09,
-      "learning_rate": 2.653061224489796e-05,
-      "loss": 0.8798,
-      "step": 130
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 2.857142857142857e-05,
-      "loss": 0.8967,
-      "step": 140
-    },
-    {
-      "epoch": 0.1,
-      "learning_rate": 2.9999913612413297e-05,
-      "loss": 0.8726,
-      "step": 150
-    },
-    {
-      "epoch": 0.11,
-      "learning_rate": 2.9998377860774987e-05,
-      "loss": 0.8242,
-      "step": 160
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 2.9994922611221096e-05,
-      "loss": 0.762,
-      "step": 170
-    },
-    {
-      "epoch": 0.12,
-      "learning_rate": 2.998954830595574e-05,
-      "loss": 0.854,
-      "step": 180
-    },
-    {
-      "epoch": 0.13,
-      "learning_rate": 2.9982255632784477e-05,
-      "loss": 0.7793,
-      "step": 190
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 2.9973045525026307e-05,
-      "loss": 0.7864,
-      "step": 200
-    },
-    {
-      "epoch": 0.14,
-      "learning_rate": 2.9961919161394204e-05,
-      "loss": 0.7602,
-      "step": 210
-    },
-    {
-      "epoch": 0.15,
-      "learning_rate": 2.9948877965844274e-05,
-      "loss": 0.7455,
-      "step": 220
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 2.9933923607393534e-05,
-      "loss": 0.7094,
-      "step": 230
-    },
-    {
-      "epoch": 0.16,
-      "learning_rate": 2.991705799990627e-05,
-      "loss": 0.847,
-      "step": 240
-    },
-    {
-      "epoch": 0.17,
-      "learning_rate": 2.9898283301849137e-05,
-      "loss": 0.7693,
-      "step": 250
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 2.9877601916014893e-05,
-      "loss": 0.7415,
-      "step": 260
-    },
-    {
-      "epoch": 0.18,
-      "learning_rate": 2.9855016489214902e-05,
-      "loss": 0.7504,
-      "step": 270
-    },
-    {
-      "epoch": 0.19,
-      "learning_rate": 2.983052991194041e-05,
-      "loss": 0.7186,
-      "step": 280
-    },
-    {
-      "epoch": 0.2,
-      "learning_rate": 2.980414531799256e-05,
-      "loss": 0.7272,
-      "step": 290
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 2.977586608408141e-05,
-      "loss": 0.7452,
-      "step": 300
-    },
-    {
-      "epoch": 0.21,
-      "learning_rate": 2.974569582939371e-05,
-      "loss": 0.7392,
-      "step": 310
-    },
-    {
-      "epoch": 0.22,
-      "learning_rate": 2.9713638415129753e-05,
-      "loss": 0.7574,
-      "step": 320
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 2.967969794400921e-05,
-      "loss": 0.7113,
-      "step": 330
-    },
-    {
-      "epoch": 0.23,
-      "learning_rate": 2.9643878759746055e-05,
-      "loss": 0.7494,
-      "step": 340
-    },
-    {
-      "epoch": 0.24,
-      "learning_rate": 2.9606185446492676e-05,
-      "loss": 0.7889,
-      "step": 350
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 2.9566622828253155e-05,
-      "loss": 0.6575,
-      "step": 360
-    },
-    {
-      "epoch": 0.25,
-      "learning_rate": 2.9525195968265937e-05,
-      "loss": 0.7284,
-      "step": 370
-    },
-    {
-      "epoch": 0.26,
-      "learning_rate": 2.9481910168355798e-05,
-      "loss": 0.6623,
-      "step": 380
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 2.943677096825533e-05,
-      "loss": 0.7226,
-      "step": 390
-    },
-    {
-      "epoch": 0.27,
-      "learning_rate": 2.938978414489597e-05,
-      "loss": 0.678,
-      "step": 400
-    },
-    {
-      "epoch": 0.28,
-      "learning_rate": 2.9340955711668652e-05,
-      "loss": 0.6915,
-      "step": 410
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 2.9290291917654223e-05,
-      "loss": 0.6835,
-      "step": 420
-    },
-    {
-      "epoch": 0.29,
-      "learning_rate": 2.9237799246823677e-05,
-      "loss": 0.6486,
-      "step": 430
-    },
-    {
-      "epoch": 0.3,
-      "learning_rate": 2.918348441720833e-05,
-      "loss": 0.6618,
-      "step": 440
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 2.9127354380040067e-05,
-      "loss": 0.7055,
-      "step": 450
-    },
-    {
-      "epoch": 0.31,
-      "learning_rate": 2.906941631886168e-05,
-      "loss": 0.6836,
-      "step": 460
-    },
-    {
-      "epoch": 0.32,
-      "learning_rate": 2.9009677648607556e-05,
-      "loss": 0.6514,
-      "step": 470
-    },
-    {
-      "epoch": 0.33,
-      "learning_rate": 2.894814601465469e-05,
-      "loss": 0.716,
-      "step": 480
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 2.8884829291844227e-05,
-      "loss": 0.6487,
-      "step": 490
-    },
-    {
-      "epoch": 0.34,
-      "learning_rate": 2.8819735583473635e-05,
-      "loss": 0.6891,
-      "step": 500
-    },
-    {
-      "epoch": 0.34,
-      "eval_loss": 0.665991485118866,
-      "eval_runtime": 112.8957,
-      "eval_samples_per_second": 5.758,
-      "eval_steps_per_second": 1.444,
-      "step": 500
-    },
-    {
-      "epoch": 0.35,
-      "learning_rate": 2.8752873220259666e-05,
-      "loss": 0.7041,
-      "step": 510
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 2.8684250759272157e-05,
-      "loss": 0.7158,
-      "step": 520
-    },
-    {
-      "epoch": 0.36,
-      "learning_rate": 2.8613876982838903e-05,
-      "loss": 0.6794,
-      "step": 530
-    },
-    {
-      "epoch": 0.37,
-      "learning_rate": 2.85417608974217e-05,
-      "loss": 0.6874,
-      "step": 540
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 2.846791173246368e-05,
-      "loss": 0.6694,
-      "step": 550
-    },
-    {
-      "epoch": 0.38,
-      "learning_rate": 2.839233893920815e-05,
-      "loss": 0.6643,
-      "step": 560
-    },
-    {
-      "epoch": 0.39,
-      "learning_rate": 2.8315052189488983e-05,
-      "loss": 0.6691,
-      "step": 570
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 2.8236061374492838e-05,
-      "loss": 0.6586,
-      "step": 580
-    },
-    {
-      "epoch": 0.4,
-      "learning_rate": 2.8155376603493274e-05,
-      "loss": 0.646,
-      "step": 590
-    },
-    {
-      "epoch": 0.41,
-      "learning_rate": 2.8073008202556964e-05,
-      "loss": 0.6588,
-      "step": 600
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 2.7988966713222155e-05,
-      "loss": 0.6293,
-      "step": 610
-    },
-    {
-      "epoch": 0.42,
-      "learning_rate": 2.7903262891149568e-05,
-      "loss": 0.6398,
-      "step": 620
-    },
-    {
-      "epoch": 0.43,
-      "learning_rate": 2.7815907704745874e-05,
-      "loss": 0.6031,
-      "step": 630
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 2.7726912333759963e-05,
-      "loss": 0.6452,
-      "step": 640
-    },
-    {
-      "epoch": 0.44,
-      "learning_rate": 2.763628816785215e-05,
-      "loss": 0.6369,
-      "step": 650
-    },
-    {
-      "epoch": 0.45,
-      "learning_rate": 2.7544046805136524e-05,
-      "loss": 0.7018,
-      "step": 660
-    },
-    {
-      "epoch": 0.46,
-      "learning_rate": 2.7450200050696616e-05,
-      "loss": 0.6782,
-      "step": 670
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 2.7354759915074574e-05,
-      "loss": 0.6427,
-      "step": 680
-    },
-    {
-      "epoch": 0.47,
-      "learning_rate": 2.7257738612734065e-05,
-      "loss": 0.6457,
-      "step": 690
-    },
-    {
-      "epoch": 0.48,
-      "learning_rate": 2.715914856049705e-05,
-      "loss": 0.6016,
-      "step": 700
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 2.7059002375954684e-05,
-      "loss": 0.6606,
-      "step": 710
-    },
-    {
-      "epoch": 0.49,
-      "learning_rate": 2.695731287585249e-05,
-      "loss": 0.6334,
-      "step": 720
-    },
-    {
-      "epoch": 0.5,
-      "learning_rate": 2.685409307445011e-05,
-      "loss": 0.6806,
-      "step": 730
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 2.6749356181855685e-05,
-      "loss": 0.5794,
-      "step": 740
-    },
-    {
-      "epoch": 0.51,
-      "learning_rate": 2.6643115602335263e-05,
-      "loss": 0.5806,
-      "step": 750
-    },
-    {
-      "epoch": 0.52,
-      "learning_rate": 2.6535384932597288e-05,
-      "loss": 0.6126,
-      "step": 760
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 2.6426177960052494e-05,
-      "loss": 0.6405,
-      "step": 770
-    },
-    {
-      "epoch": 0.53,
-      "learning_rate": 2.631550866104941e-05,
-      "loss": 0.644,
-      "step": 780
-    },
-    {
-      "epoch": 0.54,
-      "learning_rate": 2.6203391199085617e-05,
-      "loss": 0.6072,
-      "step": 790
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 2.6089839922995145e-05,
-      "loss": 0.6152,
-      "step": 800
-    },
-    {
-      "epoch": 0.55,
-      "learning_rate": 2.5974869365112084e-05,
-      "loss": 0.6294,
-      "step": 810
-    },
-    {
-      "epoch": 0.56,
-      "learning_rate": 2.5858494239410705e-05,
-      "loss": 0.6486,
-      "step": 820
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 2.5740729439622414e-05,
-      "loss": 0.6507,
-      "step": 830
-    },
-    {
-      "epoch": 0.57,
-      "learning_rate": 2.5621590037329604e-05,
-      "loss": 0.6327,
-      "step": 840
-    },
-    {
-      "epoch": 0.58,
-      "learning_rate": 2.550109128003681e-05,
-      "loss": 0.5947,
-      "step": 850
-    },
-    {
-      "epoch": 0.59,
-      "learning_rate": 2.5379248589219307e-05,
-      "loss": 0.6366,
-      "step": 860
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 2.525607755834948e-05,
-      "loss": 0.6608,
-      "step": 870
-    },
-    {
-      "epoch": 0.6,
-      "learning_rate": 2.513159395090117e-05,
-      "loss": 0.6861,
-      "step": 880
-    },
-    {
-      "epoch": 0.61,
-      "learning_rate": 2.5005813698332257e-05,
-      "loss": 0.6377,
-      "step": 890
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 2.4878752898045725e-05,
-      "loss": 0.601,
-      "step": 900
-    },
-    {
-      "epoch": 0.62,
-      "learning_rate": 2.475042781132953e-05,
-      "loss": 0.6185,
-      "step": 910
-    },
-    {
-      "epoch": 0.63,
-      "learning_rate": 2.462085486127547e-05,
-      "loss": 0.6199,
-      "step": 920
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 2.449005063067736e-05,
-      "loss": 0.6137,
-      "step": 930
-    },
-    {
-      "epoch": 0.64,
-      "learning_rate": 2.4358031859908747e-05,
-      "loss": 0.6004,
-      "step": 940
-    },
-    {
-      "epoch": 0.65,
-      "learning_rate": 2.4224815444780473e-05,
-      "loss": 0.6245,
-      "step": 950
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 2.4090418434378348e-05,
-      "loss": 0.6535,
-      "step": 960
-    },
-    {
-      "epoch": 0.66,
-      "learning_rate": 2.3954858028881206e-05,
-      "loss": 0.594,
-      "step": 970
-    },
-    {
-      "epoch": 0.67,
-      "learning_rate": 2.3818151577359593e-05,
-      "loss": 0.605,
-      "step": 980
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 2.3680316575555474e-05,
-      "loss": 0.6185,
-      "step": 990
-    },
-    {
-      "epoch": 0.68,
-      "learning_rate": 2.3541370663643073e-05,
-      "loss": 0.6423,
-      "step": 1000
-    },
-    {
-      "epoch": 0.68,
-      "eval_loss": 0.6074596047401428,
-      "eval_runtime": 112.8513,
-      "eval_samples_per_second": 5.76,
-      "eval_steps_per_second": 1.444,
-      "step": 1000
-    },
-    {
-      "epoch": 0.69,
-      "learning_rate": 2.3401331623971307e-05,
-      "loss": 0.6404,
-      "step": 1010
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 2.3260217378787985e-05,
-      "loss": 0.5879,
-      "step": 1020
-    },
-    {
-      "epoch": 0.7,
-      "learning_rate": 2.3118045987946115e-05,
-      "loss": 0.6582,
-      "step": 1030
-    },
-    {
-      "epoch": 0.71,
-      "learning_rate": 2.297483564659259e-05,
-      "loss": 0.6132,
-      "step": 1040
-    },
-    {
-      "epoch": 0.72,
-      "learning_rate": 2.2830604682839577e-05,
-      "loss": 0.5921,
-      "step": 1050
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 2.2685371555418865e-05,
-      "loss": 0.5874,
-      "step": 1060
-    },
-    {
-      "epoch": 0.73,
-      "learning_rate": 2.2539154851319534e-05,
-      "loss": 0.6708,
-      "step": 1070
-    },
-    {
-      "epoch": 0.74,
-      "learning_rate": 2.2391973283409148e-05,
-      "loss": 0.6474,
-      "step": 1080
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 2.2243845688038912e-05,
-      "loss": 0.5853,
-      "step": 1090
-    },
-    {
-      "epoch": 0.75,
-      "learning_rate": 2.2094791022632964e-05,
-      "loss": 0.602,
-      "step": 1100
-    },
-    {
-      "epoch": 0.76,
-      "learning_rate": 2.194482836326222e-05,
-      "loss": 0.6012,
-      "step": 1110
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 2.179397690220298e-05,
-      "loss": 0.5837,
-      "step": 1120
-    },
-    {
-      "epoch": 0.77,
-      "learning_rate": 2.164225594548072e-05,
-      "loss": 0.6277,
-      "step": 1130
-    },
-    {
-      "epoch": 0.78,
-      "learning_rate": 2.1489684910399287e-05,
-      "loss": 0.548,
-      "step": 1140
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 2.1336283323055877e-05,
-      "loss": 0.6275,
-      "step": 1150
-    },
-    {
-      "epoch": 0.79,
-      "learning_rate": 2.118207081584207e-05,
-      "loss": 0.6045,
-      "step": 1160
-    },
-    {
-      "epoch": 0.8,
-      "learning_rate": 2.102706712493125e-05,
-      "loss": 0.579,
-      "step": 1170
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 2.0871292087752813e-05,
-      "loss": 0.6307,
-      "step": 1180
-    },
-    {
-      "epoch": 0.81,
-      "learning_rate": 2.0714765640453295e-05,
-      "loss": 0.6708,
-      "step": 1190
-    },
-    {
-      "epoch": 0.82,
-      "learning_rate": 2.055750781534502e-05,
-      "loss": 0.5567,
-      "step": 1200
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 2.0399538738342276e-05,
-      "loss": 0.6077,
-      "step": 1210
-    },
-    {
-      "epoch": 0.83,
-      "learning_rate": 2.0240878626385656e-05,
-      "loss": 0.5914,
-      "step": 1220
-    },
-    {
-      "epoch": 0.84,
-      "learning_rate": 2.0081547784854636e-05,
-      "loss": 0.5752,
-      "step": 1230
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 1.9921566604968935e-05,
-      "loss": 0.5845,
-      "step": 1240
-    },
-    {
-      "epoch": 0.85,
-      "learning_rate": 1.9760955561178792e-05,
-      "loss": 0.5957,
-      "step": 1250
-    },
-    {
-      "epoch": 0.86,
-      "learning_rate": 1.9599735208544676e-05,
-      "loss": 0.6019,
-      "step": 1260
-    },
-    {
-      "epoch": 0.87,
-      "learning_rate": 1.943792618010662e-05,
-      "loss": 0.6482,
-      "step": 1270
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 1.9275549184243597e-05,
-      "loss": 0.5898,
-      "step": 1280
-    },
-    {
-      "epoch": 0.88,
-      "learning_rate": 1.9112625002023276e-05,
-      "loss": 0.5559,
-      "step": 1290
     },
     {
-      "epoch": 0.89,
-      "learning_rate": 1.8949174484542413e-05,
-      "loss": 0.5938,
-      "step": 1300
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.8785218550258373e-05,
-      "loss": 0.6049,
-      "step": 1310
-    },
-    {
-      "epoch": 0.9,
-      "learning_rate": 1.862077818231193e-05,
-      "loss": 0.5744,
-      "step": 1320
-    },
-    {
-      "epoch": 0.91,
-      "learning_rate": 1.845587442584185e-05,
-      "loss": 0.6184,
-      "step": 1330
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 1.8290528385291558e-05,
-      "loss": 0.5656,
-      "step": 1340
-    },
-    {
-      "epoch": 0.92,
-      "learning_rate": 1.8124761221708136e-05,
-      "loss": 0.5297,
-      "step": 1350
-    },
-    {
-      "epoch": 0.93,
-      "learning_rate": 1.7958594150034165e-05,
-      "loss": 0.5681,
-      "step": 1360
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 1.7792048436392584e-05,
-      "loss": 0.6133,
-      "step": 1370
-    },
-    {
-      "epoch": 0.94,
-      "learning_rate": 1.7625145395365098e-05,
-      "loss": 0.5877,
-      "step": 1380
-    },
-    {
-      "epoch": 0.95,
-      "learning_rate": 1.7457906387264288e-05,
-      "loss": 0.5887,
-      "step": 1390
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 1.729035281539993e-05,
-      "loss": 0.5648,
-      "step": 1400
-    },
-    {
-      "epoch": 0.96,
-      "learning_rate": 1.7122506123339775e-05,
-      "loss": 0.551,
-      "step": 1410
-    },
-    {
-      "epoch": 0.97,
-      "learning_rate": 1.6954387792165222e-05,
-      "loss": 0.5537,
-      "step": 1420
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 1.6786019337722136e-05,
-      "loss": 0.542,
-      "step": 1430
-    },
-    {
-      "epoch": 0.98,
-      "learning_rate": 1.6617422307867238e-05,
-      "loss": 0.5466,
-      "step": 1440
-    },
-    {
-      "epoch": 0.99,
-      "learning_rate": 1.6448618279710438e-05,
-      "loss": 0.5977,
-      "step": 1450
-    },
-    {
-      "epoch": 1.0,
-      "learning_rate": 1.6279628856853338e-05,
-      "loss": 0.5897,
-      "step": 1460
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 1.611047566662445e-05,
-      "loss": 0.5539,
-      "step": 1470
-    },
-    {
-      "epoch": 1.01,
-      "learning_rate": 1.5941180357311268e-05,
-      "loss": 0.5411,
-      "step": 1480
-    },
-    {
-      "epoch": 1.02,
-      "learning_rate": 1.5771764595389764e-05,
-      "loss": 0.5479,
-      "step": 1490
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 1.560225006275145e-05,
-      "loss": 0.5553,
-      "step": 1500
-    },
-    {
-      "epoch": 1.03,
-      "eval_loss": 0.5688494443893433,
-      "eval_runtime": 112.9699,
-      "eval_samples_per_second": 5.754,
-      "eval_steps_per_second": 1.443,
-      "step": 1500
-    },
-    {
-      "epoch": 1.03,
-      "learning_rate": 1.543265845392858e-05,
-      "loss": 0.535,
-      "step": 1510
-    },
-    {
-      "epoch": 1.04,
-      "learning_rate": 1.5263011473317623e-05,
-      "loss": 0.531,
-      "step": 1520
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 1.509333083240157e-05,
-      "loss": 0.568,
-      "step": 1530
-    },
-    {
-      "epoch": 1.05,
-      "learning_rate": 1.4923638246971261e-05,
-      "loss": 0.5375,
-      "step": 1540
-    },
-    {
-      "epoch": 1.06,
-      "learning_rate": 1.4753955434346188e-05,
-      "loss": 0.5868,
-      "step": 1550
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 1.458430411059513e-05,
-      "loss": 0.5549,
-      "step": 1560
-    },
-    {
-      "epoch": 1.07,
-      "learning_rate": 1.4414705987756907e-05,
-      "loss": 0.5595,
-      "step": 1570
-    },
-    {
-      "epoch": 1.08,
-      "learning_rate": 1.4245182771061667e-05,
-      "loss": 0.5578,
-      "step": 1580
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 1.407575615615303e-05,
-      "loss": 0.538,
-      "step": 1590
-    },
-    {
-      "epoch": 1.09,
-      "learning_rate": 1.3906447826311502e-05,
-      "loss": 0.5574,
-      "step": 1600
-    },
-    {
-      "epoch": 1.1,
-      "learning_rate": 1.3737279449679414e-05,
-      "loss": 0.5667,
-      "step": 1610
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 1.3568272676487834e-05,
-      "loss": 0.5564,
-      "step": 1620
-    },
-    {
-      "epoch": 1.11,
-      "learning_rate": 1.3399449136285751e-05,
-      "loss": 0.5589,
-      "step": 1630
-    },
-    {
-      "epoch": 1.12,
-      "learning_rate": 1.3230830435171951e-05,
-      "loss": 0.5636,
-      "step": 1640
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 1.3062438153029829e-05,
-      "loss": 0.5677,
-      "step": 1650
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 1.2894293840765583e-05,
-      "loss": 0.5321,
-      "step": 1660
-    },
-    {
-      "epoch": 1.14,
-      "learning_rate": 1.272641901755015e-05,
-      "loss": 0.5664,
-      "step": 1670
-    },
-    {
-      "epoch": 1.15,
-      "learning_rate": 1.2558835168065162e-05,
-      "loss": 0.6372,
-      "step": 1680
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 1.2391563739753316e-05,
-      "loss": 0.5377,
-      "step": 1690
-    },
-    {
-      "epoch": 1.16,
-      "learning_rate": 1.2224626140073533e-05,
-      "loss": 0.5974,
-      "step": 1700
-    },
-    {
-      "epoch": 1.17,
-      "learning_rate": 1.2058043733761228e-05,
-      "loss": 0.5924,
-      "step": 1710
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 1.1891837840094038e-05,
-      "loss": 0.5149,
-      "step": 1720
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 1.1726029730163372e-05,
-      "loss": 0.5486,
-      "step": 1730
-    },
-    {
-      "epoch": 1.19,
-      "learning_rate": 1.156064062415212e-05,
-      "loss": 0.5161,
-      "step": 1740
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 1.1395691688618916e-05,
-      "loss": 0.5317,
-      "step": 1750
-    },
-    {
-      "epoch": 1.2,
-      "learning_rate": 1.1231204033789202e-05,
-      "loss": 0.5456,
-      "step": 1760
-    },
-    {
-      "epoch": 1.21,
-      "learning_rate": 1.1067198710853537e-05,
-      "loss": 0.4997,
-      "step": 1770
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 1.0903696709273497e-05,
-      "loss": 0.5274,
-      "step": 1780
-    },
-    {
-      "epoch": 1.22,
-      "learning_rate": 1.074071895409537e-05,
-      "loss": 0.5395,
-      "step": 1790
-    },
-    {
-      "epoch": 1.23,
-      "learning_rate": 1.0578286303272224e-05,
-      "loss": 0.5754,
-      "step": 1800
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 1.0416419544994449e-05,
-      "loss": 0.5593,
-      "step": 1810
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 1.0255139395029315e-05,
-      "loss": 0.5635,
-      "step": 1820
-    },
-    {
-      "epoch": 1.25,
-      "learning_rate": 1.009446649406974e-05,
-      "loss": 0.5796,
-      "step": 1830
-    },
-    {
-      "epoch": 1.26,
-      "learning_rate": 9.934421405092689e-06,
-      "loss": 0.5489,
-      "step": 1840
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 9.775024610727527e-06,
-      "loss": 0.5869,
-      "step": 1850
-    },
-    {
-      "epoch": 1.27,
-      "learning_rate": 9.616296510634619e-06,
-      "loss": 0.5463,
-      "step": 1860
-    },
-    {
-      "epoch": 1.28,
-      "learning_rate": 9.458257418894607e-06,
-      "loss": 0.5725,
-      "step": 1870
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 9.300927561408574e-06,
-      "loss": 0.5694,
-      "step": 1880
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 9.14432707330957e-06,
-      "loss": 0.5721,
-      "step": 1890
-    },
-    {
-      "epoch": 1.3,
-      "learning_rate": 8.988475996385653e-06,
-      "loss": 0.5423,
-      "step": 1900
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 8.833394276514976e-06,
-      "loss": 0.5376,
-      "step": 1910
-    },
-    {
-      "epoch": 1.31,
-      "learning_rate": 8.679101761113099e-06,
-      "loss": 0.5102,
-      "step": 1920
-    },
-    {
-      "epoch": 1.32,
-      "learning_rate": 8.525618196592897e-06,
-      "loss": 0.5698,
-      "step": 1930
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 8.372963225837405e-06,
-      "loss": 0.4899,
-      "step": 1940
-    },
-    {
-      "epoch": 1.33,
-      "learning_rate": 8.221156385685939e-06,
-      "loss": 0.5326,
-      "step": 1950
-    },
-    {
-      "epoch": 1.34,
-      "learning_rate": 8.070217104433746e-06,
-      "loss": 0.5562,
-      "step": 1960
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 7.920164699345559e-06,
-      "loss": 0.542,
-      "step": 1970
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 7.771018374183367e-06,
-      "loss": 0.5584,
-      "step": 1980
-    },
-    {
-      "epoch": 1.36,
-      "learning_rate": 7.622797216748732e-06,
-      "loss": 0.559,
-      "step": 1990
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 7.475520196439913e-06,
-      "loss": 0.5175,
-      "step": 2000
-    },
-    {
-      "epoch": 1.37,
-      "eval_loss": 0.5532566905021667,
-      "eval_runtime": 112.9998,
-      "eval_samples_per_second": 5.752,
-      "eval_steps_per_second": 1.442,
-      "step": 2000
-    },
-    {
-      "epoch": 1.37,
-      "learning_rate": 7.329206161824133e-06,
-      "loss": 0.5066,
-      "step": 2010
-    },
-    {
-      "epoch": 1.38,
-      "learning_rate": 7.183873838225359e-06,
-      "loss": 0.5446,
-      "step": 2020
-    },
-    {
-      "epoch": 1.39,
-      "learning_rate": 7.039541825327827e-06,
-      "loss": 0.5875,
-      "step": 2030
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 6.896228594795646e-06,
-      "loss": 0.5211,
-      "step": 2040
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 6.753952487908767e-06,
-      "loss": 0.5785,
-      "step": 2050
-    },
-    {
-      "epoch": 1.41,
-      "learning_rate": 6.612731713215683e-06,
-      "loss": 0.5338,
-      "step": 2060
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 6.472584344203087e-06,
-      "loss": 0.5539,
-      "step": 2070
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 6.3335283169828236e-06,
-      "loss": 0.5763,
-      "step": 2080
-    },
-    {
-      "epoch": 1.43,
-      "learning_rate": 6.195581427996395e-06,
-      "loss": 0.5044,
-      "step": 2090
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 6.058761331737406e-06,
-      "loss": 0.5509,
-      "step": 2100
-    },
-    {
-      "epoch": 1.44,
-      "learning_rate": 5.923085538492093e-06,
-      "loss": 0.5212,
-      "step": 2110
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 5.788571412098394e-06,
-      "loss": 0.5772,
-      "step": 2120
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 5.655236167723671e-06,
-      "loss": 0.5368,
-      "step": 2130
-    },
-    {
-      "epoch": 1.46,
-      "learning_rate": 5.5230968696615565e-06,
-      "loss": 0.5327,
-      "step": 2140
-    },
-    {
-      "epoch": 1.47,
-      "learning_rate": 5.392170429148018e-06,
-      "loss": 0.5411,
-      "step": 2150
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 5.26247360219706e-06,
-      "loss": 0.5354,
-      "step": 2160
-    },
-    {
-      "epoch": 1.48,
-      "learning_rate": 5.134022987456326e-06,
-      "loss": 0.5276,
-      "step": 2170
-    },
-    {
-      "epoch": 1.49,
-      "learning_rate": 5.006835024082726e-06,
-      "loss": 0.5055,
-      "step": 2180
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 4.880925989638598e-06,
-      "loss": 0.5838,
-      "step": 2190
-    },
-    {
-      "epoch": 1.5,
-      "learning_rate": 4.75631199800848e-06,
-      "loss": 0.5915,
-      "step": 2200
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 4.633008997336863e-06,
-      "loss": 0.4826,
-      "step": 2210
-    },
-    {
-      "epoch": 1.52,
-      "learning_rate": 4.5110327679871335e-06,
-      "loss": 0.562,
-      "step": 2220
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 4.3903989205219805e-06,
-      "loss": 0.5399,
-      "step": 2230
-    },
-    {
-      "epoch": 1.53,
-      "learning_rate": 4.2711228937055865e-06,
-      "loss": 0.5079,
-      "step": 2240
-    },
-    {
-      "epoch": 1.54,
-      "learning_rate": 4.1532199525277285e-06,
-      "loss": 0.541,
-      "step": 2250
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 4.0367051862501955e-06,
-      "loss": 0.5536,
-      "step": 2260
-    },
-    {
-      "epoch": 1.55,
-      "learning_rate": 3.921593506475625e-06,
-      "loss": 0.5456,
-      "step": 2270
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 3.807899645239149e-06,
-      "loss": 0.5251,
-      "step": 2280
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 3.695638153122936e-06,
-      "loss": 0.5232,
-      "step": 2290
-    },
-    {
-      "epoch": 1.57,
-      "learning_rate": 3.5848233973940525e-06,
-      "loss": 0.5597,
-      "step": 2300
-    },
-    {
-      "epoch": 1.58,
-      "learning_rate": 3.4754695601656887e-06,
-      "loss": 0.5475,
-      "step": 2310
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 3.367590636582165e-06,
-      "loss": 0.557,
-      "step": 2320
-    },
-    {
-      "epoch": 1.59,
-      "learning_rate": 3.2612004330277988e-06,
-      "loss": 0.4989,
-      "step": 2330
-    },
-    {
-      "epoch": 1.6,
-      "learning_rate": 3.156312565359975e-06,
-      "loss": 0.5602,
-      "step": 2340
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 3.0529404571665865e-06,
-      "loss": 0.5619,
-      "step": 2350
-    },
-    {
-      "epoch": 1.61,
-      "learning_rate": 2.9510973380480584e-06,
-      "loss": 0.537,
-      "step": 2360
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 2.850796241924237e-06,
-      "loss": 0.5252,
-      "step": 2370
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 2.7520500053662927e-06,
-      "loss": 0.5549,
-      "step": 2380
-    },
-    {
-      "epoch": 1.63,
-      "learning_rate": 2.654871265953916e-06,
-      "loss": 0.57,
-      "step": 2390
-    },
-    {
-      "epoch": 1.64,
-      "learning_rate": 2.559272460657915e-06,
-      "loss": 0.5821,
-      "step": 2400
-    },
-    {
-      "epoch": 1.65,
-      "learning_rate": 2.4652658242485547e-06,
-      "loss": 0.5291,
-      "step": 2410
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 2.372863387729749e-06,
-      "loss": 0.5418,
-      "step": 2420
-    },
-    {
-      "epoch": 1.66,
-      "learning_rate": 2.282076976799303e-06,
-      "loss": 0.6195,
-      "step": 2430
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 2.1929182103354907e-06,
-      "loss": 0.4792,
-      "step": 2440
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 2.105398498910033e-06,
-      "loss": 0.5733,
-      "step": 2450
-    },
-    {
-      "epoch": 1.68,
-      "learning_rate": 2.0195290433277987e-06,
-      "loss": 0.5846,
-      "step": 2460
-    },
-    {
-      "epoch": 1.69,
-      "learning_rate": 1.935320833193291e-06,
-      "loss": 0.5232,
-      "step": 2470
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 1.852784645504223e-06,
-      "loss": 0.537,
-      "step": 2480
-    },
-    {
-      "epoch": 1.7,
-      "learning_rate": 1.771931043272257e-06,
-      "loss": 0.5164,
-      "step": 2490
-    },
-    {
-      "epoch": 1.71,
-      "learning_rate": 1.6927703741711437e-06,
-      "loss": 0.5614,
-      "step": 2500
-    },
-    {
-      "epoch": 1.71,
-      "eval_loss": 0.5487334728240967,
-      "eval_runtime": 112.8609,
-      "eval_samples_per_second": 5.759,
-      "eval_steps_per_second": 1.444,
-      "step": 2500
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 1.6153127692124298e-06,
-      "loss": 0.6014,
-      "step": 2510
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 1.5395681414488938e-06,
-      "loss": 0.5534,
-      "step": 2520
-    },
-    {
-      "epoch": 1.73,
-      "learning_rate": 1.4655461847058633e-06,
-      "loss": 0.5652,
-      "step": 2530
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 1.3932563723405833e-06,
-      "loss": 0.6083,
-      "step": 2540
-    },
-    {
-      "epoch": 1.74,
-      "learning_rate": 1.3227079560298305e-06,
-      "loss": 0.5197,
-      "step": 2550
-    },
-    {
-      "epoch": 1.75,
-      "learning_rate": 1.2539099645858776e-06,
-      "loss": 0.5637,
-      "step": 2560
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 1.1868712028009782e-06,
-      "loss": 0.4674,
-      "step": 2570
-    },
-    {
-      "epoch": 1.76,
-      "learning_rate": 1.1216002503205213e-06,
-      "loss": 0.5429,
-      "step": 2580
-    },
-    {
-      "epoch": 1.77,
-      "learning_rate": 1.0581054605450153e-06,
-      "loss": 0.5204,
-      "step": 2590
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 9.963949595610117e-07,
-      "loss": 0.5476,
-      "step": 2600
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 9.364766451011236e-07,
-      "loss": 0.5862,
-      "step": 2610
-    },
-    {
-      "epoch": 1.79,
-      "learning_rate": 8.783581855332817e-07,
-      "loss": 0.5291,
-      "step": 2620
-    },
-    {
-      "epoch": 1.8,
-      "learning_rate": 8.220470188793128e-07,
-      "loss": 0.5299,
-      "step": 2630
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 7.675503518630428e-07,
-      "loss": 0.5563,
-      "step": 2640
-    },
-    {
-      "epoch": 1.81,
-      "learning_rate": 7.148751589879599e-07,
-      "loss": 0.5179,
-      "step": 2650
-    },
-    {
-      "epoch": 1.82,
-      "learning_rate": 6.640281816446248e-07,
-      "loss": 0.547,
-      "step": 2660
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 6.150159272479044e-07,
-      "loss": 0.5231,
-      "step": 2670
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 5.678446684041416e-07,
-      "loss": 0.5496,
-      "step": 2680
-    },
-    {
-      "epoch": 1.84,
-      "learning_rate": 5.225204421083934e-07,
-      "loss": 0.5732,
-      "step": 2690
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 4.790490489718147e-07,
-      "loss": 0.536,
-      "step": 2700
-    },
-    {
-      "epoch": 1.85,
-      "learning_rate": 4.3743605247929307e-07,
-      "loss": 0.5526,
-      "step": 2710
-    },
-    {
-      "epoch": 1.86,
-      "learning_rate": 3.9768677827742073e-07,
-      "loss": 0.5145,
-      "step": 2720
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 3.598063134929341e-07,
-      "loss": 0.5583,
-      "step": 2730
-    },
-    {
-      "epoch": 1.87,
-      "learning_rate": 3.2379950608164845e-07,
-      "loss": 0.5408,
-      "step": 2740
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 2.8967096420802364e-07,
-      "loss": 0.5287,
-      "step": 2750
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 2.5742505565539974e-07,
-      "loss": 0.5565,
-      "step": 2760
-    },
-    {
-      "epoch": 1.89,
-      "learning_rate": 2.270659072670156e-07,
-      "loss": 0.5068,
-      "step": 2770
-    },
-    {
-      "epoch": 1.9,
-      "learning_rate": 1.9859740441784958e-07,
-      "loss": 0.5354,
-      "step": 2780
-    },
-    {
-      "epoch": 1.91,
-      "learning_rate": 1.720231905173675e-07,
-      "loss": 0.5375,
-      "step": 2790
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 1.4734666654324046e-07,
-      "loss": 0.5401,
-      "step": 2800
-    },
-    {
-      "epoch": 1.92,
-      "learning_rate": 1.2457099060608156e-07,
-      "loss": 0.5922,
-      "step": 2810
-    },
-    {
-      "epoch": 1.93,
-      "learning_rate": 1.036990775452773e-07,
-      "loss": 0.5462,
-      "step": 2820
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 8.473359855593609e-08,
-      "loss": 0.5514,
-      "step": 2830
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 6.767698084703677e-08,
-      "loss": 0.5318,
-      "step": 2840
-    },
-    {
-      "epoch": 1.95,
-      "learning_rate": 5.253140733078865e-08,
-      "loss": 0.5045,
-      "step": 2850
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 3.929881634326005e-08,
-      "loss": 0.5767,
-      "step": 2860
-    },
-    {
-      "epoch": 1.96,
-      "learning_rate": 2.7980901396313374e-08,
-      "loss": 0.5566,
-      "step": 2870
-    },
-    {
-      "epoch": 1.97,
-      "learning_rate": 1.8579110960865175e-08,
-      "loss": 0.5318,
-      "step": 2880
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 1.1094648281516073e-08,
-      "loss": 0.5267,
-      "step": 2890
-    },
-    {
-      "epoch": 1.98,
-      "learning_rate": 5.528471222552289e-09,
-      "loss": 0.5307,
-      "step": 2900
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 1.8812921453603693e-09,
-      "loss": 0.5309,
-      "step": 2910
-    },
-    {
-      "epoch": 2.0,
-      "learning_rate": 1.5357781726010878e-10,
-      "loss": 0.5018,
-      "step": 2920
-    },
-    {
-      "epoch": 2.0,
-      "step": 2924,
-      "total_flos": 2.288755460150395e+17,
-      "train_loss": 0.628653114618257,
-      "train_runtime": 6305.9173,
-      "train_samples_per_second": 1.854,
-      "train_steps_per_second": 0.464
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2924,
-  "num_train_epochs": 2,
-  "save_steps": 500,
-  "total_flos": 2.288755460150395e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03419972640218878,
+  "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 1.4953,
       "step": 1
     },
     {
       "epoch": 0.01,
+      "learning_rate": 2.838778253789822e-05,
+      "loss": 1.7137,
       "step": 10
     },
     {
       "epoch": 0.01,
+      "learning_rate": 2.1314021436425026e-05,
+      "loss": 1.5219,
       "step": 20
     },
     {
       "epoch": 0.02,
+      "eval_loss": 1.2538621425628662,
+      "eval_runtime": 112.7562,
+      "eval_samples_per_second": 5.765,
+      "eval_steps_per_second": 1.446,
+      "step": 25
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.1522697745987076e-05,
+      "loss": 1.4272,
       "step": 30
     },
     {
       "epoch": 0.03,
+      "learning_rate": 3.2280092208200853e-06,
+      "loss": 1.401,
       "step": 40
     },
     {
       "epoch": 0.03,
+      "learning_rate": 0.0,
+      "loss": 1.3156,
       "step": 50
     },
     {
+      "epoch": 0.03,
+      "eval_loss": 1.1997405290603638,
+      "eval_runtime": 113.4502,
+      "eval_samples_per_second": 5.729,
+      "eval_steps_per_second": 1.437,
+      "step": 50
     },
     {
+      "epoch": 0.03,
+      "step": 50,
+      "total_flos": 3919242130882560.0,
+      "train_loss": 1.4715181255340577,
+      "train_runtime": 335.1031,
+      "train_samples_per_second": 0.597,
+      "train_steps_per_second": 0.149
     }
   ],
   "logging_steps": 10,
+  "max_steps": 50,
+  "num_train_epochs": 1,
+  "save_steps": 25,
+  "total_flos": 3919242130882560.0,
   "trial_name": null,
   "trial_params": null
 }