kevinpro commited on Jun 1, 2023

Commit

9287780

1 Parent(s): b2b4285

Upload 38 files

Browse files

Files changed (38) hide show

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/adapter_config.json +17 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/adapter_model.bin +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/optimizer.pt +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/pytorch_model.bin +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/rng_state_0.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/rng_state_1.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/rng_state_2.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/rng_state_3.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/scaler.pt +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/scheduler.pt +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/trainer_state.json +2160 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/training_args.bin +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/adapter_config.json +17 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/adapter_model.bin +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/optimizer.pt +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/pytorch_model.bin +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/rng_state_0.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/rng_state_1.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/rng_state_2.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/rng_state_3.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/scaler.pt +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/scheduler.pt +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/trainer_state.json +2200 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/training_args.bin +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/adapter_config.json +17 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/adapter_model.bin +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/optimizer.pt +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/pytorch_model.bin +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/rng_state_0.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/rng_state_1.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/rng_state_2.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/rng_state_3.pth +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/scaler.pt +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/scheduler.pt +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/tokenizer.model +3 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/tokenizer_config.json +33 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/trainer_state.json +2214 -0
vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/training_args.bin +3 -0

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/adapter_config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "base_model_name_or_path": "/mnt/data1/sheshuaijie/Data/PLM/vicuna-7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5e1621f48d9ad8feb1d6d31050275f0aafd080c5c07153301fe2f48411f4406
+size 443

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b180b8c0b2d249cbded40020365b0ad58e9f9fb972021e196dcd8a6c9adf02a5
+size 134293701

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42e1be51147b5d21738c841a7542f08b657b68dd69a604f10caf612f72eeb6fa
+size 67154893

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e6a336f0eb31e65d470fb7bbb3c318d68f8540de99147505297369706e956cb
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a14c3fb4d26a3395451687812bd359f3fd071cba0cdbefbacc693f5cc09806b6
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06f2062d9172c4b83ac74163dbe5ea73882f2aa0b6cf47bac1ee147a28f45e3f
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:791c74a8fa5a686ccf4034dc3001174c86737c9a81b7e09d7225d6fbee5c0212
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ff694532efc9aa102a9df1b12588365f8a813e88f900aa3b82f011b9ff17989
+size 557

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2c98200ad231d30e6f897712cf004f180062f0ec7f8523760ba97dd2e43c318
+size 627

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2160 @@

+{
+  "best_metric": 0.6167441010475159,
+  "best_model_checkpoint": "/mnt/data1/sheshuaijie/Output/CoT/Trained/vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723",
+  "epoch": 9.54061855670103,
+  "global_step": 723,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.7524008750915527,
+      "eval_runtime": 23.7951,
+      "eval_samples_per_second": 126.077,
+      "eval_steps_per_second": 3.95,
+      "step": 3
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 1.5515066385269165,
+      "eval_runtime": 23.828,
+      "eval_samples_per_second": 125.902,
+      "eval_steps_per_second": 3.945,
+      "step": 6
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 1.3584641218185425,
+      "eval_runtime": 23.8775,
+      "eval_samples_per_second": 125.641,
+      "eval_steps_per_second": 3.937,
+      "step": 9
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.2644726037979126,
+      "eval_runtime": 23.8942,
+      "eval_samples_per_second": 125.554,
+      "eval_steps_per_second": 3.934,
+      "step": 12
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.166400671005249,
+      "eval_runtime": 23.9181,
+      "eval_samples_per_second": 125.428,
+      "eval_steps_per_second": 3.93,
+      "step": 15
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.1086052656173706,
+      "eval_runtime": 23.9166,
+      "eval_samples_per_second": 125.436,
+      "eval_steps_per_second": 3.93,
+      "step": 18
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019650067294751011,
+      "loss": 1.4265,
+      "step": 20
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.0677987337112427,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 21
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.0342437028884888,
+      "eval_runtime": 23.9046,
+      "eval_samples_per_second": 125.499,
+      "eval_steps_per_second": 3.932,
+      "step": 24
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.9985266923904419,
+      "eval_runtime": 23.9037,
+      "eval_samples_per_second": 125.504,
+      "eval_steps_per_second": 3.932,
+      "step": 27
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.9654523134231567,
+      "eval_runtime": 23.9129,
+      "eval_samples_per_second": 125.455,
+      "eval_steps_per_second": 3.931,
+      "step": 30
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.939262866973877,
+      "eval_runtime": 23.9117,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 33
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.9186767339706421,
+      "eval_runtime": 23.9011,
+      "eval_samples_per_second": 125.517,
+      "eval_steps_per_second": 3.933,
+      "step": 36
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.8969741463661194,
+      "eval_runtime": 23.9105,
+      "eval_samples_per_second": 125.468,
+      "eval_steps_per_second": 3.931,
+      "step": 39
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00019111709286675642,
+      "loss": 0.9923,
+      "step": 40
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.8814375996589661,
+      "eval_runtime": 23.9154,
+      "eval_samples_per_second": 125.442,
+      "eval_steps_per_second": 3.931,
+      "step": 42
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 0.8654683232307434,
+      "eval_runtime": 23.9108,
+      "eval_samples_per_second": 125.466,
+      "eval_steps_per_second": 3.931,
+      "step": 45
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.852226734161377,
+      "eval_runtime": 23.9186,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 48
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.839223325252533,
+      "eval_runtime": 23.9074,
+      "eval_samples_per_second": 125.484,
+      "eval_steps_per_second": 3.932,
+      "step": 51
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.8266379237174988,
+      "eval_runtime": 23.9399,
+      "eval_samples_per_second": 125.314,
+      "eval_steps_per_second": 3.926,
+      "step": 54
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.8140417337417603,
+      "eval_runtime": 23.9355,
+      "eval_samples_per_second": 125.337,
+      "eval_steps_per_second": 3.927,
+      "step": 57
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001857335127860027,
+      "loss": 0.8611,
+      "step": 60
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.8019057512283325,
+      "eval_runtime": 23.9223,
+      "eval_samples_per_second": 125.406,
+      "eval_steps_per_second": 3.929,
+      "step": 60
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.7907609343528748,
+      "eval_runtime": 23.9384,
+      "eval_samples_per_second": 125.322,
+      "eval_steps_per_second": 3.927,
+      "step": 63
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.7791212797164917,
+      "eval_runtime": 23.9101,
+      "eval_samples_per_second": 125.47,
+      "eval_steps_per_second": 3.931,
+      "step": 66
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.7694615125656128,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 69
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.7602358460426331,
+      "eval_runtime": 23.9116,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 72
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 0.753226101398468,
+      "eval_runtime": 23.9242,
+      "eval_samples_per_second": 125.396,
+      "eval_steps_per_second": 3.929,
+      "step": 75
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.7466432452201843,
+      "eval_runtime": 23.9116,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 78
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.000180349932705249,
+      "loss": 0.7843,
+      "step": 80
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.7416810989379883,
+      "eval_runtime": 23.9171,
+      "eval_samples_per_second": 125.433,
+      "eval_steps_per_second": 3.93,
+      "step": 81
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 0.7362396121025085,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 84
+    },
+    {
+      "epoch": 1.15,
+      "eval_loss": 0.7297741174697876,
+      "eval_runtime": 23.9084,
+      "eval_samples_per_second": 125.479,
+      "eval_steps_per_second": 3.932,
+      "step": 87
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.7252654433250427,
+      "eval_runtime": 23.9206,
+      "eval_samples_per_second": 125.415,
+      "eval_steps_per_second": 3.93,
+      "step": 90
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.7213409543037415,
+      "eval_runtime": 23.9179,
+      "eval_samples_per_second": 125.429,
+      "eval_steps_per_second": 3.93,
+      "step": 93
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.7174035906791687,
+      "eval_runtime": 23.9354,
+      "eval_samples_per_second": 125.337,
+      "eval_steps_per_second": 3.927,
+      "step": 96
+    },
+    {
+      "epoch": 1.31,
+      "eval_loss": 0.7140380144119263,
+      "eval_runtime": 23.9214,
+      "eval_samples_per_second": 125.411,
+      "eval_steps_per_second": 3.93,
+      "step": 99
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001749663526244953,
+      "loss": 0.7301,
+      "step": 100
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.7104487419128418,
+      "eval_runtime": 23.9093,
+      "eval_samples_per_second": 125.474,
+      "eval_steps_per_second": 3.932,
+      "step": 102
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.7067868113517761,
+      "eval_runtime": 23.9129,
+      "eval_samples_per_second": 125.455,
+      "eval_steps_per_second": 3.931,
+      "step": 105
+    },
+    {
+      "epoch": 1.43,
+      "eval_loss": 0.7041762471199036,
+      "eval_runtime": 23.9161,
+      "eval_samples_per_second": 125.439,
+      "eval_steps_per_second": 3.93,
+      "step": 108
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 0.7013522982597351,
+      "eval_runtime": 23.9133,
+      "eval_samples_per_second": 125.453,
+      "eval_steps_per_second": 3.931,
+      "step": 111
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.6989504098892212,
+      "eval_runtime": 23.9152,
+      "eval_samples_per_second": 125.443,
+      "eval_steps_per_second": 3.931,
+      "step": 114
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.6974085569381714,
+      "eval_runtime": 23.9561,
+      "eval_samples_per_second": 125.229,
+      "eval_steps_per_second": 3.924,
+      "step": 117
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0001695827725437416,
+      "loss": 0.7141,
+      "step": 120
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.6944894194602966,
+      "eval_runtime": 23.902,
+      "eval_samples_per_second": 125.512,
+      "eval_steps_per_second": 3.933,
+      "step": 120
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 0.6929482221603394,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 123
+    },
+    {
+      "epoch": 1.66,
+      "eval_loss": 0.6903366446495056,
+      "eval_runtime": 23.9061,
+      "eval_samples_per_second": 125.491,
+      "eval_steps_per_second": 3.932,
+      "step": 126
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.6882749199867249,
+      "eval_runtime": 23.9181,
+      "eval_samples_per_second": 125.428,
+      "eval_steps_per_second": 3.93,
+      "step": 129
+    },
+    {
+      "epoch": 1.74,
+      "eval_loss": 0.6863100528717041,
+      "eval_runtime": 23.914,
+      "eval_samples_per_second": 125.45,
+      "eval_steps_per_second": 3.931,
+      "step": 132
+    },
+    {
+      "epoch": 1.78,
+      "eval_loss": 0.6860549449920654,
+      "eval_runtime": 23.9138,
+      "eval_samples_per_second": 125.45,
+      "eval_steps_per_second": 3.931,
+      "step": 135
+    },
+    {
+      "epoch": 1.82,
+      "eval_loss": 0.6831715703010559,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 138
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0001641991924629879,
+      "loss": 0.6902,
+      "step": 140
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.6819499731063843,
+      "eval_runtime": 23.8986,
+      "eval_samples_per_second": 125.53,
+      "eval_steps_per_second": 3.933,
+      "step": 141
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.6807693839073181,
+      "eval_runtime": 23.9169,
+      "eval_samples_per_second": 125.434,
+      "eval_steps_per_second": 3.93,
+      "step": 144
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 0.6787669062614441,
+      "eval_runtime": 23.9265,
+      "eval_samples_per_second": 125.384,
+      "eval_steps_per_second": 3.929,
+      "step": 147
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.6773442625999451,
+      "eval_runtime": 23.9274,
+      "eval_samples_per_second": 125.38,
+      "eval_steps_per_second": 3.929,
+      "step": 150
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.6759281158447266,
+      "eval_runtime": 23.9386,
+      "eval_samples_per_second": 125.321,
+      "eval_steps_per_second": 3.927,
+      "step": 153
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.6743582487106323,
+      "eval_runtime": 23.9323,
+      "eval_samples_per_second": 125.354,
+      "eval_steps_per_second": 3.928,
+      "step": 156
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.6732926368713379,
+      "eval_runtime": 23.9145,
+      "eval_samples_per_second": 125.447,
+      "eval_steps_per_second": 3.931,
+      "step": 159
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0001588156123822342,
+      "loss": 0.6766,
+      "step": 160
+    },
+    {
+      "epoch": 2.14,
+      "eval_loss": 0.6721953749656677,
+      "eval_runtime": 23.9073,
+      "eval_samples_per_second": 125.485,
+      "eval_steps_per_second": 3.932,
+      "step": 162
+    },
+    {
+      "epoch": 2.18,
+      "eval_loss": 0.6714429259300232,
+      "eval_runtime": 23.8955,
+      "eval_samples_per_second": 125.547,
+      "eval_steps_per_second": 3.934,
+      "step": 165
+    },
+    {
+      "epoch": 2.22,
+      "eval_loss": 0.670035183429718,
+      "eval_runtime": 23.9431,
+      "eval_samples_per_second": 125.297,
+      "eval_steps_per_second": 3.926,
+      "step": 168
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 0.6695354580879211,
+      "eval_runtime": 23.8875,
+      "eval_samples_per_second": 125.589,
+      "eval_steps_per_second": 3.935,
+      "step": 171
+    },
+    {
+      "epoch": 2.3,
+      "eval_loss": 0.6689226031303406,
+      "eval_runtime": 23.9185,
+      "eval_samples_per_second": 125.426,
+      "eval_steps_per_second": 3.93,
+      "step": 174
+    },
+    {
+      "epoch": 2.34,
+      "eval_loss": 0.6674054861068726,
+      "eval_runtime": 23.941,
+      "eval_samples_per_second": 125.308,
+      "eval_steps_per_second": 3.926,
+      "step": 177
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00015343203230148048,
+      "loss": 0.6743,
+      "step": 180
+    },
+    {
+      "epoch": 2.38,
+      "eval_loss": 0.6664847731590271,
+      "eval_runtime": 23.9211,
+      "eval_samples_per_second": 125.412,
+      "eval_steps_per_second": 3.93,
+      "step": 180
+    },
+    {
+      "epoch": 2.41,
+      "eval_loss": 0.6658627986907959,
+      "eval_runtime": 23.9247,
+      "eval_samples_per_second": 125.394,
+      "eval_steps_per_second": 3.929,
+      "step": 183
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 0.664908766746521,
+      "eval_runtime": 23.9272,
+      "eval_samples_per_second": 125.38,
+      "eval_steps_per_second": 3.929,
+      "step": 186
+    },
+    {
+      "epoch": 2.49,
+      "eval_loss": 0.6638036966323853,
+      "eval_runtime": 23.9187,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 189
+    },
+    {
+      "epoch": 2.53,
+      "eval_loss": 0.6625837683677673,
+      "eval_runtime": 23.9033,
+      "eval_samples_per_second": 125.506,
+      "eval_steps_per_second": 3.933,
+      "step": 192
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.6619511842727661,
+      "eval_runtime": 23.8973,
+      "eval_samples_per_second": 125.537,
+      "eval_steps_per_second": 3.934,
+      "step": 195
+    },
+    {
+      "epoch": 2.61,
+      "eval_loss": 0.6611769199371338,
+      "eval_runtime": 23.9129,
+      "eval_samples_per_second": 125.455,
+      "eval_steps_per_second": 3.931,
+      "step": 198
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00014804845222072678,
+      "loss": 0.6615,
+      "step": 200
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.6606143116950989,
+      "eval_runtime": 23.9126,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 201
+    },
+    {
+      "epoch": 2.69,
+      "eval_loss": 0.6589743494987488,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 204
+    },
+    {
+      "epoch": 2.73,
+      "eval_loss": 0.6578481197357178,
+      "eval_runtime": 23.9217,
+      "eval_samples_per_second": 125.409,
+      "eval_steps_per_second": 3.929,
+      "step": 207
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 0.6571096181869507,
+      "eval_runtime": 23.9415,
+      "eval_samples_per_second": 125.305,
+      "eval_steps_per_second": 3.926,
+      "step": 210
+    },
+    {
+      "epoch": 2.81,
+      "eval_loss": 0.656689465045929,
+      "eval_runtime": 23.9111,
+      "eval_samples_per_second": 125.465,
+      "eval_steps_per_second": 3.931,
+      "step": 213
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.6556207537651062,
+      "eval_runtime": 23.9099,
+      "eval_samples_per_second": 125.471,
+      "eval_steps_per_second": 3.931,
+      "step": 216
+    },
+    {
+      "epoch": 2.89,
+      "eval_loss": 0.6546627283096313,
+      "eval_runtime": 23.9164,
+      "eval_samples_per_second": 125.437,
+      "eval_steps_per_second": 3.93,
+      "step": 219
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0001426648721399731,
+      "loss": 0.6564,
+      "step": 220
+    },
+    {
+      "epoch": 2.93,
+      "eval_loss": 0.6539400815963745,
+      "eval_runtime": 23.906,
+      "eval_samples_per_second": 125.492,
+      "eval_steps_per_second": 3.932,
+      "step": 222
+    },
+    {
+      "epoch": 2.97,
+      "eval_loss": 0.653684675693512,
+      "eval_runtime": 23.9251,
+      "eval_samples_per_second": 125.391,
+      "eval_steps_per_second": 3.929,
+      "step": 225
+    },
+    {
+      "epoch": 3.01,
+      "eval_loss": 0.6526629328727722,
+      "eval_runtime": 23.9289,
+      "eval_samples_per_second": 125.371,
+      "eval_steps_per_second": 3.928,
+      "step": 228
+    },
+    {
+      "epoch": 3.05,
+      "eval_loss": 0.6525079011917114,
+      "eval_runtime": 23.9193,
+      "eval_samples_per_second": 125.421,
+      "eval_steps_per_second": 3.93,
+      "step": 231
+    },
+    {
+      "epoch": 3.09,
+      "eval_loss": 0.6514959931373596,
+      "eval_runtime": 23.9574,
+      "eval_samples_per_second": 125.223,
+      "eval_steps_per_second": 3.924,
+      "step": 234
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.6507047414779663,
+      "eval_runtime": 23.9234,
+      "eval_samples_per_second": 125.4,
+      "eval_steps_per_second": 3.929,
+      "step": 237
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 0.00013728129205921937,
+      "loss": 0.6469,
+      "step": 240
+    },
+    {
+      "epoch": 3.17,
+      "eval_loss": 0.6504186391830444,
+      "eval_runtime": 23.937,
+      "eval_samples_per_second": 125.329,
+      "eval_steps_per_second": 3.927,
+      "step": 240
+    },
+    {
+      "epoch": 3.21,
+      "eval_loss": 0.6495808959007263,
+      "eval_runtime": 23.9188,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 243
+    },
+    {
+      "epoch": 3.25,
+      "eval_loss": 0.649512529373169,
+      "eval_runtime": 23.9209,
+      "eval_samples_per_second": 125.413,
+      "eval_steps_per_second": 3.93,
+      "step": 246
+    },
+    {
+      "epoch": 3.29,
+      "eval_loss": 0.648629903793335,
+      "eval_runtime": 23.9137,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 249
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 0.6480894088745117,
+      "eval_runtime": 23.919,
+      "eval_samples_per_second": 125.423,
+      "eval_steps_per_second": 3.93,
+      "step": 252
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.6474400758743286,
+      "eval_runtime": 23.9076,
+      "eval_samples_per_second": 125.483,
+      "eval_steps_per_second": 3.932,
+      "step": 255
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 0.6468291878700256,
+      "eval_runtime": 23.9305,
+      "eval_samples_per_second": 125.363,
+      "eval_steps_per_second": 3.928,
+      "step": 258
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 0.00013189771197846567,
+      "loss": 0.6463,
+      "step": 260
+    },
+    {
+      "epoch": 3.44,
+      "eval_loss": 0.6462663412094116,
+      "eval_runtime": 23.9359,
+      "eval_samples_per_second": 125.335,
+      "eval_steps_per_second": 3.927,
+      "step": 261
+    },
+    {
+      "epoch": 3.48,
+      "eval_loss": 0.6458565592765808,
+      "eval_runtime": 23.929,
+      "eval_samples_per_second": 125.371,
+      "eval_steps_per_second": 3.928,
+      "step": 264
+    },
+    {
+      "epoch": 3.52,
+      "eval_loss": 0.645412266254425,
+      "eval_runtime": 23.9362,
+      "eval_samples_per_second": 125.333,
+      "eval_steps_per_second": 3.927,
+      "step": 267
+    },
+    {
+      "epoch": 3.56,
+      "eval_loss": 0.6449554562568665,
+      "eval_runtime": 23.9004,
+      "eval_samples_per_second": 125.521,
+      "eval_steps_per_second": 3.933,
+      "step": 270
+    },
+    {
+      "epoch": 3.6,
+      "eval_loss": 0.6443325281143188,
+      "eval_runtime": 23.9065,
+      "eval_samples_per_second": 125.489,
+      "eval_steps_per_second": 3.932,
+      "step": 273
+    },
+    {
+      "epoch": 3.64,
+      "eval_loss": 0.6435034871101379,
+      "eval_runtime": 23.9072,
+      "eval_samples_per_second": 125.485,
+      "eval_steps_per_second": 3.932,
+      "step": 276
+    },
+    {
+      "epoch": 3.68,
+      "eval_loss": 0.6433733701705933,
+      "eval_runtime": 23.9042,
+      "eval_samples_per_second": 125.501,
+      "eval_steps_per_second": 3.932,
+      "step": 279
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 0.00012651413189771198,
+      "loss": 0.6389,
+      "step": 280
+    },
+    {
+      "epoch": 3.72,
+      "eval_loss": 0.6425070762634277,
+      "eval_runtime": 23.8874,
+      "eval_samples_per_second": 125.589,
+      "eval_steps_per_second": 3.935,
+      "step": 282
+    },
+    {
+      "epoch": 3.76,
+      "eval_loss": 0.642119288444519,
+      "eval_runtime": 23.9328,
+      "eval_samples_per_second": 125.351,
+      "eval_steps_per_second": 3.928,
+      "step": 285
+    },
+    {
+      "epoch": 3.8,
+      "eval_loss": 0.641748309135437,
+      "eval_runtime": 23.9294,
+      "eval_samples_per_second": 125.369,
+      "eval_steps_per_second": 3.928,
+      "step": 288
+    },
+    {
+      "epoch": 3.84,
+      "eval_loss": 0.640826404094696,
+      "eval_runtime": 23.9434,
+      "eval_samples_per_second": 125.296,
+      "eval_steps_per_second": 3.926,
+      "step": 291
+    },
+    {
+      "epoch": 3.88,
+      "eval_loss": 0.6402388215065002,
+      "eval_runtime": 23.9162,
+      "eval_samples_per_second": 125.438,
+      "eval_steps_per_second": 3.93,
+      "step": 294
+    },
+    {
+      "epoch": 3.92,
+      "eval_loss": 0.6407353281974792,
+      "eval_runtime": 23.9121,
+      "eval_samples_per_second": 125.46,
+      "eval_steps_per_second": 3.931,
+      "step": 297
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 0.0001211305518169583,
+      "loss": 0.6318,
+      "step": 300
+    },
+    {
+      "epoch": 3.96,
+      "eval_loss": 0.6398600935935974,
+      "eval_runtime": 23.9229,
+      "eval_samples_per_second": 125.403,
+      "eval_steps_per_second": 3.929,
+      "step": 300
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.6393464207649231,
+      "eval_runtime": 23.9187,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 303
+    },
+    {
+      "epoch": 4.04,
+      "eval_loss": 0.6392526626586914,
+      "eval_runtime": 23.9074,
+      "eval_samples_per_second": 125.484,
+      "eval_steps_per_second": 3.932,
+      "step": 306
+    },
+    {
+      "epoch": 4.08,
+      "eval_loss": 0.6389594078063965,
+      "eval_runtime": 23.918,
+      "eval_samples_per_second": 125.428,
+      "eval_steps_per_second": 3.93,
+      "step": 309
+    },
+    {
+      "epoch": 4.12,
+      "eval_loss": 0.6388808488845825,
+      "eval_runtime": 23.9158,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 312
+    },
+    {
+      "epoch": 4.16,
+      "eval_loss": 0.6384025812149048,
+      "eval_runtime": 23.9176,
+      "eval_samples_per_second": 125.431,
+      "eval_steps_per_second": 3.93,
+      "step": 315
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 0.6387144923210144,
+      "eval_runtime": 23.9047,
+      "eval_samples_per_second": 125.498,
+      "eval_steps_per_second": 3.932,
+      "step": 318
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 0.00011574697173620459,
+      "loss": 0.6277,
+      "step": 320
+    },
+    {
+      "epoch": 4.24,
+      "eval_loss": 0.6377059817314148,
+      "eval_runtime": 23.9246,
+      "eval_samples_per_second": 125.394,
+      "eval_steps_per_second": 3.929,
+      "step": 321
+    },
+    {
+      "epoch": 4.28,
+      "eval_loss": 0.636981189250946,
+      "eval_runtime": 23.9459,
+      "eval_samples_per_second": 125.283,
+      "eval_steps_per_second": 3.926,
+      "step": 324
+    },
+    {
+      "epoch": 4.32,
+      "eval_loss": 0.6364036202430725,
+      "eval_runtime": 23.9206,
+      "eval_samples_per_second": 125.415,
+      "eval_steps_per_second": 3.93,
+      "step": 327
+    },
+    {
+      "epoch": 4.35,
+      "eval_loss": 0.6357031464576721,
+      "eval_runtime": 23.9187,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 330
+    },
+    {
+      "epoch": 4.39,
+      "eval_loss": 0.6366411447525024,
+      "eval_runtime": 23.9159,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 333
+    },
+    {
+      "epoch": 4.43,
+      "eval_loss": 0.6357526183128357,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 336
+    },
+    {
+      "epoch": 4.47,
+      "eval_loss": 0.6349912881851196,
+      "eval_runtime": 23.9211,
+      "eval_samples_per_second": 125.412,
+      "eval_steps_per_second": 3.93,
+      "step": 339
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 0.00011036339165545088,
+      "loss": 0.6303,
+      "step": 340
+    },
+    {
+      "epoch": 4.51,
+      "eval_loss": 0.6343324184417725,
+      "eval_runtime": 23.927,
+      "eval_samples_per_second": 125.381,
+      "eval_steps_per_second": 3.929,
+      "step": 342
+    },
+    {
+      "epoch": 4.55,
+      "eval_loss": 0.6347218751907349,
+      "eval_runtime": 23.9489,
+      "eval_samples_per_second": 125.267,
+      "eval_steps_per_second": 3.925,
+      "step": 345
+    },
+    {
+      "epoch": 4.59,
+      "eval_loss": 0.6333290338516235,
+      "eval_runtime": 23.9573,
+      "eval_samples_per_second": 125.223,
+      "eval_steps_per_second": 3.924,
+      "step": 348
+    },
+    {
+      "epoch": 4.63,
+      "eval_loss": 0.6328045129776001,
+      "eval_runtime": 23.925,
+      "eval_samples_per_second": 125.392,
+      "eval_steps_per_second": 3.929,
+      "step": 351
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 0.6328830718994141,
+      "eval_runtime": 23.9277,
+      "eval_samples_per_second": 125.378,
+      "eval_steps_per_second": 3.928,
+      "step": 354
+    },
+    {
+      "epoch": 4.71,
+      "eval_loss": 0.6323109269142151,
+      "eval_runtime": 23.9385,
+      "eval_samples_per_second": 125.321,
+      "eval_steps_per_second": 3.927,
+      "step": 357
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 0.00010497981157469719,
+      "loss": 0.6268,
+      "step": 360
+    },
+    {
+      "epoch": 4.75,
+      "eval_loss": 0.6327587366104126,
+      "eval_runtime": 23.9389,
+      "eval_samples_per_second": 125.319,
+      "eval_steps_per_second": 3.927,
+      "step": 360
+    },
+    {
+      "epoch": 4.79,
+      "eval_loss": 0.6324266791343689,
+      "eval_runtime": 23.9367,
+      "eval_samples_per_second": 125.331,
+      "eval_steps_per_second": 3.927,
+      "step": 363
+    },
+    {
+      "epoch": 4.83,
+      "eval_loss": 0.6320524215698242,
+      "eval_runtime": 23.9373,
+      "eval_samples_per_second": 125.327,
+      "eval_steps_per_second": 3.927,
+      "step": 366
+    },
+    {
+      "epoch": 4.87,
+      "eval_loss": 0.6314539313316345,
+      "eval_runtime": 23.9325,
+      "eval_samples_per_second": 125.352,
+      "eval_steps_per_second": 3.928,
+      "step": 369
+    },
+    {
+      "epoch": 4.91,
+      "eval_loss": 0.6318089365959167,
+      "eval_runtime": 23.9345,
+      "eval_samples_per_second": 125.342,
+      "eval_steps_per_second": 3.927,
+      "step": 372
+    },
+    {
+      "epoch": 4.95,
+      "eval_loss": 0.6315808296203613,
+      "eval_runtime": 23.924,
+      "eval_samples_per_second": 125.397,
+      "eval_steps_per_second": 3.929,
+      "step": 375
+    },
+    {
+      "epoch": 4.99,
+      "eval_loss": 0.630818247795105,
+      "eval_runtime": 23.9285,
+      "eval_samples_per_second": 125.373,
+      "eval_steps_per_second": 3.928,
+      "step": 378
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 9.959623149394348e-05,
+      "loss": 0.6196,
+      "step": 380
+    },
+    {
+      "epoch": 5.03,
+      "eval_loss": 0.630248486995697,
+      "eval_runtime": 23.9231,
+      "eval_samples_per_second": 125.402,
+      "eval_steps_per_second": 3.929,
+      "step": 381
+    },
+    {
+      "epoch": 5.07,
+      "eval_loss": 0.6306143403053284,
+      "eval_runtime": 23.9242,
+      "eval_samples_per_second": 125.396,
+      "eval_steps_per_second": 3.929,
+      "step": 384
+    },
+    {
+      "epoch": 5.11,
+      "eval_loss": 0.6305729746818542,
+      "eval_runtime": 23.9232,
+      "eval_samples_per_second": 125.401,
+      "eval_steps_per_second": 3.929,
+      "step": 387
+    },
+    {
+      "epoch": 5.15,
+      "eval_loss": 0.6302648782730103,
+      "eval_runtime": 23.9286,
+      "eval_samples_per_second": 125.373,
+      "eval_steps_per_second": 3.928,
+      "step": 390
+    },
+    {
+      "epoch": 5.19,
+      "eval_loss": 0.6298710703849792,
+      "eval_runtime": 23.9258,
+      "eval_samples_per_second": 125.388,
+      "eval_steps_per_second": 3.929,
+      "step": 393
+    },
+    {
+      "epoch": 5.23,
+      "eval_loss": 0.6298263669013977,
+      "eval_runtime": 23.9284,
+      "eval_samples_per_second": 125.374,
+      "eval_steps_per_second": 3.928,
+      "step": 396
+    },
+    {
+      "epoch": 5.27,
+      "eval_loss": 0.6292470097541809,
+      "eval_runtime": 23.9269,
+      "eval_samples_per_second": 125.382,
+      "eval_steps_per_second": 3.929,
+      "step": 399
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 9.421265141318977e-05,
+      "loss": 0.6146,
+      "step": 400
+    },
+    {
+      "epoch": 5.3,
+      "eval_loss": 0.6291049122810364,
+      "eval_runtime": 23.9297,
+      "eval_samples_per_second": 125.367,
+      "eval_steps_per_second": 3.928,
+      "step": 402
+    },
+    {
+      "epoch": 5.34,
+      "eval_loss": 0.6296722292900085,
+      "eval_runtime": 23.9386,
+      "eval_samples_per_second": 125.321,
+      "eval_steps_per_second": 3.927,
+      "step": 405
+    },
+    {
+      "epoch": 5.38,
+      "eval_loss": 0.6288275122642517,
+      "eval_runtime": 23.9308,
+      "eval_samples_per_second": 125.362,
+      "eval_steps_per_second": 3.928,
+      "step": 408
+    },
+    {
+      "epoch": 5.42,
+      "eval_loss": 0.6288333535194397,
+      "eval_runtime": 23.9261,
+      "eval_samples_per_second": 125.386,
+      "eval_steps_per_second": 3.929,
+      "step": 411
+    },
+    {
+      "epoch": 5.46,
+      "eval_loss": 0.6279690861701965,
+      "eval_runtime": 23.9282,
+      "eval_samples_per_second": 125.375,
+      "eval_steps_per_second": 3.928,
+      "step": 414
+    },
+    {
+      "epoch": 5.5,
+      "eval_loss": 0.6275332570075989,
+      "eval_runtime": 23.9215,
+      "eval_samples_per_second": 125.41,
+      "eval_steps_per_second": 3.93,
+      "step": 417
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 8.882907133243608e-05,
+      "loss": 0.6149,
+      "step": 420
+    },
+    {
+      "epoch": 5.54,
+      "eval_loss": 0.6279338598251343,
+      "eval_runtime": 23.93,
+      "eval_samples_per_second": 125.366,
+      "eval_steps_per_second": 3.928,
+      "step": 420
+    },
+    {
+      "epoch": 5.58,
+      "eval_loss": 0.6271057724952698,
+      "eval_runtime": 23.9158,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 423
+    },
+    {
+      "epoch": 5.62,
+      "eval_loss": 0.6270298361778259,
+      "eval_runtime": 23.9264,
+      "eval_samples_per_second": 125.384,
+      "eval_steps_per_second": 3.929,
+      "step": 426
+    },
+    {
+      "epoch": 5.66,
+      "eval_loss": 0.6271407604217529,
+      "eval_runtime": 23.9362,
+      "eval_samples_per_second": 125.333,
+      "eval_steps_per_second": 3.927,
+      "step": 429
+    },
+    {
+      "epoch": 5.7,
+      "eval_loss": 0.6264240145683289,
+      "eval_runtime": 23.9309,
+      "eval_samples_per_second": 125.361,
+      "eval_steps_per_second": 3.928,
+      "step": 432
+    },
+    {
+      "epoch": 5.74,
+      "eval_loss": 0.6263339519500732,
+      "eval_runtime": 23.93,
+      "eval_samples_per_second": 125.366,
+      "eval_steps_per_second": 3.928,
+      "step": 435
+    },
+    {
+      "epoch": 5.78,
+      "eval_loss": 0.6256468296051025,
+      "eval_runtime": 23.9252,
+      "eval_samples_per_second": 125.391,
+      "eval_steps_per_second": 3.929,
+      "step": 438
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 8.344549125168237e-05,
+      "loss": 0.6191,
+      "step": 440
+    },
+    {
+      "epoch": 5.82,
+      "eval_loss": 0.6260586977005005,
+      "eval_runtime": 23.918,
+      "eval_samples_per_second": 125.429,
+      "eval_steps_per_second": 3.93,
+      "step": 441
+    },
+    {
+      "epoch": 5.86,
+      "eval_loss": 0.625337541103363,
+      "eval_runtime": 23.9172,
+      "eval_samples_per_second": 125.433,
+      "eval_steps_per_second": 3.93,
+      "step": 444
+    },
+    {
+      "epoch": 5.9,
+      "eval_loss": 0.6246620416641235,
+      "eval_runtime": 23.908,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 447
+    },
+    {
+      "epoch": 5.94,
+      "eval_loss": 0.6251673698425293,
+      "eval_runtime": 23.9137,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 450
+    },
+    {
+      "epoch": 5.98,
+      "eval_loss": 0.6253092288970947,
+      "eval_runtime": 23.9409,
+      "eval_samples_per_second": 125.309,
+      "eval_steps_per_second": 3.926,
+      "step": 453
+    },
+    {
+      "epoch": 6.02,
+      "eval_loss": 0.6245599389076233,
+      "eval_runtime": 23.9233,
+      "eval_samples_per_second": 125.401,
+      "eval_steps_per_second": 3.929,
+      "step": 456
+    },
+    {
+      "epoch": 6.06,
+      "eval_loss": 0.6247097849845886,
+      "eval_runtime": 23.9184,
+      "eval_samples_per_second": 125.426,
+      "eval_steps_per_second": 3.93,
+      "step": 459
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 7.806191117092868e-05,
+      "loss": 0.6075,
+      "step": 460
+    },
+    {
+      "epoch": 6.1,
+      "eval_loss": 0.6237714290618896,
+      "eval_runtime": 23.9137,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 462
+    },
+    {
+      "epoch": 6.14,
+      "eval_loss": 0.6239632964134216,
+      "eval_runtime": 23.9142,
+      "eval_samples_per_second": 125.449,
+      "eval_steps_per_second": 3.931,
+      "step": 465
+    },
+    {
+      "epoch": 6.18,
+      "eval_loss": 0.6246253252029419,
+      "eval_runtime": 23.9199,
+      "eval_samples_per_second": 125.419,
+      "eval_steps_per_second": 3.93,
+      "step": 468
+    },
+    {
+      "epoch": 6.22,
+      "eval_loss": 0.6236398220062256,
+      "eval_runtime": 23.9169,
+      "eval_samples_per_second": 125.434,
+      "eval_steps_per_second": 3.93,
+      "step": 471
+    },
+    {
+      "epoch": 6.25,
+      "eval_loss": 0.6242309808731079,
+      "eval_runtime": 23.9091,
+      "eval_samples_per_second": 125.475,
+      "eval_steps_per_second": 3.932,
+      "step": 474
+    },
+    {
+      "epoch": 6.29,
+      "eval_loss": 0.6236902475357056,
+      "eval_runtime": 23.9117,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 477
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 7.267833109017497e-05,
+      "loss": 0.6061,
+      "step": 480
+    },
+    {
+      "epoch": 6.33,
+      "eval_loss": 0.623267650604248,
+      "eval_runtime": 23.9071,
+      "eval_samples_per_second": 125.485,
+      "eval_steps_per_second": 3.932,
+      "step": 480
+    },
+    {
+      "epoch": 6.37,
+      "eval_loss": 0.6238719820976257,
+      "eval_runtime": 23.9206,
+      "eval_samples_per_second": 125.415,
+      "eval_steps_per_second": 3.93,
+      "step": 483
+    },
+    {
+      "epoch": 6.41,
+      "eval_loss": 0.6234752535820007,
+      "eval_runtime": 23.914,
+      "eval_samples_per_second": 125.449,
+      "eval_steps_per_second": 3.931,
+      "step": 486
+    },
+    {
+      "epoch": 6.45,
+      "eval_loss": 0.6228368878364563,
+      "eval_runtime": 23.9087,
+      "eval_samples_per_second": 125.477,
+      "eval_steps_per_second": 3.932,
+      "step": 489
+    },
+    {
+      "epoch": 6.49,
+      "eval_loss": 0.6226744055747986,
+      "eval_runtime": 23.9118,
+      "eval_samples_per_second": 125.461,
+      "eval_steps_per_second": 3.931,
+      "step": 492
+    },
+    {
+      "epoch": 6.53,
+      "eval_loss": 0.622622013092041,
+      "eval_runtime": 23.9341,
+      "eval_samples_per_second": 125.344,
+      "eval_steps_per_second": 3.927,
+      "step": 495
+    },
+    {
+      "epoch": 6.57,
+      "eval_loss": 0.6228298544883728,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.482,
+      "eval_steps_per_second": 3.932,
+      "step": 498
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 6.729475100942126e-05,
+      "loss": 0.6043,
+      "step": 500
+    },
+    {
+      "epoch": 6.61,
+      "eval_loss": 0.6232237815856934,
+      "eval_runtime": 23.8982,
+      "eval_samples_per_second": 125.533,
+      "eval_steps_per_second": 3.933,
+      "step": 501
+    },
+    {
+      "epoch": 6.65,
+      "eval_loss": 0.6218205690383911,
+      "eval_runtime": 23.9059,
+      "eval_samples_per_second": 125.492,
+      "eval_steps_per_second": 3.932,
+      "step": 504
+    },
+    {
+      "epoch": 6.69,
+      "eval_loss": 0.621903657913208,
+      "eval_runtime": 23.8991,
+      "eval_samples_per_second": 125.528,
+      "eval_steps_per_second": 3.933,
+      "step": 507
+    },
+    {
+      "epoch": 6.73,
+      "eval_loss": 0.622235894203186,
+      "eval_runtime": 23.9024,
+      "eval_samples_per_second": 125.51,
+      "eval_steps_per_second": 3.933,
+      "step": 510
+    },
+    {
+      "epoch": 6.77,
+      "eval_loss": 0.6220830082893372,
+      "eval_runtime": 23.8926,
+      "eval_samples_per_second": 125.562,
+      "eval_steps_per_second": 3.934,
+      "step": 513
+    },
+    {
+      "epoch": 6.81,
+      "eval_loss": 0.6220167875289917,
+      "eval_runtime": 23.8965,
+      "eval_samples_per_second": 125.542,
+      "eval_steps_per_second": 3.934,
+      "step": 516
+    },
+    {
+      "epoch": 6.85,
+      "eval_loss": 0.6222782135009766,
+      "eval_runtime": 23.908,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 519
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 6.191117092866757e-05,
+      "loss": 0.6008,
+      "step": 520
+    },
+    {
+      "epoch": 6.89,
+      "eval_loss": 0.6216304302215576,
+      "eval_runtime": 23.9036,
+      "eval_samples_per_second": 125.504,
+      "eval_steps_per_second": 3.932,
+      "step": 522
+    },
+    {
+      "epoch": 6.93,
+      "eval_loss": 0.6217759847640991,
+      "eval_runtime": 23.9088,
+      "eval_samples_per_second": 125.477,
+      "eval_steps_per_second": 3.932,
+      "step": 525
+    },
+    {
+      "epoch": 6.97,
+      "eval_loss": 0.6214317083358765,
+      "eval_runtime": 23.9177,
+      "eval_samples_per_second": 125.43,
+      "eval_steps_per_second": 3.93,
+      "step": 528
+    },
+    {
+      "epoch": 7.01,
+      "eval_loss": 0.6213416457176208,
+      "eval_runtime": 23.9138,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 531
+    },
+    {
+      "epoch": 7.05,
+      "eval_loss": 0.6217712163925171,
+      "eval_runtime": 23.9141,
+      "eval_samples_per_second": 125.449,
+      "eval_steps_per_second": 3.931,
+      "step": 534
+    },
+    {
+      "epoch": 7.09,
+      "eval_loss": 0.6215860843658447,
+      "eval_runtime": 23.9145,
+      "eval_samples_per_second": 125.447,
+      "eval_steps_per_second": 3.931,
+      "step": 537
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 5.652759084791387e-05,
+      "loss": 0.599,
+      "step": 540
+    },
+    {
+      "epoch": 7.13,
+      "eval_loss": 0.6211041808128357,
+      "eval_runtime": 23.9125,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 540
+    },
+    {
+      "epoch": 7.17,
+      "eval_loss": 0.6210355758666992,
+      "eval_runtime": 23.911,
+      "eval_samples_per_second": 125.465,
+      "eval_steps_per_second": 3.931,
+      "step": 543
+    },
+    {
+      "epoch": 7.2,
+      "eval_loss": 0.6209889650344849,
+      "eval_runtime": 23.9062,
+      "eval_samples_per_second": 125.491,
+      "eval_steps_per_second": 3.932,
+      "step": 546
+    },
+    {
+      "epoch": 7.24,
+      "eval_loss": 0.6205114126205444,
+      "eval_runtime": 23.9227,
+      "eval_samples_per_second": 125.404,
+      "eval_steps_per_second": 3.929,
+      "step": 549
+    },
+    {
+      "epoch": 7.28,
+      "eval_loss": 0.6204013824462891,
+      "eval_runtime": 23.9146,
+      "eval_samples_per_second": 125.446,
+      "eval_steps_per_second": 3.931,
+      "step": 552
+    },
+    {
+      "epoch": 7.32,
+      "eval_loss": 0.6202988028526306,
+      "eval_runtime": 23.9015,
+      "eval_samples_per_second": 125.515,
+      "eval_steps_per_second": 3.933,
+      "step": 555
+    },
+    {
+      "epoch": 7.36,
+      "eval_loss": 0.6199727654457092,
+      "eval_runtime": 23.9089,
+      "eval_samples_per_second": 125.476,
+      "eval_steps_per_second": 3.932,
+      "step": 558
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 5.1144010767160164e-05,
+      "loss": 0.5959,
+      "step": 560
+    },
+    {
+      "epoch": 7.4,
+      "eval_loss": 0.619968831539154,
+      "eval_runtime": 23.9043,
+      "eval_samples_per_second": 125.5,
+      "eval_steps_per_second": 3.932,
+      "step": 561
+    },
+    {
+      "epoch": 7.44,
+      "eval_loss": 0.6202374696731567,
+      "eval_runtime": 23.9117,
+      "eval_samples_per_second": 125.461,
+      "eval_steps_per_second": 3.931,
+      "step": 564
+    },
+    {
+      "epoch": 7.48,
+      "eval_loss": 0.6202066540718079,
+      "eval_runtime": 23.908,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 567
+    },
+    {
+      "epoch": 7.52,
+      "eval_loss": 0.6198835968971252,
+      "eval_runtime": 23.9244,
+      "eval_samples_per_second": 125.395,
+      "eval_steps_per_second": 3.929,
+      "step": 570
+    },
+    {
+      "epoch": 7.56,
+      "eval_loss": 0.6199198961257935,
+      "eval_runtime": 23.9263,
+      "eval_samples_per_second": 125.385,
+      "eval_steps_per_second": 3.929,
+      "step": 573
+    },
+    {
+      "epoch": 7.6,
+      "eval_loss": 0.6195517182350159,
+      "eval_runtime": 23.9125,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 576
+    },
+    {
+      "epoch": 7.64,
+      "eval_loss": 0.6192638278007507,
+      "eval_runtime": 23.9168,
+      "eval_samples_per_second": 125.435,
+      "eval_steps_per_second": 3.93,
+      "step": 579
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 4.576043068640646e-05,
+      "loss": 0.5922,
+      "step": 580
+    },
+    {
+      "epoch": 7.68,
+      "eval_loss": 0.6196587085723877,
+      "eval_runtime": 23.9305,
+      "eval_samples_per_second": 125.363,
+      "eval_steps_per_second": 3.928,
+      "step": 582
+    },
+    {
+      "epoch": 7.72,
+      "eval_loss": 0.6198856830596924,
+      "eval_runtime": 23.919,
+      "eval_samples_per_second": 125.423,
+      "eval_steps_per_second": 3.93,
+      "step": 585
+    },
+    {
+      "epoch": 7.76,
+      "eval_loss": 0.6196783781051636,
+      "eval_runtime": 23.9042,
+      "eval_samples_per_second": 125.501,
+      "eval_steps_per_second": 3.932,
+      "step": 588
+    },
+    {
+      "epoch": 7.8,
+      "eval_loss": 0.6192678809165955,
+      "eval_runtime": 23.9057,
+      "eval_samples_per_second": 125.493,
+      "eval_steps_per_second": 3.932,
+      "step": 591
+    },
+    {
+      "epoch": 7.84,
+      "eval_loss": 0.6192264556884766,
+      "eval_runtime": 23.909,
+      "eval_samples_per_second": 125.476,
+      "eval_steps_per_second": 3.932,
+      "step": 594
+    },
+    {
+      "epoch": 7.88,
+      "eval_loss": 0.6192458271980286,
+      "eval_runtime": 23.8917,
+      "eval_samples_per_second": 125.567,
+      "eval_steps_per_second": 3.934,
+      "step": 597
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 4.037685060565276e-05,
+      "loss": 0.6028,
+      "step": 600
+    },
+    {
+      "epoch": 7.92,
+      "eval_loss": 0.6192883849143982,
+      "eval_runtime": 23.9005,
+      "eval_samples_per_second": 125.521,
+      "eval_steps_per_second": 3.933,
+      "step": 600
+    },
+    {
+      "epoch": 7.96,
+      "eval_loss": 0.6194872856140137,
+      "eval_runtime": 23.9118,
+      "eval_samples_per_second": 125.461,
+      "eval_steps_per_second": 3.931,
+      "step": 603
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.619368314743042,
+      "eval_runtime": 23.9121,
+      "eval_samples_per_second": 125.46,
+      "eval_steps_per_second": 3.931,
+      "step": 606
+    },
+    {
+      "epoch": 8.04,
+      "eval_loss": 0.6190740466117859,
+      "eval_runtime": 23.9192,
+      "eval_samples_per_second": 125.422,
+      "eval_steps_per_second": 3.93,
+      "step": 609
+    },
+    {
+      "epoch": 8.08,
+      "eval_loss": 0.6190269589424133,
+      "eval_runtime": 23.916,
+      "eval_samples_per_second": 125.439,
+      "eval_steps_per_second": 3.93,
+      "step": 612
+    },
+    {
+      "epoch": 8.12,
+      "eval_loss": 0.6189839839935303,
+      "eval_runtime": 23.9063,
+      "eval_samples_per_second": 125.49,
+      "eval_steps_per_second": 3.932,
+      "step": 615
+    },
+    {
+      "epoch": 8.16,
+      "eval_loss": 0.618523895740509,
+      "eval_runtime": 23.8928,
+      "eval_samples_per_second": 125.561,
+      "eval_steps_per_second": 3.934,
+      "step": 618
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 3.499327052489906e-05,
+      "loss": 0.5941,
+      "step": 620
+    },
+    {
+      "epoch": 8.19,
+      "eval_loss": 0.6187476515769958,
+      "eval_runtime": 23.9016,
+      "eval_samples_per_second": 125.515,
+      "eval_steps_per_second": 3.933,
+      "step": 621
+    },
+    {
+      "epoch": 8.23,
+      "eval_loss": 0.6186578869819641,
+      "eval_runtime": 23.9003,
+      "eval_samples_per_second": 125.521,
+      "eval_steps_per_second": 3.933,
+      "step": 624
+    },
+    {
+      "epoch": 8.27,
+      "eval_loss": 0.6190162897109985,
+      "eval_runtime": 23.9155,
+      "eval_samples_per_second": 125.442,
+      "eval_steps_per_second": 3.931,
+      "step": 627
+    },
+    {
+      "epoch": 8.31,
+      "eval_loss": 0.6189883351325989,
+      "eval_runtime": 23.9091,
+      "eval_samples_per_second": 125.475,
+      "eval_steps_per_second": 3.932,
+      "step": 630
+    },
+    {
+      "epoch": 8.35,
+      "eval_loss": 0.6184096932411194,
+      "eval_runtime": 23.9042,
+      "eval_samples_per_second": 125.501,
+      "eval_steps_per_second": 3.932,
+      "step": 633
+    },
+    {
+      "epoch": 8.39,
+      "eval_loss": 0.6180031895637512,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 636
+    },
+    {
+      "epoch": 8.43,
+      "eval_loss": 0.6179867386817932,
+      "eval_runtime": 23.922,
+      "eval_samples_per_second": 125.407,
+      "eval_steps_per_second": 3.929,
+      "step": 639
+    },
+    {
+      "epoch": 8.45,
+      "learning_rate": 2.960969044414536e-05,
+      "loss": 0.5906,
+      "step": 640
+    },
+    {
+      "epoch": 8.47,
+      "eval_loss": 0.6182823777198792,
+      "eval_runtime": 23.9158,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 642
+    },
+    {
+      "epoch": 8.51,
+      "eval_loss": 0.6179353594779968,
+      "eval_runtime": 23.914,
+      "eval_samples_per_second": 125.45,
+      "eval_steps_per_second": 3.931,
+      "step": 645
+    },
+    {
+      "epoch": 8.55,
+      "eval_loss": 0.6178385615348816,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.482,
+      "eval_steps_per_second": 3.932,
+      "step": 648
+    },
+    {
+      "epoch": 8.59,
+      "eval_loss": 0.6179868578910828,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 651
+    },
+    {
+      "epoch": 8.63,
+      "eval_loss": 0.6179595589637756,
+      "eval_runtime": 23.9327,
+      "eval_samples_per_second": 125.352,
+      "eval_steps_per_second": 3.928,
+      "step": 654
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 0.6177854537963867,
+      "eval_runtime": 23.9123,
+      "eval_samples_per_second": 125.458,
+      "eval_steps_per_second": 3.931,
+      "step": 657
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 2.422611036339166e-05,
+      "loss": 0.5908,
+      "step": 660
+    },
+    {
+      "epoch": 8.71,
+      "eval_loss": 0.6179735064506531,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 660
+    },
+    {
+      "epoch": 8.75,
+      "eval_loss": 0.6180996298789978,
+      "eval_runtime": 23.9038,
+      "eval_samples_per_second": 125.503,
+      "eval_steps_per_second": 3.932,
+      "step": 663
+    },
+    {
+      "epoch": 8.79,
+      "eval_loss": 0.6181532740592957,
+      "eval_runtime": 23.9058,
+      "eval_samples_per_second": 125.492,
+      "eval_steps_per_second": 3.932,
+      "step": 666
+    },
+    {
+      "epoch": 8.83,
+      "eval_loss": 0.6176265478134155,
+      "eval_runtime": 23.9128,
+      "eval_samples_per_second": 125.456,
+      "eval_steps_per_second": 3.931,
+      "step": 669
+    },
+    {
+      "epoch": 8.87,
+      "eval_loss": 0.617388904094696,
+      "eval_runtime": 23.8906,
+      "eval_samples_per_second": 125.572,
+      "eval_steps_per_second": 3.935,
+      "step": 672
+    },
+    {
+      "epoch": 8.91,
+      "eval_loss": 0.6174699068069458,
+      "eval_runtime": 23.9051,
+      "eval_samples_per_second": 125.496,
+      "eval_steps_per_second": 3.932,
+      "step": 675
+    },
+    {
+      "epoch": 8.95,
+      "eval_loss": 0.6174932718276978,
+      "eval_runtime": 23.8969,
+      "eval_samples_per_second": 125.54,
+      "eval_steps_per_second": 3.934,
+      "step": 678
+    },
+    {
+      "epoch": 8.97,
+      "learning_rate": 1.8842530282637954e-05,
+      "loss": 0.5937,
+      "step": 680
+    },
+    {
+      "epoch": 8.99,
+      "eval_loss": 0.6174784898757935,
+      "eval_runtime": 23.9056,
+      "eval_samples_per_second": 125.494,
+      "eval_steps_per_second": 3.932,
+      "step": 681
+    },
+    {
+      "epoch": 9.03,
+      "eval_loss": 0.6175104975700378,
+      "eval_runtime": 23.9136,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 684
+    },
+    {
+      "epoch": 9.07,
+      "eval_loss": 0.6173563599586487,
+      "eval_runtime": 23.9237,
+      "eval_samples_per_second": 125.399,
+      "eval_steps_per_second": 3.929,
+      "step": 687
+    },
+    {
+      "epoch": 9.11,
+      "eval_loss": 0.6172643899917603,
+      "eval_runtime": 23.9021,
+      "eval_samples_per_second": 125.512,
+      "eval_steps_per_second": 3.933,
+      "step": 690
+    },
+    {
+      "epoch": 9.14,
+      "eval_loss": 0.6172318458557129,
+      "eval_runtime": 23.9242,
+      "eval_samples_per_second": 125.396,
+      "eval_steps_per_second": 3.929,
+      "step": 693
+    },
+    {
+      "epoch": 9.18,
+      "eval_loss": 0.617030680179596,
+      "eval_runtime": 23.9184,
+      "eval_samples_per_second": 125.427,
+      "eval_steps_per_second": 3.93,
+      "step": 696
+    },
+    {
+      "epoch": 9.22,
+      "eval_loss": 0.6169764995574951,
+      "eval_runtime": 23.9104,
+      "eval_samples_per_second": 125.468,
+      "eval_steps_per_second": 3.931,
+      "step": 699
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 1.3458950201884254e-05,
+      "loss": 0.5867,
+      "step": 700
+    },
+    {
+      "epoch": 9.26,
+      "eval_loss": 0.6171083450317383,
+      "eval_runtime": 23.9126,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 702
+    },
+    {
+      "epoch": 9.3,
+      "eval_loss": 0.6171473860740662,
+      "eval_runtime": 23.9015,
+      "eval_samples_per_second": 125.515,
+      "eval_steps_per_second": 3.933,
+      "step": 705
+    },
+    {
+      "epoch": 9.34,
+      "eval_loss": 0.6170982122421265,
+      "eval_runtime": 23.9023,
+      "eval_samples_per_second": 125.511,
+      "eval_steps_per_second": 3.933,
+      "step": 708
+    },
+    {
+      "epoch": 9.38,
+      "eval_loss": 0.6169420480728149,
+      "eval_runtime": 23.9074,
+      "eval_samples_per_second": 125.484,
+      "eval_steps_per_second": 3.932,
+      "step": 711
+    },
+    {
+      "epoch": 9.42,
+      "eval_loss": 0.6168730854988098,
+      "eval_runtime": 23.9047,
+      "eval_samples_per_second": 125.498,
+      "eval_steps_per_second": 3.932,
+      "step": 714
+    },
+    {
+      "epoch": 9.46,
+      "eval_loss": 0.6168663501739502,
+      "eval_runtime": 23.9161,
+      "eval_samples_per_second": 125.439,
+      "eval_steps_per_second": 3.93,
+      "step": 717
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 8.075370121130552e-06,
+      "loss": 0.5891,
+      "step": 720
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.6167708039283752,
+      "eval_runtime": 23.9114,
+      "eval_samples_per_second": 125.463,
+      "eval_steps_per_second": 3.931,
+      "step": 720
+    },
+    {
+      "epoch": 9.54,
+      "eval_loss": 0.6167441010475159,
+      "eval_runtime": 23.9086,
+      "eval_samples_per_second": 125.478,
+      "eval_steps_per_second": 3.932,
+      "step": 723
+    }
+  ],
+  "max_steps": 750,
+  "num_train_epochs": 10,
+  "total_flos": 7.640934816744997e+18,
+  "trial_name": null,
+  "trial_params": null
+}

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5a386ce8addef927bca0e390e9534e0877a3e4e00f222f83967dd78c49527a
+size 4027

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/adapter_config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "base_model_name_or_path": "/mnt/data1/sheshuaijie/Data/PLM/vicuna-7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5e1621f48d9ad8feb1d6d31050275f0aafd080c5c07153301fe2f48411f4406
+size 443

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea0e58084f5c10cf3198c266194c6df608b78ef7e6bec56f2f2b2f79df7e8203
+size 134293701

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:839608048df3cb485a5a46df3fefc629f75b7a28bc82368b2b0a3f241428230a
+size 67154893

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:662a8264d6501814b20daf7fc26f37adcc57cdcddf3f93b6635ccf090850f087
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da501a848bbcc5c6d41d8d84bf7b38dac81809aa86b59f1ccf322ab2ea71ea07
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c884cfa9665b1300551525efbbf6b6a770236f7c0054643e8504b79dc00b8df
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17fa542e5ca43798e13f106972566af70af0bf43dd5709d5b87e499a7242fcdc
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:85ae2de3ba224920992db9fbe1ca60ba4dc264aff58b35933f515fc1ba4b30c1
+size 557

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cad30e23141c113d7a635066ba568eb5da726ce1057d35c2c89d31da5cfb390
+size 627

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2200 @@

+{
+  "best_metric": 0.6167441010475159,
+  "best_model_checkpoint": "/mnt/data1/sheshuaijie/Output/CoT/Trained/vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723",
+  "epoch": 9.738556701030928,
+  "global_step": 738,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.7524008750915527,
+      "eval_runtime": 23.7951,
+      "eval_samples_per_second": 126.077,
+      "eval_steps_per_second": 3.95,
+      "step": 3
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 1.5515066385269165,
+      "eval_runtime": 23.828,
+      "eval_samples_per_second": 125.902,
+      "eval_steps_per_second": 3.945,
+      "step": 6
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 1.3584641218185425,
+      "eval_runtime": 23.8775,
+      "eval_samples_per_second": 125.641,
+      "eval_steps_per_second": 3.937,
+      "step": 9
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.2644726037979126,
+      "eval_runtime": 23.8942,
+      "eval_samples_per_second": 125.554,
+      "eval_steps_per_second": 3.934,
+      "step": 12
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.166400671005249,
+      "eval_runtime": 23.9181,
+      "eval_samples_per_second": 125.428,
+      "eval_steps_per_second": 3.93,
+      "step": 15
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.1086052656173706,
+      "eval_runtime": 23.9166,
+      "eval_samples_per_second": 125.436,
+      "eval_steps_per_second": 3.93,
+      "step": 18
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019650067294751011,
+      "loss": 1.4265,
+      "step": 20
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.0677987337112427,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 21
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.0342437028884888,
+      "eval_runtime": 23.9046,
+      "eval_samples_per_second": 125.499,
+      "eval_steps_per_second": 3.932,
+      "step": 24
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.9985266923904419,
+      "eval_runtime": 23.9037,
+      "eval_samples_per_second": 125.504,
+      "eval_steps_per_second": 3.932,
+      "step": 27
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.9654523134231567,
+      "eval_runtime": 23.9129,
+      "eval_samples_per_second": 125.455,
+      "eval_steps_per_second": 3.931,
+      "step": 30
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.939262866973877,
+      "eval_runtime": 23.9117,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 33
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.9186767339706421,
+      "eval_runtime": 23.9011,
+      "eval_samples_per_second": 125.517,
+      "eval_steps_per_second": 3.933,
+      "step": 36
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.8969741463661194,
+      "eval_runtime": 23.9105,
+      "eval_samples_per_second": 125.468,
+      "eval_steps_per_second": 3.931,
+      "step": 39
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00019111709286675642,
+      "loss": 0.9923,
+      "step": 40
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.8814375996589661,
+      "eval_runtime": 23.9154,
+      "eval_samples_per_second": 125.442,
+      "eval_steps_per_second": 3.931,
+      "step": 42
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 0.8654683232307434,
+      "eval_runtime": 23.9108,
+      "eval_samples_per_second": 125.466,
+      "eval_steps_per_second": 3.931,
+      "step": 45
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.852226734161377,
+      "eval_runtime": 23.9186,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 48
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.839223325252533,
+      "eval_runtime": 23.9074,
+      "eval_samples_per_second": 125.484,
+      "eval_steps_per_second": 3.932,
+      "step": 51
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.8266379237174988,
+      "eval_runtime": 23.9399,
+      "eval_samples_per_second": 125.314,
+      "eval_steps_per_second": 3.926,
+      "step": 54
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.8140417337417603,
+      "eval_runtime": 23.9355,
+      "eval_samples_per_second": 125.337,
+      "eval_steps_per_second": 3.927,
+      "step": 57
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001857335127860027,
+      "loss": 0.8611,
+      "step": 60
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.8019057512283325,
+      "eval_runtime": 23.9223,
+      "eval_samples_per_second": 125.406,
+      "eval_steps_per_second": 3.929,
+      "step": 60
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.7907609343528748,
+      "eval_runtime": 23.9384,
+      "eval_samples_per_second": 125.322,
+      "eval_steps_per_second": 3.927,
+      "step": 63
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.7791212797164917,
+      "eval_runtime": 23.9101,
+      "eval_samples_per_second": 125.47,
+      "eval_steps_per_second": 3.931,
+      "step": 66
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.7694615125656128,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 69
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.7602358460426331,
+      "eval_runtime": 23.9116,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 72
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 0.753226101398468,
+      "eval_runtime": 23.9242,
+      "eval_samples_per_second": 125.396,
+      "eval_steps_per_second": 3.929,
+      "step": 75
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.7466432452201843,
+      "eval_runtime": 23.9116,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 78
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.000180349932705249,
+      "loss": 0.7843,
+      "step": 80
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.7416810989379883,
+      "eval_runtime": 23.9171,
+      "eval_samples_per_second": 125.433,
+      "eval_steps_per_second": 3.93,
+      "step": 81
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 0.7362396121025085,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 84
+    },
+    {
+      "epoch": 1.15,
+      "eval_loss": 0.7297741174697876,
+      "eval_runtime": 23.9084,
+      "eval_samples_per_second": 125.479,
+      "eval_steps_per_second": 3.932,
+      "step": 87
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.7252654433250427,
+      "eval_runtime": 23.9206,
+      "eval_samples_per_second": 125.415,
+      "eval_steps_per_second": 3.93,
+      "step": 90
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.7213409543037415,
+      "eval_runtime": 23.9179,
+      "eval_samples_per_second": 125.429,
+      "eval_steps_per_second": 3.93,
+      "step": 93
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.7174035906791687,
+      "eval_runtime": 23.9354,
+      "eval_samples_per_second": 125.337,
+      "eval_steps_per_second": 3.927,
+      "step": 96
+    },
+    {
+      "epoch": 1.31,
+      "eval_loss": 0.7140380144119263,
+      "eval_runtime": 23.9214,
+      "eval_samples_per_second": 125.411,
+      "eval_steps_per_second": 3.93,
+      "step": 99
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001749663526244953,
+      "loss": 0.7301,
+      "step": 100
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.7104487419128418,
+      "eval_runtime": 23.9093,
+      "eval_samples_per_second": 125.474,
+      "eval_steps_per_second": 3.932,
+      "step": 102
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.7067868113517761,
+      "eval_runtime": 23.9129,
+      "eval_samples_per_second": 125.455,
+      "eval_steps_per_second": 3.931,
+      "step": 105
+    },
+    {
+      "epoch": 1.43,
+      "eval_loss": 0.7041762471199036,
+      "eval_runtime": 23.9161,
+      "eval_samples_per_second": 125.439,
+      "eval_steps_per_second": 3.93,
+      "step": 108
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 0.7013522982597351,
+      "eval_runtime": 23.9133,
+      "eval_samples_per_second": 125.453,
+      "eval_steps_per_second": 3.931,
+      "step": 111
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.6989504098892212,
+      "eval_runtime": 23.9152,
+      "eval_samples_per_second": 125.443,
+      "eval_steps_per_second": 3.931,
+      "step": 114
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.6974085569381714,
+      "eval_runtime": 23.9561,
+      "eval_samples_per_second": 125.229,
+      "eval_steps_per_second": 3.924,
+      "step": 117
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0001695827725437416,
+      "loss": 0.7141,
+      "step": 120
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.6944894194602966,
+      "eval_runtime": 23.902,
+      "eval_samples_per_second": 125.512,
+      "eval_steps_per_second": 3.933,
+      "step": 120
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 0.6929482221603394,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 123
+    },
+    {
+      "epoch": 1.66,
+      "eval_loss": 0.6903366446495056,
+      "eval_runtime": 23.9061,
+      "eval_samples_per_second": 125.491,
+      "eval_steps_per_second": 3.932,
+      "step": 126
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.6882749199867249,
+      "eval_runtime": 23.9181,
+      "eval_samples_per_second": 125.428,
+      "eval_steps_per_second": 3.93,
+      "step": 129
+    },
+    {
+      "epoch": 1.74,
+      "eval_loss": 0.6863100528717041,
+      "eval_runtime": 23.914,
+      "eval_samples_per_second": 125.45,
+      "eval_steps_per_second": 3.931,
+      "step": 132
+    },
+    {
+      "epoch": 1.78,
+      "eval_loss": 0.6860549449920654,
+      "eval_runtime": 23.9138,
+      "eval_samples_per_second": 125.45,
+      "eval_steps_per_second": 3.931,
+      "step": 135
+    },
+    {
+      "epoch": 1.82,
+      "eval_loss": 0.6831715703010559,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 138
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0001641991924629879,
+      "loss": 0.6902,
+      "step": 140
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.6819499731063843,
+      "eval_runtime": 23.8986,
+      "eval_samples_per_second": 125.53,
+      "eval_steps_per_second": 3.933,
+      "step": 141
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.6807693839073181,
+      "eval_runtime": 23.9169,
+      "eval_samples_per_second": 125.434,
+      "eval_steps_per_second": 3.93,
+      "step": 144
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 0.6787669062614441,
+      "eval_runtime": 23.9265,
+      "eval_samples_per_second": 125.384,
+      "eval_steps_per_second": 3.929,
+      "step": 147
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.6773442625999451,
+      "eval_runtime": 23.9274,
+      "eval_samples_per_second": 125.38,
+      "eval_steps_per_second": 3.929,
+      "step": 150
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.6759281158447266,
+      "eval_runtime": 23.9386,
+      "eval_samples_per_second": 125.321,
+      "eval_steps_per_second": 3.927,
+      "step": 153
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.6743582487106323,
+      "eval_runtime": 23.9323,
+      "eval_samples_per_second": 125.354,
+      "eval_steps_per_second": 3.928,
+      "step": 156
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.6732926368713379,
+      "eval_runtime": 23.9145,
+      "eval_samples_per_second": 125.447,
+      "eval_steps_per_second": 3.931,
+      "step": 159
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0001588156123822342,
+      "loss": 0.6766,
+      "step": 160
+    },
+    {
+      "epoch": 2.14,
+      "eval_loss": 0.6721953749656677,
+      "eval_runtime": 23.9073,
+      "eval_samples_per_second": 125.485,
+      "eval_steps_per_second": 3.932,
+      "step": 162
+    },
+    {
+      "epoch": 2.18,
+      "eval_loss": 0.6714429259300232,
+      "eval_runtime": 23.8955,
+      "eval_samples_per_second": 125.547,
+      "eval_steps_per_second": 3.934,
+      "step": 165
+    },
+    {
+      "epoch": 2.22,
+      "eval_loss": 0.670035183429718,
+      "eval_runtime": 23.9431,
+      "eval_samples_per_second": 125.297,
+      "eval_steps_per_second": 3.926,
+      "step": 168
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 0.6695354580879211,
+      "eval_runtime": 23.8875,
+      "eval_samples_per_second": 125.589,
+      "eval_steps_per_second": 3.935,
+      "step": 171
+    },
+    {
+      "epoch": 2.3,
+      "eval_loss": 0.6689226031303406,
+      "eval_runtime": 23.9185,
+      "eval_samples_per_second": 125.426,
+      "eval_steps_per_second": 3.93,
+      "step": 174
+    },
+    {
+      "epoch": 2.34,
+      "eval_loss": 0.6674054861068726,
+      "eval_runtime": 23.941,
+      "eval_samples_per_second": 125.308,
+      "eval_steps_per_second": 3.926,
+      "step": 177
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00015343203230148048,
+      "loss": 0.6743,
+      "step": 180
+    },
+    {
+      "epoch": 2.38,
+      "eval_loss": 0.6664847731590271,
+      "eval_runtime": 23.9211,
+      "eval_samples_per_second": 125.412,
+      "eval_steps_per_second": 3.93,
+      "step": 180
+    },
+    {
+      "epoch": 2.41,
+      "eval_loss": 0.6658627986907959,
+      "eval_runtime": 23.9247,
+      "eval_samples_per_second": 125.394,
+      "eval_steps_per_second": 3.929,
+      "step": 183
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 0.664908766746521,
+      "eval_runtime": 23.9272,
+      "eval_samples_per_second": 125.38,
+      "eval_steps_per_second": 3.929,
+      "step": 186
+    },
+    {
+      "epoch": 2.49,
+      "eval_loss": 0.6638036966323853,
+      "eval_runtime": 23.9187,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 189
+    },
+    {
+      "epoch": 2.53,
+      "eval_loss": 0.6625837683677673,
+      "eval_runtime": 23.9033,
+      "eval_samples_per_second": 125.506,
+      "eval_steps_per_second": 3.933,
+      "step": 192
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.6619511842727661,
+      "eval_runtime": 23.8973,
+      "eval_samples_per_second": 125.537,
+      "eval_steps_per_second": 3.934,
+      "step": 195
+    },
+    {
+      "epoch": 2.61,
+      "eval_loss": 0.6611769199371338,
+      "eval_runtime": 23.9129,
+      "eval_samples_per_second": 125.455,
+      "eval_steps_per_second": 3.931,
+      "step": 198
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00014804845222072678,
+      "loss": 0.6615,
+      "step": 200
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.6606143116950989,
+      "eval_runtime": 23.9126,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 201
+    },
+    {
+      "epoch": 2.69,
+      "eval_loss": 0.6589743494987488,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 204
+    },
+    {
+      "epoch": 2.73,
+      "eval_loss": 0.6578481197357178,
+      "eval_runtime": 23.9217,
+      "eval_samples_per_second": 125.409,
+      "eval_steps_per_second": 3.929,
+      "step": 207
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 0.6571096181869507,
+      "eval_runtime": 23.9415,
+      "eval_samples_per_second": 125.305,
+      "eval_steps_per_second": 3.926,
+      "step": 210
+    },
+    {
+      "epoch": 2.81,
+      "eval_loss": 0.656689465045929,
+      "eval_runtime": 23.9111,
+      "eval_samples_per_second": 125.465,
+      "eval_steps_per_second": 3.931,
+      "step": 213
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.6556207537651062,
+      "eval_runtime": 23.9099,
+      "eval_samples_per_second": 125.471,
+      "eval_steps_per_second": 3.931,
+      "step": 216
+    },
+    {
+      "epoch": 2.89,
+      "eval_loss": 0.6546627283096313,
+      "eval_runtime": 23.9164,
+      "eval_samples_per_second": 125.437,
+      "eval_steps_per_second": 3.93,
+      "step": 219
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0001426648721399731,
+      "loss": 0.6564,
+      "step": 220
+    },
+    {
+      "epoch": 2.93,
+      "eval_loss": 0.6539400815963745,
+      "eval_runtime": 23.906,
+      "eval_samples_per_second": 125.492,
+      "eval_steps_per_second": 3.932,
+      "step": 222
+    },
+    {
+      "epoch": 2.97,
+      "eval_loss": 0.653684675693512,
+      "eval_runtime": 23.9251,
+      "eval_samples_per_second": 125.391,
+      "eval_steps_per_second": 3.929,
+      "step": 225
+    },
+    {
+      "epoch": 3.01,
+      "eval_loss": 0.6526629328727722,
+      "eval_runtime": 23.9289,
+      "eval_samples_per_second": 125.371,
+      "eval_steps_per_second": 3.928,
+      "step": 228
+    },
+    {
+      "epoch": 3.05,
+      "eval_loss": 0.6525079011917114,
+      "eval_runtime": 23.9193,
+      "eval_samples_per_second": 125.421,
+      "eval_steps_per_second": 3.93,
+      "step": 231
+    },
+    {
+      "epoch": 3.09,
+      "eval_loss": 0.6514959931373596,
+      "eval_runtime": 23.9574,
+      "eval_samples_per_second": 125.223,
+      "eval_steps_per_second": 3.924,
+      "step": 234
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.6507047414779663,
+      "eval_runtime": 23.9234,
+      "eval_samples_per_second": 125.4,
+      "eval_steps_per_second": 3.929,
+      "step": 237
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 0.00013728129205921937,
+      "loss": 0.6469,
+      "step": 240
+    },
+    {
+      "epoch": 3.17,
+      "eval_loss": 0.6504186391830444,
+      "eval_runtime": 23.937,
+      "eval_samples_per_second": 125.329,
+      "eval_steps_per_second": 3.927,
+      "step": 240
+    },
+    {
+      "epoch": 3.21,
+      "eval_loss": 0.6495808959007263,
+      "eval_runtime": 23.9188,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 243
+    },
+    {
+      "epoch": 3.25,
+      "eval_loss": 0.649512529373169,
+      "eval_runtime": 23.9209,
+      "eval_samples_per_second": 125.413,
+      "eval_steps_per_second": 3.93,
+      "step": 246
+    },
+    {
+      "epoch": 3.29,
+      "eval_loss": 0.648629903793335,
+      "eval_runtime": 23.9137,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 249
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 0.6480894088745117,
+      "eval_runtime": 23.919,
+      "eval_samples_per_second": 125.423,
+      "eval_steps_per_second": 3.93,
+      "step": 252
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.6474400758743286,
+      "eval_runtime": 23.9076,
+      "eval_samples_per_second": 125.483,
+      "eval_steps_per_second": 3.932,
+      "step": 255
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 0.6468291878700256,
+      "eval_runtime": 23.9305,
+      "eval_samples_per_second": 125.363,
+      "eval_steps_per_second": 3.928,
+      "step": 258
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 0.00013189771197846567,
+      "loss": 0.6463,
+      "step": 260
+    },
+    {
+      "epoch": 3.44,
+      "eval_loss": 0.6462663412094116,
+      "eval_runtime": 23.9359,
+      "eval_samples_per_second": 125.335,
+      "eval_steps_per_second": 3.927,
+      "step": 261
+    },
+    {
+      "epoch": 3.48,
+      "eval_loss": 0.6458565592765808,
+      "eval_runtime": 23.929,
+      "eval_samples_per_second": 125.371,
+      "eval_steps_per_second": 3.928,
+      "step": 264
+    },
+    {
+      "epoch": 3.52,
+      "eval_loss": 0.645412266254425,
+      "eval_runtime": 23.9362,
+      "eval_samples_per_second": 125.333,
+      "eval_steps_per_second": 3.927,
+      "step": 267
+    },
+    {
+      "epoch": 3.56,
+      "eval_loss": 0.6449554562568665,
+      "eval_runtime": 23.9004,
+      "eval_samples_per_second": 125.521,
+      "eval_steps_per_second": 3.933,
+      "step": 270
+    },
+    {
+      "epoch": 3.6,
+      "eval_loss": 0.6443325281143188,
+      "eval_runtime": 23.9065,
+      "eval_samples_per_second": 125.489,
+      "eval_steps_per_second": 3.932,
+      "step": 273
+    },
+    {
+      "epoch": 3.64,
+      "eval_loss": 0.6435034871101379,
+      "eval_runtime": 23.9072,
+      "eval_samples_per_second": 125.485,
+      "eval_steps_per_second": 3.932,
+      "step": 276
+    },
+    {
+      "epoch": 3.68,
+      "eval_loss": 0.6433733701705933,
+      "eval_runtime": 23.9042,
+      "eval_samples_per_second": 125.501,
+      "eval_steps_per_second": 3.932,
+      "step": 279
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 0.00012651413189771198,
+      "loss": 0.6389,
+      "step": 280
+    },
+    {
+      "epoch": 3.72,
+      "eval_loss": 0.6425070762634277,
+      "eval_runtime": 23.8874,
+      "eval_samples_per_second": 125.589,
+      "eval_steps_per_second": 3.935,
+      "step": 282
+    },
+    {
+      "epoch": 3.76,
+      "eval_loss": 0.642119288444519,
+      "eval_runtime": 23.9328,
+      "eval_samples_per_second": 125.351,
+      "eval_steps_per_second": 3.928,
+      "step": 285
+    },
+    {
+      "epoch": 3.8,
+      "eval_loss": 0.641748309135437,
+      "eval_runtime": 23.9294,
+      "eval_samples_per_second": 125.369,
+      "eval_steps_per_second": 3.928,
+      "step": 288
+    },
+    {
+      "epoch": 3.84,
+      "eval_loss": 0.640826404094696,
+      "eval_runtime": 23.9434,
+      "eval_samples_per_second": 125.296,
+      "eval_steps_per_second": 3.926,
+      "step": 291
+    },
+    {
+      "epoch": 3.88,
+      "eval_loss": 0.6402388215065002,
+      "eval_runtime": 23.9162,
+      "eval_samples_per_second": 125.438,
+      "eval_steps_per_second": 3.93,
+      "step": 294
+    },
+    {
+      "epoch": 3.92,
+      "eval_loss": 0.6407353281974792,
+      "eval_runtime": 23.9121,
+      "eval_samples_per_second": 125.46,
+      "eval_steps_per_second": 3.931,
+      "step": 297
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 0.0001211305518169583,
+      "loss": 0.6318,
+      "step": 300
+    },
+    {
+      "epoch": 3.96,
+      "eval_loss": 0.6398600935935974,
+      "eval_runtime": 23.9229,
+      "eval_samples_per_second": 125.403,
+      "eval_steps_per_second": 3.929,
+      "step": 300
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.6393464207649231,
+      "eval_runtime": 23.9187,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 303
+    },
+    {
+      "epoch": 4.04,
+      "eval_loss": 0.6392526626586914,
+      "eval_runtime": 23.9074,
+      "eval_samples_per_second": 125.484,
+      "eval_steps_per_second": 3.932,
+      "step": 306
+    },
+    {
+      "epoch": 4.08,
+      "eval_loss": 0.6389594078063965,
+      "eval_runtime": 23.918,
+      "eval_samples_per_second": 125.428,
+      "eval_steps_per_second": 3.93,
+      "step": 309
+    },
+    {
+      "epoch": 4.12,
+      "eval_loss": 0.6388808488845825,
+      "eval_runtime": 23.9158,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 312
+    },
+    {
+      "epoch": 4.16,
+      "eval_loss": 0.6384025812149048,
+      "eval_runtime": 23.9176,
+      "eval_samples_per_second": 125.431,
+      "eval_steps_per_second": 3.93,
+      "step": 315
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 0.6387144923210144,
+      "eval_runtime": 23.9047,
+      "eval_samples_per_second": 125.498,
+      "eval_steps_per_second": 3.932,
+      "step": 318
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 0.00011574697173620459,
+      "loss": 0.6277,
+      "step": 320
+    },
+    {
+      "epoch": 4.24,
+      "eval_loss": 0.6377059817314148,
+      "eval_runtime": 23.9246,
+      "eval_samples_per_second": 125.394,
+      "eval_steps_per_second": 3.929,
+      "step": 321
+    },
+    {
+      "epoch": 4.28,
+      "eval_loss": 0.636981189250946,
+      "eval_runtime": 23.9459,
+      "eval_samples_per_second": 125.283,
+      "eval_steps_per_second": 3.926,
+      "step": 324
+    },
+    {
+      "epoch": 4.32,
+      "eval_loss": 0.6364036202430725,
+      "eval_runtime": 23.9206,
+      "eval_samples_per_second": 125.415,
+      "eval_steps_per_second": 3.93,
+      "step": 327
+    },
+    {
+      "epoch": 4.35,
+      "eval_loss": 0.6357031464576721,
+      "eval_runtime": 23.9187,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 330
+    },
+    {
+      "epoch": 4.39,
+      "eval_loss": 0.6366411447525024,
+      "eval_runtime": 23.9159,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 333
+    },
+    {
+      "epoch": 4.43,
+      "eval_loss": 0.6357526183128357,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 336
+    },
+    {
+      "epoch": 4.47,
+      "eval_loss": 0.6349912881851196,
+      "eval_runtime": 23.9211,
+      "eval_samples_per_second": 125.412,
+      "eval_steps_per_second": 3.93,
+      "step": 339
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 0.00011036339165545088,
+      "loss": 0.6303,
+      "step": 340
+    },
+    {
+      "epoch": 4.51,
+      "eval_loss": 0.6343324184417725,
+      "eval_runtime": 23.927,
+      "eval_samples_per_second": 125.381,
+      "eval_steps_per_second": 3.929,
+      "step": 342
+    },
+    {
+      "epoch": 4.55,
+      "eval_loss": 0.6347218751907349,
+      "eval_runtime": 23.9489,
+      "eval_samples_per_second": 125.267,
+      "eval_steps_per_second": 3.925,
+      "step": 345
+    },
+    {
+      "epoch": 4.59,
+      "eval_loss": 0.6333290338516235,
+      "eval_runtime": 23.9573,
+      "eval_samples_per_second": 125.223,
+      "eval_steps_per_second": 3.924,
+      "step": 348
+    },
+    {
+      "epoch": 4.63,
+      "eval_loss": 0.6328045129776001,
+      "eval_runtime": 23.925,
+      "eval_samples_per_second": 125.392,
+      "eval_steps_per_second": 3.929,
+      "step": 351
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 0.6328830718994141,
+      "eval_runtime": 23.9277,
+      "eval_samples_per_second": 125.378,
+      "eval_steps_per_second": 3.928,
+      "step": 354
+    },
+    {
+      "epoch": 4.71,
+      "eval_loss": 0.6323109269142151,
+      "eval_runtime": 23.9385,
+      "eval_samples_per_second": 125.321,
+      "eval_steps_per_second": 3.927,
+      "step": 357
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 0.00010497981157469719,
+      "loss": 0.6268,
+      "step": 360
+    },
+    {
+      "epoch": 4.75,
+      "eval_loss": 0.6327587366104126,
+      "eval_runtime": 23.9389,
+      "eval_samples_per_second": 125.319,
+      "eval_steps_per_second": 3.927,
+      "step": 360
+    },
+    {
+      "epoch": 4.79,
+      "eval_loss": 0.6324266791343689,
+      "eval_runtime": 23.9367,
+      "eval_samples_per_second": 125.331,
+      "eval_steps_per_second": 3.927,
+      "step": 363
+    },
+    {
+      "epoch": 4.83,
+      "eval_loss": 0.6320524215698242,
+      "eval_runtime": 23.9373,
+      "eval_samples_per_second": 125.327,
+      "eval_steps_per_second": 3.927,
+      "step": 366
+    },
+    {
+      "epoch": 4.87,
+      "eval_loss": 0.6314539313316345,
+      "eval_runtime": 23.9325,
+      "eval_samples_per_second": 125.352,
+      "eval_steps_per_second": 3.928,
+      "step": 369
+    },
+    {
+      "epoch": 4.91,
+      "eval_loss": 0.6318089365959167,
+      "eval_runtime": 23.9345,
+      "eval_samples_per_second": 125.342,
+      "eval_steps_per_second": 3.927,
+      "step": 372
+    },
+    {
+      "epoch": 4.95,
+      "eval_loss": 0.6315808296203613,
+      "eval_runtime": 23.924,
+      "eval_samples_per_second": 125.397,
+      "eval_steps_per_second": 3.929,
+      "step": 375
+    },
+    {
+      "epoch": 4.99,
+      "eval_loss": 0.630818247795105,
+      "eval_runtime": 23.9285,
+      "eval_samples_per_second": 125.373,
+      "eval_steps_per_second": 3.928,
+      "step": 378
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 9.959623149394348e-05,
+      "loss": 0.6196,
+      "step": 380
+    },
+    {
+      "epoch": 5.03,
+      "eval_loss": 0.630248486995697,
+      "eval_runtime": 23.9231,
+      "eval_samples_per_second": 125.402,
+      "eval_steps_per_second": 3.929,
+      "step": 381
+    },
+    {
+      "epoch": 5.07,
+      "eval_loss": 0.6306143403053284,
+      "eval_runtime": 23.9242,
+      "eval_samples_per_second": 125.396,
+      "eval_steps_per_second": 3.929,
+      "step": 384
+    },
+    {
+      "epoch": 5.11,
+      "eval_loss": 0.6305729746818542,
+      "eval_runtime": 23.9232,
+      "eval_samples_per_second": 125.401,
+      "eval_steps_per_second": 3.929,
+      "step": 387
+    },
+    {
+      "epoch": 5.15,
+      "eval_loss": 0.6302648782730103,
+      "eval_runtime": 23.9286,
+      "eval_samples_per_second": 125.373,
+      "eval_steps_per_second": 3.928,
+      "step": 390
+    },
+    {
+      "epoch": 5.19,
+      "eval_loss": 0.6298710703849792,
+      "eval_runtime": 23.9258,
+      "eval_samples_per_second": 125.388,
+      "eval_steps_per_second": 3.929,
+      "step": 393
+    },
+    {
+      "epoch": 5.23,
+      "eval_loss": 0.6298263669013977,
+      "eval_runtime": 23.9284,
+      "eval_samples_per_second": 125.374,
+      "eval_steps_per_second": 3.928,
+      "step": 396
+    },
+    {
+      "epoch": 5.27,
+      "eval_loss": 0.6292470097541809,
+      "eval_runtime": 23.9269,
+      "eval_samples_per_second": 125.382,
+      "eval_steps_per_second": 3.929,
+      "step": 399
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 9.421265141318977e-05,
+      "loss": 0.6146,
+      "step": 400
+    },
+    {
+      "epoch": 5.3,
+      "eval_loss": 0.6291049122810364,
+      "eval_runtime": 23.9297,
+      "eval_samples_per_second": 125.367,
+      "eval_steps_per_second": 3.928,
+      "step": 402
+    },
+    {
+      "epoch": 5.34,
+      "eval_loss": 0.6296722292900085,
+      "eval_runtime": 23.9386,
+      "eval_samples_per_second": 125.321,
+      "eval_steps_per_second": 3.927,
+      "step": 405
+    },
+    {
+      "epoch": 5.38,
+      "eval_loss": 0.6288275122642517,
+      "eval_runtime": 23.9308,
+      "eval_samples_per_second": 125.362,
+      "eval_steps_per_second": 3.928,
+      "step": 408
+    },
+    {
+      "epoch": 5.42,
+      "eval_loss": 0.6288333535194397,
+      "eval_runtime": 23.9261,
+      "eval_samples_per_second": 125.386,
+      "eval_steps_per_second": 3.929,
+      "step": 411
+    },
+    {
+      "epoch": 5.46,
+      "eval_loss": 0.6279690861701965,
+      "eval_runtime": 23.9282,
+      "eval_samples_per_second": 125.375,
+      "eval_steps_per_second": 3.928,
+      "step": 414
+    },
+    {
+      "epoch": 5.5,
+      "eval_loss": 0.6275332570075989,
+      "eval_runtime": 23.9215,
+      "eval_samples_per_second": 125.41,
+      "eval_steps_per_second": 3.93,
+      "step": 417
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 8.882907133243608e-05,
+      "loss": 0.6149,
+      "step": 420
+    },
+    {
+      "epoch": 5.54,
+      "eval_loss": 0.6279338598251343,
+      "eval_runtime": 23.93,
+      "eval_samples_per_second": 125.366,
+      "eval_steps_per_second": 3.928,
+      "step": 420
+    },
+    {
+      "epoch": 5.58,
+      "eval_loss": 0.6271057724952698,
+      "eval_runtime": 23.9158,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 423
+    },
+    {
+      "epoch": 5.62,
+      "eval_loss": 0.6270298361778259,
+      "eval_runtime": 23.9264,
+      "eval_samples_per_second": 125.384,
+      "eval_steps_per_second": 3.929,
+      "step": 426
+    },
+    {
+      "epoch": 5.66,
+      "eval_loss": 0.6271407604217529,
+      "eval_runtime": 23.9362,
+      "eval_samples_per_second": 125.333,
+      "eval_steps_per_second": 3.927,
+      "step": 429
+    },
+    {
+      "epoch": 5.7,
+      "eval_loss": 0.6264240145683289,
+      "eval_runtime": 23.9309,
+      "eval_samples_per_second": 125.361,
+      "eval_steps_per_second": 3.928,
+      "step": 432
+    },
+    {
+      "epoch": 5.74,
+      "eval_loss": 0.6263339519500732,
+      "eval_runtime": 23.93,
+      "eval_samples_per_second": 125.366,
+      "eval_steps_per_second": 3.928,
+      "step": 435
+    },
+    {
+      "epoch": 5.78,
+      "eval_loss": 0.6256468296051025,
+      "eval_runtime": 23.9252,
+      "eval_samples_per_second": 125.391,
+      "eval_steps_per_second": 3.929,
+      "step": 438
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 8.344549125168237e-05,
+      "loss": 0.6191,
+      "step": 440
+    },
+    {
+      "epoch": 5.82,
+      "eval_loss": 0.6260586977005005,
+      "eval_runtime": 23.918,
+      "eval_samples_per_second": 125.429,
+      "eval_steps_per_second": 3.93,
+      "step": 441
+    },
+    {
+      "epoch": 5.86,
+      "eval_loss": 0.625337541103363,
+      "eval_runtime": 23.9172,
+      "eval_samples_per_second": 125.433,
+      "eval_steps_per_second": 3.93,
+      "step": 444
+    },
+    {
+      "epoch": 5.9,
+      "eval_loss": 0.6246620416641235,
+      "eval_runtime": 23.908,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 447
+    },
+    {
+      "epoch": 5.94,
+      "eval_loss": 0.6251673698425293,
+      "eval_runtime": 23.9137,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 450
+    },
+    {
+      "epoch": 5.98,
+      "eval_loss": 0.6253092288970947,
+      "eval_runtime": 23.9409,
+      "eval_samples_per_second": 125.309,
+      "eval_steps_per_second": 3.926,
+      "step": 453
+    },
+    {
+      "epoch": 6.02,
+      "eval_loss": 0.6245599389076233,
+      "eval_runtime": 23.9233,
+      "eval_samples_per_second": 125.401,
+      "eval_steps_per_second": 3.929,
+      "step": 456
+    },
+    {
+      "epoch": 6.06,
+      "eval_loss": 0.6247097849845886,
+      "eval_runtime": 23.9184,
+      "eval_samples_per_second": 125.426,
+      "eval_steps_per_second": 3.93,
+      "step": 459
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 7.806191117092868e-05,
+      "loss": 0.6075,
+      "step": 460
+    },
+    {
+      "epoch": 6.1,
+      "eval_loss": 0.6237714290618896,
+      "eval_runtime": 23.9137,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 462
+    },
+    {
+      "epoch": 6.14,
+      "eval_loss": 0.6239632964134216,
+      "eval_runtime": 23.9142,
+      "eval_samples_per_second": 125.449,
+      "eval_steps_per_second": 3.931,
+      "step": 465
+    },
+    {
+      "epoch": 6.18,
+      "eval_loss": 0.6246253252029419,
+      "eval_runtime": 23.9199,
+      "eval_samples_per_second": 125.419,
+      "eval_steps_per_second": 3.93,
+      "step": 468
+    },
+    {
+      "epoch": 6.22,
+      "eval_loss": 0.6236398220062256,
+      "eval_runtime": 23.9169,
+      "eval_samples_per_second": 125.434,
+      "eval_steps_per_second": 3.93,
+      "step": 471
+    },
+    {
+      "epoch": 6.25,
+      "eval_loss": 0.6242309808731079,
+      "eval_runtime": 23.9091,
+      "eval_samples_per_second": 125.475,
+      "eval_steps_per_second": 3.932,
+      "step": 474
+    },
+    {
+      "epoch": 6.29,
+      "eval_loss": 0.6236902475357056,
+      "eval_runtime": 23.9117,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 477
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 7.267833109017497e-05,
+      "loss": 0.6061,
+      "step": 480
+    },
+    {
+      "epoch": 6.33,
+      "eval_loss": 0.623267650604248,
+      "eval_runtime": 23.9071,
+      "eval_samples_per_second": 125.485,
+      "eval_steps_per_second": 3.932,
+      "step": 480
+    },
+    {
+      "epoch": 6.37,
+      "eval_loss": 0.6238719820976257,
+      "eval_runtime": 23.9206,
+      "eval_samples_per_second": 125.415,
+      "eval_steps_per_second": 3.93,
+      "step": 483
+    },
+    {
+      "epoch": 6.41,
+      "eval_loss": 0.6234752535820007,
+      "eval_runtime": 23.914,
+      "eval_samples_per_second": 125.449,
+      "eval_steps_per_second": 3.931,
+      "step": 486
+    },
+    {
+      "epoch": 6.45,
+      "eval_loss": 0.6228368878364563,
+      "eval_runtime": 23.9087,
+      "eval_samples_per_second": 125.477,
+      "eval_steps_per_second": 3.932,
+      "step": 489
+    },
+    {
+      "epoch": 6.49,
+      "eval_loss": 0.6226744055747986,
+      "eval_runtime": 23.9118,
+      "eval_samples_per_second": 125.461,
+      "eval_steps_per_second": 3.931,
+      "step": 492
+    },
+    {
+      "epoch": 6.53,
+      "eval_loss": 0.622622013092041,
+      "eval_runtime": 23.9341,
+      "eval_samples_per_second": 125.344,
+      "eval_steps_per_second": 3.927,
+      "step": 495
+    },
+    {
+      "epoch": 6.57,
+      "eval_loss": 0.6228298544883728,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.482,
+      "eval_steps_per_second": 3.932,
+      "step": 498
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 6.729475100942126e-05,
+      "loss": 0.6043,
+      "step": 500
+    },
+    {
+      "epoch": 6.61,
+      "eval_loss": 0.6232237815856934,
+      "eval_runtime": 23.8982,
+      "eval_samples_per_second": 125.533,
+      "eval_steps_per_second": 3.933,
+      "step": 501
+    },
+    {
+      "epoch": 6.65,
+      "eval_loss": 0.6218205690383911,
+      "eval_runtime": 23.9059,
+      "eval_samples_per_second": 125.492,
+      "eval_steps_per_second": 3.932,
+      "step": 504
+    },
+    {
+      "epoch": 6.69,
+      "eval_loss": 0.621903657913208,
+      "eval_runtime": 23.8991,
+      "eval_samples_per_second": 125.528,
+      "eval_steps_per_second": 3.933,
+      "step": 507
+    },
+    {
+      "epoch": 6.73,
+      "eval_loss": 0.622235894203186,
+      "eval_runtime": 23.9024,
+      "eval_samples_per_second": 125.51,
+      "eval_steps_per_second": 3.933,
+      "step": 510
+    },
+    {
+      "epoch": 6.77,
+      "eval_loss": 0.6220830082893372,
+      "eval_runtime": 23.8926,
+      "eval_samples_per_second": 125.562,
+      "eval_steps_per_second": 3.934,
+      "step": 513
+    },
+    {
+      "epoch": 6.81,
+      "eval_loss": 0.6220167875289917,
+      "eval_runtime": 23.8965,
+      "eval_samples_per_second": 125.542,
+      "eval_steps_per_second": 3.934,
+      "step": 516
+    },
+    {
+      "epoch": 6.85,
+      "eval_loss": 0.6222782135009766,
+      "eval_runtime": 23.908,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 519
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 6.191117092866757e-05,
+      "loss": 0.6008,
+      "step": 520
+    },
+    {
+      "epoch": 6.89,
+      "eval_loss": 0.6216304302215576,
+      "eval_runtime": 23.9036,
+      "eval_samples_per_second": 125.504,
+      "eval_steps_per_second": 3.932,
+      "step": 522
+    },
+    {
+      "epoch": 6.93,
+      "eval_loss": 0.6217759847640991,
+      "eval_runtime": 23.9088,
+      "eval_samples_per_second": 125.477,
+      "eval_steps_per_second": 3.932,
+      "step": 525
+    },
+    {
+      "epoch": 6.97,
+      "eval_loss": 0.6214317083358765,
+      "eval_runtime": 23.9177,
+      "eval_samples_per_second": 125.43,
+      "eval_steps_per_second": 3.93,
+      "step": 528
+    },
+    {
+      "epoch": 7.01,
+      "eval_loss": 0.6213416457176208,
+      "eval_runtime": 23.9138,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 531
+    },
+    {
+      "epoch": 7.05,
+      "eval_loss": 0.6217712163925171,
+      "eval_runtime": 23.9141,
+      "eval_samples_per_second": 125.449,
+      "eval_steps_per_second": 3.931,
+      "step": 534
+    },
+    {
+      "epoch": 7.09,
+      "eval_loss": 0.6215860843658447,
+      "eval_runtime": 23.9145,
+      "eval_samples_per_second": 125.447,
+      "eval_steps_per_second": 3.931,
+      "step": 537
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 5.652759084791387e-05,
+      "loss": 0.599,
+      "step": 540
+    },
+    {
+      "epoch": 7.13,
+      "eval_loss": 0.6211041808128357,
+      "eval_runtime": 23.9125,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 540
+    },
+    {
+      "epoch": 7.17,
+      "eval_loss": 0.6210355758666992,
+      "eval_runtime": 23.911,
+      "eval_samples_per_second": 125.465,
+      "eval_steps_per_second": 3.931,
+      "step": 543
+    },
+    {
+      "epoch": 7.2,
+      "eval_loss": 0.6209889650344849,
+      "eval_runtime": 23.9062,
+      "eval_samples_per_second": 125.491,
+      "eval_steps_per_second": 3.932,
+      "step": 546
+    },
+    {
+      "epoch": 7.24,
+      "eval_loss": 0.6205114126205444,
+      "eval_runtime": 23.9227,
+      "eval_samples_per_second": 125.404,
+      "eval_steps_per_second": 3.929,
+      "step": 549
+    },
+    {
+      "epoch": 7.28,
+      "eval_loss": 0.6204013824462891,
+      "eval_runtime": 23.9146,
+      "eval_samples_per_second": 125.446,
+      "eval_steps_per_second": 3.931,
+      "step": 552
+    },
+    {
+      "epoch": 7.32,
+      "eval_loss": 0.6202988028526306,
+      "eval_runtime": 23.9015,
+      "eval_samples_per_second": 125.515,
+      "eval_steps_per_second": 3.933,
+      "step": 555
+    },
+    {
+      "epoch": 7.36,
+      "eval_loss": 0.6199727654457092,
+      "eval_runtime": 23.9089,
+      "eval_samples_per_second": 125.476,
+      "eval_steps_per_second": 3.932,
+      "step": 558
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 5.1144010767160164e-05,
+      "loss": 0.5959,
+      "step": 560
+    },
+    {
+      "epoch": 7.4,
+      "eval_loss": 0.619968831539154,
+      "eval_runtime": 23.9043,
+      "eval_samples_per_second": 125.5,
+      "eval_steps_per_second": 3.932,
+      "step": 561
+    },
+    {
+      "epoch": 7.44,
+      "eval_loss": 0.6202374696731567,
+      "eval_runtime": 23.9117,
+      "eval_samples_per_second": 125.461,
+      "eval_steps_per_second": 3.931,
+      "step": 564
+    },
+    {
+      "epoch": 7.48,
+      "eval_loss": 0.6202066540718079,
+      "eval_runtime": 23.908,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 567
+    },
+    {
+      "epoch": 7.52,
+      "eval_loss": 0.6198835968971252,
+      "eval_runtime": 23.9244,
+      "eval_samples_per_second": 125.395,
+      "eval_steps_per_second": 3.929,
+      "step": 570
+    },
+    {
+      "epoch": 7.56,
+      "eval_loss": 0.6199198961257935,
+      "eval_runtime": 23.9263,
+      "eval_samples_per_second": 125.385,
+      "eval_steps_per_second": 3.929,
+      "step": 573
+    },
+    {
+      "epoch": 7.6,
+      "eval_loss": 0.6195517182350159,
+      "eval_runtime": 23.9125,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 576
+    },
+    {
+      "epoch": 7.64,
+      "eval_loss": 0.6192638278007507,
+      "eval_runtime": 23.9168,
+      "eval_samples_per_second": 125.435,
+      "eval_steps_per_second": 3.93,
+      "step": 579
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 4.576043068640646e-05,
+      "loss": 0.5922,
+      "step": 580
+    },
+    {
+      "epoch": 7.68,
+      "eval_loss": 0.6196587085723877,
+      "eval_runtime": 23.9305,
+      "eval_samples_per_second": 125.363,
+      "eval_steps_per_second": 3.928,
+      "step": 582
+    },
+    {
+      "epoch": 7.72,
+      "eval_loss": 0.6198856830596924,
+      "eval_runtime": 23.919,
+      "eval_samples_per_second": 125.423,
+      "eval_steps_per_second": 3.93,
+      "step": 585
+    },
+    {
+      "epoch": 7.76,
+      "eval_loss": 0.6196783781051636,
+      "eval_runtime": 23.9042,
+      "eval_samples_per_second": 125.501,
+      "eval_steps_per_second": 3.932,
+      "step": 588
+    },
+    {
+      "epoch": 7.8,
+      "eval_loss": 0.6192678809165955,
+      "eval_runtime": 23.9057,
+      "eval_samples_per_second": 125.493,
+      "eval_steps_per_second": 3.932,
+      "step": 591
+    },
+    {
+      "epoch": 7.84,
+      "eval_loss": 0.6192264556884766,
+      "eval_runtime": 23.909,
+      "eval_samples_per_second": 125.476,
+      "eval_steps_per_second": 3.932,
+      "step": 594
+    },
+    {
+      "epoch": 7.88,
+      "eval_loss": 0.6192458271980286,
+      "eval_runtime": 23.8917,
+      "eval_samples_per_second": 125.567,
+      "eval_steps_per_second": 3.934,
+      "step": 597
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 4.037685060565276e-05,
+      "loss": 0.6028,
+      "step": 600
+    },
+    {
+      "epoch": 7.92,
+      "eval_loss": 0.6192883849143982,
+      "eval_runtime": 23.9005,
+      "eval_samples_per_second": 125.521,
+      "eval_steps_per_second": 3.933,
+      "step": 600
+    },
+    {
+      "epoch": 7.96,
+      "eval_loss": 0.6194872856140137,
+      "eval_runtime": 23.9118,
+      "eval_samples_per_second": 125.461,
+      "eval_steps_per_second": 3.931,
+      "step": 603
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.619368314743042,
+      "eval_runtime": 23.9121,
+      "eval_samples_per_second": 125.46,
+      "eval_steps_per_second": 3.931,
+      "step": 606
+    },
+    {
+      "epoch": 8.04,
+      "eval_loss": 0.6190740466117859,
+      "eval_runtime": 23.9192,
+      "eval_samples_per_second": 125.422,
+      "eval_steps_per_second": 3.93,
+      "step": 609
+    },
+    {
+      "epoch": 8.08,
+      "eval_loss": 0.6190269589424133,
+      "eval_runtime": 23.916,
+      "eval_samples_per_second": 125.439,
+      "eval_steps_per_second": 3.93,
+      "step": 612
+    },
+    {
+      "epoch": 8.12,
+      "eval_loss": 0.6189839839935303,
+      "eval_runtime": 23.9063,
+      "eval_samples_per_second": 125.49,
+      "eval_steps_per_second": 3.932,
+      "step": 615
+    },
+    {
+      "epoch": 8.16,
+      "eval_loss": 0.618523895740509,
+      "eval_runtime": 23.8928,
+      "eval_samples_per_second": 125.561,
+      "eval_steps_per_second": 3.934,
+      "step": 618
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 3.499327052489906e-05,
+      "loss": 0.5941,
+      "step": 620
+    },
+    {
+      "epoch": 8.19,
+      "eval_loss": 0.6187476515769958,
+      "eval_runtime": 23.9016,
+      "eval_samples_per_second": 125.515,
+      "eval_steps_per_second": 3.933,
+      "step": 621
+    },
+    {
+      "epoch": 8.23,
+      "eval_loss": 0.6186578869819641,
+      "eval_runtime": 23.9003,
+      "eval_samples_per_second": 125.521,
+      "eval_steps_per_second": 3.933,
+      "step": 624
+    },
+    {
+      "epoch": 8.27,
+      "eval_loss": 0.6190162897109985,
+      "eval_runtime": 23.9155,
+      "eval_samples_per_second": 125.442,
+      "eval_steps_per_second": 3.931,
+      "step": 627
+    },
+    {
+      "epoch": 8.31,
+      "eval_loss": 0.6189883351325989,
+      "eval_runtime": 23.9091,
+      "eval_samples_per_second": 125.475,
+      "eval_steps_per_second": 3.932,
+      "step": 630
+    },
+    {
+      "epoch": 8.35,
+      "eval_loss": 0.6184096932411194,
+      "eval_runtime": 23.9042,
+      "eval_samples_per_second": 125.501,
+      "eval_steps_per_second": 3.932,
+      "step": 633
+    },
+    {
+      "epoch": 8.39,
+      "eval_loss": 0.6180031895637512,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 636
+    },
+    {
+      "epoch": 8.43,
+      "eval_loss": 0.6179867386817932,
+      "eval_runtime": 23.922,
+      "eval_samples_per_second": 125.407,
+      "eval_steps_per_second": 3.929,
+      "step": 639
+    },
+    {
+      "epoch": 8.45,
+      "learning_rate": 2.960969044414536e-05,
+      "loss": 0.5906,
+      "step": 640
+    },
+    {
+      "epoch": 8.47,
+      "eval_loss": 0.6182823777198792,
+      "eval_runtime": 23.9158,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 642
+    },
+    {
+      "epoch": 8.51,
+      "eval_loss": 0.6179353594779968,
+      "eval_runtime": 23.914,
+      "eval_samples_per_second": 125.45,
+      "eval_steps_per_second": 3.931,
+      "step": 645
+    },
+    {
+      "epoch": 8.55,
+      "eval_loss": 0.6178385615348816,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.482,
+      "eval_steps_per_second": 3.932,
+      "step": 648
+    },
+    {
+      "epoch": 8.59,
+      "eval_loss": 0.6179868578910828,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 651
+    },
+    {
+      "epoch": 8.63,
+      "eval_loss": 0.6179595589637756,
+      "eval_runtime": 23.9327,
+      "eval_samples_per_second": 125.352,
+      "eval_steps_per_second": 3.928,
+      "step": 654
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 0.6177854537963867,
+      "eval_runtime": 23.9123,
+      "eval_samples_per_second": 125.458,
+      "eval_steps_per_second": 3.931,
+      "step": 657
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 2.422611036339166e-05,
+      "loss": 0.5908,
+      "step": 660
+    },
+    {
+      "epoch": 8.71,
+      "eval_loss": 0.6179735064506531,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 660
+    },
+    {
+      "epoch": 8.75,
+      "eval_loss": 0.6180996298789978,
+      "eval_runtime": 23.9038,
+      "eval_samples_per_second": 125.503,
+      "eval_steps_per_second": 3.932,
+      "step": 663
+    },
+    {
+      "epoch": 8.79,
+      "eval_loss": 0.6181532740592957,
+      "eval_runtime": 23.9058,
+      "eval_samples_per_second": 125.492,
+      "eval_steps_per_second": 3.932,
+      "step": 666
+    },
+    {
+      "epoch": 8.83,
+      "eval_loss": 0.6176265478134155,
+      "eval_runtime": 23.9128,
+      "eval_samples_per_second": 125.456,
+      "eval_steps_per_second": 3.931,
+      "step": 669
+    },
+    {
+      "epoch": 8.87,
+      "eval_loss": 0.617388904094696,
+      "eval_runtime": 23.8906,
+      "eval_samples_per_second": 125.572,
+      "eval_steps_per_second": 3.935,
+      "step": 672
+    },
+    {
+      "epoch": 8.91,
+      "eval_loss": 0.6174699068069458,
+      "eval_runtime": 23.9051,
+      "eval_samples_per_second": 125.496,
+      "eval_steps_per_second": 3.932,
+      "step": 675
+    },
+    {
+      "epoch": 8.95,
+      "eval_loss": 0.6174932718276978,
+      "eval_runtime": 23.8969,
+      "eval_samples_per_second": 125.54,
+      "eval_steps_per_second": 3.934,
+      "step": 678
+    },
+    {
+      "epoch": 8.97,
+      "learning_rate": 1.8842530282637954e-05,
+      "loss": 0.5937,
+      "step": 680
+    },
+    {
+      "epoch": 8.99,
+      "eval_loss": 0.6174784898757935,
+      "eval_runtime": 23.9056,
+      "eval_samples_per_second": 125.494,
+      "eval_steps_per_second": 3.932,
+      "step": 681
+    },
+    {
+      "epoch": 9.03,
+      "eval_loss": 0.6175104975700378,
+      "eval_runtime": 23.9136,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 684
+    },
+    {
+      "epoch": 9.07,
+      "eval_loss": 0.6173563599586487,
+      "eval_runtime": 23.9237,
+      "eval_samples_per_second": 125.399,
+      "eval_steps_per_second": 3.929,
+      "step": 687
+    },
+    {
+      "epoch": 9.11,
+      "eval_loss": 0.6172643899917603,
+      "eval_runtime": 23.9021,
+      "eval_samples_per_second": 125.512,
+      "eval_steps_per_second": 3.933,
+      "step": 690
+    },
+    {
+      "epoch": 9.14,
+      "eval_loss": 0.6172318458557129,
+      "eval_runtime": 23.9242,
+      "eval_samples_per_second": 125.396,
+      "eval_steps_per_second": 3.929,
+      "step": 693
+    },
+    {
+      "epoch": 9.18,
+      "eval_loss": 0.617030680179596,
+      "eval_runtime": 23.9184,
+      "eval_samples_per_second": 125.427,
+      "eval_steps_per_second": 3.93,
+      "step": 696
+    },
+    {
+      "epoch": 9.22,
+      "eval_loss": 0.6169764995574951,
+      "eval_runtime": 23.9104,
+      "eval_samples_per_second": 125.468,
+      "eval_steps_per_second": 3.931,
+      "step": 699
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 1.3458950201884254e-05,
+      "loss": 0.5867,
+      "step": 700
+    },
+    {
+      "epoch": 9.26,
+      "eval_loss": 0.6171083450317383,
+      "eval_runtime": 23.9126,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 702
+    },
+    {
+      "epoch": 9.3,
+      "eval_loss": 0.6171473860740662,
+      "eval_runtime": 23.9015,
+      "eval_samples_per_second": 125.515,
+      "eval_steps_per_second": 3.933,
+      "step": 705
+    },
+    {
+      "epoch": 9.34,
+      "eval_loss": 0.6170982122421265,
+      "eval_runtime": 23.9023,
+      "eval_samples_per_second": 125.511,
+      "eval_steps_per_second": 3.933,
+      "step": 708
+    },
+    {
+      "epoch": 9.38,
+      "eval_loss": 0.6169420480728149,
+      "eval_runtime": 23.9074,
+      "eval_samples_per_second": 125.484,
+      "eval_steps_per_second": 3.932,
+      "step": 711
+    },
+    {
+      "epoch": 9.42,
+      "eval_loss": 0.6168730854988098,
+      "eval_runtime": 23.9047,
+      "eval_samples_per_second": 125.498,
+      "eval_steps_per_second": 3.932,
+      "step": 714
+    },
+    {
+      "epoch": 9.46,
+      "eval_loss": 0.6168663501739502,
+      "eval_runtime": 23.9161,
+      "eval_samples_per_second": 125.439,
+      "eval_steps_per_second": 3.93,
+      "step": 717
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 8.075370121130552e-06,
+      "loss": 0.5891,
+      "step": 720
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.6167708039283752,
+      "eval_runtime": 23.9114,
+      "eval_samples_per_second": 125.463,
+      "eval_steps_per_second": 3.931,
+      "step": 720
+    },
+    {
+      "epoch": 9.54,
+      "eval_loss": 0.6167441010475159,
+      "eval_runtime": 23.9086,
+      "eval_samples_per_second": 125.478,
+      "eval_steps_per_second": 3.932,
+      "step": 723
+    },
+    {
+      "epoch": 9.58,
+      "eval_loss": 0.6168937683105469,
+      "eval_runtime": 23.9122,
+      "eval_samples_per_second": 125.459,
+      "eval_steps_per_second": 3.931,
+      "step": 726
+    },
+    {
+      "epoch": 9.62,
+      "eval_loss": 0.6170821189880371,
+      "eval_runtime": 23.9065,
+      "eval_samples_per_second": 125.489,
+      "eval_steps_per_second": 3.932,
+      "step": 729
+    },
+    {
+      "epoch": 9.66,
+      "eval_loss": 0.6171652674674988,
+      "eval_runtime": 23.9131,
+      "eval_samples_per_second": 125.454,
+      "eval_steps_per_second": 3.931,
+      "step": 732
+    },
+    {
+      "epoch": 9.7,
+      "eval_loss": 0.6171714663505554,
+      "eval_runtime": 23.9057,
+      "eval_samples_per_second": 125.493,
+      "eval_steps_per_second": 3.932,
+      "step": 735
+    },
+    {
+      "epoch": 9.74,
+      "eval_loss": 0.6170787811279297,
+      "eval_runtime": 23.928,
+      "eval_samples_per_second": 125.376,
+      "eval_steps_per_second": 3.928,
+      "step": 738
+    }
+  ],
+  "max_steps": 750,
+  "num_train_epochs": 10,
+  "total_flos": 7.798891163997438e+18,
+  "trial_name": null,
+  "trial_params": null
+}

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-738/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5a386ce8addef927bca0e390e9534e0877a3e4e00f222f83967dd78c49527a
+size 4027

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/adapter_config.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+  "base_model_name_or_path": "/mnt/data1/sheshuaijie/Data/PLM/vicuna-7b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "lora_alpha": 32,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5e1621f48d9ad8feb1d6d31050275f0aafd080c5c07153301fe2f48411f4406
+size 443

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cb805ac62e415da1c15d91797d4355c8080bdcfc7c7781a4ed1539877a0af57
+size 134293701

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0957395ee23cae5537ca68fdb8f5f3c0ba7ef97e714bd742f388719a9c5cd4c5
+size 67154893

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e292c6ba42d09ed37e3998fc80693007d182b35ac775e2161f534d0f9f083131
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7c10e4824a89fe497107b1825bf1cfa4fbb78538f2193d56151fad9e2ee99bc
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba511621fdf523ff7989a294ae5130ea54f3b14afd891da2e41bf244e8a1cfc5
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c91d9cec94c7ef784b2b57a2a410bb4b17e31551753c577ee7e48e81791c2057
+size 17655

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f40d0f980607497195b40bb30daf589ddd80f47c884eb1a2231e665f009933b
+size 557

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1b48f5991e61a145c837cbe5f50a0347f208c7ef9ad1718e593fddf77a205b0
+size 627

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2214 @@

+{
+  "best_metric": 0.6167441010475159,
+  "best_model_checkpoint": "/mnt/data1/sheshuaijie/Output/CoT/Trained/vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-723",
+  "epoch": 9.778144329896907,
+  "global_step": 741,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.7524008750915527,
+      "eval_runtime": 23.7951,
+      "eval_samples_per_second": 126.077,
+      "eval_steps_per_second": 3.95,
+      "step": 3
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 1.5515066385269165,
+      "eval_runtime": 23.828,
+      "eval_samples_per_second": 125.902,
+      "eval_steps_per_second": 3.945,
+      "step": 6
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 1.3584641218185425,
+      "eval_runtime": 23.8775,
+      "eval_samples_per_second": 125.641,
+      "eval_steps_per_second": 3.937,
+      "step": 9
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.2644726037979126,
+      "eval_runtime": 23.8942,
+      "eval_samples_per_second": 125.554,
+      "eval_steps_per_second": 3.934,
+      "step": 12
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.166400671005249,
+      "eval_runtime": 23.9181,
+      "eval_samples_per_second": 125.428,
+      "eval_steps_per_second": 3.93,
+      "step": 15
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.1086052656173706,
+      "eval_runtime": 23.9166,
+      "eval_samples_per_second": 125.436,
+      "eval_steps_per_second": 3.93,
+      "step": 18
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.00019650067294751011,
+      "loss": 1.4265,
+      "step": 20
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.0677987337112427,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 21
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.0342437028884888,
+      "eval_runtime": 23.9046,
+      "eval_samples_per_second": 125.499,
+      "eval_steps_per_second": 3.932,
+      "step": 24
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.9985266923904419,
+      "eval_runtime": 23.9037,
+      "eval_samples_per_second": 125.504,
+      "eval_steps_per_second": 3.932,
+      "step": 27
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.9654523134231567,
+      "eval_runtime": 23.9129,
+      "eval_samples_per_second": 125.455,
+      "eval_steps_per_second": 3.931,
+      "step": 30
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.939262866973877,
+      "eval_runtime": 23.9117,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 33
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.9186767339706421,
+      "eval_runtime": 23.9011,
+      "eval_samples_per_second": 125.517,
+      "eval_steps_per_second": 3.933,
+      "step": 36
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.8969741463661194,
+      "eval_runtime": 23.9105,
+      "eval_samples_per_second": 125.468,
+      "eval_steps_per_second": 3.931,
+      "step": 39
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00019111709286675642,
+      "loss": 0.9923,
+      "step": 40
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.8814375996589661,
+      "eval_runtime": 23.9154,
+      "eval_samples_per_second": 125.442,
+      "eval_steps_per_second": 3.931,
+      "step": 42
+    },
+    {
+      "epoch": 0.59,
+      "eval_loss": 0.8654683232307434,
+      "eval_runtime": 23.9108,
+      "eval_samples_per_second": 125.466,
+      "eval_steps_per_second": 3.931,
+      "step": 45
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.852226734161377,
+      "eval_runtime": 23.9186,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 48
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.839223325252533,
+      "eval_runtime": 23.9074,
+      "eval_samples_per_second": 125.484,
+      "eval_steps_per_second": 3.932,
+      "step": 51
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.8266379237174988,
+      "eval_runtime": 23.9399,
+      "eval_samples_per_second": 125.314,
+      "eval_steps_per_second": 3.926,
+      "step": 54
+    },
+    {
+      "epoch": 0.75,
+      "eval_loss": 0.8140417337417603,
+      "eval_runtime": 23.9355,
+      "eval_samples_per_second": 125.337,
+      "eval_steps_per_second": 3.927,
+      "step": 57
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.0001857335127860027,
+      "loss": 0.8611,
+      "step": 60
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.8019057512283325,
+      "eval_runtime": 23.9223,
+      "eval_samples_per_second": 125.406,
+      "eval_steps_per_second": 3.929,
+      "step": 60
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.7907609343528748,
+      "eval_runtime": 23.9384,
+      "eval_samples_per_second": 125.322,
+      "eval_steps_per_second": 3.927,
+      "step": 63
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.7791212797164917,
+      "eval_runtime": 23.9101,
+      "eval_samples_per_second": 125.47,
+      "eval_steps_per_second": 3.931,
+      "step": 66
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.7694615125656128,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 69
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.7602358460426331,
+      "eval_runtime": 23.9116,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 72
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 0.753226101398468,
+      "eval_runtime": 23.9242,
+      "eval_samples_per_second": 125.396,
+      "eval_steps_per_second": 3.929,
+      "step": 75
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.7466432452201843,
+      "eval_runtime": 23.9116,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 78
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.000180349932705249,
+      "loss": 0.7843,
+      "step": 80
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.7416810989379883,
+      "eval_runtime": 23.9171,
+      "eval_samples_per_second": 125.433,
+      "eval_steps_per_second": 3.93,
+      "step": 81
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 0.7362396121025085,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 84
+    },
+    {
+      "epoch": 1.15,
+      "eval_loss": 0.7297741174697876,
+      "eval_runtime": 23.9084,
+      "eval_samples_per_second": 125.479,
+      "eval_steps_per_second": 3.932,
+      "step": 87
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.7252654433250427,
+      "eval_runtime": 23.9206,
+      "eval_samples_per_second": 125.415,
+      "eval_steps_per_second": 3.93,
+      "step": 90
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.7213409543037415,
+      "eval_runtime": 23.9179,
+      "eval_samples_per_second": 125.429,
+      "eval_steps_per_second": 3.93,
+      "step": 93
+    },
+    {
+      "epoch": 1.27,
+      "eval_loss": 0.7174035906791687,
+      "eval_runtime": 23.9354,
+      "eval_samples_per_second": 125.337,
+      "eval_steps_per_second": 3.927,
+      "step": 96
+    },
+    {
+      "epoch": 1.31,
+      "eval_loss": 0.7140380144119263,
+      "eval_runtime": 23.9214,
+      "eval_samples_per_second": 125.411,
+      "eval_steps_per_second": 3.93,
+      "step": 99
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0001749663526244953,
+      "loss": 0.7301,
+      "step": 100
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.7104487419128418,
+      "eval_runtime": 23.9093,
+      "eval_samples_per_second": 125.474,
+      "eval_steps_per_second": 3.932,
+      "step": 102
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.7067868113517761,
+      "eval_runtime": 23.9129,
+      "eval_samples_per_second": 125.455,
+      "eval_steps_per_second": 3.931,
+      "step": 105
+    },
+    {
+      "epoch": 1.43,
+      "eval_loss": 0.7041762471199036,
+      "eval_runtime": 23.9161,
+      "eval_samples_per_second": 125.439,
+      "eval_steps_per_second": 3.93,
+      "step": 108
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 0.7013522982597351,
+      "eval_runtime": 23.9133,
+      "eval_samples_per_second": 125.453,
+      "eval_steps_per_second": 3.931,
+      "step": 111
+    },
+    {
+      "epoch": 1.5,
+      "eval_loss": 0.6989504098892212,
+      "eval_runtime": 23.9152,
+      "eval_samples_per_second": 125.443,
+      "eval_steps_per_second": 3.931,
+      "step": 114
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 0.6974085569381714,
+      "eval_runtime": 23.9561,
+      "eval_samples_per_second": 125.229,
+      "eval_steps_per_second": 3.924,
+      "step": 117
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.0001695827725437416,
+      "loss": 0.7141,
+      "step": 120
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.6944894194602966,
+      "eval_runtime": 23.902,
+      "eval_samples_per_second": 125.512,
+      "eval_steps_per_second": 3.933,
+      "step": 120
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 0.6929482221603394,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 123
+    },
+    {
+      "epoch": 1.66,
+      "eval_loss": 0.6903366446495056,
+      "eval_runtime": 23.9061,
+      "eval_samples_per_second": 125.491,
+      "eval_steps_per_second": 3.932,
+      "step": 126
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.6882749199867249,
+      "eval_runtime": 23.9181,
+      "eval_samples_per_second": 125.428,
+      "eval_steps_per_second": 3.93,
+      "step": 129
+    },
+    {
+      "epoch": 1.74,
+      "eval_loss": 0.6863100528717041,
+      "eval_runtime": 23.914,
+      "eval_samples_per_second": 125.45,
+      "eval_steps_per_second": 3.931,
+      "step": 132
+    },
+    {
+      "epoch": 1.78,
+      "eval_loss": 0.6860549449920654,
+      "eval_runtime": 23.9138,
+      "eval_samples_per_second": 125.45,
+      "eval_steps_per_second": 3.931,
+      "step": 135
+    },
+    {
+      "epoch": 1.82,
+      "eval_loss": 0.6831715703010559,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 138
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0001641991924629879,
+      "loss": 0.6902,
+      "step": 140
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.6819499731063843,
+      "eval_runtime": 23.8986,
+      "eval_samples_per_second": 125.53,
+      "eval_steps_per_second": 3.933,
+      "step": 141
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.6807693839073181,
+      "eval_runtime": 23.9169,
+      "eval_samples_per_second": 125.434,
+      "eval_steps_per_second": 3.93,
+      "step": 144
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 0.6787669062614441,
+      "eval_runtime": 23.9265,
+      "eval_samples_per_second": 125.384,
+      "eval_steps_per_second": 3.929,
+      "step": 147
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.6773442625999451,
+      "eval_runtime": 23.9274,
+      "eval_samples_per_second": 125.38,
+      "eval_steps_per_second": 3.929,
+      "step": 150
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.6759281158447266,
+      "eval_runtime": 23.9386,
+      "eval_samples_per_second": 125.321,
+      "eval_steps_per_second": 3.927,
+      "step": 153
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.6743582487106323,
+      "eval_runtime": 23.9323,
+      "eval_samples_per_second": 125.354,
+      "eval_steps_per_second": 3.928,
+      "step": 156
+    },
+    {
+      "epoch": 2.1,
+      "eval_loss": 0.6732926368713379,
+      "eval_runtime": 23.9145,
+      "eval_samples_per_second": 125.447,
+      "eval_steps_per_second": 3.931,
+      "step": 159
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0001588156123822342,
+      "loss": 0.6766,
+      "step": 160
+    },
+    {
+      "epoch": 2.14,
+      "eval_loss": 0.6721953749656677,
+      "eval_runtime": 23.9073,
+      "eval_samples_per_second": 125.485,
+      "eval_steps_per_second": 3.932,
+      "step": 162
+    },
+    {
+      "epoch": 2.18,
+      "eval_loss": 0.6714429259300232,
+      "eval_runtime": 23.8955,
+      "eval_samples_per_second": 125.547,
+      "eval_steps_per_second": 3.934,
+      "step": 165
+    },
+    {
+      "epoch": 2.22,
+      "eval_loss": 0.670035183429718,
+      "eval_runtime": 23.9431,
+      "eval_samples_per_second": 125.297,
+      "eval_steps_per_second": 3.926,
+      "step": 168
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 0.6695354580879211,
+      "eval_runtime": 23.8875,
+      "eval_samples_per_second": 125.589,
+      "eval_steps_per_second": 3.935,
+      "step": 171
+    },
+    {
+      "epoch": 2.3,
+      "eval_loss": 0.6689226031303406,
+      "eval_runtime": 23.9185,
+      "eval_samples_per_second": 125.426,
+      "eval_steps_per_second": 3.93,
+      "step": 174
+    },
+    {
+      "epoch": 2.34,
+      "eval_loss": 0.6674054861068726,
+      "eval_runtime": 23.941,
+      "eval_samples_per_second": 125.308,
+      "eval_steps_per_second": 3.926,
+      "step": 177
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.00015343203230148048,
+      "loss": 0.6743,
+      "step": 180
+    },
+    {
+      "epoch": 2.38,
+      "eval_loss": 0.6664847731590271,
+      "eval_runtime": 23.9211,
+      "eval_samples_per_second": 125.412,
+      "eval_steps_per_second": 3.93,
+      "step": 180
+    },
+    {
+      "epoch": 2.41,
+      "eval_loss": 0.6658627986907959,
+      "eval_runtime": 23.9247,
+      "eval_samples_per_second": 125.394,
+      "eval_steps_per_second": 3.929,
+      "step": 183
+    },
+    {
+      "epoch": 2.45,
+      "eval_loss": 0.664908766746521,
+      "eval_runtime": 23.9272,
+      "eval_samples_per_second": 125.38,
+      "eval_steps_per_second": 3.929,
+      "step": 186
+    },
+    {
+      "epoch": 2.49,
+      "eval_loss": 0.6638036966323853,
+      "eval_runtime": 23.9187,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 189
+    },
+    {
+      "epoch": 2.53,
+      "eval_loss": 0.6625837683677673,
+      "eval_runtime": 23.9033,
+      "eval_samples_per_second": 125.506,
+      "eval_steps_per_second": 3.933,
+      "step": 192
+    },
+    {
+      "epoch": 2.57,
+      "eval_loss": 0.6619511842727661,
+      "eval_runtime": 23.8973,
+      "eval_samples_per_second": 125.537,
+      "eval_steps_per_second": 3.934,
+      "step": 195
+    },
+    {
+      "epoch": 2.61,
+      "eval_loss": 0.6611769199371338,
+      "eval_runtime": 23.9129,
+      "eval_samples_per_second": 125.455,
+      "eval_steps_per_second": 3.931,
+      "step": 198
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.00014804845222072678,
+      "loss": 0.6615,
+      "step": 200
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.6606143116950989,
+      "eval_runtime": 23.9126,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 201
+    },
+    {
+      "epoch": 2.69,
+      "eval_loss": 0.6589743494987488,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 204
+    },
+    {
+      "epoch": 2.73,
+      "eval_loss": 0.6578481197357178,
+      "eval_runtime": 23.9217,
+      "eval_samples_per_second": 125.409,
+      "eval_steps_per_second": 3.929,
+      "step": 207
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 0.6571096181869507,
+      "eval_runtime": 23.9415,
+      "eval_samples_per_second": 125.305,
+      "eval_steps_per_second": 3.926,
+      "step": 210
+    },
+    {
+      "epoch": 2.81,
+      "eval_loss": 0.656689465045929,
+      "eval_runtime": 23.9111,
+      "eval_samples_per_second": 125.465,
+      "eval_steps_per_second": 3.931,
+      "step": 213
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.6556207537651062,
+      "eval_runtime": 23.9099,
+      "eval_samples_per_second": 125.471,
+      "eval_steps_per_second": 3.931,
+      "step": 216
+    },
+    {
+      "epoch": 2.89,
+      "eval_loss": 0.6546627283096313,
+      "eval_runtime": 23.9164,
+      "eval_samples_per_second": 125.437,
+      "eval_steps_per_second": 3.93,
+      "step": 219
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 0.0001426648721399731,
+      "loss": 0.6564,
+      "step": 220
+    },
+    {
+      "epoch": 2.93,
+      "eval_loss": 0.6539400815963745,
+      "eval_runtime": 23.906,
+      "eval_samples_per_second": 125.492,
+      "eval_steps_per_second": 3.932,
+      "step": 222
+    },
+    {
+      "epoch": 2.97,
+      "eval_loss": 0.653684675693512,
+      "eval_runtime": 23.9251,
+      "eval_samples_per_second": 125.391,
+      "eval_steps_per_second": 3.929,
+      "step": 225
+    },
+    {
+      "epoch": 3.01,
+      "eval_loss": 0.6526629328727722,
+      "eval_runtime": 23.9289,
+      "eval_samples_per_second": 125.371,
+      "eval_steps_per_second": 3.928,
+      "step": 228
+    },
+    {
+      "epoch": 3.05,
+      "eval_loss": 0.6525079011917114,
+      "eval_runtime": 23.9193,
+      "eval_samples_per_second": 125.421,
+      "eval_steps_per_second": 3.93,
+      "step": 231
+    },
+    {
+      "epoch": 3.09,
+      "eval_loss": 0.6514959931373596,
+      "eval_runtime": 23.9574,
+      "eval_samples_per_second": 125.223,
+      "eval_steps_per_second": 3.924,
+      "step": 234
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.6507047414779663,
+      "eval_runtime": 23.9234,
+      "eval_samples_per_second": 125.4,
+      "eval_steps_per_second": 3.929,
+      "step": 237
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 0.00013728129205921937,
+      "loss": 0.6469,
+      "step": 240
+    },
+    {
+      "epoch": 3.17,
+      "eval_loss": 0.6504186391830444,
+      "eval_runtime": 23.937,
+      "eval_samples_per_second": 125.329,
+      "eval_steps_per_second": 3.927,
+      "step": 240
+    },
+    {
+      "epoch": 3.21,
+      "eval_loss": 0.6495808959007263,
+      "eval_runtime": 23.9188,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 243
+    },
+    {
+      "epoch": 3.25,
+      "eval_loss": 0.649512529373169,
+      "eval_runtime": 23.9209,
+      "eval_samples_per_second": 125.413,
+      "eval_steps_per_second": 3.93,
+      "step": 246
+    },
+    {
+      "epoch": 3.29,
+      "eval_loss": 0.648629903793335,
+      "eval_runtime": 23.9137,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 249
+    },
+    {
+      "epoch": 3.33,
+      "eval_loss": 0.6480894088745117,
+      "eval_runtime": 23.919,
+      "eval_samples_per_second": 125.423,
+      "eval_steps_per_second": 3.93,
+      "step": 252
+    },
+    {
+      "epoch": 3.36,
+      "eval_loss": 0.6474400758743286,
+      "eval_runtime": 23.9076,
+      "eval_samples_per_second": 125.483,
+      "eval_steps_per_second": 3.932,
+      "step": 255
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 0.6468291878700256,
+      "eval_runtime": 23.9305,
+      "eval_samples_per_second": 125.363,
+      "eval_steps_per_second": 3.928,
+      "step": 258
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 0.00013189771197846567,
+      "loss": 0.6463,
+      "step": 260
+    },
+    {
+      "epoch": 3.44,
+      "eval_loss": 0.6462663412094116,
+      "eval_runtime": 23.9359,
+      "eval_samples_per_second": 125.335,
+      "eval_steps_per_second": 3.927,
+      "step": 261
+    },
+    {
+      "epoch": 3.48,
+      "eval_loss": 0.6458565592765808,
+      "eval_runtime": 23.929,
+      "eval_samples_per_second": 125.371,
+      "eval_steps_per_second": 3.928,
+      "step": 264
+    },
+    {
+      "epoch": 3.52,
+      "eval_loss": 0.645412266254425,
+      "eval_runtime": 23.9362,
+      "eval_samples_per_second": 125.333,
+      "eval_steps_per_second": 3.927,
+      "step": 267
+    },
+    {
+      "epoch": 3.56,
+      "eval_loss": 0.6449554562568665,
+      "eval_runtime": 23.9004,
+      "eval_samples_per_second": 125.521,
+      "eval_steps_per_second": 3.933,
+      "step": 270
+    },
+    {
+      "epoch": 3.6,
+      "eval_loss": 0.6443325281143188,
+      "eval_runtime": 23.9065,
+      "eval_samples_per_second": 125.489,
+      "eval_steps_per_second": 3.932,
+      "step": 273
+    },
+    {
+      "epoch": 3.64,
+      "eval_loss": 0.6435034871101379,
+      "eval_runtime": 23.9072,
+      "eval_samples_per_second": 125.485,
+      "eval_steps_per_second": 3.932,
+      "step": 276
+    },
+    {
+      "epoch": 3.68,
+      "eval_loss": 0.6433733701705933,
+      "eval_runtime": 23.9042,
+      "eval_samples_per_second": 125.501,
+      "eval_steps_per_second": 3.932,
+      "step": 279
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 0.00012651413189771198,
+      "loss": 0.6389,
+      "step": 280
+    },
+    {
+      "epoch": 3.72,
+      "eval_loss": 0.6425070762634277,
+      "eval_runtime": 23.8874,
+      "eval_samples_per_second": 125.589,
+      "eval_steps_per_second": 3.935,
+      "step": 282
+    },
+    {
+      "epoch": 3.76,
+      "eval_loss": 0.642119288444519,
+      "eval_runtime": 23.9328,
+      "eval_samples_per_second": 125.351,
+      "eval_steps_per_second": 3.928,
+      "step": 285
+    },
+    {
+      "epoch": 3.8,
+      "eval_loss": 0.641748309135437,
+      "eval_runtime": 23.9294,
+      "eval_samples_per_second": 125.369,
+      "eval_steps_per_second": 3.928,
+      "step": 288
+    },
+    {
+      "epoch": 3.84,
+      "eval_loss": 0.640826404094696,
+      "eval_runtime": 23.9434,
+      "eval_samples_per_second": 125.296,
+      "eval_steps_per_second": 3.926,
+      "step": 291
+    },
+    {
+      "epoch": 3.88,
+      "eval_loss": 0.6402388215065002,
+      "eval_runtime": 23.9162,
+      "eval_samples_per_second": 125.438,
+      "eval_steps_per_second": 3.93,
+      "step": 294
+    },
+    {
+      "epoch": 3.92,
+      "eval_loss": 0.6407353281974792,
+      "eval_runtime": 23.9121,
+      "eval_samples_per_second": 125.46,
+      "eval_steps_per_second": 3.931,
+      "step": 297
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 0.0001211305518169583,
+      "loss": 0.6318,
+      "step": 300
+    },
+    {
+      "epoch": 3.96,
+      "eval_loss": 0.6398600935935974,
+      "eval_runtime": 23.9229,
+      "eval_samples_per_second": 125.403,
+      "eval_steps_per_second": 3.929,
+      "step": 300
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.6393464207649231,
+      "eval_runtime": 23.9187,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 303
+    },
+    {
+      "epoch": 4.04,
+      "eval_loss": 0.6392526626586914,
+      "eval_runtime": 23.9074,
+      "eval_samples_per_second": 125.484,
+      "eval_steps_per_second": 3.932,
+      "step": 306
+    },
+    {
+      "epoch": 4.08,
+      "eval_loss": 0.6389594078063965,
+      "eval_runtime": 23.918,
+      "eval_samples_per_second": 125.428,
+      "eval_steps_per_second": 3.93,
+      "step": 309
+    },
+    {
+      "epoch": 4.12,
+      "eval_loss": 0.6388808488845825,
+      "eval_runtime": 23.9158,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 312
+    },
+    {
+      "epoch": 4.16,
+      "eval_loss": 0.6384025812149048,
+      "eval_runtime": 23.9176,
+      "eval_samples_per_second": 125.431,
+      "eval_steps_per_second": 3.93,
+      "step": 315
+    },
+    {
+      "epoch": 4.2,
+      "eval_loss": 0.6387144923210144,
+      "eval_runtime": 23.9047,
+      "eval_samples_per_second": 125.498,
+      "eval_steps_per_second": 3.932,
+      "step": 318
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 0.00011574697173620459,
+      "loss": 0.6277,
+      "step": 320
+    },
+    {
+      "epoch": 4.24,
+      "eval_loss": 0.6377059817314148,
+      "eval_runtime": 23.9246,
+      "eval_samples_per_second": 125.394,
+      "eval_steps_per_second": 3.929,
+      "step": 321
+    },
+    {
+      "epoch": 4.28,
+      "eval_loss": 0.636981189250946,
+      "eval_runtime": 23.9459,
+      "eval_samples_per_second": 125.283,
+      "eval_steps_per_second": 3.926,
+      "step": 324
+    },
+    {
+      "epoch": 4.32,
+      "eval_loss": 0.6364036202430725,
+      "eval_runtime": 23.9206,
+      "eval_samples_per_second": 125.415,
+      "eval_steps_per_second": 3.93,
+      "step": 327
+    },
+    {
+      "epoch": 4.35,
+      "eval_loss": 0.6357031464576721,
+      "eval_runtime": 23.9187,
+      "eval_samples_per_second": 125.425,
+      "eval_steps_per_second": 3.93,
+      "step": 330
+    },
+    {
+      "epoch": 4.39,
+      "eval_loss": 0.6366411447525024,
+      "eval_runtime": 23.9159,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 333
+    },
+    {
+      "epoch": 4.43,
+      "eval_loss": 0.6357526183128357,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 336
+    },
+    {
+      "epoch": 4.47,
+      "eval_loss": 0.6349912881851196,
+      "eval_runtime": 23.9211,
+      "eval_samples_per_second": 125.412,
+      "eval_steps_per_second": 3.93,
+      "step": 339
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 0.00011036339165545088,
+      "loss": 0.6303,
+      "step": 340
+    },
+    {
+      "epoch": 4.51,
+      "eval_loss": 0.6343324184417725,
+      "eval_runtime": 23.927,
+      "eval_samples_per_second": 125.381,
+      "eval_steps_per_second": 3.929,
+      "step": 342
+    },
+    {
+      "epoch": 4.55,
+      "eval_loss": 0.6347218751907349,
+      "eval_runtime": 23.9489,
+      "eval_samples_per_second": 125.267,
+      "eval_steps_per_second": 3.925,
+      "step": 345
+    },
+    {
+      "epoch": 4.59,
+      "eval_loss": 0.6333290338516235,
+      "eval_runtime": 23.9573,
+      "eval_samples_per_second": 125.223,
+      "eval_steps_per_second": 3.924,
+      "step": 348
+    },
+    {
+      "epoch": 4.63,
+      "eval_loss": 0.6328045129776001,
+      "eval_runtime": 23.925,
+      "eval_samples_per_second": 125.392,
+      "eval_steps_per_second": 3.929,
+      "step": 351
+    },
+    {
+      "epoch": 4.67,
+      "eval_loss": 0.6328830718994141,
+      "eval_runtime": 23.9277,
+      "eval_samples_per_second": 125.378,
+      "eval_steps_per_second": 3.928,
+      "step": 354
+    },
+    {
+      "epoch": 4.71,
+      "eval_loss": 0.6323109269142151,
+      "eval_runtime": 23.9385,
+      "eval_samples_per_second": 125.321,
+      "eval_steps_per_second": 3.927,
+      "step": 357
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 0.00010497981157469719,
+      "loss": 0.6268,
+      "step": 360
+    },
+    {
+      "epoch": 4.75,
+      "eval_loss": 0.6327587366104126,
+      "eval_runtime": 23.9389,
+      "eval_samples_per_second": 125.319,
+      "eval_steps_per_second": 3.927,
+      "step": 360
+    },
+    {
+      "epoch": 4.79,
+      "eval_loss": 0.6324266791343689,
+      "eval_runtime": 23.9367,
+      "eval_samples_per_second": 125.331,
+      "eval_steps_per_second": 3.927,
+      "step": 363
+    },
+    {
+      "epoch": 4.83,
+      "eval_loss": 0.6320524215698242,
+      "eval_runtime": 23.9373,
+      "eval_samples_per_second": 125.327,
+      "eval_steps_per_second": 3.927,
+      "step": 366
+    },
+    {
+      "epoch": 4.87,
+      "eval_loss": 0.6314539313316345,
+      "eval_runtime": 23.9325,
+      "eval_samples_per_second": 125.352,
+      "eval_steps_per_second": 3.928,
+      "step": 369
+    },
+    {
+      "epoch": 4.91,
+      "eval_loss": 0.6318089365959167,
+      "eval_runtime": 23.9345,
+      "eval_samples_per_second": 125.342,
+      "eval_steps_per_second": 3.927,
+      "step": 372
+    },
+    {
+      "epoch": 4.95,
+      "eval_loss": 0.6315808296203613,
+      "eval_runtime": 23.924,
+      "eval_samples_per_second": 125.397,
+      "eval_steps_per_second": 3.929,
+      "step": 375
+    },
+    {
+      "epoch": 4.99,
+      "eval_loss": 0.630818247795105,
+      "eval_runtime": 23.9285,
+      "eval_samples_per_second": 125.373,
+      "eval_steps_per_second": 3.928,
+      "step": 378
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 9.959623149394348e-05,
+      "loss": 0.6196,
+      "step": 380
+    },
+    {
+      "epoch": 5.03,
+      "eval_loss": 0.630248486995697,
+      "eval_runtime": 23.9231,
+      "eval_samples_per_second": 125.402,
+      "eval_steps_per_second": 3.929,
+      "step": 381
+    },
+    {
+      "epoch": 5.07,
+      "eval_loss": 0.6306143403053284,
+      "eval_runtime": 23.9242,
+      "eval_samples_per_second": 125.396,
+      "eval_steps_per_second": 3.929,
+      "step": 384
+    },
+    {
+      "epoch": 5.11,
+      "eval_loss": 0.6305729746818542,
+      "eval_runtime": 23.9232,
+      "eval_samples_per_second": 125.401,
+      "eval_steps_per_second": 3.929,
+      "step": 387
+    },
+    {
+      "epoch": 5.15,
+      "eval_loss": 0.6302648782730103,
+      "eval_runtime": 23.9286,
+      "eval_samples_per_second": 125.373,
+      "eval_steps_per_second": 3.928,
+      "step": 390
+    },
+    {
+      "epoch": 5.19,
+      "eval_loss": 0.6298710703849792,
+      "eval_runtime": 23.9258,
+      "eval_samples_per_second": 125.388,
+      "eval_steps_per_second": 3.929,
+      "step": 393
+    },
+    {
+      "epoch": 5.23,
+      "eval_loss": 0.6298263669013977,
+      "eval_runtime": 23.9284,
+      "eval_samples_per_second": 125.374,
+      "eval_steps_per_second": 3.928,
+      "step": 396
+    },
+    {
+      "epoch": 5.27,
+      "eval_loss": 0.6292470097541809,
+      "eval_runtime": 23.9269,
+      "eval_samples_per_second": 125.382,
+      "eval_steps_per_second": 3.929,
+      "step": 399
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 9.421265141318977e-05,
+      "loss": 0.6146,
+      "step": 400
+    },
+    {
+      "epoch": 5.3,
+      "eval_loss": 0.6291049122810364,
+      "eval_runtime": 23.9297,
+      "eval_samples_per_second": 125.367,
+      "eval_steps_per_second": 3.928,
+      "step": 402
+    },
+    {
+      "epoch": 5.34,
+      "eval_loss": 0.6296722292900085,
+      "eval_runtime": 23.9386,
+      "eval_samples_per_second": 125.321,
+      "eval_steps_per_second": 3.927,
+      "step": 405
+    },
+    {
+      "epoch": 5.38,
+      "eval_loss": 0.6288275122642517,
+      "eval_runtime": 23.9308,
+      "eval_samples_per_second": 125.362,
+      "eval_steps_per_second": 3.928,
+      "step": 408
+    },
+    {
+      "epoch": 5.42,
+      "eval_loss": 0.6288333535194397,
+      "eval_runtime": 23.9261,
+      "eval_samples_per_second": 125.386,
+      "eval_steps_per_second": 3.929,
+      "step": 411
+    },
+    {
+      "epoch": 5.46,
+      "eval_loss": 0.6279690861701965,
+      "eval_runtime": 23.9282,
+      "eval_samples_per_second": 125.375,
+      "eval_steps_per_second": 3.928,
+      "step": 414
+    },
+    {
+      "epoch": 5.5,
+      "eval_loss": 0.6275332570075989,
+      "eval_runtime": 23.9215,
+      "eval_samples_per_second": 125.41,
+      "eval_steps_per_second": 3.93,
+      "step": 417
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 8.882907133243608e-05,
+      "loss": 0.6149,
+      "step": 420
+    },
+    {
+      "epoch": 5.54,
+      "eval_loss": 0.6279338598251343,
+      "eval_runtime": 23.93,
+      "eval_samples_per_second": 125.366,
+      "eval_steps_per_second": 3.928,
+      "step": 420
+    },
+    {
+      "epoch": 5.58,
+      "eval_loss": 0.6271057724952698,
+      "eval_runtime": 23.9158,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 423
+    },
+    {
+      "epoch": 5.62,
+      "eval_loss": 0.6270298361778259,
+      "eval_runtime": 23.9264,
+      "eval_samples_per_second": 125.384,
+      "eval_steps_per_second": 3.929,
+      "step": 426
+    },
+    {
+      "epoch": 5.66,
+      "eval_loss": 0.6271407604217529,
+      "eval_runtime": 23.9362,
+      "eval_samples_per_second": 125.333,
+      "eval_steps_per_second": 3.927,
+      "step": 429
+    },
+    {
+      "epoch": 5.7,
+      "eval_loss": 0.6264240145683289,
+      "eval_runtime": 23.9309,
+      "eval_samples_per_second": 125.361,
+      "eval_steps_per_second": 3.928,
+      "step": 432
+    },
+    {
+      "epoch": 5.74,
+      "eval_loss": 0.6263339519500732,
+      "eval_runtime": 23.93,
+      "eval_samples_per_second": 125.366,
+      "eval_steps_per_second": 3.928,
+      "step": 435
+    },
+    {
+      "epoch": 5.78,
+      "eval_loss": 0.6256468296051025,
+      "eval_runtime": 23.9252,
+      "eval_samples_per_second": 125.391,
+      "eval_steps_per_second": 3.929,
+      "step": 438
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 8.344549125168237e-05,
+      "loss": 0.6191,
+      "step": 440
+    },
+    {
+      "epoch": 5.82,
+      "eval_loss": 0.6260586977005005,
+      "eval_runtime": 23.918,
+      "eval_samples_per_second": 125.429,
+      "eval_steps_per_second": 3.93,
+      "step": 441
+    },
+    {
+      "epoch": 5.86,
+      "eval_loss": 0.625337541103363,
+      "eval_runtime": 23.9172,
+      "eval_samples_per_second": 125.433,
+      "eval_steps_per_second": 3.93,
+      "step": 444
+    },
+    {
+      "epoch": 5.9,
+      "eval_loss": 0.6246620416641235,
+      "eval_runtime": 23.908,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 447
+    },
+    {
+      "epoch": 5.94,
+      "eval_loss": 0.6251673698425293,
+      "eval_runtime": 23.9137,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 450
+    },
+    {
+      "epoch": 5.98,
+      "eval_loss": 0.6253092288970947,
+      "eval_runtime": 23.9409,
+      "eval_samples_per_second": 125.309,
+      "eval_steps_per_second": 3.926,
+      "step": 453
+    },
+    {
+      "epoch": 6.02,
+      "eval_loss": 0.6245599389076233,
+      "eval_runtime": 23.9233,
+      "eval_samples_per_second": 125.401,
+      "eval_steps_per_second": 3.929,
+      "step": 456
+    },
+    {
+      "epoch": 6.06,
+      "eval_loss": 0.6247097849845886,
+      "eval_runtime": 23.9184,
+      "eval_samples_per_second": 125.426,
+      "eval_steps_per_second": 3.93,
+      "step": 459
+    },
+    {
+      "epoch": 6.07,
+      "learning_rate": 7.806191117092868e-05,
+      "loss": 0.6075,
+      "step": 460
+    },
+    {
+      "epoch": 6.1,
+      "eval_loss": 0.6237714290618896,
+      "eval_runtime": 23.9137,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 462
+    },
+    {
+      "epoch": 6.14,
+      "eval_loss": 0.6239632964134216,
+      "eval_runtime": 23.9142,
+      "eval_samples_per_second": 125.449,
+      "eval_steps_per_second": 3.931,
+      "step": 465
+    },
+    {
+      "epoch": 6.18,
+      "eval_loss": 0.6246253252029419,
+      "eval_runtime": 23.9199,
+      "eval_samples_per_second": 125.419,
+      "eval_steps_per_second": 3.93,
+      "step": 468
+    },
+    {
+      "epoch": 6.22,
+      "eval_loss": 0.6236398220062256,
+      "eval_runtime": 23.9169,
+      "eval_samples_per_second": 125.434,
+      "eval_steps_per_second": 3.93,
+      "step": 471
+    },
+    {
+      "epoch": 6.25,
+      "eval_loss": 0.6242309808731079,
+      "eval_runtime": 23.9091,
+      "eval_samples_per_second": 125.475,
+      "eval_steps_per_second": 3.932,
+      "step": 474
+    },
+    {
+      "epoch": 6.29,
+      "eval_loss": 0.6236902475357056,
+      "eval_runtime": 23.9117,
+      "eval_samples_per_second": 125.462,
+      "eval_steps_per_second": 3.931,
+      "step": 477
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 7.267833109017497e-05,
+      "loss": 0.6061,
+      "step": 480
+    },
+    {
+      "epoch": 6.33,
+      "eval_loss": 0.623267650604248,
+      "eval_runtime": 23.9071,
+      "eval_samples_per_second": 125.485,
+      "eval_steps_per_second": 3.932,
+      "step": 480
+    },
+    {
+      "epoch": 6.37,
+      "eval_loss": 0.6238719820976257,
+      "eval_runtime": 23.9206,
+      "eval_samples_per_second": 125.415,
+      "eval_steps_per_second": 3.93,
+      "step": 483
+    },
+    {
+      "epoch": 6.41,
+      "eval_loss": 0.6234752535820007,
+      "eval_runtime": 23.914,
+      "eval_samples_per_second": 125.449,
+      "eval_steps_per_second": 3.931,
+      "step": 486
+    },
+    {
+      "epoch": 6.45,
+      "eval_loss": 0.6228368878364563,
+      "eval_runtime": 23.9087,
+      "eval_samples_per_second": 125.477,
+      "eval_steps_per_second": 3.932,
+      "step": 489
+    },
+    {
+      "epoch": 6.49,
+      "eval_loss": 0.6226744055747986,
+      "eval_runtime": 23.9118,
+      "eval_samples_per_second": 125.461,
+      "eval_steps_per_second": 3.931,
+      "step": 492
+    },
+    {
+      "epoch": 6.53,
+      "eval_loss": 0.622622013092041,
+      "eval_runtime": 23.9341,
+      "eval_samples_per_second": 125.344,
+      "eval_steps_per_second": 3.927,
+      "step": 495
+    },
+    {
+      "epoch": 6.57,
+      "eval_loss": 0.6228298544883728,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.482,
+      "eval_steps_per_second": 3.932,
+      "step": 498
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 6.729475100942126e-05,
+      "loss": 0.6043,
+      "step": 500
+    },
+    {
+      "epoch": 6.61,
+      "eval_loss": 0.6232237815856934,
+      "eval_runtime": 23.8982,
+      "eval_samples_per_second": 125.533,
+      "eval_steps_per_second": 3.933,
+      "step": 501
+    },
+    {
+      "epoch": 6.65,
+      "eval_loss": 0.6218205690383911,
+      "eval_runtime": 23.9059,
+      "eval_samples_per_second": 125.492,
+      "eval_steps_per_second": 3.932,
+      "step": 504
+    },
+    {
+      "epoch": 6.69,
+      "eval_loss": 0.621903657913208,
+      "eval_runtime": 23.8991,
+      "eval_samples_per_second": 125.528,
+      "eval_steps_per_second": 3.933,
+      "step": 507
+    },
+    {
+      "epoch": 6.73,
+      "eval_loss": 0.622235894203186,
+      "eval_runtime": 23.9024,
+      "eval_samples_per_second": 125.51,
+      "eval_steps_per_second": 3.933,
+      "step": 510
+    },
+    {
+      "epoch": 6.77,
+      "eval_loss": 0.6220830082893372,
+      "eval_runtime": 23.8926,
+      "eval_samples_per_second": 125.562,
+      "eval_steps_per_second": 3.934,
+      "step": 513
+    },
+    {
+      "epoch": 6.81,
+      "eval_loss": 0.6220167875289917,
+      "eval_runtime": 23.8965,
+      "eval_samples_per_second": 125.542,
+      "eval_steps_per_second": 3.934,
+      "step": 516
+    },
+    {
+      "epoch": 6.85,
+      "eval_loss": 0.6222782135009766,
+      "eval_runtime": 23.908,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 519
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 6.191117092866757e-05,
+      "loss": 0.6008,
+      "step": 520
+    },
+    {
+      "epoch": 6.89,
+      "eval_loss": 0.6216304302215576,
+      "eval_runtime": 23.9036,
+      "eval_samples_per_second": 125.504,
+      "eval_steps_per_second": 3.932,
+      "step": 522
+    },
+    {
+      "epoch": 6.93,
+      "eval_loss": 0.6217759847640991,
+      "eval_runtime": 23.9088,
+      "eval_samples_per_second": 125.477,
+      "eval_steps_per_second": 3.932,
+      "step": 525
+    },
+    {
+      "epoch": 6.97,
+      "eval_loss": 0.6214317083358765,
+      "eval_runtime": 23.9177,
+      "eval_samples_per_second": 125.43,
+      "eval_steps_per_second": 3.93,
+      "step": 528
+    },
+    {
+      "epoch": 7.01,
+      "eval_loss": 0.6213416457176208,
+      "eval_runtime": 23.9138,
+      "eval_samples_per_second": 125.451,
+      "eval_steps_per_second": 3.931,
+      "step": 531
+    },
+    {
+      "epoch": 7.05,
+      "eval_loss": 0.6217712163925171,
+      "eval_runtime": 23.9141,
+      "eval_samples_per_second": 125.449,
+      "eval_steps_per_second": 3.931,
+      "step": 534
+    },
+    {
+      "epoch": 7.09,
+      "eval_loss": 0.6215860843658447,
+      "eval_runtime": 23.9145,
+      "eval_samples_per_second": 125.447,
+      "eval_steps_per_second": 3.931,
+      "step": 537
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 5.652759084791387e-05,
+      "loss": 0.599,
+      "step": 540
+    },
+    {
+      "epoch": 7.13,
+      "eval_loss": 0.6211041808128357,
+      "eval_runtime": 23.9125,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 540
+    },
+    {
+      "epoch": 7.17,
+      "eval_loss": 0.6210355758666992,
+      "eval_runtime": 23.911,
+      "eval_samples_per_second": 125.465,
+      "eval_steps_per_second": 3.931,
+      "step": 543
+    },
+    {
+      "epoch": 7.2,
+      "eval_loss": 0.6209889650344849,
+      "eval_runtime": 23.9062,
+      "eval_samples_per_second": 125.491,
+      "eval_steps_per_second": 3.932,
+      "step": 546
+    },
+    {
+      "epoch": 7.24,
+      "eval_loss": 0.6205114126205444,
+      "eval_runtime": 23.9227,
+      "eval_samples_per_second": 125.404,
+      "eval_steps_per_second": 3.929,
+      "step": 549
+    },
+    {
+      "epoch": 7.28,
+      "eval_loss": 0.6204013824462891,
+      "eval_runtime": 23.9146,
+      "eval_samples_per_second": 125.446,
+      "eval_steps_per_second": 3.931,
+      "step": 552
+    },
+    {
+      "epoch": 7.32,
+      "eval_loss": 0.6202988028526306,
+      "eval_runtime": 23.9015,
+      "eval_samples_per_second": 125.515,
+      "eval_steps_per_second": 3.933,
+      "step": 555
+    },
+    {
+      "epoch": 7.36,
+      "eval_loss": 0.6199727654457092,
+      "eval_runtime": 23.9089,
+      "eval_samples_per_second": 125.476,
+      "eval_steps_per_second": 3.932,
+      "step": 558
+    },
+    {
+      "epoch": 7.39,
+      "learning_rate": 5.1144010767160164e-05,
+      "loss": 0.5959,
+      "step": 560
+    },
+    {
+      "epoch": 7.4,
+      "eval_loss": 0.619968831539154,
+      "eval_runtime": 23.9043,
+      "eval_samples_per_second": 125.5,
+      "eval_steps_per_second": 3.932,
+      "step": 561
+    },
+    {
+      "epoch": 7.44,
+      "eval_loss": 0.6202374696731567,
+      "eval_runtime": 23.9117,
+      "eval_samples_per_second": 125.461,
+      "eval_steps_per_second": 3.931,
+      "step": 564
+    },
+    {
+      "epoch": 7.48,
+      "eval_loss": 0.6202066540718079,
+      "eval_runtime": 23.908,
+      "eval_samples_per_second": 125.481,
+      "eval_steps_per_second": 3.932,
+      "step": 567
+    },
+    {
+      "epoch": 7.52,
+      "eval_loss": 0.6198835968971252,
+      "eval_runtime": 23.9244,
+      "eval_samples_per_second": 125.395,
+      "eval_steps_per_second": 3.929,
+      "step": 570
+    },
+    {
+      "epoch": 7.56,
+      "eval_loss": 0.6199198961257935,
+      "eval_runtime": 23.9263,
+      "eval_samples_per_second": 125.385,
+      "eval_steps_per_second": 3.929,
+      "step": 573
+    },
+    {
+      "epoch": 7.6,
+      "eval_loss": 0.6195517182350159,
+      "eval_runtime": 23.9125,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 576
+    },
+    {
+      "epoch": 7.64,
+      "eval_loss": 0.6192638278007507,
+      "eval_runtime": 23.9168,
+      "eval_samples_per_second": 125.435,
+      "eval_steps_per_second": 3.93,
+      "step": 579
+    },
+    {
+      "epoch": 7.65,
+      "learning_rate": 4.576043068640646e-05,
+      "loss": 0.5922,
+      "step": 580
+    },
+    {
+      "epoch": 7.68,
+      "eval_loss": 0.6196587085723877,
+      "eval_runtime": 23.9305,
+      "eval_samples_per_second": 125.363,
+      "eval_steps_per_second": 3.928,
+      "step": 582
+    },
+    {
+      "epoch": 7.72,
+      "eval_loss": 0.6198856830596924,
+      "eval_runtime": 23.919,
+      "eval_samples_per_second": 125.423,
+      "eval_steps_per_second": 3.93,
+      "step": 585
+    },
+    {
+      "epoch": 7.76,
+      "eval_loss": 0.6196783781051636,
+      "eval_runtime": 23.9042,
+      "eval_samples_per_second": 125.501,
+      "eval_steps_per_second": 3.932,
+      "step": 588
+    },
+    {
+      "epoch": 7.8,
+      "eval_loss": 0.6192678809165955,
+      "eval_runtime": 23.9057,
+      "eval_samples_per_second": 125.493,
+      "eval_steps_per_second": 3.932,
+      "step": 591
+    },
+    {
+      "epoch": 7.84,
+      "eval_loss": 0.6192264556884766,
+      "eval_runtime": 23.909,
+      "eval_samples_per_second": 125.476,
+      "eval_steps_per_second": 3.932,
+      "step": 594
+    },
+    {
+      "epoch": 7.88,
+      "eval_loss": 0.6192458271980286,
+      "eval_runtime": 23.8917,
+      "eval_samples_per_second": 125.567,
+      "eval_steps_per_second": 3.934,
+      "step": 597
+    },
+    {
+      "epoch": 7.92,
+      "learning_rate": 4.037685060565276e-05,
+      "loss": 0.6028,
+      "step": 600
+    },
+    {
+      "epoch": 7.92,
+      "eval_loss": 0.6192883849143982,
+      "eval_runtime": 23.9005,
+      "eval_samples_per_second": 125.521,
+      "eval_steps_per_second": 3.933,
+      "step": 600
+    },
+    {
+      "epoch": 7.96,
+      "eval_loss": 0.6194872856140137,
+      "eval_runtime": 23.9118,
+      "eval_samples_per_second": 125.461,
+      "eval_steps_per_second": 3.931,
+      "step": 603
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.619368314743042,
+      "eval_runtime": 23.9121,
+      "eval_samples_per_second": 125.46,
+      "eval_steps_per_second": 3.931,
+      "step": 606
+    },
+    {
+      "epoch": 8.04,
+      "eval_loss": 0.6190740466117859,
+      "eval_runtime": 23.9192,
+      "eval_samples_per_second": 125.422,
+      "eval_steps_per_second": 3.93,
+      "step": 609
+    },
+    {
+      "epoch": 8.08,
+      "eval_loss": 0.6190269589424133,
+      "eval_runtime": 23.916,
+      "eval_samples_per_second": 125.439,
+      "eval_steps_per_second": 3.93,
+      "step": 612
+    },
+    {
+      "epoch": 8.12,
+      "eval_loss": 0.6189839839935303,
+      "eval_runtime": 23.9063,
+      "eval_samples_per_second": 125.49,
+      "eval_steps_per_second": 3.932,
+      "step": 615
+    },
+    {
+      "epoch": 8.16,
+      "eval_loss": 0.618523895740509,
+      "eval_runtime": 23.8928,
+      "eval_samples_per_second": 125.561,
+      "eval_steps_per_second": 3.934,
+      "step": 618
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 3.499327052489906e-05,
+      "loss": 0.5941,
+      "step": 620
+    },
+    {
+      "epoch": 8.19,
+      "eval_loss": 0.6187476515769958,
+      "eval_runtime": 23.9016,
+      "eval_samples_per_second": 125.515,
+      "eval_steps_per_second": 3.933,
+      "step": 621
+    },
+    {
+      "epoch": 8.23,
+      "eval_loss": 0.6186578869819641,
+      "eval_runtime": 23.9003,
+      "eval_samples_per_second": 125.521,
+      "eval_steps_per_second": 3.933,
+      "step": 624
+    },
+    {
+      "epoch": 8.27,
+      "eval_loss": 0.6190162897109985,
+      "eval_runtime": 23.9155,
+      "eval_samples_per_second": 125.442,
+      "eval_steps_per_second": 3.931,
+      "step": 627
+    },
+    {
+      "epoch": 8.31,
+      "eval_loss": 0.6189883351325989,
+      "eval_runtime": 23.9091,
+      "eval_samples_per_second": 125.475,
+      "eval_steps_per_second": 3.932,
+      "step": 630
+    },
+    {
+      "epoch": 8.35,
+      "eval_loss": 0.6184096932411194,
+      "eval_runtime": 23.9042,
+      "eval_samples_per_second": 125.501,
+      "eval_steps_per_second": 3.932,
+      "step": 633
+    },
+    {
+      "epoch": 8.39,
+      "eval_loss": 0.6180031895637512,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 636
+    },
+    {
+      "epoch": 8.43,
+      "eval_loss": 0.6179867386817932,
+      "eval_runtime": 23.922,
+      "eval_samples_per_second": 125.407,
+      "eval_steps_per_second": 3.929,
+      "step": 639
+    },
+    {
+      "epoch": 8.45,
+      "learning_rate": 2.960969044414536e-05,
+      "loss": 0.5906,
+      "step": 640
+    },
+    {
+      "epoch": 8.47,
+      "eval_loss": 0.6182823777198792,
+      "eval_runtime": 23.9158,
+      "eval_samples_per_second": 125.44,
+      "eval_steps_per_second": 3.93,
+      "step": 642
+    },
+    {
+      "epoch": 8.51,
+      "eval_loss": 0.6179353594779968,
+      "eval_runtime": 23.914,
+      "eval_samples_per_second": 125.45,
+      "eval_steps_per_second": 3.931,
+      "step": 645
+    },
+    {
+      "epoch": 8.55,
+      "eval_loss": 0.6178385615348816,
+      "eval_runtime": 23.9079,
+      "eval_samples_per_second": 125.482,
+      "eval_steps_per_second": 3.932,
+      "step": 648
+    },
+    {
+      "epoch": 8.59,
+      "eval_loss": 0.6179868578910828,
+      "eval_runtime": 23.9189,
+      "eval_samples_per_second": 125.424,
+      "eval_steps_per_second": 3.93,
+      "step": 651
+    },
+    {
+      "epoch": 8.63,
+      "eval_loss": 0.6179595589637756,
+      "eval_runtime": 23.9327,
+      "eval_samples_per_second": 125.352,
+      "eval_steps_per_second": 3.928,
+      "step": 654
+    },
+    {
+      "epoch": 8.67,
+      "eval_loss": 0.6177854537963867,
+      "eval_runtime": 23.9123,
+      "eval_samples_per_second": 125.458,
+      "eval_steps_per_second": 3.931,
+      "step": 657
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 2.422611036339166e-05,
+      "loss": 0.5908,
+      "step": 660
+    },
+    {
+      "epoch": 8.71,
+      "eval_loss": 0.6179735064506531,
+      "eval_runtime": 23.9135,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 660
+    },
+    {
+      "epoch": 8.75,
+      "eval_loss": 0.6180996298789978,
+      "eval_runtime": 23.9038,
+      "eval_samples_per_second": 125.503,
+      "eval_steps_per_second": 3.932,
+      "step": 663
+    },
+    {
+      "epoch": 8.79,
+      "eval_loss": 0.6181532740592957,
+      "eval_runtime": 23.9058,
+      "eval_samples_per_second": 125.492,
+      "eval_steps_per_second": 3.932,
+      "step": 666
+    },
+    {
+      "epoch": 8.83,
+      "eval_loss": 0.6176265478134155,
+      "eval_runtime": 23.9128,
+      "eval_samples_per_second": 125.456,
+      "eval_steps_per_second": 3.931,
+      "step": 669
+    },
+    {
+      "epoch": 8.87,
+      "eval_loss": 0.617388904094696,
+      "eval_runtime": 23.8906,
+      "eval_samples_per_second": 125.572,
+      "eval_steps_per_second": 3.935,
+      "step": 672
+    },
+    {
+      "epoch": 8.91,
+      "eval_loss": 0.6174699068069458,
+      "eval_runtime": 23.9051,
+      "eval_samples_per_second": 125.496,
+      "eval_steps_per_second": 3.932,
+      "step": 675
+    },
+    {
+      "epoch": 8.95,
+      "eval_loss": 0.6174932718276978,
+      "eval_runtime": 23.8969,
+      "eval_samples_per_second": 125.54,
+      "eval_steps_per_second": 3.934,
+      "step": 678
+    },
+    {
+      "epoch": 8.97,
+      "learning_rate": 1.8842530282637954e-05,
+      "loss": 0.5937,
+      "step": 680
+    },
+    {
+      "epoch": 8.99,
+      "eval_loss": 0.6174784898757935,
+      "eval_runtime": 23.9056,
+      "eval_samples_per_second": 125.494,
+      "eval_steps_per_second": 3.932,
+      "step": 681
+    },
+    {
+      "epoch": 9.03,
+      "eval_loss": 0.6175104975700378,
+      "eval_runtime": 23.9136,
+      "eval_samples_per_second": 125.452,
+      "eval_steps_per_second": 3.931,
+      "step": 684
+    },
+    {
+      "epoch": 9.07,
+      "eval_loss": 0.6173563599586487,
+      "eval_runtime": 23.9237,
+      "eval_samples_per_second": 125.399,
+      "eval_steps_per_second": 3.929,
+      "step": 687
+    },
+    {
+      "epoch": 9.11,
+      "eval_loss": 0.6172643899917603,
+      "eval_runtime": 23.9021,
+      "eval_samples_per_second": 125.512,
+      "eval_steps_per_second": 3.933,
+      "step": 690
+    },
+    {
+      "epoch": 9.14,
+      "eval_loss": 0.6172318458557129,
+      "eval_runtime": 23.9242,
+      "eval_samples_per_second": 125.396,
+      "eval_steps_per_second": 3.929,
+      "step": 693
+    },
+    {
+      "epoch": 9.18,
+      "eval_loss": 0.617030680179596,
+      "eval_runtime": 23.9184,
+      "eval_samples_per_second": 125.427,
+      "eval_steps_per_second": 3.93,
+      "step": 696
+    },
+    {
+      "epoch": 9.22,
+      "eval_loss": 0.6169764995574951,
+      "eval_runtime": 23.9104,
+      "eval_samples_per_second": 125.468,
+      "eval_steps_per_second": 3.931,
+      "step": 699
+    },
+    {
+      "epoch": 9.24,
+      "learning_rate": 1.3458950201884254e-05,
+      "loss": 0.5867,
+      "step": 700
+    },
+    {
+      "epoch": 9.26,
+      "eval_loss": 0.6171083450317383,
+      "eval_runtime": 23.9126,
+      "eval_samples_per_second": 125.457,
+      "eval_steps_per_second": 3.931,
+      "step": 702
+    },
+    {
+      "epoch": 9.3,
+      "eval_loss": 0.6171473860740662,
+      "eval_runtime": 23.9015,
+      "eval_samples_per_second": 125.515,
+      "eval_steps_per_second": 3.933,
+      "step": 705
+    },
+    {
+      "epoch": 9.34,
+      "eval_loss": 0.6170982122421265,
+      "eval_runtime": 23.9023,
+      "eval_samples_per_second": 125.511,
+      "eval_steps_per_second": 3.933,
+      "step": 708
+    },
+    {
+      "epoch": 9.38,
+      "eval_loss": 0.6169420480728149,
+      "eval_runtime": 23.9074,
+      "eval_samples_per_second": 125.484,
+      "eval_steps_per_second": 3.932,
+      "step": 711
+    },
+    {
+      "epoch": 9.42,
+      "eval_loss": 0.6168730854988098,
+      "eval_runtime": 23.9047,
+      "eval_samples_per_second": 125.498,
+      "eval_steps_per_second": 3.932,
+      "step": 714
+    },
+    {
+      "epoch": 9.46,
+      "eval_loss": 0.6168663501739502,
+      "eval_runtime": 23.9161,
+      "eval_samples_per_second": 125.439,
+      "eval_steps_per_second": 3.93,
+      "step": 717
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 8.075370121130552e-06,
+      "loss": 0.5891,
+      "step": 720
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.6167708039283752,
+      "eval_runtime": 23.9114,
+      "eval_samples_per_second": 125.463,
+      "eval_steps_per_second": 3.931,
+      "step": 720
+    },
+    {
+      "epoch": 9.54,
+      "eval_loss": 0.6167441010475159,
+      "eval_runtime": 23.9086,
+      "eval_samples_per_second": 125.478,
+      "eval_steps_per_second": 3.932,
+      "step": 723
+    },
+    {
+      "epoch": 9.58,
+      "eval_loss": 0.6168937683105469,
+      "eval_runtime": 23.9122,
+      "eval_samples_per_second": 125.459,
+      "eval_steps_per_second": 3.931,
+      "step": 726
+    },
+    {
+      "epoch": 9.62,
+      "eval_loss": 0.6170821189880371,
+      "eval_runtime": 23.9065,
+      "eval_samples_per_second": 125.489,
+      "eval_steps_per_second": 3.932,
+      "step": 729
+    },
+    {
+      "epoch": 9.66,
+      "eval_loss": 0.6171652674674988,
+      "eval_runtime": 23.9131,
+      "eval_samples_per_second": 125.454,
+      "eval_steps_per_second": 3.931,
+      "step": 732
+    },
+    {
+      "epoch": 9.7,
+      "eval_loss": 0.6171714663505554,
+      "eval_runtime": 23.9057,
+      "eval_samples_per_second": 125.493,
+      "eval_steps_per_second": 3.932,
+      "step": 735
+    },
+    {
+      "epoch": 9.74,
+      "eval_loss": 0.6170787811279297,
+      "eval_runtime": 23.928,
+      "eval_samples_per_second": 125.376,
+      "eval_steps_per_second": 3.928,
+      "step": 738
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 2.6917900403768505e-06,
+      "loss": 0.5843,
+      "step": 740
+    },
+    {
+      "epoch": 9.78,
+      "eval_loss": 0.6169885993003845,
+      "eval_runtime": 23.9276,
+      "eval_samples_per_second": 125.378,
+      "eval_steps_per_second": 3.929,
+      "step": 741
+    }
+  ],
+  "max_steps": 750,
+  "num_train_epochs": 10,
+  "total_flos": 7.831063404654625e+18,
+  "trial_name": null,
+  "trial_params": null
+}

vicuna-7b_english-cot+auto-cot_0.0002/lora/checkpoint-741/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d5a386ce8addef927bca0e390e9534e0877a3e4e00f222f83967dd78c49527a
+size 4027