marcchew commited on Nov 20, 2023

Commit

0035cce

1 Parent(s): 0236ad3

Upload folder using huggingface_hub

Browse files

Files changed (40) hide show

checkpoint-1000/config.json +28 -0
checkpoint-1000/generation_config.json +7 -0
checkpoint-1000/model.safetensors +3 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/trainer_state.json +3520 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-1500/config.json +28 -0
checkpoint-1500/generation_config.json +7 -0
checkpoint-1500/model.safetensors +3 -0
checkpoint-1500/optimizer.pt +3 -0
checkpoint-1500/rng_state.pth +3 -0
checkpoint-1500/scheduler.pt +3 -0
checkpoint-1500/trainer_state.json +0 -0
checkpoint-1500/training_args.bin +3 -0
checkpoint-2000/config.json +28 -0
checkpoint-2000/generation_config.json +7 -0
checkpoint-2000/model.safetensors +3 -0
checkpoint-2000/optimizer.pt +3 -0
checkpoint-2000/rng_state.pth +3 -0
checkpoint-2000/scheduler.pt +3 -0
checkpoint-2000/trainer_state.json +0 -0
checkpoint-2000/training_args.bin +3 -0
checkpoint-2500/config.json +28 -0
checkpoint-2500/generation_config.json +7 -0
checkpoint-2500/model.safetensors +3 -0
checkpoint-2500/optimizer.pt +3 -0
checkpoint-2500/rng_state.pth +3 -0
checkpoint-2500/scheduler.pt +3 -0
checkpoint-2500/trainer_state.json +0 -0
checkpoint-2500/training_args.bin +3 -0
checkpoint-500/config.json +28 -0
checkpoint-500/generation_config.json +7 -0
checkpoint-500/model.safetensors +3 -0
checkpoint-500/optimizer.pt +3 -0
checkpoint-500/rng_state.pth +3 -0
checkpoint-500/scheduler.pt +3 -0
checkpoint-500/trainer_state.json +1770 -0
checkpoint-500/training_args.bin +3 -0

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "jeff31415/TinyLlama-1.1B-1T-OpenOrca",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.36.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.36.0.dev0"
+}

checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aca7e1e3a7ac58fc36313e66b7502f3d7c4bf03e8869f06228adafb38483f0ae
+size 2200119664

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8040fb77eaa911da75dd4aa44cced35aeb81d1db5fefe40ceb4c3aa73aef4da4
+size 2205161786

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8748f9c0f005c51ecb3c36eff4ca818edc4663c6499fe0cdc854d122b22097cf
+size 14244

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d0f25bcc1f1518a06ae036d2fecae79a53374d049e84d421fa0c640ceb01ab1
+size 1064

checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,3520 @@

+{
+  "best_metric": 1.5175316333770752,
+  "best_model_checkpoint": "./results/checkpoint-1000",
+  "epoch": 0.4,
+  "eval_steps": 4,
+  "global_step": 1000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.9951999999999997e-07,
+      "loss": 2.6285,
+      "step": 4
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.4697508811950684,
+      "eval_runtime": 0.485,
+      "eval_samples_per_second": 8.248,
+      "eval_steps_per_second": 2.062,
+      "step": 4
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.9904e-07,
+      "loss": 2.6222,
+      "step": 8
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.465975284576416,
+      "eval_runtime": 0.6323,
+      "eval_samples_per_second": 6.326,
+      "eval_steps_per_second": 1.582,
+      "step": 8
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.9856e-07,
+      "loss": 2.6536,
+      "step": 12
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.460374116897583,
+      "eval_runtime": 0.6478,
+      "eval_samples_per_second": 6.175,
+      "eval_steps_per_second": 1.544,
+      "step": 12
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9808e-07,
+      "loss": 2.6785,
+      "step": 16
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.4556970596313477,
+      "eval_runtime": 0.6653,
+      "eval_samples_per_second": 6.012,
+      "eval_steps_per_second": 1.503,
+      "step": 16
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9759999999999996e-07,
+      "loss": 2.6085,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.4514715671539307,
+      "eval_runtime": 0.5241,
+      "eval_samples_per_second": 7.632,
+      "eval_steps_per_second": 1.908,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9711999999999995e-07,
+      "loss": 2.5907,
+      "step": 24
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.4462974071502686,
+      "eval_runtime": 0.4689,
+      "eval_samples_per_second": 8.53,
+      "eval_steps_per_second": 2.133,
+      "step": 24
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9664e-07,
+      "loss": 2.5942,
+      "step": 28
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.4415194988250732,
+      "eval_runtime": 0.4829,
+      "eval_samples_per_second": 8.284,
+      "eval_steps_per_second": 2.071,
+      "step": 28
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9615999999999997e-07,
+      "loss": 2.6101,
+      "step": 32
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.437161922454834,
+      "eval_runtime": 0.4715,
+      "eval_samples_per_second": 8.483,
+      "eval_steps_per_second": 2.121,
+      "step": 32
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9568e-07,
+      "loss": 2.5827,
+      "step": 36
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.432689666748047,
+      "eval_runtime": 0.4938,
+      "eval_samples_per_second": 8.1,
+      "eval_steps_per_second": 2.025,
+      "step": 36
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.952e-07,
+      "loss": 2.5729,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.4281153678894043,
+      "eval_runtime": 0.5021,
+      "eval_samples_per_second": 7.966,
+      "eval_steps_per_second": 1.991,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.9472e-07,
+      "loss": 2.5856,
+      "step": 44
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.423053741455078,
+      "eval_runtime": 0.593,
+      "eval_samples_per_second": 6.746,
+      "eval_steps_per_second": 1.686,
+      "step": 44
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.9423999999999997e-07,
+      "loss": 2.589,
+      "step": 48
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.418571949005127,
+      "eval_runtime": 0.6933,
+      "eval_samples_per_second": 5.77,
+      "eval_steps_per_second": 1.442,
+      "step": 48
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.9375999999999995e-07,
+      "loss": 2.6483,
+      "step": 52
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.414531946182251,
+      "eval_runtime": 0.7167,
+      "eval_samples_per_second": 5.581,
+      "eval_steps_per_second": 1.395,
+      "step": 52
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.9328e-07,
+      "loss": 2.517,
+      "step": 56
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.409538745880127,
+      "eval_runtime": 0.4826,
+      "eval_samples_per_second": 8.289,
+      "eval_steps_per_second": 2.072,
+      "step": 56
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.928e-07,
+      "loss": 2.5987,
+      "step": 60
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.4050426483154297,
+      "eval_runtime": 0.4757,
+      "eval_samples_per_second": 8.409,
+      "eval_steps_per_second": 2.102,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9232e-07,
+      "loss": 2.5489,
+      "step": 64
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.400360107421875,
+      "eval_runtime": 0.4945,
+      "eval_samples_per_second": 8.089,
+      "eval_steps_per_second": 2.022,
+      "step": 64
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9184e-07,
+      "loss": 2.5063,
+      "step": 68
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.396500587463379,
+      "eval_runtime": 0.5,
+      "eval_samples_per_second": 8.001,
+      "eval_steps_per_second": 2.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9136e-07,
+      "loss": 2.5867,
+      "step": 72
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.3916146755218506,
+      "eval_runtime": 0.4602,
+      "eval_samples_per_second": 8.693,
+      "eval_steps_per_second": 2.173,
+      "step": 72
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9087999999999997e-07,
+      "loss": 2.544,
+      "step": 76
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.3873047828674316,
+      "eval_runtime": 0.4731,
+      "eval_samples_per_second": 8.456,
+      "eval_steps_per_second": 2.114,
+      "step": 76
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9039999999999995e-07,
+      "loss": 2.5596,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.382803440093994,
+      "eval_runtime": 0.6092,
+      "eval_samples_per_second": 6.566,
+      "eval_steps_per_second": 1.642,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.8992e-07,
+      "loss": 2.5744,
+      "step": 84
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.3786380290985107,
+      "eval_runtime": 0.7212,
+      "eval_samples_per_second": 5.546,
+      "eval_steps_per_second": 1.387,
+      "step": 84
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8944e-07,
+      "loss": 2.5588,
+      "step": 88
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.374176502227783,
+      "eval_runtime": 0.6826,
+      "eval_samples_per_second": 5.86,
+      "eval_steps_per_second": 1.465,
+      "step": 88
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8895999999999996e-07,
+      "loss": 2.5579,
+      "step": 92
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.3702104091644287,
+      "eval_runtime": 0.4896,
+      "eval_samples_per_second": 8.169,
+      "eval_steps_per_second": 2.042,
+      "step": 92
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8848e-07,
+      "loss": 2.5245,
+      "step": 96
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.3660218715667725,
+      "eval_runtime": 0.4764,
+      "eval_samples_per_second": 8.397,
+      "eval_steps_per_second": 2.099,
+      "step": 96
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.88e-07,
+      "loss": 2.5132,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.36110520362854,
+      "eval_runtime": 0.4799,
+      "eval_samples_per_second": 8.335,
+      "eval_steps_per_second": 2.084,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8751999999999997e-07,
+      "loss": 2.5037,
+      "step": 104
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.3570125102996826,
+      "eval_runtime": 0.4722,
+      "eval_samples_per_second": 8.47,
+      "eval_steps_per_second": 2.118,
+      "step": 104
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8704e-07,
+      "loss": 2.4727,
+      "step": 108
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.3530666828155518,
+      "eval_runtime": 0.467,
+      "eval_samples_per_second": 8.565,
+      "eval_steps_per_second": 2.141,
+      "step": 108
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8656e-07,
+      "loss": 2.4709,
+      "step": 112
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.348759412765503,
+      "eval_runtime": 0.501,
+      "eval_samples_per_second": 7.984,
+      "eval_steps_per_second": 1.996,
+      "step": 112
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8608e-07,
+      "loss": 2.4711,
+      "step": 116
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.344454050064087,
+      "eval_runtime": 0.6607,
+      "eval_samples_per_second": 6.054,
+      "eval_steps_per_second": 1.513,
+      "step": 116
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8559999999999996e-07,
+      "loss": 2.5445,
+      "step": 120
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3402156829833984,
+      "eval_runtime": 0.704,
+      "eval_samples_per_second": 5.682,
+      "eval_steps_per_second": 1.42,
+      "step": 120
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8512e-07,
+      "loss": 2.4994,
+      "step": 124
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3362019062042236,
+      "eval_runtime": 0.6849,
+      "eval_samples_per_second": 5.84,
+      "eval_steps_per_second": 1.46,
+      "step": 124
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8464e-07,
+      "loss": 2.5036,
+      "step": 128
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3319339752197266,
+      "eval_runtime": 0.4864,
+      "eval_samples_per_second": 8.223,
+      "eval_steps_per_second": 2.056,
+      "step": 128
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8416e-07,
+      "loss": 2.5525,
+      "step": 132
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3276522159576416,
+      "eval_runtime": 0.4783,
+      "eval_samples_per_second": 8.364,
+      "eval_steps_per_second": 2.091,
+      "step": 132
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8368e-07,
+      "loss": 2.5245,
+      "step": 136
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3241090774536133,
+      "eval_runtime": 0.4805,
+      "eval_samples_per_second": 8.324,
+      "eval_steps_per_second": 2.081,
+      "step": 136
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.832e-07,
+      "loss": 2.4946,
+      "step": 140
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.3198165893554688,
+      "eval_runtime": 0.473,
+      "eval_samples_per_second": 8.457,
+      "eval_steps_per_second": 2.114,
+      "step": 140
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.8272e-07,
+      "loss": 2.5142,
+      "step": 144
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.3152613639831543,
+      "eval_runtime": 0.4858,
+      "eval_samples_per_second": 8.234,
+      "eval_steps_per_second": 2.058,
+      "step": 144
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.8223999999999997e-07,
+      "loss": 2.4639,
+      "step": 148
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.3112645149230957,
+      "eval_runtime": 0.488,
+      "eval_samples_per_second": 8.196,
+      "eval_steps_per_second": 2.049,
+      "step": 148
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.8176e-07,
+      "loss": 2.4796,
+      "step": 152
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.307020902633667,
+      "eval_runtime": 0.6163,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 1.623,
+      "step": 152
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.8128e-07,
+      "loss": 2.4529,
+      "step": 156
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.303062915802002,
+      "eval_runtime": 0.6764,
+      "eval_samples_per_second": 5.913,
+      "eval_steps_per_second": 1.478,
+      "step": 156
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.808e-07,
+      "loss": 2.4823,
+      "step": 160
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.2993311882019043,
+      "eval_runtime": 0.6854,
+      "eval_samples_per_second": 5.836,
+      "eval_steps_per_second": 1.459,
+      "step": 160
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.8032e-07,
+      "loss": 2.4439,
+      "step": 164
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2947850227355957,
+      "eval_runtime": 0.4745,
+      "eval_samples_per_second": 8.429,
+      "eval_steps_per_second": 2.107,
+      "step": 164
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.7984e-07,
+      "loss": 2.4652,
+      "step": 168
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2908992767333984,
+      "eval_runtime": 0.4759,
+      "eval_samples_per_second": 8.406,
+      "eval_steps_per_second": 2.101,
+      "step": 168
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.7936e-07,
+      "loss": 2.4574,
+      "step": 172
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2867026329040527,
+      "eval_runtime": 0.4973,
+      "eval_samples_per_second": 8.043,
+      "eval_steps_per_second": 2.011,
+      "step": 172
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.7887999999999997e-07,
+      "loss": 2.4557,
+      "step": 176
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.283027172088623,
+      "eval_runtime": 0.4719,
+      "eval_samples_per_second": 8.477,
+      "eval_steps_per_second": 2.119,
+      "step": 176
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.784e-07,
+      "loss": 2.4462,
+      "step": 180
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2787420749664307,
+      "eval_runtime": 0.472,
+      "eval_samples_per_second": 8.474,
+      "eval_steps_per_second": 2.119,
+      "step": 180
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.7792e-07,
+      "loss": 2.3962,
+      "step": 184
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2745461463928223,
+      "eval_runtime": 0.6328,
+      "eval_samples_per_second": 6.322,
+      "eval_steps_per_second": 1.58,
+      "step": 184
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7744e-07,
+      "loss": 2.3666,
+      "step": 188
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.2705912590026855,
+      "eval_runtime": 0.6375,
+      "eval_samples_per_second": 6.274,
+      "eval_steps_per_second": 1.569,
+      "step": 188
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7696e-07,
+      "loss": 2.5024,
+      "step": 192
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.266995906829834,
+      "eval_runtime": 0.6984,
+      "eval_samples_per_second": 5.727,
+      "eval_steps_per_second": 1.432,
+      "step": 192
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7648e-07,
+      "loss": 2.4419,
+      "step": 196
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.2626519203186035,
+      "eval_runtime": 0.7334,
+      "eval_samples_per_second": 5.454,
+      "eval_steps_per_second": 1.363,
+      "step": 196
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.76e-07,
+      "loss": 2.4246,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.2583603858947754,
+      "eval_runtime": 0.48,
+      "eval_samples_per_second": 8.333,
+      "eval_steps_per_second": 2.083,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7551999999999997e-07,
+      "loss": 2.3853,
+      "step": 204
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.2551512718200684,
+      "eval_runtime": 0.4939,
+      "eval_samples_per_second": 8.098,
+      "eval_steps_per_second": 2.025,
+      "step": 204
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7503999999999995e-07,
+      "loss": 2.4032,
+      "step": 208
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.251105785369873,
+      "eval_runtime": 0.46,
+      "eval_samples_per_second": 8.695,
+      "eval_steps_per_second": 2.174,
+      "step": 208
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7456e-07,
+      "loss": 2.4444,
+      "step": 212
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.247025489807129,
+      "eval_runtime": 0.4948,
+      "eval_samples_per_second": 8.084,
+      "eval_steps_per_second": 2.021,
+      "step": 212
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7408e-07,
+      "loss": 2.2932,
+      "step": 216
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.242764472961426,
+      "eval_runtime": 0.4897,
+      "eval_samples_per_second": 8.168,
+      "eval_steps_per_second": 2.042,
+      "step": 216
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.736e-07,
+      "loss": 2.3929,
+      "step": 220
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.2391483783721924,
+      "eval_runtime": 0.6128,
+      "eval_samples_per_second": 6.528,
+      "eval_steps_per_second": 1.632,
+      "step": 220
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7312e-07,
+      "loss": 2.4112,
+      "step": 224
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.234977960586548,
+      "eval_runtime": 0.648,
+      "eval_samples_per_second": 6.172,
+      "eval_steps_per_second": 1.543,
+      "step": 224
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7264e-07,
+      "loss": 2.4191,
+      "step": 228
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.231099843978882,
+      "eval_runtime": 0.6862,
+      "eval_samples_per_second": 5.829,
+      "eval_steps_per_second": 1.457,
+      "step": 228
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7215999999999997e-07,
+      "loss": 2.4408,
+      "step": 232
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.2272462844848633,
+      "eval_runtime": 0.7076,
+      "eval_samples_per_second": 5.653,
+      "eval_steps_per_second": 1.413,
+      "step": 232
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7167999999999996e-07,
+      "loss": 2.3884,
+      "step": 236
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.223376750946045,
+      "eval_runtime": 0.5169,
+      "eval_samples_per_second": 7.738,
+      "eval_steps_per_second": 1.935,
+      "step": 236
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.712e-07,
+      "loss": 2.3689,
+      "step": 240
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.2195653915405273,
+      "eval_runtime": 0.4793,
+      "eval_samples_per_second": 8.346,
+      "eval_steps_per_second": 2.086,
+      "step": 240
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.7072e-07,
+      "loss": 2.3689,
+      "step": 244
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.2153775691986084,
+      "eval_runtime": 0.4771,
+      "eval_samples_per_second": 8.384,
+      "eval_steps_per_second": 2.096,
+      "step": 244
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.7024e-07,
+      "loss": 2.3249,
+      "step": 248
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.211355209350586,
+      "eval_runtime": 0.4778,
+      "eval_samples_per_second": 8.372,
+      "eval_steps_per_second": 2.093,
+      "step": 248
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.6976e-07,
+      "loss": 2.4286,
+      "step": 252
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.207773208618164,
+      "eval_runtime": 0.4873,
+      "eval_samples_per_second": 8.209,
+      "eval_steps_per_second": 2.052,
+      "step": 252
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.6928e-07,
+      "loss": 2.3497,
+      "step": 256
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.203867197036743,
+      "eval_runtime": 0.6281,
+      "eval_samples_per_second": 6.368,
+      "eval_steps_per_second": 1.592,
+      "step": 256
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.6879999999999997e-07,
+      "loss": 2.284,
+      "step": 260
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.199937582015991,
+      "eval_runtime": 0.6885,
+      "eval_samples_per_second": 5.81,
+      "eval_steps_per_second": 1.452,
+      "step": 260
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6831999999999996e-07,
+      "loss": 2.3333,
+      "step": 264
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1958465576171875,
+      "eval_runtime": 0.6799,
+      "eval_samples_per_second": 5.883,
+      "eval_steps_per_second": 1.471,
+      "step": 264
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6784e-07,
+      "loss": 2.3305,
+      "step": 268
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.192072868347168,
+      "eval_runtime": 0.7165,
+      "eval_samples_per_second": 5.583,
+      "eval_steps_per_second": 1.396,
+      "step": 268
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6736e-07,
+      "loss": 2.3465,
+      "step": 272
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1882476806640625,
+      "eval_runtime": 0.485,
+      "eval_samples_per_second": 8.247,
+      "eval_steps_per_second": 2.062,
+      "step": 272
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6687999999999997e-07,
+      "loss": 2.3274,
+      "step": 276
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1841320991516113,
+      "eval_runtime": 0.4767,
+      "eval_samples_per_second": 8.391,
+      "eval_steps_per_second": 2.098,
+      "step": 276
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.664e-07,
+      "loss": 2.3641,
+      "step": 280
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1803271770477295,
+      "eval_runtime": 0.5146,
+      "eval_samples_per_second": 7.774,
+      "eval_steps_per_second": 1.943,
+      "step": 280
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6592e-07,
+      "loss": 2.3089,
+      "step": 284
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.176274538040161,
+      "eval_runtime": 0.488,
+      "eval_samples_per_second": 8.196,
+      "eval_steps_per_second": 2.049,
+      "step": 284
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6543999999999997e-07,
+      "loss": 2.2645,
+      "step": 288
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1720588207244873,
+      "eval_runtime": 0.4973,
+      "eval_samples_per_second": 8.043,
+      "eval_steps_per_second": 2.011,
+      "step": 288
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6495999999999996e-07,
+      "loss": 2.3439,
+      "step": 292
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1687240600585938,
+      "eval_runtime": 0.6283,
+      "eval_samples_per_second": 6.366,
+      "eval_steps_per_second": 1.592,
+      "step": 292
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6448e-07,
+      "loss": 2.3285,
+      "step": 296
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1649253368377686,
+      "eval_runtime": 0.6996,
+      "eval_samples_per_second": 5.718,
+      "eval_steps_per_second": 1.429,
+      "step": 296
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.64e-07,
+      "loss": 2.3126,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.160398483276367,
+      "eval_runtime": 0.6904,
+      "eval_samples_per_second": 5.794,
+      "eval_steps_per_second": 1.448,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6351999999999997e-07,
+      "loss": 2.3356,
+      "step": 304
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1570284366607666,
+      "eval_runtime": 0.4953,
+      "eval_samples_per_second": 8.076,
+      "eval_steps_per_second": 2.019,
+      "step": 304
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6304e-07,
+      "loss": 2.3396,
+      "step": 308
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1527013778686523,
+      "eval_runtime": 0.4977,
+      "eval_samples_per_second": 8.037,
+      "eval_steps_per_second": 2.009,
+      "step": 308
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6256e-07,
+      "loss": 2.2972,
+      "step": 312
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.148724317550659,
+      "eval_runtime": 0.4939,
+      "eval_samples_per_second": 8.099,
+      "eval_steps_per_second": 2.025,
+      "step": 312
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.6208e-07,
+      "loss": 2.3321,
+      "step": 316
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1449663639068604,
+      "eval_runtime": 0.4784,
+      "eval_samples_per_second": 8.362,
+      "eval_steps_per_second": 2.09,
+      "step": 316
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.616e-07,
+      "loss": 2.3348,
+      "step": 320
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1414906978607178,
+      "eval_runtime": 0.4949,
+      "eval_samples_per_second": 8.082,
+      "eval_steps_per_second": 2.021,
+      "step": 320
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.6112e-07,
+      "loss": 2.2728,
+      "step": 324
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1374001502990723,
+      "eval_runtime": 0.6321,
+      "eval_samples_per_second": 6.328,
+      "eval_steps_per_second": 1.582,
+      "step": 324
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.6064e-07,
+      "loss": 2.287,
+      "step": 328
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1333529949188232,
+      "eval_runtime": 0.6547,
+      "eval_samples_per_second": 6.109,
+      "eval_steps_per_second": 1.527,
+      "step": 328
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.6015999999999997e-07,
+      "loss": 2.2474,
+      "step": 332
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1297547817230225,
+      "eval_runtime": 0.7093,
+      "eval_samples_per_second": 5.639,
+      "eval_steps_per_second": 1.41,
+      "step": 332
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.5968e-07,
+      "loss": 2.3214,
+      "step": 336
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.126392364501953,
+      "eval_runtime": 0.6909,
+      "eval_samples_per_second": 5.789,
+      "eval_steps_per_second": 1.447,
+      "step": 336
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.592e-07,
+      "loss": 2.2725,
+      "step": 340
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.122309923171997,
+      "eval_runtime": 0.4823,
+      "eval_samples_per_second": 8.293,
+      "eval_steps_per_second": 2.073,
+      "step": 340
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5872000000000003e-07,
+      "loss": 2.3114,
+      "step": 344
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.118303060531616,
+      "eval_runtime": 0.4954,
+      "eval_samples_per_second": 8.075,
+      "eval_steps_per_second": 2.019,
+      "step": 344
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5824e-07,
+      "loss": 2.2333,
+      "step": 348
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.114621162414551,
+      "eval_runtime": 0.4856,
+      "eval_samples_per_second": 8.238,
+      "eval_steps_per_second": 2.059,
+      "step": 348
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5776e-07,
+      "loss": 2.2812,
+      "step": 352
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.11067795753479,
+      "eval_runtime": 0.4778,
+      "eval_samples_per_second": 8.372,
+      "eval_steps_per_second": 2.093,
+      "step": 352
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5728e-07,
+      "loss": 2.2454,
+      "step": 356
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.106940746307373,
+      "eval_runtime": 0.4945,
+      "eval_samples_per_second": 8.089,
+      "eval_steps_per_second": 2.022,
+      "step": 356
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5679999999999997e-07,
+      "loss": 2.2261,
+      "step": 360
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.1031668186187744,
+      "eval_runtime": 0.6521,
+      "eval_samples_per_second": 6.134,
+      "eval_steps_per_second": 1.533,
+      "step": 360
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5632e-07,
+      "loss": 2.2841,
+      "step": 364
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0989203453063965,
+      "eval_runtime": 0.6249,
+      "eval_samples_per_second": 6.401,
+      "eval_steps_per_second": 1.6,
+      "step": 364
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5584e-07,
+      "loss": 2.2481,
+      "step": 368
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.095189332962036,
+      "eval_runtime": 0.6855,
+      "eval_samples_per_second": 5.835,
+      "eval_steps_per_second": 1.459,
+      "step": 368
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5536e-07,
+      "loss": 2.278,
+      "step": 372
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0912463665008545,
+      "eval_runtime": 0.7393,
+      "eval_samples_per_second": 5.411,
+      "eval_steps_per_second": 1.353,
+      "step": 372
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5488e-07,
+      "loss": 2.2765,
+      "step": 376
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.087336301803589,
+      "eval_runtime": 0.4793,
+      "eval_samples_per_second": 8.345,
+      "eval_steps_per_second": 2.086,
+      "step": 376
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.544e-07,
+      "loss": 2.2232,
+      "step": 380
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0833120346069336,
+      "eval_runtime": 0.487,
+      "eval_samples_per_second": 8.214,
+      "eval_steps_per_second": 2.053,
+      "step": 380
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5392e-07,
+      "loss": 2.306,
+      "step": 384
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.079479932785034,
+      "eval_runtime": 0.4722,
+      "eval_samples_per_second": 8.471,
+      "eval_steps_per_second": 2.118,
+      "step": 384
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5343999999999997e-07,
+      "loss": 2.2126,
+      "step": 388
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0760295391082764,
+      "eval_runtime": 0.4958,
+      "eval_samples_per_second": 8.068,
+      "eval_steps_per_second": 2.017,
+      "step": 388
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5295999999999996e-07,
+      "loss": 2.2557,
+      "step": 392
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.072136402130127,
+      "eval_runtime": 0.469,
+      "eval_samples_per_second": 8.529,
+      "eval_steps_per_second": 2.132,
+      "step": 392
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5248e-07,
+      "loss": 2.1988,
+      "step": 396
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0683670043945312,
+      "eval_runtime": 0.6385,
+      "eval_samples_per_second": 6.264,
+      "eval_steps_per_second": 1.566,
+      "step": 396
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.52e-07,
+      "loss": 2.1917,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0638906955718994,
+      "eval_runtime": 0.6834,
+      "eval_samples_per_second": 5.853,
+      "eval_steps_per_second": 1.463,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5152e-07,
+      "loss": 2.2479,
+      "step": 404
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0599253177642822,
+      "eval_runtime": 0.7261,
+      "eval_samples_per_second": 5.509,
+      "eval_steps_per_second": 1.377,
+      "step": 404
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5104e-07,
+      "loss": 2.1484,
+      "step": 408
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.055751085281372,
+      "eval_runtime": 0.7367,
+      "eval_samples_per_second": 5.429,
+      "eval_steps_per_second": 1.357,
+      "step": 408
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5056e-07,
+      "loss": 2.1886,
+      "step": 412
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.052119016647339,
+      "eval_runtime": 0.4808,
+      "eval_samples_per_second": 8.319,
+      "eval_steps_per_second": 2.08,
+      "step": 412
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.5007999999999997e-07,
+      "loss": 2.2026,
+      "step": 416
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0482354164123535,
+      "eval_runtime": 0.4856,
+      "eval_samples_per_second": 8.238,
+      "eval_steps_per_second": 2.059,
+      "step": 416
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4959999999999996e-07,
+      "loss": 2.1572,
+      "step": 420
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0441887378692627,
+      "eval_runtime": 0.4779,
+      "eval_samples_per_second": 8.37,
+      "eval_steps_per_second": 2.093,
+      "step": 420
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4912e-07,
+      "loss": 2.1931,
+      "step": 424
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0399935245513916,
+      "eval_runtime": 0.4803,
+      "eval_samples_per_second": 8.329,
+      "eval_steps_per_second": 2.082,
+      "step": 424
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4864e-07,
+      "loss": 2.161,
+      "step": 428
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.03645920753479,
+      "eval_runtime": 0.4924,
+      "eval_samples_per_second": 8.123,
+      "eval_steps_per_second": 2.031,
+      "step": 428
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4816e-07,
+      "loss": 2.1115,
+      "step": 432
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.032196044921875,
+      "eval_runtime": 0.6345,
+      "eval_samples_per_second": 6.304,
+      "eval_steps_per_second": 1.576,
+      "step": 432
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4768e-07,
+      "loss": 2.173,
+      "step": 436
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.028397560119629,
+      "eval_runtime": 0.6625,
+      "eval_samples_per_second": 6.038,
+      "eval_steps_per_second": 1.509,
+      "step": 436
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.472e-07,
+      "loss": 2.1491,
+      "step": 440
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0247464179992676,
+      "eval_runtime": 0.6969,
+      "eval_samples_per_second": 5.74,
+      "eval_steps_per_second": 1.435,
+      "step": 440
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4672e-07,
+      "loss": 2.1716,
+      "step": 444
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0203933715820312,
+      "eval_runtime": 0.7311,
+      "eval_samples_per_second": 5.471,
+      "eval_steps_per_second": 1.368,
+      "step": 444
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4623999999999996e-07,
+      "loss": 2.2031,
+      "step": 448
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.016533374786377,
+      "eval_runtime": 0.4875,
+      "eval_samples_per_second": 8.206,
+      "eval_steps_per_second": 2.051,
+      "step": 448
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4576e-07,
+      "loss": 2.1466,
+      "step": 452
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.012568473815918,
+      "eval_runtime": 0.4897,
+      "eval_samples_per_second": 8.168,
+      "eval_steps_per_second": 2.042,
+      "step": 452
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4528e-07,
+      "loss": 2.1384,
+      "step": 456
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0088417530059814,
+      "eval_runtime": 0.4969,
+      "eval_samples_per_second": 8.05,
+      "eval_steps_per_second": 2.013,
+      "step": 456
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4479999999999997e-07,
+      "loss": 2.1824,
+      "step": 460
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0047850608825684,
+      "eval_runtime": 0.4897,
+      "eval_samples_per_second": 8.168,
+      "eval_steps_per_second": 2.042,
+      "step": 460
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4432e-07,
+      "loss": 2.1401,
+      "step": 464
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.0006463527679443,
+      "eval_runtime": 0.4882,
+      "eval_samples_per_second": 8.193,
+      "eval_steps_per_second": 2.048,
+      "step": 464
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4384e-07,
+      "loss": 2.2086,
+      "step": 468
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9969314336776733,
+      "eval_runtime": 0.6612,
+      "eval_samples_per_second": 6.049,
+      "eval_steps_per_second": 1.512,
+      "step": 468
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4336e-07,
+      "loss": 2.1687,
+      "step": 472
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9925954341888428,
+      "eval_runtime": 0.6804,
+      "eval_samples_per_second": 5.879,
+      "eval_steps_per_second": 1.47,
+      "step": 472
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4287999999999996e-07,
+      "loss": 2.145,
+      "step": 476
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9888066053390503,
+      "eval_runtime": 0.6955,
+      "eval_samples_per_second": 5.752,
+      "eval_steps_per_second": 1.438,
+      "step": 476
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.424e-07,
+      "loss": 2.2007,
+      "step": 480
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9850127696990967,
+      "eval_runtime": 0.7558,
+      "eval_samples_per_second": 5.292,
+      "eval_steps_per_second": 1.323,
+      "step": 480
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4192e-07,
+      "loss": 2.1367,
+      "step": 484
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9808437824249268,
+      "eval_runtime": 0.4706,
+      "eval_samples_per_second": 8.499,
+      "eval_steps_per_second": 2.125,
+      "step": 484
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.4143999999999997e-07,
+      "loss": 2.1291,
+      "step": 488
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9767786264419556,
+      "eval_runtime": 0.4803,
+      "eval_samples_per_second": 8.327,
+      "eval_steps_per_second": 2.082,
+      "step": 488
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.4096e-07,
+      "loss": 2.1124,
+      "step": 492
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9728602170944214,
+      "eval_runtime": 0.4802,
+      "eval_samples_per_second": 8.33,
+      "eval_steps_per_second": 2.082,
+      "step": 492
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.4048e-07,
+      "loss": 2.0738,
+      "step": 496
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.968900203704834,
+      "eval_runtime": 0.4884,
+      "eval_samples_per_second": 8.189,
+      "eval_steps_per_second": 2.047,
+      "step": 496
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.4e-07,
+      "loss": 2.1048,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9646457433700562,
+      "eval_runtime": 0.5026,
+      "eval_samples_per_second": 7.959,
+      "eval_steps_per_second": 1.99,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.3951999999999996e-07,
+      "loss": 2.0995,
+      "step": 504
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9606600999832153,
+      "eval_runtime": 0.7928,
+      "eval_samples_per_second": 5.045,
+      "eval_steps_per_second": 1.261,
+      "step": 504
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.3903999999999995e-07,
+      "loss": 2.0816,
+      "step": 508
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.956822395324707,
+      "eval_runtime": 0.5321,
+      "eval_samples_per_second": 7.518,
+      "eval_steps_per_second": 1.879,
+      "step": 508
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.3856e-07,
+      "loss": 2.0969,
+      "step": 512
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9526716470718384,
+      "eval_runtime": 0.5174,
+      "eval_samples_per_second": 7.732,
+      "eval_steps_per_second": 1.933,
+      "step": 512
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2.3807999999999997e-07,
+      "loss": 2.1034,
+      "step": 516
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.948419451713562,
+      "eval_runtime": 0.5393,
+      "eval_samples_per_second": 7.418,
+      "eval_steps_per_second": 1.854,
+      "step": 516
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2.376e-07,
+      "loss": 2.0654,
+      "step": 520
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.9442145824432373,
+      "eval_runtime": 0.5372,
+      "eval_samples_per_second": 7.446,
+      "eval_steps_per_second": 1.861,
+      "step": 520
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2.3712e-07,
+      "loss": 2.1175,
+      "step": 524
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.9403698444366455,
+      "eval_runtime": 0.5129,
+      "eval_samples_per_second": 7.798,
+      "eval_steps_per_second": 1.95,
+      "step": 524
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2.3663999999999998e-07,
+      "loss": 2.0829,
+      "step": 528
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.936263084411621,
+      "eval_runtime": 0.7202,
+      "eval_samples_per_second": 5.554,
+      "eval_steps_per_second": 1.388,
+      "step": 528
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2.3616e-07,
+      "loss": 2.0973,
+      "step": 532
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.9322115182876587,
+      "eval_runtime": 0.6884,
+      "eval_samples_per_second": 5.81,
+      "eval_steps_per_second": 1.453,
+      "step": 532
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 2.3567999999999998e-07,
+      "loss": 2.0439,
+      "step": 536
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.927826166152954,
+      "eval_runtime": 0.7779,
+      "eval_samples_per_second": 5.142,
+      "eval_steps_per_second": 1.286,
+      "step": 536
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.352e-07,
+      "loss": 2.0791,
+      "step": 540
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 1.923945426940918,
+      "eval_runtime": 0.7514,
+      "eval_samples_per_second": 5.323,
+      "eval_steps_per_second": 1.331,
+      "step": 540
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.3471999999999997e-07,
+      "loss": 2.0988,
+      "step": 544
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 1.9202955961227417,
+      "eval_runtime": 0.5194,
+      "eval_samples_per_second": 7.701,
+      "eval_steps_per_second": 1.925,
+      "step": 544
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.3424e-07,
+      "loss": 2.0179,
+      "step": 548
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 1.916027307510376,
+      "eval_runtime": 0.5072,
+      "eval_samples_per_second": 7.887,
+      "eval_steps_per_second": 1.972,
+      "step": 548
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.3376e-07,
+      "loss": 2.0452,
+      "step": 552
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 1.911855697631836,
+      "eval_runtime": 0.5112,
+      "eval_samples_per_second": 7.825,
+      "eval_steps_per_second": 1.956,
+      "step": 552
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.3327999999999998e-07,
+      "loss": 1.9792,
+      "step": 556
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 1.907868504524231,
+      "eval_runtime": 0.5368,
+      "eval_samples_per_second": 7.452,
+      "eval_steps_per_second": 1.863,
+      "step": 556
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 2.328e-07,
+      "loss": 1.9862,
+      "step": 560
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 1.9032366275787354,
+      "eval_runtime": 0.52,
+      "eval_samples_per_second": 7.692,
+      "eval_steps_per_second": 1.923,
+      "step": 560
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.3231999999999998e-07,
+      "loss": 2.0176,
+      "step": 564
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.8994207382202148,
+      "eval_runtime": 0.5141,
+      "eval_samples_per_second": 7.78,
+      "eval_steps_per_second": 1.945,
+      "step": 564
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.3184e-07,
+      "loss": 2.0066,
+      "step": 568
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.8953509330749512,
+      "eval_runtime": 0.7027,
+      "eval_samples_per_second": 5.692,
+      "eval_steps_per_second": 1.423,
+      "step": 568
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.3135999999999998e-07,
+      "loss": 2.0333,
+      "step": 572
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.8914432525634766,
+      "eval_runtime": 0.7279,
+      "eval_samples_per_second": 5.495,
+      "eval_steps_per_second": 1.374,
+      "step": 572
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.3088e-07,
+      "loss": 2.0316,
+      "step": 576
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.8870800733566284,
+      "eval_runtime": 0.7212,
+      "eval_samples_per_second": 5.546,
+      "eval_steps_per_second": 1.386,
+      "step": 576
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.304e-07,
+      "loss": 2.0114,
+      "step": 580
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.8827916383743286,
+      "eval_runtime": 0.6774,
+      "eval_samples_per_second": 5.905,
+      "eval_steps_per_second": 1.476,
+      "step": 580
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 2.2991999999999998e-07,
+      "loss": 2.0093,
+      "step": 584
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.8788678646087646,
+      "eval_runtime": 0.5185,
+      "eval_samples_per_second": 7.715,
+      "eval_steps_per_second": 1.929,
+      "step": 584
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.2944e-07,
+      "loss": 1.9829,
+      "step": 588
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.8749186992645264,
+      "eval_runtime": 0.5091,
+      "eval_samples_per_second": 7.857,
+      "eval_steps_per_second": 1.964,
+      "step": 588
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.2895999999999998e-07,
+      "loss": 1.971,
+      "step": 592
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.8706499338150024,
+      "eval_runtime": 0.5204,
+      "eval_samples_per_second": 7.687,
+      "eval_steps_per_second": 1.922,
+      "step": 592
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.2848000000000002e-07,
+      "loss": 2.0188,
+      "step": 596
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.8667842149734497,
+      "eval_runtime": 0.5224,
+      "eval_samples_per_second": 7.657,
+      "eval_steps_per_second": 1.914,
+      "step": 596
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.28e-07,
+      "loss": 2.0081,
+      "step": 600
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.8627525568008423,
+      "eval_runtime": 0.5196,
+      "eval_samples_per_second": 7.699,
+      "eval_steps_per_second": 1.925,
+      "step": 600
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.2752e-07,
+      "loss": 2.0014,
+      "step": 604
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.8587167263031006,
+      "eval_runtime": 0.7373,
+      "eval_samples_per_second": 5.425,
+      "eval_steps_per_second": 1.356,
+      "step": 604
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.2704e-07,
+      "loss": 1.9741,
+      "step": 608
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.8543612957000732,
+      "eval_runtime": 0.7492,
+      "eval_samples_per_second": 5.339,
+      "eval_steps_per_second": 1.335,
+      "step": 608
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 2.2655999999999999e-07,
+      "loss": 1.9828,
+      "step": 612
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.8504937887191772,
+      "eval_runtime": 0.7242,
+      "eval_samples_per_second": 5.524,
+      "eval_steps_per_second": 1.381,
+      "step": 612
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.2608e-07,
+      "loss": 1.9481,
+      "step": 616
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.8463339805603027,
+      "eval_runtime": 0.6997,
+      "eval_samples_per_second": 5.716,
+      "eval_steps_per_second": 1.429,
+      "step": 616
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.2559999999999998e-07,
+      "loss": 1.9584,
+      "step": 620
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.8423882722854614,
+      "eval_runtime": 0.5137,
+      "eval_samples_per_second": 7.787,
+      "eval_steps_per_second": 1.947,
+      "step": 620
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.2511999999999997e-07,
+      "loss": 1.9449,
+      "step": 624
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.838066577911377,
+      "eval_runtime": 0.5091,
+      "eval_samples_per_second": 7.857,
+      "eval_steps_per_second": 1.964,
+      "step": 624
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.2464e-07,
+      "loss": 1.9753,
+      "step": 628
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.8342829942703247,
+      "eval_runtime": 0.504,
+      "eval_samples_per_second": 7.936,
+      "eval_steps_per_second": 1.984,
+      "step": 628
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.2416e-07,
+      "loss": 2.0055,
+      "step": 632
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.8300307989120483,
+      "eval_runtime": 0.5201,
+      "eval_samples_per_second": 7.691,
+      "eval_steps_per_second": 1.923,
+      "step": 632
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 2.2368e-07,
+      "loss": 1.98,
+      "step": 636
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 1.8260575532913208,
+      "eval_runtime": 0.5267,
+      "eval_samples_per_second": 7.594,
+      "eval_steps_per_second": 1.898,
+      "step": 636
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.232e-07,
+      "loss": 1.9757,
+      "step": 640
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.8222540616989136,
+      "eval_runtime": 0.7574,
+      "eval_samples_per_second": 5.281,
+      "eval_steps_per_second": 1.32,
+      "step": 640
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.2271999999999997e-07,
+      "loss": 1.9683,
+      "step": 644
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.818216323852539,
+      "eval_runtime": 0.7304,
+      "eval_samples_per_second": 5.476,
+      "eval_steps_per_second": 1.369,
+      "step": 644
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.2223999999999998e-07,
+      "loss": 1.926,
+      "step": 648
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.8140522241592407,
+      "eval_runtime": 0.7453,
+      "eval_samples_per_second": 5.367,
+      "eval_steps_per_second": 1.342,
+      "step": 648
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.2175999999999997e-07,
+      "loss": 1.9454,
+      "step": 652
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.8100805282592773,
+      "eval_runtime": 0.6536,
+      "eval_samples_per_second": 6.12,
+      "eval_steps_per_second": 1.53,
+      "step": 652
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.2128e-07,
+      "loss": 1.9352,
+      "step": 656
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.8059089183807373,
+      "eval_runtime": 0.5193,
+      "eval_samples_per_second": 7.702,
+      "eval_steps_per_second": 1.926,
+      "step": 656
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.208e-07,
+      "loss": 1.8816,
+      "step": 660
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.8020563125610352,
+      "eval_runtime": 0.5265,
+      "eval_samples_per_second": 7.597,
+      "eval_steps_per_second": 1.899,
+      "step": 660
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.2032e-07,
+      "loss": 1.9182,
+      "step": 664
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.7980492115020752,
+      "eval_runtime": 0.5102,
+      "eval_samples_per_second": 7.84,
+      "eval_steps_per_second": 1.96,
+      "step": 664
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.1984e-07,
+      "loss": 1.9659,
+      "step": 668
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.7941217422485352,
+      "eval_runtime": 0.5988,
+      "eval_samples_per_second": 6.681,
+      "eval_steps_per_second": 1.67,
+      "step": 668
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.1935999999999997e-07,
+      "loss": 1.8932,
+      "step": 672
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.7901490926742554,
+      "eval_runtime": 0.5339,
+      "eval_samples_per_second": 7.492,
+      "eval_steps_per_second": 1.873,
+      "step": 672
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.1887999999999999e-07,
+      "loss": 1.8608,
+      "step": 676
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.786109447479248,
+      "eval_runtime": 0.7219,
+      "eval_samples_per_second": 5.541,
+      "eval_steps_per_second": 1.385,
+      "step": 676
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.184e-07,
+      "loss": 1.941,
+      "step": 680
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.7824102640151978,
+      "eval_runtime": 0.7619,
+      "eval_samples_per_second": 5.25,
+      "eval_steps_per_second": 1.313,
+      "step": 680
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 2.1792e-07,
+      "loss": 1.8854,
+      "step": 684
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.77846097946167,
+      "eval_runtime": 0.7601,
+      "eval_samples_per_second": 5.262,
+      "eval_steps_per_second": 1.316,
+      "step": 684
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.1744e-07,
+      "loss": 1.8912,
+      "step": 688
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.7742952108383179,
+      "eval_runtime": 0.59,
+      "eval_samples_per_second": 6.78,
+      "eval_steps_per_second": 1.695,
+      "step": 688
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.1695999999999998e-07,
+      "loss": 1.8667,
+      "step": 692
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.770714521408081,
+      "eval_runtime": 0.5262,
+      "eval_samples_per_second": 7.601,
+      "eval_steps_per_second": 1.9,
+      "step": 692
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.1648e-07,
+      "loss": 1.912,
+      "step": 696
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.7666008472442627,
+      "eval_runtime": 0.5272,
+      "eval_samples_per_second": 7.587,
+      "eval_steps_per_second": 1.897,
+      "step": 696
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.1599999999999998e-07,
+      "loss": 1.9009,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.7627824544906616,
+      "eval_runtime": 0.5295,
+      "eval_samples_per_second": 7.555,
+      "eval_steps_per_second": 1.889,
+      "step": 700
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.1552000000000001e-07,
+      "loss": 1.906,
+      "step": 704
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.75889253616333,
+      "eval_runtime": 0.5589,
+      "eval_samples_per_second": 7.157,
+      "eval_steps_per_second": 1.789,
+      "step": 704
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.1504e-07,
+      "loss": 1.8671,
+      "step": 708
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.7549973726272583,
+      "eval_runtime": 0.687,
+      "eval_samples_per_second": 5.822,
+      "eval_steps_per_second": 1.456,
+      "step": 708
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 2.1455999999999998e-07,
+      "loss": 1.8609,
+      "step": 712
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 1.7507662773132324,
+      "eval_runtime": 0.7225,
+      "eval_samples_per_second": 5.537,
+      "eval_steps_per_second": 1.384,
+      "step": 712
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.1408e-07,
+      "loss": 1.8485,
+      "step": 716
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.746917486190796,
+      "eval_runtime": 0.7954,
+      "eval_samples_per_second": 5.029,
+      "eval_steps_per_second": 1.257,
+      "step": 716
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.1359999999999998e-07,
+      "loss": 1.8334,
+      "step": 720
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.7430514097213745,
+      "eval_runtime": 0.7433,
+      "eval_samples_per_second": 5.381,
+      "eval_steps_per_second": 1.345,
+      "step": 720
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.1312e-07,
+      "loss": 1.8763,
+      "step": 724
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.7392196655273438,
+      "eval_runtime": 0.5237,
+      "eval_samples_per_second": 7.638,
+      "eval_steps_per_second": 1.91,
+      "step": 724
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.1263999999999998e-07,
+      "loss": 1.9005,
+      "step": 728
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.7355214357376099,
+      "eval_runtime": 0.524,
+      "eval_samples_per_second": 7.634,
+      "eval_steps_per_second": 1.908,
+      "step": 728
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.1216000000000002e-07,
+      "loss": 1.8669,
+      "step": 732
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.731513261795044,
+      "eval_runtime": 0.5593,
+      "eval_samples_per_second": 7.152,
+      "eval_steps_per_second": 1.788,
+      "step": 732
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 2.1168e-07,
+      "loss": 1.8984,
+      "step": 736
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.727636694908142,
+      "eval_runtime": 0.5241,
+      "eval_samples_per_second": 7.632,
+      "eval_steps_per_second": 1.908,
+      "step": 736
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.1119999999999999e-07,
+      "loss": 1.8074,
+      "step": 740
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.7240556478500366,
+      "eval_runtime": 0.715,
+      "eval_samples_per_second": 5.594,
+      "eval_steps_per_second": 1.399,
+      "step": 740
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.1072e-07,
+      "loss": 1.8614,
+      "step": 744
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.7201639413833618,
+      "eval_runtime": 0.7611,
+      "eval_samples_per_second": 5.256,
+      "eval_steps_per_second": 1.314,
+      "step": 744
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.1023999999999998e-07,
+      "loss": 1.8211,
+      "step": 748
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.7165008783340454,
+      "eval_runtime": 0.7193,
+      "eval_samples_per_second": 5.561,
+      "eval_steps_per_second": 1.39,
+      "step": 748
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.0976e-07,
+      "loss": 1.8553,
+      "step": 752
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.7123990058898926,
+      "eval_runtime": 0.5463,
+      "eval_samples_per_second": 7.323,
+      "eval_steps_per_second": 1.831,
+      "step": 752
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.0927999999999998e-07,
+      "loss": 1.7978,
+      "step": 756
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.7084720134735107,
+      "eval_runtime": 0.574,
+      "eval_samples_per_second": 6.968,
+      "eval_steps_per_second": 1.742,
+      "step": 756
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 2.0879999999999996e-07,
+      "loss": 1.8203,
+      "step": 760
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.7048146724700928,
+      "eval_runtime": 0.5838,
+      "eval_samples_per_second": 6.852,
+      "eval_steps_per_second": 1.713,
+      "step": 760
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 2.0832e-07,
+      "loss": 1.8192,
+      "step": 764
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.7010469436645508,
+      "eval_runtime": 0.5225,
+      "eval_samples_per_second": 7.656,
+      "eval_steps_per_second": 1.914,
+      "step": 764
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 2.0784e-07,
+      "loss": 1.8532,
+      "step": 768
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6973625421524048,
+      "eval_runtime": 0.525,
+      "eval_samples_per_second": 7.619,
+      "eval_steps_per_second": 1.905,
+      "step": 768
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 2.0736e-07,
+      "loss": 1.8307,
+      "step": 772
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6935136318206787,
+      "eval_runtime": 0.7235,
+      "eval_samples_per_second": 5.528,
+      "eval_steps_per_second": 1.382,
+      "step": 772
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 2.0687999999999998e-07,
+      "loss": 1.8207,
+      "step": 776
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6895670890808105,
+      "eval_runtime": 0.8289,
+      "eval_samples_per_second": 4.826,
+      "eval_steps_per_second": 1.206,
+      "step": 776
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 2.0639999999999997e-07,
+      "loss": 1.7895,
+      "step": 780
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6858075857162476,
+      "eval_runtime": 0.7778,
+      "eval_samples_per_second": 5.143,
+      "eval_steps_per_second": 1.286,
+      "step": 780
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 2.0592e-07,
+      "loss": 1.7976,
+      "step": 784
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.6820955276489258,
+      "eval_runtime": 0.5265,
+      "eval_samples_per_second": 7.597,
+      "eval_steps_per_second": 1.899,
+      "step": 784
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.0544e-07,
+      "loss": 1.814,
+      "step": 788
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.6785138845443726,
+      "eval_runtime": 0.5179,
+      "eval_samples_per_second": 7.724,
+      "eval_steps_per_second": 1.931,
+      "step": 788
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.0496e-07,
+      "loss": 1.7972,
+      "step": 792
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.674804449081421,
+      "eval_runtime": 0.5304,
+      "eval_samples_per_second": 7.541,
+      "eval_steps_per_second": 1.885,
+      "step": 792
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.0448e-07,
+      "loss": 1.8258,
+      "step": 796
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.6713837385177612,
+      "eval_runtime": 0.5336,
+      "eval_samples_per_second": 7.496,
+      "eval_steps_per_second": 1.874,
+      "step": 796
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.04e-07,
+      "loss": 1.79,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.667376160621643,
+      "eval_runtime": 0.7608,
+      "eval_samples_per_second": 5.258,
+      "eval_steps_per_second": 1.314,
+      "step": 800
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.0351999999999999e-07,
+      "loss": 1.802,
+      "step": 804
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.6640408039093018,
+      "eval_runtime": 0.7498,
+      "eval_samples_per_second": 5.335,
+      "eval_steps_per_second": 1.334,
+      "step": 804
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.0303999999999997e-07,
+      "loss": 1.7784,
+      "step": 808
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.6603385210037231,
+      "eval_runtime": 0.7501,
+      "eval_samples_per_second": 5.333,
+      "eval_steps_per_second": 1.333,
+      "step": 808
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 2.0256e-07,
+      "loss": 1.7671,
+      "step": 812
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 1.6568516492843628,
+      "eval_runtime": 0.5206,
+      "eval_samples_per_second": 7.684,
+      "eval_steps_per_second": 1.921,
+      "step": 812
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 2.0208e-07,
+      "loss": 1.7618,
+      "step": 816
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.653469443321228,
+      "eval_runtime": 0.5354,
+      "eval_samples_per_second": 7.472,
+      "eval_steps_per_second": 1.868,
+      "step": 816
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 2.016e-07,
+      "loss": 1.8207,
+      "step": 820
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.6502578258514404,
+      "eval_runtime": 0.523,
+      "eval_samples_per_second": 7.648,
+      "eval_steps_per_second": 1.912,
+      "step": 820
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 2.0112e-07,
+      "loss": 1.7837,
+      "step": 824
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.6467454433441162,
+      "eval_runtime": 0.5297,
+      "eval_samples_per_second": 7.552,
+      "eval_steps_per_second": 1.888,
+      "step": 824
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 2.0063999999999998e-07,
+      "loss": 1.8066,
+      "step": 828
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.6439214944839478,
+      "eval_runtime": 0.522,
+      "eval_samples_per_second": 7.663,
+      "eval_steps_per_second": 1.916,
+      "step": 828
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 2.0016e-07,
+      "loss": 1.7814,
+      "step": 832
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.6407381296157837,
+      "eval_runtime": 0.5382,
+      "eval_samples_per_second": 7.432,
+      "eval_steps_per_second": 1.858,
+      "step": 832
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.9967999999999997e-07,
+      "loss": 1.7244,
+      "step": 836
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.6372514963150024,
+      "eval_runtime": 0.7157,
+      "eval_samples_per_second": 5.589,
+      "eval_steps_per_second": 1.397,
+      "step": 836
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.992e-07,
+      "loss": 1.7195,
+      "step": 840
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.634232997894287,
+      "eval_runtime": 0.7254,
+      "eval_samples_per_second": 5.514,
+      "eval_steps_per_second": 1.379,
+      "step": 840
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.9872e-07,
+      "loss": 1.7524,
+      "step": 844
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.6310441493988037,
+      "eval_runtime": 0.7839,
+      "eval_samples_per_second": 5.103,
+      "eval_steps_per_second": 1.276,
+      "step": 844
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.9824e-07,
+      "loss": 1.7644,
+      "step": 848
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.6279191970825195,
+      "eval_runtime": 0.5253,
+      "eval_samples_per_second": 7.615,
+      "eval_steps_per_second": 1.904,
+      "step": 848
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.9776e-07,
+      "loss": 1.7171,
+      "step": 852
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.6244579553604126,
+      "eval_runtime": 0.5359,
+      "eval_samples_per_second": 7.464,
+      "eval_steps_per_second": 1.866,
+      "step": 852
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.9727999999999998e-07,
+      "loss": 1.7418,
+      "step": 856
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.6212078332901,
+      "eval_runtime": 0.5379,
+      "eval_samples_per_second": 7.436,
+      "eval_steps_per_second": 1.859,
+      "step": 856
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 1.968e-07,
+      "loss": 1.7337,
+      "step": 860
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.6180227994918823,
+      "eval_runtime": 0.5259,
+      "eval_samples_per_second": 7.606,
+      "eval_steps_per_second": 1.902,
+      "step": 860
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.9631999999999997e-07,
+      "loss": 1.7441,
+      "step": 864
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 1.61477530002594,
+      "eval_runtime": 0.5216,
+      "eval_samples_per_second": 7.669,
+      "eval_steps_per_second": 1.917,
+      "step": 864
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.9584e-07,
+      "loss": 1.694,
+      "step": 868
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 1.611538052558899,
+      "eval_runtime": 0.6803,
+      "eval_samples_per_second": 5.88,
+      "eval_steps_per_second": 1.47,
+      "step": 868
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.9536e-07,
+      "loss": 1.7601,
+      "step": 872
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 1.6083098649978638,
+      "eval_runtime": 0.716,
+      "eval_samples_per_second": 5.586,
+      "eval_steps_per_second": 1.397,
+      "step": 872
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.9487999999999998e-07,
+      "loss": 1.7081,
+      "step": 876
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 1.6050214767456055,
+      "eval_runtime": 0.7622,
+      "eval_samples_per_second": 5.248,
+      "eval_steps_per_second": 1.312,
+      "step": 876
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.944e-07,
+      "loss": 1.7101,
+      "step": 880
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 1.6019953489303589,
+      "eval_runtime": 0.7766,
+      "eval_samples_per_second": 5.151,
+      "eval_steps_per_second": 1.288,
+      "step": 880
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 1.9391999999999998e-07,
+      "loss": 1.7271,
+      "step": 884
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 1.5990221500396729,
+      "eval_runtime": 0.5153,
+      "eval_samples_per_second": 7.763,
+      "eval_steps_per_second": 1.941,
+      "step": 884
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.9344e-07,
+      "loss": 1.7402,
+      "step": 888
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 1.5954092741012573,
+      "eval_runtime": 0.5168,
+      "eval_samples_per_second": 7.74,
+      "eval_steps_per_second": 1.935,
+      "step": 888
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.9296e-07,
+      "loss": 1.7125,
+      "step": 892
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 1.5921534299850464,
+      "eval_runtime": 0.5424,
+      "eval_samples_per_second": 7.375,
+      "eval_steps_per_second": 1.844,
+      "step": 892
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.9248e-07,
+      "loss": 1.6949,
+      "step": 896
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 1.5888370275497437,
+      "eval_runtime": 0.5307,
+      "eval_samples_per_second": 7.537,
+      "eval_steps_per_second": 1.884,
+      "step": 896
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.92e-07,
+      "loss": 1.7145,
+      "step": 900
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 1.5858186483383179,
+      "eval_runtime": 0.511,
+      "eval_samples_per_second": 7.828,
+      "eval_steps_per_second": 1.957,
+      "step": 900
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.9151999999999998e-07,
+      "loss": 1.6665,
+      "step": 904
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 1.5824443101882935,
+      "eval_runtime": 0.6907,
+      "eval_samples_per_second": 5.791,
+      "eval_steps_per_second": 1.448,
+      "step": 904
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.9104e-07,
+      "loss": 1.6929,
+      "step": 908
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 1.5796196460723877,
+      "eval_runtime": 0.7487,
+      "eval_samples_per_second": 5.342,
+      "eval_steps_per_second": 1.336,
+      "step": 908
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 1.9055999999999998e-07,
+      "loss": 1.7068,
+      "step": 912
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 1.5765777826309204,
+      "eval_runtime": 0.7477,
+      "eval_samples_per_second": 5.35,
+      "eval_steps_per_second": 1.337,
+      "step": 912
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.9008000000000002e-07,
+      "loss": 1.6877,
+      "step": 916
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.57340669631958,
+      "eval_runtime": 0.753,
+      "eval_samples_per_second": 5.312,
+      "eval_steps_per_second": 1.328,
+      "step": 916
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.896e-07,
+      "loss": 1.6718,
+      "step": 920
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.5706267356872559,
+      "eval_runtime": 0.514,
+      "eval_samples_per_second": 7.782,
+      "eval_steps_per_second": 1.945,
+      "step": 920
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8912e-07,
+      "loss": 1.6886,
+      "step": 924
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.5676339864730835,
+      "eval_runtime": 0.5222,
+      "eval_samples_per_second": 7.66,
+      "eval_steps_per_second": 1.915,
+      "step": 924
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8864e-07,
+      "loss": 1.7459,
+      "step": 928
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.5645827054977417,
+      "eval_runtime": 0.5299,
+      "eval_samples_per_second": 7.548,
+      "eval_steps_per_second": 1.887,
+      "step": 928
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8815999999999999e-07,
+      "loss": 1.6596,
+      "step": 932
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.5616861581802368,
+      "eval_runtime": 0.5303,
+      "eval_samples_per_second": 7.543,
+      "eval_steps_per_second": 1.886,
+      "step": 932
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8768e-07,
+      "loss": 1.6689,
+      "step": 936
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.5588451623916626,
+      "eval_runtime": 0.5236,
+      "eval_samples_per_second": 7.639,
+      "eval_steps_per_second": 1.91,
+      "step": 936
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.8719999999999998e-07,
+      "loss": 1.6744,
+      "step": 940
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.5560673475265503,
+      "eval_runtime": 0.7233,
+      "eval_samples_per_second": 5.53,
+      "eval_steps_per_second": 1.383,
+      "step": 940
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.8671999999999997e-07,
+      "loss": 1.7009,
+      "step": 944
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.5533243417739868,
+      "eval_runtime": 0.6983,
+      "eval_samples_per_second": 5.728,
+      "eval_steps_per_second": 1.432,
+      "step": 944
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.8624e-07,
+      "loss": 1.6651,
+      "step": 948
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.55048668384552,
+      "eval_runtime": 0.7511,
+      "eval_samples_per_second": 5.325,
+      "eval_steps_per_second": 1.331,
+      "step": 948
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.8576e-07,
+      "loss": 1.6821,
+      "step": 952
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.547943353652954,
+      "eval_runtime": 0.532,
+      "eval_samples_per_second": 7.519,
+      "eval_steps_per_second": 1.88,
+      "step": 952
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.8528e-07,
+      "loss": 1.6453,
+      "step": 956
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.5453405380249023,
+      "eval_runtime": 0.5463,
+      "eval_samples_per_second": 7.322,
+      "eval_steps_per_second": 1.831,
+      "step": 956
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 1.848e-07,
+      "loss": 1.6624,
+      "step": 960
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.542648196220398,
+      "eval_runtime": 0.5288,
+      "eval_samples_per_second": 7.564,
+      "eval_steps_per_second": 1.891,
+      "step": 960
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.8431999999999997e-07,
+      "loss": 1.6453,
+      "step": 964
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 1.5402462482452393,
+      "eval_runtime": 0.5242,
+      "eval_samples_per_second": 7.63,
+      "eval_steps_per_second": 1.908,
+      "step": 964
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.8383999999999998e-07,
+      "loss": 1.6451,
+      "step": 968
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 1.5377165079116821,
+      "eval_runtime": 0.5169,
+      "eval_samples_per_second": 7.738,
+      "eval_steps_per_second": 1.935,
+      "step": 968
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.8335999999999997e-07,
+      "loss": 1.6627,
+      "step": 972
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 1.5353412628173828,
+      "eval_runtime": 0.6797,
+      "eval_samples_per_second": 5.885,
+      "eval_steps_per_second": 1.471,
+      "step": 972
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.8288e-07,
+      "loss": 1.6423,
+      "step": 976
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 1.5325669050216675,
+      "eval_runtime": 0.7175,
+      "eval_samples_per_second": 5.575,
+      "eval_steps_per_second": 1.394,
+      "step": 976
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.824e-07,
+      "loss": 1.652,
+      "step": 980
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 1.530207872390747,
+      "eval_runtime": 0.8099,
+      "eval_samples_per_second": 4.939,
+      "eval_steps_per_second": 1.235,
+      "step": 980
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 1.8192e-07,
+      "loss": 1.6414,
+      "step": 984
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 1.5278236865997314,
+      "eval_runtime": 0.7814,
+      "eval_samples_per_second": 5.119,
+      "eval_steps_per_second": 1.28,
+      "step": 984
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.8144e-07,
+      "loss": 1.6107,
+      "step": 988
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.5253430604934692,
+      "eval_runtime": 0.5386,
+      "eval_samples_per_second": 7.427,
+      "eval_steps_per_second": 1.857,
+      "step": 988
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.8095999999999997e-07,
+      "loss": 1.6599,
+      "step": 992
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.5225120782852173,
+      "eval_runtime": 0.5302,
+      "eval_samples_per_second": 7.544,
+      "eval_steps_per_second": 1.886,
+      "step": 992
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.8048e-07,
+      "loss": 1.6326,
+      "step": 996
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.5201939344406128,
+      "eval_runtime": 0.533,
+      "eval_samples_per_second": 7.505,
+      "eval_steps_per_second": 1.876,
+      "step": 996
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 1.8e-07,
+      "loss": 1.6324,
+      "step": 1000
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.5175316333770752,
+      "eval_runtime": 0.5316,
+      "eval_samples_per_second": 7.525,
+      "eval_steps_per_second": 1.881,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 4,
+  "max_steps": 2500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "total_flos": 1.2712088174592e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8372290711385a4b881e6c95b154723c812dc21e47ba06376b2d40c72d854043
+size 4600

checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "jeff31415/TinyLlama-1.1B-1T-OpenOrca",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.36.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-1500/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.36.0.dev0"
+}

checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:525edbb8253d9e8751dfb98b40d5c1322d80e6053135712ccb5d607a42173c09
+size 2200119664

checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c01eabe688c4a4f846ec278e5becd199119686c5b53bd85246907a43788d32f8
+size 2205161786

checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86a1bb254b26437c4e13841cb41e250752fc24fe9a2a691897aa76d9627be2a4
+size 14244

checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39c9fde66434d6439df51d17de18b3427bf234718a67bcfa43aa9f08271727c1
+size 1064

checkpoint-1500/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8372290711385a4b881e6c95b154723c812dc21e47ba06376b2d40c72d854043
+size 4600

checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "jeff31415/TinyLlama-1.1B-1T-OpenOrca",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.36.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-2000/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.36.0.dev0"
+}

checkpoint-2000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c85bc3b1c807a46bf9fb357ee2581690f90862d3fabee7f79f55d4db0448d82f
+size 2200119664

checkpoint-2000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9341b02c731e4b58ae1f0df6d333910fc1ac52e2cc801a1e486dd7b5a6188267
+size 2205161786

checkpoint-2000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f2bfad145875466ac9154ad5b958d1d8736701a98c59c3c7e51562746e63b61
+size 14244

checkpoint-2000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ebe11db143b8cd8a681054d7aeeea2c6b1bc55604d67a16288e39ae1ae3a229d
+size 1064

checkpoint-2000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8372290711385a4b881e6c95b154723c812dc21e47ba06376b2d40c72d854043
+size 4600

checkpoint-2500/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "jeff31415/TinyLlama-1.1B-1T-OpenOrca",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.36.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-2500/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.36.0.dev0"
+}

checkpoint-2500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7b11a03b8f4bf479692be16f7c59df2b15196416c136498f07860d7a5ae1b27
+size 2200119664

checkpoint-2500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:307863e6a7fd926c3dbc24b6529e1b1645d1d140a81a5bc15317d2f1d7a1ce4b
+size 2205161786

checkpoint-2500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7f4b456ed398bdbb5b35cde838e2c4bfedb459f6bc60d190d3a7cb9ce65dc4d
+size 14244

checkpoint-2500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52edd5aadc973460ef7cecd871f970665a1bfa199d887a28fb329fe3c33d211d
+size 1064

checkpoint-2500/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8372290711385a4b881e6c95b154723c812dc21e47ba06376b2d40c72d854043
+size 4600

checkpoint-500/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "jeff31415/TinyLlama-1.1B-1T-OpenOrca",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 2048,
+  "initializer_range": 0.02,
+  "intermediate_size": 5632,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 22,
+  "num_key_value_heads": 4,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.36.0.dev0",
+  "use_cache": true,
+  "vocab_size": 32000
+}

checkpoint-500/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_length": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.36.0.dev0"
+}

checkpoint-500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94f823528ac3dcb786f82f9321d0ce743f58597cc968f70240b18820aad26da7
+size 2200119664

checkpoint-500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e86b3b0776af39f9191bfd06ede55fa7de86ed005a5b234270c2cd3976e771b
+size 2205161786

checkpoint-500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10b0069dee0e4ffb5199dba1cec39acc974730f7326c3b8eb8211cf1a9be16fc
+size 14244

checkpoint-500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4291caba66a1e6402b8dcd8538ab0a7895ca8ae239f011133b5ba449a8f05296
+size 1064

checkpoint-500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1770 @@

+{
+  "best_metric": 1.9646457433700562,
+  "best_model_checkpoint": "./results/checkpoint-500",
+  "epoch": 0.2,
+  "eval_steps": 4,
+  "global_step": 500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.9951999999999997e-07,
+      "loss": 2.6285,
+      "step": 4
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.4697508811950684,
+      "eval_runtime": 0.485,
+      "eval_samples_per_second": 8.248,
+      "eval_steps_per_second": 2.062,
+      "step": 4
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.9904e-07,
+      "loss": 2.6222,
+      "step": 8
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.465975284576416,
+      "eval_runtime": 0.6323,
+      "eval_samples_per_second": 6.326,
+      "eval_steps_per_second": 1.582,
+      "step": 8
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 2.9856e-07,
+      "loss": 2.6536,
+      "step": 12
+    },
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.460374116897583,
+      "eval_runtime": 0.6478,
+      "eval_samples_per_second": 6.175,
+      "eval_steps_per_second": 1.544,
+      "step": 12
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9808e-07,
+      "loss": 2.6785,
+      "step": 16
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.4556970596313477,
+      "eval_runtime": 0.6653,
+      "eval_samples_per_second": 6.012,
+      "eval_steps_per_second": 1.503,
+      "step": 16
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9759999999999996e-07,
+      "loss": 2.6085,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.4514715671539307,
+      "eval_runtime": 0.5241,
+      "eval_samples_per_second": 7.632,
+      "eval_steps_per_second": 1.908,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9711999999999995e-07,
+      "loss": 2.5907,
+      "step": 24
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.4462974071502686,
+      "eval_runtime": 0.4689,
+      "eval_samples_per_second": 8.53,
+      "eval_steps_per_second": 2.133,
+      "step": 24
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9664e-07,
+      "loss": 2.5942,
+      "step": 28
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.4415194988250732,
+      "eval_runtime": 0.4829,
+      "eval_samples_per_second": 8.284,
+      "eval_steps_per_second": 2.071,
+      "step": 28
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9615999999999997e-07,
+      "loss": 2.6101,
+      "step": 32
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.437161922454834,
+      "eval_runtime": 0.4715,
+      "eval_samples_per_second": 8.483,
+      "eval_steps_per_second": 2.121,
+      "step": 32
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.9568e-07,
+      "loss": 2.5827,
+      "step": 36
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 2.432689666748047,
+      "eval_runtime": 0.4938,
+      "eval_samples_per_second": 8.1,
+      "eval_steps_per_second": 2.025,
+      "step": 36
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.952e-07,
+      "loss": 2.5729,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.4281153678894043,
+      "eval_runtime": 0.5021,
+      "eval_samples_per_second": 7.966,
+      "eval_steps_per_second": 1.991,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.9472e-07,
+      "loss": 2.5856,
+      "step": 44
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.423053741455078,
+      "eval_runtime": 0.593,
+      "eval_samples_per_second": 6.746,
+      "eval_steps_per_second": 1.686,
+      "step": 44
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.9423999999999997e-07,
+      "loss": 2.589,
+      "step": 48
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.418571949005127,
+      "eval_runtime": 0.6933,
+      "eval_samples_per_second": 5.77,
+      "eval_steps_per_second": 1.442,
+      "step": 48
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.9375999999999995e-07,
+      "loss": 2.6483,
+      "step": 52
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.414531946182251,
+      "eval_runtime": 0.7167,
+      "eval_samples_per_second": 5.581,
+      "eval_steps_per_second": 1.395,
+      "step": 52
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.9328e-07,
+      "loss": 2.517,
+      "step": 56
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.409538745880127,
+      "eval_runtime": 0.4826,
+      "eval_samples_per_second": 8.289,
+      "eval_steps_per_second": 2.072,
+      "step": 56
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2.928e-07,
+      "loss": 2.5987,
+      "step": 60
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.4050426483154297,
+      "eval_runtime": 0.4757,
+      "eval_samples_per_second": 8.409,
+      "eval_steps_per_second": 2.102,
+      "step": 60
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9232e-07,
+      "loss": 2.5489,
+      "step": 64
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.400360107421875,
+      "eval_runtime": 0.4945,
+      "eval_samples_per_second": 8.089,
+      "eval_steps_per_second": 2.022,
+      "step": 64
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9184e-07,
+      "loss": 2.5063,
+      "step": 68
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.396500587463379,
+      "eval_runtime": 0.5,
+      "eval_samples_per_second": 8.001,
+      "eval_steps_per_second": 2.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9136e-07,
+      "loss": 2.5867,
+      "step": 72
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.3916146755218506,
+      "eval_runtime": 0.4602,
+      "eval_samples_per_second": 8.693,
+      "eval_steps_per_second": 2.173,
+      "step": 72
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9087999999999997e-07,
+      "loss": 2.544,
+      "step": 76
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.3873047828674316,
+      "eval_runtime": 0.4731,
+      "eval_samples_per_second": 8.456,
+      "eval_steps_per_second": 2.114,
+      "step": 76
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.9039999999999995e-07,
+      "loss": 2.5596,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.382803440093994,
+      "eval_runtime": 0.6092,
+      "eval_samples_per_second": 6.566,
+      "eval_steps_per_second": 1.642,
+      "step": 80
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.8992e-07,
+      "loss": 2.5744,
+      "step": 84
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 2.3786380290985107,
+      "eval_runtime": 0.7212,
+      "eval_samples_per_second": 5.546,
+      "eval_steps_per_second": 1.387,
+      "step": 84
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8944e-07,
+      "loss": 2.5588,
+      "step": 88
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.374176502227783,
+      "eval_runtime": 0.6826,
+      "eval_samples_per_second": 5.86,
+      "eval_steps_per_second": 1.465,
+      "step": 88
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8895999999999996e-07,
+      "loss": 2.5579,
+      "step": 92
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.3702104091644287,
+      "eval_runtime": 0.4896,
+      "eval_samples_per_second": 8.169,
+      "eval_steps_per_second": 2.042,
+      "step": 92
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8848e-07,
+      "loss": 2.5245,
+      "step": 96
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.3660218715667725,
+      "eval_runtime": 0.4764,
+      "eval_samples_per_second": 8.397,
+      "eval_steps_per_second": 2.099,
+      "step": 96
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.88e-07,
+      "loss": 2.5132,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.36110520362854,
+      "eval_runtime": 0.4799,
+      "eval_samples_per_second": 8.335,
+      "eval_steps_per_second": 2.084,
+      "step": 100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8751999999999997e-07,
+      "loss": 2.5037,
+      "step": 104
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.3570125102996826,
+      "eval_runtime": 0.4722,
+      "eval_samples_per_second": 8.47,
+      "eval_steps_per_second": 2.118,
+      "step": 104
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8704e-07,
+      "loss": 2.4727,
+      "step": 108
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.3530666828155518,
+      "eval_runtime": 0.467,
+      "eval_samples_per_second": 8.565,
+      "eval_steps_per_second": 2.141,
+      "step": 108
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.8656e-07,
+      "loss": 2.4709,
+      "step": 112
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 2.348759412765503,
+      "eval_runtime": 0.501,
+      "eval_samples_per_second": 7.984,
+      "eval_steps_per_second": 1.996,
+      "step": 112
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8608e-07,
+      "loss": 2.4711,
+      "step": 116
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.344454050064087,
+      "eval_runtime": 0.6607,
+      "eval_samples_per_second": 6.054,
+      "eval_steps_per_second": 1.513,
+      "step": 116
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8559999999999996e-07,
+      "loss": 2.5445,
+      "step": 120
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3402156829833984,
+      "eval_runtime": 0.704,
+      "eval_samples_per_second": 5.682,
+      "eval_steps_per_second": 1.42,
+      "step": 120
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8512e-07,
+      "loss": 2.4994,
+      "step": 124
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3362019062042236,
+      "eval_runtime": 0.6849,
+      "eval_samples_per_second": 5.84,
+      "eval_steps_per_second": 1.46,
+      "step": 124
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8464e-07,
+      "loss": 2.5036,
+      "step": 128
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3319339752197266,
+      "eval_runtime": 0.4864,
+      "eval_samples_per_second": 8.223,
+      "eval_steps_per_second": 2.056,
+      "step": 128
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8416e-07,
+      "loss": 2.5525,
+      "step": 132
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3276522159576416,
+      "eval_runtime": 0.4783,
+      "eval_samples_per_second": 8.364,
+      "eval_steps_per_second": 2.091,
+      "step": 132
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 2.8368e-07,
+      "loss": 2.5245,
+      "step": 136
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 2.3241090774536133,
+      "eval_runtime": 0.4805,
+      "eval_samples_per_second": 8.324,
+      "eval_steps_per_second": 2.081,
+      "step": 136
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.832e-07,
+      "loss": 2.4946,
+      "step": 140
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.3198165893554688,
+      "eval_runtime": 0.473,
+      "eval_samples_per_second": 8.457,
+      "eval_steps_per_second": 2.114,
+      "step": 140
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.8272e-07,
+      "loss": 2.5142,
+      "step": 144
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.3152613639831543,
+      "eval_runtime": 0.4858,
+      "eval_samples_per_second": 8.234,
+      "eval_steps_per_second": 2.058,
+      "step": 144
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.8223999999999997e-07,
+      "loss": 2.4639,
+      "step": 148
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.3112645149230957,
+      "eval_runtime": 0.488,
+      "eval_samples_per_second": 8.196,
+      "eval_steps_per_second": 2.049,
+      "step": 148
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.8176e-07,
+      "loss": 2.4796,
+      "step": 152
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.307020902633667,
+      "eval_runtime": 0.6163,
+      "eval_samples_per_second": 6.49,
+      "eval_steps_per_second": 1.623,
+      "step": 152
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.8128e-07,
+      "loss": 2.4529,
+      "step": 156
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.303062915802002,
+      "eval_runtime": 0.6764,
+      "eval_samples_per_second": 5.913,
+      "eval_steps_per_second": 1.478,
+      "step": 156
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 2.808e-07,
+      "loss": 2.4823,
+      "step": 160
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 2.2993311882019043,
+      "eval_runtime": 0.6854,
+      "eval_samples_per_second": 5.836,
+      "eval_steps_per_second": 1.459,
+      "step": 160
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.8032e-07,
+      "loss": 2.4439,
+      "step": 164
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2947850227355957,
+      "eval_runtime": 0.4745,
+      "eval_samples_per_second": 8.429,
+      "eval_steps_per_second": 2.107,
+      "step": 164
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.7984e-07,
+      "loss": 2.4652,
+      "step": 168
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2908992767333984,
+      "eval_runtime": 0.4759,
+      "eval_samples_per_second": 8.406,
+      "eval_steps_per_second": 2.101,
+      "step": 168
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.7936e-07,
+      "loss": 2.4574,
+      "step": 172
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2867026329040527,
+      "eval_runtime": 0.4973,
+      "eval_samples_per_second": 8.043,
+      "eval_steps_per_second": 2.011,
+      "step": 172
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.7887999999999997e-07,
+      "loss": 2.4557,
+      "step": 176
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.283027172088623,
+      "eval_runtime": 0.4719,
+      "eval_samples_per_second": 8.477,
+      "eval_steps_per_second": 2.119,
+      "step": 176
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.784e-07,
+      "loss": 2.4462,
+      "step": 180
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2787420749664307,
+      "eval_runtime": 0.472,
+      "eval_samples_per_second": 8.474,
+      "eval_steps_per_second": 2.119,
+      "step": 180
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 2.7792e-07,
+      "loss": 2.3962,
+      "step": 184
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 2.2745461463928223,
+      "eval_runtime": 0.6328,
+      "eval_samples_per_second": 6.322,
+      "eval_steps_per_second": 1.58,
+      "step": 184
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7744e-07,
+      "loss": 2.3666,
+      "step": 188
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.2705912590026855,
+      "eval_runtime": 0.6375,
+      "eval_samples_per_second": 6.274,
+      "eval_steps_per_second": 1.569,
+      "step": 188
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7696e-07,
+      "loss": 2.5024,
+      "step": 192
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.266995906829834,
+      "eval_runtime": 0.6984,
+      "eval_samples_per_second": 5.727,
+      "eval_steps_per_second": 1.432,
+      "step": 192
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7648e-07,
+      "loss": 2.4419,
+      "step": 196
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.2626519203186035,
+      "eval_runtime": 0.7334,
+      "eval_samples_per_second": 5.454,
+      "eval_steps_per_second": 1.363,
+      "step": 196
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.76e-07,
+      "loss": 2.4246,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.2583603858947754,
+      "eval_runtime": 0.48,
+      "eval_samples_per_second": 8.333,
+      "eval_steps_per_second": 2.083,
+      "step": 200
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7551999999999997e-07,
+      "loss": 2.3853,
+      "step": 204
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.2551512718200684,
+      "eval_runtime": 0.4939,
+      "eval_samples_per_second": 8.098,
+      "eval_steps_per_second": 2.025,
+      "step": 204
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7503999999999995e-07,
+      "loss": 2.4032,
+      "step": 208
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.251105785369873,
+      "eval_runtime": 0.46,
+      "eval_samples_per_second": 8.695,
+      "eval_steps_per_second": 2.174,
+      "step": 208
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 2.7456e-07,
+      "loss": 2.4444,
+      "step": 212
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.247025489807129,
+      "eval_runtime": 0.4948,
+      "eval_samples_per_second": 8.084,
+      "eval_steps_per_second": 2.021,
+      "step": 212
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7408e-07,
+      "loss": 2.2932,
+      "step": 216
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.242764472961426,
+      "eval_runtime": 0.4897,
+      "eval_samples_per_second": 8.168,
+      "eval_steps_per_second": 2.042,
+      "step": 216
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.736e-07,
+      "loss": 2.3929,
+      "step": 220
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.2391483783721924,
+      "eval_runtime": 0.6128,
+      "eval_samples_per_second": 6.528,
+      "eval_steps_per_second": 1.632,
+      "step": 220
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7312e-07,
+      "loss": 2.4112,
+      "step": 224
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.234977960586548,
+      "eval_runtime": 0.648,
+      "eval_samples_per_second": 6.172,
+      "eval_steps_per_second": 1.543,
+      "step": 224
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7264e-07,
+      "loss": 2.4191,
+      "step": 228
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.231099843978882,
+      "eval_runtime": 0.6862,
+      "eval_samples_per_second": 5.829,
+      "eval_steps_per_second": 1.457,
+      "step": 228
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7215999999999997e-07,
+      "loss": 2.4408,
+      "step": 232
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.2272462844848633,
+      "eval_runtime": 0.7076,
+      "eval_samples_per_second": 5.653,
+      "eval_steps_per_second": 1.413,
+      "step": 232
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 2.7167999999999996e-07,
+      "loss": 2.3884,
+      "step": 236
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.223376750946045,
+      "eval_runtime": 0.5169,
+      "eval_samples_per_second": 7.738,
+      "eval_steps_per_second": 1.935,
+      "step": 236
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.712e-07,
+      "loss": 2.3689,
+      "step": 240
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.2195653915405273,
+      "eval_runtime": 0.4793,
+      "eval_samples_per_second": 8.346,
+      "eval_steps_per_second": 2.086,
+      "step": 240
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.7072e-07,
+      "loss": 2.3689,
+      "step": 244
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.2153775691986084,
+      "eval_runtime": 0.4771,
+      "eval_samples_per_second": 8.384,
+      "eval_steps_per_second": 2.096,
+      "step": 244
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.7024e-07,
+      "loss": 2.3249,
+      "step": 248
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.211355209350586,
+      "eval_runtime": 0.4778,
+      "eval_samples_per_second": 8.372,
+      "eval_steps_per_second": 2.093,
+      "step": 248
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.6976e-07,
+      "loss": 2.4286,
+      "step": 252
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.207773208618164,
+      "eval_runtime": 0.4873,
+      "eval_samples_per_second": 8.209,
+      "eval_steps_per_second": 2.052,
+      "step": 252
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.6928e-07,
+      "loss": 2.3497,
+      "step": 256
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.203867197036743,
+      "eval_runtime": 0.6281,
+      "eval_samples_per_second": 6.368,
+      "eval_steps_per_second": 1.592,
+      "step": 256
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 2.6879999999999997e-07,
+      "loss": 2.284,
+      "step": 260
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.199937582015991,
+      "eval_runtime": 0.6885,
+      "eval_samples_per_second": 5.81,
+      "eval_steps_per_second": 1.452,
+      "step": 260
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6831999999999996e-07,
+      "loss": 2.3333,
+      "step": 264
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1958465576171875,
+      "eval_runtime": 0.6799,
+      "eval_samples_per_second": 5.883,
+      "eval_steps_per_second": 1.471,
+      "step": 264
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6784e-07,
+      "loss": 2.3305,
+      "step": 268
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.192072868347168,
+      "eval_runtime": 0.7165,
+      "eval_samples_per_second": 5.583,
+      "eval_steps_per_second": 1.396,
+      "step": 268
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6736e-07,
+      "loss": 2.3465,
+      "step": 272
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1882476806640625,
+      "eval_runtime": 0.485,
+      "eval_samples_per_second": 8.247,
+      "eval_steps_per_second": 2.062,
+      "step": 272
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6687999999999997e-07,
+      "loss": 2.3274,
+      "step": 276
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1841320991516113,
+      "eval_runtime": 0.4767,
+      "eval_samples_per_second": 8.391,
+      "eval_steps_per_second": 2.098,
+      "step": 276
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.664e-07,
+      "loss": 2.3641,
+      "step": 280
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1803271770477295,
+      "eval_runtime": 0.5146,
+      "eval_samples_per_second": 7.774,
+      "eval_steps_per_second": 1.943,
+      "step": 280
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 2.6592e-07,
+      "loss": 2.3089,
+      "step": 284
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.176274538040161,
+      "eval_runtime": 0.488,
+      "eval_samples_per_second": 8.196,
+      "eval_steps_per_second": 2.049,
+      "step": 284
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6543999999999997e-07,
+      "loss": 2.2645,
+      "step": 288
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1720588207244873,
+      "eval_runtime": 0.4973,
+      "eval_samples_per_second": 8.043,
+      "eval_steps_per_second": 2.011,
+      "step": 288
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6495999999999996e-07,
+      "loss": 2.3439,
+      "step": 292
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1687240600585938,
+      "eval_runtime": 0.6283,
+      "eval_samples_per_second": 6.366,
+      "eval_steps_per_second": 1.592,
+      "step": 292
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6448e-07,
+      "loss": 2.3285,
+      "step": 296
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1649253368377686,
+      "eval_runtime": 0.6996,
+      "eval_samples_per_second": 5.718,
+      "eval_steps_per_second": 1.429,
+      "step": 296
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.64e-07,
+      "loss": 2.3126,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.160398483276367,
+      "eval_runtime": 0.6904,
+      "eval_samples_per_second": 5.794,
+      "eval_steps_per_second": 1.448,
+      "step": 300
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6351999999999997e-07,
+      "loss": 2.3356,
+      "step": 304
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1570284366607666,
+      "eval_runtime": 0.4953,
+      "eval_samples_per_second": 8.076,
+      "eval_steps_per_second": 2.019,
+      "step": 304
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6304e-07,
+      "loss": 2.3396,
+      "step": 308
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1527013778686523,
+      "eval_runtime": 0.4977,
+      "eval_samples_per_second": 8.037,
+      "eval_steps_per_second": 2.009,
+      "step": 308
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.6256e-07,
+      "loss": 2.2972,
+      "step": 312
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.148724317550659,
+      "eval_runtime": 0.4939,
+      "eval_samples_per_second": 8.099,
+      "eval_steps_per_second": 2.025,
+      "step": 312
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.6208e-07,
+      "loss": 2.3321,
+      "step": 316
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1449663639068604,
+      "eval_runtime": 0.4784,
+      "eval_samples_per_second": 8.362,
+      "eval_steps_per_second": 2.09,
+      "step": 316
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.616e-07,
+      "loss": 2.3348,
+      "step": 320
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1414906978607178,
+      "eval_runtime": 0.4949,
+      "eval_samples_per_second": 8.082,
+      "eval_steps_per_second": 2.021,
+      "step": 320
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.6112e-07,
+      "loss": 2.2728,
+      "step": 324
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1374001502990723,
+      "eval_runtime": 0.6321,
+      "eval_samples_per_second": 6.328,
+      "eval_steps_per_second": 1.582,
+      "step": 324
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.6064e-07,
+      "loss": 2.287,
+      "step": 328
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1333529949188232,
+      "eval_runtime": 0.6547,
+      "eval_samples_per_second": 6.109,
+      "eval_steps_per_second": 1.527,
+      "step": 328
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.6015999999999997e-07,
+      "loss": 2.2474,
+      "step": 332
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1297547817230225,
+      "eval_runtime": 0.7093,
+      "eval_samples_per_second": 5.639,
+      "eval_steps_per_second": 1.41,
+      "step": 332
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.5968e-07,
+      "loss": 2.3214,
+      "step": 336
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.126392364501953,
+      "eval_runtime": 0.6909,
+      "eval_samples_per_second": 5.789,
+      "eval_steps_per_second": 1.447,
+      "step": 336
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.592e-07,
+      "loss": 2.2725,
+      "step": 340
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.122309923171997,
+      "eval_runtime": 0.4823,
+      "eval_samples_per_second": 8.293,
+      "eval_steps_per_second": 2.073,
+      "step": 340
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5872000000000003e-07,
+      "loss": 2.3114,
+      "step": 344
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.118303060531616,
+      "eval_runtime": 0.4954,
+      "eval_samples_per_second": 8.075,
+      "eval_steps_per_second": 2.019,
+      "step": 344
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5824e-07,
+      "loss": 2.2333,
+      "step": 348
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.114621162414551,
+      "eval_runtime": 0.4856,
+      "eval_samples_per_second": 8.238,
+      "eval_steps_per_second": 2.059,
+      "step": 348
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5776e-07,
+      "loss": 2.2812,
+      "step": 352
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.11067795753479,
+      "eval_runtime": 0.4778,
+      "eval_samples_per_second": 8.372,
+      "eval_steps_per_second": 2.093,
+      "step": 352
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5728e-07,
+      "loss": 2.2454,
+      "step": 356
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.106940746307373,
+      "eval_runtime": 0.4945,
+      "eval_samples_per_second": 8.089,
+      "eval_steps_per_second": 2.022,
+      "step": 356
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.5679999999999997e-07,
+      "loss": 2.2261,
+      "step": 360
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 2.1031668186187744,
+      "eval_runtime": 0.6521,
+      "eval_samples_per_second": 6.134,
+      "eval_steps_per_second": 1.533,
+      "step": 360
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5632e-07,
+      "loss": 2.2841,
+      "step": 364
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0989203453063965,
+      "eval_runtime": 0.6249,
+      "eval_samples_per_second": 6.401,
+      "eval_steps_per_second": 1.6,
+      "step": 364
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5584e-07,
+      "loss": 2.2481,
+      "step": 368
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.095189332962036,
+      "eval_runtime": 0.6855,
+      "eval_samples_per_second": 5.835,
+      "eval_steps_per_second": 1.459,
+      "step": 368
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5536e-07,
+      "loss": 2.278,
+      "step": 372
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0912463665008545,
+      "eval_runtime": 0.7393,
+      "eval_samples_per_second": 5.411,
+      "eval_steps_per_second": 1.353,
+      "step": 372
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5488e-07,
+      "loss": 2.2765,
+      "step": 376
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.087336301803589,
+      "eval_runtime": 0.4793,
+      "eval_samples_per_second": 8.345,
+      "eval_steps_per_second": 2.086,
+      "step": 376
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.544e-07,
+      "loss": 2.2232,
+      "step": 380
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.0833120346069336,
+      "eval_runtime": 0.487,
+      "eval_samples_per_second": 8.214,
+      "eval_steps_per_second": 2.053,
+      "step": 380
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.5392e-07,
+      "loss": 2.306,
+      "step": 384
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 2.079479932785034,
+      "eval_runtime": 0.4722,
+      "eval_samples_per_second": 8.471,
+      "eval_steps_per_second": 2.118,
+      "step": 384
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5343999999999997e-07,
+      "loss": 2.2126,
+      "step": 388
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0760295391082764,
+      "eval_runtime": 0.4958,
+      "eval_samples_per_second": 8.068,
+      "eval_steps_per_second": 2.017,
+      "step": 388
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5295999999999996e-07,
+      "loss": 2.2557,
+      "step": 392
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.072136402130127,
+      "eval_runtime": 0.469,
+      "eval_samples_per_second": 8.529,
+      "eval_steps_per_second": 2.132,
+      "step": 392
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5248e-07,
+      "loss": 2.1988,
+      "step": 396
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0683670043945312,
+      "eval_runtime": 0.6385,
+      "eval_samples_per_second": 6.264,
+      "eval_steps_per_second": 1.566,
+      "step": 396
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.52e-07,
+      "loss": 2.1917,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0638906955718994,
+      "eval_runtime": 0.6834,
+      "eval_samples_per_second": 5.853,
+      "eval_steps_per_second": 1.463,
+      "step": 400
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5152e-07,
+      "loss": 2.2479,
+      "step": 404
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.0599253177642822,
+      "eval_runtime": 0.7261,
+      "eval_samples_per_second": 5.509,
+      "eval_steps_per_second": 1.377,
+      "step": 404
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5104e-07,
+      "loss": 2.1484,
+      "step": 408
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.055751085281372,
+      "eval_runtime": 0.7367,
+      "eval_samples_per_second": 5.429,
+      "eval_steps_per_second": 1.357,
+      "step": 408
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 2.5056e-07,
+      "loss": 2.1886,
+      "step": 412
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 2.052119016647339,
+      "eval_runtime": 0.4808,
+      "eval_samples_per_second": 8.319,
+      "eval_steps_per_second": 2.08,
+      "step": 412
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.5007999999999997e-07,
+      "loss": 2.2026,
+      "step": 416
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0482354164123535,
+      "eval_runtime": 0.4856,
+      "eval_samples_per_second": 8.238,
+      "eval_steps_per_second": 2.059,
+      "step": 416
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4959999999999996e-07,
+      "loss": 2.1572,
+      "step": 420
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0441887378692627,
+      "eval_runtime": 0.4779,
+      "eval_samples_per_second": 8.37,
+      "eval_steps_per_second": 2.093,
+      "step": 420
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4912e-07,
+      "loss": 2.1931,
+      "step": 424
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.0399935245513916,
+      "eval_runtime": 0.4803,
+      "eval_samples_per_second": 8.329,
+      "eval_steps_per_second": 2.082,
+      "step": 424
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4864e-07,
+      "loss": 2.161,
+      "step": 428
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.03645920753479,
+      "eval_runtime": 0.4924,
+      "eval_samples_per_second": 8.123,
+      "eval_steps_per_second": 2.031,
+      "step": 428
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4816e-07,
+      "loss": 2.1115,
+      "step": 432
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.032196044921875,
+      "eval_runtime": 0.6345,
+      "eval_samples_per_second": 6.304,
+      "eval_steps_per_second": 1.576,
+      "step": 432
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.4768e-07,
+      "loss": 2.173,
+      "step": 436
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 2.028397560119629,
+      "eval_runtime": 0.6625,
+      "eval_samples_per_second": 6.038,
+      "eval_steps_per_second": 1.509,
+      "step": 436
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.472e-07,
+      "loss": 2.1491,
+      "step": 440
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0247464179992676,
+      "eval_runtime": 0.6969,
+      "eval_samples_per_second": 5.74,
+      "eval_steps_per_second": 1.435,
+      "step": 440
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4672e-07,
+      "loss": 2.1716,
+      "step": 444
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0203933715820312,
+      "eval_runtime": 0.7311,
+      "eval_samples_per_second": 5.471,
+      "eval_steps_per_second": 1.368,
+      "step": 444
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4623999999999996e-07,
+      "loss": 2.2031,
+      "step": 448
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.016533374786377,
+      "eval_runtime": 0.4875,
+      "eval_samples_per_second": 8.206,
+      "eval_steps_per_second": 2.051,
+      "step": 448
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4576e-07,
+      "loss": 2.1466,
+      "step": 452
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.012568473815918,
+      "eval_runtime": 0.4897,
+      "eval_samples_per_second": 8.168,
+      "eval_steps_per_second": 2.042,
+      "step": 452
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4528e-07,
+      "loss": 2.1384,
+      "step": 456
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0088417530059814,
+      "eval_runtime": 0.4969,
+      "eval_samples_per_second": 8.05,
+      "eval_steps_per_second": 2.013,
+      "step": 456
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 2.4479999999999997e-07,
+      "loss": 2.1824,
+      "step": 460
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 2.0047850608825684,
+      "eval_runtime": 0.4897,
+      "eval_samples_per_second": 8.168,
+      "eval_steps_per_second": 2.042,
+      "step": 460
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4432e-07,
+      "loss": 2.1401,
+      "step": 464
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 2.0006463527679443,
+      "eval_runtime": 0.4882,
+      "eval_samples_per_second": 8.193,
+      "eval_steps_per_second": 2.048,
+      "step": 464
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4384e-07,
+      "loss": 2.2086,
+      "step": 468
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9969314336776733,
+      "eval_runtime": 0.6612,
+      "eval_samples_per_second": 6.049,
+      "eval_steps_per_second": 1.512,
+      "step": 468
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4336e-07,
+      "loss": 2.1687,
+      "step": 472
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9925954341888428,
+      "eval_runtime": 0.6804,
+      "eval_samples_per_second": 5.879,
+      "eval_steps_per_second": 1.47,
+      "step": 472
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4287999999999996e-07,
+      "loss": 2.145,
+      "step": 476
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9888066053390503,
+      "eval_runtime": 0.6955,
+      "eval_samples_per_second": 5.752,
+      "eval_steps_per_second": 1.438,
+      "step": 476
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.424e-07,
+      "loss": 2.2007,
+      "step": 480
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9850127696990967,
+      "eval_runtime": 0.7558,
+      "eval_samples_per_second": 5.292,
+      "eval_steps_per_second": 1.323,
+      "step": 480
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 2.4192e-07,
+      "loss": 2.1367,
+      "step": 484
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.9808437824249268,
+      "eval_runtime": 0.4706,
+      "eval_samples_per_second": 8.499,
+      "eval_steps_per_second": 2.125,
+      "step": 484
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.4143999999999997e-07,
+      "loss": 2.1291,
+      "step": 488
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9767786264419556,
+      "eval_runtime": 0.4803,
+      "eval_samples_per_second": 8.327,
+      "eval_steps_per_second": 2.082,
+      "step": 488
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.4096e-07,
+      "loss": 2.1124,
+      "step": 492
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9728602170944214,
+      "eval_runtime": 0.4802,
+      "eval_samples_per_second": 8.33,
+      "eval_steps_per_second": 2.082,
+      "step": 492
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.4048e-07,
+      "loss": 2.0738,
+      "step": 496
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.968900203704834,
+      "eval_runtime": 0.4884,
+      "eval_samples_per_second": 8.189,
+      "eval_steps_per_second": 2.047,
+      "step": 496
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 2.4e-07,
+      "loss": 2.1048,
+      "step": 500
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.9646457433700562,
+      "eval_runtime": 0.5026,
+      "eval_samples_per_second": 7.959,
+      "eval_steps_per_second": 1.99,
+      "step": 500
+    }
+  ],
+  "logging_steps": 4,
+  "max_steps": 2500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 500,
+  "total_flos": 6.356044087296e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8372290711385a4b881e6c95b154723c812dc21e47ba06376b2d40c72d854043
+size 4600