tscholak commited on Oct 8, 2021

Commit

5f38533

unverified ·

1 Parent(s): 8c5c4d3

add T5 model

Browse files

Files changed (19) hide show

added_tokens.json +1 -0
config.json +31 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
rng_state_2.pth +3 -0
rng_state_3.pth +3 -0
rng_state_4.pth +3 -0
rng_state_5.pth +3 -0
rng_state_6.pth +3 -0
rng_state_7.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
spiece.model +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +1702 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {" <": 32101, " <=": 32100}

config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "/safekeeping/t5-1.1.lm100k/t5.1.1.lm100k.large/pytorch_model/",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "diversity_penalty": null,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "gradient_checkpointing": false,
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "max_length": 512,
+  "model_type": "t5",
+  "num_beams": 4,
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.8.2",
+  "use_cache": true,
+  "vocab_size": 32102
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c654c80aba83fdadba92120cb8c085019ff49904f1179612e1114c39bc23d46a
+size 5806399

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d80a53d0754ac270c7f7b29fb077ebef654a915d8bd4c23e7823ef34c0510788
+size 3132653069

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d3d4b8adfd2297bbf6d4ee0d5bf1e22b4d82010b06f492b517adddfb2b5d8b4
+size 14657

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f354def1210dbd11519acfebbd4164e14e79347d7fa68124a9711cf917e0bd57
+size 14657

rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94d0c6fc7686ed9ecf9662020cb6edb2752ad6af1d6a22bb246239b6d81069c2
+size 14657

rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7bdd81d4cf1ecc28d2066d290117d72ef46ea2cf735e83db8ca49d07e6450dcc
+size 14657

rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:500f63cc677c3436e0c67f69255e1cced8186bb50ed0aa710b06b2b6a77130f0
+size 14657

rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9246f1b4d26a5af1b72ad245a87c8851fc6c58607cd939ea96cfca32f87f0f0
+size 14657

rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b337591d3706f63345f54db1096739ebe3c85a90969296c448abe9360b824ff
+size 14657

rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bab1d4470516cd6478b4782624da02b52b5c0f60a259e5c7ffa44a7a6b8a46aa
+size 14657

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9aae2a5f0926e2a8e1ac8082e1b2c75c3660f813263ad59913548f00a9ac89f9
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"]}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 100, "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"], "model_max_length": 512, "name_or_path": "/safekeeping/t5-1.1.lm100k/t5.1.1.lm100k.large/pytorch_model/", "special_tokens_map_file": "/safekeeping/t5-1.1.lm100k/t5.1.1.lm100k.large/pytorch_model/special_tokens_map.json", "sp_model_kwargs": {}, "tokenizer_class": "T5Tokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1702 @@

+{
+  "best_metric": 0.6963249516441006,
+  "best_model_checkpoint": "/experiments/spider/d6368230-e8a6-4e57-923c-f0938a9bcf7b/checkpoint-1024",
+  "epoch": 341.2922374429224,
+  "global_step": 1024,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0001,
+      "loss": 3.2183,
+      "step": 1
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0001,
+      "loss": 2.451,
+      "step": 4
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.0001,
+      "loss": 1.2943,
+      "step": 8
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 0.0001,
+      "loss": 0.8542,
+      "step": 12
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 0.0001,
+      "loss": 0.7239,
+      "step": 16
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 0.0001,
+      "loss": 0.5427,
+      "step": 20
+    },
+    {
+      "epoch": 7.88,
+      "learning_rate": 0.0001,
+      "loss": 0.4532,
+      "step": 24
+    },
+    {
+      "epoch": 9.29,
+      "learning_rate": 0.0001,
+      "loss": 0.4275,
+      "step": 28
+    },
+    {
+      "epoch": 10.58,
+      "learning_rate": 0.0001,
+      "loss": 0.3646,
+      "step": 32
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 0.0001,
+      "loss": 0.3155,
+      "step": 36
+    },
+    {
+      "epoch": 13.29,
+      "learning_rate": 0.0001,
+      "loss": 0.3455,
+      "step": 40
+    },
+    {
+      "epoch": 14.58,
+      "learning_rate": 0.0001,
+      "loss": 0.2804,
+      "step": 44
+    },
+    {
+      "epoch": 15.88,
+      "learning_rate": 0.0001,
+      "loss": 0.2518,
+      "step": 48
+    },
+    {
+      "epoch": 17.29,
+      "learning_rate": 0.0001,
+      "loss": 0.248,
+      "step": 52
+    },
+    {
+      "epoch": 18.58,
+      "learning_rate": 0.0001,
+      "loss": 0.2021,
+      "step": 56
+    },
+    {
+      "epoch": 19.88,
+      "learning_rate": 0.0001,
+      "loss": 0.212,
+      "step": 60
+    },
+    {
+      "epoch": 21.29,
+      "learning_rate": 0.0001,
+      "loss": 0.203,
+      "step": 64
+    },
+    {
+      "epoch": 21.29,
+      "eval_exact_match": 0.42359767891682787,
+      "eval_exec": 0.4284332688588008,
+      "eval_loss": 0.1833169162273407,
+      "eval_runtime": 682.1232,
+      "eval_samples_per_second": 1.516,
+      "step": 64
+    },
+    {
+      "epoch": 22.58,
+      "learning_rate": 0.0001,
+      "loss": 0.1895,
+      "step": 68
+    },
+    {
+      "epoch": 23.88,
+      "learning_rate": 0.0001,
+      "loss": 0.166,
+      "step": 72
+    },
+    {
+      "epoch": 25.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1833,
+      "step": 76
+    },
+    {
+      "epoch": 26.58,
+      "learning_rate": 0.0001,
+      "loss": 0.1503,
+      "step": 80
+    },
+    {
+      "epoch": 27.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1485,
+      "step": 84
+    },
+    {
+      "epoch": 29.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1574,
+      "step": 88
+    },
+    {
+      "epoch": 30.58,
+      "learning_rate": 0.0001,
+      "loss": 0.1295,
+      "step": 92
+    },
+    {
+      "epoch": 31.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1199,
+      "step": 96
+    },
+    {
+      "epoch": 33.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1262,
+      "step": 100
+    },
+    {
+      "epoch": 34.58,
+      "learning_rate": 0.0001,
+      "loss": 0.1153,
+      "step": 104
+    },
+    {
+      "epoch": 35.88,
+      "learning_rate": 0.0001,
+      "loss": 0.1067,
+      "step": 108
+    },
+    {
+      "epoch": 37.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1086,
+      "step": 112
+    },
+    {
+      "epoch": 38.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0934,
+      "step": 116
+    },
+    {
+      "epoch": 39.88,
+      "learning_rate": 0.0001,
+      "loss": 0.096,
+      "step": 120
+    },
+    {
+      "epoch": 41.29,
+      "learning_rate": 0.0001,
+      "loss": 0.1075,
+      "step": 124
+    },
+    {
+      "epoch": 42.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0984,
+      "step": 128
+    },
+    {
+      "epoch": 42.58,
+      "eval_exact_match": 0.5938104448742747,
+      "eval_exec": 0.5764023210831721,
+      "eval_loss": 0.16683875024318695,
+      "eval_runtime": 703.3328,
+      "eval_samples_per_second": 1.47,
+      "step": 128
+    },
+    {
+      "epoch": 43.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0842,
+      "step": 132
+    },
+    {
+      "epoch": 45.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0954,
+      "step": 136
+    },
+    {
+      "epoch": 46.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0842,
+      "step": 140
+    },
+    {
+      "epoch": 47.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0724,
+      "step": 144
+    },
+    {
+      "epoch": 49.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0805,
+      "step": 148
+    },
+    {
+      "epoch": 50.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0745,
+      "step": 152
+    },
+    {
+      "epoch": 51.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0685,
+      "step": 156
+    },
+    {
+      "epoch": 53.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0709,
+      "step": 160
+    },
+    {
+      "epoch": 54.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0744,
+      "step": 164
+    },
+    {
+      "epoch": 55.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0603,
+      "step": 168
+    },
+    {
+      "epoch": 57.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0607,
+      "step": 172
+    },
+    {
+      "epoch": 58.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0652,
+      "step": 176
+    },
+    {
+      "epoch": 59.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0592,
+      "step": 180
+    },
+    {
+      "epoch": 61.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0584,
+      "step": 184
+    },
+    {
+      "epoch": 62.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0507,
+      "step": 188
+    },
+    {
+      "epoch": 63.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0523,
+      "step": 192
+    },
+    {
+      "epoch": 63.88,
+      "eval_exact_match": 0.6266924564796905,
+      "eval_exec": 0.620889748549323,
+      "eval_loss": 0.16735364496707916,
+      "eval_runtime": 843.3561,
+      "eval_samples_per_second": 1.226,
+      "step": 192
+    },
+    {
+      "epoch": 65.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0576,
+      "step": 196
+    },
+    {
+      "epoch": 66.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0539,
+      "step": 200
+    },
+    {
+      "epoch": 67.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0443,
+      "step": 204
+    },
+    {
+      "epoch": 69.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0518,
+      "step": 208
+    },
+    {
+      "epoch": 70.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0435,
+      "step": 212
+    },
+    {
+      "epoch": 71.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0428,
+      "step": 216
+    },
+    {
+      "epoch": 73.29,
+      "learning_rate": 0.0001,
+      "loss": 0.043,
+      "step": 220
+    },
+    {
+      "epoch": 74.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0383,
+      "step": 224
+    },
+    {
+      "epoch": 75.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0399,
+      "step": 228
+    },
+    {
+      "epoch": 77.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0422,
+      "step": 232
+    },
+    {
+      "epoch": 78.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0357,
+      "step": 236
+    },
+    {
+      "epoch": 79.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0346,
+      "step": 240
+    },
+    {
+      "epoch": 81.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0433,
+      "step": 244
+    },
+    {
+      "epoch": 82.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0339,
+      "step": 248
+    },
+    {
+      "epoch": 83.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0353,
+      "step": 252
+    },
+    {
+      "epoch": 85.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0326,
+      "step": 256
+    },
+    {
+      "epoch": 85.29,
+      "eval_exact_match": 0.6586073500967118,
+      "eval_exec": 0.6450676982591876,
+      "eval_loss": 0.21498563885688782,
+      "eval_runtime": 824.5584,
+      "eval_samples_per_second": 1.254,
+      "step": 256
+    },
+    {
+      "epoch": 86.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0301,
+      "step": 260
+    },
+    {
+      "epoch": 87.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0302,
+      "step": 264
+    },
+    {
+      "epoch": 89.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0322,
+      "step": 268
+    },
+    {
+      "epoch": 90.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0248,
+      "step": 272
+    },
+    {
+      "epoch": 91.88,
+      "learning_rate": 0.0001,
+      "loss": 0.026,
+      "step": 276
+    },
+    {
+      "epoch": 93.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0297,
+      "step": 280
+    },
+    {
+      "epoch": 94.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0276,
+      "step": 284
+    },
+    {
+      "epoch": 95.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0253,
+      "step": 288
+    },
+    {
+      "epoch": 97.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0282,
+      "step": 292
+    },
+    {
+      "epoch": 98.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0252,
+      "step": 296
+    },
+    {
+      "epoch": 99.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0234,
+      "step": 300
+    },
+    {
+      "epoch": 101.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0225,
+      "step": 304
+    },
+    {
+      "epoch": 102.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0254,
+      "step": 308
+    },
+    {
+      "epoch": 103.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0201,
+      "step": 312
+    },
+    {
+      "epoch": 105.29,
+      "learning_rate": 0.0001,
+      "loss": 0.022,
+      "step": 316
+    },
+    {
+      "epoch": 106.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0206,
+      "step": 320
+    },
+    {
+      "epoch": 106.58,
+      "eval_exact_match": 0.6644100580270793,
+      "eval_exec": 0.6499032882011605,
+      "eval_loss": 0.21441736817359924,
+      "eval_runtime": 835.4598,
+      "eval_samples_per_second": 1.238,
+      "step": 320
+    },
+    {
+      "epoch": 107.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0178,
+      "step": 324
+    },
+    {
+      "epoch": 109.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0172,
+      "step": 328
+    },
+    {
+      "epoch": 110.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0175,
+      "step": 332
+    },
+    {
+      "epoch": 111.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0155,
+      "step": 336
+    },
+    {
+      "epoch": 113.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0187,
+      "step": 340
+    },
+    {
+      "epoch": 114.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0142,
+      "step": 344
+    },
+    {
+      "epoch": 115.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0149,
+      "step": 348
+    },
+    {
+      "epoch": 117.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0155,
+      "step": 352
+    },
+    {
+      "epoch": 118.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0148,
+      "step": 356
+    },
+    {
+      "epoch": 119.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0138,
+      "step": 360
+    },
+    {
+      "epoch": 121.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0154,
+      "step": 364
+    },
+    {
+      "epoch": 122.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0145,
+      "step": 368
+    },
+    {
+      "epoch": 123.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0172,
+      "step": 372
+    },
+    {
+      "epoch": 125.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0146,
+      "step": 376
+    },
+    {
+      "epoch": 126.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0156,
+      "step": 380
+    },
+    {
+      "epoch": 127.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0177,
+      "step": 384
+    },
+    {
+      "epoch": 127.88,
+      "eval_exact_match": 0.6682785299806576,
+      "eval_exec": 0.6518375241779497,
+      "eval_loss": 0.24249066412448883,
+      "eval_runtime": 822.9024,
+      "eval_samples_per_second": 1.257,
+      "step": 384
+    },
+    {
+      "epoch": 129.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0134,
+      "step": 388
+    },
+    {
+      "epoch": 130.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0119,
+      "step": 392
+    },
+    {
+      "epoch": 131.88,
+      "learning_rate": 0.0001,
+      "loss": 0.01,
+      "step": 396
+    },
+    {
+      "epoch": 133.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0105,
+      "step": 400
+    },
+    {
+      "epoch": 134.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0086,
+      "step": 404
+    },
+    {
+      "epoch": 135.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0118,
+      "step": 408
+    },
+    {
+      "epoch": 137.29,
+      "learning_rate": 0.0001,
+      "loss": 0.01,
+      "step": 412
+    },
+    {
+      "epoch": 138.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0102,
+      "step": 416
+    },
+    {
+      "epoch": 139.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0106,
+      "step": 420
+    },
+    {
+      "epoch": 141.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0087,
+      "step": 424
+    },
+    {
+      "epoch": 142.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0089,
+      "step": 428
+    },
+    {
+      "epoch": 143.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0099,
+      "step": 432
+    },
+    {
+      "epoch": 145.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0092,
+      "step": 436
+    },
+    {
+      "epoch": 146.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0081,
+      "step": 440
+    },
+    {
+      "epoch": 147.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0088,
+      "step": 444
+    },
+    {
+      "epoch": 149.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0079,
+      "step": 448
+    },
+    {
+      "epoch": 149.29,
+      "eval_exact_match": 0.6499032882011605,
+      "eval_exec": 0.6353965183752418,
+      "eval_loss": 0.2822052538394928,
+      "eval_runtime": 813.617,
+      "eval_samples_per_second": 1.271,
+      "step": 448
+    },
+    {
+      "epoch": 150.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0077,
+      "step": 452
+    },
+    {
+      "epoch": 151.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0075,
+      "step": 456
+    },
+    {
+      "epoch": 153.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0071,
+      "step": 460
+    },
+    {
+      "epoch": 154.58,
+      "learning_rate": 0.0001,
+      "loss": 0.008,
+      "step": 464
+    },
+    {
+      "epoch": 155.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0063,
+      "step": 468
+    },
+    {
+      "epoch": 157.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0078,
+      "step": 472
+    },
+    {
+      "epoch": 158.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0069,
+      "step": 476
+    },
+    {
+      "epoch": 159.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0073,
+      "step": 480
+    },
+    {
+      "epoch": 161.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0111,
+      "step": 484
+    },
+    {
+      "epoch": 162.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0063,
+      "step": 488
+    },
+    {
+      "epoch": 163.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0078,
+      "step": 492
+    },
+    {
+      "epoch": 165.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0121,
+      "step": 496
+    },
+    {
+      "epoch": 166.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0086,
+      "step": 500
+    },
+    {
+      "epoch": 167.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0066,
+      "step": 504
+    },
+    {
+      "epoch": 169.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0064,
+      "step": 508
+    },
+    {
+      "epoch": 170.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0046,
+      "step": 512
+    },
+    {
+      "epoch": 170.58,
+      "eval_exact_match": 0.660541586073501,
+      "eval_exec": 0.6479690522243714,
+      "eval_loss": 0.29858535528182983,
+      "eval_runtime": 852.1163,
+      "eval_samples_per_second": 1.213,
+      "step": 512
+    },
+    {
+      "epoch": 171.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0051,
+      "step": 516
+    },
+    {
+      "epoch": 173.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0053,
+      "step": 520
+    },
+    {
+      "epoch": 174.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0054,
+      "step": 524
+    },
+    {
+      "epoch": 175.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0052,
+      "step": 528
+    },
+    {
+      "epoch": 177.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0051,
+      "step": 532
+    },
+    {
+      "epoch": 178.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0043,
+      "step": 536
+    },
+    {
+      "epoch": 179.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0047,
+      "step": 540
+    },
+    {
+      "epoch": 181.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0051,
+      "step": 544
+    },
+    {
+      "epoch": 182.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0164,
+      "step": 548
+    },
+    {
+      "epoch": 183.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0044,
+      "step": 552
+    },
+    {
+      "epoch": 185.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0048,
+      "step": 556
+    },
+    {
+      "epoch": 186.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0038,
+      "step": 560
+    },
+    {
+      "epoch": 187.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0033,
+      "step": 564
+    },
+    {
+      "epoch": 189.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0041,
+      "step": 568
+    },
+    {
+      "epoch": 190.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0038,
+      "step": 572
+    },
+    {
+      "epoch": 191.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0044,
+      "step": 576
+    },
+    {
+      "epoch": 191.88,
+      "eval_exact_match": 0.6663442940038685,
+      "eval_exec": 0.6479690522243714,
+      "eval_loss": 0.3111841380596161,
+      "eval_runtime": 837.4186,
+      "eval_samples_per_second": 1.235,
+      "step": 576
+    },
+    {
+      "epoch": 193.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0045,
+      "step": 580
+    },
+    {
+      "epoch": 194.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 584
+    },
+    {
+      "epoch": 195.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 588
+    },
+    {
+      "epoch": 197.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0034,
+      "step": 592
+    },
+    {
+      "epoch": 198.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0037,
+      "step": 596
+    },
+    {
+      "epoch": 199.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0037,
+      "step": 600
+    },
+    {
+      "epoch": 201.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0036,
+      "step": 604
+    },
+    {
+      "epoch": 202.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 608
+    },
+    {
+      "epoch": 203.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 612
+    },
+    {
+      "epoch": 205.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 616
+    },
+    {
+      "epoch": 206.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0038,
+      "step": 620
+    },
+    {
+      "epoch": 207.88,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 624
+    },
+    {
+      "epoch": 209.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0033,
+      "step": 628
+    },
+    {
+      "epoch": 210.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 632
+    },
+    {
+      "epoch": 211.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 636
+    },
+    {
+      "epoch": 213.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0025,
+      "step": 640
+    },
+    {
+      "epoch": 213.29,
+      "eval_exact_match": 0.660541586073501,
+      "eval_exec": 0.648936170212766,
+      "eval_loss": 0.3557709753513336,
+      "eval_runtime": 807.1499,
+      "eval_samples_per_second": 1.281,
+      "step": 640
+    },
+    {
+      "epoch": 214.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0024,
+      "step": 644
+    },
+    {
+      "epoch": 215.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0034,
+      "step": 648
+    },
+    {
+      "epoch": 217.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 652
+    },
+    {
+      "epoch": 218.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 656
+    },
+    {
+      "epoch": 219.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 660
+    },
+    {
+      "epoch": 221.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0035,
+      "step": 664
+    },
+    {
+      "epoch": 222.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 668
+    },
+    {
+      "epoch": 223.88,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 672
+    },
+    {
+      "epoch": 225.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 676
+    },
+    {
+      "epoch": 226.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 680
+    },
+    {
+      "epoch": 227.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0058,
+      "step": 684
+    },
+    {
+      "epoch": 229.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0085,
+      "step": 688
+    },
+    {
+      "epoch": 230.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0049,
+      "step": 692
+    },
+    {
+      "epoch": 231.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 696
+    },
+    {
+      "epoch": 233.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 700
+    },
+    {
+      "epoch": 234.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0026,
+      "step": 704
+    },
+    {
+      "epoch": 234.58,
+      "eval_exact_match": 0.6682785299806576,
+      "eval_exec": 0.6528046421663443,
+      "eval_loss": 0.34394705295562744,
+      "eval_runtime": 890.2876,
+      "eval_samples_per_second": 1.161,
+      "step": 704
+    },
+    {
+      "epoch": 235.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 708
+    },
+    {
+      "epoch": 237.29,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 712
+    },
+    {
+      "epoch": 238.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 716
+    },
+    {
+      "epoch": 239.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 720
+    },
+    {
+      "epoch": 241.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 724
+    },
+    {
+      "epoch": 242.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 728
+    },
+    {
+      "epoch": 243.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 732
+    },
+    {
+      "epoch": 245.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0028,
+      "step": 736
+    },
+    {
+      "epoch": 246.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0058,
+      "step": 740
+    },
+    {
+      "epoch": 247.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 744
+    },
+    {
+      "epoch": 249.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 748
+    },
+    {
+      "epoch": 250.58,
+      "learning_rate": 0.0001,
+      "loss": 0.003,
+      "step": 752
+    },
+    {
+      "epoch": 251.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0027,
+      "step": 756
+    },
+    {
+      "epoch": 253.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0029,
+      "step": 760
+    },
+    {
+      "epoch": 254.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 764
+    },
+    {
+      "epoch": 255.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 768
+    },
+    {
+      "epoch": 255.88,
+      "eval_exact_match": 0.6702127659574468,
+      "eval_exec": 0.6576402321083172,
+      "eval_loss": 0.3505505919456482,
+      "eval_runtime": 849.5769,
+      "eval_samples_per_second": 1.217,
+      "step": 768
+    },
+    {
+      "epoch": 257.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 772
+    },
+    {
+      "epoch": 258.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 776
+    },
+    {
+      "epoch": 259.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0023,
+      "step": 780
+    },
+    {
+      "epoch": 261.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0031,
+      "step": 784
+    },
+    {
+      "epoch": 262.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 788
+    },
+    {
+      "epoch": 263.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 792
+    },
+    {
+      "epoch": 265.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 796
+    },
+    {
+      "epoch": 266.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 800
+    },
+    {
+      "epoch": 267.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 804
+    },
+    {
+      "epoch": 269.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 808
+    },
+    {
+      "epoch": 270.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 812
+    },
+    {
+      "epoch": 271.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0022,
+      "step": 816
+    },
+    {
+      "epoch": 273.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 820
+    },
+    {
+      "epoch": 274.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 824
+    },
+    {
+      "epoch": 275.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 828
+    },
+    {
+      "epoch": 277.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 832
+    },
+    {
+      "epoch": 277.29,
+      "eval_exact_match": 0.6789168278529981,
+      "eval_exec": 0.6615087040618955,
+      "eval_loss": 0.36397507786750793,
+      "eval_runtime": 827.3744,
+      "eval_samples_per_second": 1.25,
+      "step": 832
+    },
+    {
+      "epoch": 278.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 836
+    },
+    {
+      "epoch": 279.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 840
+    },
+    {
+      "epoch": 281.29,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 844
+    },
+    {
+      "epoch": 282.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 848
+    },
+    {
+      "epoch": 283.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 852
+    },
+    {
+      "epoch": 285.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0017,
+      "step": 856
+    },
+    {
+      "epoch": 286.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0016,
+      "step": 860
+    },
+    {
+      "epoch": 287.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0075,
+      "step": 864
+    },
+    {
+      "epoch": 289.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 868
+    },
+    {
+      "epoch": 290.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 872
+    },
+    {
+      "epoch": 291.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 876
+    },
+    {
+      "epoch": 293.29,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 880
+    },
+    {
+      "epoch": 294.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 884
+    },
+    {
+      "epoch": 295.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 888
+    },
+    {
+      "epoch": 297.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 892
+    },
+    {
+      "epoch": 298.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 896
+    },
+    {
+      "epoch": 298.58,
+      "eval_exact_match": 0.6740812379110251,
+      "eval_exec": 0.6576402321083172,
+      "eval_loss": 0.39234504103660583,
+      "eval_runtime": 785.534,
+      "eval_samples_per_second": 1.316,
+      "step": 896
+    },
+    {
+      "epoch": 299.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0014,
+      "step": 900
+    },
+    {
+      "epoch": 301.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0069,
+      "step": 904
+    },
+    {
+      "epoch": 302.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0018,
+      "step": 908
+    },
+    {
+      "epoch": 303.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 912
+    },
+    {
+      "epoch": 305.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 916
+    },
+    {
+      "epoch": 306.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 920
+    },
+    {
+      "epoch": 307.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 924
+    },
+    {
+      "epoch": 309.29,
+      "learning_rate": 0.0001,
+      "loss": 0.002,
+      "step": 928
+    },
+    {
+      "epoch": 310.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 932
+    },
+    {
+      "epoch": 311.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 936
+    },
+    {
+      "epoch": 313.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 940
+    },
+    {
+      "epoch": 314.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 944
+    },
+    {
+      "epoch": 315.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 948
+    },
+    {
+      "epoch": 317.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 952
+    },
+    {
+      "epoch": 318.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 956
+    },
+    {
+      "epoch": 319.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 960
+    },
+    {
+      "epoch": 319.88,
+      "eval_exact_match": 0.6740812379110251,
+      "eval_exec": 0.655705996131528,
+      "eval_loss": 0.40166109800338745,
+      "eval_runtime": 799.99,
+      "eval_samples_per_second": 1.293,
+      "step": 960
+    },
+    {
+      "epoch": 321.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 964
+    },
+    {
+      "epoch": 322.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 968
+    },
+    {
+      "epoch": 323.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 972
+    },
+    {
+      "epoch": 325.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0021,
+      "step": 976
+    },
+    {
+      "epoch": 326.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 980
+    },
+    {
+      "epoch": 327.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0019,
+      "step": 984
+    },
+    {
+      "epoch": 329.29,
+      "learning_rate": 0.0001,
+      "loss": 0.001,
+      "step": 988
+    },
+    {
+      "epoch": 330.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0008,
+      "step": 992
+    },
+    {
+      "epoch": 331.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0009,
+      "step": 996
+    },
+    {
+      "epoch": 333.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1000
+    },
+    {
+      "epoch": 334.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0011,
+      "step": 1004
+    },
+    {
+      "epoch": 335.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0013,
+      "step": 1008
+    },
+    {
+      "epoch": 337.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0006,
+      "step": 1012
+    },
+    {
+      "epoch": 338.58,
+      "learning_rate": 0.0001,
+      "loss": 0.0015,
+      "step": 1016
+    },
+    {
+      "epoch": 339.88,
+      "learning_rate": 0.0001,
+      "loss": 0.0012,
+      "step": 1020
+    },
+    {
+      "epoch": 341.29,
+      "learning_rate": 0.0001,
+      "loss": 0.0098,
+      "step": 1024
+    },
+    {
+      "epoch": 341.29,
+      "eval_exact_match": 0.6963249516441006,
+      "eval_exec": 0.6721470019342359,
+      "eval_loss": 0.3228262662887573,
+      "eval_runtime": 823.0842,
+      "eval_samples_per_second": 1.256,
+      "step": 1024
+    }
+  ],
+  "max_steps": 9216,
+  "num_train_epochs": 3072,
+  "total_flos": 4.710057387539562e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0868dff65625d28408737b7217c68e86d01510fbe1d74a54d3f52c4282da8742
+size 2799