totem37 commited on Mar 3, 2023

Commit

84ae784

1 Parent(s): 69b0f7b

Training checkpoint 600

Browse files

Files changed (24) hide show

checkpoint-400/added_tokens.json +1 -0
checkpoint-400/config.json +60 -0
checkpoint-400/optimizer.pt +3 -0
checkpoint-400/pytorch_model.bin +3 -0
checkpoint-400/rng_state.pth +3 -0
checkpoint-400/scheduler.pt +3 -0
checkpoint-400/special_tokens_map.json +1 -0
checkpoint-400/spiece.model +3 -0
checkpoint-400/tokenizer.json +0 -0
checkpoint-400/tokenizer_config.json +1 -0
checkpoint-400/trainer_state.json +640 -0
checkpoint-400/training_args.bin +3 -0
checkpoint-600/added_tokens.json +1 -0
checkpoint-600/config.json +60 -0
checkpoint-600/optimizer.pt +3 -0
checkpoint-600/pytorch_model.bin +3 -0
checkpoint-600/rng_state.pth +3 -0
checkpoint-600/scheduler.pt +3 -0
checkpoint-600/special_tokens_map.json +1 -0
checkpoint-600/spiece.model +3 -0
checkpoint-600/tokenizer.json +0 -0
checkpoint-600/tokenizer_config.json +1 -0
checkpoint-600/trainer_state.json +949 -0
checkpoint-600/training_args.bin +3 -0

checkpoint-400/added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {" <=": 32100, " <": 32101}

checkpoint-400/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "t5-small",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "diversity_penalty": null,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "max_length": 512,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 6,
+  "num_relations": 48,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.11.3",
+  "use_cache": true,
+  "vocab_size": 32128
+}

checkpoint-400/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9cd705d1b9f8a07973acfedf1c8294ccff14d6a83e69341bf856f9caea0ba6ea
+size 840419

checkpoint-400/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01d8f07bc06916b5b94752332fc9eb1c6f2b182ddb144101b80868347155b549
+size 242111735

checkpoint-400/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1b3cdec9cf5845ed6bbd01fa200c385f17770b411093edc31cdbd9494c7a11fc
+size 14503

checkpoint-400/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:64a7e411cfeebed3217cf4ae85e2b8a842c0a53b34d002639b1f5b126fa27288
+size 623

checkpoint-400/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"]}

checkpoint-400/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

checkpoint-400/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-400/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 100, "additional_special_tokens": ["<extra_id_0>", "<extra_id_1>", "<extra_id_2>", "<extra_id_3>", "<extra_id_4>", "<extra_id_5>", "<extra_id_6>", "<extra_id_7>", "<extra_id_8>", "<extra_id_9>", "<extra_id_10>", "<extra_id_11>", "<extra_id_12>", "<extra_id_13>", "<extra_id_14>", "<extra_id_15>", "<extra_id_16>", "<extra_id_17>", "<extra_id_18>", "<extra_id_19>", "<extra_id_20>", "<extra_id_21>", "<extra_id_22>", "<extra_id_23>", "<extra_id_24>", "<extra_id_25>", "<extra_id_26>", "<extra_id_27>", "<extra_id_28>", "<extra_id_29>", "<extra_id_30>", "<extra_id_31>", "<extra_id_32>", "<extra_id_33>", "<extra_id_34>", "<extra_id_35>", "<extra_id_36>", "<extra_id_37>", "<extra_id_38>", "<extra_id_39>", "<extra_id_40>", "<extra_id_41>", "<extra_id_42>", "<extra_id_43>", "<extra_id_44>", "<extra_id_45>", "<extra_id_46>", "<extra_id_47>", "<extra_id_48>", "<extra_id_49>", "<extra_id_50>", "<extra_id_51>", "<extra_id_52>", "<extra_id_53>", "<extra_id_54>", "<extra_id_55>", "<extra_id_56>", "<extra_id_57>", "<extra_id_58>", "<extra_id_59>", "<extra_id_60>", "<extra_id_61>", "<extra_id_62>", "<extra_id_63>", "<extra_id_64>", "<extra_id_65>", "<extra_id_66>", "<extra_id_67>", "<extra_id_68>", "<extra_id_69>", "<extra_id_70>", "<extra_id_71>", "<extra_id_72>", "<extra_id_73>", "<extra_id_74>", "<extra_id_75>", "<extra_id_76>", "<extra_id_77>", "<extra_id_78>", "<extra_id_79>", "<extra_id_80>", "<extra_id_81>", "<extra_id_82>", "<extra_id_83>", "<extra_id_84>", "<extra_id_85>", "<extra_id_86>", "<extra_id_87>", "<extra_id_88>", "<extra_id_89>", "<extra_id_90>", "<extra_id_91>", "<extra_id_92>", "<extra_id_93>", "<extra_id_94>", "<extra_id_95>", "<extra_id_96>", "<extra_id_97>", "<extra_id_98>", "<extra_id_99>"], "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "t5-small", "tokenizer_class": "T5Tokenizer"}

checkpoint-400/trainer_state.json ADDED Viewed

	@@ -0,0 +1,640 @@

+{
+  "best_metric": 0.48065764023210833,
+  "best_model_checkpoint": "train/DocuT5-RASAT-Small-SD/checkpoint-400",
+  "epoch": 399.93607305936075,
+  "global_step": 400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.001,
+      "loss": 4.452,
+      "step": 1
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 0.001,
+      "loss": 3.2202,
+      "step": 4
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 0.001,
+      "loss": 2.0091,
+      "step": 8
+    },
+    {
+      "epoch": 11.94,
+      "learning_rate": 0.001,
+      "loss": 1.4161,
+      "step": 12
+    },
+    {
+      "epoch": 15.94,
+      "learning_rate": 0.001,
+      "loss": 1.055,
+      "step": 16
+    },
+    {
+      "epoch": 19.94,
+      "learning_rate": 0.001,
+      "loss": 0.9194,
+      "step": 20
+    },
+    {
+      "epoch": 23.94,
+      "learning_rate": 0.001,
+      "loss": 0.6759,
+      "step": 24
+    },
+    {
+      "epoch": 27.94,
+      "learning_rate": 0.001,
+      "loss": 0.6637,
+      "step": 28
+    },
+    {
+      "epoch": 31.94,
+      "learning_rate": 0.001,
+      "loss": 0.4995,
+      "step": 32
+    },
+    {
+      "epoch": 35.94,
+      "learning_rate": 0.001,
+      "loss": 0.505,
+      "step": 36
+    },
+    {
+      "epoch": 39.94,
+      "learning_rate": 0.001,
+      "loss": 0.3915,
+      "step": 40
+    },
+    {
+      "epoch": 43.94,
+      "learning_rate": 0.001,
+      "loss": 0.3916,
+      "step": 44
+    },
+    {
+      "epoch": 47.94,
+      "learning_rate": 0.001,
+      "loss": 0.3585,
+      "step": 48
+    },
+    {
+      "epoch": 51.94,
+      "learning_rate": 0.001,
+      "loss": 0.3014,
+      "step": 52
+    },
+    {
+      "epoch": 55.94,
+      "learning_rate": 0.001,
+      "loss": 0.2761,
+      "step": 56
+    },
+    {
+      "epoch": 59.94,
+      "learning_rate": 0.001,
+      "loss": 0.2745,
+      "step": 60
+    },
+    {
+      "epoch": 63.94,
+      "learning_rate": 0.001,
+      "loss": 0.3122,
+      "step": 64
+    },
+    {
+      "epoch": 67.94,
+      "learning_rate": 0.001,
+      "loss": 0.234,
+      "step": 68
+    },
+    {
+      "epoch": 71.94,
+      "learning_rate": 0.001,
+      "loss": 0.2171,
+      "step": 72
+    },
+    {
+      "epoch": 75.94,
+      "learning_rate": 0.001,
+      "loss": 0.2122,
+      "step": 76
+    },
+    {
+      "epoch": 79.94,
+      "learning_rate": 0.001,
+      "loss": 0.1883,
+      "step": 80
+    },
+    {
+      "epoch": 83.94,
+      "learning_rate": 0.001,
+      "loss": 0.1895,
+      "step": 84
+    },
+    {
+      "epoch": 87.94,
+      "learning_rate": 0.001,
+      "loss": 0.1789,
+      "step": 88
+    },
+    {
+      "epoch": 91.94,
+      "learning_rate": 0.001,
+      "loss": 0.1731,
+      "step": 92
+    },
+    {
+      "epoch": 95.94,
+      "learning_rate": 0.001,
+      "loss": 0.1587,
+      "step": 96
+    },
+    {
+      "epoch": 99.94,
+      "learning_rate": 0.001,
+      "loss": 0.1459,
+      "step": 100
+    },
+    {
+      "epoch": 103.94,
+      "learning_rate": 0.001,
+      "loss": 0.1501,
+      "step": 104
+    },
+    {
+      "epoch": 107.94,
+      "learning_rate": 0.001,
+      "loss": 0.1412,
+      "step": 108
+    },
+    {
+      "epoch": 111.94,
+      "learning_rate": 0.001,
+      "loss": 0.1292,
+      "step": 112
+    },
+    {
+      "epoch": 115.94,
+      "learning_rate": 0.001,
+      "loss": 0.1141,
+      "step": 116
+    },
+    {
+      "epoch": 119.94,
+      "learning_rate": 0.001,
+      "loss": 0.1193,
+      "step": 120
+    },
+    {
+      "epoch": 123.94,
+      "learning_rate": 0.001,
+      "loss": 0.1313,
+      "step": 124
+    },
+    {
+      "epoch": 127.94,
+      "learning_rate": 0.001,
+      "loss": 0.1131,
+      "step": 128
+    },
+    {
+      "epoch": 131.94,
+      "learning_rate": 0.001,
+      "loss": 0.1038,
+      "step": 132
+    },
+    {
+      "epoch": 135.94,
+      "learning_rate": 0.001,
+      "loss": 0.0951,
+      "step": 136
+    },
+    {
+      "epoch": 139.94,
+      "learning_rate": 0.001,
+      "loss": 0.0891,
+      "step": 140
+    },
+    {
+      "epoch": 143.94,
+      "learning_rate": 0.001,
+      "loss": 0.0978,
+      "step": 144
+    },
+    {
+      "epoch": 147.94,
+      "learning_rate": 0.001,
+      "loss": 0.1093,
+      "step": 148
+    },
+    {
+      "epoch": 151.94,
+      "learning_rate": 0.001,
+      "loss": 0.1101,
+      "step": 152
+    },
+    {
+      "epoch": 155.94,
+      "learning_rate": 0.001,
+      "loss": 0.0945,
+      "step": 156
+    },
+    {
+      "epoch": 159.94,
+      "learning_rate": 0.001,
+      "loss": 0.0764,
+      "step": 160
+    },
+    {
+      "epoch": 163.94,
+      "learning_rate": 0.001,
+      "loss": 0.0884,
+      "step": 164
+    },
+    {
+      "epoch": 167.94,
+      "learning_rate": 0.001,
+      "loss": 0.1142,
+      "step": 168
+    },
+    {
+      "epoch": 171.94,
+      "learning_rate": 0.001,
+      "loss": 0.1011,
+      "step": 172
+    },
+    {
+      "epoch": 175.94,
+      "learning_rate": 0.001,
+      "loss": 0.0702,
+      "step": 176
+    },
+    {
+      "epoch": 179.94,
+      "learning_rate": 0.001,
+      "loss": 0.0597,
+      "step": 180
+    },
+    {
+      "epoch": 183.94,
+      "learning_rate": 0.001,
+      "loss": 0.0579,
+      "step": 184
+    },
+    {
+      "epoch": 187.94,
+      "learning_rate": 0.001,
+      "loss": 0.0559,
+      "step": 188
+    },
+    {
+      "epoch": 191.94,
+      "learning_rate": 0.001,
+      "loss": 0.0558,
+      "step": 192
+    },
+    {
+      "epoch": 195.94,
+      "learning_rate": 0.001,
+      "loss": 0.0534,
+      "step": 196
+    },
+    {
+      "epoch": 199.94,
+      "learning_rate": 0.001,
+      "loss": 0.0505,
+      "step": 200
+    },
+    {
+      "epoch": 199.94,
+      "eval_exact_match": 0.21083172147001933,
+      "eval_exec": 0.23017408123791103,
+      "eval_loss": 0.37137603759765625,
+      "eval_runtime": 103.3205,
+      "eval_samples_per_second": 10.008,
+      "step": 200
+    },
+    {
+      "epoch": 203.94,
+      "learning_rate": 0.001,
+      "loss": 0.0466,
+      "step": 204
+    },
+    {
+      "epoch": 207.94,
+      "learning_rate": 0.001,
+      "loss": 0.0472,
+      "step": 208
+    },
+    {
+      "epoch": 211.94,
+      "learning_rate": 0.001,
+      "loss": 0.0474,
+      "step": 212
+    },
+    {
+      "epoch": 215.94,
+      "learning_rate": 0.001,
+      "loss": 0.0439,
+      "step": 216
+    },
+    {
+      "epoch": 219.94,
+      "learning_rate": 0.001,
+      "loss": 0.0536,
+      "step": 220
+    },
+    {
+      "epoch": 223.94,
+      "learning_rate": 0.001,
+      "loss": 0.0673,
+      "step": 224
+    },
+    {
+      "epoch": 227.94,
+      "learning_rate": 0.001,
+      "loss": 0.0939,
+      "step": 228
+    },
+    {
+      "epoch": 231.94,
+      "learning_rate": 0.001,
+      "loss": 0.0489,
+      "step": 232
+    },
+    {
+      "epoch": 235.94,
+      "learning_rate": 0.001,
+      "loss": 0.0363,
+      "step": 236
+    },
+    {
+      "epoch": 239.94,
+      "learning_rate": 0.001,
+      "loss": 0.0375,
+      "step": 240
+    },
+    {
+      "epoch": 243.94,
+      "learning_rate": 0.001,
+      "loss": 0.0351,
+      "step": 244
+    },
+    {
+      "epoch": 247.94,
+      "learning_rate": 0.001,
+      "loss": 0.0315,
+      "step": 248
+    },
+    {
+      "epoch": 251.94,
+      "learning_rate": 0.001,
+      "loss": 0.0303,
+      "step": 252
+    },
+    {
+      "epoch": 255.94,
+      "learning_rate": 0.001,
+      "loss": 0.041,
+      "step": 256
+    },
+    {
+      "epoch": 259.94,
+      "learning_rate": 0.001,
+      "loss": 0.0489,
+      "step": 260
+    },
+    {
+      "epoch": 263.94,
+      "learning_rate": 0.001,
+      "loss": 0.0536,
+      "step": 264
+    },
+    {
+      "epoch": 267.94,
+      "learning_rate": 0.001,
+      "loss": 0.0338,
+      "step": 268
+    },
+    {
+      "epoch": 271.94,
+      "learning_rate": 0.001,
+      "loss": 0.0266,
+      "step": 272
+    },
+    {
+      "epoch": 275.94,
+      "learning_rate": 0.001,
+      "loss": 0.0259,
+      "step": 276
+    },
+    {
+      "epoch": 279.94,
+      "learning_rate": 0.001,
+      "loss": 0.0238,
+      "step": 280
+    },
+    {
+      "epoch": 283.94,
+      "learning_rate": 0.001,
+      "loss": 0.0235,
+      "step": 284
+    },
+    {
+      "epoch": 287.94,
+      "learning_rate": 0.001,
+      "loss": 0.0226,
+      "step": 288
+    },
+    {
+      "epoch": 291.94,
+      "learning_rate": 0.001,
+      "loss": 0.0213,
+      "step": 292
+    },
+    {
+      "epoch": 295.94,
+      "learning_rate": 0.001,
+      "loss": 0.0222,
+      "step": 296
+    },
+    {
+      "epoch": 299.94,
+      "learning_rate": 0.001,
+      "loss": 0.0226,
+      "step": 300
+    },
+    {
+      "epoch": 303.94,
+      "learning_rate": 0.001,
+      "loss": 0.0262,
+      "step": 304
+    },
+    {
+      "epoch": 307.94,
+      "learning_rate": 0.001,
+      "loss": 0.0251,
+      "step": 308
+    },
+    {
+      "epoch": 311.94,
+      "learning_rate": 0.001,
+      "loss": 0.0184,
+      "step": 312
+    },
+    {
+      "epoch": 315.94,
+      "learning_rate": 0.001,
+      "loss": 0.0209,
+      "step": 316
+    },
+    {
+      "epoch": 319.94,
+      "learning_rate": 0.001,
+      "loss": 0.0176,
+      "step": 320
+    },
+    {
+      "epoch": 323.94,
+      "learning_rate": 0.001,
+      "loss": 0.017,
+      "step": 324
+    },
+    {
+      "epoch": 327.94,
+      "learning_rate": 0.001,
+      "loss": 0.0163,
+      "step": 328
+    },
+    {
+      "epoch": 331.94,
+      "learning_rate": 0.001,
+      "loss": 0.0162,
+      "step": 332
+    },
+    {
+      "epoch": 335.94,
+      "learning_rate": 0.001,
+      "loss": 0.0188,
+      "step": 336
+    },
+    {
+      "epoch": 339.94,
+      "learning_rate": 0.001,
+      "loss": 0.0168,
+      "step": 340
+    },
+    {
+      "epoch": 343.94,
+      "learning_rate": 0.001,
+      "loss": 0.0139,
+      "step": 344
+    },
+    {
+      "epoch": 347.94,
+      "learning_rate": 0.001,
+      "loss": 0.0147,
+      "step": 348
+    },
+    {
+      "epoch": 351.94,
+      "learning_rate": 0.001,
+      "loss": 0.0144,
+      "step": 352
+    },
+    {
+      "epoch": 355.94,
+      "learning_rate": 0.001,
+      "loss": 0.0129,
+      "step": 356
+    },
+    {
+      "epoch": 359.94,
+      "learning_rate": 0.001,
+      "loss": 0.0214,
+      "step": 360
+    },
+    {
+      "epoch": 363.94,
+      "learning_rate": 0.001,
+      "loss": 0.0602,
+      "step": 364
+    },
+    {
+      "epoch": 367.94,
+      "learning_rate": 0.001,
+      "loss": 0.031,
+      "step": 368
+    },
+    {
+      "epoch": 371.94,
+      "learning_rate": 0.001,
+      "loss": 0.0167,
+      "step": 372
+    },
+    {
+      "epoch": 375.94,
+      "learning_rate": 0.001,
+      "loss": 0.0119,
+      "step": 376
+    },
+    {
+      "epoch": 379.94,
+      "learning_rate": 0.001,
+      "loss": 0.0115,
+      "step": 380
+    },
+    {
+      "epoch": 383.94,
+      "learning_rate": 0.001,
+      "loss": 0.0107,
+      "step": 384
+    },
+    {
+      "epoch": 387.94,
+      "learning_rate": 0.001,
+      "loss": 0.0099,
+      "step": 388
+    },
+    {
+      "epoch": 391.94,
+      "learning_rate": 0.001,
+      "loss": 0.0097,
+      "step": 392
+    },
+    {
+      "epoch": 395.94,
+      "learning_rate": 0.001,
+      "loss": 0.009,
+      "step": 396
+    },
+    {
+      "epoch": 399.94,
+      "learning_rate": 0.001,
+      "loss": 0.0086,
+      "step": 400
+    },
+    {
+      "epoch": 399.94,
+      "eval_exact_match": 0.48065764023210833,
+      "eval_exec": 0.4758220502901354,
+      "eval_loss": 0.47830089926719666,
+      "eval_runtime": 106.7292,
+      "eval_samples_per_second": 9.688,
+      "step": 400
+    }
+  ],
+  "max_steps": 1602,
+  "num_train_epochs": 1602,
+  "total_flos": 4.576454547800064e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-400/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c20e4fbfc3c6e458b39e5e8bb30e9452245ef3516a01db5a085e691f53119d55
+size 3055

checkpoint-600/added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {" <=": 32100, " <": 32101}

checkpoint-600/config.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "_name_or_path": "t5-small",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "diversity_penalty": null,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "max_length": 512,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 6,
+  "num_relations": 48,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.11.3",
+  "use_cache": true,
+  "vocab_size": 32128
+}

checkpoint-600/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf9e5ef53cab4a00221a39f9131819dd744f7ede13eed86f171c94b2b5148595
+size 840419

checkpoint-600/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e22ddbfee3e19f00dc475a1dea009563dc2bb593b509ba335eb04e82c6544e47
+size 242111735

checkpoint-600/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9d508c0b69f1006fa2db090d150db78676d9ee95c99c85a5461a916654c8289
+size 14503

checkpoint-600/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6b13200c02f19611a0f4f9972ffc5332b96e1112e0ce2e774a55fa8dc91a2be4
+size 623

checkpoint-600/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@

checkpoint-600/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d60acb128cf7b7f2536e8f38a5b18a05535c9e14c7a355904270e15b0945ea86
+size 791656

checkpoint-600/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-600/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

checkpoint-600/trainer_state.json ADDED Viewed

	@@ -0,0 +1,949 @@

+{
+  "best_metric": 0.48065764023210833,
+  "best_model_checkpoint": "train/DocuT5-RASAT-Small-SD/checkpoint-400",
+  "epoch": 599.9360730593608,
+  "global_step": 600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.001,
+      "loss": 4.452,
+      "step": 1
+    },
+    {
+      "epoch": 3.94,
+      "learning_rate": 0.001,
+      "loss": 3.2202,
+      "step": 4
+    },
+    {
+      "epoch": 7.94,
+      "learning_rate": 0.001,
+      "loss": 2.0091,
+      "step": 8
+    },
+    {
+      "epoch": 11.94,
+      "learning_rate": 0.001,
+      "loss": 1.4161,
+      "step": 12
+    },
+    {
+      "epoch": 15.94,
+      "learning_rate": 0.001,
+      "loss": 1.055,
+      "step": 16
+    },
+    {
+      "epoch": 19.94,
+      "learning_rate": 0.001,
+      "loss": 0.9194,
+      "step": 20
+    },
+    {
+      "epoch": 23.94,
+      "learning_rate": 0.001,
+      "loss": 0.6759,
+      "step": 24
+    },
+    {
+      "epoch": 27.94,
+      "learning_rate": 0.001,
+      "loss": 0.6637,
+      "step": 28
+    },
+    {
+      "epoch": 31.94,
+      "learning_rate": 0.001,
+      "loss": 0.4995,
+      "step": 32
+    },
+    {
+      "epoch": 35.94,
+      "learning_rate": 0.001,
+      "loss": 0.505,
+      "step": 36
+    },
+    {
+      "epoch": 39.94,
+      "learning_rate": 0.001,
+      "loss": 0.3915,
+      "step": 40
+    },
+    {
+      "epoch": 43.94,
+      "learning_rate": 0.001,
+      "loss": 0.3916,
+      "step": 44
+    },
+    {
+      "epoch": 47.94,
+      "learning_rate": 0.001,
+      "loss": 0.3585,
+      "step": 48
+    },
+    {
+      "epoch": 51.94,
+      "learning_rate": 0.001,
+      "loss": 0.3014,
+      "step": 52
+    },
+    {
+      "epoch": 55.94,
+      "learning_rate": 0.001,
+      "loss": 0.2761,
+      "step": 56
+    },
+    {
+      "epoch": 59.94,
+      "learning_rate": 0.001,
+      "loss": 0.2745,
+      "step": 60
+    },
+    {
+      "epoch": 63.94,
+      "learning_rate": 0.001,
+      "loss": 0.3122,
+      "step": 64
+    },
+    {
+      "epoch": 67.94,
+      "learning_rate": 0.001,
+      "loss": 0.234,
+      "step": 68
+    },
+    {
+      "epoch": 71.94,
+      "learning_rate": 0.001,
+      "loss": 0.2171,
+      "step": 72
+    },
+    {
+      "epoch": 75.94,
+      "learning_rate": 0.001,
+      "loss": 0.2122,
+      "step": 76
+    },
+    {
+      "epoch": 79.94,
+      "learning_rate": 0.001,
+      "loss": 0.1883,
+      "step": 80
+    },
+    {
+      "epoch": 83.94,
+      "learning_rate": 0.001,
+      "loss": 0.1895,
+      "step": 84
+    },
+    {
+      "epoch": 87.94,
+      "learning_rate": 0.001,
+      "loss": 0.1789,
+      "step": 88
+    },
+    {
+      "epoch": 91.94,
+      "learning_rate": 0.001,
+      "loss": 0.1731,
+      "step": 92
+    },
+    {
+      "epoch": 95.94,
+      "learning_rate": 0.001,
+      "loss": 0.1587,
+      "step": 96
+    },
+    {
+      "epoch": 99.94,
+      "learning_rate": 0.001,
+      "loss": 0.1459,
+      "step": 100
+    },
+    {
+      "epoch": 103.94,
+      "learning_rate": 0.001,
+      "loss": 0.1501,
+      "step": 104
+    },
+    {
+      "epoch": 107.94,
+      "learning_rate": 0.001,
+      "loss": 0.1412,
+      "step": 108
+    },
+    {
+      "epoch": 111.94,
+      "learning_rate": 0.001,
+      "loss": 0.1292,
+      "step": 112
+    },
+    {
+      "epoch": 115.94,
+      "learning_rate": 0.001,
+      "loss": 0.1141,
+      "step": 116
+    },
+    {
+      "epoch": 119.94,
+      "learning_rate": 0.001,
+      "loss": 0.1193,
+      "step": 120
+    },
+    {
+      "epoch": 123.94,
+      "learning_rate": 0.001,
+      "loss": 0.1313,
+      "step": 124
+    },
+    {
+      "epoch": 127.94,
+      "learning_rate": 0.001,
+      "loss": 0.1131,
+      "step": 128
+    },
+    {
+      "epoch": 131.94,
+      "learning_rate": 0.001,
+      "loss": 0.1038,
+      "step": 132
+    },
+    {
+      "epoch": 135.94,
+      "learning_rate": 0.001,
+      "loss": 0.0951,
+      "step": 136
+    },
+    {
+      "epoch": 139.94,
+      "learning_rate": 0.001,
+      "loss": 0.0891,
+      "step": 140
+    },
+    {
+      "epoch": 143.94,
+      "learning_rate": 0.001,
+      "loss": 0.0978,
+      "step": 144
+    },
+    {
+      "epoch": 147.94,
+      "learning_rate": 0.001,
+      "loss": 0.1093,
+      "step": 148
+    },
+    {
+      "epoch": 151.94,
+      "learning_rate": 0.001,
+      "loss": 0.1101,
+      "step": 152
+    },
+    {
+      "epoch": 155.94,
+      "learning_rate": 0.001,
+      "loss": 0.0945,
+      "step": 156
+    },
+    {
+      "epoch": 159.94,
+      "learning_rate": 0.001,
+      "loss": 0.0764,
+      "step": 160
+    },
+    {
+      "epoch": 163.94,
+      "learning_rate": 0.001,
+      "loss": 0.0884,
+      "step": 164
+    },
+    {
+      "epoch": 167.94,
+      "learning_rate": 0.001,
+      "loss": 0.1142,
+      "step": 168
+    },
+    {
+      "epoch": 171.94,
+      "learning_rate": 0.001,
+      "loss": 0.1011,
+      "step": 172
+    },
+    {
+      "epoch": 175.94,
+      "learning_rate": 0.001,
+      "loss": 0.0702,
+      "step": 176
+    },
+    {
+      "epoch": 179.94,
+      "learning_rate": 0.001,
+      "loss": 0.0597,
+      "step": 180
+    },
+    {
+      "epoch": 183.94,
+      "learning_rate": 0.001,
+      "loss": 0.0579,
+      "step": 184
+    },
+    {
+      "epoch": 187.94,
+      "learning_rate": 0.001,
+      "loss": 0.0559,
+      "step": 188
+    },
+    {
+      "epoch": 191.94,
+      "learning_rate": 0.001,
+      "loss": 0.0558,
+      "step": 192
+    },
+    {
+      "epoch": 195.94,
+      "learning_rate": 0.001,
+      "loss": 0.0534,
+      "step": 196
+    },
+    {
+      "epoch": 199.94,
+      "learning_rate": 0.001,
+      "loss": 0.0505,
+      "step": 200
+    },
+    {
+      "epoch": 199.94,
+      "eval_exact_match": 0.21083172147001933,
+      "eval_exec": 0.23017408123791103,
+      "eval_loss": 0.37137603759765625,
+      "eval_runtime": 103.3205,
+      "eval_samples_per_second": 10.008,
+      "step": 200
+    },
+    {
+      "epoch": 203.94,
+      "learning_rate": 0.001,
+      "loss": 0.0466,
+      "step": 204
+    },
+    {
+      "epoch": 207.94,
+      "learning_rate": 0.001,
+      "loss": 0.0472,
+      "step": 208
+    },
+    {
+      "epoch": 211.94,
+      "learning_rate": 0.001,
+      "loss": 0.0474,
+      "step": 212
+    },
+    {
+      "epoch": 215.94,
+      "learning_rate": 0.001,
+      "loss": 0.0439,
+      "step": 216
+    },
+    {
+      "epoch": 219.94,
+      "learning_rate": 0.001,
+      "loss": 0.0536,
+      "step": 220
+    },
+    {
+      "epoch": 223.94,
+      "learning_rate": 0.001,
+      "loss": 0.0673,
+      "step": 224
+    },
+    {
+      "epoch": 227.94,
+      "learning_rate": 0.001,
+      "loss": 0.0939,
+      "step": 228
+    },
+    {
+      "epoch": 231.94,
+      "learning_rate": 0.001,
+      "loss": 0.0489,
+      "step": 232
+    },
+    {
+      "epoch": 235.94,
+      "learning_rate": 0.001,
+      "loss": 0.0363,
+      "step": 236
+    },
+    {
+      "epoch": 239.94,
+      "learning_rate": 0.001,
+      "loss": 0.0375,
+      "step": 240
+    },
+    {
+      "epoch": 243.94,
+      "learning_rate": 0.001,
+      "loss": 0.0351,
+      "step": 244
+    },
+    {
+      "epoch": 247.94,
+      "learning_rate": 0.001,
+      "loss": 0.0315,
+      "step": 248
+    },
+    {
+      "epoch": 251.94,
+      "learning_rate": 0.001,
+      "loss": 0.0303,
+      "step": 252
+    },
+    {
+      "epoch": 255.94,
+      "learning_rate": 0.001,
+      "loss": 0.041,
+      "step": 256
+    },
+    {
+      "epoch": 259.94,
+      "learning_rate": 0.001,
+      "loss": 0.0489,
+      "step": 260
+    },
+    {
+      "epoch": 263.94,
+      "learning_rate": 0.001,
+      "loss": 0.0536,
+      "step": 264
+    },
+    {
+      "epoch": 267.94,
+      "learning_rate": 0.001,
+      "loss": 0.0338,
+      "step": 268
+    },
+    {
+      "epoch": 271.94,
+      "learning_rate": 0.001,
+      "loss": 0.0266,
+      "step": 272
+    },
+    {
+      "epoch": 275.94,
+      "learning_rate": 0.001,
+      "loss": 0.0259,
+      "step": 276
+    },
+    {
+      "epoch": 279.94,
+      "learning_rate": 0.001,
+      "loss": 0.0238,
+      "step": 280
+    },
+    {
+      "epoch": 283.94,
+      "learning_rate": 0.001,
+      "loss": 0.0235,
+      "step": 284
+    },
+    {
+      "epoch": 287.94,
+      "learning_rate": 0.001,
+      "loss": 0.0226,
+      "step": 288
+    },
+    {
+      "epoch": 291.94,
+      "learning_rate": 0.001,
+      "loss": 0.0213,
+      "step": 292
+    },
+    {
+      "epoch": 295.94,
+      "learning_rate": 0.001,
+      "loss": 0.0222,
+      "step": 296
+    },
+    {
+      "epoch": 299.94,
+      "learning_rate": 0.001,
+      "loss": 0.0226,
+      "step": 300
+    },
+    {
+      "epoch": 303.94,
+      "learning_rate": 0.001,
+      "loss": 0.0262,
+      "step": 304
+    },
+    {
+      "epoch": 307.94,
+      "learning_rate": 0.001,
+      "loss": 0.0251,
+      "step": 308
+    },
+    {
+      "epoch": 311.94,
+      "learning_rate": 0.001,
+      "loss": 0.0184,
+      "step": 312
+    },
+    {
+      "epoch": 315.94,
+      "learning_rate": 0.001,
+      "loss": 0.0209,
+      "step": 316
+    },
+    {
+      "epoch": 319.94,
+      "learning_rate": 0.001,
+      "loss": 0.0176,
+      "step": 320
+    },
+    {
+      "epoch": 323.94,
+      "learning_rate": 0.001,
+      "loss": 0.017,
+      "step": 324
+    },
+    {
+      "epoch": 327.94,
+      "learning_rate": 0.001,
+      "loss": 0.0163,
+      "step": 328
+    },
+    {
+      "epoch": 331.94,
+      "learning_rate": 0.001,
+      "loss": 0.0162,
+      "step": 332
+    },
+    {
+      "epoch": 335.94,
+      "learning_rate": 0.001,
+      "loss": 0.0188,
+      "step": 336
+    },
+    {
+      "epoch": 339.94,
+      "learning_rate": 0.001,
+      "loss": 0.0168,
+      "step": 340
+    },
+    {
+      "epoch": 343.94,
+      "learning_rate": 0.001,
+      "loss": 0.0139,
+      "step": 344
+    },
+    {
+      "epoch": 347.94,
+      "learning_rate": 0.001,
+      "loss": 0.0147,
+      "step": 348
+    },
+    {
+      "epoch": 351.94,
+      "learning_rate": 0.001,
+      "loss": 0.0144,
+      "step": 352
+    },
+    {
+      "epoch": 355.94,
+      "learning_rate": 0.001,
+      "loss": 0.0129,
+      "step": 356
+    },
+    {
+      "epoch": 359.94,
+      "learning_rate": 0.001,
+      "loss": 0.0214,
+      "step": 360
+    },
+    {
+      "epoch": 363.94,
+      "learning_rate": 0.001,
+      "loss": 0.0602,
+      "step": 364
+    },
+    {
+      "epoch": 367.94,
+      "learning_rate": 0.001,
+      "loss": 0.031,
+      "step": 368
+    },
+    {
+      "epoch": 371.94,
+      "learning_rate": 0.001,
+      "loss": 0.0167,
+      "step": 372
+    },
+    {
+      "epoch": 375.94,
+      "learning_rate": 0.001,
+      "loss": 0.0119,
+      "step": 376
+    },
+    {
+      "epoch": 379.94,
+      "learning_rate": 0.001,
+      "loss": 0.0115,
+      "step": 380
+    },
+    {
+      "epoch": 383.94,
+      "learning_rate": 0.001,
+      "loss": 0.0107,
+      "step": 384
+    },
+    {
+      "epoch": 387.94,
+      "learning_rate": 0.001,
+      "loss": 0.0099,
+      "step": 388
+    },
+    {
+      "epoch": 391.94,
+      "learning_rate": 0.001,
+      "loss": 0.0097,
+      "step": 392
+    },
+    {
+      "epoch": 395.94,
+      "learning_rate": 0.001,
+      "loss": 0.009,
+      "step": 396
+    },
+    {
+      "epoch": 399.94,
+      "learning_rate": 0.001,
+      "loss": 0.0086,
+      "step": 400
+    },
+    {
+      "epoch": 399.94,
+      "eval_exact_match": 0.48065764023210833,
+      "eval_exec": 0.4758220502901354,
+      "eval_loss": 0.47830089926719666,
+      "eval_runtime": 106.7292,
+      "eval_samples_per_second": 9.688,
+      "step": 400
+    },
+    {
+      "epoch": 403.94,
+      "learning_rate": 0.001,
+      "loss": 0.0085,
+      "step": 404
+    },
+    {
+      "epoch": 407.94,
+      "learning_rate": 0.001,
+      "loss": 0.0087,
+      "step": 408
+    },
+    {
+      "epoch": 411.94,
+      "learning_rate": 0.001,
+      "loss": 0.0089,
+      "step": 412
+    },
+    {
+      "epoch": 415.94,
+      "learning_rate": 0.001,
+      "loss": 0.0079,
+      "step": 416
+    },
+    {
+      "epoch": 419.94,
+      "learning_rate": 0.001,
+      "loss": 0.0075,
+      "step": 420
+    },
+    {
+      "epoch": 423.94,
+      "learning_rate": 0.001,
+      "loss": 0.0071,
+      "step": 424
+    },
+    {
+      "epoch": 427.94,
+      "learning_rate": 0.001,
+      "loss": 0.0072,
+      "step": 428
+    },
+    {
+      "epoch": 431.94,
+      "learning_rate": 0.001,
+      "loss": 0.0079,
+      "step": 432
+    },
+    {
+      "epoch": 435.94,
+      "learning_rate": 0.001,
+      "loss": 0.0288,
+      "step": 436
+    },
+    {
+      "epoch": 439.94,
+      "learning_rate": 0.001,
+      "loss": 0.0244,
+      "step": 440
+    },
+    {
+      "epoch": 443.94,
+      "learning_rate": 0.001,
+      "loss": 0.0254,
+      "step": 444
+    },
+    {
+      "epoch": 447.94,
+      "learning_rate": 0.001,
+      "loss": 0.0131,
+      "step": 448
+    },
+    {
+      "epoch": 451.94,
+      "learning_rate": 0.001,
+      "loss": 0.0096,
+      "step": 452
+    },
+    {
+      "epoch": 455.94,
+      "learning_rate": 0.001,
+      "loss": 0.0064,
+      "step": 456
+    },
+    {
+      "epoch": 459.94,
+      "learning_rate": 0.001,
+      "loss": 0.006,
+      "step": 460
+    },
+    {
+      "epoch": 463.94,
+      "learning_rate": 0.001,
+      "loss": 0.0058,
+      "step": 464
+    },
+    {
+      "epoch": 467.94,
+      "learning_rate": 0.001,
+      "loss": 0.0057,
+      "step": 468
+    },
+    {
+      "epoch": 471.94,
+      "learning_rate": 0.001,
+      "loss": 0.0056,
+      "step": 472
+    },
+    {
+      "epoch": 475.94,
+      "learning_rate": 0.001,
+      "loss": 0.0055,
+      "step": 476
+    },
+    {
+      "epoch": 479.94,
+      "learning_rate": 0.001,
+      "loss": 0.0053,
+      "step": 480
+    },
+    {
+      "epoch": 483.94,
+      "learning_rate": 0.001,
+      "loss": 0.0049,
+      "step": 484
+    },
+    {
+      "epoch": 487.94,
+      "learning_rate": 0.001,
+      "loss": 0.0048,
+      "step": 488
+    },
+    {
+      "epoch": 491.94,
+      "learning_rate": 0.001,
+      "loss": 0.0047,
+      "step": 492
+    },
+    {
+      "epoch": 495.94,
+      "learning_rate": 0.001,
+      "loss": 0.0048,
+      "step": 496
+    },
+    {
+      "epoch": 499.94,
+      "learning_rate": 0.001,
+      "loss": 0.0045,
+      "step": 500
+    },
+    {
+      "epoch": 503.94,
+      "learning_rate": 0.001,
+      "loss": 0.0045,
+      "step": 504
+    },
+    {
+      "epoch": 507.94,
+      "learning_rate": 0.001,
+      "loss": 0.0042,
+      "step": 508
+    },
+    {
+      "epoch": 511.94,
+      "learning_rate": 0.001,
+      "loss": 0.0044,
+      "step": 512
+    },
+    {
+      "epoch": 515.94,
+      "learning_rate": 0.001,
+      "loss": 0.0042,
+      "step": 516
+    },
+    {
+      "epoch": 519.94,
+      "learning_rate": 0.001,
+      "loss": 0.0039,
+      "step": 520
+    },
+    {
+      "epoch": 523.94,
+      "learning_rate": 0.001,
+      "loss": 0.0039,
+      "step": 524
+    },
+    {
+      "epoch": 527.94,
+      "learning_rate": 0.001,
+      "loss": 0.0039,
+      "step": 528
+    },
+    {
+      "epoch": 531.94,
+      "learning_rate": 0.001,
+      "loss": 0.0045,
+      "step": 532
+    },
+    {
+      "epoch": 535.94,
+      "learning_rate": 0.001,
+      "loss": 0.0223,
+      "step": 536
+    },
+    {
+      "epoch": 539.94,
+      "learning_rate": 0.001,
+      "loss": 0.0217,
+      "step": 540
+    },
+    {
+      "epoch": 543.94,
+      "learning_rate": 0.001,
+      "loss": 0.0182,
+      "step": 544
+    },
+    {
+      "epoch": 547.94,
+      "learning_rate": 0.001,
+      "loss": 0.0253,
+      "step": 548
+    },
+    {
+      "epoch": 551.94,
+      "learning_rate": 0.001,
+      "loss": 0.023,
+      "step": 552
+    },
+    {
+      "epoch": 555.94,
+      "learning_rate": 0.001,
+      "loss": 0.0738,
+      "step": 556
+    },
+    {
+      "epoch": 559.94,
+      "learning_rate": 0.001,
+      "loss": 0.0071,
+      "step": 560
+    },
+    {
+      "epoch": 563.94,
+      "learning_rate": 0.001,
+      "loss": 0.0049,
+      "step": 564
+    },
+    {
+      "epoch": 567.94,
+      "learning_rate": 0.001,
+      "loss": 0.0045,
+      "step": 568
+    },
+    {
+      "epoch": 571.94,
+      "learning_rate": 0.001,
+      "loss": 0.0041,
+      "step": 572
+    },
+    {
+      "epoch": 575.94,
+      "learning_rate": 0.001,
+      "loss": 0.004,
+      "step": 576
+    },
+    {
+      "epoch": 579.94,
+      "learning_rate": 0.001,
+      "loss": 0.0036,
+      "step": 580
+    },
+    {
+      "epoch": 583.94,
+      "learning_rate": 0.001,
+      "loss": 0.0035,
+      "step": 584
+    },
+    {
+      "epoch": 587.94,
+      "learning_rate": 0.001,
+      "loss": 0.0035,
+      "step": 588
+    },
+    {
+      "epoch": 591.94,
+      "learning_rate": 0.001,
+      "loss": 0.0032,
+      "step": 592
+    },
+    {
+      "epoch": 595.94,
+      "learning_rate": 0.001,
+      "loss": 0.0033,
+      "step": 596
+    },
+    {
+      "epoch": 599.94,
+      "learning_rate": 0.001,
+      "loss": 0.0032,
+      "step": 600
+    },
+    {
+      "epoch": 599.94,
+      "eval_exact_match": 0.47775628626692457,
+      "eval_exec": 0.4709864603481625,
+      "eval_loss": 0.5292267203330994,
+      "eval_runtime": 108.5346,
+      "eval_samples_per_second": 9.527,
+      "step": 600
+    }
+  ],
+  "max_steps": 1602,
+  "num_train_epochs": 1602,
+  "total_flos": 6.865408617747579e+17,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-600/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c20e4fbfc3c6e458b39e5e8bb30e9452245ef3516a01db5a085e691f53119d55
+size 3055