update

Browse files

Files changed (11) hide show

added_tokens.json +1 -0
config.json +57 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
spiece.model +3 -0
tokenizer_config.json +1 -0
trainer_state.json +1246 -0
training_args.bin +3 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"<sep>": 250100, "<hl>": 250101}

config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "_name_or_path": "longcld/t5_small_qg_ae_hl",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "gradient_checkpointing": false,
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "transformers_version": "4.8.2",
+  "use_cache": true,
+  "vocab_size": 250102
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4cafcbabe44129021a4c434700895f4a381dea17217609eb51c0a718f7865419
+size 352532601

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc4ee4accfb37af01b780682fd323c899422d9cec7a497f8c73d2ab80eff71c9
+size 688496379

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4cb03b397116ba5e1d68c79af691ec304b5f5ba17a9449d6c4a526074ae59ece
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bcc45b7354d78b5006455dce5c3b813f18a1360e72f327da537744731c6bae3
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 0, "additional_special_tokens": null, "sp_model_kwargs": {}, "special_tokens_map_file": "C:\\Users\\hydra/.cache\\huggingface\\transformers\\bde22e2f08347211bf47b72fb4730b4b9a2e3323a6a1254932cf0fb969eb18cd.b02fba13e4584f40329b20be0bad88c2ef97b5fda7d9f4f69b1cb3a620568a86", "tokenizer_file": null, "name_or_path": "longcld/t5_small_qg_ae_hl", "tokenizer_class": "T5Tokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1246 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.7235286302643815,
+  "global_step": 20500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0009986714494486515,
+      "loss": 3.2529,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000997342898897303,
+      "loss": 3.1978,
+      "step": 200
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0009960143483459547,
+      "loss": 3.1849,
+      "step": 300
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0009946857977946061,
+      "loss": 3.1539,
+      "step": 400
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.0009933572472432576,
+      "loss": 3.1202,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.000992028696691909,
+      "loss": 3.0483,
+      "step": 600
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.0009907001461405608,
+      "loss": 3.0669,
+      "step": 700
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.0009893715955892122,
+      "loss": 3.0665,
+      "step": 800
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0009880430450378637,
+      "loss": 3.0196,
+      "step": 900
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 0.0009867144944865152,
+      "loss": 3.009,
+      "step": 1000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0009853859439351669,
+      "loss": 3.0046,
+      "step": 1100
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0009840573933838183,
+      "loss": 2.9368,
+      "step": 1200
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0009827288428324698,
+      "loss": 2.9478,
+      "step": 1300
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.0009814002922811213,
+      "loss": 2.879,
+      "step": 1400
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.0009800717417297728,
+      "loss": 2.8613,
+      "step": 1500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0009787431911784245,
+      "loss": 2.9318,
+      "step": 1600
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.000977414640627076,
+      "loss": 2.9453,
+      "step": 1700
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.0009760860900757274,
+      "loss": 2.8773,
+      "step": 1800
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000974757539524379,
+      "loss": 2.9057,
+      "step": 1900
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0009734289889730305,
+      "loss": 2.8679,
+      "step": 2000
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.0009721004384216819,
+      "loss": 2.8844,
+      "step": 2100
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0009707718878703334,
+      "loss": 2.8434,
+      "step": 2200
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 0.0009694433373189851,
+      "loss": 2.8379,
+      "step": 2300
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.0009681147867676366,
+      "loss": 2.8515,
+      "step": 2400
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.000966786236216288,
+      "loss": 2.8525,
+      "step": 2500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0009654576856649395,
+      "loss": 2.816,
+      "step": 2600
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.0009641291351135911,
+      "loss": 2.8333,
+      "step": 2700
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0009628005845622427,
+      "loss": 2.7859,
+      "step": 2800
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.0009614720340108941,
+      "loss": 2.8099,
+      "step": 2900
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.0009601434834595456,
+      "loss": 2.8097,
+      "step": 3000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.0009588149329081972,
+      "loss": 2.7639,
+      "step": 3100
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 0.0009574863823568487,
+      "loss": 2.7792,
+      "step": 3200
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0009561578318055003,
+      "loss": 2.7894,
+      "step": 3300
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.0009548292812541517,
+      "loss": 2.7797,
+      "step": 3400
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.0009535007307028033,
+      "loss": 2.7387,
+      "step": 3500
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.0009521721801514548,
+      "loss": 2.7752,
+      "step": 3600
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.0009508436296001063,
+      "loss": 2.6998,
+      "step": 3700
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.0009495150790487578,
+      "loss": 2.7701,
+      "step": 3800
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0009481865284974094,
+      "loss": 2.7543,
+      "step": 3900
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0009468579779460609,
+      "loss": 2.6621,
+      "step": 4000
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.0009455294273947124,
+      "loss": 2.6957,
+      "step": 4100
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.0009442008768433638,
+      "loss": 2.7165,
+      "step": 4200
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0009428723262920155,
+      "loss": 2.6919,
+      "step": 4300
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.000941543775740667,
+      "loss": 2.7239,
+      "step": 4400
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.0009402152251893185,
+      "loss": 2.6743,
+      "step": 4500
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.0009388866746379699,
+      "loss": 2.708,
+      "step": 4600
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.0009375581240866215,
+      "loss": 2.7201,
+      "step": 4700
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.000936229573535273,
+      "loss": 2.7207,
+      "step": 4800
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.0009349010229839246,
+      "loss": 2.7046,
+      "step": 4900
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.000933572472432576,
+      "loss": 2.6758,
+      "step": 5000
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.0009322439218812276,
+      "loss": 2.6754,
+      "step": 5100
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.0009309153713298791,
+      "loss": 2.6408,
+      "step": 5200
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.0009295868207785306,
+      "loss": 2.6306,
+      "step": 5300
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.0009282582702271822,
+      "loss": 2.6455,
+      "step": 5400
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.0009269297196758337,
+      "loss": 2.6905,
+      "step": 5500
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.0009256011691244852,
+      "loss": 2.6132,
+      "step": 5600
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.0009242726185731367,
+      "loss": 2.6048,
+      "step": 5700
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.0009229440680217882,
+      "loss": 2.5945,
+      "step": 5800
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.0009216155174704398,
+      "loss": 2.6384,
+      "step": 5900
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.0009202869669190913,
+      "loss": 2.615,
+      "step": 6000
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0009189584163677428,
+      "loss": 2.6281,
+      "step": 6100
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 0.0009176298658163943,
+      "loss": 2.5965,
+      "step": 6200
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.0009163013152650458,
+      "loss": 2.6704,
+      "step": 6300
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 0.0009149727647136974,
+      "loss": 2.5665,
+      "step": 6400
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.0009136442141623489,
+      "loss": 2.6324,
+      "step": 6500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0009123156636110004,
+      "loss": 2.6258,
+      "step": 6600
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.000910987113059652,
+      "loss": 2.6006,
+      "step": 6700
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.0009096585625083034,
+      "loss": 2.5908,
+      "step": 6800
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.000908330011956955,
+      "loss": 2.5855,
+      "step": 6900
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.0009070014614056065,
+      "loss": 2.6421,
+      "step": 7000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 0.0009056729108542581,
+      "loss": 2.6084,
+      "step": 7100
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0009043443603029095,
+      "loss": 2.6102,
+      "step": 7200
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.000903015809751561,
+      "loss": 2.5543,
+      "step": 7300
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.0009016872592002126,
+      "loss": 2.5746,
+      "step": 7400
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.0009003587086488642,
+      "loss": 2.5401,
+      "step": 7500
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.0008990301580975156,
+      "loss": 2.489,
+      "step": 7600
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0008977016075461671,
+      "loss": 2.5211,
+      "step": 7700
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0008963730569948186,
+      "loss": 2.548,
+      "step": 7800
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.0008950445064434703,
+      "loss": 2.5165,
+      "step": 7900
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0008937159558921218,
+      "loss": 2.4884,
+      "step": 8000
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.0008923874053407732,
+      "loss": 2.4682,
+      "step": 8100
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0008910588547894247,
+      "loss": 2.4754,
+      "step": 8200
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.0008897303042380763,
+      "loss": 2.5076,
+      "step": 8300
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.0008884017536867279,
+      "loss": 2.5088,
+      "step": 8400
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 0.0008870732031353793,
+      "loss": 2.4578,
+      "step": 8500
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0008857446525840308,
+      "loss": 2.4815,
+      "step": 8600
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0008844161020326824,
+      "loss": 2.5504,
+      "step": 8700
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.0008830875514813339,
+      "loss": 2.4883,
+      "step": 8800
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0008817590009299854,
+      "loss": 2.4907,
+      "step": 8900
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.0008804304503786369,
+      "loss": 2.4817,
+      "step": 9000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.0008791018998272885,
+      "loss": 2.4803,
+      "step": 9100
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00087777334927594,
+      "loss": 2.461,
+      "step": 9200
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.0008764447987245914,
+      "loss": 2.4541,
+      "step": 9300
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.000875116248173243,
+      "loss": 2.436,
+      "step": 9400
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.0008737876976218946,
+      "loss": 2.4998,
+      "step": 9500
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0008724591470705461,
+      "loss": 2.4387,
+      "step": 9600
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.0008711305965191976,
+      "loss": 2.5248,
+      "step": 9700
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.000869802045967849,
+      "loss": 2.4285,
+      "step": 9800
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.0008684734954165007,
+      "loss": 2.4363,
+      "step": 9900
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.0008671449448651522,
+      "loss": 2.4629,
+      "step": 10000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0008658163943138037,
+      "loss": 2.463,
+      "step": 10100
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.0008644878437624551,
+      "loss": 2.5058,
+      "step": 10200
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0008631592932111067,
+      "loss": 2.4056,
+      "step": 10300
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0008618307426597583,
+      "loss": 2.4111,
+      "step": 10400
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.0008605021921084098,
+      "loss": 2.4352,
+      "step": 10500
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.0008591736415570612,
+      "loss": 2.4886,
+      "step": 10600
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0008578450910057127,
+      "loss": 2.4433,
+      "step": 10700
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 0.0008565165404543643,
+      "loss": 2.471,
+      "step": 10800
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0008551879899030159,
+      "loss": 2.4446,
+      "step": 10900
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.0008538594393516674,
+      "loss": 2.4567,
+      "step": 11000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0008525308888003188,
+      "loss": 2.5048,
+      "step": 11100
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.0008512023382489704,
+      "loss": 2.4119,
+      "step": 11200
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.0008498737876976219,
+      "loss": 2.4098,
+      "step": 11300
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0008485452371462735,
+      "loss": 2.4108,
+      "step": 11400
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0008472166865949249,
+      "loss": 2.4016,
+      "step": 11500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.0008458881360435765,
+      "loss": 2.422,
+      "step": 11600
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.000844559585492228,
+      "loss": 2.4645,
+      "step": 11700
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.0008432310349408795,
+      "loss": 2.4218,
+      "step": 11800
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.000841902484389531,
+      "loss": 2.4213,
+      "step": 11900
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0008405739338381826,
+      "loss": 2.389,
+      "step": 12000
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 0.0008392453832868341,
+      "loss": 2.3751,
+      "step": 12100
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0008379168327354856,
+      "loss": 2.4552,
+      "step": 12200
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.000836588282184137,
+      "loss": 2.4137,
+      "step": 12300
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.0008352597316327887,
+      "loss": 2.3814,
+      "step": 12400
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0008339311810814402,
+      "loss": 2.3798,
+      "step": 12500
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.0008326026305300917,
+      "loss": 2.384,
+      "step": 12600
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0008312740799787431,
+      "loss": 2.4628,
+      "step": 12700
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.0008299455294273947,
+      "loss": 2.4149,
+      "step": 12800
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.0008286169788760463,
+      "loss": 2.4083,
+      "step": 12900
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 0.0008272884283246978,
+      "loss": 2.4374,
+      "step": 13000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.0008259598777733493,
+      "loss": 2.3741,
+      "step": 13100
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.0008246313272220008,
+      "loss": 2.3797,
+      "step": 13200
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0008233027766706523,
+      "loss": 2.3884,
+      "step": 13300
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.0008219742261193038,
+      "loss": 2.3931,
+      "step": 13400
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.0008206456755679554,
+      "loss": 2.4227,
+      "step": 13500
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.000819317125016607,
+      "loss": 2.417,
+      "step": 13600
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 0.0008179885744652584,
+      "loss": 2.3735,
+      "step": 13700
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0008166600239139099,
+      "loss": 2.4168,
+      "step": 13800
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.0008153314733625614,
+      "loss": 2.4211,
+      "step": 13900
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.0008140029228112131,
+      "loss": 2.4075,
+      "step": 14000
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.0008126743722598645,
+      "loss": 2.385,
+      "step": 14100
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.000811345821708516,
+      "loss": 2.3975,
+      "step": 14200
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.0008100172711571675,
+      "loss": 2.4189,
+      "step": 14300
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 0.0008086887206058191,
+      "loss": 2.4126,
+      "step": 14400
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.0008073601700544706,
+      "loss": 2.4129,
+      "step": 14500
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0008060316195031221,
+      "loss": 2.3709,
+      "step": 14600
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0008047030689517736,
+      "loss": 2.3723,
+      "step": 14700
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.0008033745184004252,
+      "loss": 2.3315,
+      "step": 14800
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.0008020459678490766,
+      "loss": 2.3557,
+      "step": 14900
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.0008007174172977282,
+      "loss": 2.3327,
+      "step": 15000
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0007993888667463797,
+      "loss": 2.3288,
+      "step": 15100
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0007980603161950313,
+      "loss": 2.2879,
+      "step": 15200
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 0.0007967317656436827,
+      "loss": 2.3298,
+      "step": 15300
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 0.0007954032150923342,
+      "loss": 2.3611,
+      "step": 15400
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.0007940746645409858,
+      "loss": 2.2829,
+      "step": 15500
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.0007927461139896374,
+      "loss": 2.2791,
+      "step": 15600
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0007914175634382889,
+      "loss": 2.3107,
+      "step": 15700
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 0.0007900890128869403,
+      "loss": 2.2678,
+      "step": 15800
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0007887604623355918,
+      "loss": 2.2461,
+      "step": 15900
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 0.0007874319117842435,
+      "loss": 2.3019,
+      "step": 16000
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 0.000786103361232895,
+      "loss": 2.3085,
+      "step": 16100
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 0.0007847748106815464,
+      "loss": 2.2968,
+      "step": 16200
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 0.0007834462601301979,
+      "loss": 2.3325,
+      "step": 16300
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 0.0007821177095788495,
+      "loss": 2.2987,
+      "step": 16400
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0007807891590275011,
+      "loss": 2.3043,
+      "step": 16500
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 0.0007794606084761525,
+      "loss": 2.2743,
+      "step": 16600
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 0.000778132057924804,
+      "loss": 2.3369,
+      "step": 16700
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 0.0007768035073734556,
+      "loss": 2.3084,
+      "step": 16800
+    },
+    {
+      "epoch": 2.25,
+      "learning_rate": 0.0007754749568221071,
+      "loss": 2.2688,
+      "step": 16900
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 0.0007741464062707587,
+      "loss": 2.3203,
+      "step": 17000
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0007728178557194101,
+      "loss": 2.2956,
+      "step": 17100
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 0.0007714893051680617,
+      "loss": 2.2939,
+      "step": 17200
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 0.0007701607546167132,
+      "loss": 2.3379,
+      "step": 17300
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 0.0007688322040653647,
+      "loss": 2.3161,
+      "step": 17400
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 0.0007675036535140162,
+      "loss": 2.2423,
+      "step": 17500
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 0.0007661751029626678,
+      "loss": 2.2982,
+      "step": 17600
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 0.0007648465524113193,
+      "loss": 2.3019,
+      "step": 17700
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 0.0007635180018599708,
+      "loss": 2.3133,
+      "step": 17800
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 0.0007621894513086222,
+      "loss": 2.3209,
+      "step": 17900
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 0.0007608609007572739,
+      "loss": 2.2685,
+      "step": 18000
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 0.0007595323502059254,
+      "loss": 2.2641,
+      "step": 18100
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 0.0007582037996545769,
+      "loss": 2.2284,
+      "step": 18200
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 0.0007568752491032283,
+      "loss": 2.2937,
+      "step": 18300
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 0.0007555466985518799,
+      "loss": 2.304,
+      "step": 18400
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 0.0007542181480005315,
+      "loss": 2.2327,
+      "step": 18500
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 0.000752889597449183,
+      "loss": 2.2515,
+      "step": 18600
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 0.0007515610468978344,
+      "loss": 2.2844,
+      "step": 18700
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 0.000750232496346486,
+      "loss": 2.2547,
+      "step": 18800
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 0.0007489039457951375,
+      "loss": 2.2519,
+      "step": 18900
+    },
+    {
+      "epoch": 2.52,
+      "learning_rate": 0.0007475753952437891,
+      "loss": 2.2452,
+      "step": 19000
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 0.0007462468446924406,
+      "loss": 2.2554,
+      "step": 19100
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 0.0007449182941410921,
+      "loss": 2.2747,
+      "step": 19200
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0007435897435897436,
+      "loss": 2.2507,
+      "step": 19300
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 0.0007422611930383951,
+      "loss": 2.2791,
+      "step": 19400
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0007409326424870467,
+      "loss": 2.2677,
+      "step": 19500
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 0.0007396040919356982,
+      "loss": 2.3149,
+      "step": 19600
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 0.0007382755413843497,
+      "loss": 2.27,
+      "step": 19700
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 0.0007369469908330012,
+      "loss": 2.2977,
+      "step": 19800
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 0.0007356184402816527,
+      "loss": 2.2718,
+      "step": 19900
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 0.0007342898897303044,
+      "loss": 2.2379,
+      "step": 20000
+    },
+    {
+      "epoch": 2.67,
+      "learning_rate": 0.0007329613391789558,
+      "loss": 2.2691,
+      "step": 20100
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 0.0007316327886276073,
+      "loss": 2.2407,
+      "step": 20200
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 0.0007303042380762588,
+      "loss": 2.2707,
+      "step": 20300
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 0.0007289756875249104,
+      "loss": 2.2163,
+      "step": 20400
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 0.0007276471369735619,
+      "loss": 2.2541,
+      "step": 20500
+    }
+  ],
+  "max_steps": 75270,
+  "num_train_epochs": 10,
+  "total_flos": 2.418543044232192e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3454634fd5586c72136bb00fb38f3f6a0d3aa089ebb4ddc27a07c6040ccb2541
+size 2607