first commit model

Files changed (11) hide show

config.json +27 -0
merges.txt +0 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +1096 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "roberta-base",
+  "architectures": [
+    "RobertaForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.13.0.dev0",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d13e896a4176b834de04ead67ac56f152ef86c826e79e6cc214457c9853869d
+size 997696473

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3f791190f60ceb242946db533b01262507c89022f36eb3746e39c9ab65e60c9d
+size 498875371

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e49c7fbb73c8f0a1ba658bbde48e5c945b75819c14ba504d0242181057af6aa8
+size 17563

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52d0c776f9430e2857f421df871588edf488262f8e998f8a9e39cccc73085f1c
+size 623

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "add_prefix_space": false, "errors": "replace", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": "<mask>", "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "roberta-base", "tokenizer_class": "RobertaTokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1096 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 35.026963262554766,
+  "global_step": 12960,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.32,
+      "learning_rate": 8e-05,
+      "loss": 1.9241,
+      "step": 120
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00016,
+      "loss": 1.8026,
+      "step": 240
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 1.7006735801696777,
+      "eval_runtime": 120.5725,
+      "eval_samples_per_second": 46.437,
+      "eval_steps_per_second": 0.73,
+      "step": 240
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.0002,
+      "loss": 1.7588,
+      "step": 360
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0002,
+      "loss": 1.7242,
+      "step": 480
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 1.6368365287780762,
+      "eval_runtime": 123.5326,
+      "eval_samples_per_second": 45.324,
+      "eval_steps_per_second": 0.712,
+      "step": 480
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.0002,
+      "loss": 1.6797,
+      "step": 600
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 0.0002,
+      "loss": 1.6544,
+      "step": 720
+    },
+    {
+      "epoch": 1.94,
+      "eval_loss": 1.589858889579773,
+      "eval_runtime": 121.9204,
+      "eval_samples_per_second": 45.923,
+      "eval_steps_per_second": 0.722,
+      "step": 720
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 0.0002,
+      "loss": 1.639,
+      "step": 840
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 0.0002,
+      "loss": 1.6103,
+      "step": 960
+    },
+    {
+      "epoch": 2.59,
+      "eval_loss": 1.559193730354309,
+      "eval_runtime": 118.3836,
+      "eval_samples_per_second": 47.295,
+      "eval_steps_per_second": 0.743,
+      "step": 960
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.0002,
+      "loss": 1.5982,
+      "step": 1080
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 0.0002,
+      "loss": 1.5858,
+      "step": 1200
+    },
+    {
+      "epoch": 3.24,
+      "eval_loss": 1.5362491607666016,
+      "eval_runtime": 123.4422,
+      "eval_samples_per_second": 45.357,
+      "eval_steps_per_second": 0.713,
+      "step": 1200
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 0.0002,
+      "loss": 1.5684,
+      "step": 1320
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 0.0002,
+      "loss": 1.5566,
+      "step": 1440
+    },
+    {
+      "epoch": 3.89,
+      "eval_loss": 1.51528799533844,
+      "eval_runtime": 120.2858,
+      "eval_samples_per_second": 46.547,
+      "eval_steps_per_second": 0.732,
+      "step": 1440
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 0.0002,
+      "loss": 1.5593,
+      "step": 1560
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 0.0002,
+      "loss": 1.5322,
+      "step": 1680
+    },
+    {
+      "epoch": 4.54,
+      "eval_loss": 1.5114836692810059,
+      "eval_runtime": 117.8482,
+      "eval_samples_per_second": 47.51,
+      "eval_steps_per_second": 0.747,
+      "step": 1680
+    },
+    {
+      "epoch": 4.86,
+      "learning_rate": 0.0002,
+      "loss": 1.5285,
+      "step": 1800
+    },
+    {
+      "epoch": 5.19,
+      "learning_rate": 0.0002,
+      "loss": 1.5359,
+      "step": 1920
+    },
+    {
+      "epoch": 5.19,
+      "eval_loss": 1.48625910282135,
+      "eval_runtime": 123.7493,
+      "eval_samples_per_second": 45.245,
+      "eval_steps_per_second": 0.711,
+      "step": 1920
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 0.0002,
+      "loss": 1.5207,
+      "step": 2040
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 0.0002,
+      "loss": 1.5079,
+      "step": 2160
+    },
+    {
+      "epoch": 5.84,
+      "eval_loss": 1.4822603464126587,
+      "eval_runtime": 119.2091,
+      "eval_samples_per_second": 46.968,
+      "eval_steps_per_second": 0.738,
+      "step": 2160
+    },
+    {
+      "epoch": 6.16,
+      "learning_rate": 0.0002,
+      "loss": 1.51,
+      "step": 2280
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 0.0002,
+      "loss": 1.4909,
+      "step": 2400
+    },
+    {
+      "epoch": 6.49,
+      "eval_loss": 1.4646539688110352,
+      "eval_runtime": 122.8427,
+      "eval_samples_per_second": 45.579,
+      "eval_steps_per_second": 0.716,
+      "step": 2400
+    },
+    {
+      "epoch": 6.81,
+      "learning_rate": 0.0002,
+      "loss": 1.4869,
+      "step": 2520
+    },
+    {
+      "epoch": 7.13,
+      "learning_rate": 0.0002,
+      "loss": 1.4894,
+      "step": 2640
+    },
+    {
+      "epoch": 7.13,
+      "eval_loss": 1.4567737579345703,
+      "eval_runtime": 112.4698,
+      "eval_samples_per_second": 49.782,
+      "eval_steps_per_second": 0.782,
+      "step": 2640
+    },
+    {
+      "epoch": 7.46,
+      "learning_rate": 0.0002,
+      "loss": 1.4705,
+      "step": 2760
+    },
+    {
+      "epoch": 7.78,
+      "learning_rate": 0.0002,
+      "loss": 1.469,
+      "step": 2880
+    },
+    {
+      "epoch": 7.78,
+      "eval_loss": 1.447322130203247,
+      "eval_runtime": 124.434,
+      "eval_samples_per_second": 44.996,
+      "eval_steps_per_second": 0.707,
+      "step": 2880
+    },
+    {
+      "epoch": 8.11,
+      "learning_rate": 0.0002,
+      "loss": 1.4716,
+      "step": 3000
+    },
+    {
+      "epoch": 8.43,
+      "learning_rate": 0.0002,
+      "loss": 1.4525,
+      "step": 3120
+    },
+    {
+      "epoch": 8.43,
+      "eval_loss": 1.4480490684509277,
+      "eval_runtime": 120.9825,
+      "eval_samples_per_second": 46.279,
+      "eval_steps_per_second": 0.727,
+      "step": 3120
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 0.0002,
+      "loss": 1.452,
+      "step": 3240
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 0.0002,
+      "loss": 1.4552,
+      "step": 3360
+    },
+    {
+      "epoch": 9.08,
+      "eval_loss": 1.4297771453857422,
+      "eval_runtime": 119.4349,
+      "eval_samples_per_second": 46.879,
+      "eval_steps_per_second": 0.737,
+      "step": 3360
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 0.0002,
+      "loss": 1.4369,
+      "step": 3480
+    },
+    {
+      "epoch": 9.73,
+      "learning_rate": 0.0002,
+      "loss": 1.4357,
+      "step": 3600
+    },
+    {
+      "epoch": 9.73,
+      "eval_loss": 1.4253787994384766,
+      "eval_runtime": 123.7286,
+      "eval_samples_per_second": 45.252,
+      "eval_steps_per_second": 0.711,
+      "step": 3600
+    },
+    {
+      "epoch": 10.05,
+      "learning_rate": 0.0002,
+      "loss": 1.4449,
+      "step": 3720
+    },
+    {
+      "epoch": 10.38,
+      "learning_rate": 0.0002,
+      "loss": 1.4245,
+      "step": 3840
+    },
+    {
+      "epoch": 10.38,
+      "eval_loss": 1.419893741607666,
+      "eval_runtime": 122.5962,
+      "eval_samples_per_second": 45.67,
+      "eval_steps_per_second": 0.718,
+      "step": 3840
+    },
+    {
+      "epoch": 10.7,
+      "learning_rate": 0.0002,
+      "loss": 1.4259,
+      "step": 3960
+    },
+    {
+      "epoch": 11.03,
+      "learning_rate": 0.0002,
+      "loss": 1.4317,
+      "step": 4080
+    },
+    {
+      "epoch": 11.03,
+      "eval_loss": 1.4151264429092407,
+      "eval_runtime": 120.6018,
+      "eval_samples_per_second": 46.426,
+      "eval_steps_per_second": 0.73,
+      "step": 4080
+    },
+    {
+      "epoch": 11.35,
+      "learning_rate": 0.0002,
+      "loss": 1.4133,
+      "step": 4200
+    },
+    {
+      "epoch": 11.67,
+      "learning_rate": 0.0002,
+      "loss": 1.4119,
+      "step": 4320
+    },
+    {
+      "epoch": 11.67,
+      "eval_loss": 1.4069455862045288,
+      "eval_runtime": 123.9031,
+      "eval_samples_per_second": 45.189,
+      "eval_steps_per_second": 0.71,
+      "step": 4320
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 0.0002,
+      "loss": 1.4096,
+      "step": 4440
+    },
+    {
+      "epoch": 12.32,
+      "learning_rate": 0.0002,
+      "loss": 1.4086,
+      "step": 4560
+    },
+    {
+      "epoch": 12.32,
+      "eval_loss": 1.4099173545837402,
+      "eval_runtime": 121.1011,
+      "eval_samples_per_second": 46.234,
+      "eval_steps_per_second": 0.727,
+      "step": 4560
+    },
+    {
+      "epoch": 12.65,
+      "learning_rate": 0.0002,
+      "loss": 1.4031,
+      "step": 4680
+    },
+    {
+      "epoch": 12.97,
+      "learning_rate": 0.0002,
+      "loss": 1.401,
+      "step": 4800
+    },
+    {
+      "epoch": 12.97,
+      "eval_loss": 1.4046831130981445,
+      "eval_runtime": 121.8177,
+      "eval_samples_per_second": 45.962,
+      "eval_steps_per_second": 0.722,
+      "step": 4800
+    },
+    {
+      "epoch": 13.3,
+      "learning_rate": 0.0002,
+      "loss": 1.4031,
+      "step": 4920
+    },
+    {
+      "epoch": 13.62,
+      "learning_rate": 0.0002,
+      "loss": 1.394,
+      "step": 5040
+    },
+    {
+      "epoch": 13.62,
+      "eval_loss": 1.401537299156189,
+      "eval_runtime": 121.4356,
+      "eval_samples_per_second": 46.107,
+      "eval_steps_per_second": 0.725,
+      "step": 5040
+    },
+    {
+      "epoch": 13.94,
+      "learning_rate": 0.0002,
+      "loss": 1.3922,
+      "step": 5160
+    },
+    {
+      "epoch": 14.27,
+      "learning_rate": 0.0002,
+      "loss": 1.3945,
+      "step": 5280
+    },
+    {
+      "epoch": 14.27,
+      "eval_loss": 1.3918230533599854,
+      "eval_runtime": 119.2233,
+      "eval_samples_per_second": 46.962,
+      "eval_steps_per_second": 0.738,
+      "step": 5280
+    },
+    {
+      "epoch": 14.59,
+      "learning_rate": 0.0002,
+      "loss": 1.3836,
+      "step": 5400
+    },
+    {
+      "epoch": 14.92,
+      "learning_rate": 0.0002,
+      "loss": 1.3838,
+      "step": 5520
+    },
+    {
+      "epoch": 14.92,
+      "eval_loss": 1.385350227355957,
+      "eval_runtime": 113.4489,
+      "eval_samples_per_second": 49.353,
+      "eval_steps_per_second": 0.776,
+      "step": 5520
+    },
+    {
+      "epoch": 15.24,
+      "learning_rate": 0.0002,
+      "loss": 1.387,
+      "step": 5640
+    },
+    {
+      "epoch": 15.57,
+      "learning_rate": 0.0002,
+      "loss": 1.3722,
+      "step": 5760
+    },
+    {
+      "epoch": 15.57,
+      "eval_loss": 1.379088282585144,
+      "eval_runtime": 116.4932,
+      "eval_samples_per_second": 48.063,
+      "eval_steps_per_second": 0.755,
+      "step": 5760
+    },
+    {
+      "epoch": 15.89,
+      "learning_rate": 0.0002,
+      "loss": 1.3757,
+      "step": 5880
+    },
+    {
+      "epoch": 16.22,
+      "learning_rate": 0.0002,
+      "loss": 1.3775,
+      "step": 6000
+    },
+    {
+      "epoch": 16.22,
+      "eval_loss": 1.384007453918457,
+      "eval_runtime": 115.8099,
+      "eval_samples_per_second": 48.346,
+      "eval_steps_per_second": 0.76,
+      "step": 6000
+    },
+    {
+      "epoch": 16.54,
+      "learning_rate": 0.0002,
+      "loss": 1.3683,
+      "step": 6120
+    },
+    {
+      "epoch": 16.86,
+      "learning_rate": 0.0002,
+      "loss": 1.3675,
+      "step": 6240
+    },
+    {
+      "epoch": 16.86,
+      "eval_loss": 1.3760778903961182,
+      "eval_runtime": 113.2638,
+      "eval_samples_per_second": 49.433,
+      "eval_steps_per_second": 0.777,
+      "step": 6240
+    },
+    {
+      "epoch": 17.19,
+      "learning_rate": 0.0002,
+      "loss": 1.375,
+      "step": 6360
+    },
+    {
+      "epoch": 17.51,
+      "learning_rate": 0.0002,
+      "loss": 1.358,
+      "step": 6480
+    },
+    {
+      "epoch": 17.51,
+      "eval_loss": 1.3729970455169678,
+      "eval_runtime": 119.1962,
+      "eval_samples_per_second": 46.973,
+      "eval_steps_per_second": 0.738,
+      "step": 6480
+    },
+    {
+      "epoch": 17.84,
+      "learning_rate": 0.0002,
+      "loss": 1.3617,
+      "step": 6600
+    },
+    {
+      "epoch": 18.16,
+      "learning_rate": 0.0002,
+      "loss": 1.3679,
+      "step": 6720
+    },
+    {
+      "epoch": 18.16,
+      "eval_loss": 1.3826600313186646,
+      "eval_runtime": 118.9849,
+      "eval_samples_per_second": 47.056,
+      "eval_steps_per_second": 0.74,
+      "step": 6720
+    },
+    {
+      "epoch": 18.49,
+      "learning_rate": 0.0002,
+      "loss": 1.3592,
+      "step": 6840
+    },
+    {
+      "epoch": 18.81,
+      "learning_rate": 0.0002,
+      "loss": 1.3602,
+      "step": 6960
+    },
+    {
+      "epoch": 18.81,
+      "eval_loss": 1.3659363985061646,
+      "eval_runtime": 120.7081,
+      "eval_samples_per_second": 46.385,
+      "eval_steps_per_second": 0.729,
+      "step": 6960
+    },
+    {
+      "epoch": 19.13,
+      "learning_rate": 0.0002,
+      "loss": 1.3633,
+      "step": 7080
+    },
+    {
+      "epoch": 19.46,
+      "learning_rate": 0.0002,
+      "loss": 1.3522,
+      "step": 7200
+    },
+    {
+      "epoch": 19.46,
+      "eval_loss": 1.372406244277954,
+      "eval_runtime": 113.6178,
+      "eval_samples_per_second": 49.279,
+      "eval_steps_per_second": 0.775,
+      "step": 7200
+    },
+    {
+      "epoch": 19.78,
+      "learning_rate": 0.0002,
+      "loss": 1.345,
+      "step": 7320
+    },
+    {
+      "epoch": 20.11,
+      "learning_rate": 0.0002,
+      "loss": 1.3555,
+      "step": 7440
+    },
+    {
+      "epoch": 20.11,
+      "eval_loss": 1.368371844291687,
+      "eval_runtime": 118.9369,
+      "eval_samples_per_second": 47.075,
+      "eval_steps_per_second": 0.74,
+      "step": 7440
+    },
+    {
+      "epoch": 20.43,
+      "learning_rate": 0.0002,
+      "loss": 1.3396,
+      "step": 7560
+    },
+    {
+      "epoch": 20.75,
+      "learning_rate": 0.0002,
+      "loss": 1.3536,
+      "step": 7680
+    },
+    {
+      "epoch": 20.75,
+      "eval_loss": 1.3611598014831543,
+      "eval_runtime": 119.3386,
+      "eval_samples_per_second": 46.917,
+      "eval_steps_per_second": 0.737,
+      "step": 7680
+    },
+    {
+      "epoch": 21.08,
+      "learning_rate": 0.0002,
+      "loss": 1.3506,
+      "step": 7800
+    },
+    {
+      "epoch": 21.4,
+      "learning_rate": 0.0002,
+      "loss": 1.3347,
+      "step": 7920
+    },
+    {
+      "epoch": 21.4,
+      "eval_loss": 1.3598804473876953,
+      "eval_runtime": 114.0961,
+      "eval_samples_per_second": 49.073,
+      "eval_steps_per_second": 0.771,
+      "step": 7920
+    },
+    {
+      "epoch": 21.73,
+      "learning_rate": 0.0002,
+      "loss": 1.338,
+      "step": 8040
+    },
+    {
+      "epoch": 22.05,
+      "learning_rate": 0.0002,
+      "loss": 1.3463,
+      "step": 8160
+    },
+    {
+      "epoch": 22.05,
+      "eval_loss": 1.3614617586135864,
+      "eval_runtime": 121.7757,
+      "eval_samples_per_second": 45.978,
+      "eval_steps_per_second": 0.723,
+      "step": 8160
+    },
+    {
+      "epoch": 22.38,
+      "learning_rate": 0.0002,
+      "loss": 1.3305,
+      "step": 8280
+    },
+    {
+      "epoch": 22.7,
+      "learning_rate": 0.0002,
+      "loss": 1.3296,
+      "step": 8400
+    },
+    {
+      "epoch": 22.7,
+      "eval_loss": 1.359055519104004,
+      "eval_runtime": 113.3148,
+      "eval_samples_per_second": 49.411,
+      "eval_steps_per_second": 0.777,
+      "step": 8400
+    },
+    {
+      "epoch": 23.03,
+      "learning_rate": 0.0002,
+      "loss": 1.344,
+      "step": 8520
+    },
+    {
+      "epoch": 23.35,
+      "learning_rate": 0.0002,
+      "loss": 1.3201,
+      "step": 8640
+    },
+    {
+      "epoch": 23.35,
+      "eval_loss": 1.358960509300232,
+      "eval_runtime": 122.2886,
+      "eval_samples_per_second": 45.785,
+      "eval_steps_per_second": 0.72,
+      "step": 8640
+    },
+    {
+      "epoch": 23.67,
+      "learning_rate": 0.0002,
+      "loss": 1.3302,
+      "step": 8760
+    },
+    {
+      "epoch": 24.0,
+      "learning_rate": 0.0002,
+      "loss": 1.3292,
+      "step": 8880
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 1.3509206771850586,
+      "eval_runtime": 99.6058,
+      "eval_samples_per_second": 56.212,
+      "eval_steps_per_second": 0.883,
+      "step": 8880
+    },
+    {
+      "epoch": 24.32,
+      "learning_rate": 0.0002,
+      "loss": 1.3294,
+      "step": 9000
+    },
+    {
+      "epoch": 24.65,
+      "learning_rate": 0.0002,
+      "loss": 1.3207,
+      "step": 9120
+    },
+    {
+      "epoch": 24.65,
+      "eval_loss": 1.357851505279541,
+      "eval_runtime": 105.9073,
+      "eval_samples_per_second": 52.867,
+      "eval_steps_per_second": 0.831,
+      "step": 9120
+    },
+    {
+      "epoch": 24.97,
+      "learning_rate": 0.0002,
+      "loss": 1.3215,
+      "step": 9240
+    },
+    {
+      "epoch": 25.3,
+      "learning_rate": 0.0002,
+      "loss": 1.3231,
+      "step": 9360
+    },
+    {
+      "epoch": 25.3,
+      "eval_loss": 1.3393853902816772,
+      "eval_runtime": 99.7219,
+      "eval_samples_per_second": 56.146,
+      "eval_steps_per_second": 0.882,
+      "step": 9360
+    },
+    {
+      "epoch": 25.62,
+      "learning_rate": 0.0002,
+      "loss": 1.3121,
+      "step": 9480
+    },
+    {
+      "epoch": 25.94,
+      "learning_rate": 0.0002,
+      "loss": 1.3176,
+      "step": 9600
+    },
+    {
+      "epoch": 25.94,
+      "eval_loss": 1.3441215753555298,
+      "eval_runtime": 101.3937,
+      "eval_samples_per_second": 55.22,
+      "eval_steps_per_second": 0.868,
+      "step": 9600
+    },
+    {
+      "epoch": 26.27,
+      "learning_rate": 0.0002,
+      "loss": 1.3188,
+      "step": 9720
+    },
+    {
+      "epoch": 26.59,
+      "learning_rate": 0.0002,
+      "loss": 1.3103,
+      "step": 9840
+    },
+    {
+      "epoch": 26.59,
+      "eval_loss": 1.3429008722305298,
+      "eval_runtime": 100.8116,
+      "eval_samples_per_second": 55.539,
+      "eval_steps_per_second": 0.873,
+      "step": 9840
+    },
+    {
+      "epoch": 26.92,
+      "learning_rate": 0.0002,
+      "loss": 1.313,
+      "step": 9960
+    },
+    {
+      "epoch": 27.24,
+      "learning_rate": 0.0002,
+      "loss": 1.3156,
+      "step": 10080
+    },
+    {
+      "epoch": 27.24,
+      "eval_loss": 1.3400343656539917,
+      "eval_runtime": 98.2948,
+      "eval_samples_per_second": 56.961,
+      "eval_steps_per_second": 0.895,
+      "step": 10080
+    },
+    {
+      "epoch": 27.57,
+      "learning_rate": 0.0002,
+      "loss": 1.3064,
+      "step": 10200
+    },
+    {
+      "epoch": 27.89,
+      "learning_rate": 0.0002,
+      "loss": 1.306,
+      "step": 10320
+    },
+    {
+      "epoch": 27.89,
+      "eval_loss": 1.339460015296936,
+      "eval_runtime": 97.8707,
+      "eval_samples_per_second": 57.208,
+      "eval_steps_per_second": 0.899,
+      "step": 10320
+    },
+    {
+      "epoch": 28.22,
+      "learning_rate": 0.0002,
+      "loss": 1.3093,
+      "step": 10440
+    },
+    {
+      "epoch": 28.54,
+      "learning_rate": 0.0002,
+      "loss": 1.3026,
+      "step": 10560
+    },
+    {
+      "epoch": 28.54,
+      "eval_loss": 1.3380861282348633,
+      "eval_runtime": 99.7827,
+      "eval_samples_per_second": 56.112,
+      "eval_steps_per_second": 0.882,
+      "step": 10560
+    },
+    {
+      "epoch": 28.86,
+      "learning_rate": 0.0002,
+      "loss": 1.3014,
+      "step": 10680
+    },
+    {
+      "epoch": 29.19,
+      "learning_rate": 0.0002,
+      "loss": 1.3093,
+      "step": 10800
+    },
+    {
+      "epoch": 29.19,
+      "eval_loss": 1.335351824760437,
+      "eval_runtime": 99.7514,
+      "eval_samples_per_second": 56.13,
+      "eval_steps_per_second": 0.882,
+      "step": 10800
+    },
+    {
+      "epoch": 29.51,
+      "learning_rate": 0.0002,
+      "loss": 1.2954,
+      "step": 10920
+    },
+    {
+      "epoch": 29.84,
+      "learning_rate": 0.0002,
+      "loss": 1.2982,
+      "step": 11040
+    },
+    {
+      "epoch": 29.84,
+      "eval_loss": 1.33037269115448,
+      "eval_runtime": 111.392,
+      "eval_samples_per_second": 50.264,
+      "eval_steps_per_second": 0.79,
+      "step": 11040
+    },
+    {
+      "epoch": 30.16,
+      "learning_rate": 0.0002,
+      "loss": 1.3032,
+      "step": 11160
+    },
+    {
+      "epoch": 30.49,
+      "learning_rate": 0.0002,
+      "loss": 1.2927,
+      "step": 11280
+    },
+    {
+      "epoch": 30.49,
+      "eval_loss": 1.3423055410385132,
+      "eval_runtime": 110.815,
+      "eval_samples_per_second": 50.526,
+      "eval_steps_per_second": 0.794,
+      "step": 11280
+    },
+    {
+      "epoch": 30.81,
+      "learning_rate": 0.0002,
+      "loss": 1.2968,
+      "step": 11400
+    },
+    {
+      "epoch": 31.13,
+      "learning_rate": 0.0002,
+      "loss": 1.3003,
+      "step": 11520
+    },
+    {
+      "epoch": 31.13,
+      "eval_loss": 1.3345474004745483,
+      "eval_runtime": 100.6956,
+      "eval_samples_per_second": 55.603,
+      "eval_steps_per_second": 0.874,
+      "step": 11520
+    },
+    {
+      "epoch": 31.46,
+      "learning_rate": 0.0002,
+      "loss": 1.2865,
+      "step": 11640
+    },
+    {
+      "epoch": 31.78,
+      "learning_rate": 0.0002,
+      "loss": 1.2928,
+      "step": 11760
+    },
+    {
+      "epoch": 31.78,
+      "eval_loss": 1.337437629699707,
+      "eval_runtime": 97.2235,
+      "eval_samples_per_second": 57.589,
+      "eval_steps_per_second": 0.905,
+      "step": 11760
+    },
+    {
+      "epoch": 32.11,
+      "learning_rate": 0.0002,
+      "loss": 1.2981,
+      "step": 11880
+    },
+    {
+      "epoch": 32.43,
+      "learning_rate": 0.0002,
+      "loss": 1.2847,
+      "step": 12000
+    },
+    {
+      "epoch": 32.43,
+      "eval_loss": 1.3236644268035889,
+      "eval_runtime": 97.4026,
+      "eval_samples_per_second": 57.483,
+      "eval_steps_per_second": 0.903,
+      "step": 12000
+    },
+    {
+      "epoch": 32.75,
+      "learning_rate": 0.0002,
+      "loss": 1.2871,
+      "step": 12120
+    },
+    {
+      "epoch": 33.08,
+      "learning_rate": 0.0002,
+      "loss": 1.2966,
+      "step": 12240
+    },
+    {
+      "epoch": 33.08,
+      "eval_loss": 1.332656741142273,
+      "eval_runtime": 97.3643,
+      "eval_samples_per_second": 57.506,
+      "eval_steps_per_second": 0.904,
+      "step": 12240
+    },
+    {
+      "epoch": 33.4,
+      "learning_rate": 0.0002,
+      "loss": 1.2789,
+      "step": 12360
+    },
+    {
+      "epoch": 33.73,
+      "learning_rate": 0.0002,
+      "loss": 1.2829,
+      "step": 12480
+    },
+    {
+      "epoch": 33.73,
+      "eval_loss": 1.3252918720245361,
+      "eval_runtime": 104.7279,
+      "eval_samples_per_second": 53.462,
+      "eval_steps_per_second": 0.84,
+      "step": 12480
+    },
+    {
+      "epoch": 34.05,
+      "learning_rate": 0.0002,
+      "loss": 1.2926,
+      "step": 12600
+    },
+    {
+      "epoch": 34.38,
+      "learning_rate": 0.0002,
+      "loss": 1.2756,
+      "step": 12720
+    },
+    {
+      "epoch": 34.38,
+      "eval_loss": 1.326663613319397,
+      "eval_runtime": 98.2526,
+      "eval_samples_per_second": 56.986,
+      "eval_steps_per_second": 0.896,
+      "step": 12720
+    },
+    {
+      "epoch": 34.7,
+      "learning_rate": 0.0002,
+      "loss": 1.2801,
+      "step": 12840
+    },
+    {
+      "epoch": 35.03,
+      "learning_rate": 0.0002,
+      "loss": 1.2919,
+      "step": 12960
+    },
+    {
+      "epoch": 35.03,
+      "eval_loss": 1.3183717727661133,
+      "eval_runtime": 99.1376,
+      "eval_samples_per_second": 56.477,
+      "eval_steps_per_second": 0.888,
+      "step": 12960
+    }
+  ],
+  "max_steps": 14000,
+  "num_train_epochs": 38,
+  "total_flos": 1.7505797492048026e+18,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f036c9bbb0eda92a44e02d76db6576bc9d95c2b29eb730aa7ceb1ee9e9f0b599
+size 2991

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff