Upload 13 files

Browse files

Files changed (13) hide show

added_tokens.json +3 -0
all_results.json +8 -0
config.json +34 -0
generation_config.json +6 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +23 -0
tokenizer.json +0 -0
tokenizer_config.json +33 -0
train_results.json +8 -0
trainer_state.json +1039 -0
training_args.bin +3 -0
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<|endoftext|>": 50257
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 2.6318450465295498,
+    "train_runtime": 20073.5525,
+    "train_samples": 6758,
+    "train_samples_per_second": 0.337,
+    "train_steps_per_second": 0.084
+}

config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "_name_or_path": "/zstorage/AI/text-generation-webui/models/l_warhammer2",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 2048,
+  "n_embd": 1536,
+  "n_head": 16,
+  "n_inner": null,
+  "n_layer": 24,
+  "n_positions": 2048,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.30.0.dev0",
+  "use_cache": true,
+  "vocab_size": 50258
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.30.0.dev0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:744f1b05194cd2ddc74a55cef099e2581430677a9774235aa161ee823c1360e0
+size 3041301910

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": true,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.0,
+    "train_loss": 2.6318450465295498,
+    "train_runtime": 20073.5525,
+    "train_samples": 6758,
+    "train_samples_per_second": 0.337,
+    "train_steps_per_second": 0.084
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1039 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9997040544539805,
+  "global_step": 1689,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 2.7237,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 5e-06,
+      "loss": 2.7145,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1e-05,
+      "loss": 2.7579,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.5e-05,
+      "loss": 2.747,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 2.6339,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.5e-05,
+      "loss": 2.6645,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 3e-05,
+      "loss": 2.6576,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 3.5e-05,
+      "loss": 2.6678,
+      "step": 70
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4e-05,
+      "loss": 2.5723,
+      "step": 80
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.5e-05,
+      "loss": 2.514,
+      "step": 90
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 5e-05,
+      "loss": 2.575,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.968533668974198e-05,
+      "loss": 2.5101,
+      "step": 110
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.937067337948396e-05,
+      "loss": 2.5532,
+      "step": 120
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.9056010069225936e-05,
+      "loss": 2.5329,
+      "step": 130
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.874134675896791e-05,
+      "loss": 2.4838,
+      "step": 140
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.842668344870988e-05,
+      "loss": 2.5586,
+      "step": 150
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.8112020138451856e-05,
+      "loss": 2.5078,
+      "step": 160
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.7797356828193834e-05,
+      "loss": 2.5224,
+      "step": 170
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.748269351793581e-05,
+      "loss": 2.5317,
+      "step": 180
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.716803020767779e-05,
+      "loss": 2.5802,
+      "step": 190
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.685336689741977e-05,
+      "loss": 2.4744,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.653870358716174e-05,
+      "loss": 2.549,
+      "step": 210
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.622404027690371e-05,
+      "loss": 2.5513,
+      "step": 220
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.590937696664569e-05,
+      "loss": 2.4999,
+      "step": 230
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.5594713656387665e-05,
+      "loss": 2.5966,
+      "step": 240
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.528005034612964e-05,
+      "loss": 2.5307,
+      "step": 250
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.496538703587162e-05,
+      "loss": 2.5179,
+      "step": 260
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.46507237256136e-05,
+      "loss": 2.5107,
+      "step": 270
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.433606041535558e-05,
+      "loss": 2.473,
+      "step": 280
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.402139710509755e-05,
+      "loss": 2.5107,
+      "step": 290
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.370673379483952e-05,
+      "loss": 2.5232,
+      "step": 300
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.33920704845815e-05,
+      "loss": 2.5239,
+      "step": 310
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.3077407174323475e-05,
+      "loss": 2.559,
+      "step": 320
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.276274386406545e-05,
+      "loss": 2.5414,
+      "step": 330
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.244808055380743e-05,
+      "loss": 2.5183,
+      "step": 340
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.213341724354941e-05,
+      "loss": 2.5468,
+      "step": 350
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 4.181875393329138e-05,
+      "loss": 2.5972,
+      "step": 360
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.150409062303336e-05,
+      "loss": 2.5869,
+      "step": 370
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 4.118942731277533e-05,
+      "loss": 2.5745,
+      "step": 380
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 4.0874764002517306e-05,
+      "loss": 2.6045,
+      "step": 390
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.0560100692259284e-05,
+      "loss": 2.5491,
+      "step": 400
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.024543738200126e-05,
+      "loss": 2.5674,
+      "step": 410
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.993077407174324e-05,
+      "loss": 2.5299,
+      "step": 420
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.961611076148522e-05,
+      "loss": 2.6367,
+      "step": 430
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 3.930144745122719e-05,
+      "loss": 2.5684,
+      "step": 440
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3.898678414096916e-05,
+      "loss": 2.5414,
+      "step": 450
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 3.867212083071114e-05,
+      "loss": 2.5335,
+      "step": 460
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.8357457520453115e-05,
+      "loss": 2.5569,
+      "step": 470
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 3.804279421019509e-05,
+      "loss": 2.602,
+      "step": 480
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 3.772813089993707e-05,
+      "loss": 2.5796,
+      "step": 490
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3.741346758967905e-05,
+      "loss": 2.6123,
+      "step": 500
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 3.7098804279421027e-05,
+      "loss": 2.5303,
+      "step": 510
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3.6784140969163e-05,
+      "loss": 2.6367,
+      "step": 520
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 3.646947765890497e-05,
+      "loss": 2.5969,
+      "step": 530
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 3.615481434864695e-05,
+      "loss": 2.6128,
+      "step": 540
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3.5840151038388924e-05,
+      "loss": 2.6029,
+      "step": 550
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 3.55254877281309e-05,
+      "loss": 2.5175,
+      "step": 560
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3.521082441787288e-05,
+      "loss": 2.5812,
+      "step": 570
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 3.489616110761486e-05,
+      "loss": 2.6197,
+      "step": 580
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 3.458149779735683e-05,
+      "loss": 2.6282,
+      "step": 590
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3.42668344870988e-05,
+      "loss": 2.6018,
+      "step": 600
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 3.395217117684078e-05,
+      "loss": 2.5908,
+      "step": 610
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.3637507866582756e-05,
+      "loss": 2.6068,
+      "step": 620
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 3.3322844556324734e-05,
+      "loss": 2.5934,
+      "step": 630
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.300818124606671e-05,
+      "loss": 2.6117,
+      "step": 640
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 3.269351793580869e-05,
+      "loss": 2.5347,
+      "step": 650
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 3.237885462555067e-05,
+      "loss": 2.6547,
+      "step": 660
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3.206419131529264e-05,
+      "loss": 2.6311,
+      "step": 670
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3.174952800503461e-05,
+      "loss": 2.6168,
+      "step": 680
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.143486469477659e-05,
+      "loss": 2.5944,
+      "step": 690
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 3.1120201384518565e-05,
+      "loss": 2.5865,
+      "step": 700
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 3.080553807426054e-05,
+      "loss": 2.6284,
+      "step": 710
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.049087476400252e-05,
+      "loss": 2.5945,
+      "step": 720
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 3.0176211453744495e-05,
+      "loss": 2.5627,
+      "step": 730
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.9861548143486473e-05,
+      "loss": 2.5967,
+      "step": 740
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 2.9546884833228444e-05,
+      "loss": 2.6523,
+      "step": 750
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 2.9232221522970422e-05,
+      "loss": 2.6584,
+      "step": 760
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.8917558212712397e-05,
+      "loss": 2.6243,
+      "step": 770
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.8602894902454374e-05,
+      "loss": 2.5734,
+      "step": 780
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.8288231592196352e-05,
+      "loss": 2.5459,
+      "step": 790
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 2.7973568281938327e-05,
+      "loss": 2.5985,
+      "step": 800
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 2.7658904971680305e-05,
+      "loss": 2.6552,
+      "step": 810
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.7344241661422282e-05,
+      "loss": 2.5976,
+      "step": 820
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 2.7029578351164254e-05,
+      "loss": 2.5838,
+      "step": 830
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.671491504090623e-05,
+      "loss": 2.6057,
+      "step": 840
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.6400251730648206e-05,
+      "loss": 2.6784,
+      "step": 850
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.6085588420390184e-05,
+      "loss": 2.6413,
+      "step": 860
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 2.577092511013216e-05,
+      "loss": 2.5734,
+      "step": 870
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 2.5456261799874136e-05,
+      "loss": 2.6205,
+      "step": 880
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.5141598489616114e-05,
+      "loss": 2.6198,
+      "step": 890
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 2.482693517935809e-05,
+      "loss": 2.5844,
+      "step": 900
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.4512271869100066e-05,
+      "loss": 2.6097,
+      "step": 910
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.419760855884204e-05,
+      "loss": 2.6332,
+      "step": 920
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 2.3882945248584015e-05,
+      "loss": 2.6285,
+      "step": 930
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.3568281938325993e-05,
+      "loss": 2.668,
+      "step": 940
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 2.3253618628067967e-05,
+      "loss": 2.6187,
+      "step": 950
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.2938955317809942e-05,
+      "loss": 2.6292,
+      "step": 960
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 2.262429200755192e-05,
+      "loss": 2.6736,
+      "step": 970
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.2309628697293898e-05,
+      "loss": 2.6426,
+      "step": 980
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.1994965387035872e-05,
+      "loss": 2.6719,
+      "step": 990
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 2.1680302076777847e-05,
+      "loss": 2.6793,
+      "step": 1000
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.1365638766519824e-05,
+      "loss": 2.7038,
+      "step": 1010
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 2.1050975456261802e-05,
+      "loss": 2.6515,
+      "step": 1020
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 2.0736312146003777e-05,
+      "loss": 2.6198,
+      "step": 1030
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 2.042164883574575e-05,
+      "loss": 2.6505,
+      "step": 1040
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 2.010698552548773e-05,
+      "loss": 2.6638,
+      "step": 1050
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.9792322215229707e-05,
+      "loss": 2.6602,
+      "step": 1060
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 1.947765890497168e-05,
+      "loss": 2.599,
+      "step": 1070
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 1.9162995594713656e-05,
+      "loss": 2.6421,
+      "step": 1080
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.8848332284455634e-05,
+      "loss": 2.6311,
+      "step": 1090
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.853366897419761e-05,
+      "loss": 2.617,
+      "step": 1100
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.8219005663939586e-05,
+      "loss": 2.7233,
+      "step": 1110
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.790434235368156e-05,
+      "loss": 2.6468,
+      "step": 1120
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.7589679043423538e-05,
+      "loss": 2.6206,
+      "step": 1130
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 1.7275015733165513e-05,
+      "loss": 2.6542,
+      "step": 1140
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 1.696035242290749e-05,
+      "loss": 2.6512,
+      "step": 1150
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.6645689112649465e-05,
+      "loss": 2.6035,
+      "step": 1160
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.6331025802391443e-05,
+      "loss": 2.6696,
+      "step": 1170
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.6016362492133417e-05,
+      "loss": 2.6677,
+      "step": 1180
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 1.5701699181875392e-05,
+      "loss": 2.6828,
+      "step": 1190
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 1.538703587161737e-05,
+      "loss": 2.6724,
+      "step": 1200
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.5072372561359346e-05,
+      "loss": 2.6375,
+      "step": 1210
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 1.4757709251101324e-05,
+      "loss": 2.6768,
+      "step": 1220
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.4443045940843297e-05,
+      "loss": 2.6233,
+      "step": 1230
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.4128382630585274e-05,
+      "loss": 2.6259,
+      "step": 1240
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 1.381371932032725e-05,
+      "loss": 2.6801,
+      "step": 1250
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.3499056010069228e-05,
+      "loss": 2.7294,
+      "step": 1260
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 1.3184392699811201e-05,
+      "loss": 2.7005,
+      "step": 1270
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.2869729389553179e-05,
+      "loss": 2.7266,
+      "step": 1280
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 1.2555066079295155e-05,
+      "loss": 2.6862,
+      "step": 1290
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.2240402769037131e-05,
+      "loss": 2.6623,
+      "step": 1300
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.1925739458779107e-05,
+      "loss": 2.731,
+      "step": 1310
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.1611076148521084e-05,
+      "loss": 2.6724,
+      "step": 1320
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.129641283826306e-05,
+      "loss": 2.64,
+      "step": 1330
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 1.0981749528005034e-05,
+      "loss": 2.7042,
+      "step": 1340
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.0667086217747012e-05,
+      "loss": 2.6966,
+      "step": 1350
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 1.0352422907488987e-05,
+      "loss": 2.7149,
+      "step": 1360
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.0037759597230964e-05,
+      "loss": 2.7139,
+      "step": 1370
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.723096286972939e-06,
+      "loss": 2.6948,
+      "step": 1380
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 9.408432976714915e-06,
+      "loss": 2.7423,
+      "step": 1390
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 9.093769666456891e-06,
+      "loss": 2.6981,
+      "step": 1400
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 8.779106356198867e-06,
+      "loss": 2.7368,
+      "step": 1410
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 8.464443045940844e-06,
+      "loss": 2.6836,
+      "step": 1420
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 8.14977973568282e-06,
+      "loss": 2.7165,
+      "step": 1430
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 7.835116425424796e-06,
+      "loss": 2.7344,
+      "step": 1440
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.520453115166771e-06,
+      "loss": 2.7199,
+      "step": 1450
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 7.205789804908748e-06,
+      "loss": 2.6674,
+      "step": 1460
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 6.8911264946507235e-06,
+      "loss": 2.755,
+      "step": 1470
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.5764631843927005e-06,
+      "loss": 2.6625,
+      "step": 1480
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 6.261799874134676e-06,
+      "loss": 2.712,
+      "step": 1490
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.947136563876652e-06,
+      "loss": 2.7506,
+      "step": 1500
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.632473253618628e-06,
+      "loss": 2.7283,
+      "step": 1510
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.317809943360604e-06,
+      "loss": 2.7416,
+      "step": 1520
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 5.0031466331025804e-06,
+      "loss": 2.7262,
+      "step": 1530
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.688483322844557e-06,
+      "loss": 2.7172,
+      "step": 1540
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.373820012586533e-06,
+      "loss": 2.7281,
+      "step": 1550
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.059156702328509e-06,
+      "loss": 2.7196,
+      "step": 1560
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.7444933920704846e-06,
+      "loss": 2.7212,
+      "step": 1570
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.429830081812461e-06,
+      "loss": 2.6828,
+      "step": 1580
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 3.115166771554437e-06,
+      "loss": 2.6544,
+      "step": 1590
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.800503461296413e-06,
+      "loss": 2.7682,
+      "step": 1600
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 2.4858401510383893e-06,
+      "loss": 2.7133,
+      "step": 1610
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 2.1711768407803654e-06,
+      "loss": 2.7196,
+      "step": 1620
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 1.8565135305223414e-06,
+      "loss": 2.7418,
+      "step": 1630
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 1.5418502202643173e-06,
+      "loss": 2.7931,
+      "step": 1640
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.2271869100062933e-06,
+      "loss": 2.7782,
+      "step": 1650
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.125235997482694e-07,
+      "loss": 2.7426,
+      "step": 1660
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 5.978602894902455e-07,
+      "loss": 2.7689,
+      "step": 1670
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 2.8319697923222154e-07,
+      "loss": 2.7109,
+      "step": 1680
+    },
+    {
+      "epoch": 1.0,
+      "step": 1689,
+      "total_flos": 5.644869713893786e+16,
+      "train_loss": 2.6318450465295498,
+      "train_runtime": 20073.5525,
+      "train_samples_per_second": 0.337,
+      "train_steps_per_second": 0.084
+    }
+  ],
+  "max_steps": 1689,
+  "num_train_epochs": 1,
+  "total_flos": 5.644869713893786e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ec97157145336b121b780afc9d3598e4cbd83d4bbe6f044da0e708869321e4b7
+size 4340

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff