After 10 epochs

Browse files

Files changed (8) hide show

config.json +32 -0
generation_config.json +7 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +692 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "duraad/nep-spell-hft",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 1024,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 8,
+  "num_heads": 6,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.37.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:71a88dd7c7f1cbb37952e9b1f0b8f18b3302c3287135d70933705fb66682bbb8
+size 1200729512

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9914f35ec4166caaefa365fc45342de2ff25e5e31820e04a2e7d1cc4b5461c6
+size 2401573893

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:575164422ffb07dce40f4f226304ae580f088580435499d59fc33efa74eb8a4e
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3771f987b89d5be40d08367559c2ba7770e79a7c012a7171d9578f9ad0ee0dbd
+size 627

trainer_state.json ADDED Viewed

	@@ -0,0 +1,692 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.0,
+  "eval_steps": 20000,
+  "global_step": 101152,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.980149277433699e-05,
+      "loss": 0.0094,
+      "step": 1000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.9404478323010964e-05,
+      "loss": 0.0102,
+      "step": 2000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 4.900746387168493e-05,
+      "loss": 0.0098,
+      "step": 3000
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.86104494203589e-05,
+      "loss": 0.0101,
+      "step": 4000
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 4.821343496903287e-05,
+      "loss": 0.0098,
+      "step": 5000
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.781642051770684e-05,
+      "loss": 0.0097,
+      "step": 6000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 4.741940606638082e-05,
+      "loss": 0.0099,
+      "step": 7000
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 4.702239161505479e-05,
+      "loss": 0.01,
+      "step": 8000
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.6625377163728765e-05,
+      "loss": 0.01,
+      "step": 9000
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.6228362712402734e-05,
+      "loss": 0.0119,
+      "step": 10000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.5831348261076704e-05,
+      "loss": 0.0095,
+      "step": 11000
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.543433380975068e-05,
+      "loss": 0.0097,
+      "step": 12000
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 4.503731935842465e-05,
+      "loss": 0.0095,
+      "step": 13000
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 4.464030490709862e-05,
+      "loss": 0.0089,
+      "step": 14000
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 4.424329045577259e-05,
+      "loss": 0.0088,
+      "step": 15000
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 4.3846276004446566e-05,
+      "loss": 0.0088,
+      "step": 16000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 4.3449261553120535e-05,
+      "loss": 0.0085,
+      "step": 17000
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 4.3052247101794505e-05,
+      "loss": 0.0087,
+      "step": 18000
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 4.265523265046848e-05,
+      "loss": 0.009,
+      "step": 19000
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 4.225821819914245e-05,
+      "loss": 0.0087,
+      "step": 20000
+    },
+    {
+      "epoch": 1.58,
+      "eval_accuracy": 0.5290210343191523,
+      "eval_exact_match": 0.5290210343191523,
+      "eval_f1": 0.531319521324266,
+      "eval_loss": 0.005351942032575607,
+      "eval_precision": 0.5358216036691444,
+      "eval_recall": 0.5290210343191523,
+      "eval_runtime": 356.516,
+      "eval_samples_per_second": 17.736,
+      "eval_steps_per_second": 8.869,
+      "step": 20000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 4.186120374781643e-05,
+      "loss": 0.0082,
+      "step": 21000
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 4.14641892964904e-05,
+      "loss": 0.0084,
+      "step": 22000
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 4.1067174845164366e-05,
+      "loss": 0.0082,
+      "step": 23000
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 4.0670160393838336e-05,
+      "loss": 0.0084,
+      "step": 24000
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 4.0273145942512306e-05,
+      "loss": 0.0084,
+      "step": 25000
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 3.987613149118628e-05,
+      "loss": 0.008,
+      "step": 26000
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 3.947911703986025e-05,
+      "loss": 0.0075,
+      "step": 27000
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 3.908210258853423e-05,
+      "loss": 0.0078,
+      "step": 28000
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 3.86850881372082e-05,
+      "loss": 0.008,
+      "step": 29000
+    },
+    {
+      "epoch": 2.37,
+      "learning_rate": 3.828807368588217e-05,
+      "loss": 0.0075,
+      "step": 30000
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 3.7891059234556144e-05,
+      "loss": 0.0077,
+      "step": 31000
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 3.749404478323011e-05,
+      "loss": 0.0074,
+      "step": 32000
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 3.709703033190408e-05,
+      "loss": 0.0078,
+      "step": 33000
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 3.670001588057805e-05,
+      "loss": 0.008,
+      "step": 34000
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 3.630300142925203e-05,
+      "loss": 0.0073,
+      "step": 35000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 3.5905986977926e-05,
+      "loss": 0.0076,
+      "step": 36000
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 3.550897252659997e-05,
+      "loss": 0.0076,
+      "step": 37000
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 3.5111958075273945e-05,
+      "loss": 0.0078,
+      "step": 38000
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 3.4714943623947914e-05,
+      "loss": 0.007,
+      "step": 39000
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 3.431792917262189e-05,
+      "loss": 0.0065,
+      "step": 40000
+    },
+    {
+      "epoch": 3.16,
+      "eval_accuracy": 0.5473667562865728,
+      "eval_exact_match": 0.5473667562865728,
+      "eval_f1": 0.5494543729242448,
+      "eval_loss": 0.005287344101816416,
+      "eval_precision": 0.5535347145342401,
+      "eval_recall": 0.5473667562865728,
+      "eval_runtime": 354.3494,
+      "eval_samples_per_second": 17.844,
+      "eval_steps_per_second": 8.923,
+      "step": 40000
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 3.3920914721295854e-05,
+      "loss": 0.007,
+      "step": 41000
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 3.352390026996983e-05,
+      "loss": 0.0071,
+      "step": 42000
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 3.31268858186438e-05,
+      "loss": 0.0074,
+      "step": 43000
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 3.272987136731777e-05,
+      "loss": 0.0068,
+      "step": 44000
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 3.2332856915991746e-05,
+      "loss": 0.0067,
+      "step": 45000
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 3.1935842464665715e-05,
+      "loss": 0.0071,
+      "step": 46000
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 3.153882801333969e-05,
+      "loss": 0.0067,
+      "step": 47000
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 3.114181356201366e-05,
+      "loss": 0.0071,
+      "step": 48000
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 3.074479911068763e-05,
+      "loss": 0.0073,
+      "step": 49000
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 3.03477846593616e-05,
+      "loss": 0.0067,
+      "step": 50000
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 2.9950770208035574e-05,
+      "loss": 0.0067,
+      "step": 51000
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 2.9553755756709543e-05,
+      "loss": 0.0064,
+      "step": 52000
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 2.9156741305383516e-05,
+      "loss": 0.0062,
+      "step": 53000
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 2.875972685405749e-05,
+      "loss": 0.0066,
+      "step": 54000
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 2.8362712402731462e-05,
+      "loss": 0.0062,
+      "step": 55000
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 2.7965697951405435e-05,
+      "loss": 0.0065,
+      "step": 56000
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 2.7568683500079405e-05,
+      "loss": 0.0066,
+      "step": 57000
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 2.7171669048753375e-05,
+      "loss": 0.0063,
+      "step": 58000
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 2.6774654597427344e-05,
+      "loss": 0.0064,
+      "step": 59000
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 2.6377640146101317e-05,
+      "loss": 0.006,
+      "step": 60000
+    },
+    {
+      "epoch": 4.75,
+      "eval_accuracy": 0.5701407559702673,
+      "eval_exact_match": 0.5701407559702673,
+      "eval_f1": 0.5724919605672413,
+      "eval_loss": 0.0050529008731245995,
+      "eval_precision": 0.5770994780958406,
+      "eval_recall": 0.5701407559702673,
+      "eval_runtime": 354.5246,
+      "eval_samples_per_second": 17.835,
+      "eval_steps_per_second": 8.919,
+      "step": 60000
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 2.598062569477529e-05,
+      "loss": 0.0065,
+      "step": 61000
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 2.5583611243449263e-05,
+      "loss": 0.0063,
+      "step": 62000
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 2.5186596792123236e-05,
+      "loss": 0.0068,
+      "step": 63000
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 2.4789582340797206e-05,
+      "loss": 0.006,
+      "step": 64000
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 2.4392567889471176e-05,
+      "loss": 0.006,
+      "step": 65000
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 2.399555343814515e-05,
+      "loss": 0.0058,
+      "step": 66000
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 2.359853898681912e-05,
+      "loss": 0.0056,
+      "step": 67000
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 2.3201524535493095e-05,
+      "loss": 0.0057,
+      "step": 68000
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 2.2804510084167068e-05,
+      "loss": 0.0059,
+      "step": 69000
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 2.2407495632841037e-05,
+      "loss": 0.0057,
+      "step": 70000
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 2.2010481181515007e-05,
+      "loss": 0.0058,
+      "step": 71000
+    },
+    {
+      "epoch": 5.69,
+      "learning_rate": 2.161346673018898e-05,
+      "loss": 0.0059,
+      "step": 72000
+    },
+    {
+      "epoch": 5.77,
+      "learning_rate": 2.1216452278862953e-05,
+      "loss": 0.0059,
+      "step": 73000
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 2.0819437827536923e-05,
+      "loss": 0.006,
+      "step": 74000
+    },
+    {
+      "epoch": 5.93,
+      "learning_rate": 2.0422423376210896e-05,
+      "loss": 0.0056,
+      "step": 75000
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 2.002540892488487e-05,
+      "loss": 0.0058,
+      "step": 76000
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 1.9628394473558838e-05,
+      "loss": 0.0054,
+      "step": 77000
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 1.9231380022232808e-05,
+      "loss": 0.0061,
+      "step": 78000
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 1.883436557090678e-05,
+      "loss": 0.0057,
+      "step": 79000
+    },
+    {
+      "epoch": 6.33,
+      "learning_rate": 1.8437351119580754e-05,
+      "loss": 0.0053,
+      "step": 80000
+    },
+    {
+      "epoch": 6.33,
+      "eval_accuracy": 0.5827929780167642,
+      "eval_exact_match": 0.5827929780167642,
+      "eval_f1": 0.5851441826137382,
+      "eval_loss": 0.004922935273498297,
+      "eval_precision": 0.5897517001423375,
+      "eval_recall": 0.5827929780167642,
+      "eval_runtime": 354.2336,
+      "eval_samples_per_second": 17.85,
+      "eval_steps_per_second": 8.926,
+      "step": 80000
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 1.8040336668254727e-05,
+      "loss": 0.0054,
+      "step": 81000
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 1.76433222169287e-05,
+      "loss": 0.0054,
+      "step": 82000
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 1.7246307765602666e-05,
+      "loss": 0.0056,
+      "step": 83000
+    },
+    {
+      "epoch": 6.64,
+      "learning_rate": 1.684929331427664e-05,
+      "loss": 0.0055,
+      "step": 84000
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 1.6452278862950612e-05,
+      "loss": 0.0051,
+      "step": 85000
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 1.6055264411624585e-05,
+      "loss": 0.0057,
+      "step": 86000
+    },
+    {
+      "epoch": 6.88,
+      "learning_rate": 1.5658249960298555e-05,
+      "loss": 0.0053,
+      "step": 87000
+    },
+    {
+      "epoch": 6.96,
+      "learning_rate": 1.5261235508972528e-05,
+      "loss": 0.0053,
+      "step": 88000
+    },
+    {
+      "epoch": 7.04,
+      "learning_rate": 1.4864221057646499e-05,
+      "loss": 0.0049,
+      "step": 89000
+    },
+    {
+      "epoch": 7.12,
+      "learning_rate": 1.4467206606320472e-05,
+      "loss": 0.0054,
+      "step": 90000
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 1.4070192154994443e-05,
+      "loss": 0.0052,
+      "step": 91000
+    },
+    {
+      "epoch": 7.28,
+      "learning_rate": 1.3673177703668413e-05,
+      "loss": 0.0052,
+      "step": 92000
+    },
+    {
+      "epoch": 7.36,
+      "learning_rate": 1.3276163252342386e-05,
+      "loss": 0.0053,
+      "step": 93000
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 1.2879148801016357e-05,
+      "loss": 0.005,
+      "step": 94000
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 1.2482134349690329e-05,
+      "loss": 0.0054,
+      "step": 95000
+    },
+    {
+      "epoch": 7.59,
+      "learning_rate": 1.2085119898364302e-05,
+      "loss": 0.0052,
+      "step": 96000
+    },
+    {
+      "epoch": 7.67,
+      "learning_rate": 1.1688105447038273e-05,
+      "loss": 0.0051,
+      "step": 97000
+    },
+    {
+      "epoch": 7.75,
+      "learning_rate": 1.1291090995712244e-05,
+      "loss": 0.005,
+      "step": 98000
+    },
+    {
+      "epoch": 7.83,
+      "learning_rate": 1.0894076544386216e-05,
+      "loss": 0.005,
+      "step": 99000
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 1.0497062093060187e-05,
+      "loss": 0.005,
+      "step": 100000
+    },
+    {
+      "epoch": 7.91,
+      "eval_accuracy": 0.5921239917760557,
+      "eval_exact_match": 0.5921239917760557,
+      "eval_f1": 0.594369761189309,
+      "eval_loss": 0.004835059866309166,
+      "eval_precision": 0.5987664083504666,
+      "eval_recall": 0.5921239917760557,
+      "eval_runtime": 354.4854,
+      "eval_samples_per_second": 17.837,
+      "eval_steps_per_second": 8.92,
+      "step": 100000
+    },
+    {
+      "epoch": 7.99,
+      "learning_rate": 1.010004764173416e-05,
+      "loss": 0.005,
+      "step": 101000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 126440,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 1.0696817746378752e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6c55e3399602b93c4ba608798a65f62e367a8d7bc1a83bdefd9ed7b7a6a55170
+size 4219