initial commit

Browse files

Files changed (10) hide show

config.json +30 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +1 -0
spiece.model +3 -0
tokenizer_config.json +1 -0
trainer_state.json +181 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "kravchenko/uk-mt5-base",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.19.4",
+  "use_cache": false,
+  "vocab_size": 30000
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29157dcf3425018d331c87b8cad392ccd9a86d869208f9bd56342f42317dc375
+size 2352161

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c84ab2676ef52e92cbfd8e7a99be03a2b1f952d23a766dc800ae04d0e5219b86
+size 977332173

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81750b968cd0340e7a5983505039ca105a4fdbeb6c304d503438b2662ed2f542
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4e620a65074cf282856bc0d62e362f5c3a32377f4b09edab30112b85ba00c60
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa8ea53d190098f2632bd1c44b62731a90a9257a96081183c1a361a24f7ea8ff
+size 804017

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>", "extra_ids": 0, "additional_special_tokens": null, "sp_model_kwargs": {}, "special_tokens_map_file": "/root/.cache/huggingface/transformers/af67de6ceccc9b1f12679f3c9b1bcd0acc27e990b967b91fed2e8c326187dbdd.294ebaa4cd17bb284635004c92d2c4d522ec488c828dcce0c2471b6f28e3fe82", "name_or_path": "kravchenko/uk-mt5-base", "tokenizer_class": "T5Tokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,181 @@

+{
+  "best_metric": 0.30846577882766724,
+  "best_model_checkpoint": "uk-mt5-small-gec/checkpoint-750",
+  "epoch": 1.950354609929078,
+  "global_step": 1650,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0009822695035460994,
+      "loss": 1.1542,
+      "step": 150
+    },
+    {
+      "epoch": 0.18,
+      "eval_google_bleu": 0.41727698590897433,
+      "eval_loss": 0.40988656878471375,
+      "eval_runtime": 182.204,
+      "eval_samples_per_second": 16.493,
+      "eval_steps_per_second": 0.516,
+      "step": 150
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0009645390070921985,
+      "loss": 0.4079,
+      "step": 300
+    },
+    {
+      "epoch": 0.35,
+      "eval_google_bleu": 0.417700589351588,
+      "eval_loss": 0.3693748116493225,
+      "eval_runtime": 184.6312,
+      "eval_samples_per_second": 16.276,
+      "eval_steps_per_second": 0.509,
+      "step": 300
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0009468085106382979,
+      "loss": 0.3947,
+      "step": 450
+    },
+    {
+      "epoch": 0.53,
+      "eval_google_bleu": 0.42065639483903294,
+      "eval_loss": 0.3382872939109802,
+      "eval_runtime": 182.6943,
+      "eval_samples_per_second": 16.448,
+      "eval_steps_per_second": 0.515,
+      "step": 450
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.0009290780141843972,
+      "loss": 0.3699,
+      "step": 600
+    },
+    {
+      "epoch": 0.71,
+      "eval_google_bleu": 0.4213219269019765,
+      "eval_loss": 0.329349160194397,
+      "eval_runtime": 182.8557,
+      "eval_samples_per_second": 16.434,
+      "eval_steps_per_second": 0.514,
+      "step": 600
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.0009113475177304966,
+      "loss": 0.384,
+      "step": 750
+    },
+    {
+      "epoch": 0.89,
+      "eval_google_bleu": 0.41960295446754137,
+      "eval_loss": 0.30846577882766724,
+      "eval_runtime": 182.9587,
+      "eval_samples_per_second": 16.424,
+      "eval_steps_per_second": 0.514,
+      "step": 750
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.0008936170212765957,
+      "loss": 0.301,
+      "step": 900
+    },
+    {
+      "epoch": 1.06,
+      "eval_google_bleu": 0.41823031122631055,
+      "eval_loss": 0.30877065658569336,
+      "eval_runtime": 182.6834,
+      "eval_samples_per_second": 16.449,
+      "eval_steps_per_second": 0.515,
+      "step": 900
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.000875886524822695,
+      "loss": 0.2613,
+      "step": 1050
+    },
+    {
+      "epoch": 1.24,
+      "eval_google_bleu": 0.41964051019514087,
+      "eval_loss": 0.31575024127960205,
+      "eval_runtime": 182.4274,
+      "eval_samples_per_second": 16.472,
+      "eval_steps_per_second": 0.515,
+      "step": 1050
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.0008581560283687944,
+      "loss": 0.2715,
+      "step": 1200
+    },
+    {
+      "epoch": 1.42,
+      "eval_google_bleu": 0.41992548295187704,
+      "eval_loss": 0.3233252167701721,
+      "eval_runtime": 182.3422,
+      "eval_samples_per_second": 16.48,
+      "eval_steps_per_second": 0.516,
+      "step": 1200
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.0008404255319148936,
+      "loss": 0.2861,
+      "step": 1350
+    },
+    {
+      "epoch": 1.6,
+      "eval_google_bleu": 0.41982505463129355,
+      "eval_loss": 0.31152355670928955,
+      "eval_runtime": 182.3799,
+      "eval_samples_per_second": 16.477,
+      "eval_steps_per_second": 0.515,
+      "step": 1350
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0008226950354609929,
+      "loss": 0.2903,
+      "step": 1500
+    },
+    {
+      "epoch": 1.77,
+      "eval_google_bleu": 0.41824821175792654,
+      "eval_loss": 0.33445030450820923,
+      "eval_runtime": 182.1203,
+      "eval_samples_per_second": 16.5,
+      "eval_steps_per_second": 0.516,
+      "step": 1500
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0008049645390070922,
+      "loss": 0.2811,
+      "step": 1650
+    },
+    {
+      "epoch": 1.95,
+      "eval_google_bleu": 0.42025291085487376,
+      "eval_loss": 0.3121837377548218,
+      "eval_runtime": 182.2332,
+      "eval_samples_per_second": 16.49,
+      "eval_steps_per_second": 0.516,
+      "step": 1650
+    }
+  ],
+  "max_steps": 8460,
+  "num_train_epochs": 10,
+  "total_flos": 6751858532244480.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0d450feadac456cd19ce450df1036af15bdd3370dd2356a65ffe56aa035065c
+size 3247