tharindu commited on Apr 4

Commit

233652f

•

1 Parent(s): 2fb6b91

Upload folder using huggingface_hub

Browse files

Files changed (34) hide show

.gitattributes +1 -0
best_model/config.json +33 -0
best_model/eval_results.txt +1 -0
best_model/generation_config.json +7 -0
best_model/model.safetensors +3 -0
best_model/model_args.json +1 -0
best_model/optimizer.pt +3 -0
best_model/scheduler.pt +3 -0
best_model/special_tokens_map.json +23 -0
best_model/spiece.model +3 -0
best_model/tokenizer_config.json +39 -0
best_model/training_args.bin +3 -0
checkpoint-389550-epoch-10/config.json +33 -0
checkpoint-389550-epoch-10/eval_results.txt +1 -0
checkpoint-389550-epoch-10/generation_config.json +7 -0
checkpoint-389550-epoch-10/model.safetensors +3 -0
checkpoint-389550-epoch-10/model_args.json +1 -0
checkpoint-389550-epoch-10/optimizer.pt +3 -0
checkpoint-389550-epoch-10/scheduler.pt +3 -0
checkpoint-389550-epoch-10/special_tokens_map.json +23 -0
checkpoint-389550-epoch-10/spiece.model +3 -0
checkpoint-389550-epoch-10/tokenizer_config.json +39 -0
checkpoint-389550-epoch-10/training_args.bin +3 -0
config.json +33 -0
eval_results.txt +1 -0
generation_config.json +7 -0
model.safetensors +3 -0
model_args.json +1 -0
predictions.tsv +3 -0
special_tokens_map.json +23 -0
spiece.model +3 -0
tokenizer_config.json +39 -0
training_args.bin +3 -0
training_progress_scores.csv +30 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+predictions.tsv filter=lfs diff=lfs merge=lfs -text

best_model/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "google/mt5-large",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

best_model/eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 1.0354473460490532

best_model/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.35.2"
+}

best_model/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c5c2e569165f4a7769a3934ed87c5418177c63560f20a903aa2a7229f524610
+size 4918393736

best_model/model_args.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"adafactor_beta1": null, "adafactor_clip_threshold": 1.0, "adafactor_decay_rate": -0.8, "adafactor_eps": [1e-30, 0.001], "adafactor_relative_step": false, "adafactor_scale_parameter": false, "adafactor_warmup_init": false, "adam_betas": [0.9, 0.999], "adam_epsilon": 1e-08, "best_model_dir": "outputs/mt5-large/best_model", "cache_dir": "cache_dir/mt5-large", "config": {}, "cosine_schedule_num_cycles": 0.5, "custom_layer_parameters": [], "custom_parameter_groups": [], "dataloader_num_workers": 0, "do_lower_case": false, "dynamic_quantize": false, "early_stopping_consider_epochs": false, "early_stopping_delta": 0, "early_stopping_metric": "eval_loss", "early_stopping_metric_minimize": true, "early_stopping_patience": 25, "encoding": null, "eval_batch_size": 8, "evaluate_during_training": true, "evaluate_during_training_silent": true, "evaluate_during_training_steps": 20000, "evaluate_during_training_verbose": true, "evaluate_each_epoch": true, "flax_model": false, "fp16": false, "gradient_accumulation_steps": 1, "learning_rate": 0.0001, "local_rank": -1, "logging_steps": 20000, "loss_type": null, "loss_args": {}, "manual_seed": 777, "max_grad_norm": 1.0, "max_seq_length": 256, "model_name": "google/mt5-large", "model_type": "mt5", "multiprocessing_chunksize": -1, "n_gpu": 1, "no_cache": false, "no_save": false, "not_saved_args": [], "num_train_epochs": 10, "optimizer": "Adafactor", "output_dir": "outputs/mt5-large", "overwrite_output_dir": true, "polynomial_decay_schedule_lr_end": 1e-07, "polynomial_decay_schedule_power": 1.0, "process_count": 78, "quantized_model": false, "reprocess_input_data": true, "save_best_model": true, "save_eval_checkpoints": true, "save_model_every_epoch": true, "save_optimizer_and_scheduler": true, "save_steps": 20000, "scheduler": "constant_schedule_with_warmup", "silent": false, "skip_special_tokens": true, "tensorboard_dir": null, "thread_count": null, "tokenizer_name": null, "tokenizer_type": null, "train_batch_size": 8, "train_custom_parameters_only": false, "use_cached_eval_features": false, "use_early_stopping": false, "use_hf_datasets": false, "use_multiprocessing": false, "use_multiprocessing_for_evaluation": false, "wandb_kwargs": {"name": "google/mt5-large"}, "wandb_project": "NSINa Caption Generation", "warmup_ratio": 0.06, "warmup_steps": 23373, "weight_decay": 0.0, "model_class": "T5Model", "dataset_class": null, "do_sample": false, "early_stopping": true, "evaluate_generated_text": true, "length_penalty": 2.0, "max_length": 20, "max_steps": -1, "num_beams": 1, "num_return_sequences": 1, "preprocess_inputs": true, "repetition_penalty": 1.0, "save_recent_only": true, "special_tokens_list": [], "top_k": null, "top_p": null, "use_multiprocessed_decoding": false}

best_model/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:531f39eba51572cfd5ba6dd2ce08e7843521a61ad9051b802d4e8baae4ec3006
+size 7521890

best_model/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6d6cdef2b4b8a47a349ce7ab7871bda58136809916bc01fb5b07e65779d7474
+size 1064

best_model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

best_model/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

best_model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "truncate": true,
+  "unk_token": "<unk>"
+}

best_model/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e00343962472cc3db9997ed35a245999cf9b263f93a1124eff6abb09b67a47d7
+size 3704

checkpoint-389550-epoch-10/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "google/mt5-large",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-389550-epoch-10/eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 1.1337052517091362

checkpoint-389550-epoch-10/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.35.2"
+}

checkpoint-389550-epoch-10/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:077a0218a33b361e8d374f3db34c49385c934e4555e31dc6adf2a1af1c734895
+size 4918393736

checkpoint-389550-epoch-10/model_args.json ADDED Viewed

	@@ -0,0 +1 @@

checkpoint-389550-epoch-10/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:723298ac025c6776876af0587b2fc5eaca6032bbc9c29d2043a3e3b86da056bd
+size 7521890

checkpoint-389550-epoch-10/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6a1264c860c847866f910c7d7cb0bd442cf94c71497cb67fb3cbc312147e0836
+size 1064

checkpoint-389550-epoch-10/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-389550-epoch-10/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-389550-epoch-10/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "truncate": true,
+  "unk_token": "<unk>"
+}

checkpoint-389550-epoch-10/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e00343962472cc3db9997ed35a245999cf9b263f93a1124eff6abb09b67a47d7
+size 3704

config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "_name_or_path": "google/mt5-large",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2816,
+  "d_kv": 64,
+  "d_model": 1024,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 24,
+  "num_heads": 16,
+  "num_layers": 24,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.35.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 1.1337052517091362

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.35.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:077a0218a33b361e8d374f3db34c49385c934e4555e31dc6adf2a1af1c734895
+size 4918393736

model_args.json ADDED Viewed

	@@ -0,0 +1 @@

predictions.tsv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3e94eb254882352522fc005b64cb93ebe2b1234e4d606fcd00557548d4c05a1
+size 374969389

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "truncate": true,
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e00343962472cc3db9997ed35a245999cf9b263f93a1124eff6abb09b67a47d7
+size 3704

training_progress_scores.csv ADDED Viewed

	@@ -0,0 +1,30 @@

+global_step,eval_loss,train_loss
+20000,1.3533352100178377,1.3772469758987427
+38955,1.1972888776385475,0.7778810262680054
+40000,1.2012418579677009,1.1660747528076172
+60000,1.1514593845753347,1.0114432573318481
+77910,1.1066529008504704,1.562544345855713
+80000,1.1142177091956762,1.2247307300567627
+100000,1.079081349055715,1.050406813621521
+116865,1.0654804015174295,0.5495889186859131
+120000,1.0799709361416443,0.9274435639381409
+140000,1.051530255415391,1.543618083000183
+155820,1.043040072517677,1.360727071762085
+160000,1.0587784495640369,0.3984397053718567
+180000,1.0472050659669867,1.7353618144989014
+194775,1.0354473460490532,0.7769734859466553
+200000,1.0674884426179443,0.9083607196807861
+220000,1.047787815456347,1.2822097539901733
+233730,1.0410252540970084,1.1120034456253052
+240000,1.0781384579181696,0.7910663485527039
+260000,1.0652686889680312,0.519954264163971
+272685,1.0540275522167768,0.37536683678627014
+280000,1.097668496620081,0.7281966805458069
+300000,1.0844404984394473,0.5648025870323181
+311640,1.0790298091874424,0.5001527667045593
+320000,1.1341959781006066,0.5388402342796326
+340000,1.1237241204593544,0.41208136081695557
+350595,1.1107459652226788,0.25094038248062134
+360000,1.158333722603359,0.6125430464744568
+380000,1.1552275754086767,0.4228903651237488
+389550,1.1337052517091362,0.507048487663269