tharindu commited on Mar 12

Commit

b216881

•

1 Parent(s): 6b192a5

Upload folder using huggingface_hub

Browse files

Files changed (33) hide show

best_model/config.json +32 -0
best_model/eval_results.txt +1 -0
best_model/generation_config.json +7 -0
best_model/model_args.json +1 -0
best_model/optimizer.pt +3 -0
best_model/pytorch_model.bin +3 -0
best_model/scheduler.pt +3 -0
best_model/special_tokens_map.json +5 -0
best_model/spiece.model +3 -0
best_model/tokenizer_config.json +13 -0
best_model/training_args.bin +3 -0
checkpoint-82420-epoch-10/config.json +32 -0
checkpoint-82420-epoch-10/eval_results.txt +1 -0
checkpoint-82420-epoch-10/generation_config.json +7 -0
checkpoint-82420-epoch-10/model_args.json +1 -0
checkpoint-82420-epoch-10/optimizer.pt +3 -0
checkpoint-82420-epoch-10/pytorch_model.bin +3 -0
checkpoint-82420-epoch-10/scheduler.pt +3 -0
checkpoint-82420-epoch-10/special_tokens_map.json +5 -0
checkpoint-82420-epoch-10/spiece.model +3 -0
checkpoint-82420-epoch-10/tokenizer_config.json +13 -0
checkpoint-82420-epoch-10/training_args.bin +3 -0
config.json +32 -0
eval_results.txt +1 -0
generation_config.json +7 -0
model_args.json +1 -0
predictions.tsv +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +5 -0
spiece.model +3 -0
tokenizer_config.json +13 -0
training_args.bin +3 -0
training_progress_scores.csv +36 -0

best_model/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "google/mt5-base",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

best_model/eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 2.2172138699046156

best_model/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.29.2"
+}

best_model/model_args.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"adafactor_beta1": null, "adafactor_clip_threshold": 1.0, "adafactor_decay_rate": -0.8, "adafactor_eps": [1e-30, 0.001], "adafactor_relative_step": false, "adafactor_scale_parameter": false, "adafactor_warmup_init": false, "adam_betas": [0.9, 0.999], "adam_epsilon": 1e-08, "best_model_dir": "outputs/mt5_base/best_model", "cache_dir": "cache_dir/mt5_base", "config": {}, "cosine_schedule_num_cycles": 0.5, "custom_layer_parameters": [], "custom_parameter_groups": [], "dataloader_num_workers": 0, "do_lower_case": false, "dynamic_quantize": false, "early_stopping_consider_epochs": false, "early_stopping_delta": 0, "early_stopping_metric": "eval_loss", "early_stopping_metric_minimize": true, "early_stopping_patience": 25, "encoding": null, "eval_batch_size": 8, "evaluate_during_training": true, "evaluate_during_training_silent": true, "evaluate_during_training_steps": 3200, "evaluate_during_training_verbose": true, "evaluate_each_epoch": true, "fp16": false, "gradient_accumulation_steps": 1, "learning_rate": 0.0001, "local_rank": -1, "logging_steps": 3200, "loss_type": null, "loss_args": {}, "manual_seed": 777, "max_grad_norm": 1.0, "max_seq_length": 256, "model_name": "google/mt5-base", "model_type": "mt5", "multiprocessing_chunksize": -1, "n_gpu": 1, "no_cache": false, "no_save": false, "not_saved_args": [], "num_train_epochs": 10, "optimizer": "Adafactor", "output_dir": "outputs/mt5_base", "overwrite_output_dir": true, "polynomial_decay_schedule_lr_end": 1e-07, "polynomial_decay_schedule_power": 1.0, "process_count": 78, "quantized_model": false, "reprocess_input_data": true, "save_best_model": true, "save_eval_checkpoints": true, "save_model_every_epoch": true, "save_optimizer_and_scheduler": true, "save_steps": 3200, "scheduler": "constant_schedule_with_warmup", "silent": false, "skip_special_tokens": true, "tensorboard_dir": null, "thread_count": null, "tokenizer_name": null, "tokenizer_type": null, "train_batch_size": 8, "train_custom_parameters_only": false, "use_cached_eval_features": false, "use_early_stopping": false, "use_hf_datasets": false, "use_multiprocessing": false, "use_multiprocessing_for_evaluation": false, "wandb_kwargs": {"name": "google/mt5-base"}, "wandb_project": "DORE", "warmup_ratio": 0.06, "warmup_steps": 4946, "weight_decay": 0.0, "model_class": "T5Model", "dataset_class": null, "do_sample": false, "early_stopping": true, "evaluate_generated_text": true, "length_penalty": 2.0, "max_length": 20, "max_steps": -1, "num_beams": 1, "num_return_sequences": 1, "preprocess_inputs": true, "repetition_penalty": 1.0, "save_recent_only": true, "special_tokens_list": [], "top_k": null, "top_p": null, "use_multiprocessed_decoding": false}

best_model/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:27037223656a24d8c772916b6319ed80390339bcfb83dce8df1fee421d25f5a5
+size 4115589

best_model/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7e390ced4a55692b97939ccb974a61e49404c08c6371269be049677bdf15b209
+size 2329702453

best_model/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1ef095e52949451a9e8de793d05d62f5c3b0e5813a5276d219d2267b351d16f
+size 627

best_model/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

best_model/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

best_model/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "additional_special_tokens": null,
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "tokenizer_file": null,
+  "truncate": true,
+  "unk_token": "<unk>"
+}

best_model/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e51e80640e9ff5dce34b70cef3479b89771a12aa704d4f110d81d3277faf4c1
+size 3259

checkpoint-82420-epoch-10/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "google/mt5-base",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

checkpoint-82420-epoch-10/eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 2.220541107718196

checkpoint-82420-epoch-10/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.29.2"
+}

checkpoint-82420-epoch-10/model_args.json ADDED Viewed

	@@ -0,0 +1 @@

checkpoint-82420-epoch-10/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:33e016756000ceef2f50a84d1d5f68a5189d0d7394b76bee69af32a9ea26ea76
+size 4115589

checkpoint-82420-epoch-10/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55e72c7cab8165e0a23941ace240d2d0a5326be328490a5027eacc9f65bf0194
+size 2329702453

checkpoint-82420-epoch-10/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fd1cccdeb248b7f8999fe406383ed85cd2dac82db6896af46d2e3034942e921
+size 627

checkpoint-82420-epoch-10/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

checkpoint-82420-epoch-10/spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

checkpoint-82420-epoch-10/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "additional_special_tokens": null,
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "tokenizer_file": null,
+  "truncate": true,
+  "unk_token": "<unk>"
+}

checkpoint-82420-epoch-10/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e51e80640e9ff5dce34b70cef3479b89771a12aa704d4f110d81d3277faf4c1
+size 3259

config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "_name_or_path": "google/mt5-base",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 768,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 12,
+  "num_heads": 12,
+  "num_layers": 12,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.29.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

eval_results.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ eval_loss = 2.220541107718196

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.29.2"
+}

model_args.json ADDED Viewed

	@@ -0,0 +1 @@

predictions.tsv ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55e72c7cab8165e0a23941ace240d2d0a5326be328490a5027eacc9f65bf0194
+size 2329702453

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "additional_special_tokens": null,
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "tokenizer_file": null,
+  "truncate": true,
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e51e80640e9ff5dce34b70cef3479b89771a12aa704d4f110d81d3277faf4c1
+size 3259

training_progress_scores.csv ADDED Viewed

	@@ -0,0 +1,36 @@

+global_step,eval_loss,train_loss
+3200,3.712937637765913,5.057405471801758
+6400,2.905575108609114,3.2911882400512695
+8242,2.7959265190672378,2.853649854660034
+9600,2.7053069189183634,3.073988914489746
+12800,2.598468544586141,2.783937692642212
+16000,2.5260997195084194,2.5525145530700684
+16484,2.5120917957191153,2.496119260787964
+19200,2.4730133317964045,2.45068359375
+22400,2.4316554738733736,2.8591012954711914
+24726,2.404509558832686,2.587531566619873
+25600,2.3976969947403117,2.362149953842163
+28800,2.3686348969123134,2.4383420944213867
+32000,2.34564080410707,2.183072090148926
+32968,2.3387362519726484,2.161771059036255
+35200,2.3299681361817086,2.3709380626678467
+38400,2.3126109064579703,2.4710757732391357
+41210,2.289990392025092,2.779668092727661
+41600,2.2940105578669177,2.488783836364746
+44800,2.2787584662148235,1.9512687921524048
+48000,2.2640005605767968,2.470033884048462
+49452,2.2583474377762167,2.5183730125427246
+51200,2.2696747014616254,2.4556238651275635
+54400,2.2541142025947107,2.3518426418304443
+57600,2.2411071817485064,2.156583786010742
+57694,2.2393011853626663,2.141641139984131
+60800,2.2492874684349995,1.8280154466629028
+64000,2.2338435598393773,2.2230215072631836
+65936,2.228032411157015,2.667073965072632
+67200,2.239211855612583,2.353212356567383
+70400,2.23133463323955,1.9642037153244019
+73600,2.220510034119256,1.6380078792572021
+74178,2.2172138699046156,2.428624153137207
+76800,2.2351744157605125,1.8406178951263428
+80000,2.218588370712332,2.2068960666656494
+82420,2.220541107718196,1.5174038410186768