JulienRPA commited on May 30, 2023

Commit

acfbaa1

•

1 Parent(s): f79f78d

Training in progress, step 5000

Browse files

Files changed (20) hide show

added_tokens.json +0 -0
config.json +3 -3
last-checkpoint/added_tokens.json +0 -0
last-checkpoint/config.json +182 -0
last-checkpoint/generation_config.json +10 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/pytorch_model.bin +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/special_tokens_map.json +7 -0
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer_config.json +15 -0
last-checkpoint/trainer_state.json +340 -0
last-checkpoint/training_args.bin +3 -0
last-checkpoint/vocab.txt +0 -0
pytorch_model.bin +2 -2
runs/May30_11-34-29_24b3c2f8c1c8/1685446736.4283254/events.out.tfevents.1685446736.24b3c2f8c1c8.4197.1 +3 -0
runs/May30_11-34-29_24b3c2f8c1c8/events.out.tfevents.1685446736.24b3c2f8c1c8.4197.0 +3 -0
tokenizer.json +0 -0
training_args.bin +1 -1

added_tokens.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

config.json CHANGED Viewed

@@ -84,7 +84,7 @@
     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
-    "vocab_size": 31560
   },
   "decoder_start_token_id": 101,
   "early_stopping": true,
@@ -167,7 +167,7 @@
     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
-    "vocab_size": 31560
   },
   "eos_token_id": 102,
   "is_encoder_decoder": true,
@@ -178,5 +178,5 @@
   "pad_token_id": 0,
   "torch_dtype": "float32",
   "transformers_version": null,
-  "vocab_size": 31560
 }

     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
+    "vocab_size": 34522
   },
   "decoder_start_token_id": 101,
   "early_stopping": true,
     "typical_p": 1.0,
     "use_bfloat16": false,
     "use_cache": true,
+    "vocab_size": 34522
   },
   "eos_token_id": 102,
   "is_encoder_decoder": true,
   "pad_token_id": 0,
   "torch_dtype": "float32",
   "transformers_version": null,
+  "vocab_size": 34522
 }

last-checkpoint/added_tokens.json ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,182 @@

+{
+  "_commit_hash": null,
+  "_name_or_path": "bert2bert_added_vocab",
+  "architectures": [
+    "EncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "decoder_added_vocab",
+    "add_cross_attention": true,
+    "architectures": [
+      "BertModel"
+    ],
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "gradient_checkpointing": false,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": "float32",
+    "torchscript": false,
+    "transformers_version": "4.30.0.dev0",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 34522
+  },
+  "decoder_start_token_id": 101,
+  "early_stopping": true,
+  "encoder": {
+    "_name_or_path": "encoder_added_vocab",
+    "add_cross_attention": false,
+    "architectures": [
+      "BertModel"
+    ],
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": null,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": null,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-12,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 512,
+    "min_length": 0,
+    "model_type": "bert",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": true,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": "float32",
+    "torchscript": false,
+    "transformers_version": "4.30.0.dev0",
+    "type_vocab_size": 2,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 34522
+  },
+  "eos_token_id": 102,
+  "is_encoder_decoder": true,
+  "max_length": 256,
+  "min_length": 16,
+  "model_type": "encoder-decoder",
+  "num_beams": 10,
+  "pad_token_id": 0,
+  "torch_dtype": "float32",
+  "transformers_version": null,
+  "vocab_size": 34522
+}

last-checkpoint/generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "decoder_start_token_id": 101,
+  "early_stopping": true,
+  "eos_token_id": 102,
+  "max_length": 256,
+  "min_length": 16,
+  "num_beams": 10,
+  "pad_token_id": 0,
+  "transformers_version": "4.30.0.dev0"
+}

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc5c4565a2eeff70cdfa809f56396303784b80e53fac72d46654c0ea7985e287
+size 2023671531

last-checkpoint/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09e5447c5a420fbc806e8e14dc7c6ea903db304d2c806e799202be68035b87f8
+size 1014236857

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca0cee2557757561c7727538e570049450e84b7d80b23a8aaefef8b3507bb722
+size 14575

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dd12b75c68171d6b843ea8287729b2926e26ccf6f0ecf6e8495fe66f0329742
+size 627

last-checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

last-checkpoint/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "mask_token": "[MASK]",
+  "model_max_length": 256,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,340 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.074688796680498,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 87.8748,
+      "step": 100
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 52.2042,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 6e-06,
+      "loss": 41.6702,
+      "step": 300
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 37.53,
+      "step": 400
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 1e-05,
+      "loss": 34.6877,
+      "step": 500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 1.2e-05,
+      "loss": 32.3382,
+      "step": 600
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 30.0534,
+      "step": 700
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 28.3898,
+      "step": 800
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8e-05,
+      "loss": 26.4123,
+      "step": 900
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 2e-05,
+      "loss": 24.5056,
+      "step": 1000
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 22.6179,
+      "step": 1100
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 2.4e-05,
+      "loss": 20.67,
+      "step": 1200
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 19.2134,
+      "step": 1300
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 17.463,
+      "step": 1400
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 3e-05,
+      "loss": 16.0075,
+      "step": 1500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 14.3231,
+      "step": 1600
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 12.6556,
+      "step": 1700
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 3.6e-05,
+      "loss": 11.29,
+      "step": 1800
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 3.8e-05,
+      "loss": 9.5837,
+      "step": 1900
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4e-05,
+      "loss": 8.0405,
+      "step": 2000
+    },
+    {
+      "epoch": 0.83,
+      "eval_bleu": 10.0789,
+      "eval_em": 0.0,
+      "eval_gen_len": 36.4,
+      "eval_loss": 7.797267436981201,
+      "eval_rm": 0.0,
+      "eval_runtime": 56.2249,
+      "eval_samples_per_second": 0.889,
+      "eval_steps_per_second": 0.124,
+      "step": 2000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 4.2e-05,
+      "loss": 7.4746,
+      "step": 2100
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 6.8643,
+      "step": 2200
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 6.4667,
+      "step": 2300
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 4.8e-05,
+      "loss": 6.1743,
+      "step": 2400
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 5e-05,
+      "loss": 5.8954,
+      "step": 2500
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 4.976851851851852e-05,
+      "loss": 5.7068,
+      "step": 2600
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 4.9537037037037035e-05,
+      "loss": 5.3428,
+      "step": 2700
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 4.930555555555556e-05,
+      "loss": 5.1605,
+      "step": 2800
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 4.9074074074074075e-05,
+      "loss": 5.0949,
+      "step": 2900
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 4.8842592592592595e-05,
+      "loss": 5.0355,
+      "step": 3000
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 4.9105,
+      "step": 3100
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 4.837962962962963e-05,
+      "loss": 4.6709,
+      "step": 3200
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 4.484,
+      "step": 3300
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 4.791666666666667e-05,
+      "loss": 4.4622,
+      "step": 3400
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 4.768518518518519e-05,
+      "loss": 4.4103,
+      "step": 3500
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 4.745370370370371e-05,
+      "loss": 4.1026,
+      "step": 3600
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 4.722222222222222e-05,
+      "loss": 4.1434,
+      "step": 3700
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 4.699074074074074e-05,
+      "loss": 3.9484,
+      "step": 3800
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 4.675925925925926e-05,
+      "loss": 3.7746,
+      "step": 3900
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 4.652777777777778e-05,
+      "loss": 3.7579,
+      "step": 4000
+    },
+    {
+      "epoch": 1.66,
+      "eval_bleu": 21.9112,
+      "eval_em": 0.0,
+      "eval_gen_len": 38.06,
+      "eval_loss": 4.015448093414307,
+      "eval_rm": 0.0,
+      "eval_runtime": 69.709,
+      "eval_samples_per_second": 0.717,
+      "eval_steps_per_second": 0.1,
+      "step": 4000
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 3.7556,
+      "step": 4100
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 4.6064814814814814e-05,
+      "loss": 3.6522,
+      "step": 4200
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 3.5265,
+      "step": 4300
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 4.5601851851851854e-05,
+      "loss": 3.3769,
+      "step": 4400
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 4.5370370370370374e-05,
+      "loss": 3.2105,
+      "step": 4500
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 4.5138888888888894e-05,
+      "loss": 3.3382,
+      "step": 4600
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 4.490740740740741e-05,
+      "loss": 3.1661,
+      "step": 4700
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 4.467592592592593e-05,
+      "loss": 3.1348,
+      "step": 4800
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 3.0086,
+      "step": 4900
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 4.4212962962962966e-05,
+      "loss": 2.8388,
+      "step": 5000
+    }
+  ],
+  "max_steps": 24100,
+  "num_train_epochs": 10,
+  "total_flos": 1401003864691200.0,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2679f5debc27ed6b83d26c1a3f7af42b017e0d4bff609351d9377d70c2d281c3
+size 4155

last-checkpoint/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ff2dea8806c3a766c2d4c1daf3f962e003428e8f8ac1c2b9f06c96fe76f8fb1
-size 996026489

 version https://git-lfs.github.com/spec/v1
+oid sha256:09e5447c5a420fbc806e8e14dc7c6ea903db304d2c806e799202be68035b87f8
+size 1014236857

runs/May30_11-34-29_24b3c2f8c1c8/1685446736.4283254/events.out.tfevents.1685446736.24b3c2f8c1c8.4197.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:518113374a3d30b7e7ad208c0413307fe831b1491a4c093ccedc6f5c8bad3a57
+size 6302

runs/May30_11-34-29_24b3c2f8c1c8/events.out.tfevents.1685446736.24b3c2f8c1c8.4197.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f10b23b38e20d2d2fbb05814e864a9587741add8d3e4e60246b3cc5d3e7f5995
+size 17316

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7b57b26a1bbcf325616c7b7ce00f0d02fdbc04790c3b9ca67540017bb980b08
 size 4155

 version https://git-lfs.github.com/spec/v1
+oid sha256:2679f5debc27ed6b83d26c1a3f7af42b017e0d4bff609351d9377d70c2d281c3
 size 4155