Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

config.json +191 -0
generation_config.json +10 -0
merges.txt +0 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +51 -0
tokenizer_config.json +57 -0
trainer_state.json +466 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,191 @@

+{
+  "_name_or_path": "patrickvonplaten/longformer2roberta-cnn_dailymail-fp16",
+  "architectures": [
+    "EncoderDecoderModel"
+  ],
+  "decoder": {
+    "_name_or_path": "",
+    "add_cross_attention": true,
+    "architectures": [
+      "RobertaForMaskedLM"
+    ],
+    "attention_probs_dropout_prob": 0.1,
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": 0,
+    "chunk_size_feed_forward": 0,
+    "classifier_dropout": null,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 2,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "gradient_checkpointing": false,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": true,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 514,
+    "min_length": 0,
+    "model_type": "roberta",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 1,
+    "position_embedding_type": "absolute",
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": false,
+    "return_dict_in_generate": false,
+    "sep_token_id": null,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "type_vocab_size": 1,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 50265
+  },
+  "decoder_start_token_id": 0,
+  "encoder": {
+    "_name_or_path": "",
+    "add_cross_attention": false,
+    "architectures": null,
+    "attention_mode": "longformer",
+    "attention_probs_dropout_prob": 0.1,
+    "attention_window": [
+      512,
+      512,
+      512,
+      512,
+      512,
+      512,
+      512,
+      512,
+      512,
+      512,
+      512,
+      512
+    ],
+    "bad_words_ids": null,
+    "begin_suppress_tokens": null,
+    "bos_token_id": 0,
+    "chunk_size_feed_forward": 0,
+    "cross_attention_hidden_size": null,
+    "decoder_start_token_id": null,
+    "diversity_penalty": 0.0,
+    "do_sample": false,
+    "early_stopping": false,
+    "encoder_no_repeat_ngram_size": 0,
+    "eos_token_id": 2,
+    "exponential_decay_length_penalty": null,
+    "finetuning_task": null,
+    "forced_bos_token_id": null,
+    "forced_eos_token_id": null,
+    "gradient_checkpointing": false,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "id2label": {
+      "0": "LABEL_0",
+      "1": "LABEL_1"
+    },
+    "ignore_attention_mask": false,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "is_decoder": false,
+    "is_encoder_decoder": false,
+    "label2id": {
+      "LABEL_0": 0,
+      "LABEL_1": 1
+    },
+    "layer_norm_eps": 1e-05,
+    "length_penalty": 1.0,
+    "max_length": 20,
+    "max_position_embeddings": 4098,
+    "min_length": 0,
+    "model_type": "longformer",
+    "no_repeat_ngram_size": 0,
+    "num_attention_heads": 12,
+    "num_beam_groups": 1,
+    "num_beams": 1,
+    "num_hidden_layers": 12,
+    "num_return_sequences": 1,
+    "onnx_export": false,
+    "output_attentions": false,
+    "output_hidden_states": false,
+    "output_scores": false,
+    "pad_token_id": 1,
+    "prefix": null,
+    "problem_type": null,
+    "pruned_heads": {},
+    "remove_invalid_values": false,
+    "repetition_penalty": 1.0,
+    "return_dict": false,
+    "return_dict_in_generate": false,
+    "sep_token_id": 2,
+    "suppress_tokens": null,
+    "task_specific_params": null,
+    "temperature": 1.0,
+    "tf_legacy_loss": false,
+    "tie_encoder_decoder": false,
+    "tie_word_embeddings": true,
+    "tokenizer_class": null,
+    "top_k": 50,
+    "top_p": 1.0,
+    "torch_dtype": null,
+    "torchscript": false,
+    "type_vocab_size": 1,
+    "typical_p": 1.0,
+    "use_bfloat16": false,
+    "use_cache": true,
+    "vocab_size": 50265
+  },
+  "eos_token_id": 2,
+  "is_encoder_decoder": true,
+  "max_length": 142,
+  "min_length": 56,
+  "model_type": "encoder-decoder",
+  "no_repeat_ngram_size": 3,
+  "pad_token_id": 2,
+  "torch_dtype": "float32",
+  "transformers_version": "4.38.2"
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "bos_token_id": 0,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 2,
+  "max_length": 142,
+  "min_length": 56,
+  "no_repeat_ngram_size": 3,
+  "pad_token_id": 2,
+  "transformers_version": "4.38.2"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55f7a8201aac477cf1c9127712a90a9edbd49a80f2f77e7dd86ee2146c78b8d7
+size 1206970564

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6e0b8ea78bc36ca28b68a30c965b253af82617e7cab7cd7c1162dfd82231163
+size 2239409895

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63fd23f79f918958cb0dbe93549eeabbe2af1235dd38bfa86dbdc7caf9ea1a20
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0eda73623e5c1792f1b626b67e9794340b053f30867c922ffc8a1c038552d5cf
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50264": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 4096,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "LongformerTokenizer",
+  "unk_token": "<unk>",
+  "use_fast": true
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,466 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 4.0,
+  "eval_steps": 397,
+  "global_step": 9536,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.17,
+      "eval_gen_len": 83.5593,
+      "eval_loss": 1.6528608798980713,
+      "eval_rouge1": 50.4957,
+      "eval_rouge2": 32.5323,
+      "eval_rougeL": 40.7567,
+      "eval_rougeLsum": 40.5733,
+      "eval_runtime": 41.984,
+      "eval_samples_per_second": 1.405,
+      "eval_steps_per_second": 0.715,
+      "step": 397
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 8.36017894744873,
+      "learning_rate": 1.9404362416107384e-05,
+      "loss": 2.7418,
+      "step": 500
+    },
+    {
+      "epoch": 0.33,
+      "eval_gen_len": 83.3729,
+      "eval_loss": 1.3848459720611572,
+      "eval_rouge1": 49.9993,
+      "eval_rouge2": 31.5422,
+      "eval_rougeL": 40.7043,
+      "eval_rougeLsum": 40.6632,
+      "eval_runtime": 41.848,
+      "eval_samples_per_second": 1.41,
+      "eval_steps_per_second": 0.717,
+      "step": 794
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 10.013521194458008,
+      "learning_rate": 1.880512943432407e-05,
+      "loss": 1.6117,
+      "step": 1000
+    },
+    {
+      "epoch": 0.5,
+      "eval_gen_len": 84.8983,
+      "eval_loss": 1.3274192810058594,
+      "eval_rouge1": 50.0655,
+      "eval_rouge2": 31.4638,
+      "eval_rougeL": 40.2184,
+      "eval_rougeLsum": 39.9987,
+      "eval_runtime": 42.1731,
+      "eval_samples_per_second": 1.399,
+      "eval_steps_per_second": 0.711,
+      "step": 1191
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 9.272841453552246,
+      "learning_rate": 1.820589645254075e-05,
+      "loss": 1.4861,
+      "step": 1500
+    },
+    {
+      "epoch": 0.67,
+      "eval_gen_len": 87.1864,
+      "eval_loss": 1.3262691497802734,
+      "eval_rouge1": 51.2154,
+      "eval_rouge2": 33.6289,
+      "eval_rougeL": 41.9642,
+      "eval_rougeLsum": 41.7649,
+      "eval_runtime": 43.0575,
+      "eval_samples_per_second": 1.37,
+      "eval_steps_per_second": 0.697,
+      "step": 1588
+    },
+    {
+      "epoch": 0.83,
+      "eval_gen_len": 85.9661,
+      "eval_loss": 1.2881355285644531,
+      "eval_rouge1": 52.2072,
+      "eval_rouge2": 34.2681,
+      "eval_rougeL": 42.7582,
+      "eval_rougeLsum": 42.5683,
+      "eval_runtime": 42.4338,
+      "eval_samples_per_second": 1.39,
+      "eval_steps_per_second": 0.707,
+      "step": 1985
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 10.048806190490723,
+      "learning_rate": 1.7609060402684567e-05,
+      "loss": 1.495,
+      "step": 2000
+    },
+    {
+      "epoch": 1.0,
+      "eval_gen_len": 80.1864,
+      "eval_loss": 1.2640005350112915,
+      "eval_rouge1": 52.1344,
+      "eval_rouge2": 34.3518,
+      "eval_rougeL": 42.9145,
+      "eval_rougeLsum": 42.7837,
+      "eval_runtime": 40.643,
+      "eval_samples_per_second": 1.452,
+      "eval_steps_per_second": 0.738,
+      "step": 2382
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 9.145220756530762,
+      "learning_rate": 1.7009827420901247e-05,
+      "loss": 1.4292,
+      "step": 2500
+    },
+    {
+      "epoch": 1.17,
+      "eval_gen_len": 83.5593,
+      "eval_loss": 1.2814366817474365,
+      "eval_rouge1": 51.9388,
+      "eval_rouge2": 33.6073,
+      "eval_rougeL": 41.9771,
+      "eval_rougeLsum": 41.8638,
+      "eval_runtime": 41.9785,
+      "eval_samples_per_second": 1.405,
+      "eval_steps_per_second": 0.715,
+      "step": 2779
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 9.626166343688965,
+      "learning_rate": 1.641059443911793e-05,
+      "loss": 1.2572,
+      "step": 3000
+    },
+    {
+      "epoch": 1.33,
+      "eval_gen_len": 81.7458,
+      "eval_loss": 1.3041572570800781,
+      "eval_rouge1": 52.685,
+      "eval_rouge2": 34.8664,
+      "eval_rougeL": 43.247,
+      "eval_rougeLsum": 43.2174,
+      "eval_runtime": 40.4041,
+      "eval_samples_per_second": 1.46,
+      "eval_steps_per_second": 0.742,
+      "step": 3176
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 8.85732364654541,
+      "learning_rate": 1.5811361457334612e-05,
+      "loss": 1.2858,
+      "step": 3500
+    },
+    {
+      "epoch": 1.5,
+      "eval_gen_len": 83.4915,
+      "eval_loss": 1.250982403755188,
+      "eval_rouge1": 53.1395,
+      "eval_rouge2": 35.0366,
+      "eval_rougeL": 44.0336,
+      "eval_rougeLsum": 43.8277,
+      "eval_runtime": 41.066,
+      "eval_samples_per_second": 1.437,
+      "eval_steps_per_second": 0.731,
+      "step": 3573
+    },
+    {
+      "epoch": 1.67,
+      "eval_gen_len": 85.7797,
+      "eval_loss": 1.2450958490371704,
+      "eval_rouge1": 53.2435,
+      "eval_rouge2": 34.0265,
+      "eval_rougeL": 43.1606,
+      "eval_rougeLsum": 42.9125,
+      "eval_runtime": 42.4863,
+      "eval_samples_per_second": 1.389,
+      "eval_steps_per_second": 0.706,
+      "step": 3970
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 9.060718536376953,
+      "learning_rate": 1.5212128475551296e-05,
+      "loss": 1.2632,
+      "step": 4000
+    },
+    {
+      "epoch": 1.83,
+      "eval_gen_len": 84.0678,
+      "eval_loss": 1.2505569458007812,
+      "eval_rouge1": 52.9033,
+      "eval_rouge2": 34.6637,
+      "eval_rougeL": 43.0146,
+      "eval_rougeLsum": 42.8985,
+      "eval_runtime": 42.1089,
+      "eval_samples_per_second": 1.401,
+      "eval_steps_per_second": 0.712,
+      "step": 4367
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 7.555502414703369,
+      "learning_rate": 1.4612895493767978e-05,
+      "loss": 1.2367,
+      "step": 4500
+    },
+    {
+      "epoch": 2.0,
+      "eval_gen_len": 82.322,
+      "eval_loss": 1.2485252618789673,
+      "eval_rouge1": 50.1387,
+      "eval_rouge2": 31.1201,
+      "eval_rougeL": 40.0786,
+      "eval_rougeLsum": 40.1657,
+      "eval_runtime": 41.189,
+      "eval_samples_per_second": 1.432,
+      "eval_steps_per_second": 0.728,
+      "step": 4764
+    },
+    {
+      "epoch": 2.1,
+      "grad_norm": 7.1890788078308105,
+      "learning_rate": 1.401366251198466e-05,
+      "loss": 1.1512,
+      "step": 5000
+    },
+    {
+      "epoch": 2.16,
+      "eval_gen_len": 82.9322,
+      "eval_loss": 1.261144757270813,
+      "eval_rouge1": 52.7072,
+      "eval_rouge2": 34.6442,
+      "eval_rougeL": 43.2377,
+      "eval_rougeLsum": 43.1384,
+      "eval_runtime": 41.2591,
+      "eval_samples_per_second": 1.43,
+      "eval_steps_per_second": 0.727,
+      "step": 5161
+    },
+    {
+      "epoch": 2.31,
+      "grad_norm": 7.86561918258667,
+      "learning_rate": 1.341562799616491e-05,
+      "loss": 1.0728,
+      "step": 5500
+    },
+    {
+      "epoch": 2.33,
+      "eval_gen_len": 86.4237,
+      "eval_loss": 1.2699768543243408,
+      "eval_rouge1": 52.3383,
+      "eval_rouge2": 34.7756,
+      "eval_rougeL": 42.9406,
+      "eval_rougeLsum": 42.7658,
+      "eval_runtime": 42.4715,
+      "eval_samples_per_second": 1.389,
+      "eval_steps_per_second": 0.706,
+      "step": 5558
+    },
+    {
+      "epoch": 2.5,
+      "eval_gen_len": 84.3051,
+      "eval_loss": 1.2631828784942627,
+      "eval_rouge1": 52.8233,
+      "eval_rouge2": 35.1768,
+      "eval_rougeL": 43.8642,
+      "eval_rougeLsum": 43.7259,
+      "eval_runtime": 41.727,
+      "eval_samples_per_second": 1.414,
+      "eval_steps_per_second": 0.719,
+      "step": 5955
+    },
+    {
+      "epoch": 2.52,
+      "grad_norm": 7.868692398071289,
+      "learning_rate": 1.2816395014381592e-05,
+      "loss": 1.0826,
+      "step": 6000
+    },
+    {
+      "epoch": 2.66,
+      "eval_gen_len": 82.8644,
+      "eval_loss": 1.2638760805130005,
+      "eval_rouge1": 53.9367,
+      "eval_rouge2": 36.2676,
+      "eval_rougeL": 44.9414,
+      "eval_rougeLsum": 44.7603,
+      "eval_runtime": 42.7574,
+      "eval_samples_per_second": 1.38,
+      "eval_steps_per_second": 0.702,
+      "step": 6352
+    },
+    {
+      "epoch": 2.73,
+      "grad_norm": 7.449892997741699,
+      "learning_rate": 1.2217162032598275e-05,
+      "loss": 1.0921,
+      "step": 6500
+    },
+    {
+      "epoch": 2.83,
+      "eval_gen_len": 82.4237,
+      "eval_loss": 1.2491506338119507,
+      "eval_rouge1": 52.8146,
+      "eval_rouge2": 34.6392,
+      "eval_rougeL": 43.5323,
+      "eval_rougeLsum": 43.4647,
+      "eval_runtime": 42.5398,
+      "eval_samples_per_second": 1.387,
+      "eval_steps_per_second": 0.705,
+      "step": 6749
+    },
+    {
+      "epoch": 2.94,
+      "grad_norm": 7.139917850494385,
+      "learning_rate": 1.1617929050814957e-05,
+      "loss": 1.1129,
+      "step": 7000
+    },
+    {
+      "epoch": 3.0,
+      "eval_gen_len": 83.1356,
+      "eval_loss": 1.2625495195388794,
+      "eval_rouge1": 53.6493,
+      "eval_rouge2": 35.0396,
+      "eval_rougeL": 43.501,
+      "eval_rougeLsum": 43.4039,
+      "eval_runtime": 43.1051,
+      "eval_samples_per_second": 1.369,
+      "eval_steps_per_second": 0.696,
+      "step": 7146
+    },
+    {
+      "epoch": 3.15,
+      "grad_norm": 5.8409600257873535,
+      "learning_rate": 1.1018696069031641e-05,
+      "loss": 0.9783,
+      "step": 7500
+    },
+    {
+      "epoch": 3.16,
+      "eval_gen_len": 84.7797,
+      "eval_loss": 1.293487787246704,
+      "eval_rouge1": 53.245,
+      "eval_rouge2": 35.655,
+      "eval_rougeL": 44.4306,
+      "eval_rougeLsum": 44.482,
+      "eval_runtime": 41.7791,
+      "eval_samples_per_second": 1.412,
+      "eval_steps_per_second": 0.718,
+      "step": 7543
+    },
+    {
+      "epoch": 3.33,
+      "eval_gen_len": 84.1186,
+      "eval_loss": 1.266953706741333,
+      "eval_rouge1": 52.146,
+      "eval_rouge2": 33.0632,
+      "eval_rougeL": 41.4382,
+      "eval_rougeLsum": 41.5159,
+      "eval_runtime": 41.1238,
+      "eval_samples_per_second": 1.435,
+      "eval_steps_per_second": 0.73,
+      "step": 7940
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 8.737879753112793,
+      "learning_rate": 1.0419463087248323e-05,
+      "loss": 0.9771,
+      "step": 8000
+    },
+    {
+      "epoch": 3.5,
+      "eval_gen_len": 82.8475,
+      "eval_loss": 1.275550127029419,
+      "eval_rouge1": 51.7108,
+      "eval_rouge2": 33.5352,
+      "eval_rougeL": 42.4153,
+      "eval_rougeLsum": 42.4572,
+      "eval_runtime": 41.088,
+      "eval_samples_per_second": 1.436,
+      "eval_steps_per_second": 0.73,
+      "step": 8337
+    },
+    {
+      "epoch": 3.57,
+      "grad_norm": 8.45171070098877,
+      "learning_rate": 9.820230105465006e-06,
+      "loss": 0.9841,
+      "step": 8500
+    },
+    {
+      "epoch": 3.66,
+      "eval_gen_len": 84.322,
+      "eval_loss": 1.260237455368042,
+      "eval_rouge1": 53.2394,
+      "eval_rouge2": 34.9695,
+      "eval_rougeL": 43.2182,
+      "eval_rougeLsum": 43.1333,
+      "eval_runtime": 41.5567,
+      "eval_samples_per_second": 1.42,
+      "eval_steps_per_second": 0.722,
+      "step": 8734
+    },
+    {
+      "epoch": 3.78,
+      "grad_norm": 47.454078674316406,
+      "learning_rate": 9.220997123681688e-06,
+      "loss": 0.9643,
+      "step": 9000
+    },
+    {
+      "epoch": 3.83,
+      "eval_gen_len": 81.4915,
+      "eval_loss": 1.27409827709198,
+      "eval_rouge1": 53.5588,
+      "eval_rouge2": 36.0425,
+      "eval_rougeL": 44.2044,
+      "eval_rougeLsum": 44.2287,
+      "eval_runtime": 40.5566,
+      "eval_samples_per_second": 1.455,
+      "eval_steps_per_second": 0.74,
+      "step": 9131
+    },
+    {
+      "epoch": 3.98,
+      "grad_norm": 7.34140157699585,
+      "learning_rate": 8.62176414189837e-06,
+      "loss": 0.9439,
+      "step": 9500
+    },
+    {
+      "epoch": 4.0,
+      "eval_gen_len": 86.1864,
+      "eval_loss": 1.2641756534576416,
+      "eval_rouge1": 53.7305,
+      "eval_rouge2": 35.3844,
+      "eval_rougeL": 43.8211,
+      "eval_rougeLsum": 43.7597,
+      "eval_runtime": 42.1877,
+      "eval_samples_per_second": 1.399,
+      "eval_steps_per_second": 0.711,
+      "step": 9528
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 16688,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 7,
+  "save_steps": 1192,
+  "total_flos": 2.071244574793728e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db073b7f8991a4ca5cb2d52b57ccec8017ce67c286d4cb0797f4071623be282d
+size 4984

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff